این سومین بخش از خلاصه‌ی مجموعه‌ی «دوره‌ی مقدماتی data science» هستش. 

بخش اول - مقدمه

بخش دوم - مقدمه‌ای بر داده‌ها

 

توابع تجمیعی (aggregate functions)

در بخش قبلی با یکی از توابع تجمیعی یعنی «مجموع» آشنا شدیم و جمع مقادیر ستون درآمد رو محاسبه کردیم. عملیات تجمیعی یکی از ابتدایی‌ترین کارهایی هستش که معمولا روی داده‌ها انجام میدیم تا بتونیم به یه خلاصه و جمع‌بندی از اونها دست پیدا کنیم. متداول‌ترینِ این توابع شامل تعداد(Count)، مجموع(Sum)، میانگین(Average)، کمترین مقدار(Min) و بیشترین مقدار(Max) هستش. در زیر نتیجه‌ی اِعمال این توابع روی ردیف داده‌هامون رو می‌بینیم:

 

 

بسته به نوع داده، نتیجه‌ی بعضی توابع تجمیعی ممکنه کاربردی نداشته باشه. مثلا در جدول بالا، عملیات جمع (Sum) روی دما و قیمت، خروجی معناداری تولید نمی‌کنه. نکته‌ی دیگه اینکه روی بعضی داده‌ها، مثل روز هفته که برای دسته‌بندی اطلاعات استفاده میشه، محاسبه‌ی تعداد (Count) کمکی به ما نمی‌کنه و مثل جدول بالا بهتره از تعداد تفکیکی (DCount) استفاده کنیم. 

وقتی داده‌های ما براساس یک یا چند فیلد دسته‌بندی شده باشن، مثلا بر اساس فیلد روزهای هفته یا قیمت، می‌تونیم توابع تجمیعی رو به طور جداگانه روی هر کدوم از دسته‌ها اِعمال کنیم:

در تصویر بالا، «میانگین» دما و بارندگی، و «مجموع» تعداد آگهی و تعداد فروش و مقدار درآمد براساس روزهای هفته به طور جداگانه محاسبه شده. 

وقتی بیشتر از یک دسته در داده‌ها وجود داشته باشه، می‌تونیم داده‌ها رو به طور سلسله‌مراتبی «گروه‌بندی» کنیم. به عنوان مثال اگه تو جدول ابتدای این بخش دقت کنیم می‌بینیم که قیمت تو بعضی روزها 30 سِنت و تو بعضی روزها 50 سِنت هستش، یعنی ردیف‌ها بر اساس قیمت به دو دسته تقسیم میشن. اینجا می‌تونیم ابتدا ردیفها رو براساس قیمت گروه‌بندی کنیم و بعد توابع تجمیعی رو روی روزهای مختلف اِعمال کنیم:

اگه به تصویر زیر دقت کنیم متوجه می‌شیم که مجموع درآمد تو روزهایی که قیمت ۵۰ سِنت بوده (52.00)  با وجود فروش کمتر (104) بیشتر از روزهایی هستش که قیمت ۳۰ سِنت بوده (35.70) با وجود فروش بیشتر (119). شاید بشه نتیجه گرفت که فروش با قیمت ۵۰ سِنت به‌صرفه‌تر هستش. ضمن اینکه می‌بینیم تو روزهای جمعه، وقتی قیمت ۵۰ سِنت بوده، با وجود تعداد آگهی کمتر مقدار فروش و درآمد بیشتر بوده:

 

 

تصویرسازی از داده‌ها

استفاده از نمودار و گراف و به طور کلی تصویرسازی از داده‌ها به ما کمک می‌کنه که سریع‌تر و راحت‌تر بتونیم اطلاعات مورد نیاز رو از داده‌های موجود استخراج کنیم. 

در تصویر زیر یه نمودار خطی (line) ساده رو می‌بینیم که درآمد روزانه رو در بازه‌ی دو هفته‌ای نشون میده. در اینجا درآمد (محور عمودی) به صورت نقطه‌ای متناظر با تاریخ مربوطه (محور افقی) نمایش داده شده و از اتصال این نقاط به هم، این نمودار به دست اومده. 

به طور کلی به محور افقی نمودارها، محور Xها و به محور عمودی نمودارها، محور Yها گفته میشه. نمودارها معمولا شامل توضیح علائم (legend) هم هستن. مثلا تو تصویر بالا می‌فهمیم که خط آبی نمودار نشون‌دهنده‌ی درآمد (Revenue) هستش. مورد بعدی عنوان نمودار هستش که نشون میده نمودار قراره چه چیزی رو به ما اطلاع بده. مثلا در نمودار بالا، "Revenue Over Time" نشون میده که هدف نمودار، نمایش درآمد در طول زمان هستش. 

نمودار دایره‌ای (Pie) نوع دیگه‌ای از نمودارهاست که استفاده ازش متداول هم هست. همونطور که مشخصه این نوع نمودار محور عمودی و افقی نداره و مقادیر رو بر اساس مساحت اختصاص داده شده در سطح دایره نمایش میده. به عنوان مثال نمودار دایره‌ای زیر نشون میده که هر کدوم از روزهای هفته چه درصدی از میزان درآمد رو به خودشون اختصاص میدن. روز یکشنبه با ۱۸ درصد بالاترین سهم و روز جمعه با ۱۲ درصد پایین‌ترین سهم رو در درآمد دارن.  

 

استفاده از نمودار میله‌ای(bar) یا ستونی(column) روش دیگه‌ای در تصویرسازی داده‌هاست. در نمودار میله‌ای زیر، هر میله یا ستون نشون‌دهنده‌ی یه روز هفته و ارتفاع هر میله نشون‌دهنده‌ی مقدار درآمد کسب شده در اون روز هستش. 

اگه چند دسته داده داشته باشیم، مثل روزهای هفته و قیمت فروش، می‌تونیم از چند نوع میله یا ستون استفاده کنیم. مثلا تو نمودار زیر، میله‌های آبی نشون‌دهنده‌ی درآمد با فروش ۳۰ سِنت و میله‌های نارنجی نشون‌دهنده‌ی درآمد با فروش ۵۰ سِنت هستن. 

اگه نیاز داشته باشیم که یک روند رو بر اساس تغییرات دو داده‌ی مرتبط نشون بدیم، می‌تونیم از نمودار نقشه‌ای(plot) استفاده کنیم. نمودار زیر دما رو روی محور Xها، تعداد فروش رو روی محور Yها و تعداد فروش در هر دما رو با یه نقطه‌ی آبی نشون میده. روندی که می‌تونیم بیینیم اینه که هر چه دما بالاتر بوده، تعداد فروش هم بیشتر شده و برعکس. خط نارنجی این روند رو به ما نشون میده.  

 

بخش چهارم: مقدمه‌ای بر آمار