روزنوشته های فربد صالحی

درباره زندگی و برنامه نویسی

۵ مطلب با موضوع «مفاهیم و ابزارها» ثبت شده است

دوره‌ی مقدماتی data science - مقدمه‌ای بر یادگیری ماشین

این پنجمین و آخرین بخش از خلاصه‌ی مجموعه‌ی «دوره‌ی مقدماتی data science» هستش. 

بخش اول - مقدمه

بخش دوم - مقدمه‌ای بر داده‌ها

بخش سوم - تصویرسازی از داده‌ها و تحلیل آنها

بخش چهارم - مقدمه‌ای بر آمار

 

منظور از یادگیری ماشین چیست؟

ما با استفاده از تعدادی داده‌‌ی در دسترس به یه مدل کامپیوتری یاد می‌دیم که چطور بتونه با دریافت داده‌های ورودی‌ جدید، خروجی مناسب رو پیش‌بینی کنه. در واقع مدل از موردهای آموزشی ارائه شده بهش یاد می‌گیره و بعد از اون ما می‌تونیم از مدلِ آموزش دیده برای پیش‌بینی داده‌های جدید استفاده کنیم. 

 

برای موفقیت در درک این موضوع، نکته‌ی کلیدی توجه به این مساله است که اگه کامپیوترها فقط در یه کار قوی باشن، اون کار اجرای محاسباته. به همین دلیل هستش که کامپیوترهای اولیه به عنوان «موتور محاسبه» شناخته می‌شدن. برای اینکه یه کامپیوتر دارای هوش پیش‌بینی از روی داده‌های موجود باشه، ما نیاز به راهی داریم که روش درست محاسبه رو به اون کامپیوتر یاد بدیم.

 در حالت خیلی کلی،‌ یادگیری ماشین به دو دسته‌ی «با نظارت» و «بدون نظارت» تقسیم می‌شه. در یادگیری با نظارت ما به منظور آموزش، تعدادی جفت ورودی-خروجیِ داده به سیستم ارائه می‌دیم تا با استفاده از اونها یاد بگیره که برای ورودی جدید، چه خروجی باید تولید کنه. اما در یادگیری بدون نظارت، داده‌های ورودی به سیستم به خروجی مشخصی متناظر یا اصطلاحا برچسب‌گذاری نشدن و اصولا هدف هم در اینجا اینه که سیستم بتونه الگوهای پنهان رو در داده‌های ورودی تشخیص بده و اونها رو به صورت درستی دسته‌بندی کنه. 

فرض می‌کنیم می‌خوایم از داده‌هایی که در مورد دمای هوا، میزان بارندگی و تعداد آگهی‌های پخش شده در روزهای مختلف داریم استفاده کنیم و با استفاده از تعداد فروش لیموناد در اون روزها و یادگیری ماشین، تعداد فروش رو در یه روز خاص پیش‌بینی کنیم. 

همونطور که در تصویر بالا می‌بینیم، مجموعه‌ داده‌ی [27.0,0.2,17] به عدد 12 برچسب‌گذاری شده. مشخصه که فقط با استفاده از داده‌ی یک روز نمی‌شه فرایند تعمیم دادن رو بخوبی انجام داد. بنابراین از داده‌های تعداد روزهای بیشتری برای آموزش دادنِ مدل استفاده می‌کنیم. 

 بعد از اینکه به مدل آموزش دادیم، می‌تونیم یه تابع تعمیم داشته باشیم و از اون برای محاسبه‌ی برچسب (Y) بر اساس داده‌های ورودی ([X1, X2, X3]) استفاده کنیم. 

نوع دیگه‌ای از یادگیری با نظارت، «طبقه‌بندی» نامیده میشه. ساده‌ترین نوع طبقه‌بندی از نوع «دوتایی» یا باینری هستش که در اون، مدل باید پیش‌بینی کنه که یه ورودی به کدوم طبقه تعلق خواهد داشت. معمولا یکی از طبقه‌ها به عنوان صحیح (true) و دیگری به عنوان غلط (false) در نظر گرفته میشه. به عنوان مثال در داده‌های مربوط به فروش لیموناد، ما ثبت کرده‌ایم که در کدام روزها سود کرده‌ایم و در کدام روزها سود نکرده‌ایم و اطلاعات مربوط به دمای هوا، میزان بارندگی و تعداد آگهی‌ها رو هم در اختیار داریم. 

همونطور که در تصویر بالا مشخصه،‌ در این نوع یادگیری هم با ارائه‌ی داده‌های موجود به مدل و آموزش مدل، به یه تابع تعمیم می‌رسیم که خروجی اون 0 یا 1 و در واقع غلط یا درست خواهد بود. 

نکته‌ای که در اینجا می‌تونیم بهش اشاره کنیم اینه که خروجی این تابع می‌تونه حتی مقداری بین صفر و یک باشه و ما یه مقدار آستانه، مثلا 0.5 یا 0.25 داشته باشیم که فقط مقدار بیشتر از این مقدار آستانه به عنوان درست در نظر گرفته بشه و بنا به نیازهای مختلف، این مقدار تغییر کنه. 

 

۰ نظر
فربد صالحی

دوره‌ی مقدماتی data science - مقدمه‌ای بر آمار

این چهارمین بخش از خلاصه‌ی مجموعه‌ی «دوره‌ی مقدماتی data science» هستش. 

بخش اول - مقدمه

بخش دوم - مقدمه‌ای بر داده‌ها

بخش سوم - تصویرسازی از داده‌ها و تحلیل آنها

 

تحلیل آماری

تجزیه و تحلیل آماری رو میشه هسته‌ی اصلی data science دونست. با استفاده از آمار میشه به چگونگی توزیع داده‌ها، تاثیر اونها بر هم و موارد بسیار زیاد دیگه‌ای پی‌برد. نقطه‌ی شروع برای استفاده از آمار در تجزیه و تحلیل داده‌ها، درک «آمار توصیفی» هستش که با استفاده از اون می‌تونیم توزیع داده‌هامون رو تحلیل کنیم. 

اگه به ستون دما در جدول اطلاعات فروش لیموناد که در بخش‌های قبلی ازش استفاده کردیم توجه کنیم، به چه نتایجی از بازه‌ی دماها می‌رسیم؟

کمترین مقدار 20.0 هستش که در «نرم‌افزار اکسل» با تابع ()MIN=، بیشترین مقدار 64.2 هستش که در اکسل با تابع ()MAX= و متوسط دما که با جمع مقادیر و تقسیم اون بر تعداد به دست میاد برابر 44.62 هستش و در اکسل با استفاده از تابع ()AVERAGE= میشه بهش رسید. همونطور که مشخصه مقدار متوسط به احتمال زیاد اصلا بین داده‌های موجود وجود نداره.

یه روش دیگه در تحلیل داده‌ها محاسبه‌ی «میانه» هستش. برای این کار داده‌ها رو از کوچک به بزرگ مرتب می‌کنیم و داده‌ی وسط رو انتخاب کنیم، که اگه این رو روی دماهای ذکر شده در بالا اجرا کنیم، به 46.2 می‌رسیم. اگر هم تعداد داده‌ها زوج باشه،‌ از میانگین دو داده‌ی وسط استفاده می‌کنیم. در اکسل برای رسیدن به این مقدار از تابع ()MEDIAN= استفاده میشه. 

گاهی ممکنه نیاز داشته باشیم بدونیم که در یه بازه‌ی زمانی چه داده‌ای بیشتر از بقیه تکرار شده که بهش «مُد» گفته میشه. در اعداد تصویر بالا عدد 46.2 دوبار ذکر شده در حالیکه بقیه‌ اعداد یک بار اومدن. در اکسل از تابع ()MODE= برای رسیدن به این مفهوم استفاده میشه. گاهی ممکنه چند عدد مُد باشن، یعنی چند تا عدد داشته باشیم که مثلا دوبار در فهرست داده‌ها اومده باشن. 

برای تصویرسازی از فراوانی داده‌ها میشه از نمودار «هیستوگرام» استفاده کرد. در این نمودار، داده‌ها در دسته‌هایی با بازه‌ی مشخص در محور افقی و تعداد اعضای هر دسته در محور عمودی نمایش داده میشه. نمودار هیستوگرام اعداد بالا به صورت زیر هستش و همونطور که مشخصه، اعداد در بازه‌هایی به طول ۱۰ در محور افقی قرار گرفتن. در این نمودار خیلی سریع می‌تونیم متوجه شیم که بیشترِ روزها (۵ روز) دمایی در بازه‌ی ۴۰ تا ۵۰ داشتن. 

 

ما معمولا برای اینکه یه دید کلی از داده‌ها داشته باشیم، به خصوص وقتی حجم داده‌ها زیاده، از محاسبه‌ی میانگین استفاده می‌کنیم. اما گاهی ممکنه میانگین ما رو به اشتباه بندازه. به عنوان مثال، اگه دو مجموعه داده داشته باشیم، یکی شامل ۱ و ۹ و دیگری شامل ۶ و ۴، میانگین هر دو مجموعه میشه ۵. اگه در یه گزارش فقط عدد میانگین‌ها رو بگیم، ممکنه این برداشت بوجود بیاد که اعداد دو مجموعه به هم نزدیکن. در حالیکه می‌بینیم در مجموعه‌ی اول ۸ واحد و در مجموعه‌ی دوم ۲ واحد اختلاف بین اعداد وجود داره، یعنی پراکندگی داده‌ها تو مجموعه‌ی اول بیشتره. برای حل این مساله از مفهوم «انحراف معیار» و برای محاسبه‌ی انحراف معیار از مفهوم «واریانس» استفاده می‌کنیم. فرمول ریاضی واریانس به صورت زیر هستش:

ممکنه در ظاهر پیچیده به نظر بیاد ولی ساده است. μ میانگین داده‌ها و N تعداد داده‌ها است.Xهم عضو iاُم مجموعه. در واقع معنیش میشه اینکه اول میانگین داده‌ها محاسبه و بعد اختلافش با هرکدوم از داده‌ها به توان ۲ می‌رسه. بعد مجموع اونها تقسیم بر تعداد داده‌ها میشه. 

برای مجموعه‌ی اول و دوم در مثال بالا، میانگین داده‌ها برابر با ۵ هستش. برای مجموعه‌ی اول:

۳۲  = ۲(۹-۵) + ۲(۱-۵) 

حالا تقسیم ۳۲ بر تعداد اعداد یعنی ۲، واریانس رو به ما میده: ۱۶. اما برای مجموعه‌ی دوم: 

۲ = ۲(۶-۵) + ۲(۴-۵) 

و اگه ۲ رو تقسیم بر تعداد اعداد یعنی ۲ کنیم واریانس میشه ۱. اون چیزی که ما دنبالش بودیم انحراف معیار بود که در واقع با محاسبه‌ی «جذر» یا ریشه‌ی دوم واریانس به دست میاد. جذر یا ریشه‌ی دوم ۱۶ میشه ۴ و جذر یا ریشه‌ی دوم ۱ هم همون ۱ هستش. این اعداد به علت سادگی مجموعه‌ی داده‌ی ما، با چشم هم قابل ملاحظه است. یعنی فاصله‌ی ۱ و ۹ با عدد ۵ (میانگین) برابر ۴ و فاصله‌ی ۴ و ۶ با عدد ۵ برابر ۱ هستش. همونطور که واضحه، هر چقدر که پراکندگی داده‌ها کمتر باشه انحراف معیار هم کمتر خواهد بود. در اکسل، برای محاسبه‌ی واریانس از تابع ()VAR.P= و برای محاسبه‌ی انحراف معیار از تابع ()STDEV.P= استفاده میشه. 

نمودار هیستوگرام نشون میده که نمونه داده‌های مربوط به دما که دیدیم، از «توزیع نرمال» پیروی می‌کنه. در یه توزیع نرمال، میانگین، میانه، مُد و خط تقارن در وسط قرار دارند:

 

طبیعتا همه‌ی داده‌ها از توزیع نرمال پیروی نمی‌کنن. به عنوان مثال، در تصویر زیر داده‌های مربوط به مقدار بارندگی، نمودار هیستوگرام و مقادیر میانگین و میانه و مُد مربوطه رو می‌بینیم. مفهومی که بوسیله نمودار زیر می‌تونیم بهش بپردازیم تقارن تابع توزیع یا «چولگی» (skewness) هستش. این نمودار دارای چولگی به راست (right skewed) هستش. 

رابطه بین فیلدهای مختلف داده‌ها

گاهی نیاز داریم که رابطه‌ی بین چند فیلد از یه مجموعه‌ی داده رو بدونیم. مثلا می‌خوایم بدونیم چه رابطه‌ای بین دمای هوا و میزان فروش لیموناد برقراره. قبلا هم دیدیم که برای این کار از نمودار نقشه استفاده می‌کنیم و روند حاکم بر فیلدها رو بدست میاریم. این همون مفهوم «همبستگی» (correlation) هستش و میشه به صورت عددی میزان این همبستگی رو محاسبه کرد. برای این کار تو اکسل از تابع (,)CORREL= استفاده میشه.

همبستگی دو متغیر، مقداری بین -۱ تا +۱ داره. هر چقدر مقدار همبستگی به ۱ نزدیک‌تر باشه (+۱ یا -۱)، نشان‌دهنده‌ی قویتر بودن رابطه‌ی خطی بین دو متغیر هستش. رابطه‌ی خطی یعنی تغییر یکی از متغیرها، مقدار متغیر دیگر را هم تغییر می‌دهد که این تغییرها می‌توانند در یک جهت یا در خلاف جهت باشند. در این صورت می‌شه روی نمودار نقشه‌، خطی فرضی با شیب مثبت یا منفی (بر اساس منفی یا مثبت بودن همبستگی) بین نقاط رسم کرد. اما هر چقدر مقدار همبستگی به صفر نزدیک‌تر باشه، نشان‌دهنده‌ی پراکندگی داده‌ها و عدم ارتباط بین تغییرات اونهاست. 

در تصویر بالا، بعد از محاسبه می‌بینیم که میزان همبستگی بین دما و تعداد فروش برابر با 0.93 هستش که خیلی به +۱ نزدیکه و روی نمودار هم می‌بینیم که خطی با شیب مثبت تونستیم بین نقاط رسم کنیم. 

نکته‌ی آخر در این مورد اینکه، همبستگیِ زیاد بین دو فیلد لزوما به این معنی نیست که تغییر یک فیلد داده، «دلیلِ» تغییر در فیلد دیگه است. بلکه ممکنه فیلد سومی روی هر دو اثر گذاشته باشه یا حتی به طور تصادفی این همبستگی بینشون دیده بشه. 

 

بخش پنجم - مقدمه‌ای بر یادگیری ماشین

 

 

 

۰ نظر
فربد صالحی

دوره‌ی مقدماتی data science - تصویرسازی از داده‌ها و تحلیل آنها

این سومین بخش از خلاصه‌ی مجموعه‌ی «دوره‌ی مقدماتی data science» هستش. 

بخش اول - مقدمه

بخش دوم - مقدمه‌ای بر داده‌ها

 

توابع تجمیعی (aggregate functions)

در بخش قبلی با یکی از توابع تجمیعی یعنی «مجموع» آشنا شدیم و جمع مقادیر ستون درآمد رو محاسبه کردیم. عملیات تجمیعی یکی از ابتدایی‌ترین کارهایی هستش که معمولا روی داده‌ها انجام میدیم تا بتونیم به یه خلاصه و جمع‌بندی از اونها دست پیدا کنیم. متداول‌ترینِ این توابع شامل تعداد(Count)، مجموع(Sum)، میانگین(Average)، کمترین مقدار(Min) و بیشترین مقدار(Max) هستش. در زیر نتیجه‌ی اِعمال این توابع روی ردیف داده‌هامون رو می‌بینیم:

 

 

بسته به نوع داده، نتیجه‌ی بعضی توابع تجمیعی ممکنه کاربردی نداشته باشه. مثلا در جدول بالا، عملیات جمع (Sum) روی دما و قیمت، خروجی معناداری تولید نمی‌کنه. نکته‌ی دیگه اینکه روی بعضی داده‌ها، مثل روز هفته که برای دسته‌بندی اطلاعات استفاده میشه، محاسبه‌ی تعداد (Count) کمکی به ما نمی‌کنه و مثل جدول بالا بهتره از تعداد تفکیکی (DCount) استفاده کنیم. 

وقتی داده‌های ما براساس یک یا چند فیلد دسته‌بندی شده باشن، مثلا بر اساس فیلد روزهای هفته یا قیمت، می‌تونیم توابع تجمیعی رو به طور جداگانه روی هر کدوم از دسته‌ها اِعمال کنیم:

در تصویر بالا، «میانگین» دما و بارندگی، و «مجموع» تعداد آگهی و تعداد فروش و مقدار درآمد براساس روزهای هفته به طور جداگانه محاسبه شده. 

وقتی بیشتر از یک دسته در داده‌ها وجود داشته باشه، می‌تونیم داده‌ها رو به طور سلسله‌مراتبی «گروه‌بندی» کنیم. به عنوان مثال اگه تو جدول ابتدای این بخش دقت کنیم می‌بینیم که قیمت تو بعضی روزها 30 سِنت و تو بعضی روزها 50 سِنت هستش، یعنی ردیف‌ها بر اساس قیمت به دو دسته تقسیم میشن. اینجا می‌تونیم ابتدا ردیفها رو براساس قیمت گروه‌بندی کنیم و بعد توابع تجمیعی رو روی روزهای مختلف اِعمال کنیم:

اگه به تصویر زیر دقت کنیم متوجه می‌شیم که مجموع درآمد تو روزهایی که قیمت ۵۰ سِنت بوده (52.00)  با وجود فروش کمتر (104) بیشتر از روزهایی هستش که قیمت ۳۰ سِنت بوده (35.70) با وجود فروش بیشتر (119). شاید بشه نتیجه گرفت که فروش با قیمت ۵۰ سِنت به‌صرفه‌تر هستش. ضمن اینکه می‌بینیم تو روزهای جمعه، وقتی قیمت ۵۰ سِنت بوده، با وجود تعداد آگهی کمتر مقدار فروش و درآمد بیشتر بوده:

 

 

تصویرسازی از داده‌ها

استفاده از نمودار و گراف و به طور کلی تصویرسازی از داده‌ها به ما کمک می‌کنه که سریع‌تر و راحت‌تر بتونیم اطلاعات مورد نیاز رو از داده‌های موجود استخراج کنیم. 

در تصویر زیر یه نمودار خطی (line) ساده رو می‌بینیم که درآمد روزانه رو در بازه‌ی دو هفته‌ای نشون میده. در اینجا درآمد (محور عمودی) به صورت نقطه‌ای متناظر با تاریخ مربوطه (محور افقی) نمایش داده شده و از اتصال این نقاط به هم، این نمودار به دست اومده. 

به طور کلی به محور افقی نمودارها، محور Xها و به محور عمودی نمودارها، محور Yها گفته میشه. نمودارها معمولا شامل توضیح علائم (legend) هم هستن. مثلا تو تصویر بالا می‌فهمیم که خط آبی نمودار نشون‌دهنده‌ی درآمد (Revenue) هستش. مورد بعدی عنوان نمودار هستش که نشون میده نمودار قراره چه چیزی رو به ما اطلاع بده. مثلا در نمودار بالا، "Revenue Over Time" نشون میده که هدف نمودار، نمایش درآمد در طول زمان هستش. 

نمودار دایره‌ای (Pie) نوع دیگه‌ای از نمودارهاست که استفاده ازش متداول هم هست. همونطور که مشخصه این نوع نمودار محور عمودی و افقی نداره و مقادیر رو بر اساس مساحت اختصاص داده شده در سطح دایره نمایش میده. به عنوان مثال نمودار دایره‌ای زیر نشون میده که هر کدوم از روزهای هفته چه درصدی از میزان درآمد رو به خودشون اختصاص میدن. روز یکشنبه با ۱۸ درصد بالاترین سهم و روز جمعه با ۱۲ درصد پایین‌ترین سهم رو در درآمد دارن.  

 

استفاده از نمودار میله‌ای(bar) یا ستونی(column) روش دیگه‌ای در تصویرسازی داده‌هاست. در نمودار میله‌ای زیر، هر میله یا ستون نشون‌دهنده‌ی یه روز هفته و ارتفاع هر میله نشون‌دهنده‌ی مقدار درآمد کسب شده در اون روز هستش. 

اگه چند دسته داده داشته باشیم، مثل روزهای هفته و قیمت فروش، می‌تونیم از چند نوع میله یا ستون استفاده کنیم. مثلا تو نمودار زیر، میله‌های آبی نشون‌دهنده‌ی درآمد با فروش ۳۰ سِنت و میله‌های نارنجی نشون‌دهنده‌ی درآمد با فروش ۵۰ سِنت هستن. 

اگه نیاز داشته باشیم که یک روند رو بر اساس تغییرات دو داده‌ی مرتبط نشون بدیم، می‌تونیم از نمودار نقشه‌ای(plot) استفاده کنیم. نمودار زیر دما رو روی محور Xها، تعداد فروش رو روی محور Yها و تعداد فروش در هر دما رو با یه نقطه‌ی آبی نشون میده. روندی که می‌تونیم بیینیم اینه که هر چه دما بالاتر بوده، تعداد فروش هم بیشتر شده و برعکس. خط نارنجی این روند رو به ما نشون میده.  

 

بخش چهارم: مقدمه‌ای بر آمار

 

۰ نظر
فربد صالحی

دوره‌ی مقدماتی data science - مقدمه ای بر داده‌ها

این دومین بخش از خلاصه‌ی مجموعه‌ی «دوره‌ی مقدماتی data science» هستش. 

بخش اول - مقدمه

چیزی که مشخصه اینه که data science در مورد کاوش داده‌هاست. اما واقعا به چه چیزی داده گفته میشه؟

با یه مثال ساده شروع می‌کنیم. فرض می‌کنیم که «رُزی» تو وقت آزادش کنار خیابون لیموناد می‌فروشه و به دقت اطلاعات فروشش رو به صورت زیر ثبت میکنه:

 

 

همونطور که مشخصه، رُزی تاریخ (date)، روز هفته (day)، دما (temperature)، میزان بارندگی (rainfall)، تعداد برگه‌های تبلیغاتی که پخش کرده (flyers)، قیمت (price) و تعداد فروش (sales) رو ثبت کرده. در نتیجه می‌تونه آمار فروشش رو تجزیه و تحلیل کنه.

ستون Date از نوع داده‌ی «زمانی» هستش. این نوع داده‌ها ترتیب مشخصی دارن. مثلا ۲ ژانویه بعد از ۱ ژانویه و قبل از ۳ ژانویه است و به همین ترتیب. روی این نوع داده میشه عملیات محاسباتی انجام داد که البته متفاوت با عملیات محاسباتی‌ای هستش که روی داده‌های عددی انجام میشه. 

ستون Day نمونه‌ای از نوع داده‌ی «متنی» هستش. از این نوع داده میشه برای دسته بندی ردیف‌ها استفاده کرد. مثلا ردیف‌های مربوط به روزهای پنجشنبه و جمعه رو به عنوان اطلاعات مربوط به آخر هفته در نظر می‌گیریم.

بقیه ستون‌ها از نوع داده‌‌ی «عددی» هستن. ستون‌های دما و بارندگی از نوع اعداد «پیوسته» و ستون‌های آگهی و فروش از نوع اعداد «گسسته» هستن. وقتی می‌گیم عدد فروش از نوع گسسته است، یعنی تعداد فروش نمی‌تونه مثلا ده تا و نیم باشه، یا ده تاست یا یازده تا.

اما ستون قیمت داستانش یه مقدار متفاوته. با وجود اینکه از نظر مفهومی نوع داده‌ی عددیش از نوع پیوسته است، اما اگه به مقادیر نگاه کنیم می‌بینیم که تعداد مشخصی قیمت در ردیف‌ها ذکر شده: 0.30 و 0.50. بنابراین قیمت رو هم از نوع داده‌ی گسسته در نظر می‌گیریم. 

یکی از معمول‌ترین عملیات روی داده‌ها، «مرتب‌سازی» هستش. بر اساس اینکه داده‌ها بر چه مبنایی مرتب میشن،‌ میشه اطلاعات متفاوتی استخراج کرد.

مثلا وقتی داده‌های بالا رو بر اساس میزان فروش مرتب کنیم (ستون Sales)، تعیین اینکه کمترین و بیشترین فروش در چه دمایی بوده خیلی ‌سریع و راحت انجام میشهداده‌ها میتونن به صورت «صعودی» (سمت چپ) یا «نزولی» (سمت راست) مرتب بشن:

 

 

حالا اگه داده‌ها رو بر اساس ستون آگهی‌ها (Flyers) به صورت نزولی مرتب کنیم، به یه مورد تقریبا غیرعادی در داده‌ها می‌رسیم. بیشترین تعداد برگه‌ی آگهی که تو یه روز پخش شده 99 تاست که با تعداد بعد از خودش، یعنی 33 تفاوت فاحشی داره:

 

ممکنه رُزی یه روز اتفاقا تعداد زیادی برگه‌ی آگهی پخش کرده باشه. یا یه اشتباه تایپی باشه، مثلا به جای 19 نوشته 99. ما نمی‌دونیم کدومشون بوده، اما خوبه که موقع تجزیه و تحلیل بدونیم که همچین داده‌ی غیرعادی‌ای اینجا داریم. 

غیر از مرتب‌سازی، «فیلتر» فیلدها هم اطلاعات مفیدی به ما میده. مثلا برای بررسی فروش در روزهایی که دمای هوا کمتر از ۳۰ درجه بوده، می‌تونیم ستون Temperature رو با اعداد کوچکتر از ۳۰ فیلتر کنیم.

 

گاهی برحسب نیاز میشه «فیلدهای جدید»ی بر اساس فیلدهای موجود اضافه کرد. مثلا فیلد درآمد (Revenue) رو میشه با ضرب فیلدهای قیمت (Price) و تعداد فروش (Sales) اضافه کرد. همچنین با جمع مقادیر یه فیلد، مثلا درآمد، میشه به «داده‌ی جدید»ی مثل درآمد کل رسید:

 

 

نکته‌ی قابل ذکر دیگه اینه که وقتی حجم داده‌ها کمه، شاید بشه با یه نگاه چشمی داده‌ها رو با هم مقایسه کرد. اما وقتی تعداد ردیف‌ها زیاد شد، مقایسه‌ی داده‌ها کار سختی میشه. این‌طور مواقع میشه از روش‌هایی برای ساده‌سازی کار استفاده کرد. 

یه روش استفاده از رنگ هستش. مثلا تو ستون دما، دماهای بالاتر رو میشه پر رنگ‌تر نشون داد. یا مثلا بر اساس شرط خاصی، از رنگ‌های مختلفی استفاده کرد. به فرض تو ستون درآمد، ۲۵ درصد از بالاترین درآمدها  با رنگ سبز و ۲۵ درصد از پایین‌ترین درآمدها با رنگ قرمز نشون داده بشه. حتی از نمودار میله‌ای هم برای مقایسه‌ی داده‌ها میشه استفاده کرد. به فرض در ستون میزان بارش، بارش بیشتر دارای میله‌ی بلندتری خواهد بود:

 

 

به عنوان یه مثال، تو تصویر بالا میشه خیلی سریع و راحت متوجه شد که پایین‌ترین درآمد تو روزایی بوده که بیشترین بارندگی رو داشتن.

بخش سوم - نصویرسازی از داده‌ها و تحلیل آنها

 

۰ نظر
فربد صالحی

دوره‌ی مقدماتی data science - مقدمه

 در حال چرخ‌زدن تو اینترنت، به لینک یه دوره‌ی مقدماتی و رایگان در زمینه‌ی "Data Science" با عنوان "introduction to data science" برخوردم که در وبسایت edx.org قرار گرفته و توسط «مایکروسافت» تهیه شده.

معرفی کننده‌ی لینک، خودش فعالِ این حوزه بوده و کیفیت دوره رو تایید کرده. ازونجایی که یه مدتی بود علاقه داشتم شناختی از مفاهیم این حوزه به دست بیارم، تصمیم گرفتم این دوره رو که ویدئویی هستش ببینم و نکاتش رو طی چند پُست یادداشت کنم.

 

 اهداف این دوره:

۱- فهمیدن اینکه Data Science چیه و کسی که تو این زمینه فعالیت میکنه (Data scientist) عملا چه کاری انجام میده؟

۲- آشنایی با روش‌های پایه‌ای کار با داده، اصول تحلیل آماری و یادگیری ماشینی (Machine Learning).

۳- شناخت مهارت‌های لازم برای موفقیت به عنوان یک Data Scientist.

 

چه کسایی از فعالیت در حوزه‌ی Data Science لذت خواهند برد؟

فعالیت در این حوزه، برای افراد علاقه‌مند به حل مسائل پیچیده‌ای که معمولا کسب و کارها باهاش مواجه میشن، می‌تونه لذت‌بخش باشه. کسب و کارها نیاز به پیش‌بینی وقایع دارن و همینطور میخوان بدونن که چطور می‌تونن از داده‌ها برای بهبود وضعیتشون و خلق ارزش بیشتر استفاده کنن.  

همچنین افراد فعال در این حوزه باید قادر به تعامل و همکاری با افرادی با زمینه‌های کاری مختلف باشن، چون Data Scientist های همکار ممکنه از حوزه‌های متنوعی مثل شیمی، بیولوژی، روانشناسی، علوم کامپیوتر و ... اومده باشن. 

 

یک روز کاری معمول برای یه Data Scientist چطور سپری میشه؟

به عنوان یه Data Scientist، اکثریت زمان کاری شما به تعامل با داده‌ها و بررسی اونها سپری میشه. شما داده‌های خام ورودی رو میگیری و سعی می‌کنی که اونها رو به شکلی تغییر بدی که بشه باهاشون خروجی ارزشمندی خلق کرد. 

همچنین کار شما میتونه پاکسازی داده‌های موجود باشه، به نحوی که به داده‌هایی قابل اعتماد و قابل استفاده برای کسب و کارها تبدیل بشن. 

 

مشخصه‌های افرادی که میتونن به عنوان یه Data Scientist موفق بشن چیه؟

۱- کسایی که تجزیه و تحلیل داده‌ها رو کار جالبی میدونن و کنجکاون که بدونن چطور میشه از داده‌ها برای بهبود کسب و کارها استفاده کرد.

۲- افرادی که یادگیری‌شون سریعه و توانایی خوبی در ترکیب روش‌های مختلف برای حل مساله دارن. میدونن که برای رسیدن به چیزی که دنبالشن، باید چه سوالایی بپرسن.

۳- اونایی که بتونن خودشون رو با تکنولوژی‌های جدید سازگار کنن، چون هر روز روش‌ها و الگوریتم‌های جدیدی برای کار با داده‌ها ارائه میشه.

۴- و افرادی که علاقه‌مند به ایجاد خروجی‌های تصویری از داده‌ها، مثل نمودارها هستن.

 

داشتن چه مهارت‌هایی برای تبدیل شدن به یه Data Scientist موفق کلیدی هستش؟

چندتا مهارت پایه‌ای وجود داره که به طور روزانه مورد استفاده قرار می‌گیره: آمار، ریاضیات، بعضی زبان‌های برنامه‌نویسی مثل "R" و «پایتون» و  بعضی ابزارهای تصویرسازی از داده‌ها مثل «اکسل» و بعضی کتابخانه‌های زبان برنامه‌نویسی پایتون.

همینطور داشتن مهارت‌های نرم مثل توانایی برقراری ارتباط قوی با اشخاص کمک زیادی می‌کنه.

 

چه توصیه‌هایی به Data Scientist های مشتاقی که در ابتدای مسیر کاری‌شون هستن میشه داشت؟ 

۱- سعی کنن با هدف یادگیری، تو پروژه‌هایی که براشون جالبه با افراد موفق در این زمینه همکاری کنن. 

۲- سعی کنن روش‌های اصولی کار با داده‌ها رو یاد بگیرن و برای رسیدن به نتیجه‌ی خوب منتظر شانس و اتفاق نباشن.

۳- سعی کنن با جامعه‌ی data scientist ها در ارتباط باشن و آموخته‌های خودشون رو به اشتراک بذارن و روش‌های بهتر برای انجام کارها رو از دیگران یاد بگیرن.

 

 

بخش دوم - مقدمه‌ای بر داده‌ها

 

۰ نظر
فربد صالحی