چطوری میشه به یک دانشمند داده تبدیل شد؟
مجله علمی گیلادمیا / هادی احمدی / آیا شما جزء تعداد زیاد افرادی هستین که قدمهای اولیه ورود به حوزه علم داده رو برداشتین و از اینجا به بعد دوست دارین در مسیر رویای خودتون، یعنی تبدیل شدن به یک دانشمند داده قدم بردارین؟ خب ما بهتون میگیم در واقع باید چه کاری انجام بدین!
فهمیدن مساله (Business Problem)
خیلی مهمه که در ابتدا مسائل کسبوکارتون را بفهمید، در طول ملاقات شما با مشتریان پرسیدن سوالات مرتبط و درست، فهمیدن و تعریف اهداف برای مسئله باید حل بشه، یکی از بسیار ویژگیهای خوبی که یک دانشمند داده باید داشته باشه.
دستیابی و گردآوری داده (Data Acquisition)
به نظر میاد جمعآوری و اسکراپ کردن دادههای درست از منابع مختلف مثل وبسرورها، لاگها، دیتابیسها و … به تلاش و زمان زیادی داره. البته ممکن هست که داده ها در قالب درست در اختیار شما قرار بگیره…
آماده سازی داده (Data Preparation)
خشت اول چون نهد معمار کچ تا سریا می رود دیوار کج!
بعد از اینکه دادهها جمعآوری شد، مرحله آمادهسازی داده میاد این مرحله شامل تمیز کردن دادهها و تبدیل اوناست. تمیز کردن دادهها یک فرآیند زمانبر هستش که شامل سناریوهای پیچیده مختلفی هست، شامل: کار کردن با دادههای ناسازگار، دادههای اشتباه، دادههای از دست رفته و همینطور دادههای تکراری. سپس در مراحل تبدیل داده شما دست به اصلاح داده بر اساس نقشه تعریف شده برای رسیدن به هدف میزنید. برای انجام تبدیلهای پیچیده در یک پروژه ابزارهای ETL مانند Talend و Informatica استفاده میشوند که در واقع به تیم کمک میکنه تا ساختار داده را بهتر بفهمه.
تحلیل اکتشافی (EDA: Exploratory Data Analysis)
فهمیدن اینکه شما در واقع چه کاری میتونید با داده ها انجام بدید حیاتیه! برای انجام اون شما تحلیل اکتشافی رو انجام میدید! با کمک EDA شما دست به تعریف و اصلاح ویژگیهایی میزنید که برای توسعه مدل استفاده خواهند شد. اما چه اتفاقی میافتد اگه از این مرحله عبور کنید؟ ممکنه متغیرهای اشتباهی انتخاب کنید که در نتیجه مدل نادقیقی تولید خواهد شد و در نتیجه این مرحله مرحله مهمی هست.
مدلسازی داده (Data Modeling)
حالا شما به قسمت اصلی یک پروژه علم داده قدم گذاشتهاید. شما در اینجا به صورت مکرر انواع تکنیکهای یادگیری ماشین مانند Naïve Bayes، Decision Tree و KNN را به دادهها اعمال میکنید که هدف اصلی اون، شناسایی بهترین مدلی که مناسب نیازهای کسبوکار ماست. شما مدلها را بر روی دیتاست آموزش میدید و اونها رو تست میکنید. سپس مدلی که بهترین عملکرد رو داره انتخاب میکنید. ممکن هست که ترجیح بدید از پایتون برای مدلسازی داده استفاده کنید، بااینحال میتونید از R یا SaS استفاده کنید.
مصورسازی و ارتباط دادهها (Visualization and Communication)
شما مشتریان خودتون را دوباره ملاقات میکنید تا یافتههای خودتون رو به شکلی موثز و ساده برای قانع کردن به اونها ارائه کنید. برای این کار از ابزارهای هوش تجاری مثل Tableau، Power BI و Qlik View استفاده میکنید.
استقرار و نگهداری مدل (Deploy and Maintenance)
شما مدل انتخاب شده را در یک محیط پیش تولید تست میکنید، قبل از اینکه اون را در محیط تولید مستقر کنید. این مورد به اصطلاح یک Best Practice هست، برای به دست آوردن تحیلهای به موقع، از این بیشتر شما عملکرد مدلتون را نگهداری و نظارت میکنید. به این طریق هست که شما پروژه علم داده خودتون را تکمیل میکنید. کارهای روزمره یک دانشمند داده بسیار سرگرمکننده هست و جنبههای جالب بسیاری داره و همینطور چالشهای خاص خودش را داره. حالا بزارید ببینیم چگونه یک دانشمند داده دنیای ما را تغییر میده؟ در واکنش به بیماره و داروهای خاص. شرکتهای حملونقل با بهترین زمان و هزینه میتونند کالاهای خودشون را منتقل کنند. با استفاده از علم داده نه تنها مقدور هستیم که فرسایش کارکنان را پیشبینی کنیم، بلکه میتونیم متغیرهای کلیدی را که بر بازدهی اونها تاثیر میذاره را بفهمیم. شرکتهای خطوط هوایی حالا به راحتی میتونند پروازها را پیشبینی کنند و به مشتریانشون اطلاع بدند. نقش های مختلفی برای یک دانشمند داده وجود داره مانند تحلیلگر داده، مهندس یادگیری ماشین، مهندس یادگیری عمیق، مهندس داده و البته دانشمند داده.