تفکر موثر تحلیلی داده، باید شما را قادر به ارزیابی پروژههای دادهکاوی بصورت سیستماتیک نماید. این مهارت هم میتواند بعنوان یک فرایند خود-ارزیاب و هم بعنوان مهارتی در بررسی پروپوزالهای دیگران بشما کمک کند. آن چیزی که در ادامه ذکر میشود، شامل یک مجموعه از سؤالات مختلف است که شما بعنوان یک متخصص علم داده، در هنگام بررسی و ممیزی پروپوزالهای علم داده و داده کاوی، باید در ذهن داشته باشید تا بتوانید به بهترین شکل ممکن، آن پیشنهادیهها را ارزیابی و در صورت نیاز تصحیح نماید و یا حداقل پیشنهاداتی مفید به نگارنده و مجری اصلی کار بدهید.
این مجموعه به چهار دسته به صورت ذیل تقسیم میگردند.
1- فهم کسب و کار و داده
- دقیقاً قرار است چه مسئلهای از کسب و کار حل شود؟
- آیا راه حل علم داده بصورت درست فرمولبندی شده است که این مسئله را حل کند؟
- کدامیک از اجزای کسب و کار در فرمولبندی مسئله نقش دارد؟
- آیا مسئله یه سؤال (یادگیری ماشینی) نظارتشده یا غیر نظارتی است؟
- اگر نظارت شده است:
- آیا متغیر هدف (target) تعریف شده است؟
- اگر شده، آیا بطور دقیق اینکار صورت گرفته؟
- در خصوص مقادیری که این متغیر میگیرد، فکر کنید.
- آیا ویژگیها (attributes) بدرستی تعریف شدهاند؟
- در خصوص مقادیری که این ویژگیها میپذیرند، فکر کنید.
- برای مسئلههای نظارت شده؛ آیا مدل کردن این متغیر هدف باعث بهبود مسئلهی کسب و کار مطرح شده میگردد؟ یک زیر مسئلهی مهم چطور؟ اگر حالت دوم رخ دهد، آیا مابقی مسئلههای کسب و کار ذکر شده است؟
- آیا بررسی مسئله با استفاده از میانگین ارزشی مورد انتظار (expected value) باعث کمک به فعالیتهای جانبی برای حل مسئلهی اصلی میشود؟
- اگر مسئله غیر نظارتی است؛ آیا یک مسیر آنالیز دادهی تحلیلی مناسب تعریف شده است؟ یعنی اینکه آیا مشخص است که آنالیز به کجا قرار است ختم شود و برسد؟
- اگر نظارت شده است:
2- آماده سازی دادهها
- آیا بدست آوردن ویژگیهای مختلف و ساخت بردارهای شاخص و قرار دادن آنها در یک جدول عملی و شدنی است؟
- اگر نیست، آیا یک فرمت خاص دیگر از دادهها تعریف شده است؟ آیا این مورد در دیگر مراحل پروژه در نظر گرفته شده است؟
- اگر مدل بندی بصورت نظارت شده باشد، آیا متغیر هدف بخوبی انتخاب شده است؟ آیا مشخص است که مقادیر متغیر هدف را برای فرایند یادگیری و آزمایش چگونه و چطور بدست آوردهاند و آنها را در جداول خود جای دادهاند؟
- چونه مقادیر درست و دقیق برای متغیر هدف باید بدست بیاید؟ آیا برای بدست آوردن این مقادیر باید هزینهای شود؟ اگر جواب مثبت است، آیا این هزینه در پروپوزال در نظر گرفته شده است؟
- آیا دادههایی که در حال جمعآوری هستند، از جامعهای مشابه که مدل روی آن یادگرفته، بدست آمده است؟ اگر تمایزهایی وجود دارد، آیا جانبداری انتخاب (selection bias) به وضوح در نظر گرفته شده است؟ آیا برنامهای برای جبران آنها وجود دارد؟
3- مدلبندی
- آیا انتخاب مدل، مناسب برای انتخاب متغیر هدف است؟
- دستهبندی، برآورد احتمال کلاس، رتبهبندی، رگرسیون، خوشهبندی و …
- آیا تکنیک مدل/مدلبندی سایر ملزومات و فرایند حل مسئله را برآورده میکند؟
- آیا مدل روی سایر دادهها عملگرد خوبی دارد؟ جامع است؟ سرعت یادگیریش چطور است؟ سرعت بکارگیریش؟ مقدار دادهی موردنیازش چقدر میتواند زیاد شود؟ نوع دادهها؟ مدیریت خانههای بدون مقدار یا همان مقادیر گمشده؟
- آیا تکنیک انتخاب مدل سازگار با دانش قبلی ما از مسئله است؟ بعنوان مثال آیا یک مدل خطی برای حل یک مسئلهی غیرخطی پیشنهاد شده است؟
- آیا مدلهای مختلف باید امتحان و مقایسه بشوند (در فاز ارزیابی و صحت خروجیها)؟
- در خصوص خوشهبندی، آیا یک متریک برای برآورد میزان تشابه تعریف شده است؟ آیا این متر، برای مسئلهی کسب و کار معنای خاصی دارد؟
4- ارزیابی و بکارگیری
- آیا یک برنامه برای اعتبارسنجی دانش زمینهای وجود دارد؟
- آیا متخصصین حوزهی مد نظر و یا سهامداران قصد بررسی مدل قبل از بکارگیری را دارند؟
- آیا برپایی ارزیابی و متریک مناسب برای کسب و کار وجود دارد؟
- آیا هزینهها و سودهای کسب و کار در نظر گرفته شده است؟
- برای دستهبندی، مرز و آستانهی دستهبندی چطور انتخاب شده است؟
- آیا تخمینهای احتمال بدرستی و مستقیماً استفاده شدهاند؟
- آیا رتبهبندی بهتر نیست (بعنوان مثال برای یک بودجهی ثابت)؟
- برای رگرسیون، چگونه کیفیت و پیشبینیهای عددی را ارزیابی میکنید؟ چرا چنین چیزی مسیر درست در خصوص مسئلهی ما است؟
- آیا در فرایند ارزیابی از دادههای ذخیره یا نگهداری شده (holdout data) استفاده شده است؟ (بخشی از دادهها را که برای ارزیابی مدل نگه میدارند، دادههای ذخیره مینامند). ارزیابی مقطعی (cross validation) یکی از چنین تکنیکهاست.
- در برابر چه مدل ثابتی و پایهای (baseline model) نتایج را باید مقایسه کنیم؟
- چرا چنین چیزی در فرایند حل مسئلهی اصلی مفید و بامعناست؟
- آیا برنامهای برای ارزیابی مدل پایهای وجود دارد؟
- در خصوص خوشهبندی، خوشهها چطور معنا میشوند؟ در واقع چگونه خوشههای مختلف را شناسایی کنیم و بدرستی برای آنها عنواینی انتخاب نمائیم؟
- آیا بکارگیری مدل همانگونه که در برنامه وجود داشت، باعث بهبود یا حل مسئلهی کسب و کار شد؟
- اگر مجبور به توجیه خرج و مخارج پروژه برای سهامداران بودیم، چه برنامهای برای اندازهگیری تاثیر نهایی مدل برای بهبود کسب و کار داریم؟
البته توجه نمائید که این لیست، تنها بخشی از سؤالات ممکن است که شما میتوانید در نظر بگیرید. قطعاً تعدا سؤالات چنین لیستی، بسیار طولانیتر و وابسته به مسئلهی جاری دارد. با امید اینکه مطالعهی این مقاله بشما در ارزیابی پروپوزالهای آینده در فضای کسب و کارتان، مفید واقع شود.
منبع:
Data Science for Business, Appendix A, pp. 347–349
ترجمه، تهیه و انتشار:
گروه علم داده، دکتر محمد فزونی