نماد سایت دکتر محمد فزونی

ده درس از رساله‌ی علم داده؛ مصاحبه با 25 دیتاساینتیست

رساله‌ی علم داده مجموعه‌ای است شامل 25 مصاحبه با دیتاساینتیست‌های مختلف با تجربیاتی از لینکداین تا کاخ سفید. در ادامه، خلاصه‌ای از بهترین نکات ارائه شده توسط این افراد را عنوان خواهم کرد.

نکات ارزنده و عملی از بهترین دیتاساینتیست‌های دنیا:

 

1- از کمپانی‌های کوچک شروع کنید

بسیاری از افراد که در جلسات مصاحبه حضور می‌یابند، عموماً از استارت‌آپهای کوچک کارشان را آغاز نموده‌اند و بعد از مدتی وارد شرکت‌های بزرگ و بعضاً چند ملیتی شده‌اند. این مورد، تقریباً یک حُسن برای آنها محسوب می‌شود، چرا که در سازمان‌های کوچک، افراد تقریباً یک آچار فرانسه هستند و مجبورند همه کار انجام دهند. ولی در کمپانی‌های بزرگ، چون از قبل کار فرد کاملاً مشخص است، در عمل به فرد زیاد میدان داده نمی‌شود. پس شروع کار از کمپانی‌های کوچک، بهتر است.

2- یادگیری > درآمد

وقتی که کارتان را آغاز می‌کنید، خیلی به حقوق و پرداختی توجه نکنید، ولی حواستان به این مورد باشد که در این شغل، چقدر خواهید آموخت. اگر بین دو پیشنهاد شغلی مردد بودید؛ مورد اول پرداختی بیشتر ولی مورد دوم حقوق کمتر و محیطی مناسب‌تر برای یادگیری بود، صد در صد دومی را انتخاب نمائید. با افزایش سواد عملی، شما به مرور زمان آن کسری درآمد را جبران خواهید کرد. اما همیشه فرصت برای یادگیری ندارید.

3- مطالعه کنید و پروژه‌های جانبی انجام دهید

قطعاً همه چیز را در محیط کار نخواهید آموخت. بنابراین تا می‌توانید مطالعه کنید و سعی کنید که با انجام پروژه‌های جانبی، راندمان یادگیری‌تان را افزایش دهید. سعی کنید بجای آنکه ده پروژه‌ی کوچک را انجام دهید، تمام تمرکز و حواستان را روی یک یا دو پروژه‌ی جانبی بگذارید. این در بلند مدت نتیجه‌ی بسیار مطلوب‌تری برای شما به ارمغان خواهد آورد. اگر هیچ ایده‌ای برای انجام و تعریف پروژه ندارید، از کارهای متن-باز آغاز کنید و تا می‌توانید سعی کنید در مسیر از برنامه‌نویسان در آن حوزه راهنمایی بگیرید (تنها احمقها گمان می‌کنند که دیگر نیازی به راهنمایی و یا سؤال کردن ندارند).

4- مهارت‌های ارتباطی

این مورد تقریباً در تمامی نظرات 25 شخص وجود داشت. تا می‌توانید سعی کنید که در فن «ارتباط با همنوع» خود را تقویت کنید. شما باید بتوانید پیچیده‌ترین الگوریتم‌های یادگیری ماشین و یا فرمول‌های آماری را به مشتری و یا مسئول خود توضیح دهید. برای بالادستی‌های شما، مهم این است که روش‌های شما به چه صورت تبدیل به تولید و یا فروش بیشتر می‌شوند.  همچنین نیازمند این هستید بتوانید با سایر همکاران خود نیز ارتباطی سازنده برقرار کنید و بیاموزید.

5- عمق و پهنای دانش

پهنای دانش، یعنی اینکه شما از حوزه‌های متعددی، اندکی بدانید. عمق دانش، یعنی اینکه شما از یک تعداد کم از حوزه‌ها و تخصص‌ها، فهم و دانش بسیار زیادی داشته باشید. اما چون شما وقت کافی ندارید نمی‌توانید راجع به همه چیز، مقدار زیادی اطلاعات و دانش کسب کنید. پس چه باید کرد؟ روی عمق تمرکز کنید در حالی که دارای کمترین پهنای دانش هستید. یعنی در حوزه‌ی دیتا ساینس، تقریباً سعی کنید موارد زیادی را (با توجه به سطح خودتان) یاد بگیرید تا بتوانید در موقع پیش آمدن یک سؤال، یک جواب ساده یا خلاصه برای آن داشته باشید، اما بعد از گذشت یک مدت کوتاه، دو یا سه زمینه را انتخاب کرده و در آنها تا حد توان بیاموزید و عمق دانش خود در آنها را افزایش دهید.

6- بدونید که کمپانی شما در چه جایگاهی است

خیلی راحته که شما در حجم عظیمی از داده‌ها و مدل‌ها غرق بشید، چون صرفاً پروژه‌هایی که در حال انجام دادنشون هستید جالبند. در عوض، پروژه‌هایی رو از بین کارهایی که در حال انجام هستید انتخاب کنید که همگام با استراتژی‌ها و اهداف کمپانی شما باشند. این باعث میشه که شما بتونید بفهمید و درک کنید که در کمپانی چه اتفاقی داره میوفته و به کدوم سمت دارید حرکت می‌کنید. سعی کنید هر پروژه‌ای که انجام می‌دهید، قبلش مشخص کنید که این کار شما به چه میزان کمپانی رو تحت تاثیر قرار میده، یعنی چقدر باعث موفقیت و رسیدن به اهدافش می‌شود.

7- داده‌هاتون رو درک کنید و صرفاً برای همبستگی‌ها اونها رو بررسی نکنید

اینکه مکانیک‌وار شروع کنید به آنالیز کردن داده‌هاتون، همون‌طور که بهش عادت کردین و اصلاً به اینکه نتایج واقعاً چه معنا و مفهومی دارند، کار بسیار ساده‌ای هست. سعی کنید ارتباط واقعی بین داده‌ها رو درک کنید و بفهمید، به جای اینکه صرفاً دنبال یک همبستگی بین اونها باشین. سعی کنید داده‌هاتون رو از نقطه‌نظر بیزنسی بررسی کنید، این خیلی مهمه.

8- چرا پیچیدگی؟ باید پیچیدگی رو توجیح کرد

مدل‌ها نباید خیلی پیچیده باشند. قبل از اینکه وارد مدل‌های پیچیده‌تر و سخت‌تر بشین، با ساده‌ترین مدل‌ها شروع کنید و ببینید که آیا این روش که انتخاب کردین جواب میده یا خیر. جایگزینی یک مدل رگرسیون خطی با یک شبکه‎‌‌ی عصبی به منظور کاهش خطا به اندازه‌ی یک درصد، ممکنه که تو مسابقات کگِل ارزشمند باشه، اما در دنیای واقعی، شما باید زمان بررسی، پیچیدگی و پیاده‌سازی و تفسیرپذیری مدل‌تون رو در نظر بگیرید.

9- خیلی سخت کار کنید

این بند نیز، در بین نظرات اکثر افراد وجود داشت. باید ساعات بیشتری را به کار تخصیص بدهید، به ویژه در ابتدای کارتان. سعی کنید صبح‌ها قبل از همه وارد محل کار بشوید و عصرها هم بعد از همگان محل را ترک کنید. بعد از گذشت یک مدت نسبتاً کوتاه، خواهید دید که تجربه و سواد بیشتری نسبت به افرادی که این کار را نکرده‌اند، کسب کرده‌اید و این باعث می‌شود که شما چند قدم نسبت به رقبا جلوتر باشید.

10- یاد بگیرید چطوری کد بزنید

«کد زدن؟ اینکه آبِ خوردنه. قطعاً من بلدم که چطور کد بزنم» اکثر دیتا ساینتیست‌ها بلدن که چطور کدنویسی کنند. حالا بعضی‌ها در حین کار یاد می‌گیرن و بعضی‌ها هم در جاهای مثل کگل و یا … یاد می‌گیرند بالاخره. اما در دنیای واقعی شما باید با مهندسین نرم افزار و سایر دیتا ساینتیست‌های بعضعاً کاردرست همکاری کنید که راه حلتون رو پیاده کنید. پس شما باید بدونید که چطوری؛ کدهای درست و اصولی بنویسید؛ توضیحات مناسب برای کدهاتون بنویسید؛ ورژن‌بندی مناسب داشته باشید؛ و از همه مهم‌تر کدهاتون مقیاس‌پذیر باشند. یعنی فقط برای یک دیتاست کوچیک کار نکنه و روی هر دیتاستی با هر حجمی، بتونه پاسخگوی مسئله و نیازتون باشد.

 

پی‌نوشت: این متن از مقاله‌ی

Ten Lessons from The Data Science Handbook

 در این آدرس اقتباس شده است.

خروج از نسخه موبایل