رسالهی علم داده مجموعهای است شامل 25 مصاحبه با دیتاساینتیستهای مختلف با تجربیاتی از لینکداین تا کاخ سفید. در ادامه، خلاصهای از بهترین نکات ارائه شده توسط این افراد را عنوان خواهم کرد.
نکات ارزنده و عملی از بهترین دیتاساینتیستهای دنیا:
1- از کمپانیهای کوچک شروع کنید
بسیاری از افراد که در جلسات مصاحبه حضور مییابند، عموماً از استارتآپهای کوچک کارشان را آغاز نمودهاند و بعد از مدتی وارد شرکتهای بزرگ و بعضاً چند ملیتی شدهاند. این مورد، تقریباً یک حُسن برای آنها محسوب میشود، چرا که در سازمانهای کوچک، افراد تقریباً یک آچار فرانسه هستند و مجبورند همه کار انجام دهند. ولی در کمپانیهای بزرگ، چون از قبل کار فرد کاملاً مشخص است، در عمل به فرد زیاد میدان داده نمیشود. پس شروع کار از کمپانیهای کوچک، بهتر است.
2- یادگیری > درآمد
وقتی که کارتان را آغاز میکنید، خیلی به حقوق و پرداختی توجه نکنید، ولی حواستان به این مورد باشد که در این شغل، چقدر خواهید آموخت. اگر بین دو پیشنهاد شغلی مردد بودید؛ مورد اول پرداختی بیشتر ولی مورد دوم حقوق کمتر و محیطی مناسبتر برای یادگیری بود، صد در صد دومی را انتخاب نمائید. با افزایش سواد عملی، شما به مرور زمان آن کسری درآمد را جبران خواهید کرد. اما همیشه فرصت برای یادگیری ندارید.
3- مطالعه کنید و پروژههای جانبی انجام دهید
قطعاً همه چیز را در محیط کار نخواهید آموخت. بنابراین تا میتوانید مطالعه کنید و سعی کنید که با انجام پروژههای جانبی، راندمان یادگیریتان را افزایش دهید. سعی کنید بجای آنکه ده پروژهی کوچک را انجام دهید، تمام تمرکز و حواستان را روی یک یا دو پروژهی جانبی بگذارید. این در بلند مدت نتیجهی بسیار مطلوبتری برای شما به ارمغان خواهد آورد. اگر هیچ ایدهای برای انجام و تعریف پروژه ندارید، از کارهای متن-باز آغاز کنید و تا میتوانید سعی کنید در مسیر از برنامهنویسان در آن حوزه راهنمایی بگیرید (تنها احمقها گمان میکنند که دیگر نیازی به راهنمایی و یا سؤال کردن ندارند).
4- مهارتهای ارتباطی
این مورد تقریباً در تمامی نظرات 25 شخص وجود داشت. تا میتوانید سعی کنید که در فن «ارتباط با همنوع» خود را تقویت کنید. شما باید بتوانید پیچیدهترین الگوریتمهای یادگیری ماشین و یا فرمولهای آماری را به مشتری و یا مسئول خود توضیح دهید. برای بالادستیهای شما، مهم این است که روشهای شما به چه صورت تبدیل به تولید و یا فروش بیشتر میشوند. همچنین نیازمند این هستید بتوانید با سایر همکاران خود نیز ارتباطی سازنده برقرار کنید و بیاموزید.
5- عمق و پهنای دانش
پهنای دانش، یعنی اینکه شما از حوزههای متعددی، اندکی بدانید. عمق دانش، یعنی اینکه شما از یک تعداد کم از حوزهها و تخصصها، فهم و دانش بسیار زیادی داشته باشید. اما چون شما وقت کافی ندارید نمیتوانید راجع به همه چیز، مقدار زیادی اطلاعات و دانش کسب کنید. پس چه باید کرد؟ روی عمق تمرکز کنید در حالی که دارای کمترین پهنای دانش هستید. یعنی در حوزهی دیتا ساینس، تقریباً سعی کنید موارد زیادی را (با توجه به سطح خودتان) یاد بگیرید تا بتوانید در موقع پیش آمدن یک سؤال، یک جواب ساده یا خلاصه برای آن داشته باشید، اما بعد از گذشت یک مدت کوتاه، دو یا سه زمینه را انتخاب کرده و در آنها تا حد توان بیاموزید و عمق دانش خود در آنها را افزایش دهید.
6- بدونید که کمپانی شما در چه جایگاهی است
خیلی راحته که شما در حجم عظیمی از دادهها و مدلها غرق بشید، چون صرفاً پروژههایی که در حال انجام دادنشون هستید جالبند. در عوض، پروژههایی رو از بین کارهایی که در حال انجام هستید انتخاب کنید که همگام با استراتژیها و اهداف کمپانی شما باشند. این باعث میشه که شما بتونید بفهمید و درک کنید که در کمپانی چه اتفاقی داره میوفته و به کدوم سمت دارید حرکت میکنید. سعی کنید هر پروژهای که انجام میدهید، قبلش مشخص کنید که این کار شما به چه میزان کمپانی رو تحت تاثیر قرار میده، یعنی چقدر باعث موفقیت و رسیدن به اهدافش میشود.
7- دادههاتون رو درک کنید و صرفاً برای همبستگیها اونها رو بررسی نکنید
اینکه مکانیکوار شروع کنید به آنالیز کردن دادههاتون، همونطور که بهش عادت کردین و اصلاً به اینکه نتایج واقعاً چه معنا و مفهومی دارند، کار بسیار سادهای هست. سعی کنید ارتباط واقعی بین دادهها رو درک کنید و بفهمید، به جای اینکه صرفاً دنبال یک همبستگی بین اونها باشین. سعی کنید دادههاتون رو از نقطهنظر بیزنسی بررسی کنید، این خیلی مهمه.
8- چرا پیچیدگی؟ باید پیچیدگی رو توجیح کرد
مدلها نباید خیلی پیچیده باشند. قبل از اینکه وارد مدلهای پیچیدهتر و سختتر بشین، با سادهترین مدلها شروع کنید و ببینید که آیا این روش که انتخاب کردین جواب میده یا خیر. جایگزینی یک مدل رگرسیون خطی با یک شبکهی عصبی به منظور کاهش خطا به اندازهی یک درصد، ممکنه که تو مسابقات کگِل ارزشمند باشه، اما در دنیای واقعی، شما باید زمان بررسی، پیچیدگی و پیادهسازی و تفسیرپذیری مدلتون رو در نظر بگیرید.
9- خیلی سخت کار کنید
این بند نیز، در بین نظرات اکثر افراد وجود داشت. باید ساعات بیشتری را به کار تخصیص بدهید، به ویژه در ابتدای کارتان. سعی کنید صبحها قبل از همه وارد محل کار بشوید و عصرها هم بعد از همگان محل را ترک کنید. بعد از گذشت یک مدت نسبتاً کوتاه، خواهید دید که تجربه و سواد بیشتری نسبت به افرادی که این کار را نکردهاند، کسب کردهاید و این باعث میشود که شما چند قدم نسبت به رقبا جلوتر باشید.
10- یاد بگیرید چطوری کد بزنید
«کد زدن؟ اینکه آبِ خوردنه. قطعاً من بلدم که چطور کد بزنم» اکثر دیتا ساینتیستها بلدن که چطور کدنویسی کنند. حالا بعضیها در حین کار یاد میگیرن و بعضیها هم در جاهای مثل کگل و یا … یاد میگیرند بالاخره. اما در دنیای واقعی شما باید با مهندسین نرم افزار و سایر دیتا ساینتیستهای بعضعاً کاردرست همکاری کنید که راه حلتون رو پیاده کنید. پس شما باید بدونید که چطوری؛ کدهای درست و اصولی بنویسید؛ توضیحات مناسب برای کدهاتون بنویسید؛ ورژنبندی مناسب داشته باشید؛ و از همه مهمتر کدهاتون مقیاسپذیر باشند. یعنی فقط برای یک دیتاست کوچیک کار نکنه و روی هر دیتاستی با هر حجمی، بتونه پاسخگوی مسئله و نیازتون باشد.
پینوشت: این متن از مقالهی
“Ten Lessons from The Data Science Handbook“
در این آدرس اقتباس شده است.