کل فرایند، از توسعهی پایپلاینهای داده تا استقرار آن در سرورهای عملیاتی سازمان را بیاموزید
زمان تا آغاز دوره
یکی از بارزترین ویژگیهای تدریس آقای دکتر فزونی در این کورس، زبان ساده و روان و صد البته شیوهی اصولی انتقال مطالب ایشان میباشد. تمامی موارد بصورت عملی به فراگیر نشان داده خواهد شد و از بروزترین منابع آموزشی بهره خواهیم برد. تلاش خواهیم نمود که از ذکر جزئیات و مفاهیم تئوری که همهجا میتوان آنها را یافت، اجتناب کنیم و به اصل مطلب بپردازیم.
در این بخش به ذکر اصلیترین مفاهیم موجود در دنیای مهندسی داده میپردازیم. نکات مطرح شده در این بخش از کتاب مطرح و پرآوازهی «Fundamentals of Data Engineering» اخذ خواهد شد.
در حال حاضر، بهترین زبان برنامهنویسی در دنیای دیتا، پایتون میباشد. بنابراین در این کورس تا حد ممکن به بیان مهمترین نکات کار با این زبان برنامهنویسی خواهیم پرداخت.
در این بخش، به نصب WSL در ویندوز پرداخته و سپس اصلیترین دستورات این سیستم عامل را در دنیای مهندسی داده بررسی خواهیم نمود. اگر کامپیوتر شما MacOS است نیازی به این کار نخواهید داشت.
در اینروزها که حرف از معماری میکروسرویس همهجا هست و فراگیر شده، غیرممکن است که بدون داکر بتوانیم کاری از پیش ببریم. پس با داکر بعنوان یکی از ابزارهای اساسی در دنیای مهندسی داده کار خواهیم نمود.
امروزه تمامی مجموعهها در حوزهی تکنولوژی در صورتی که بخواهند یک کار تیمی در حوزهی نرمافزار و یا دیتا انجام بدهند، قطعن یک سیستم مدیریت ورژن کد را برای خود انتخاب نموده و طبق آن پیش خواهند رفت. در این کورس آموزشی ما شما را با گیت و گیتهاب که جزو بهترین سیستمهای کنترل ورژن کدها میباشد آشنا خواهیم نمود. مفاهیم ابتدایی را بطور کامل مطرح میکنیم و به انجام کار عملی در این حوزه خواهیم پرداخت تا شما بطور کامل و دقیق با روند آشنا بشوید.
گیتهاب اکشنز یک ویژگی CI/CD (ادغام مداوم/انتشار مداوم) است که توسط گیتهاب ارائه میشود و به توسعهدهندگان امکان میدهد که جریانهای کاری یا پایپلاینهای خود را به طور خودکار در مخزنهای گیتهاب تنظیم کنند. این کار با استفاده از فایلهای YAML برای تعریف جریانهای کاری که میتوانند با رخدادهای مختلفی مانند ارسال کد (code pushes)، درخواستهای کشش (Pull request) یا مشکلات (issues) فعال شوند، انجام میشود. در حال حاضر در اکثر کمپانیهای مطرح دنیا، اکثر توسعهدهندگان و مهندسان داده از این عملیاتها برای محیط پروداکشن مجموعه استفاده مینمایند.
تعداد جلسات: 2 جلسه
گیتهاب اکشنز یک ویژگی CI/CD (ادغام مداوم/انتشار مداوم) است که توسط گیتهاب ارائه میشود و به توسعهدهندگان امکان میدهد که جریانهای کاری یا پایپلاینهای خود را به طور خودکار در مخزنهای گیتهاب تنظیم کنند. این کار با استفاده از فایلهای YAML برای تعریف جریانهای کاری که میتوانند با رخدادهای مختلفی مانند ارسال کد (code pushes)، درخواستهای کشش (Pull request) یا مشکلات (issues) فعال شوند، انجام میشود. در حال حاضر در اکثر کمپانیهای مطرح دنیا، اکثر توسعهدهندگان و مهندسان داده از این عملیاتها برای محیط پروداکشن مجموعه استفاده مینمایند.
تعداد جلسات: 2 جلسه
امال فلو (MLflow) یک پلتفرم متنباز برای مدیریت چرخهی عمر (lifecycle) مدلهای یادگیری ماشین است. این پلتفرم شامل چهار مؤلفهی اصلی است:
1. ردیابی مدلها: امکان ردیابی و مستندسازی آزمایشات و نتایج مدلها را فراهم میکند.
2. مدیریت مدل: امکان ذخیره، بارگذاری و به اشتراکگذاری مدلها را فراهم میآورد.
3. اجرای مدل: امکان اجرای مدلها در محیطهای مختلف را میدهد.
4. مدیریت پروژه: به کاربران اجازه میدهد پروژههای یادگیری ماشین را سازماندهی کنند.
با استفاده از MLflow، تیمها میتوانند همکاری بهتری داشته باشند و روند توسعه مدلها را بهینه کنند. در این کورس با این ابزار قدرتمند در دنیای امالآپس آشنا شده و اقدام به انجام کار عملی با آن مینمائیم.
آشنایی با پایگاههای داده، جزو مهمترین دانستههای یک مهندس داده قلمداد میگردد. در سالهای اخیر پوستگرس بعنوان یکی از پیشرفتهترین دیتابیسها در دنیای متنباز، جایگاه ویژهای را بین صاحبان کسبوکارها یافته است. از این روی، آشنایی و کار بصورت حرفهای با این پایگاه داده از اهمیت بسیار زیادی برای مهندسین داده برخوردار میباشد. در این کورس، با ابزارهای گرافیکی و خطفرمان این پایگاه داده آشنا شده و در این محیط اقدام به آموزش زبان SQL خواهیم نمود. همچنین، برای کامل نمودن معلومات شرکتکنندگان، دوره آموزشی «دیتابیس و سیکوال برای علم داده» نیز بصورت رایگان در اختیار شما قرار خواهد گرفت.
کلیکهاوس (ClickHouse) یک سیستم مدیریت پایگاه داده تحلیلی است که به طور خاص برای پردازش سریع و کارآمد دادههای بزرگ طراحی شده است. این پایگاه داده به کاربران این امکان را میدهد که تحلیلهای پیچیده را بر روی دادههای حجیم انجام دهند و نتایج را در زمان واقعی (real-time) دریافت کنند. کلیکهاوس از معماری ستونی استفاده میکند که به بهینهسازی ذخیرهسازی دادهها و تسریع در عملیات جستجو کمک مینماید. این سیستم به خصوص در حوزههای تجزیه و تحلیل داده، گزارشگیری و مدیریت دادههای کلان محبوبیت دارد و به دلیل کارایی بالا و مقیاسپذیری، مورد توجه بسیاری از سازمانها قرار گرفته است.
در حین کار با آپاچی ایرفلو، با یک دیتابیس NoSQL (یا بهتر بگوئیم موتور جستجو) با عنوان Elasticsearch کار خواهیم نمود و با آن آشنا میشویم. همچنین با بخش گرافیکی این دیتابیس که آنرا کیبانا مینامیم نیز آشنا خواهیم شد.
در حین کار با آپاچی اسپارک و در قسمتهای پردازش استریم، به سراغ دیتابیس آپاچی کاساندار خواهیم رفت و یک مینی پروژه را که در استک مذکور سه تکنولوژی اسپارک، کافکا و کاساندرا را بکار میگیریم، بشما نشان خواهیم داد. به این طریق بعد از یک مقدمه کوتاه در خصوص این دیتابیس، چون بصورت عملی کاربرد آنرا مشاهده میکنیم، فهم بسیار خوبی از این دیتابیس کسب خواهیم نمود.
در دنیای مهندسی داده ETL یکی از کارهای روزمره و اساسی هر مهندس داده است. آپاچی ایرفلو که یکی از اساسیترین ابزارهای مدیریت جریان داده است، به این افراد کمک میکند که دیتاپایپلاینهای مجموعه را براحتی رصد کرده و مدیریت نمایند. از این طریق، بسادگی میتوانیم نقاطی که دارای مشکل و خطا هستند را ببینیم و در اولین فرصت ممکن به رفع مشکلات بپردازیم.
سالها بود که سیستمهای یکپارچه از پایگاههای داده بعنوان محلی برای تجمیع دادهها و ارسال به مصرفکنندگان دیتا استفاده میکردند. اما معماری میکروسرویس این را برنمیتابد. در این معماری باید تولیدکنندگان و مصرفکنندگان داده تا حد ممکن از یکدیگر مجزا شوند. اینجا بود که آپاچی کافکا بعنوان یک مکان خاص برای دریافت و ارسال دادهها وارد کار شد. آپاچی کافکا در حال حاضر یکی از مهمترین ابزارهای ممکن در دنیای پردازش دادههای استریم و در لحظه است. میزان تاخیر ارسال دادهها در این سیستم در پایینترین حد ممکن قرار دارد. از این رو، آپاچی کافکا توسط 80 درصد شرکتهای مختلف در حوزهی تکنولوژی دنیا بکار گرفته خواهد شد. در این دوره یکی از مباحث اصلی کار، کافکا میباشد که تا حد بسیار عمیقی با آن آشنا خواهیم شد و کارهای عملی عمیقی در آن انجام میدهیم.
زمانی هدوپ حرف اول و آخر دنیای پردازش دادهها را میزد. مهندسین در این حوزه بالاترین دستمزد ممکن را داشتند. تا اینکه آپاچی اسپارک متولد شد و با سرعت وحشتناک خود و اینکه یک سیستم پردازش دادهی توزیعشده بود، همگان را شگفتزده کرد. در این کورس، سعی خواهیم نمود که علاوه بر کافکا، اسپارک را نیز در حد بسیار حرفهای بشما آموزش دهیم. مشابه با کافکا، در این حوزه نیز با دو زبان پایتون و جاوا با هستهی اسپارک ارتباط برقرار خواهیم نمود. با اسپارک تقریبن هر کاری که یک مهندس داده و یک متخصص امالآپس نیاز به آن دارد را میتوانیم انجام دهیم. از کوئرینویسیها در زبان SQL گرفته تا انجام و پیادهسازی الگوریتمهای یادگیری ماشین.
بعد از ظهور دیتابیسهای رابطهای و عملکرد فوقالعادهی آنها بتدریج وارد عصری شدیم که دیگر این نوع از دیتابیسها پاسخگوی نیازهای سازمانها نبودند. در این زمان بود که دیتاورهوزها پا به عرضهی وجود گذاشتند. ام بعد از مدت کوتاهی بخاطر حجم بالای داده، این ساختار نیز با مشکلاتی مواجه شد. عصر هوش مصنوعی مفهوم و ساختاری با عنوان دیتالیک را برای ما به ارمغان آورد. اما باز هم گذشت زمان بما ثابت کرد که باز هم زیرساختهایی دیتایی مجموعه خالی از نقص نیست. تا اینکه رسیدیم به ساختار Data Lake House که به کمک ابزارهایی همانند Delta Lake که توسط تیم اسپارک توسعه داده شده بود، اجرا میگردید.
در این دوره دو جلسه را به طراحی و ساخت یک دیتالیکهوز با کمک دلتالیک اختصاص خواهیم داد.
در این قسمت با مفاهیم کلیدی کلاد کامپیوتینگ یا همان محاسبات ابری و سرویسهای مختلف در پنل ابری ابرآروان آشنا خواهیم شد. تلاش خواهیم نمود که بخش زیادی از تسکهای دوره را روی این سرویس دهندهی خدمات ابری پیادهسازی نمائیم تا شما بصورت عملی با محیط پروداکشن یا تولید بطور کامل آشنا شوید.
یکی از ضعفهای آپاچی اسپارک این است که سیستمی برای مدیریت کلاستر و نودها ندارد. در دنیای امالآپس به کمک کوبرنتیز که یک ابزار فوقالعاده قدرتمند است، سعی خواهیم نمود که یک یک کلاستر اسپارک را پیادهسازی کرده و مدیریت آنرا به کوبرنتیز بسپاریم. کوبرنتیز، در ابتدا توسط گوگل توسعه داده شد. اما مدتی بعد تبدیل گردید به یک پروژهی متنباز. در حال حاضر این ابزار تبدیل شده است به حالت پیشفرض در دنیای مدیریت کانتینرها.
در این کورس ابتدا مقدمات و مفاهیم اساسی این ابزار را خواهیم آموخت. سپس، به انجام کارهای عملی ممکن که یک مهندس داده به آن معلومات و دانستهها نیاز دارد، میپردازیم.
بعد از دیپلوی نمودن مدل یادگیری ماشین و حتی دیتاپایپلاین، ما ملزم به انجام یکسری اقدامات و امورات هستیم که تا حد ممکن، کیفیت پیشبینی (یا هر آنچه مدل ما قصد آنرا دارد) بالا و در حد مطلوبی نگهداریم. در این کورس اقدامایت از جمله امنیت، محرمانگی دیتا بعد از استقرار، و مواردی اینچنینی را بحث و بررسی مینمائیم و با ابزارهای مطرح در این راستا کار عملی خواهیم نمود.
در آخرین بخش از این دوره، با تمامی ابزارهایی که کار عملی کردیم، اقدام به ساخت یک مدل یادگیری ماشین نموده و آنرا در سرورهای ابری دیپلوی مینمائیم. سپس عملیات پایانی یعنی مانیتورینگ و امورات امنیتی برای محافظت از مدل خود را انجام خواهیم داد. این پروژه تا حد بسیار زیادی بما کمک خواهد نمود که بتوانیم مفاهیم تئوری ذهنی خود را بصورت عملیاتی در آورده و آنها را بسازیم.
در صورت تمایل همین امروز ثبتنام نمائید. ممکن است بخاطر عدم ثبات در شرایط اقتصادی کشور، قیمت دوره افزایش پیدا کند!
دوستانی که در کدهای پائینتر شرکت داشتند تنها میتوانند با پرداخت اختلاف قیمت در دورهی بالاتر حضور پیدا کنند.
در این دوره ما فرض میکنیم که شما دانش بسیار محدودی از دنیای کامپیوتر، مهندسی داده و امالآپس دارید. تلاش میکنیم که تمامی موارد و مفاهیم را بصورت کاملن عملی و کاربردی بشما منتقل نمائیم. در پایان دوره متوجه حجم عظیم دانشی که کسب نمودهاید خواهید شد.
عضو هئیت علمی دانشگاه گنبدکاووس و دانشیار گروه ریاضی و آمار در این دانشگاه (مشاهدهی صفحهی دانشگاهی بنده). از سال 1393 بطور رسمی وارد حرفهی تدریس شدم و تا امروز و با افتخار بیش از هزاران دانشجو را در ایران و خارج از کشور تربیت نمودم.
10+
15+
200 K+
10 K+
در دههی گذشت شاهد حضور بینظیر هوش مصنوعی و مباحث تحلیل داده در سازمانهای مختلف بودیم. اما گذشت زمان به همگان ثابت نمود که بدون بستر دیتایی مناسب انجام پروژههایی که وابسته به دیتا میباشد، غیر ممکن است. در نتیجه مهندسی داده (Data Engineering) متولد شد تا پاسخی باشد به این نیاز؛ یعنی حوزه و رشتهای که بستر و زیر ساخت دیتایی را برای کسبوکارها تهیه و تدارک میبیند. اما دنیای هوش مصنوعی که بسرعت باد در حال توسعه و تکامل است، اخیرن برگ دیگری را برای ما رو کرده و آن هم نیاز به متخصصین امالآپس میباشد که به خواستههای تخصصی سازمانها پاسخ مناسبتر و سریعتری بدهند. در ادامه سعی میکنیم به این سوال که «امالآپس چیست و چگونه وارد این حوزه بشویم؟» پاسخ بدهیم.
اما ابتدا باید یک تعریف کلی از این حوزه داشته باشیم:
امالآپس (MLOps = Machine Learning Operations) یا عملیات یادگیری ماشین به مجموعهای از فرآیندها، ابزارها و بهترین شیوهها (Best Practices) اشاره دارد که به تیمهای داده کاوی و یادگیری ماشین کمک میکند تا مدلهای یادگیری ماشین را از مرحله توسعه تا تولید و نگهداری به طور مؤثر مدیریت نمایند (ادامه این نوشتار را در این لینک و مقاله مطالعه نمائید).
در این دوره مفاهیم تئوری را از کتاب زیر خواهیم گفت که توسط متخصصان گوگل در سال 2024 به چاپ رسیده و در حال حاضر یکی از بهترین کتابها در دنیای MlOps و یا صنعتیسازی مدلهای یادگیری ماشین محسوب میشود:
جلسه اول دوره را در یوتیوب و در این آدرس ببینید.
بله. از طریق نرمافزار اسپاتپلیر دسترسی به تمامی ویدیوها خواهید داشت. برای هر شخص یک لایسنس صادر خواهد شد. در صورتی که لایسنس شما به هر دلیلی از کار بیافتد باید برای دریافت لایسنس دوم مبلغی را پرداخت نمائید. در نتیجه در حفظ و نگهداری کد مربوط به خود نهایت دقت را مبذول فرمائید.
تمامی سوالات و ابهامات هنرجویان توسط مدرس، آقای دکتر فزونی، پاسخ داده خواهد شد. یک گروه تلگرامی داریم که بعد از ثبتنام در آنجا عضو خواهید شد. به تفکیک هر درس، یک تاپیک وجود دارد که در همان بخش سوالات را مطرح مینمائید.
روز مشخصی ندارد و زمان و روز کلاسهای آنلاین توسط مدرس و با هماهنگی با هنرجویان تنظیم خواهد شد. در نظر داشته باشید که کلاسهای آنلاین تنها جهت رفع اشکال و گفتگو با شرکتکنندگان است. تسکهای (تمرینهای) عملی دوره بصورت آفلاین ضبط و در پنل شما قرار خواهند گرفت.
بله. میتوانید وجه ثبتنام را در دو قسط با مشخصات زیر واریز نمائید
به منظور ثبتنام قسطی به این صفحه مراجعه نمائید و در بخش توضیحات مرقوم بفرمائید که وجه پرداختی جهت ثبتنام در چه دورهای هست.
بدانید که آرزوی تیم آموزشی ما این است که بتوانیم شما را در مسیر درست قرار دهیم. پس از موارد مطرح شده برداشت منفی نفرمائید.
در حالت کلی خیر. بهترین مدرک، مهارتهایی است که کسب مینمائید. ولی در صورت نیاز و درخواست برای شما مدرک نیز صادر خواهیم نمود.
هیچ کورسی در دنیا (در دنیای تکنولوژی) بعد از اتمام شما را مستقیم به شغل و درآمد نخواهد رساند. تنها تداوم در یادگیری و شرکت در جلسات مصاحبه مسیر را برای شما باز میکند. پس درگیر عناوین تبلیغاتی مختلف نشوید. اما مطمئن باشید که این مهارتها بسیار فراگیر بوده و نیاز به آنها در حال حاضر بسیار زیاد است. ولی در این دوره چون عمق مطالب را بیشتر نمودیم، قطعن شما توانمندیهایی بسیار خاص را کسب خواهید نمود که ضامن موفقیت در جلسات مصاحبه میباشد.
مدرس تمامی موارد را بشما خواهد گفت، اما شما باید سطح مطلوبی از اطلاعات را از دنیای کار با دادهها داشته باشید که بتوانید بهترین نتیجه ممکن از این دوره را بگیرید.
تمامی آموزشها برای سیستم عامل ویندوز که فراگیرتر است، تهیه میشوند. اما شما براحتی میتوانید دروس را در لینوکس و یا مک نیز پیادهسازی نمائید.