این نوشته در تاریخ 27 مردادماه 1403 بروزرسانی شده است!
مهندسی داده چیست؟
یکی از رشتههای فوقالعاده در عصر حاضر علم داده میباشد. اما متخصصین داده یا دیتاساینتیستها در هر سازمان و یا مجموعهای، قبل از شروع به هر کار و پروژهای نیاز به یک بستر مناسب از ورودی دادههای مرتبط با کسبوکار را دارند. در این نقطهی حساس، مهندسین داده (Data Engineering) چنین امری را میسر مینمایند. بطور بسیار ساده وظیفهی این افراد، آمادهسازی بستر مناسب برای کار اشخاصی است که از دادههای مجموعه قصد بهرهبرداری را دارند. به این افراد کاربران پائیندستی (Downstream Users) نیز مینامند. یعنی کاربرانی که در پائین رودخانهی تولید داده، به آنالیز و ارائهی گزارشهای مختلف یا هر کاری دیگری که با دیتا صورت میگیرد، میپردازند.
مهندسین داده باید با توجه به سیاستهای کلان مجموعه و همچنین آشنایی با تیمهایی که قصد استفاده از دادههای مختلف در مجموعه را دارند، به بهترین شکل ممکن و با استفاده از ابزارهای مختلف به آمادهسازی، ذخیرهسازی، پردازش مناسب و … بپردازند تا به بهترین شکل ممکن بتوانند از سازمان رفع نیاز کنند.
اگر نیاز به توضیحات سادهتری در خصوص این حوزه دارید، از این پست جدید ما نیز دیدن کنید.
معرفی دو کورس (انگلیسی) در خصوص مهندسی داده
دورهی اول (سطح مقدماتی): یک دورهی آموزشی مقدماتی از دیتاکمپ
دورهی دوم (پیشرفته): کورس دوم بازهم از دیتاکمپ که تقریبن یک پروژهی ۴ ساعتهی مهندسی داده با پایتون و پایاسپارک رو آموزش میده
چند نکتهی بسیار مهم
🔴 این دو کورس، در مجموع هشت ساعت آموزش بیشتر نیست ولی مفاهیم بسیاری رو پوشش میدهند.
🔴 دیتاکمپ، نسبت به ایرانیها و به بهانهی تحریم، خیلی فاشیستی عمل میکنه. پس حتمن از وی.پی.ان. یا شکن استفاده کنید. سایت شکن
🔴 مجموعههای آموزشی دیتاکمپ رو، تا جایی که من میدونم، نمیشه از جای خاصی بطور رایگان دانلود کرد. برای دسترسی باید اکانت دیتاکمپ که برخی از سایتهای ایرانی میفروشند رو بخرید، گرون هم نیست، تقریبن هشتاد تومان هست. سایت زیر یک نمونه از این فروشندههاست، خودتون هم میتونید جستجو کنید
معرفی چند کورس به زبان فارسی در ایران
ترتیب قرار گرفتن دورههای زیر به معنی بهتر یا بدتر بودن آنها نیست. ما تنها لیستی از این شاخه را تهیه نمودهایم و انتخاب کاملن با شماست.
- مهندسی داده از نیک آموز (مدرس این دوره آقای دکتر مجتبی بنایی بنیانگذار وبسایت کلانداده هستند)
- مهندسی داده و بیگ دیتا از سون لرن
- تربیت مهندس داده از جهاد دانشگاهی شریف
- مهندسی داده و کلان داده از موسسهی توسعه
- و در نهایت کورس مبانی مهندسی داده که خود ما برگزار میکنیم
معرفی چند کورس مهندسی داده در یوتیوب برای سال 2023
- کورس پیشنهادی اول از سیمپلیلرن (Simplilearn) هست که در مجموع 11 ساعت میباشد. از مفاهیم مقدماتی شروع میشه و در نهایت برخی از سوالات مصاحبه که در خصوص هدوپ میپرسند نیز پوشش داده میشود.
لینک دسترسی به این کورس - کورس پیشنهادی دوم از اینتلیپات (Intellipaat) هست که در کل 8 ساعت میباشد.
لینک دسترسی به کورس دوم - کورس پیشنهادی سوم به مدت 7 ساعت از دانشگاه ای.آی هست. در این کورس توصیههای برای ساخت دیتا لیک (Data Lake)، معماری دیتا لیک و … گفته میشود.
لینک دسترسی به کورس سوم - کورس چهارم از گروه ادیوریکا هست.
لینک دسترسی به کورس چهارم از ادیوریکا (Edureka)
معرفی کتاب برای مهندسی داده
اگر شما جزو افرادی هستید که با کتاب بهتر یاد میگیرید، عنوانی که در لینک زیر هست رو بشخصه میپسندم و توصیه میکنم. در این کتاب چهار چوب اساسی کار خیلی خوب شرح داده میشه. لازم به ذکر است که نویسندگان این اثر فاخر، در ابتدا دیتاساینتیست بودند و به مرور زمان و با توجه به نیاز بازار، به این سمت تغییر مسیر دادند
لینک دسترسی به کتاب در سایت اورایلی
کتاب فوق رو در کانال تلگرام علم داده در آدرس زیر میتونید دانلود کنید
لینک دانلود کتاب فوق در تلگرام علم داده
برخی از ابزارهای مهندسی داده
به عنوان یک مهندس داده، شما میتوانید از ابزارهای مختلفی برای پردازش و تحلیل دادهها استفاده کنید. در زیر تعدادی از این ابزارها را معرفی مینمائیم:
۱. Apache Hadoop: یک سیستم توزیع شده (Distributed) و باز مبتنی بر جاوا است که برای پردازش دادههای بزرگ و پیچیده استفاده میشود. این ابزار شامل یک سری ابزار مانند Hadoop Distributed File System (HDFS) و MapReduce است.
۲. Apache Spark: یک چارچوب (Framework) پردازش توزیع شده برای مدیریت دادههای بزرگ است. اسپارک شامل یک سری ابزار برای پردازش داده از جمله Spark SQL و Spark Streaming است.
۳. Apache Cassandra: یک پایگاه داده توزیع شده و NoSQL است که برای پردازش دادههای بزرگ و پیشبینی نوع استفاده میشود.
۴. Apache Kafka: یک پلتفرم توزیع شده برای پردازش دادههای رویدادها (event data) و همچنین دادههای درلحظه (streaming data) بکار گرفته میشود. کافکا شامل یک سری ابزار برای پردازش داده از جمله Kafka Connect و Kafka Streams است.
۵. Python: یک زبان برنامهنویسی بسیار قدرتمند است که برای پردازش دادهها و تحلیل آنها استفاده میشود. برخی از کتابخانههای پرکاربرد برای پردازش داده در Python شامل NumPy ، Pandas و Matplotlib هستند. این زبان در حال حاضر قلب تپندهی دنیای دیتاساینس و هوش مصنوعی محسوب میگردد که صد البته در دنیای پهناور مهندسی داده نیز جزو اولینهاست.
۶. R: یک زبان برنامهنویسی محاسباتی است که برای تحلیل دادهها و تعامل با دادهها استفاده میشود. برخی از کتابخانههای پرکاربرد برای پردازش داده در R شامل dplyr ، ggplot2, caret و tidyr هستند.
۷. Tableau: یک ابزار برای مصورسازی داده است که برای آنالیز دادهها و ساخت داشبوردهای تحلیلی استفاده میشود. این ابزار قابلیت اتصال به منابع دادهای مختلف را دارد و میتواند دادههای پیچیده را به صورت دیداری نمایش دهد.
چگونه وارد دنیای مهندسی داده شویم؟
برای ورود به حوزهی مهندسی داده، شما میتوانید از راههای مختلفی استفاده کنید، از جمله:
- تحصیل در رشتههای مرتبط مانند علوم کامپیوتر، مهندسی کامپیوتر، آمار و ریاضیات و یا رشتههای مرتبط با علوم داده. بعنوان مثال آقای جو ریس نویسندهی کتابی که در بالا به شما معرفی گردید، لیسانس ریاضی دارند. ولی پس از اخذ مدرک دانشگاهی بصورت خودخوان و شرکت در دورههای مختلف قادر شدند چنین تجربیات ارزشمندی را کسب نمایند.
- شرکت در دورههای آموزشی آنلاین و آفلاین در حوزهی دیتا و مهندسی داده، مانند دورههای Udemy، Coursera و DataCamp. در حال حاضر در ایران نیز کورسهای متعددی به زبان فارسی و توسط افراد و موسسات مختلف در این راستا برگزار میگردد.
- انجام پروژههای مرتبط با دادهها، مانند تحلیل دادههای کسب و کار یا تحلیل دادههای مربوط به علوم سلامت و پزشکی و انجام فرایندهای ETL در آنها. در این پست میتوانید ده ایده برای انجام پروژههای مهندسی داده را مشاهده نمائید.
- شرکت در جامعههای آنلاین مرتبط با دادهها و مهندسی داده، مانند Stack Overflow و GitHub.
- شرکت در مسابقات داده-محور و چالشهای مرتبط با تحلیل داده، مانند مسابقات Kaggle. این رویدادها به شما کمک میکنند تا تجربه کسب کنید و مهارتهای خود را بهبود ببخشید و صد البته با کلیت داستان آشنا شوید.
در کل، برای ورود به حوزه مهندسی داده، شما باید همیشه در مسیر یادگیری و کسب تجربه بوده و بطور مداوم خودتان را بهروز نمائید، چون تکنولوژیهایی که در این حوزه وجود دارند بسرعت برق و باد در حال تغییر و تحول میباشند.
در صورت داشتن هرگونه سوال و ابهام از طریق بخش نظرات با تیم ما در ارتباط باشید. در اولین فرصت ممکن پاسخگوی شما هستیم.
توضیحات بروزرسانیها
- ویرایش اول: کورس مهندسی داده مجموعه اضافه شد (1402/03/27)
- ویرایش دوم: در خصوص کورس نیکآموز توضیحاتی اضافه شد (1402/04/05)