مهندسی داده چیست؟ همراه با معرفی کورس و کتاب

فهرست مطالب

این نوشته در تاریخ 27 مردادماه 1403 بروزرسانی شده است!

مهندسی داده چیست؟

یکی از رشته‌های فوق‌العاده در عصر حاضر علم داده می‌باشد. اما متخصصین داده یا دیتاساینتیست‌ها در هر سازمان و یا مجموعه‌ای، قبل از شروع به هر کار و پروژه‌ای نیاز به یک بستر مناسب از ورودی داده‌های مرتبط با کسب‌وکار را دارند. در این نقطه‌ی حساس، مهندسین داده (Data Engineering) چنین امری را میسر می‌نمایند. بطور بسیار ساده وظیفه‌ی این افراد، آماده‌سازی بستر مناسب برای کار اشخاصی است که از داده‌های مجموعه قصد بهره‌برداری را دارند. به این افراد کاربران پائین‌دستی (Downstream Users) نیز می‌نامند. یعنی کاربرانی که در پائین رودخانه‌ی تولید داده، به آنالیز و ارائه‌ی گزارش‌های مختلف یا هر کاری دیگری که با دیتا صورت می‌گیرد، می‌پردازند.

مهندسین داده باید با توجه به سیاست‌های کلان مجموعه و همچنین آشنایی با تیم‌هایی که قصد استفاده از داده‌های مختلف در مجموعه را دارند، به بهترین شکل ممکن و با استفاده از ابزارهای مختلف به آماده‌سازی، ذخیره‌سازی، پردازش مناسب و … بپردازند تا به بهترین شکل ممکن بتوانند از سازمان رفع نیاز کنند.

اگر نیاز به توضیحات ساده‌تری در خصوص این حوزه دارید، از این پست جدید ما نیز دیدن کنید.

معرفی دو کورس (انگلیسی) در خصوص مهندسی داده

دوره‌ی اول (سطح مقدماتی): یک دوره‌ی آموزشی مقدماتی از دیتاکمپ

کورس اول از دیتاکمپ

دوره‌ی دوم (پیشرفته): کورس دوم بازهم از دیتاکمپ که تقریبن یک پروژه‌ی ۴ ساعته‌ی مهندسی داده با پایتون و پای‌اسپارک رو آموزش می‌ده

کورس دوم از دیتاکمپ

چند نکته‌ی بسیار مهم

🔴 این دو‌ کورس، در مجموع هشت ساعت آموزش بیشتر نیست ولی مفاهیم بسیاری رو پوشش می‌دهند.

🔴 دیتاکمپ، نسبت به ایرانی‌ها و به بهانه‌ی تحریم، خیلی فاشیستی عمل می‌کنه. پس حتمن از وی.پی.ان. یا شکن استفاده کنید. سایت شکن

https://shecan.ir

🔴 مجموعه‌های آموزشی دیتاکمپ رو، تا جایی که من می‌دونم، نمیشه از جای خاصی بطور رایگان دانلود کرد. برای دسترسی باید اکانت دیتاکمپ که برخی از سایت‌های ایرانی می‌فروشند رو بخرید، گرون هم نیست، تقریبن هشتاد تومان هست. سایت زیر یک نمونه از این فروشنده‌هاست، خودتون هم می‌تونید جستجو کنید

خرید اکانت دیتاکمپ

معرفی چند کورس به زبان فارسی در ایران

ترتیب قرار گرفتن دوره‌های زیر به معنی بهتر یا بدتر بودن آنها نیست. ما تنها لیستی از این شاخه را تهیه نموده‌ایم و انتخاب کاملن با شماست.

  1. مهندسی داده از نیک آموز (مدرس این دوره آقای دکتر مجتبی بنایی بنیانگذار وبسایت کلان‌داده هستند)
  2. مهندسی داده و بیگ دیتا از سون لرن
  3. تربیت مهندس داده از جهاد دانشگاهی شریف
  4. مهندسی داده و کلان داده از موسسه‌ی توسعه
  5. و در نهایت کورس مبانی مهندسی داده که خود ما برگزار می‌کنیم

معرفی چند کورس مهندسی داده در یوتیوب برای سال 2023

  1. کورس پیشنهادی اول از سیمپلی‌لرن (Simplilearn) هست که در مجموع 11 ساعت می‌باشد. از مفاهیم مقدماتی شروع می‌شه و در نهایت برخی از سوالات مصاحبه که در خصوص هدوپ می‌پرسند نیز پوشش داده می‌شود.
    لینک دسترسی به این کورس
  2. کورس پیشنهادی دوم از اینتلی‌پات (Intellipaat) هست که در کل 8 ساعت می‌باشد.
    لینک دسترسی به کورس دوم
  3. کورس پیشنهادی سوم به مدت 7 ساعت از دانشگاه ای.آی هست. در این کورس توصیه‌های برای ساخت دیتا لیک (Data Lake)، معماری دیتا لیک و … گفته می‌شود.
    لینک دسترسی به کورس سوم
  4. کورس چهارم از گروه ادیوریکا هست.
    لینک دسترسی به کورس چهارم از ادیوریکا (Edureka)

معرفی کتاب برای مهندسی داده

اگر شما جزو افرادی هستید که با کتاب بهتر یاد می‌گیرید، عنوانی که در لینک زیر هست رو بشخصه می‌پسندم و توصیه می‌کنم. در این کتاب چهار چوب اساسی کار خیلی خوب شرح داده می‌شه. لازم به ذکر است که نویسندگان این اثر فاخر، در ابتدا دیتاساینتیست بودند و به مرور زمان و با توجه به نیاز بازار، به این سمت تغییر مسیر دادند

لینک دسترسی به کتاب در سایت اورایلی

کتاب فوق رو در کانال تلگرام علم داده در آدرس زیر می‌تونید دانلود کنید

لینک دانلود کتاب فوق در تلگرام علم داده

برخی از ابزارهای مهندسی داده

به عنوان یک مهندس داده، شما می‌توانید از ابزارهای مختلفی برای پردازش و تحلیل داده‌ها استفاده کنید. در زیر تعدادی از این ابزارها را معرفی می‌نمائیم:

۱. Apache Hadoop: یک سیستم توزیع شده (Distributed) و باز مبتنی بر جاوا است که برای پردازش داده‌های بزرگ و پیچیده استفاده می‌شود. این ابزار شامل یک سری ابزار مانند Hadoop Distributed File System (HDFS) و MapReduce است.

۲. Apache Spark: یک چارچوب (Framework) پردازش توزیع شده برای مدیریت داده‌های بزرگ است. اسپارک شامل یک سری ابزار برای پردازش داده از جمله Spark SQL و Spark Streaming است.

۳. Apache Cassandra: یک پایگاه داده توزیع شده و NoSQL است که برای پردازش داده‌های بزرگ و پیش‌بینی نوع استفاده می‌شود.

۴. Apache Kafka: یک پلتفرم توزیع شده برای پردازش داده‌های رویدادها (event data) و همچنین داده‌های درلحظه (streaming data) بکار گرفته می‌شود. کافکا شامل یک سری ابزار برای پردازش داده از جمله Kafka Connect و Kafka Streams است.

۵. Python: یک زبان برنامه‌نویسی بسیار قدرتمند است که برای پردازش داده‌ها و تحلیل آن‌ها استفاده می‌شود. برخی از کتابخانه‌های پرکاربرد برای پردازش داده در Python شامل NumPy ، Pandas و Matplotlib هستند. این زبان در حال حاضر قلب تپنده‌ی دنیای دیتاساینس و هوش مصنوعی محسوب می‌گردد که صد البته در دنیای پهناور مهندسی داده نیز جزو اولین‌هاست.

۶. R: یک زبان برنامه‌نویسی محاسباتی است که برای تحلیل داده‌ها و تعامل با داده‌ها استفاده می‌شود. برخی از کتابخانه‌های پرکاربرد برای پردازش داده در R شامل dplyr ، ggplot2, caret و tidyr هستند.

۷. Tableau: یک ابزار برای مصورسازی داده است که برای آنالیز داده‌ها و ساخت داشبوردهای تحلیلی استفاده می‌شود. این ابزار قابلیت اتصال به منابع داده‌ای مختلف را دارد و می‌تواند داده‌های پیچیده را به صورت دیداری نمایش دهد.

چگونه وارد دنیای مهندسی داده شویم؟

برای ورود به حوزه‌ی مهندسی داده، شما می‌توانید از راه‌های مختلفی استفاده کنید، از جمله:

  1. تحصیل در رشته‌های مرتبط مانند علوم کامپیوتر، مهندسی کامپیوتر، آمار و ریاضیات و یا رشته‌های مرتبط با علوم داده. بعنوان مثال آقای جو ریس نویسنده‌ی کتابی که در بالا به شما معرفی گردید، لیسانس ریاضی دارند. ولی پس از اخذ مدرک دانشگاهی بصورت خودخوان و شرکت در دوره‌های مختلف قادر شدند چنین تجربیات ارزشمندی را کسب نمایند.
  2. شرکت در دوره‌های آموزشی آنلاین و آفلاین در حوزه‌ی دیتا و مهندسی داده، مانند دوره‌های Udemy، Coursera و DataCamp. در حال حاضر در ایران نیز کورس‌های متعددی به زبان فارسی و توسط افراد و موسسات مختلف در این راستا برگزار می‌گردد.
  3. انجام پروژه‌های مرتبط با داده‌ها، مانند تحلیل داده‌های کسب و کار یا تحلیل داده‌های مربوط به علوم سلامت و پزشکی و انجام فرایندهای ETL در آنها. در این پست می‌توانید ده ایده برای انجام پروژه‌های مهندسی داده را مشاهده نمائید.
  4. شرکت در جامعه‌های آنلاین مرتبط با داده‌ها و مهندسی داده، مانند Stack Overflow و GitHub.
  5. شرکت در مسابقات داده‌-محور و چالش‌های مرتبط با تحلیل داده، مانند مسابقات Kaggle. این رویدادها به شما کمک می‌کنند تا تجربه کسب کنید و مهارت‌های خود را بهبود ببخشید و صد البته با کلیت داستان آشنا شوید.

در کل، برای ورود به حوزه مهندسی داده، شما باید همیشه در مسیر یادگیری و کسب تجربه بوده و بطور مداوم خودتان را به‌روز نمائید، چون تکنولوژی‌هایی که در این حوزه وجود دارند بسرعت برق و باد در حال تغییر و تحول می‌باشند.

در صورت داشتن هرگونه سوال و ابهام از طریق بخش نظرات با تیم ما در ارتباط باشید. در اولین فرصت ممکن پاسخگوی شما هستیم.

توضیحات بروزرسانی‌ها

  • ویرایش اول: کورس مهندسی داده‌ مجموعه اضافه شد (1402/03/27)
  • ویرایش دوم: در خصوص کورس نیک‌آموز توضیحاتی اضافه شد (1402/04/05)

سایر مقالات مجموعه:

پست‌های مرتبط با این مقاله:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *