مهندسی داده بخشی اساسی از جریان کاری علم داده است که شامل طراحی، پیاده سازی و مدیریت خطوط لوله (pipelines) و سیستمهای داده است. داشتن تجربهی کار و سواد کافی در پروژههای مهندسی داده میتواند دارایی و برگه برندهی ارزشمندی برای پیشرفت شغلی در این حوزه باشد.
در ادامه، ده ایدهی مختلف برای انجام پروژههایی در این وادی را شرح خواهم داد.
ساخت یک انبار داده (Data Warehouse):
انبار داده، یک مخزن مرکزی از دادهها است که میتوان از آن برای گزارشگیری و تحلیل دیتا (دادهها) استفاده کرد. ساخت یک انبار داده، پروژهای عالی است که میتواند مهارتهای شما در مدلسازی داده، فرایند ETL (استخراج، تبدیل، بارگذاری-(extract, transform, load)) و طراحی پایگاه داده را نشان دهد.
پیادهسازی خط لولهی دادههای بلادرنگ یا در لحظه (real-time data):
خطوط لولهی دادههای بلادرنگ برای جمعآوری و پردازش دادهها در زمان واقعی استفاده میشوند. پیادهسازی یک خط لوله از دادههای در لحظه میتواند مهارتهای شما در فناوری های جریانی داده مانند Apache Kafka یا Apache Flink را نشان دهد.
توسعهی یک پلتفرم یکپارچهسازی داده (Data Integration Platform):
پلتفرم یکپارچهسازی داده برای یکپارچهسازی دادهها از منابع مختلف در یک مخزن مرکزی استفاده میگردد. توسعهی یک پلتفرم یکپارچهسازی داده، میتواند مهارتهای شما در فرایند ETL، مدلسازی داده و طراحی پایگاه داده را نشان دهد.
طراحی و پیادهسازی یک دریاچهی داده (Data Lake):
دریاچهی داده، یک مخزن مرکزی است که امکان ذخیره و پردازش حجم بزرگی از دادهها را فراهم میکند. طراحی و پیادهسازی یک دریاچهی داده، میتواند مهارتهای شما در فناوریهای دادههای کلان (Big Data) مانند Apache Hadoop یا Apache Spark را نشان دهد.
ایجاد فریمورک حاکمیت داده (data governance framework):
حاکمیت داده، شامل مدیریت و حفاظت از دادهها است تا اطمینان حاصل شود که آنها درست، امن و در زمان نیاز در دسترس هستند. ایجاد چارچوب (فریمورک) حاکمیت داده، میتواند مهارتهای شما در امنیت داده، تطابق و مدیریت خطرات را نشان دهد.
توسعهی سیستم مدیریت کیفیت داده (data quality management system):
سیستم مدیریت کیفیت داده، برای اطمینان از دقت، کامل بودن و سازگاری دادهها استفاده میشود. توسعهی سیستم مدیریت کیفیت داده میتواند مهارتهای شما در ارزیابی کیفیت داده، پروفایلسازی داده و پاکسازی دیتا را نشان دهد.
اما در خصوص اینکه پروفایلسازی داده چیست، توجه فرمائید که؛ پروفایلسازی داده (Data Profiling) فرایندی است که در آن دادهها بررسی و تحلیل میشوند تا ویژگیهای آنها مشخص شده و همچنین بفهمیم که دادهها چگونه ساختار یافته شدهاند، چگونه توزیع شدهاند و چه نوع ارزش اطلاعاتی دارند. در واقع پروفایلسازی داده به ما کمک میکند تا بتوانیم از دادههای خود در بهترین شکل ممکن استفاده کنیم و مشکلات موجود را شناسایی نمائیم. به عنوان مثال، با استفاده از پروفایلسازی داده، میتوانیم به سادگی با پیدا کردن دادههای کمکی، دادههای نامعتبر و ناقص را شناسایی کرده و سپس اقدام به تمیز کردن و بهبود کیفیت دادهها کنیم.
پیاده سازی کاتالوگ داده (data catalog):
کاتالوگ داده یک مخزن مرکزی است که اطلاعات فراداده (metadata) دربارهی داراییهای داده (کل دیتاهای موجود در سازمان) را ارائه میدهد. پیادهسازی کاتالوگ داده میتواند مهارتهای شما در مدیریت داده، مدیریت فراداده و کشف دادهها را نشان دهد.
ساخت موتور پیشنهاد دهنده (recommendation engine):
موتور پیشنهاد دهنده، برای ارائهی پیشنهادات شخصیسازی شده به کاربران بر اساس رفتار (سوابق وبگردی) و ترجیحاتشان استفاده میشود. ساخت چنین موتوری، میتواند مهارتهای شما در یادگیری ماشین، مدلسازی داده و توسعهی الگوریتم را نشان دهد.
توسعه سیستم نظارت و هشدار دهی خطوط انتقال داده (data pipeline monitoring and alerting system):
سیستم نظارت و هشدار دهی خط لوله داده برای نظارت بر خطوط انتقال داده برای خطاها و شکستها استفاده میگردد که در صورت بروز مشکل، اپراتورها و کارشناسان مسئول سیبستم را آگاه میگرداند. توسعهی چنین سیستمی میتواند مهارتهای شما در پردازش دادههای بلادرنگ (در لحظه و برخط)، نظارت بر سیستمها و هشدار دهی را نشان دهد.
پیاده سازی چارچوب حفظ حریم خصوصی داده (data privacy framework):
حفظ حریم خصوصی دادهها، شامل محافظت از دادههای حساس در برابر دسترسی و استفادهی غیر مجاز است. پیادهسازی یک چارچوب حفظ حریم خصوصی داده میتواند مهارتهای شما در امنیت داده، تطابق و مدیریت خطرات را نشان دهد.
کلام پایانی:
کار در پروژههای مهندسی داده (از قبل تعریف شده و یا جدید) یک راه مهم برای پیشرفت شغلی شما در این حوزه است. طبیعتن لیست فوق کامل نیست، اما بهترین ایدههای پروژههای مهندسی داده را بشما ارائه میدهد تا بتوانید مهارتها و تخصص خود را با توجه به آنها ارتقا داده و به دیگران نشان دهید. به خاطر داشته باشید که باید ایدههای پروژهی خود را به منظور تناسب با علایق و اهداف شغلیتان سفارشیسازی کنید و دستاوردهای حاصل شده را در رزومه و نمونهی کارهایتان به بهترین شکل ممکن، ارائه دهید. اینروزها دنیا مملو از نمایش و رنگ شده و قطعن ما نیز باید توانمندیها و کارهای خود را با تزئینات زیباتری نسبت به گذشته، به دنیا عرضه نمائیم.
اگر برای شروع مهندسی داده نیاز به راهنمایی و کمک داشتید، این پست را مطالعه نمائید. در مقالهی ذکر شده، به معرفی چند دوره از این حوزه، معرفی کتاب و ابزارهای مختلف در این رشته و تخصص پرداختهایم.
Reference: 10 Data Engineering Project Ideas for Career Advancement