دکتر محمد فزونی

مدیریت داده‌های گمشده (missing data)

مقدمه

مدیریت داده‌های گمشده یا مقادیر از دست رفته گام مهمی در پاکسازی داده‌ها (Data cleaning) و پیش پردازش داده‌ها (Preprocessing) در بحث یادگیری ماشین (Machin Learning) یا داده‌کاوی (Data Mining) است که می تواند بر اعتبار و قابلیت اطمینان مدل تأثیر بگذارد. دلیل اهمیت گمشدگی داده‌ها این است که تقریباً تمام تکنیک‌های آماری کلاسیک و مدرن عملکرد آنها براساس داده‌های کامل است (یا به آنها نیاز دارند). دلیل دیگر اینکه اغلب بسته‌های آماری رایج در بسیاری از نرم‌افزارهای آماری حداقل گزینه‌های مطلوب آنها برای مقابله با داده‌های از دست رفته حذف داده‌های گمشده از تجزیه و تحلیل است. در این آموزش موارد زیر پوشش  داده‌ خواهد شد:

داده‌ی گمشده چیست؟

علــی رغــم ایــن کــه در اکثــر تحقیقات علمی روش‌های استنباط براساس داده‌های کامل می‌باشد، ولی در بسیاری از موارد به ویژه وقتی با داده‌های حجیم سروکار داریم، جمـع آوری داده‌هـا به طور کامـل امکـان پـذیر نمی‌باشـد. بنابراین اگر داده‌ای یا مقداری از هر متغیری از هر شرکت‌کننده وجود نداشته باشد، محقق با داده‌های گمشده یا ناقص سروکار دارد.

برخی از دلایل گمشدگی داده‌ها

تاثیرات گمشدگی داده‌ها

مکانیزم‌های گمشدگی

روبین در سال 1976 انواع داده های گمشده را بر اساس دلایل گمشدگی داده‌ها به سه دسته زیر تقسیم‌بندی کرد:

ادامه مطالب بسیار ارزشمند و بی‌نظیر این مقاله را به صورت PDF در فایل زیر مطالعه نمائید. در ادامه کار به نحوه‌ی کار با داده‌های گمشده خواهیم پرداخت همچنین می‌توانید ویدیوی ضبط شده توسط آقای دکتر عبدالسعید توماج را نیز که در کانال یوتیوب علم داده به انتشار رسیده، مشاهده نمائید.

  1. دانلود مابقی مقاله بصورت PDF 
  2. مشاهده قسمت اول ویدیو (مربوط به این مقاله)
  3. مشاهده قسمت دوم ویدیو (مربوط به این مقاله)

 

خروج از نسخه موبایل