یکی از کتابهای فوقالعادهای که اخیراً خواندم و بسیار هم لذت بردم، کتاب
Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are
by Seth Stephens-Davidowitz
بود. آقای سِت دیویدوویتز دانشآموختهی دانشگاه هاروارد در رشتهی اقتصاد هستند که با توجه به سوابق کاری خود در گوگل بعنوان یک دیتا ساینتیست، این کتاب ارزشمند را به چاپ رساندند. ایشان یک متخصص علم دادهاند که از طریق اقتصاد وارد این حوزه شدند. در ادامه گزیدههایی از این کتاب را که قبلاً در کانال تلگرام علم داده، منتشر شده، برای استفادهی عزیزان و علاقمندان قرار خواهم داد. فقط ذکر یک نکته ضروری است. بنده کتاب حاضر را به زبان اصلی خواندهام و شاید بخشهایی از این گزیدهها در نسخهی فارسی موجود نباشد (سانسور شده باشد). این بخشها تنها یک جز بسیار کوچک از این اثر فاخر است.
بخش اول:
مقدمهی کتاب با یک گزارش و آمار خاکبرسری، آغاز میشود. لطفاً تحریک نشوید. این متن صرفن یک گزارش علمی است.
دیویدوویتز، نویسندهی کتاب، میگوید «به بسیاری از نظرسنجیها نمیشود اعتماد کرد. بعنوان مثال، در یک نظرسنجی در آمریکا، با توجه به پاسخهای زنان به سؤالات، میزان مصرف کاندوم در روابط زوجین در آمریکا سالیانه حدود ۱.۱ میلیارد؛ طبق پاسخهای مردان ۱.۶ میلیارد؛ و طبق یک نهاد بررسی کننده رفتار خریداران، ۶۰۰ میلیون گزارش شده است». نویسنده با توجه به اختلاف معنادار اعداد، نتیجه میگیرد که در این میان عدهای دروغ میگویند.
«بسیاری از مردان، در یک ردهی سنی خاص، تعداد سکسشان را، یک بار در هفته اعلام میکنند. این در حالی است که بیشترین واژهای که در گوگل در همان مناطق نظرسنجی ثبت شده است “sexless marriage” میباشد (یعنی ازدواج بدون سکس)» نویسنده نتیجه میگیرد که بسیاری از مردان در این خصوص در نظرسنجیها دروغ میگویند، چون اگر خلاف این بود، بدنبال خواندن مقالاتی در رابطه با این مورد، یعنی ازدواج بدون سکس، نبودند.
نویسنده عنوان میکند «تمامی افراد، در هنگام نظرسنجیها واقعیت را نمیگویند، ولی چون به گوگل اعتماد کامل داشتند و دارند و در هنگام جستجو، بیم این را ندارند که شاید شخصیتشان زیر سوال رود، هر چیزی را که در درونشان دارند، عنوان میکنند و راجع به آن به جستجو میپردازند. از این جهت، دیتاستهای گوگل، شاید بهترین وسیله برای مطالعهی روان انسانها باشد»
نکته: کتاب حاضر بخشی از رسالهی دکتری نویسنده است
بخش دوم:
باهوشترین کمپانیهای فعال در بیگدیتا، معمولاً، اندازهی دادههاشون رو کاهش میدهند. در گوگل، تصمیمات اصلی، تنها بر مبنای یک نمونهی خیلی کوچیک از دادههاشون گرفته میشود. شما همیشه نیاز به حجم عظیمی از دادهها که بتونی بینش خوب از بینشون دربیاری نداری، چیزی که نیاز داری، دادههای درست و مناسب هست. یکی از دلایل اصلی اینکه دادههای گوگل، خیلی خوبن، فقط به خاطر زیاد بودنشون نیست، بخاطر اینه که اکثراً افراد با گوگل صادق و روراست هستند. پس دادههای گوگل بسیار بسیار ارزشمند هست.
بخش سوم:
در فصل دوم کتاب «آیا حق با فروید بود؟» سِت دو تا از تئوریهای فروید رو با دیتاستهایی که داره، به چالش میکشه و اولی رو رد میکنه ولی دومی رو تائید میکند.
ست میگه با توجه به سوابق جستجو در گوگل و یکی از بزرگترین پلتفرمهای پورنوگرافی، عدهی قابل توجهی از افراد بدنبال ویدیوهای incest (رابطه با محارم) هستند که تا حدودی نشان دهندهی عقیدهی ادیپ در افراد هست.
دوستان متمم میگویند، ست اشتباه کرده. چون افراد در این سایتها، هویت واقعی خودشون رو درست نمینویسند، پس نتایج غلطه. ولی این نظر درست نیست، چون دیتاستی که نویسنده بر مبنای اون نتیجهگیری میکنه، هزارتا یا صدهزارتا رکورد نداره؛ رکوردها و مشاهدات بعضاً میلیاردی هست. ویدیوها و پروفایلهایی وجود دارند، که میلیاردی بازدید شده. پس نظر ست نسبت به عقیدهی متمم، سندیت بیشتری داره.
قدرت بیگدیتا، اینه که بعضاً در اون سمپلهای عالی پیدا میشه. چیزی که تا به امروز، به هیچ وجه بشر بهش دسترسی نداشته. وظیفهی اصلی دیتاساینس اینه که جهان رو بهتر بما بشناساند و برای شناخت بهتر جهان، اول باید ذات بشر رو بهتر و عمیقتر موشکافی کنیم.
بخش چهارم:
یک تیم از محققین خواستند که بدونند در اولین قرار یک زوج (دختر و پسر) اگر چه حرفهایی زده بشه، قرار ملاقات دوم هم برگزار خواهد شد.
یکسری دیتاهای سنتی رو بررسی کردند و متوجه شدند که زیاد اطلاعات نمیگیرن. اومدن تعداد قابل توجهی از اون قرارها رو ضبط کردند و از NLP استفاده کردند. به این نتیجه رسیدند که
در قرارهایی که در اولین جلسه، بیشتر راجع به خانم حرف زده بشه، احتمال برگزاری دومین قرار خیلی بیشتره. زیاد هم نباید سؤال رد و بدل بشه، چون باعث ابهامات میشه. مخصوصاً اگر خانمها از واژهی «من» در اولین قرار استفاده کنند، یعنی خیلی خوشبحال پسره شده، این یعنی به طرف داره اعتماد میکنه
خلاصه به آقایون عرض کنم که اگر خواستید قرارهای بعدی هم تنظیم بشه و بقول خودتون مخ بزنید ??، بیشتر گوش بدین.
بخش پنجم:
یک مقاله در حوزهی رشد GDP مخصوص به کشورهای درحال توسعه نوشته میشه که روش کار مولفین، بسیار جالب توجه هست.
این عزیزان، با استفاده از تصاویر یکی از ماهوارههای نظامی آمریکا که روزانه ۱۴ بار دور زمین میچرخه، و آنالیز کردن عکسها در طی چند سال به این نتیجه رسیدند که «در کشورهای در حال توسعه، در مواقعی که اقتصاد بسیار ضعیف هست، چراغهای کمتری در شب روشن میباشد. و در مناطقی که بنابدلایلی اقتصاد در حال شکوفایی است، شب اکثر چراغها روشن هست». این ملاک، چیز خیلی سادهای هست، ولی اینا اولین نفرهایی بودن که بهش توجه کردن. این خیلی مهمه.
یک متخصص کامپیوتر وقتی این مقاله رو خوند و دید که میشه از عکس پول درآورد، اومد یه شرکت زد بنام Premise. کارشون چی بود؟ در کشورهای در حال توسعه یک تیم از افراد رو که فقط توان کار با موبایلهای هوشمند داشتند، استخدام کردند و بهشون گفتند که از هر چیزی که فکر میکنید شاید آوردهی اقتصادی داشته باشه، مرتب عکس بگیرید. سپس این عکسها به دفاتر مرکزی ارسال میشد و تیم دوم که آنالیزورهای عکس بودند، زیر و بم این تصاویر رو درمیآورند. بعد این شرکت میرفت اطلاعاتی که از طریق همین عکسها بدست آورده بود رو به قیمتهای گزاف به بانکها و یا دولتها میفروخت. اخیراً سرمایهگذارها ۵۰ میلیون دلار ناقابل وارد این شرکت کردند.
بخش ششم:
مارک زاکربرگ وقتی که دانشجو بود، یه وبسایت راه میاندازه که خیلی سر و صدا میکنه. مارک میفهمه که علیرغم اعتراضها، تعداد کلیکها و بازدیدهای سایت خیلی زیاده. اونجا بود که میفهمه «ملت چیزی رو که میگن، انجام نمیدن ?». در ظاهر همه جنتلمن، ولی ذاتاً غیرقابل باور و تحمل.
اون درس، مارک رو به سمت پایهگذاری فیسبوک میکشونه، که تقریباً میشه گفت یکی از موفقترین استارتاپهای زمان خودش بوده و هست.
نتفلیکس هم دقیقاً از این تکنیک استفاده کرد و شد نتفلیکس. اونا ابتدا از ملت نظرسنجی میکردن که چه ویدیوهایی رو دوست دارن ببینند. اما متوجه شدند که اینکار بهشون جواب نمیده. اومدن بیخیال نظرسنجی شدند و رفتار کاربرها رو آنالیز کردند و بر مبنای رفتار اونها یه الگوریتم نوشتند. الگوریتمی که با دیتاهای قبلی آموزش دیده بود. اینکار نتیجهی بسیار چشمگیری بهشون داد. فهمیدند که ملت خیلی وقتا دقیقاً نمیدونن چی میخوان. ولی الگوریتم اونا رو از خودشون بهتر میشناسه.
بخش هفتم:
۲۷ام فوریهی سال ۲۰۰۰ چندتا از مهندسین گوگل که در مانتین وییو نشسته بودند در حال عشق و حال، تصمیمی میگیرند که یکجورایی باعث انقلابی در اینترنت شد.
اونها اومدن بدون اینکه کاربرها بفهمند، افراد رو به دو دسته تقسیم کردند و به افراد دستهی اول، در سایتهای گوکل، ۲۰ تا لینک رو نشون دادند و به افراد دستهی دوم، ۱۰ لینک. در مرحلهی بعد، میزان رضایت و نرخ کلیک رو مقایسه کردند. به اینکار میگن آزمون آ/ب یا؛
A/B test.
چون این آزمون به طرز فوقالعادهای به گوگل کمک کرد که درآمدش رو چندین برابر کنه، کمکم صغیر و کبیر شروع کردند به انجام این آزمون روی افراد از همهجا بیخبر. این تست، حتی به کمپینهای انتخاباتی اوباما هم رسید.پینوشت: این موارد در فصلی از کتاب نوشته شده با عنوان «کل دنیا یک آزمایشگاه هست». یاد کتاب «کم عمقها» افتادم که نگارنده عنوان کرده بود، «هر تکنولوژی که ابداع میشه توسط بشر، تقریباً ده سال طول میکشه تا افراد، فرهنگ استفاده از اون رو یاد بگیرند». اینکه کل دنیا تبدیل شده به یک آزمایشگاه، شاید برای یکعده مطلوب باشه، ولی قطعاً برای اکثریت افراد، چیز جالبی نیست. واقعاً پشت تمام کارهایی که در حال انجامش هستیم، عواقبی وجود داره که ذره ذره و ریز ریز میفهمیمشون. واقعاً حرفی که افلاطون دوهزار سال پیش زده درسته؛
«تنها میدانم که هیچ نمیدانم».
بخش هشتم:
ملت دروغ میگن تا خودشون رو بهتر از چیزی که هستند نشون بدن. دنیا هم یکجورایی بما داره دروغ میگه. چطوری؟ با دادههای غلط و گمراهکنندهای که هر روز به ما نشون میده.
مثلاً، دنیا تعداد خیلی زیادی از آدمهای موفق رو معرفی میکنه که رفتن به دانشگاه هاروارد، ولی افراد بسیار کمتری رو که در یه دانشگاه دیگه بودند و موفق هم شدند، نشون میده. انگار ارزش کمتری برای این افراد قائل میشه. ولی اونقدرها هم که فکر میکنیم، هاروارد رفتن چنگی به دل نمیزنه و ضامن رسیدن به رویاهامون نیست.
پینوشت: مولف کتاب خودش دانشآموختهی هاروارد هست، ولی خیلی بزرگش نمیکنه. ایشون بیشتر به استعداد و انگیزههای افراد اهمیت میدن، تا دانشگاهی که توش درس خونده. پذیرش در دانشگاه سطح بالا، لزوماً دلیل بر عالی و نخبه بودن شخص نیست. افراد زیادی، مثلاً بیل گیتس، زاکربرگ و خیلیهای دیگه، از چنین دانشگاههایی انصراف دادن، چون کسل کننده بوده براشون.
بخش نهم:
سؤالی مطرح میگردد.
آیا منابع جدید بیگدیتا میتونند پیشبینی کنند که کدوم سهم (از بازار بورس) افزایش خواهد یافت؟پاسخ کوتاه به این سؤال؛ خـــــیـــــر.
در واقع بیگدیتاها به تنهایی مشکلگشا و روشنگر مسیر راه نمیباشند. در برخی از موارد نیاز به دادههای کوچک-مقدار که مثلاً از نظرسنجیها بدست آمده هم داریم (دقت کنید که این دیتاستهای کوچک، مکمل بیگ دیتاستها هستند).
بعنوان مثال، فیسبوک علیرغم در دست داشتن بزرگترین دیتاستها در خصوص رفتار افراد، در تیم دیتای خودش، روانشناسان اجتماعی، انسانشناسان و جامعه شناسان رو استخدام میکنه تا اون چیزی که اعداد در دیتاستها از دست دادند و کشف نکردند، پیدا کنه.
پینوشت: پس کشکی نیست که بتونیم از دیتاستها نتایج خوب بدست بیاریم. کار کاملاً، گروهی هست و نیاز به زمان و تمرکز داره.
بخش دهم:
دیتاستهای موسسات مالی و بانکها رو بررسی کردند و به این نتیجه رسیدند، افرادی که در فرم تقاضای وام یکسری کلمات رو عنوان میکنند، احتمال بیشتری داره که قسطهاشون رو ندهند و دقیقاً کلماتی وجود داره که نوشتن اونها مساوی هست با پرداخت به موقع اقساط.
دستهی اول کلماتی که باعث بد عهدی شده:
God, thank you, promise, hospital, will pay
دستهی دوم (خوبها):
Debt-free, minimum payment, lower interest rate, graduate, after-taxپینوشت: اگر در بلا کفر هستید، سعی کنید از کلمات دستهی اول در فرم تقاضاتون استفاده نکنید
بخش یازدهم:
کازینودارها فهمیدند که هر کدوم از مشتریهاشون یه چیزی دارند بنام نقطهی درد
“pain point”
این چی هست دقیقاً؟ مثلاً اگر نقطهی درد سارا برابر باشه با ۳۰۰۰ دلار، اگر ایشون یه شب بره کازینو و ۳۰۰۰ دلار ببازه، احتمالاً تا مدت خیلی زیادی دیگه برنمیگرده، ولی اگر شخص ۲۹۹۹ دلار ببازه، بازهم میاد به کازینو، خیلی هم زود.کازینودارها که میفهمند نقطهی درد مشتریهاشون چی هست، خیلی حواسشون به اونهاست که به هیچ وجه به این آستانه نزدیک نشوند، تا بتونن طرف رو بیشتر خالی کنند.
حالا این عدد رو چطور محاسبه میکنند؟ دادههایی که از زندگی فرد، جمع شده رو از برخی از موسسات میخرند و با آنالیز اونها، این عدد رو تخمین میزنند. ولی خیلی تا به امروز در اینکار موفق بودند که کماکان دارن انجامش میدن.
بخش پایانی:
در آخرین فصل کتاب، که در واقع همون نتیجهگیری هست، سِت (نویسندهی کتاب) میگه
«خیلی تلاش کردم که یه نتیجهی خوب بنویسم. اما وقتی دادهها رو آنالیز کردم، متوجه شدم اکثر افراد ۵۰ صفحهی اول کتاب رو میخونن و مابقی رو رها میکنند و میرن دنبال زندگیشون. به این نتیجه رسیدم که بیخیال نوشتن نتیجه بشم؛ برم یه آبجو (غیراسلامی) با یکی از بر و بچ بزنم به بدن و حالشو ببرم، چون که اکثراً نمیخونن این بخش رو، چرا اینقدر خودمو اذیت کنم».
این کتاب حاوی نکات بسیار ارزشمندی در حوزهی علم داده است و نحوهی برخورد با مسائل مختلف اجتماعی و علمی را از لنز و نگاه یک متخصص علم داده به خواننده نشان میدهد. از طریق این لینک، میتوانید فایل این کتاب (به زبان انگلیسی) را مطالعه بفرمائید. در این لینک هم میتوانید فایل صوتی کتاب به زبان فارسی را بارگیری کرده و استفاده نمائید.