کریسپ ، فرآیندی متداول برای اجرای پروژههای دادهکاوی
شاید سوال بسیاری از کسب و کارها این باشد که برای تحلیل دادههای مشتریان با استفاده از روشها و تکنیکهای دادهکاوی باید از کجا شروع کنیم. انتخاب یک فرآیند مطلوب برای انجام هر کاری به شما کمک میکند تا بیشترین بهره را از زمان، دادهها و دیگر منابع خود ببرید. یکی از متداولترین و معروفترین فرآیندهای انجام پروژههای دادهکاوی فرآیند کریسپ (CRSIP-DM) است که یک روش صنعتی آزمایششده برای اجرای پروژههای دادهکاوی به شمار میرود و شامل ۶ مرحله میشود. شما میتوانید در تصویر مراحل فرآیند کریسپ را مشاهده کنید.
مراحل کریسپ (CRSIP-DM)
مراحل کریسپ شامل:
- درک فضای کسب و کار
- درک داده
- آمادهسازی داده
- مدلسازی
- ارزیابی مدل
- بکارگیری
در ادامه می خواهیم مراحل کریسپ (CRSIP-DM) را برای شما توضیح دهیم.
۱- درک و شناخت کسب و کار
یکی از مهمترین مراحل کریسپ (CRSIP-DM) درک فضای کسب و کار است.
اولین مرحله از اجرای یک پروژه دادهکاوی، باید به درک فضای کسبوکار بپردازید. درک فضای کسب و کار، با مشخص نمودن اهداف کسبوکار شروع می شود. اجازه دهید از طریق یک مثال این موضوع را توضیح دهیم. فرض کنید شما صاحب مجموعه رستوران های زنجیرهای هستید. در این صورت به عنوان نمونه، یکی از اهداف مهمی که میتوانید داشته باشید میتواند افزایش دو برابری فروش و سودآوری تا پایان سال هدفی است که برای کسبوکارتان در نظر گرفتهاید. به این نکته نیز توجه کنید که اهداف کسبوکار توسط صاحبان کسبوکار تعیین میشوند نه دادهکاوان. توجه داشته باشید که این هدف معمولاً وسیعتر از آن است که تحلیلگر داده بتواند بهطور مستقل آن را تشخیص دهد. شما بهعنوان صاحب کسبوکار باید داده کاو و تحلیلگر دادهها را از هدف کسبوکار خودآگاه سازید. بنابراین لازم است که افرادی که کسب و کار را به خوبی می شناسند در تمام مراحل همراه تیم پروژه دادهکاوی باشند.
در این مرحله همچنین باید معیارهای موفقیت کسب و کار خود را مشخص نمایید و به ارزیابی وضعیت کسبوکار خود بپردازید. پس از آن که اهداف کسبوکار خود را مشخص کردید، وقت آن می رسد که آن را به یک واقعیت دادهکاوی تبدیل کنید. یعنی میبایست اهداف دادهکاوی را متناسب باهدف تعیینشده در کسبوکار تعیین کنید.
اهدافی مانند اینکه «مشتریان از دست رفته رستوران دارای چه ویژگی هایی هستند؟»، «به مشتریانی که برای اولین بار به رستوران ما آمدهاند چه منویی را توصیه ای کنیم که برای آن ها خوشایند باشد»، «آیا مشتریانی که برای اولین بار به رستوران ما آمده اند مجددا بازمی گردند؟»، «پیشبینی اینکه مشتری کدام غذاها را با هم سفارش میدهد»، «شناسایی گروه های مختلف مشتریان در رستوران» و …
۲-درک داده
در دومین مرحله از مراحل کریسپ (CRSIP-DM)، باید به درک دادهها بپردازید. هنگامی که اهداف کسب و کار و اهداف داده کاوی مشخص شدند، در مرحله بعد باید دادههایی را که برای انجام پروژه داده کاوی نیاز دارید را جمع آوری کنید. بنابراین اولین مرحله از درک دادهها شامل جمعآوری دادههای اولیه است. یک تحلیل گر داده باید در این مرحله دقت کافی را داشته باشد. باید تا حد ممکن تمام دادههایی که در طی اجرای پروژه نیاز خواهد داشت را به صورت دقیق و شفاف تعیین نماید. یک تحلیل گر داده باید بداند که دادهها توسط چه کسی و در چه قالبی ذخیره و نگهداری می شوند.
سپس نوبت به بررسی بیشتر دادهها میرسد. در مرحله تشریح داده ها باید به بررسی اولیه داده ها پرداخته شود. تعداد نمونه ها و تعداد متغیرهای موجود در مجموعه داده مورد بررسی قرار گیرد. یک تحلیل گر داده باید انواع متغیرهایی که در یک مجموعه داده با آن سر و کار دارد را به خوبی شناسایی کند. معمولاً تحلیل گران داده با چهار نوع متغیرهای گسسته اسمی، گسسته ترتیبی، پیوسته فاصلهای و پیوسته نسبتی سر و کار دارند.
توانایی تشخیص نوع متغیرها از این جهت حائز اهمیت است که نوع متغیرها اغلب تعیین کننده نوع تحلیلی است که میتواند بر روی آنها اجرا شود.
پس از بررسی مجموعه داده و تعیین نوع متغیرها تحلیل گر داده به تشریح بیشتر در مورد داده ها می پردازد. در این مرحله تحلیل گر داده از کمیت های آماری هم چون میانگین، میانه، انحراف معیار، چارک اول، چارک سوم، مینیمم، ماکزیمم و سایر آماره هایی مورد نظر خود برای تشریح بیشتر متغیرهای پیوسته استفاده می کند. برای متغیرهای گسسته نیز می تواند از فراوانی و درصد فراوانی استفاده کند. تحلیل گر داده ها هم چنین در این مرحله می تواند برای بررسی بیشتر روابط بین متغیرها از رسم نمودار و مصورسازی داده ها استفاده کند. با توجه به نوع متغیرهایی که در دست دارد باید مناسب ترین نمودار را انتخاب نماید.
۳- آمادهسازی دادهها
مرحله سوم ازمراحل کریسپ (CRSIP-DM) از اهمیت بسیار زیادی برخوردار است. آمادهسازی دادهها زمان زیادی از یک پروژه دادهکاوی را به خود اختصاص میدهد. در دنیای واقعی معمولاً دادهها دارای مشکلاتی هستند که کیفیت آنها را پایین آورده و لذا ضروری است که به منظور بالا بردن کیفیت داده ها و پیش از مرحله مدلسازی به آماده سازی داده ها پرداخته شود.
آمادهسازی دادهها شامل پاکسازی دادهها و اجرای برخی از پیشپردازشهای مورد نیاز بر روی دادهها است.
در فاز پاکسازی دادهها شما باید مشکلاتی از قبیل وجود دادههای دورافتاده (پرت)، دادههای از دست رفته (گم شده) رکوردهای تکراری و … را مدیریت کنید. در برخی از موارد دادههای شما نیازمند انجام برخی پیش پردازشهای اضافیتر نیز میباشند. به عنوان نمونه ممکن است دادههای شما نیاز به یکپارچهسازی، تجمیع، نمونهگیری، انتخاب زیرمجموعهای از ویژگیهای تأثیرگذار، کاهش ابعاد، گسستهسازی، خلق ویژگی، نرمالسازی و … باشد.
در نهایت مجموعه دادهای که از این مرحله به دست میآید آماده ورود به مرحله مدلسازی خواهد بود.
۴- مدلسازی
در این مرحله از داده های پردازش شده برای آموزش مدل استفاده میشود. تحلیل گران باید تکنیک مدلسازی مناسبی را بر اساس هدف کسب و کار انتخاب کنند. در یک تقسیم بندی کلی می توان گفت که سه نوع تکنیک دادهکاوی وجود دارد که یک تحلیلگر داده باید با آنها آشنا باشد. در تصویر شماره میتوانید یک تقسیمبندی کلی از تکنیکهای دادهکاوی را مشاهده کنید.
تقسیمبندی کلی از تکنیکهای دادهکاوی
یک تحلیل گر داده باید توانایی ساخت مدلهای یادگیری با نظارت را داشته باشد. مدلهای ردهبندی، پیشبینی و رگرسیون از جمله مدلهای یادگیری با نظارت هستند.
مدل های یادگیری با نظارت از دادههای گذشته یاد میگیرند. این مدلها، مدلهای احتمالی نیز نامیده میشوند.
برای ساخت مدلهای یادگیری با نظارت، از دادههای تاریخی مشتریان بهمنظور انجام پیش بینی استفاده میشود. مجموعه دادههای تاریخی شامل برخی متغیرهای در دسترس از مشتریان (متغیرهای مستقل) و متغیر هدف (ستون برچسب) میباشد. متغیر هدف متغیری است که قصد پیشبینی آن را داریم. در واقع میخواهیم با استفاده از متغیرهای مستقل و دادههای در دسترس، به پیشبینی آن بپردازیم. مسئلههایی که دارای متغیر هدف گسسته باشند مسائل ردهبندی نامیده میشوند و مسئلههایی که دارای متغیر هدف پیوسته باشند مسائل پیشبینی نامیده میشوند.
مدلسازی ریزش مشتریان، پیش بینی امکان خرید یک مشتری از سایت، پیش بینی سطح ریسک اعتباری یک مشتری، پیش بینی پاسخ گویی به کمپینهای بازاریابی، پیشبینی تمدید قرارداد توسط یک مشتری، پیش بینی میزان خرید توسط یک مشتری، پیش بینی قیمت یک محصول و … از جمله مثال های مدل سازی رده بندی و پیش بینی می باشند.
مدلهای یادگیری بدون نظارت به تشخیص الگوهای درون دادههای مشتریان میپردازند. یکی از رویکردهای بدون نظارت، تحلیل خوشهبندی نام دارد.
خوشهبندی از جمله روشهایی است که در آن هیچگونه برچسبی برای رکوردها در نظر گرفته نمیشود و رکوردها فقط بر اساس معیار شباهتی که معرفی شده است، به مجموعهای از خوشهها گروهبندی خواهد شد. عدم وجود برچسب موجب میشود که هر الگوریتم خوشهبندی، یک الگوریتم بدون ناظر به حساب آید. یک خوشه مجموعهای از رکوردها است که شباهت زیادی با یکدیگر دارند اما با رکوردهای خوشههای دیگر شباهت کمتری دارند.
به عنوان مثال فرض کنید شما به عنوان مسئول یک فروشگاه می خواهید مشتریان خود را بر اساس متغیرهای مقدار خرید، تعداد دفعات خرید و آخرین تاریخ خرید آن ها گروهبندی کنید. در این صورت می توانید از الگوریتمهای خوشهبندی در دادهکاوی استفاده نمایید و از این طریق مشتریانی که الگوهای رفتاری مشابهی دارند را شناسایی کنید.
از دیگر تکنیکهای مهم و کاربردی دادهکاوی میتوان به کشف قوانین انجمنی اشاره نمود. به بیان ساده کشف قوانین انجمنی همان کشف قواعد «اگر و آنگاه» از دادههای خرید مشتریان است. بهعنوان مثال اگر مشتری کالای «الف» را از فروشگاه خریداری کند آنگاه کالای «ب» را نیز خریداری میکند. قوانین انجمنی، روابط بین ویژگیهای موجود در مجموعه داده مشتریان را نشان میدهند. پیدا کردن چنین قوانینی میتواند در مدیریت ارتباط با مشتریان موردتوجه قرار گیرد و کاربردهای فراوانی داشته باشد. به عنوان مثال صاحبان کسب و کارها می توانند برای طراحی فروشگاه، ارسال پیامهای بازاریابی، تهیه فهرست موجودی کالاها، تهیه محتوای مناسب برای وب سایت و طراحی سیستم های توصیهگر از آن استفاده کنند.
در ادامه به توضیح مرحله پنجم از فرآیند کریسپ می پردازیم و به شما می گوییم که بعد از مرحله مدل سازی چه کاری باید انجام دهید.
۵- ارزیابی
پس از مدل سازی باید به سراغ ارزیابی مدل برویم. این مرحله بسیار مهم است. مرحله ارزیابی شامل ارزیابی نتایج، بهبود مدلها، بررسی مجدد فرآیند و تهیه فهرستی از اقدامات انجامشده میشود.
در این مرحله مدلهای بهدستآمده نهتنها برحسب معیارهای فنی، بلکه از آن مهمتر با در نظر گرفتن معیارهای کسبوکار که پیش از این در مرحله شناخت کسبوکار مشخصشده بود – رسماً و صریحاً ارزیابی میشوند. اعضای گروه پروژه باید بررسی نمایند که آیا نتایج مدل بهدستآمده، اهداف اولیه کسبوکار را صریحاً مشخص میکنند یا خیر. اگر چنین باشد مدل مربوطه تأیید و برای بهکارگیری آماده میشود. مدل هایی که از فرآیند دادهکاوی به دست میآید تنها بخشی از کار یک پروژه داده کاوی است. صاحبان کسب و کار و تحلیل گر داده باید نتایج را در فضای کلی آن کسبوکار مورد ارزیابی قرار دهند. در این مرحله است که مجددا دانش کسبوکار کمک بسیاری به بررسی خروجیهای مدل میکند.
۶- بکارگیری و استقرار
پس از ارزیابی مدل لازم است برنامهای بهمنظور بهکارگیری مدل در دنیای واقعی تنظیم شود. یافته ها و نتایج پروژه در گزارشی خلاصه می شوند، اما این صرفاً پایان پروژه بهحساب نمیآید. چنانچه یافتهها و نتایج مدلها در عملیات هر روزه سازمان به کار گرفته نشوند حتی بهترین مدلها هم با شکست مواجه خواهند شد؛ بنابراین در این مرحله باید به فکر نگهداری و نظارت بر مدل دادهکاوی بود. دادهها در هر سازمانی پیوسته در حال تغییر هستند و مدل ساختهشده میبایست هر چند وقت یکبار بر روی این دادهها اعمال شود تا سازمان بتواند با بهکارگیری مدلهای ساختهشده، با دقت بیشتری تصمیمات مقتضی را اعمال نماید. در پایان، تیم پروژه باید گزارش نهایی را از اجرای پروژه ارائه نماید. این گزارش باید خلاصهای از پروژه و نتایج بهدستآمده باشد و همچنین نتایج دادهکاوی را نیز در برداشته باشد.
امتیاز شما به این نوشته: