کریسپ ، فرآیندی متداول برای اجرای پروژه‌های داده‌کاوی

کریسپ (CRSIP-DM)

کریسپ ، فرآیندی متداول برای اجرای پروژه‌های داده‌کاوی

شاید سوال بسیاری از کسب و کارها این باشد که برای تحلیل داده‎های مشتریان با استفاده از روش‌ها و تکنیک‌های داده‌کاوی باید از کجا شروع کنیم. انتخاب یک فرآیند مطلوب برای انجام هر کاری به شما کمک می‌کند تا بیشترین بهره را از زمان، داده‌ها و دیگر منابع خود ببرید. یکی از متداول‌ترین و معروف‌ترین فرآیندهای انجام پروژه‌های داده‌کاوی فرآیند کریسپ (CRSIP-DM) است که یک روش صنعتی آزمایش‌شده برای اجرای پروژه‌های داده‌کاوی به شمار می‏رود و شامل ۶ مرحله می‌شود. شما می‌توانید در تصویر  مراحل فرآیند کریسپ را مشاهده کنید.

کریسپ، فرآیندی متداول برای اجرای پروژه‌های داده‌کاوی

مراحل کریسپ (CRSIP-DM)

مراحل کریسپ شامل:

  • درک فضای کسب و کار
  • درک داده
  • آماده‌سازی داده
  • مدل‌سازی
  • ارزیابی مدل
  • بکارگیری

در ادامه می خواهیم  مراحل کریسپ (CRSIP-DM) را برای شما توضیح دهیم.

۱- درک و شناخت کسب و کار

یکی از مهم‌ترین مراحل کریسپ (CRSIP-DM) درک فضای کسب و کار است.

اولین مرحله از اجرای یک پروژه داده‌کاوی، باید به درک فضای کسب‌وکار بپردازید. درک فضای کسب و کار، با مشخص نمودن اهداف کسب‌وکار شروع می شود. اجازه دهید از طریق یک مثال این موضوع را توضیح دهیم. فرض کنید شما صاحب مجموعه رستوران های زنجیره‌ای هستید. در این صورت به عنوان نمونه، یکی از اهداف مهمی که می‌توانید داشته باشید می‌تواند افزایش دو برابری فروش و سودآوری تا پایان سال هدفی است که برای کسب‌وکارتان در نظر گرفته‌اید. به این نکته نیز توجه کنید که اهداف کسب‌وکار توسط صاحبان کسب‌وکار تعیین می‌شوند نه داده‌کاوان. توجه داشته باشید که این هدف معمولاً وسیع‌تر از آن است که تحلیل‌گر داده بتواند به‌طور مستقل آن را تشخیص دهد. شما به‌عنوان صاحب کسب‌وکار باید داده کاو و تحلیل‌گر داده‌ها را از هدف کسب‌وکار خودآگاه سازید. بنابراین لازم است که افرادی که کسب و کار را به خوبی می شناسند در تمام مراحل همراه تیم پروژه داده‌کاوی باشند.

در این مرحله همچنین باید معیارهای موفقیت کسب و کار خود را مشخص نمایید و به ارزیابی وضعیت کسب‌وکار خود بپردازید. پس از آن که اهداف کسب‌وکار خود را مشخص کردید، وقت آن می رسد که آن را به یک واقعیت داده‌کاوی تبدیل کنید. یعنی می‌بایست اهداف داده‌کاوی را متناسب باهدف تعیین‌شده در کسب‌وکار تعیین کنید.

اهدافی مانند اینکه «مشتریان از دست رفته رستوران دارای چه ویژگی هایی هستند؟»، «به مشتریانی که برای اولین بار به رستوران ما آمده‌اند چه منویی را توصیه ای کنیم که برای آن ها خوشایند باشد»، «آیا مشتریانی که  برای اولین بار به رستوران ما آمده اند مجددا بازمی گردند؟»، «پیش‌بینی اینکه مشتری کدام غذاها را با هم سفارش می‌دهد»، «شناسایی گروه های مختلف مشتریان در رستوران» و …

۲-درک داده

در دومین مرحله از مراحل کریسپ (CRSIP-DM)، باید به درک داده‌ها بپردازید. هنگامی که اهداف کسب و کار و اهداف داده کاوی مشخص شدند، در مرحله بعد باید داده‌هایی را که برای انجام پروژه داده کاوی نیاز دارید را جمع آوری کنید. بنابراین اولین مرحله از درک داده‌ها شامل جمع‌آوری داده‌های اولیه است. یک تحلیل گر داده باید در این مرحله دقت کافی را داشته باشد. باید تا حد ممکن تمام داده‌هایی که در طی اجرای پروژه نیاز خواهد داشت را به صورت دقیق و شفاف تعیین نماید. یک تحلیل گر داده باید بداند که داده‌ها توسط چه کسی و در چه قالبی ذخیره و نگهداری می شوند.

سپس نوبت به بررسی بیشتر داده‌ها می‌رسد. در مرحله تشریح داده ها باید به بررسی اولیه داده ها پرداخته شود. تعداد نمونه ها و تعداد متغیرهای موجود در مجموعه داده مورد بررسی قرار گیرد. یک تحلیل گر داده باید انواع متغیرهایی که در یک مجموعه داده با آن سر و کار دارد را به خوبی شناسایی کند. معمولاً تحلیل گران داده با چهار نوع متغیرهای گسسته اسمی، گسسته ترتیبی، پیوسته فاصله‌ای و پیوسته نسبتی سر و کار دارند.

توانایی تشخیص نوع متغیرها از این جهت حائز اهمیت است که نوع متغیرها اغلب تعیین کننده نوع تحلیلی است که می‌تواند بر روی آن‌ها اجرا شود.

پس از بررسی مجموعه داده و تعیین نوع متغیرها تحلیل گر داده به تشریح بیشتر در مورد داده ها می پردازد. در این مرحله تحلیل گر داده از کمیت های آماری هم چون میانگین، میانه، انحراف معیار، چارک اول، چارک سوم، مینیمم، ماکزیمم و سایر آماره هایی مورد نظر خود برای تشریح بیشتر متغیرهای پیوسته استفاده می کند. برای متغیرهای گسسته نیز می تواند از فراوانی و درصد فراوانی استفاده کند. تحلیل گر داده ها هم چنین در این مرحله می تواند برای بررسی بیشتر روابط بین متغیرها از رسم نمودار و مصورسازی داده ها استفاده کند. با توجه به نوع متغیرهایی که در دست دارد باید مناسب ترین نمودار را انتخاب نماید.

۳- آماده‌سازی داده‌ها

مرحله سوم ازمراحل کریسپ (CRSIP-DM) از اهمیت بسیار زیادی برخوردار است. آماده‌سازی داده‌ها زمان زیادی از یک پروژه داده‌کاوی را به خود اختصاص می‌دهد. در دنیای واقعی معمولاً داده‌ها دارای مشکلاتی هستند که کیفیت آن‌ها را پایین آورده و لذا ضروری است که به منظور بالا بردن کیفیت داده ها و پیش از مرحله مدلسازی به آماده سازی داده ها پرداخته شود.

آماده‌سازی داده‌ها شامل پاکسازی داده‌ها و اجرای برخی از پیش‌پردازش‌های مورد نیاز بر روی داده‌ها است.

در فاز پاکسازی داده‌ها شما باید مشکلاتی از قبیل وجود داده‌های دورافتاده (پرت)، داده‌های از دست رفته (گم شده) رکوردهای تکراری و … را مدیریت کنید. در برخی از موارد داده‌های شما نیازمند انجام برخی پیش پردازش‌های اضافی‌تر نیز می‌باشند. به عنوان نمونه ممکن است داده‌های شما نیاز به یکپارچه‌سازی، تجمیع، نمونه‌گیری، انتخاب زیرمجموعه‌ای از ویژگی‌های تأثیرگذار، کاهش ابعاد، گسسته‌سازی، خلق ویژگی، نرمال‌سازی و … باشد.

در نهایت مجموعه داده‌ای که از این مرحله به دست می‌آید آماده ورود به مرحله مدل‌سازی خواهد بود.

۴- مدل‎سازی

در این مرحله از داده ­های پردازش شده برای آموزش مدل استفاده می­شود. تحلیل­ گران باید تکنیک مدلسازی مناسبی را بر اساس هدف کسب و کار انتخاب کنند. در یک تقسیم بندی کلی می توان گفت که سه نوع تکنیک داده‌کاوی وجود دارد که یک تحلیل‌گر داده باید با آن‌ها آشنا باشد. در تصویر شماره  می‌توانید یک تقسیم‌بندی کلی از تکنیک‌های داده‌کاوی را مشاهده کنید.

مراحل کریسپ (CRSIP-DM)
تقسیم‌بندی کلی از تکنیک‌های داده‌کاوی

یک تحلیل گر داده باید توانایی ساخت مدل‌های یادگیری با نظارت را داشته باشد. مدل‌های رده‌بندی، پیش‌بینی و رگرسیون از جمله مدل‌های یادگیری با نظارت هستند.

مدل­ های یادگیری با نظارت از داده‌های گذشته یاد می­گیرند. این مدل‌ها، مدل‌های احتمالی نیز نامیده می‌شوند.

برای ساخت مدل‌های یادگیری با نظارت‌، از داده‌های تاریخی مشتریان به‌منظور انجام پیش بینی استفاده می‌شود. ‌مجموعه داده‌های تاریخی شامل برخی متغیرهای در دسترس از مشتریان (متغیرهای مستقل) و متغیر هدف (ستون برچسب) می‏باشد. متغیر هدف متغیری است که قصد پیش‌بینی آن را داریم. در واقع می‌خواهیم با استفاده از متغیرهای مستقل و داده‌های در دسترس، به پیش‌بینی آن بپردازیم. مسئله‌هایی که دارای متغیر هدف گسسته باشند مسائل رده‌بندی نامیده می‌شوند و مسئله‌هایی که دارای متغیر هدف پیوسته باشند مسائل پیش‌بینی نامیده می‌شوند.

مدلسازی ریزش مشتریان، پیش بینی امکان خرید یک مشتری از سایت، پیش بینی سطح ریسک اعتباری یک مشتری، پیش بینی پاسخ گویی به کمپین‌های بازاریابی، پیش‌بینی تمدید قرارداد توسط یک مشتری، پیش بینی میزان خرید توسط یک مشتری، پیش بینی قیمت یک محصول و … از جمله مثال های مدل سازی رده بندی و پیش بینی می باشند.

مدل‌های یادگیری بدون نظارت به تشخیص الگوهای درون داده‌های مشتریان می‌پردازند. یکی از رویکردهای بدون نظارت، تحلیل خوشه‌بندی نام دارد.

خوشه‌بندی از جمله روش‌هایی است که در آن هیچ‌گونه برچسبی برای رکوردها در نظر گرفته نمی‌شود و رکوردها فقط بر اساس معیار شباهتی که معرفی شده است، به مجموعه‌ای از خوشه‌ها گروه‌بندی خواهد شد. عدم وجود برچسب موجب می‌شود که هر الگوریتم خوشه‌بندی، یک الگوریتم بدون ناظر به حساب آید. یک خوشه مجموعه‌ای از رکوردها است که شباهت زیادی با یکدیگر دارند اما با رکوردهای خوشه‌های دیگر شباهت کمتری دارند.

به عنوان مثال فرض کنید شما به عنوان مسئول یک فروشگاه می خواهید مشتریان خود را بر اساس متغیرهای مقدار خرید، تعداد دفعات خرید و آخرین تاریخ خرید آن ها گروه‌بندی کنید. در این صورت می توانید از الگوریتم‌های خوشه‌بندی در داده‌کاوی استفاده نمایید و از این طریق مشتریانی که الگوهای رفتاری مشابهی دارند را شناسایی کنید.

از دیگر تکنیک‌های مهم و کاربردی داده‌کاوی می‌توان به کشف قوانین انجمنی اشاره نمود. به بیان ساده کشف قوانین انجمنی همان کشف قواعد «اگر و آنگاه» از داده‌های خرید مشتریان است. به‌عنوان‌ مثال اگر مشتری کالای «الف» را از فروشگاه خریداری کند آنگاه کالای «ب» را نیز خریداری می‌کند. قوانین انجمنی، روابط بین ویژگی‌های موجود در مجموعه داده مشتریان را نشان می‌دهند. پیدا کردن چنین قوانینی می‌تواند در مدیریت ارتباط با مشتریان موردتوجه قرار گیرد و کاربردهای فراوانی داشته باشد. به عنوان مثال صاحبان کسب و کارها می توانند برای طراحی فروشگاه، ارسال پیام‌های بازاریابی، تهیه فهرست موجودی کالاها، تهیه محتوای مناسب برای وب سایت و طراحی سیستم های توصیه‌گر از آن استفاده کنند.

در ادامه به توضیح مرحله پنجم از فرآیند کریسپ می پردازیم و به شما می گوییم که بعد از مرحله مدل سازی چه کاری باید انجام دهید.

۵- ارزیابی

پس از مدل سازی باید به سراغ ارزیابی مدل برویم. این مرحله بسیار مهم است. مرحله ارزیابی شامل ارزیابی نتایج، بهبود مدل‌ها، بررسی مجدد فرآیند و تهیه فهرستی از اقدامات انجام‌شده می‏شود.

در این مرحله مدل­های به‌دست‌آمده نه‌تنها برحسب معیارهای فنی، بلکه از آن مهم‏تر با در نظر گرفتن معیارهای کسب‌وکار که پیش‌ از این در مرحله شناخت کسب‌وکار مشخص‌شده بود – رسماً و صریحاً ارزیابی می­شوند. اعضای گروه پروژه باید بررسی نمایند که آیا نتایج مدل به‌دست‌آمده، اهداف اولیه کسب‌وکار را صریحاً مشخص می­کنند یا خیر. اگر چنین باشد مدل مربوطه تأیید و برای به‌کارگیری آماده می‌شود. مدل هایی که از فرآیند داده‌کاوی به دست می‌آید تنها بخشی از کار یک پروژه داده کاوی است. صاحبان کسب و کار و تحلیل گر داده باید نتایج را در فضای کلی آن کسب‌وکار مورد ارزیابی قرار دهند. در این مرحله است که مجددا دانش کسب‌وکار کمک بسیاری به بررسی خروجی‌های مدل می‌کند.

۶- بکارگیری و استقرار

پس از ارزیابی مدل لازم است برنامه‌ای به‌منظور به‌کارگیری مدل در دنیای واقعی تنظیم شود. یافته ­ها و نتایج پروژه در گزارشی خلاصه می ­شوند، اما این صرفاً پایان پروژه به‌حساب نمی­آید. چنانچه یافته‌ها و نتایج مدل‌ها در عملیات هر روزه سازمان به کار گرفته نشوند حتی بهترین مدل‌ها هم با شکست مواجه خواهند شد؛ بنابراین در این مرحله باید به فکر نگهداری و نظارت بر مدل داده‌کاوی بود. داده‌ها در هر سازمانی پیوسته در حال تغییر هستند و مدل ساخته‌شده می‌بایست هر چند وقت یک‌بار بر روی این داده‌ها اعمال شود تا سازمان بتواند با به‌کارگیری مدل‌های ساخته‌شده، با دقت بیشتری تصمیمات مقتضی را اعمال نماید. در پایان، تیم پروژه باید گزارش نهایی را از اجرای پروژه ارائه نماید. این گزارش باید خلاصه‌ای از پروژه و نتایج به‌دست‌آمده باشد و همچنین نتایج داده‌کاوی را نیز در برداشته باشد.

۳.۷/۵ - (۴ امتیاز)

امتیاز شما به این نوشته:

User Rating: Be the first one !

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سوالی دارید؟ با ما صحبت کنید!
مکالمه را شروع کنید
سلام! برای چت در WhatsApp پرسنل پشتیبانی که میخواهید با او صحبت کنید را انتخاب کنید