کریسپ : روشی برای اجرای پروژههای دادهکاوی
در این مقاله قصد داریم شما را با یکی از متداولترین روشهای اجرای پروژههای دادهکاوی آشنا کنیم. یکی از متداولترین فرآیندهای اجرای پروژههای دادهکاوی، فرآیند CRISP-DM است. که بهصورت مخفف عبارت Cross-Industry Standard Process for Data Mining نام گذاری شده است. کریسپ از سوی سه شرکت Chrysler، SPSS و NCR در سال ۱۹۹۶ مورد توافق قرار گرفت. در این فرآیند بدون در نظر گرفتن نوع صنعت، نوع ابزارها و نوع کاربردها به تشریح مراحل پروژههای دادهکاوی پرداخته میشود.
مراحل کریسپ
۱. درک و شناخت کسب و کار
۲. درک و شناخت داده ها
۳. آماده سازی داده ها
۴. مدل سازی
۵. ارزیابی
۶. استقرار
تصویر زیر مراحل روش کریسپ را نشان میدهد.
۱. درک و شناخت کسب و کار
در اولین مرحله از اجرای یک پروژه دادهکاوی، باید به درک فضای کسبوکار بپردازید. درک فضای کسب و کار، با مشخص نمودن اهداف کسبوکار شروع می شود. اجازه دهید از طریق یک مثال این موضوع را توضیح دهیم. فرض کنید شما صاحب مجموعه رستوران های زنجیرهای هستید. در این صورت به عنوان نمونه، یکی از اهداف مهمی که میتوانید داشته باشید میتواند افزایش دو برابری فروش و سودآوری تا پایان سال هدفی است که برای کسبوکارتان در نظر گرفتهاید. به این نکته نیز توجه کنید که اهداف کسبوکار توسط صاحبان کسبوکار تعیین میشوند نه دادهکاوان.
در این مرحله همچنین باید معیارهای موفقیت کسب و کار خود را مشخص نمایید و به ارزیابی وضعیت کسبوکار خود بپردازید. پس از آن که اهداف کسبوکار خود را مشخص کردید، وقت آن می رسد که آن را به یک واقعیت دادهکاوی تبدیل کنید. یعنی میبایست اهداف دادهکاوی را متناسب باهدف تعیینشده در کسبوکار تعیین کنید.
پرسش مهم این که برای رسیدن به افزایش فروش، اهداف دادهکاوی را چگونه باید تعیین کنیم؟
در پاسخ به این پرسش میتوانیم برخی اهداف دادهکاوی را به این صورت مشخص کنیم:
- خوشهبندی مشتریان و شناسایی مشتریان با ارزش
- شناسایی مشتریان جدید
- شناسایی مشتریان از دست رفته و تلاش برای بازگرداندن آن ها در صورتی که ارزشمند بوده اند
- تعیین این که مشتریان ارزشمند از کدام گروه سنی هستند؟ از کدام منطقه هستند؟ بیشتر در چه زمانهایی به رستوران میآیند؟ بیشتر چه غذاهایی را سفارش میدهند؟
- پیش بینی امکان مراجعه مجدد مشتری
- تعیین اینکه مشتری کدام غذاها را با هم سفارش می دهد؟
- ارائه ی توصیه خرید به مشتریان
- پیش بینی ریزش مشتریان
در آخرین گام از این مرحله باید به تهیه برنامه پروژه بپردازید.
۲. درک و شناخت داده ها
در دومین مرحله از اجرای یک پروژه دادهکاوی، باید به درک دادهها بپردازید. هنگامی که اهداف کسب و کار و اهداف داده کاوی مشخص شدند، در مرحله بعد باید دادههایی را که برای انجام پروژه داده کاوی نیاز دارید را جمع آوری کنید. بنابراین اولین مرحله از درک دادهها شامل جمعآوری دادههای اولیه است. سپس به تشریح دادهها، اکتشاف در دادهها و مصورسازی دادهها پرداخته می شود. در مرحله تشریح داده ها باید به بررسی اولیه داده ها پرداخته شود. تعداد نمونه ها و تعداد متغیرهای موجود در مجموعه داده مورد بررسی قرار گیرد و روابط بین متغیرها با استفاده از رسم نمودارهایی مشخص گردد.
۳. آماده سازی داده ها
مرحله سوم از اجرای پروژه داده کاوی از اهمیت بسیار زیادی برخوردار است. آماده سازی داده ها زمان زیادی از یک پروژه داده کاوی را به خود اختصاص می دهد. آمادهسازی دادهها شامل پاکسازی دادهها و انجام پیشپردازشهای موردنیاز در دادهها است.
وجود داده های دورافتاده یا پرت، داده های از دست رفته، داده های تکراری، داده هایی که به اشتباه وارد شده اند و داده هایی که به روز نیستند و از اعتبار بالایی برخوردار نیستند از مشکلاتی است که باعث پایین آمدن کیفیت داده ها می شود و لذا ضروری است که به منظور بالا بردن کیفیت داده ها و پیش از مرحله مدلسازی به آماده سازی داده ها پرداخته شود.
۴. مدل سازی
در مرحله چهارم وارد مرحله مدلسازی می شویم. این مرحله از داده های پردازش شده برای آموزش مدل استفاده میشود. تحلیلگران باید تکنیک مدلسازی مناسبی را بر اساس هدف کسب و کار انتخاب کنند. برای مدلسازی می توان از تکنیکهای رده بندی و پیش بینی، خوشهبندی و کشف قوانین انجمنی استفاده نمود.
۵. ارزیابی
مرحله پنجم مرحله ارزیابی شامل ارزیابی نتایج، بهبود مدل ها، بررسی مجدد فرآیند و تهیه لیستی از اقدامات انجام شده است.
۶. استقرار
پس از ارزیابی در مرحله ششم مدل باید برنامهای به منظور بکارگیری مدل در دنیای واقعی تنظیم گردد. یافتهها و نتایج پروژه در گزارشی خلاصه میشوند. اما نکته ای که باید به آن توجه کنید این است که در در این مرحله باید به فکر به روز نگه داشتن مدل داده کاوی باشید. زیرا که داده های سازمانی پیوسته در حال تغییر هستنند و مدل هر چند وقت یکبار باید بر روی داده ها اعمال شود.