ده تکنیک کلیدی داده کاوی و نحوه استفاده کسب و کارها از آنها

ده تکنیک کلیدی داده کاوی

ده تکنیک کلیدی داده کاوی و نحوه استفاده کسب و کارها از آنها

کسب‌وکارها حجم غیرقابل تصوری از داده‌ را جمع‌آوری و ذخیره می‌کنند، اما چطور همه آن داده‌ها تبدیل به بینشی می شوند تا آنها را در ساخت کسب‌وکار بهتری یاری رسانند؟ داده کاوی فرآیند غربال مقادیر انبوه داده برای شناسایی روندها یا الگوهای پنهان کسب و کار است، که بینش های تجاری تحول آفرین را میسر می سازد.

داده کاوی فناوری جدیدی نیست. به گفته هکر بیتز، ریشه‌های آن به دهه 1930 بر می گردد، اما این اصطلاح در دهه 1990 به طور گسترده‌تری مورد استفاده قرار گرفت، زیرا کسب‌وکارها تلاش کردند با حجم روزافزون تولید داده‌ جامعه ما در کسب ارزش، دست و پنجه نرم کنند.

ظهور رایانه‌های مدرن و استفاده از تکنیک‌های داده‌کاوی به این معنا بود که کسب‌وکارها در نهایت می‌توانند مقادیر نمایی از داده‌ها را تجزیه و تحلیل کنند و بینش‌های غیر شهودی و ارزشمند را استخراج کنند. پیش‌بینی نتایج احتمالی کسب‌وکار، کاهش  انواع ریسک و استفاده از فرصت‌های جدید شناسایی شده را فراهم می کرد.

به دلیل سودمندی آن در میان بسیاری از صنایع و نقش حیاتی آن در موفقیت کسب و کار، داده کاوی یک مسیر شغلی امیدوارکننده است. شرکت ها به دانشمندان داده ماهر در تکنیک های استخراج نیازمندند که توانایی تعریف یافته هایشان از داده ها به روش های قابل فهم را داشته باشند. طبق آمار اداره آمار کار ایالات متحده، انتظار می‌رود که استخدام دانشمندان علوم کامپیوتر و اطلاعات تا سال 2029، 15 درصد افزایش یابد.

 

پیش بینی رشد اشتغال دانشمندان علوم کامپیوتر و اطلاعات در ایالات متحده 2029-2019

استخدام دانشمندان علوم کامپیوتر و اطلاعات

تکنیک های کلیدی که داده کاوان مشتاق باید بدانند چیست؟ در اینجا ده تکنیک کلیدی داده کاوی را به تفصیل بررسی خواهیم کرد:

1. خوشه بندی

2. کشف قوانین انجمنی  

3. پاکسازی داده ها

4. مصورسازی داده ها

5. طبقه بندی

6. یادگیری ماشینی

7. پیش بینی

8. شبکه های عصبی

9. کشف داده های پرت و دورافتاده

10. انبار داده ها

1. خوشه بندی

خوشه بندی

خوشه‌بندی تکنیکی برای نمایش داده‌ها به صورت بصری است – مانند نمودارهایی که روند خرید یا جمعیت شناسی فروش برای یک محصول خاص را نشان می‌دهند.

خوشه بندی در داده کاوی چیست؟

خوشه بندی به فرآیند گروه بندی مجموعه ای از نقاط داده مختلف بر اساس ویژگی های آنها اشاره دارد. با انجام این کار، استخراج‌کنندگان داده می‌توانند به‌طور یکپارچه داده‌ها را به زیرمجموعه‌هایی تقسیم کنند، و امکان تصمیم‌گیری آگاهانه‌تر را از نظر جمعیت‌شناختی گسترده (مانند مصرف‌کنندگان یا کاربران) و رفتارهای نسبی شان فراهم کنند.

روش های خوشه بندی داده ها

روش خوشه بندی تفکیکی: این روش شامل تقسیم یک مجموعه داده به گروهی از خوشه های خاص برای ارزیابی بر اساس معیارهای هر خوشه به صورت جداگانه است. در این روش، نقاط داده فقط به یک گروه یا خوشه تعلق دارند.

روش سلسله مراتبی: با روش سلسله مراتبی، نقاط داده یک خوشه واحد هستند که بر اساس شباهت ها گروه بندی می شوند. سپس این خوشه های ایجاد شده جدید را می توان به صورت جداگانه از یکدیگر تجزیه و تحلیل کرد.

روش مبنی بر چگالی: یک روش یادگیری ماشینی که در آن خوشه‌ها مناطقی با چگالی بیشتر هستند (نقاط داده متراکم‌تر) که با نواحی دارای چگالی کم‌تر (تراکم داده کم) از هم جدا شده‌اند. در این روش‌ها، نقاطی که در یک محدوده معین (یک شعاع همسایگی خاص) از هم قرار دارند در یک خوشه قرار می‌گیرند

روش مبتنی بر شبکه: دسته خاصی از روش‌های مبتنی بر چگالی هستند که در آن‌ها هر منطقه مجزا در فضای داده که جست‌و‌جو می‌شود، در ساختار شبکه مانندی قرار می‌گیرد.

نمونه هایی از خوشه بندی در کسب و کار

خوشه بندی به کسب و کارها کمک می کند تا داده های خود را به طور مؤثرتری مدیریت کنند. برای مثال، خرده‌فروشان می‌توانند از مدل‌های خوشه‌بندی برای تعیین مشتریان محصولات خاص استفاده کنند، نظر به اینکه این مشتریان در چه روزهایی و با چه دفعاتی محصولات خاصی راخریداری می‌کنند. این می تواند به خرده فروشان کمک کند تا محصولات و خدمات را برای مشتریان در یک جمعیت یا منطقه خاص هدف قرار دهند.

خوشه‌بندی به فروشگاه‌های مواد غذایی کمک می کند تا محصولات را بر اساس ویژگی‌های مختلف (برند، اندازه، هزینه، طعم و غیره) گروه‌بندی کنند و تمایلات فروش شان  را بهتر درک کنند. همچنین به شرکت‌های بیمه خودرو کمک می کند تا مشتریانی که معمولاً مطالبات سالانه بالایی دارند را شناسایی کنند تا سیاست‌های قیمت‌گذاری مؤثرتری داشته باشند. به علاوه بانک‌ها و مؤسسات مالی ممکن است از خوشه‌بندی برای درک بهتر نحوه ارائه خدمات برای مشتریان حضوری در مقابل مجازی در برنامه‌ریزی بهتر ساعات کاری شعب و کارکنان استفاده کنند.

2. کشف قوانین انجمنی

کشف قوانین انجمنی

کشف قوانین انجمنی برای یافتن همبستگی یا ارتباط بین نقاط یک مجموعه داده استفاده می شود.

کشف قوانین انجمنی در داده کاوی چیست؟

داده کاوی ها از کشف قوانین انجمنی برای کشف روابط منحصر به فرد یا جالب بین متغیرها در پایگاه داده استفاده می کنند. انجمن پذیری اغلب برای کمک به شرکت ها در تعیین تحقیقات بازاریابی و استراتژی استفاده می شود.

روش های کشف قوانین انجمنی در داده کاوی

دو رویکرد اولیه با استفاده از کشف قوانین انجمنی در داده کاوی، روش های تک بعدی و چند بعدی هستند.

کشف قوانین انجمنی تک بعدی: این روش شامل جستجوی یک نمونه تکرار شونده از یک نقطه داده یا صفت است. به عنوان مثال، یک خرده فروش در پایگاه داده خود نمونه هایی که یک محصول خاص خریداری شده است را جستجو می کند.

کشف قوانین انجمنی چند بعدی: این روش شامل جستجوی بیش از یک نقطه داده در یک مجموعه داده است. همان خرده فروش ممکن است بخواهد اطلاعات بیشتری نسبت به جزئیات خرید مشتری یا خرید مشتری بداند – مانند سن، روش خرید (نقد یا کارت اعتباری)، یا سن.

نمونه هایی از کشف قوانین انجمنی در کسب و کار

تجزیه و تحلیل رفتار خرید نمونه ای از کشف قوانین انجمنی است – یعنی خرده فروشان در مطالعات داده متوجه می شوند که والدینی که لوازم مراقبتی کودک خرید می کنند، با  احتمال بیشتری مواد غذایی یا نوشیدنی خاصی را نیز برای خود خریداری می کنند. این خریدها را می توان با کشف قوانین انجمنی تجزیه و تحلیل کرد.

تجزیه و تحلیل قوانین انجمنی کاربردهای بسیار دیگری در تجارت دارد. برای خرده فروشان در ارائه پیشنهادات خرید مفید است. به عنوان مثال، اگر مشتری یک گوشی هوشمند، تبلت یا دستگاه بازی ویدیویی بخرد، تجزیه و تحلیل قوانین انجمنی می تواند موارد مرتبط مانند کابل ها، نرم افزارهای قابل اجرا و قاب های محافظ را پیشنهاد دهد.

علاوه بر این، دولت ها می توانند از قوانین انجمنی برای به کارگیری داده های سرشماری و برنامه ریزی در خدمات عمومی استفاده کنند. همچنین توسط پزشکان برای تشخیص موثرتر بیماری ها و شرایط مختلف استفاده می شود.

3. پاکسازی داده ها

پاکسازی داده ها

پاکسازی داده ها فرآیند آماده سازی داده ها برای استخراج است.

پاکسازی داده ها در داده کاوی چیست؟

پاکسازی داده ها شامل سازماندهی داده ها، حذف داده های تکراری یا خراب، و پر کردن مقادیر از دست رفته است. هنگامی که این فرآیند کامل شد، مفیدترین اطلاعات را می توان برای تجزیه و تحلیل جمع آوری کرد.

روش های پاکسازی داده ها

تأیید داده ها: این روش شامل بررسی این موضوع است که هر رکورد از مجموعه داده در فرمت و قالب مناسب می باشد یا خیر (به عنوان مثال، شماره تلفن، شماره تامین اجتماعی).

تبدیل انواع داده: تضمین می کند که داده ها در سراسر مجموعه داده یکنواخت هستند. به عنوان مثال، متغیرهای عددی فقط شامل اعداد هستند، در حالی که متغیرهای رشته ای می توانند شامل حروف، اعداد و کاراکترها باشند.

حذف داده‌های نامرتبط: این کار داده‌های بی‌فایده یا غیرقابل اجرا را پاک می‌کند، بنابراین می‌توان بر روی داده های ضروری تأکید کامل داشت.

حذف داده های تکراری: این کار با افزایش کارایی و کاهش خطاها به سرعت فرآیند استخراج کمک می کند.

حذف خطاها: اشتباهات تایپی، غلط های املایی و خطاهای ورودی را که می تواند بر نتایج تحلیل تاثیر منفی بگذارد، حذف می کند.

تکمیل مقادیر از دست رفته: این یک مقدار تخمینی را برای همه داده ها ارائه می دهد و مقادیر از دست رفته که می تواند منجر به نتایج نا اریب (نا متوازن) یا نادرست شود را کاهش می دهد.

نمونه هایی از پاکسازی داده ها در کسب و کار

به گفته اکسپرین، 95 درصد از کسب و کارها می گویند که تحت تأثیر کیفیت پایین داده ها قرار گرفته اند. کار با داده های نادرست زمان و منابع را هدر می دهد، هزینه های تجزیه و تحلیل را افزایش می دهد (زیرا مدل ها باید تکرار شوند) و اغلب منجر به تجزیه و تحلیل نادرست و غیر قابل اعتماد می شود.

در نهایت، مهم نیست که مدل‌ها یا الگوریتم‌های آن‌ها چقدر عالی باشد، زمانی که داده‌هایشان نادرست، ناقص یا خراب هستند کسب و کارها متضرر می‌شوند.

4. مصورسازی داده ها

مصورسازی داده ها

مصورسازی داده ها تفسیر داده ها به شکل گرافیکی برای نشان دادن معنای آن برای ذینفعان کسب و کار است.

مصورسازی داده ها در داده کاوی چیست؟

داده ها را می توان به روش های بصری از طریق جداول، نمودارها، نقشه ها، طرح ها و موارد دیگر ارائه کرد. این روش اولیه ای است که در آن دانشمندان داده یافته های خود را نمایش می دهند.

روش های مصورسازی داده ها

روش های زیادی برای نمایش داده ها به صورت بصری وجود دارد. چند روش به این ترتیب است:

نمودارهای مقایسه: نمودارها و جداول روابط موجود در داده ها را بیان می کنند، مانند فروش ماهانه محصول در یک دوره یک ساله.

نقشه ها: نقشه های داده برای تجسم داده های مربوط به مکان های جغرافیایی خاص استفاده می شود. به وسیله نقشه ها می توان از داده ها برای نشان دادن تراکم جمعیت و تغییرات استفاده کرد؛ مقایسه جمعیت ایالت ها مجاور، شهرستان ها و کشورهای همسایه؛ تشخیص چگونگی پراکندگی جمعیت در مناطق جغرافیایی؛ و ویژگی های یک منطقه را با سایر مناطق مقایسه کرد.

نقشه های حرارتی (هیت مپ) : این یک تکنیک مصورسازی رایج است که داده ها را از طریق رنگ های مختلف و سایه زدن برای نشان دادن الگوها و محدوده ها در داده ها استفاده می شود. می توان از آن برای ردیابی همه چیز استفاده کرد، از تغییرات دمای یک منطقه گرفته تا روندهای غذایی و فرهنگ عامه.

نمودارهای هیستوگرام:  هیستوگرام متغیر را به دسته‌هایی تقسیم می‌کند، نقاط داده‌ای را در هر دسته می‌شمارد و دسته‌ها را روی محور x نمایش داده و تعداد نقاط را روی محور y نشان می‌دهد.

نمودارهای چگالی: نمودار چگالی نسخه هموار و پیوسته‌ای از هیستوگرام است که از روی داده‌ها تخمین زده می‌شود. نمودارهای چگالی نمایش نقاط  منفرد داده ای در طول زمان را آسان می کند (به عنوان مثال، ماه، سال، دهه).

نمودارهای شبکه: این نمودارها نحوه ارتباط نقاط داده با یکدیگر را با استفاده از یک سری خطوط (یا پیوندها) برای اتصال اشیا به یکدیگر نشان می دهند.

نمودارهای پراکندگی: این نمودارها روابط نقطه داده را بر روی یک محور دو متغیره نشان می دهند. از نمودارهای پراکنده می توان برای مقایسه متغیرهای منحصر به فرد مانند امید به زندگی یک کشور یا مقدار پولی که سالانه صرف مراقبت های بهداشتی می شود، استفاده کرد.

نمونه هایی از مصورسازی داده ها در کسب و کار

نمایش داده ها به صورت بصری مهارتی مهم است زیرا درک راحت تر داده ها برای مدیران، کارمندان و مشتریان میسر می سازد. بر اساس گزارش مارکت اند مارکت، انتظار می رود اندازه بازار برای ابزارهای مصورسازی داده های جهانی تا سال 2026 تقریباً دو برابر شود (به 10.2 میلیارد دلار).

شرکت‌ها زمانی که از داده‌ها استفاده می کنند چون درک و تفسیرشان آسان‌تر است، می‌توانند سریع‌تر و آگاهانه‌تر تصمیم بگیرند. امروزه، این امر معمولاً از طریق رسانه‌های مؤثر و قابل دسترسی بصری مانند نمودارها، مدل‌های سه بعدی و حتی واقعیت افزوده انجام می‌شود. در نتیجه، برای متخصصان مشتاق داده ایده خوبی است که یادگیری چنین مهارت هایی را در نظر بگیرند.

5. طبقه بندی

طبقه بندی در داده کاوی

طبقه بندی یک تکنیک اساسی در داده کاوی است و تقریباً در هر صنعتی قابل اعمال است. فرآیندی است که در آن نقاط داده از مجموعه داده های بزرگ بر اساس نحوه استفاده از آنها در دسته ها ارجاع داده می شوند.

طبقه بندی در داده کاوی چیست؟

در داده کاوی، طبقه بندی برای استخراج نقاط قابل مقایسه داده ها و برای تجزیه و تحلیل های مقایسه ای مفید است. طبقه‌بندی همچنین برای تعیین گروه‌های گسترده در یک پایگاه جمعیتی، مخاطبان هدف یا کاربران استفاده می‌شود که از طریق آنها کسب‌وکارها می‌توانند درک قوی‌تری به دست آورند.

روش های طبقه بندی داده کاوی

رگرسیون لجستیک: رگرسیون لجستیک تکنیکی آماری است برای نشان دادن تاثیر متغیرهای کمی یا کیفی بر متغیر وابسته دو مقداری (دو طبقه ای).

به عنوان مثال، یک سرویس ایمیل می‌تواند از رگرسیون لجستیک برای پیش‌بینی هرزنامه بودن یا نبودن یک ایمیل استفاده کند.

درختان تصمیم: پس از طبقه بندی داده ها، می توان نتایج را در نموداری به نام درخت تصمیم ترسیم کرد. درخت­های تصمیم نوع بسیار مهمی از الگوریتم­های داده‌کاوی هستند که برای مدل‌سازی نظارت­شده مورداستفاده قرار می‌گیرند.

به عنوان مثال، اگر مسئول اعتبارات یک بانک بخواهد در مورد اعطای وام به مشتری جدید تصمیم گیری کند، احتمالا این سوال را خواهد پرسید که به مشتری جدید وام اعطا شود یا خیر؟ در شکل زیر یک درخت تصمیم نشان داده شده است. همان طور که مشاهده می شود، داده‌ها در درخت‌های تصمیم به صورت «بله» و «خیر» طبقه‌بندی می‌شوند و سپس سؤالات دیگری نیز به روشی مشابه پرسیده می‌شوند.

نمونه ای از درخت تصمیم

کا-نزدیکترین همسایه: این الگوریتمی است که سعی دارد یک شی ناشناخته را با مقایسه آن با دیگران شناسایی کند. برای مثال، زنجیره‌های خواربارفروشی ممکن است از الگوریتم کا نزدیک‌ترین همسایه‌ها برای تصمیم‌گیری در مورد گنجاندن یک ایستگاه غذای گرم در چیدمان فروشگاه جدیدش بر اساس عادات مصرف‌کننده در بازار محلی استفاده کنند.

بیز ساده: بر اساس قضیه احتمال بیز این الگوریتم از داده های تاریخی برای پیش بینی اینکه آیا رویدادهای مشابه بر اساس مجموعه ای متفاوت از داده ها رخ خواهند داد یا خیر، استفاده می کند.

ماشین بردار پشتیبان: این الگوریتم یادگیری ماشینی اغلب برای تعریف خطی استفاده می شود که به بهترین نحو یک مجموعه داده را به دو کلاس تقسیم کند. SVM می تواند به طبقه بندی تصاویر کمک کند و در نرم افزارهای تشخیص چهره و دست خط استفاده می شود.

نمونه هایی از طبقه بندی در کسب و کار

موسسات مالی مصرف کنندگان را بر اساس متغیرهای زیادی برای بازاریابی وام های جدید یا پروژه ریسک کارت اعتباری طبقه بندی می کنند. در همین حال، برنامه های هواشناسی داده ها را برای پیش بینی کل بارش برف و سایر فرم های مشابه طبقه بندی می کنند. فروشگاه های مواد غذایی زمانی که  از روش طبقه بندی برای گروه بندی محصولات توسط مصرف کنندگانی که آنها را خریداری می کنند استفاده می کنند در واقع  به پیش بینی الگوهای خرید کمک می کنند.

6. یادگیری ماشینی

یادگیری ماشینی

یادگیری ماشینی فرآیندی است که در آن کامپیوترها از الگوریتم ها برای یادگیری استفاده می کنند. یادگیری ماشینی علمی است که باعث می‌شود رایانه‌ها بدون نیاز به یک برنامه صریح در مورد یک موضوع خاص یاد بگیرند. به عنوان زیر مجموعه‌ای از هوش مصنوعی، الگوریتم‌های یادگیری ماشینی یک مدل ریاضی بر اساس داده‌های نمونه یا “داده‌های آموزش” به منظور پیش‌بینی یا تصمیم‌گیری بدون برنامه‌ریزی آشکار، ایجاد می‌کنند.

یادگیری ماشینی در داده کاوی چیست؟

در داده کاوی، کاربردهای یادگیری ماشین بسیار گسترده است. یادگیری ماشین و داده کاوی زیر چتر علم داده قرار می گیرند اما اصطلاحات قابل تعویض نیستند. به عنوان مثال، رایانه ها داده کاوی را به عنوان بخشی از عملکردهای یادگیری ماشین خود انجام می دهند.

روش‌هایی برای یادگیری ماشینی

یادگیری با نظارت: در این روش، الگوریتم‌ها ماشین‌ها را آموزش می‌دهند تا با استفاده از داده‌های از پیش برچسب‌گذاری شده با مقادیر صحیح، که ماشین‌ها آن‌ها را طبقه‌بندی کردند، یاد بگیرند. این روش ها تحت نظارت(با ناظر) نامیده می شود زیرا این فرآیند رایانه ها را برای طبقه بندی داده ها و پیش بینی نتایج آموزش می دهد یا “نظارت” می کند. یادگیری ماشینی با نظارت در طبقه بندی داده کاوی به کار می رود.

یادگیری بدون نظارت: هنگامی که رایانه ها داده های بدون برچسب را مدیریت می کنند، وارد یادگیری بدون ناظر می شوند. در این حالت، کامپیوتر خودش داده ها را طبقه بندی می کند و سپس به دنبال الگوها می گردد. مدل‌های بدون نظارت برای انجام خوشه‌بندی و انجمن پذیری استفاده می‌شوند.

یادگیری نیمه نظارتی: یادگیری نیمه نظارتی از ترکیبی داده های برچسب دار و بدون برچسب استفاده می کند و آن را ترکیبی از مدل های فوق می کند.

یادگیری تقویتی: این یک فرآیند لایه ای تر است که در آن رایانه ها تصمیم گیری را بر اساس بررسی داده ها در یک محیط خاص یاد می گیرند. به عنوان مثال، یک کامپیوتر ممکن است با بررسی داده‌های هزاران بازی آنلاین بازی شطرنج را بیاموزد.

نمونه هایی از یادگیری ماشین در کسب و کار

با یادگیری ماشینی، شرکت‌ها می‌توانند از رایانه‌ها برای شناسایی سریع انواع الگوهای داده (در فروش، استفاده از محصول، عادت‌های خرید و غیره) استفاده کنند و با استفاده از این دید، طرح‌های تجاری توسعه دهند. این یک نیاز رو به رشد در بسیاری از صنایع است.

بر اساس تحقیقات مایکرواستراژی (MicroStrategy)، 18 درصد از متخصصان تحلیلگر گفتند که یادگیری ماشین و هوش مصنوعی بیشترین تأثیر را بر استراتژی های آنها در پنج سال آینده خواهند داشت. بنابراین یادگیری موضوعات پیشرفته تر مانند یادگیری ماشین برای دانشمندان داده ضروری است.

7. شبکه های عصبی

شبکه عصبی

رایانه ها حجم زیادی داده را بسیار سریعتر از مغز انسان پردازش می کنند، اما هنوز ظرفیت اعمال عقل و تخیل را در کار با داده ها ندارند. شبکه های عصبی یکی از راه هایی است که به کامپیوترها کمک می کند بیشتر شبیه انسان ها استدلال کنند.

شبکه های عصبی در داده کاوی چیست؟

شبکه‌های عصبی مصنوعی در تلاشند تا به‌صورت دیجیتالی شیوه عملکرد مغز انسان را تقلید کنند. شبکه‌های عصبی بسیاری از پردازنده‌های رایانه‌ای (مشابه روشی که مغز از نورون‌ها استفاده می‌کند) را برای پردازش داده‌ها، تصمیم‌گیری و یادگیری آن‌گونه که یک انسان انجام می‌دهد – یا حداقل تا حد امکان شبیه به آن، ترکیب می‌کند.

روش های شبکه عصبی

شبکه های عصبی از سه لایه اصلی تشکیل شده اند: ورودی، پنهان و خروجی. داده ها از طریق لایه ورودی وارد می شوند، در لایه پنهان پردازش می شوند و در لایه خروجی اسقرار پیدا می کنند، جایی که هر اقدام مرتبط بر اساس داده ها انجام می شود. لایه پنهان می تواند از لایه های پردازشی زیادی تشکیل شده باشد که بسته به میزان داده های مورد استفاده و یادگیری دارد.

یادگیری با ناظر و بدون ناظر نیز برای شبکه های عصبی اعمال می شود. شبکه‌های عصبی از این نوع الگوریتم‌ها برای «آموزش» خود برای عملکردی مشابه مغز انسان استفاده می‌کنند.

نمونه هایی از شبکه های عصبی در کسب و کار

شبکه های عصبی کاربردهای گسترده ای دارند. آنها می توانند به کسب و کارها کمک کنند تا الگوهای خرید مصرف کننده را پیش بینی کنند و کمپین های بازاریابی را بر روی جمعیت شناسی خاص متمرکز کنند. آنها همچنین می توانند به خرده فروشان کمک کنند تا پیش بینی های دقیق فروش را انجام دهند و نحوه استفاده از قیمت گذاری پویا را درک کنند. علاوه بر این، آنها به بهبود روش های تشخیصی و درمانی در مراقبت های بهداشتی، اصلاح مراقبت و عملکرد کمک می کنند.

 

8. تشخیص داده های پرت

تشخیص داده های پرت

تشخیص داده های پرت یک جزء کلیدی در حفظ پایگاه داده ایمن است. شرکت ها از آن برای آزمایش تراکنش های تقلبی، مانند استفاده غیرعادی از کارت اعتباری که احتمالا نشان از سرقت است، استفاده می کنند.

تشخیص داده های پرت در داده کاوی چیست؟

در حالی که سایر روش‌های داده کاوی به دنبال شناسایی الگوها و روندها هستند، تشخیص داد های پرت به دنبال موارد منحصر به فرد است: نقطه یا نقاط داده‌ای که با بقیه متفاوت هستند یا واگرا از نمونه کلی هستند. تشخیص داده های پرت خطاها را پیدا می کند، مانند داده هایی که به اشتباه وارد شده یا از نمونه اشتباه استخراج شده اند. انحرافات طبیعی داده ها نیز می تواند آموزنده باشد.

روش‌هایی برای تشخیص داد های پرت

داده پرت عددی: در این روش از میانه (Median) و دامنه چارکی (Inter-quartile Range) برای شناسایی داده پرت استفاده کنیم.  هر یک از این شاخص‌ها به ترتیب به عنوان برآورد نقطه تمرکز و پراکندگی در روش‌های ناپارامتری به کار می‌روند. بنابراین می‌توانیم قاعده‌ای برای شناسایی داده پرت به این ترتیب پیدا کنیم که اگر نقطه‌‌ای از سه برابر دامنه چارکی از چارک اول یا سوم دور باشد، آن را داده پرت بشناسیم.

نمره Z: نشان می دهد که یک نقطه داده چند انحراف استاندارد از میانگین نمونه فاصله دارد. همچنین به عنوان آنالیز مقادیر حدی نیز شناخته می شود.

روش DBSCAN: الگوریتمِ خوشه‌بندیِ DBSCAN می‌تواند گروه‌ها را بر اساسِ غلظت دسته‌بندی کند و این دسته‌ها در کنارِ هم خوشه‌ها را تشکیل می‌دهند. داده‌ هایی که به هیچ گروهی (بر اساس غلظت و تراکم) متصل نیستند، توسط الگوریتم DBSCAN به عنوان یک داده‌ی پَرت (outlier) شناسایی می شود. 

نمونه هایی از تشخیص داده های پرت در کسب و کار

تقریباً هر کسب و کاری می تواند از درک ناهنجاری ها در خطوط تولید یا توزیع خود و نحوه رفع آنها بهره مند شود. خرده‌فروش‌ها می‌توانند از تشخیص داده های پرت استفاده کنند تا بدانند چرا فروشگاه‌هایشان شاهد افزایش خریدهای عجیب هستند، مانند خرید بیل‌های برفی در تابستان، و نحوه واکنش به چنین یافته‌هایی.

به طور کلی، تشخیص داده های پرت برای بهبود مدیریت انتقال یک محصول از محل تولید تا محل مصرف مشتری و ایجاد یک محیط راحت تر برای مشتریان، کاربران و سایر گروه های کلیدی استفاده می شود.

9. پیش بینی

پیش بینی

مدل سازی پیش بینی به دنبال تبدیل داده ها به پیش بینی کنش یا رفتار آینده است. این مدل‌ها مجموعه داده‌ها را برای یافتن الگوها و روندها بررسی می‌کنند، سپس احتمالات یک برآمد در آینده را محاسبه می‌کنند.

پیش بینی در داده کاوی چیست؟

مدل‌سازی پیش‌بینی‌کننده یکی از رایج‌ترین کاربردهای داده کاوی است و در مجموعه داده‌های بزرگی که حجم نمونه وسیعی را نشان می‌دهند بهترین کارآیی را دارد.

روش های پیش بینی

مدل سازی پیش بینی از برخی تکنیک ها و اصطلاحات مشابه سایر فرآیندهای داده کاوی استفاده می کند. در اینجا چهار مثال آورده شده است:

مدل‌سازی پیش‌بینی (Forecast modeling): تکنیکی رایج است که در آن رایانه با تجزیه و تحلیل داده‌های تاریخی به سؤال پاسخ می‌دهد (مثلاً یک فروشگاه در روز دوشنبه چقدر شیر باید در انبار داشته باشد؟).

مدل‌سازی طبقه‌بندی (Classification modeling) : این روش، داده‌ها را در گروه‌هایی قرار می‌دهد که می‌توان از آن‌ها برای پاسخ به سؤالات مستقیم استفاده کرد.

مدل‌سازی خوشه‌ای (cluster modeling): با خوشه‌بندی داده‌ها در گروه‌هایی با ویژگی‌های مشترک، می‌توان از یک مدل پیش‌بینی‌کننده برای مطالعه آن مجموعه داده‌ها و تصمیم‌گیری استفاده کرد.

مدل سازی سری زمانی (Time series modeling) :این مدل داده ها را بر اساس زمانی که داده ها وارد شده است، تجزیه و تحلیل می کند. مطالعه روند فروش در طول یک سال نمونه ای از مدل سازی سری های زمانی است.

نمونه هایی از پیش بینی در کسب و کار

مدل‌سازی پیش‌بینی‌کننده یک الزام تجاری است که تقریباً هر گوشه از بخش‌های دولتی و خصوصی را تحت تأثیر قرار می‌دهد. بر اساس مایکرو استراتژی، 52 درصد از کسب و کارهای جهانی، مدل‌سازی پیشرفته و پیش‌بینی‌کننده را اولویت اصلی خود در تجزیه و تحلیل در نظر می گیرند.

برای تعیین پیش بینی های فروش و پیش بینی عادات خرید مصرف کننده می توان مدل های پیش بینی کننده ایجاد کرد.این مدل ها به تولیدکنندگان کمک می کنند تا توزیع نیازها را پیش بینی کنند و برنامه های نگهداری را مشخص سازند.

سازمان‌های دولتی از داده‌های سرشماری برای ترسیم روند جمعیت و هزینه‌های پروژه استفاده می‌کنند در حالی که تیم‌های بیسبال از مدل‌های پیش‌بینی برای تعیین قراردادها و ساخت فهرست وظایف استفاده می‌کنند.

10. انبار داده ها

انبار داده ها

انبارسازی داده فرآیندی است که توسط آن داده ها قبل از ارزیابی، جمع آوری و ذخیره می شوند.

انبار داده در داده کاوی چیست؟

داده‌کاوی‌ داده‌ها را قبل از اینکه بتوان از آن در تجزیه و تحلیل کسب‌وکار استفاده کرد از منابع متعدد در یک آرشیو مشترک جمع‌آوری می‌کنند. این فرآیند که انبارسازی داده نامیده می شود، معمولاً قبل از فرآیند داده کاوی اتفاق می افتد.

روش های ذخیره سازی داده ها

داده ها قبل از بارگیری در انبار داده از طریق یک فرآیند سه مرحله ای به نام ETL می گذرند. ETL مخفف عبارت استخراج، تبدیل و بارگذاری (extract, transform, and load) است:

استخراج: داده ها کپی شده و از منبع خود به یک محل اسقرار انبار منتقل می شوند. داده ها می توانند ساختاری باشند (نام، تاریخ، شماره کارت اعتباری و غیره) یا بدون ساختار (عکس ها، فیلم ها، فایل های صوتی، پست های رسانه های اجتماعی).

تبدیل: در این مرحله داده ها فیلتربندی و پاکسازی می شوند – خطاها حذف می شوند و داده ها اعتبار سنجی می شوند. داده ها نیز به گونه ای قالب بندی شده اند که متناسب با انبار باشند.

بارگذاری: در مرحله آخر، داده های تبدیل شده در انبار داده آپلود می شوند. این مراحل را می توان با به روز رسانی داده ها تکرار کرد.

نمونه هایی از انبار داده ها در کسب و کار

انبارهای داده، کار با داده های کلان را آسان‌تر می‌کنند – مخصوصا برای مشاغلی که با پایگاه‌های بزرگ مشتریان، گزارش‌های فروش و صورت‌حساب، و طرح ‌های منابع سروکار دارند. از طریق انبارسازی داده ها، کسب‌وکارها می‌توانند مشتریان را از مجموعه‌های وسیعی تقسیم‌بندی کرده و هدف قرار دهند. مانند مجموعه های سفارش‌های فروش، جستجوی محصول، یا نام نویسی در برنامه‌های وفاداری. همچنین می توانند طیف گسترده ای از نقاط داده، حتی پست های رسانه های اجتماعی در مورد محصولات و مشاغل را ذخیره و تجزیه و تحلیل کنند.

انبارسازی داده همچنین منابع مختلف داده را در یک مکان ادغام می کند و استخراج و تصمیم گیری را کارآمدتر می کند و باعث صرفه جویی در وقت و هزینه کسب و کار می شود.

نتیجه گیری

کسب‌وکارهایی که به دنبال مزیت رقابتی هستند، اغلب داده‌ها را در میان بهترین منابع خود می یابند و تکنیک‌های داده کاوی برای به ثمر رساندن این منبع حیاتی هستند. فرآیند استخراج به کسب و کارها اجازه می دهد تا قدرت داده ها را مهار کنند، بصیرتی کسب کنند، الگوها و ناهنجاری ها را شناسایی کنند و راه هایی برای بهره وری بیشتر بیابند.

همانطور که به تولید حجم فزاینده ای از داده های متنوع ادامه می دهیم، توانایی استخراج این داده ها برای درک بهتر اهمیت فزاینده ای پیدا می کند. سازمان‌ها عموماً به دنبال راه‌های سریع‌تر و کارآمدتری برای کار با داده‌های خود، روش‌های بیشتری برای تجسم داده‌ها و سیستم‌های محاسباتی هستند که بتوانند تصمیمات انسانی بیشتری بگیرند.

در نتیجه، بسیاری از شرکت ها انتظار دارند سرمایه گذاری خود را در طرح های تحلیلی، که شامل داده کاوی نیز می شود، افزایش دهند. بر اساس گزارش تجزیه و تحلیل وضعیت سازمانی جهانی مایکرواستراتژی 2018، 71 درصد از شرکت های جهانی می گویند که قصد دارند پول بیشتری را برای تجزیه و تحلیل هزینه کنند (73 درصد از شرکت های آمریکایی قصد دارند بودجه تجزیه و تحلیل خود را افزایش دهند).

 

اگر فعلا فرصت مطالعه این مقاله را ندارید می توانید فایل PDF آن را برای مطالعه در زمان دیگری دانلود کنید.

این محصولات می تواند برای شما مفید باشد:

کتاب های چاپی و الکترونیکی

کتاب تند آموز رپیدماینر (RapidMiner)

۶۷,۹۰۰ تومان۱۶۴,۹۰۰ تومان

کتاب های چاپی و الکترونیکی

کتاب گنج پنهان

۱۰۵,۰۰۰ تومان۲۵۵,۰۰۰ تومان
تخفیف!
-50% تخفیف
۳۵۰,۰۰۰ تومان
5/5 - (3 امتیاز)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

سوالی دارید؟ با ما صحبت کنید!
مکالمه را شروع کنید
سلام! برای چت در WhatsApp پرسنل پشتیبانی که میخواهید با او صحبت کنید را انتخاب کنید