آموزش CRM | مشاوره انتخاب و استقرار نرم افزار CRM | داده کاوی

درک داده‌ها و تعیین انواع متغیرها در مجموعه داده مشتریان

درک داده‌ها و تعیین انواع متغیرها در مجموعه داده مشتریان

در پست مربوط به فرآیند CRISP برای شما گفتیم که دومین مرحله از فرآیند اجرای پروژه های داده‌کاوی درک داده‌ها نام دارد. در صورت تمایل به خواندن مقاله مربوط به کریسپ به پیوند زیر مراجعه کنید.

گفتیم که اولین مرحله از درک داده‌ها شامل جمع‌آوری داده‌های اولیه است. سپس به تشریح داده‌ها، اکتشاف در داده‌ها و مصورسازی داده‌ها پرداخته می شود. در مرحله تشریح داده ها باید به بررسی اولیه داده ها پرداخته شود. تعداد نمونه ها و تعداد متغیرهای موجود در مجموعه داده مورد بررسی قرار گیرد و روابط بین متغیرها با استفاده از رسم نمودارهایی مشخص گردد.

درحوزه داده‌کاوی، توانایی تشخیص نوع داده‌ها بسیار مهم است. نوع داده‌ها اغلب تعیین کننده نوع تحلیلی است که می‌تواند بر روی آن‌ها اجرا شود.

در این پست قصد داریم شما را با درک داده‌ها و انواع سطوح اندازه‌گیری داده آشنا کنیم.

با ما همراه باشید.

یک فروشگاه شکلات فروشی را تصور کنید که انواع مختلفی از شکلات را دارد. صاحب این فروشگاه تمایل دارد که در مورد رضایتمندی مشتریانش در مورد خدمات ارائه شده و محصولات فروشگاه نظرسنجی انجام دهد. برای این منظور پرسشنامه‌ای را به صورت تصویر  تهیه کرد و بین مشتریانش پخش کرد.

پرسشنامه رضایت سنجی مشتریان
پرسشنامه رضایت سنجی مشتریان

مسئول فروشگاه پس از جمع آوری پرسشنامه ها، داده ها را در قالب یک فایل Excel وارد کرد. نمونه‌ای از داده‌های جمع‌آوری شده از مشتریان را می‌توانید در جدول شماره 1 مشاهده کنید.


نمونه‌ای از داده‌های جمع‌آوری شده از طریق پرسشنامه

همانطور که گفتیم در این پست قصد داریم شما را با انواع سطوح اندازه‌گیری داده آشنا کنیم.

اگر موافق باشید برای داده‌های این پرسشنامه این کار را با هم انجام دهیم.

داده‌های اسمی یا به صورت متنی ذخیره می‌شوند یا می توان آن‌ها را به صورت کد ذخیره نمود. برای مثال می‌توانید به مردان کد 1 و به خانم‌ها کد 2 را اختصاص دهید.

بله درست است. این متغیر هم از نوع گسسته اسمی است. این متغیر دارای سه رده (کمتر از 5 میلیون تومان، بین 5 تا 10 میلیون تومان و بالاتر از 10 میلیون تومان) است. توجه داشته باشید که مسئول فروشگاه این رده ها را به صورت کد نیز می توانست وارد کند. برای مثال برای درآمد کمتر از 5 میلیون تومان کد 1، برای درآمد بین 5 تا 10 میلیون تومان کد 2 و بالاتر از 10 میلیون تومان کد 3 را تعیین کند.

در تصویر  زیر ذخیره سازی داده‌های گسسته اسمی و گسسته ترتیبی با استفاده از کدگذاری انجام شده است.

کدگذاری داده‌های گسسته اسمی

توجه: نوع دیگری از داده‌ها نیز وجود دارد که در این پرسشنامه وجود نداشت. این نوع از داده‌ها پیوسته فاصله‌ای نام دارند. داده‌های فاصله‌ای صفر قراردادی دارند و لذا مقدار منفی نیز می‌پذیرند؛ رایج‌ترین نمونه آن درجه حرارت برحسب درجه فارنهایت یا سانتی گراد است. یک مثال ساده برای داده‌های فاصله‌ای این است که دامنه اختلاف بین 50 درجه و 40 درجه به اندازه اختلاف بین 30 درجه و 20 درجه است.

در ادامه به صورت خلاصه به مقایسه انواع داده‌های اسمی، ترتیبی، فاصله‌ای و نسبتی پرداخته شده است. همان‌طور که مشاهده می‌شود بین عملیات ریاضی تنها تساوی یا عدم تساوی برای داده‌های اسمی مجاز است. در مورد داده‌های ترتیبی علاوه بر تساوی یا عدم تساوی، ترتیب نیز معنی دارد. در داده‌های فاصله‌ای علاوه بر تساوی یا عدم تساوی و ترتیب، انجام عملیات جمع و تفریق نیز مجاز است. در داده‌های نسبتی همه انواع عملیات ریاضی مجاز‌ است.

به این مطلب رای دهید
خروج از نسخه موبایل