درک دادهها و تعیین انواع متغیرها در مجموعه داده مشتریان
در پست مربوط به فرآیند CRISP برای شما گفتیم که دومین مرحله از فرآیند اجرای پروژه های دادهکاوی درک دادهها نام دارد. در صورت تمایل به خواندن مقاله مربوط به کریسپ به پیوند زیر مراجعه کنید.
گفتیم که اولین مرحله از درک دادهها شامل جمعآوری دادههای اولیه است. سپس به تشریح دادهها، اکتشاف در دادهها و مصورسازی دادهها پرداخته می شود. در مرحله تشریح داده ها باید به بررسی اولیه داده ها پرداخته شود. تعداد نمونه ها و تعداد متغیرهای موجود در مجموعه داده مورد بررسی قرار گیرد و روابط بین متغیرها با استفاده از رسم نمودارهایی مشخص گردد.
درحوزه دادهکاوی، توانایی تشخیص نوع دادهها بسیار مهم است. نوع دادهها اغلب تعیین کننده نوع تحلیلی است که میتواند بر روی آنها اجرا شود.
در این پست قصد داریم شما را با درک دادهها و انواع سطوح اندازهگیری داده آشنا کنیم.
با ما همراه باشید.
یک فروشگاه شکلات فروشی را تصور کنید که انواع مختلفی از شکلات را دارد. صاحب این فروشگاه تمایل دارد که در مورد رضایتمندی مشتریانش در مورد خدمات ارائه شده و محصولات فروشگاه نظرسنجی انجام دهد. برای این منظور پرسشنامهای را به صورت تصویر تهیه کرد و بین مشتریانش پخش کرد.
پرسشنامه رضایت سنجی مشتریان
مسئول فروشگاه پس از جمع آوری پرسشنامه ها، داده ها را در قالب یک فایل Excel وارد کرد. نمونهای از دادههای جمعآوری شده از مشتریان را میتوانید در جدول شماره 1 مشاهده کنید.
نمونهای از دادههای جمعآوری شده از طریق پرسشنامه
همانطور که گفتیم در این پست قصد داریم شما را با انواع سطوح اندازهگیری داده آشنا کنیم.
اگر موافق باشید برای دادههای این پرسشنامه این کار را با هم انجام دهیم.
- اول به سراغ متغیر جنسیت برویم. جنسیت یک متغیر دو مقداری است. البته اگر بخواهیم به طور کلی بیان کنیم باید بگوییم که متغیر جنسیت یک متغیر گسسته اسمی است. متغیرهای گسسته اسمی بین ردههای متعدد تفاوت قائل میشود، اما ترتیب ضمنیای بین رده ها وجود ندارد.
دادههای اسمی یا به صورت متنی ذخیره میشوند یا می توان آنها را به صورت کد ذخیره نمود. برای مثال میتوانید به مردان کد 1 و به خانمها کد 2 را اختصاص دهید.
- متغیر سطح تحصیلات یک متغیر گسسته ترتیبی است. گسسته ترتیبی شامل دادههایی است که یک ترتیب طبیعی دارند. به عنوان نمونه در این مثال سطح تحصیلات دکتری بالاتر از فوق لیسانس و فوق لیسانس بالاتر از لیسانس و ….. در واقع ترتیبی به صورت دیپلم < فوق دیپلم < لیسانس < فوق لیسانس < دکتری در این دادهها وجود دارد. دادههای گسسته ترتیبی را میتوان به صورت کد نیز نشان داد.
- متغیر بعدی سن است. به متغیرهایی از این قبیل متغیرهای پیوسته نسبتی گفته میشود. در متغیرهای پیوسته نسبتی همه نوع عملیات ریاضی مجاز است، به ویژه توانایی ضرب و تقسیم (به عبارت دیگر، نرخ ها مورد نظر است). مثالهای ساده از دادههای نسبتی هر متغیری است که دارای صفر مطلق باشد. مانند وزن، قد، میزان فروش، تعداد مشتریان، درآمد کسب شده در ماه گذشته و غیره.
- بسیار خوب. به سراغ متغیر بعدی برویم. میزان درآمد. میتوانید با توضیحاتی که ارائه شد بگویید که این متغیر از چه نوعی است؟
بله درست است. این متغیر هم از نوع گسسته اسمی است. این متغیر دارای سه رده (کمتر از 5 میلیون تومان، بین 5 تا 10 میلیون تومان و بالاتر از 10 میلیون تومان) است. توجه داشته باشید که مسئول فروشگاه این رده ها را به صورت کد نیز می توانست وارد کند. برای مثال برای درآمد کمتر از 5 میلیون تومان کد 1، برای درآمد بین 5 تا 10 میلیون تومان کد 2 و بالاتر از 10 میلیون تومان کد 3 را تعیین کند.
- با توجه به توضیحات ارائه شده منطقه زندگی هم از نوع گسسته اسمی است.
- در مورد میزان رضایت از برخورد مسئولان چه میتوان گفت؟ دادههای مربوط به میزان رضایت مشتریان نیز در قالب دادههای گسسته ترتیبی جمعآوری شدهاند. در پژوهشهای بازاریابی، استفاده از یک مقیاس پنج گزینهای برای ارزیابی ادراکات مرسوم است: خیلی کم کم متوسط زیاد خیلی زیاد
- و در نهایت میرسیم به متغیر نوع شکلات مورد علاقه مشتریان. دادههای مربوط به این متغیر از نوع گسسته اسمی هستند و دارای سه رده ی «تلخ»، «سفید» و «شیری» است. همان طور که پیش از این نیز گفته شد برای هر یک از این رده ها می توانید یک کد در نظر بگیرید. برای مثال برای شکلات تلخ دارای کد 1، شکلات شیری کد 2 و شکلات سفید کد 3 را در نظر گرفت.
در تصویر زیر ذخیره سازی دادههای گسسته اسمی و گسسته ترتیبی با استفاده از کدگذاری انجام شده است.
کدگذاری دادههای گسسته اسمی
توجه: نوع دیگری از دادهها نیز وجود دارد که در این پرسشنامه وجود نداشت. این نوع از دادهها پیوسته فاصلهای نام دارند. دادههای فاصلهای صفر قراردادی دارند و لذا مقدار منفی نیز میپذیرند؛ رایجترین نمونه آن درجه حرارت برحسب درجه فارنهایت یا سانتی گراد است. یک مثال ساده برای دادههای فاصلهای این است که دامنه اختلاف بین 50 درجه و 40 درجه به اندازه اختلاف بین 30 درجه و 20 درجه است.
در ادامه به صورت خلاصه به مقایسه انواع دادههای اسمی، ترتیبی، فاصلهای و نسبتی پرداخته شده است. همانطور که مشاهده میشود بین عملیات ریاضی تنها تساوی یا عدم تساوی برای دادههای اسمی مجاز است. در مورد دادههای ترتیبی علاوه بر تساوی یا عدم تساوی، ترتیب نیز معنی دارد. در دادههای فاصلهای علاوه بر تساوی یا عدم تساوی و ترتیب، انجام عملیات جمع و تفریق نیز مجاز است. در دادههای نسبتی همه انواع عملیات ریاضی مجاز است.