درک داده‌ها و تعیین انواع متغیرها در مجموعه داده مشتریان

درک داده‌ها و تعیین انواع متغیرها در مجموعه داده مشتریان

درک داده‌ها و تعیین انواع متغیرها در مجموعه داده مشتریان

در پست مربوط به فرآیند CRISP برای شما گفتیم که دومین مرحله از فرآیند اجرای پروژه های داده‌کاوی درک داده‌ها نام دارد. در صورت تمایل به خواندن مقاله مربوط به کریسپ به پیوند زیر مراجعه کنید.

گفتیم که اولین مرحله از درک داده‌ها شامل جمع‌آوری داده‌های اولیه است. سپس به تشریح داده‌ها، اکتشاف در داده‌ها و مصورسازی داده‌ها پرداخته می شود. در مرحله تشریح داده ها باید به بررسی اولیه داده ها پرداخته شود. تعداد نمونه ها و تعداد متغیرهای موجود در مجموعه داده مورد بررسی قرار گیرد و روابط بین متغیرها با استفاده از رسم نمودارهایی مشخص گردد.

درحوزه داده‌کاوی، توانایی تشخیص نوع داده‌ها بسیار مهم است. نوع داده‌ها اغلب تعیین کننده نوع تحلیلی است که می‌تواند بر روی آن‌ها اجرا شود.

در این پست قصد داریم شما را با درک داده‌ها و انواع سطوح اندازه‌گیری داده آشنا کنیم.

با ما همراه باشید.

یک فروشگاه شکلات فروشی را تصور کنید که انواع مختلفی از شکلات را دارد. صاحب این فروشگاه تمایل دارد که در مورد رضایتمندی مشتریانش در مورد خدمات ارائه شده و محصولات فروشگاه نظرسنجی انجام دهد. برای این منظور پرسشنامه‌ای را به صورت تصویر  تهیه کرد و بین مشتریانش پخش کرد.

پرسشنامه رضایت سنجی مشتریان
پرسشنامه رضایت سنجی مشتریان

مسئول فروشگاه پس از جمع آوری پرسشنامه ها، داده ها را در قالب یک فایل Excel وارد کرد. نمونه‌ای از داده‌های جمع‌آوری شده از مشتریان را می‌توانید در جدول شماره 1 مشاهده کنید.

نمونه‌ای از داده‌های جمع‌آوری شده از مشتریان
نمونه‌ای از داده‌های جمع‌آوری شده از طریق پرسشنامه

همانطور که گفتیم در این پست قصد داریم شما را با انواع سطوح اندازه‌گیری داده آشنا کنیم.

اگر موافق باشید برای داده‌های این پرسشنامه این کار را با هم انجام دهیم.

  • اول به سراغ متغیر جنسیت برویم. جنسیت یک متغیر دو مقداری است. البته اگر بخواهیم به طور کلی بیان کنیم باید بگوییم که متغیر جنسیت یک متغیر گسسته اسمی است. متغیرهای گسسته اسمی بین رده‌های متعدد تفاوت قائل می‌شود، اما ترتیب ضمنی‌ای بین رده ها وجود ندارد.

داده‌های اسمی یا به صورت متنی ذخیره می‌شوند یا می توان آن‌ها را به صورت کد ذخیره نمود. برای مثال می‌توانید به مردان کد 1 و به خانم‌ها کد 2 را اختصاص دهید.

  • متغیر سطح تحصیلات یک متغیر گسسته ترتیبی است. گسسته ترتیبی شامل داده‌هایی است که یک ترتیب طبیعی دارند. به عنوان نمونه در این مثال سطح تحصیلات دکتری بالاتر از فوق لیسانس و فوق لیسانس بالاتر از لیسانس و ….. در واقع ترتیبی به صورت دیپلم < فوق دیپلم < لیسانس < فوق لیسانس < دکتری در این داده‌ها وجود دارد. داده‌های گسسته ترتیبی را می‌توان به صورت کد نیز نشان داد.
  • متغیر بعدی سن است. به متغیرهایی از این قبیل متغیرهای پیوسته نسبتی گفته می‌شود. در متغیرهای پیوسته نسبتی همه نوع عملیات ریاضی مجاز است، به ویژه توانایی ضرب و تقسیم (به عبارت دیگر، نرخ ها مورد نظر است). مثال‌های ساده از داده‌های نسبتی هر متغیری است که دارای صفر مطلق باشد. مانند وزن، قد، میزان فروش، تعداد مشتریان، درآمد کسب شده در ماه گذشته و غیره.
  • بسیار خوب. به سراغ متغیر بعدی برویم. میزان درآمد. می‌توانید با توضیحاتی که ارائه شد بگویید که این متغیر از چه نوعی است؟

بله درست است. این متغیر هم از نوع گسسته اسمی است. این متغیر دارای سه رده (کمتر از 5 میلیون تومان، بین 5 تا 10 میلیون تومان و بالاتر از 10 میلیون تومان) است. توجه داشته باشید که مسئول فروشگاه این رده ها را به صورت کد نیز می توانست وارد کند. برای مثال برای درآمد کمتر از 5 میلیون تومان کد 1، برای درآمد بین 5 تا 10 میلیون تومان کد 2 و بالاتر از 10 میلیون تومان کد 3 را تعیین کند.

  • با توجه به توضیحات ارائه شده منطقه زندگی هم از نوع گسسته اسمی است.
  • در مورد میزان رضایت از برخورد مسئولان چه می‌توان گفت؟ داده‌های مربوط به میزان رضایت مشتریان نیز در قالب داده‌های گسسته ترتیبی جمع‌آوری شده‌اند. در پژوهش‌های بازاریابی، استفاده از یک مقیاس پنج گزینه‌ای برای ارزیابی ادراکات مرسوم است: خیلی کم کم  متوسط  زیاد  خیلی زیاد
  • و در نهایت می‌رسیم به متغیر نوع شکلات مورد علاقه مشتریان. داده‌های مربوط به این متغیر از نوع گسسته اسمی هستند و دارای سه رده ی «تلخ»، «سفید» و «شیری» است. همان طور که پیش از این نیز گفته شد برای هر یک از این رده ها می توانید یک کد در نظر بگیرید. برای مثال برای شکلات تلخ دارای کد 1، شکلات شیری کد 2 و شکلات سفید کد 3 را در نظر گرفت.

در تصویر  زیر ذخیره سازی داده‌های گسسته اسمی و گسسته ترتیبی با استفاده از کدگذاری انجام شده است.

کدگذاری داده‌های گسسته اسمی

کدگذاری داده‌های گسسته اسمی

توجه: نوع دیگری از داده‌ها نیز وجود دارد که در این پرسشنامه وجود نداشت. این نوع از داده‌ها پیوسته فاصله‌ای نام دارند. داده‌های فاصله‌ای صفر قراردادی دارند و لذا مقدار منفی نیز می‌پذیرند؛ رایج‌ترین نمونه آن درجه حرارت برحسب درجه فارنهایت یا سانتی گراد است. یک مثال ساده برای داده‌های فاصله‌ای این است که دامنه اختلاف بین 50 درجه و 40 درجه به اندازه اختلاف بین 30 درجه و 20 درجه است.

در ادامه به صورت خلاصه به مقایسه انواع داده‌های اسمی، ترتیبی، فاصله‌ای و نسبتی پرداخته شده است. همان‌طور که مشاهده می‌شود بین عملیات ریاضی تنها تساوی یا عدم تساوی برای داده‌های اسمی مجاز است. در مورد داده‌های ترتیبی علاوه بر تساوی یا عدم تساوی، ترتیب نیز معنی دارد. در داده‌های فاصله‌ای علاوه بر تساوی یا عدم تساوی و ترتیب، انجام عملیات جمع و تفریق نیز مجاز است. در داده‌های نسبتی همه انواع عملیات ریاضی مجاز‌ است.

درک داده‌ها و تعیین انواع متغیرها در مجموعه داده مشتریان

به این مطلب رای دهید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

سوالی دارید؟ با ما صحبت کنید!
مکالمه را شروع کنید
سلام! برای چت در WhatsApp پرسنل پشتیبانی که میخواهید با او صحبت کنید را انتخاب کنید