انواع داده ها در آمار با ذکر مثال

انواع داده ها در آمار با ذکر مثال
توسط منتشر شده در : مارس 1, 2024دسته بندی: مقالات تحلیل آماریLast Updated: مارس 1, 2024بدون دیدگاه on انواع داده ها در آمار با ذکر مثالنمایش: 1127

چکیده مقاله :
انواع داده ها مفهوم مهمی از آمار است که باید درک شود تا اندازه گیری های آماری را به درستی به داده های خود اعمال کنید و در نتیجه فرضیات خاصی را در مورد آن به درستی نتیجه گیری کنید. جمع‌آوری انواع مختلف داده‌ها در تحقیقات می‌تواند ابزار قدرتمندی برای کسب‌وکارها باشد، زیرا تصمیمات مهم را با حقایق و ارقام هدایت می‌کند. اتکا به آمار سریعتر از همیشه در حال رشد است، زیرا می تواند سوگیری، احساسات و نظرات ناخودآگاه را به حداقل برساند. آمار یک رقم خلاصه، پیش بینی یا برآورد آگاهانه است و می تواند مشاهدات ارزشمندی را هنگام درک موقعیت یک سازمان ارائه دهد. انواع و دسته های مختلف داده را می توان به منظور تولید آمارهای گوناگون برای صنایع مختلف جمع آوری کرد. به دست آوردن درک عمیق تر از فضای داده و ارزش هر دسته از داده ها، فرصت های بیشتری را در دنیای تجارت، دولت و شرکت ها فراهم می کند. این مطلب شما را با انواع داده های مختلفی که باید بدانید، برای انجام تجزیه و تحلیل داده های اکتشافی مناسب (EDA) آشنا می کند، که یکی از دست کم گرفته شده ترین بخش های پروژه یادگیری ماشینی است.

مقدمه ای بر انواع داده ها

داشتن درک خوب از انواع مختلف داده ها، که مقیاس های اندازه گیری نیز نامیده می شوند، یک پیش نیاز اساسی برای انجام تجزیه و تحلیل داده های اکتشافی (EDA) است، زیرا می توانید از اندازه گیری های آماری خاصی فقط برای انواع داده های خاص استفاده کنید.

همچنین باید بدانید که با کدام نوع داده سروکار دارید تا روش تصویرسازی مناسب را انتخاب کنید. به انواع داده ها به عنوان راهی برای دسته بندی انواع مختلف متغیرها فکر کنید. ما انواع اصلی متغیرها را مورد بحث قرار خواهیم داد و برای هر یک به یک مثال نگاه خواهیم کرد. ما گاهی از آنها به عنوان مقیاس های اندازه گیری یاد می کنیم.

  • داده های طبقه بندی شده
  • داده های عددی

در ادامه به بررسی این دو نوع داده و زیرمجموعه های هریک با ذکر مثال می پردازیم.

داده های طبقه بندی شده

داده های طبقه بندی نشان دهنده ویژگی ها هستند. بنابراین می‌تواند مواردی مانند جنسیت، زبان و غیره یک فرد را نشان دهد. داده‌های طبقه‌بندی می‌توانند مقادیر عددی نیز داشته باشند (مثال: 1 برای زن و 0 برای مرد). توجه داشته باشید که این اعداد معنای ریاضی ندارند.

داده های اسمی

مقادیر اسمی واحدهای گسسته را نشان می دهند و برای برچسب گذاری متغیرهایی استفاده می شوند که ارزش کمی ندارند. فقط آنها را به عنوان “برچسب” در نظر بگیرید. توجه داشته باشید که داده های اسمی که بدون ترتیب هستند. بنابراین اگر ترتیب مقادیر آن را تغییر دهید، معنی آن تغییر نمی کند. در زیر می توانید دو نمونه از ویژگی های اسمی را مشاهده کنید:

داده های اسمی

ویژگی سمت چپی که اگر یک فرد متاهل باشد را توصیف می کند، «دوگانه» نامیده می شود که نوعی مقیاس اسمی است که فقط شامل دو دسته است.

داده های ترتیبی

مقادیر ترتیبی واحدهای گسسته و مرتب را نشان می دهند. بنابراین تقریباً مشابه داده‌های اسمی است، با این تفاوت که ترتیب آن مهم است. در زیر می توانید یک نمونه را مشاهده کنید:

داده های ترتیبی

توجه داشته باشید که تفاوت بین دبیرستان و دبیرستان با تفاوت بین دبیرستان و کالج متفاوت است. این محدودیت اصلی داده های ترتیبی است، تفاوت بین مقادیر واقعاً مشخص نیست. به همین دلیل معمولاً از مقیاس های ترتیبی برای اندازه گیری ویژگی های غیر عددی مانند شادی، رضایت مشتری و غیره استفاده می شود.

جهت آشنایی بیشتر می توانید مقاله زیر را با عنوان تحلیل آماری چیست مطالعه نمایید.

داده های عددی

1. داده های گسسته

اگر مقادیر آن متمایز و مجزا باشد، از داده های گسسته صحبت می کنیم. به عبارت دیگر: ما از داده‌های گسسته صحبت می‌کنیم در صورتی که داده‌ها فقط می‌توانند مقادیر خاصی را دریافت کنند. این نوع داده ها را نمی توان اندازه گیری کرد اما می توان آنها را شمارش کرد. اساساً اطلاعاتی را نشان می دهد که می توانند در یک دسته طبقه بندی شوند. به عنوان مثال، تعداد شیر یا خط در 100 پرتاب.

می‌توانید با پرسیدن دو سؤال زیر بررسی کنید که آیا با داده‌های گسسته سروکار دارید یا خیر: آیا می‌توانید آن‌ها را بشمارید و آیا می‌توان آن‌ها را به بخش‌های کوچک‌تر و کوچک‌تر تقسیم کرد؟

2. داده های پیوسته

داده های پیوسته نشان دهنده اندازه گیری ها هستند و بنابراین مقادیر آنها قابل شمارش نیست اما می توان آنها را اندازه گیری کرد. یک مثال می تواند قد یک فرد باشد که می توانید با استفاده از فواصل در خط اعداد واقعی آن را توصیف کنید.

داده های بازه ای

مقادیر بازه نشان دهنده واحدهای مرتب شده ای است که تفاوت یکسانی دارند. بنابراین زمانی از داده های بازه ای صحبت می کنیم که متغیری داریم که حاوی مقادیر عددی مرتب شده است و تفاوت های دقیق بین مقادیر را می دانیم. یک مثال می‌تواند ویژگی‌ای باشد که حاوی دمای یک مکان مشخص است، مانند آنچه در زیر می‌بینید:

داده های بازه ای

مشکل داده های مقادیر بازه ای این است که آنها “صفر واقعی” ندارند. این بدان معناست که در مورد مثال ما، چیزی به نام دما وجود ندارد. با داده های بازه ای، می توانیم جمع و تفریق کنیم، اما نمی توانیم نسبت ها را ضرب، تقسیم یا محاسبه کنیم. از آنجایی که صفر واقعی وجود ندارد، بسیاری از آمار توصیفی و استنباطی را نمی توان اعمال کرد.

داده های نسبت

داده های نسبت نیز واحدهای مرتب شده ای هستند که تفاوت یکسانی دارند. مقادیر نسبت همان مقادیر بازه ای هستند، با این تفاوت که صفر مطلق دارند. نمونه های خوب قد، وزن، طول و غیره هستند.

داده های نسبت

چرا نوع داده مهم است؟

انواع داده ها مفهوم مهمی هستند زیرا روش های آماری فقط با انواع داده های خاص قابل استفاده هستند. شما باید داده های پیوسته را متفاوت از داده های طبقه بندی شده تجزیه و تحلیل کنید، در غیر این صورت منجر به تحلیل اشتباه می شود. بنابراین شناخت انواع داده هایی که با آنها سروکار دارید، شما را قادر می سازد تا روش صحیح تحلیل را انتخاب کنید.

اکنون دوباره به همه نوع داده ها می پردازیم، اما این بار در مورد اینکه چه روش های آماری را می توان اعمال کرد. برای درک درست آنچه که اکنون در مورد آن بحث خواهیم کرد، باید مبانی آمار توصیفی را درک کنید.

روش های آماری

داده های اسمی

هنگامی که با داده های اسمی سروکار دارید، اطلاعات را از طریق:

  • فرکانس: فرکانس نرخی است که در آن چیزی در یک دوره زمانی یا در یک مجموعه داده اتفاق می افتد.
  • نسبت: شما به راحتی می توانید نسبت را با تقسیم فرکانس بر تعداد کل رویدادها محاسبه کنید. (مثلاً چند بار اتفاق افتاده تقسیم بر چند بار ممکن است اتفاق بیفتد)
  • روش های تجسم: برای تجسم داده های اسمی می توانید از نمودار دایره ای یا نمودار میله ای استفاده کنید.

در علم داده، می توانید از یک رمزگذاری داغ برای تبدیل داده های اسمی به یک ویژگی عددی استفاده کنید.

داده های ترتیبی

هنگامی که با داده های ترتیبی سروکار دارید، می توانید از روش های مشابهی مانند داده های اسمی استفاده کنید، اما به برخی ابزارهای اضافی نیز دسترسی دارید. بنابراین می توانید داده های ترتیبی خود را با فرکانس ها، نسبت ها، درصدها خلاصه کنید. و می توانید آن را با نمودارهای دایره ای و میله ای تجسم کنید. علاوه بر این، می توانید از صدک، میانه، مد و محدوده بین ربعی برای خلاصه کردن داده های خود استفاده کنید.

در علم داده، می توانید از رمزگذاری یک برچسب برای تبدیل داده های ترتیبی به یک ویژگی عددی استفاده کنید.

داده های پیوسته

هنگامی که با داده های پیوسته سروکار دارید، می توانید از بیشترین روش ها برای توصیف داده های خود استفاده کنید. می توانید داده های خود را با استفاده از صدک ها، میانه، محدوده بین ربعی، میانگین، مد، انحراف استاندارد و محدوده خلاصه کنید.

روش های تجسم:

برای تجسم داده های پیوسته، می توانید از هیستوگرام یا باکس پلات استفاده کنید. با یک هیستوگرام، می توانید تمایل مرکزی، تغییرپذیری، مدالیته و کشیدگی یک توزیع را بررسی کنید. توجه داشته باشید که یک هیستوگرام نمی‌تواند به شما نشان دهد که آیا موارد پرت دارید. به همین دلیل است که از باکس پلات نیز استفاده می کنیم.

جمع بندی
در این مطلب، انواع مختلف داده هایی را که در سراسر آمار استفاده می شود، کشف کردید. شما تفاوت بین داده های گسسته و پیوسته را یاد گرفتید و فهمیدید که مقیاس های اندازه گیری اسمی، ترتیبی، فاصله و نسبت چیست. علاوه بر این، اکنون می‌دانید که از چه اندازه‌گیری‌های آماری می‌توانید در کدام نوع داده استفاده کنید و کدام روش‌های تصویرسازی مناسب هستند. شما همچنین یاد گرفتید که با چه روش هایی می توان متغیرهای دسته بندی را به متغیرهای عددی تبدیل کرد. این به شما امکان می دهد بخش بزرگی از یک تحلیل اکتشافی را روی یک مجموعه داده معین ایجاد کنید.

اشتراک گذاری این محتوا، پلتفرم خود را انتخاب کنید!
مطالب مرتبط دیگر :

  • رگرسیون لجستیک (logistic regression) چیست؟
رگرسیون لجستیک (logistic regression) چیست؟

اکتبر 4, 2024|بدون دیدگاه

چکیده مقاله:رگرسیون لجستیک احتمال وقوع یک رویداد، مانند رای دادن یا رای ندادن، را بر اساس یک مجموعه داده از متغیرهای مستقل تخمین می‌زند. این نوع مدل آماری (که به آن مدل لاجیت نیز گفته [...]

  • الگوریتم خفاش (Bat Algorithm) چیست؟
الگوریتم خفاش (Bat Algorithm) چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم خفاش (Bat Algorithm) یک الگوریتم فراابتکاری مبتنی بر جمعیت است که برای حل مسائل بهینه سازی پیوسته استفاده می شود. این الگوریتم برای بهینه سازی راه حل ها در رایانش ابری، [...]

  • الگوریتم کرم شب تاب چیست؟
الگوریتم کرم شب تاب چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم کرم شب تاب چیست؟ الگوریتم های الهام گرفته از زیست، که به عنوان الگوریتم های الهام گرفته از طبیعت یا الگوریتم های تکاملی نیز شناخته می شوند، تکنیک های محاسباتی هستند [...]

  • آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال
آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال

سپتامبر 30, 2024|بدون دیدگاه

چکیده مقاله: آزمون فریدمن ابزاری آماری برای مقایسه نمونه‌ها یا اندازه‌گیری‌های مکرر است زمانی که مفروضات پارامتریک برآورده نمی‌شوند. در واقع آزمون فریدمن توسعه‌ای از آزمون Wilcoxon signed-rank test و آنالوگ ناپارامتری از اندازه‌گیری [...]

  • برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند
برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند

سپتامبر 27, 2024|بدون دیدگاه

چکیده مقاله: اگر بخواهیم فرانت اند (Front-end) یا با اسم های دیگر سمت مشتری یا سمت کاربر را توضیح دهیم بهتر است بدانید که توسعه دهنده فرانت اند (Front-End Developer) به کمک زبان های برنامه [...]

  • برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد
برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد

سپتامبر 24, 2024|بدون دیدگاه

چکیده مقاله: امروزه تصور جهانی بدون اینترنت و وب سایت‌ها تقریباً غیرممکن است. در سال‌های اخیر، تقاضا برای برنامه نویسان وب حرفه‌ای به طور چشمگیری افزایش یافته است، بنابراین می توانید انواع کارشناسان این [...]