انواع داده ها در آمار با ذکر مثال
چکیده مقاله :
انواع داده ها مفهوم مهمی از آمار است که باید درک شود تا اندازه گیری های آماری را به درستی به داده های خود اعمال کنید و در نتیجه فرضیات خاصی را در مورد آن به درستی نتیجه گیری کنید. جمعآوری انواع مختلف دادهها در تحقیقات میتواند ابزار قدرتمندی برای کسبوکارها باشد، زیرا تصمیمات مهم را با حقایق و ارقام هدایت میکند. اتکا به آمار سریعتر از همیشه در حال رشد است، زیرا می تواند سوگیری، احساسات و نظرات ناخودآگاه را به حداقل برساند. آمار یک رقم خلاصه، پیش بینی یا برآورد آگاهانه است و می تواند مشاهدات ارزشمندی را هنگام درک موقعیت یک سازمان ارائه دهد. انواع و دسته های مختلف داده را می توان به منظور تولید آمارهای گوناگون برای صنایع مختلف جمع آوری کرد. به دست آوردن درک عمیق تر از فضای داده و ارزش هر دسته از داده ها، فرصت های بیشتری را در دنیای تجارت، دولت و شرکت ها فراهم می کند. این مطلب شما را با انواع داده های مختلفی که باید بدانید، برای انجام تجزیه و تحلیل داده های اکتشافی مناسب (EDA) آشنا می کند، که یکی از دست کم گرفته شده ترین بخش های پروژه یادگیری ماشینی است.
مقدمه ای بر انواع داده ها
داشتن درک خوب از انواع مختلف داده ها، که مقیاس های اندازه گیری نیز نامیده می شوند، یک پیش نیاز اساسی برای انجام تجزیه و تحلیل داده های اکتشافی (EDA) است، زیرا می توانید از اندازه گیری های آماری خاصی فقط برای انواع داده های خاص استفاده کنید.
همچنین باید بدانید که با کدام نوع داده سروکار دارید تا روش تصویرسازی مناسب را انتخاب کنید. به انواع داده ها به عنوان راهی برای دسته بندی انواع مختلف متغیرها فکر کنید. ما انواع اصلی متغیرها را مورد بحث قرار خواهیم داد و برای هر یک به یک مثال نگاه خواهیم کرد. ما گاهی از آنها به عنوان مقیاس های اندازه گیری یاد می کنیم.
- داده های طبقه بندی شده
- داده های عددی
در ادامه به بررسی این دو نوع داده و زیرمجموعه های هریک با ذکر مثال می پردازیم.
داده های طبقه بندی شده
داده های طبقه بندی نشان دهنده ویژگی ها هستند. بنابراین میتواند مواردی مانند جنسیت، زبان و غیره یک فرد را نشان دهد. دادههای طبقهبندی میتوانند مقادیر عددی نیز داشته باشند (مثال: 1 برای زن و 0 برای مرد). توجه داشته باشید که این اعداد معنای ریاضی ندارند.
داده های اسمی
مقادیر اسمی واحدهای گسسته را نشان می دهند و برای برچسب گذاری متغیرهایی استفاده می شوند که ارزش کمی ندارند. فقط آنها را به عنوان “برچسب” در نظر بگیرید. توجه داشته باشید که داده های اسمی که بدون ترتیب هستند. بنابراین اگر ترتیب مقادیر آن را تغییر دهید، معنی آن تغییر نمی کند. در زیر می توانید دو نمونه از ویژگی های اسمی را مشاهده کنید:
ویژگی سمت چپی که اگر یک فرد متاهل باشد را توصیف می کند، «دوگانه» نامیده می شود که نوعی مقیاس اسمی است که فقط شامل دو دسته است.
داده های ترتیبی
مقادیر ترتیبی واحدهای گسسته و مرتب را نشان می دهند. بنابراین تقریباً مشابه دادههای اسمی است، با این تفاوت که ترتیب آن مهم است. در زیر می توانید یک نمونه را مشاهده کنید:
توجه داشته باشید که تفاوت بین دبیرستان و دبیرستان با تفاوت بین دبیرستان و کالج متفاوت است. این محدودیت اصلی داده های ترتیبی است، تفاوت بین مقادیر واقعاً مشخص نیست. به همین دلیل معمولاً از مقیاس های ترتیبی برای اندازه گیری ویژگی های غیر عددی مانند شادی، رضایت مشتری و غیره استفاده می شود.
جهت آشنایی بیشتر می توانید مقاله زیر را با عنوان تحلیل آماری چیست مطالعه نمایید.
داده های عددی
1. داده های گسسته
اگر مقادیر آن متمایز و مجزا باشد، از داده های گسسته صحبت می کنیم. به عبارت دیگر: ما از دادههای گسسته صحبت میکنیم در صورتی که دادهها فقط میتوانند مقادیر خاصی را دریافت کنند. این نوع داده ها را نمی توان اندازه گیری کرد اما می توان آنها را شمارش کرد. اساساً اطلاعاتی را نشان می دهد که می توانند در یک دسته طبقه بندی شوند. به عنوان مثال، تعداد شیر یا خط در 100 پرتاب.
میتوانید با پرسیدن دو سؤال زیر بررسی کنید که آیا با دادههای گسسته سروکار دارید یا خیر: آیا میتوانید آنها را بشمارید و آیا میتوان آنها را به بخشهای کوچکتر و کوچکتر تقسیم کرد؟
2. داده های پیوسته
داده های پیوسته نشان دهنده اندازه گیری ها هستند و بنابراین مقادیر آنها قابل شمارش نیست اما می توان آنها را اندازه گیری کرد. یک مثال می تواند قد یک فرد باشد که می توانید با استفاده از فواصل در خط اعداد واقعی آن را توصیف کنید.
داده های بازه ای
مقادیر بازه نشان دهنده واحدهای مرتب شده ای است که تفاوت یکسانی دارند. بنابراین زمانی از داده های بازه ای صحبت می کنیم که متغیری داریم که حاوی مقادیر عددی مرتب شده است و تفاوت های دقیق بین مقادیر را می دانیم. یک مثال میتواند ویژگیای باشد که حاوی دمای یک مکان مشخص است، مانند آنچه در زیر میبینید:
مشکل داده های مقادیر بازه ای این است که آنها “صفر واقعی” ندارند. این بدان معناست که در مورد مثال ما، چیزی به نام دما وجود ندارد. با داده های بازه ای، می توانیم جمع و تفریق کنیم، اما نمی توانیم نسبت ها را ضرب، تقسیم یا محاسبه کنیم. از آنجایی که صفر واقعی وجود ندارد، بسیاری از آمار توصیفی و استنباطی را نمی توان اعمال کرد.
داده های نسبت
داده های نسبت نیز واحدهای مرتب شده ای هستند که تفاوت یکسانی دارند. مقادیر نسبت همان مقادیر بازه ای هستند، با این تفاوت که صفر مطلق دارند. نمونه های خوب قد، وزن، طول و غیره هستند.
چرا نوع داده مهم است؟
انواع داده ها مفهوم مهمی هستند زیرا روش های آماری فقط با انواع داده های خاص قابل استفاده هستند. شما باید داده های پیوسته را متفاوت از داده های طبقه بندی شده تجزیه و تحلیل کنید، در غیر این صورت منجر به تحلیل اشتباه می شود. بنابراین شناخت انواع داده هایی که با آنها سروکار دارید، شما را قادر می سازد تا روش صحیح تحلیل را انتخاب کنید.
اکنون دوباره به همه نوع داده ها می پردازیم، اما این بار در مورد اینکه چه روش های آماری را می توان اعمال کرد. برای درک درست آنچه که اکنون در مورد آن بحث خواهیم کرد، باید مبانی آمار توصیفی را درک کنید.
روش های آماری
داده های اسمی
هنگامی که با داده های اسمی سروکار دارید، اطلاعات را از طریق:
- فرکانس: فرکانس نرخی است که در آن چیزی در یک دوره زمانی یا در یک مجموعه داده اتفاق می افتد.
- نسبت: شما به راحتی می توانید نسبت را با تقسیم فرکانس بر تعداد کل رویدادها محاسبه کنید. (مثلاً چند بار اتفاق افتاده تقسیم بر چند بار ممکن است اتفاق بیفتد)
- روش های تجسم: برای تجسم داده های اسمی می توانید از نمودار دایره ای یا نمودار میله ای استفاده کنید.
در علم داده، می توانید از یک رمزگذاری داغ برای تبدیل داده های اسمی به یک ویژگی عددی استفاده کنید.
داده های ترتیبی
هنگامی که با داده های ترتیبی سروکار دارید، می توانید از روش های مشابهی مانند داده های اسمی استفاده کنید، اما به برخی ابزارهای اضافی نیز دسترسی دارید. بنابراین می توانید داده های ترتیبی خود را با فرکانس ها، نسبت ها، درصدها خلاصه کنید. و می توانید آن را با نمودارهای دایره ای و میله ای تجسم کنید. علاوه بر این، می توانید از صدک، میانه، مد و محدوده بین ربعی برای خلاصه کردن داده های خود استفاده کنید.
در علم داده، می توانید از رمزگذاری یک برچسب برای تبدیل داده های ترتیبی به یک ویژگی عددی استفاده کنید.
داده های پیوسته
هنگامی که با داده های پیوسته سروکار دارید، می توانید از بیشترین روش ها برای توصیف داده های خود استفاده کنید. می توانید داده های خود را با استفاده از صدک ها، میانه، محدوده بین ربعی، میانگین، مد، انحراف استاندارد و محدوده خلاصه کنید.
روش های تجسم:
برای تجسم داده های پیوسته، می توانید از هیستوگرام یا باکس پلات استفاده کنید. با یک هیستوگرام، می توانید تمایل مرکزی، تغییرپذیری، مدالیته و کشیدگی یک توزیع را بررسی کنید. توجه داشته باشید که یک هیستوگرام نمیتواند به شما نشان دهد که آیا موارد پرت دارید. به همین دلیل است که از باکس پلات نیز استفاده می کنیم.
جمع بندی
در این مطلب، انواع مختلف داده هایی را که در سراسر آمار استفاده می شود، کشف کردید. شما تفاوت بین داده های گسسته و پیوسته را یاد گرفتید و فهمیدید که مقیاس های اندازه گیری اسمی، ترتیبی، فاصله و نسبت چیست. علاوه بر این، اکنون میدانید که از چه اندازهگیریهای آماری میتوانید در کدام نوع داده استفاده کنید و کدام روشهای تصویرسازی مناسب هستند. شما همچنین یاد گرفتید که با چه روش هایی می توان متغیرهای دسته بندی را به متغیرهای عددی تبدیل کرد. این به شما امکان می دهد بخش بزرگی از یک تحلیل اکتشافی را روی یک مجموعه داده معین ایجاد کنید.
مدیر2024-10-31T12:10:57+03:30اکتبر 23, 2024|بدون دیدگاه
چکیده مقاله: تصور کنید می توانستید از ابزارهای سئو که به شما کمک کردند یک بازاریاب حرفه ای شوید، درآمد کسب کنید. خب، حالا می توانید! برنامه های همکاری در فروش سئو هر زمان [...]
مدیر2024-10-22T13:23:45+03:30اکتبر 22, 2024|بدون دیدگاه
چکیده مقاله: محتوای تکراری (Duplicate Content) زمانی اطلاق می شود که یک محتوای یکسان یا بسیار مشابه در سایت های مختلف اینترنتی ظاهر می شود. حتی اگر در یک دامنه ظاهر شود نیز مشکل [...]
مدیر2024-10-21T19:22:59+03:30اکتبر 21, 2024|بدون دیدگاه
چکیده مقاله: آیا به دنبال بهبود ساختار URL وب سایت خود برای سئو هستید یا در حال ساخت یک وب سایت جدید هستید و نمی دانید چگونه باید ساختار URL ها را تنظیم کنید؟ [...]
مدیر2024-10-19T18:45:33+03:30اکتبر 19, 2024|بدون دیدگاه
چکیده مقاله: سئو برچسب سفید (White Label SEO) به نوعی از خدمات سئو اشاره دارد که توسط یک شرکت یا متخصص به عنوان یک سرویس برای کسب و کارهای دیگر ارائه می شود، بدون [...]
مدیر2024-10-15T20:02:12+03:30اکتبر 15, 2024|بدون دیدگاه
چکیده مقاله: لینک سازی کلاه سفید نتایجی واقعی و ماندگار ارائه می دهد. این فرآیند کسب بک لینک های باکیفیت از طریق روش های اخلاقی است. بدون ترفند. بدون میانبرهای ناپسند. اینجا در لنسرسرا، [...]
مدیر2024-10-14T18:52:31+03:30اکتبر 14, 2024|بدون دیدگاه
چکیده مقاله: ترافیک وب سایت خوب است، اما اگر به فروش تبدیل نشود، چه فایده ای دارد؟ مشتریان شما به نتایج واقعی نیاز دارند که کسب و کارشان را رشد دهد. «پین پوینت سئو [...]