برازش چیست و چه آزمون هایی برای آن در تحلیل آماری وجود دارد ؟

برازش چیست ؟

چکیده مقاله :
حتما با واژه نیکویی برازش Goodness-of-fit در آمار آشنا شده اید یا به گوشتان خورده است. به طور خلاصه می توان آن را برازش نامید. در این مقاله به طور کامل به بررسی سوال برازش چیست می پردازیم و شما را با مفهوم آن آشنا کرده ، تست ها یا همان آزمون های مختلف سنجش آن را معرفی و به بررسی تفاوت های آن ها پرداخته و با ذکر مثال به بررسی دقیق تر و کاربرد آن در مسائل تحلیل آماری می پردازیم.

1- برازش چیست ؟ (نیکویی برازش)

اصطلاح “نیکویی برازش” به یک آزمون آماری اشاره دارد که تعیین می‌کند داده‌های نمونه چقدر با یک توزیع جمعیتی با توزیع نرمال تناسب دارند. به بیان ساده، فرضیه ای را مطرح می کند که آیا یک نمونه کجی (انحراف یا نامتوازنی) دارد یا نشان دهنده داده هایی است که انتظار دارید در جامعه واقعی پیدا کنید.

برازش، اختلاف بین مقادیر مشاهده شده و مقادیر مورد انتظار از مدل را در یک حالت توزیع نرمال ایجاد می کند. روش‌های متعددی برای تعیین نیکویی برازش وجود دارد، از جمله chi square.

جهت آشنایی بیشتر می توانید مقاله زیر را با عنوان تحلیل آماری چیست مطالعه نمایید.

نکات کلیدی

نیکویی برازش یک آزمون آماری است که سعی می‌کند تعیین کند آیا مجموعه‌ای از مقادیر مشاهده‌شده با مقادیر مورد انتظار تحت مدل کاربردی مطابقت دارند یا خیر.
آنها می توانند به شما نشان دهند که آیا داده های نمونه شما با مجموعه ای از داده های مورد انتظار از یک جمعیت با توزیع نرمال مطابقت دارد یا خیر.
انواع مختلفی از تست های برازش یا تناسب وجود دارد، اما رایج ترین آن تست chi square است.
آزمون chi square تعیین می کند که آیا رابطه ای بین داده های طبقه بندی وجود دارد یا خیر.
آزمون کولموگروف-اسمیرنوف تعیین می کند که آیا یک نمونه از یک توزیع خاص از یک جامعه است یا خیر.

2- تعریف برازش (Goodness-of-Fit)

آزمون های برازش، روش های آماری هستند که در مورد مقادیر مشاهده شده استنباط می کنند. به عنوان مثال، شما می توانید تعیین کنید که آیا یک گروه نمونه واقعا نماینده کل جامعه است یا خیر. به این ترتیب، آنها تعیین می کنند که چگونه مقادیر واقعی با مقادیر پیش بینی شده در یک مدل مرتبط هستند.  آزمون‌های برازش یا تناسب، وقتی در تصمیم‌گیری استفاده می‌شوند، پیش‌بینی روندها و الگوهای آینده را آسان‌تر می‌کنند.

همانطور که در بالا ذکر شد، انواع مختلفی از تست های برازش وجود دارد. آنها شامل آزمون chi square که رایج ترین است و همچنین آزمون کولموگروف-اسمیرنوف و آزمون شاپیرو-ویلک هستند. آزمون ها معمولاً با استفاده از نرم افزار کامپیوتری انجام می شود. اما آماردانان می توانند این آزمایش ها را با استفاده از فرمول هایی انجام دهند که برای نوع خاصی از آزمون طراحی شده است.

برای انجام آزمون، به یک متغیر خاص، همراه با فرض نحوه توزیع آن نیاز دارید. شما همچنین به یک مجموعه داده با مقادیر واضح و روشن نیاز دارید، مانند:

  • مقادیر مشاهده شده، که از مجموعه داده های واقعی مشتق شده اند
  • مقادیر مورد انتظار که برگرفته از مفروضات انجام شده است
  • تعداد کل دسته ها در مجموعه

تست های برازش مناسب معمولاً برای آزمایش نرمال بودن باقیمانده ها یا تعیین اینکه آیا دو نمونه از توزیع های یکسان جمع آوری شده اند یا خیر استفاده می شود. مطمئنا همچنان کامل مفهوم نشده است تا بتوانید به سوال برازش چیست پاسخ دهید پس همچنان با ما همراه باشید.

3- ملاحظات اصلی و ویژه

به منظور تفسیر یک آزمون نیکویی برازش، برای آماردانان مهم است که یک سطح آلفا، مانند p-value برای آزمون chi square تعیین کنند. p-value به احتمال بدست آوردن نتایج نزدیک به حداکثر نتایج مشاهده شده اشاره دارد. فرض بر این است که فرضیه صفر درست است. یک فرضیه صفر بیان می کند که هیچ رابطه ای بین متغیرها وجود ندارد و فرضیه جایگزین فرض می کند که یک رابطه وجود دارد.

در عوض، فراوانی مقادیر مشاهده‌شده اندازه‌گیری می‌شود و متعاقباً با مقادیر مورد انتظار و درجات آزادی برای محاسبه chi square استفاده می‌شود. اگر نتیجه کمتر از آلفا باشد، فرضیه صفر نامعتبر است که نشان دهنده وجود رابطه بین متغیرها است.

4- انواع تست های برازش

در پاسخ به سوال برازش چیست باید انواع تست های برازش را بشناسید تا به درک بهتری از مسئله برسید.

1-4- آزمون Chi-Square

آزمون Chi-Square

آزمون کی اسکوئر که به عنوان آزمون chi-square test for independence نیز شناخته می شود، یک روش آمار استنباطی است که اعتبار ادعای مطرح شده در مورد یک جامعه را بر اساس یک نمونه تصادفی آزمایش می کند.

به طور انحصاری برای داده هایی که به کلاس ها (bins) جدا شده اند استفاده می شود، برای تولید نتایج دقیق به حجم نمونه کافی نیاز دارد. اما نوع یا شدت رابطه را نشان نمی دهد. به عنوان مثال، به این نتیجه نمی رسد که آیا رابطه مثبت است یا منفی.

برای محاسبه خوب بودن برازش کی اسکوئر، سطح آلفای دلخواه را تعیین کنید. بنابراین اگر سطح اطمینان شما 95٪ (یا 0.95) باشد، آنگاه آلفا 0.05 است. سپس، متغیرهای طبقه‌بندی را برای آزمایش شناسایی کنید، سپس گزاره‌های فرضیه‌ای را در مورد روابط بین آنها تعریف کنید.

متغیرها باید متقابلاً منحصر به فرد باشند تا واجد شرایط آزمون کی اسکوئر برای استقلال باشند. و آزمون chi goodness-of-fit نباید برای داده هایی که پیوسته هستند استفاده شود.

2-4- آزمون کولموگروف-اسمیرنوف (K-S)

آزمون کولموگروف-اسمیرنوف (K-S)

آزمون کولموگروف-اسمیرنوف (K-S) که به نام ریاضیدانان روسی آندری کولموگروف و نیکولای اسمیرنوف نامگذاری شده است، یک روش آماری است که تعیین می کند آیا یک نمونه از یک توزیع خاص در یک جامعه است یا خیر.

این آزمایش که برای نمونه های بزرگ توصیه می شود (به عنوان مثال، بیش از 2000)، ناپارامتریک است. این بدان معناست که برای معتبر بودن به هیچ توزیعی متکی نیست. هدف اثبات فرضیه صفر است که نمونه ای از توزیع نرمال است.

مانند آزمون کی اسکوئر، از یک فرضیه صفر و جایگزین و سطح آلفای معناداری استفاده می کند. صفر نشان می دهد که داده ها از توزیع خاصی در جامعه پیروی می کنند و جایگزین نشان می دهد که داده ها از توزیع خاصی در جامعه پیروی نمی کنند. آلفا برای تعیین مقدار بحرانی مورد استفاده در آزمون استفاده می شود. اما بر خلاف آزمون کی اسکوئر، آزمون کولموگروف-اسمیرنوف برای توزیع های پیوسته اعمال می شود.

آماره آزمون محاسبه شده اغلب با D نشان داده می شود. تعیین می کند که آیا فرضیه صفر پذیرفته می شود یا رد می شود. اگر D از مقدار بحرانی آلفا بزرگتر باشد، فرض صفر رد می شود. اگر D کمتر از مقدار بحرانی باشد، فرض صفر پذیرفته می شود.

3-4- تست اندرسون-دارلینگ (A-D)

تست اندرسون-دارلینگ (A-D)

تست اندرسون-دارلینگ (A-D) یک تغییر در آزمون K-S است، اما وزن بیشتری به دنباله های توزیع می دهد. آزمون K-S به تفاوت هایی که ممکن است نزدیک به مرکز توزیع رخ دهد حساس تر است، در حالی که آزمون A-D به تغییرات مشاهده شده در tail ها حساس تر است.
از آنجایی که tail risk و ایده “fatty tails” در بازارهای مالی رایج است، آزمون A-D می تواند قدرت بیشتری در تحلیل های مالی بدهد.

مانند آزمون K-S، آزمون A-D آماری را تولید می کند که با A2 نشان داده می شود، که می تواند با فرضیه صفر مقایسه شود.

4-4- تست Shapiro-Wilk (S-W)

تست Shapiro-Wilk (S-W)

آزمون Shapiro-Wilk (S-W) تعیین می کند که آیا یک نمونه از توزیع نرمال پیروی می کند یا خیر. این آزمایش تنها زمانی که از نمونه ای با یک متغیر داده پیوسته استفاده می کند، نرمال بودن را بررسی می کند و برای نمونه های کوچک تا 2000 توصیه می شود.

آزمون Shapiro-Wilk از نمودار احتمالی به نام QQ Plot استفاده می‌کند که دو مجموعه از کوانتایل ها را در محور y نشان می‌دهد که از کوچک‌ترین به بزرگ‌ترین مرتب شده‌اند. اگر هر کوانتایل از توزیع یکسانی باشد، سری نمودارها خطی هستند.

نمودار QQ برای تخمین واریانس استفاده می شود. با استفاده از واریانس QQ Plot همراه با واریانس تخمین زده شده جامعه، می توان تعیین کرد که آیا نمونه به توزیع نرمال تعلق دارد یا خیر. اگر ضریب هر دو واریانس برابر یا نزدیک به 1 باشد، فرض صفر را می توان پذیرفت. اگر به طور قابل توجهی کمتر از 1 باشد، می توان آن را رد کرد.

درست مانند آزمون های ذکر شده در بالا، این یکی از آلفا استفاده می کند و دو فرضیه صفر و جایگزین را تشکیل می دهد. فرضیه صفر بیان می کند که نمونه از توزیع نرمال می آید، در حالی که فرضیه جایگزین بیان می کند که نمونه از توزیع نرمال به دست نمی آید.

5- مثال نیکویی برازش

در اینجا یک مثال فرضی برای نشان دادن نحوه عملکرد تست برازش آورده شده است.

فرض کنید یک باشگاه ورزشی کوچک با این فرض کار می کند که بیشترین حضور در روزهای دوشنبه، سه شنبه و شنبه، میانگین حضور در روزهای چهارشنبه و پنجشنبه و کمترین حضور در روزهای جمعه و یکشنبه است. بر اساس این مفروضات، ورزشگاه روزانه تعداد معینی از کارکنان را برای بررسی اعضا، تمیز کردن امکانات، ارائه خدمات آموزشی و آموزش کلاسها استخدام می کند.

اما باشگاه از نظر مالی عملکرد خوبی ندارد و مالک می‌خواهد بداند که آیا این فرضیات حضور و غیاب و سطح کارکنان درست است یا خیر. مالک تصمیم می گیرد تعداد شرکت کنندگان ورزشگاه را هر روز به مدت شش هفته بشمارد. سپس آنها می توانند حضور فرضی باشگاه را با حضور مشاهده شده آن با استفاده از آزمون chi-square goodness-of-fit مقایسه کنند.

اکنون که داده‌های جدید را در اختیار دارند، می‌توانند نحوه مدیریت بهترین ورزشگاه و بهبود سودآوری را تعیین کنند.

6- برازش به چه معناست؟

نیکویی برازش یک آزمون فرضیه آماری است که برای مشاهده اینکه چگونه داده های مشاهده شده از نزدیک داده های مورد انتظار را منعکس می کند، استفاده می شود. تست‌های برازش می‌توانند به تعیین اینکه آیا یک نمونه از توزیع نرمال پیروی می‌کند، آیا متغیرهای طبقه‌بندی مرتبط هستند یا اینکه نمونه‌های تصادفی از همان توزیع هستند کمک می‌کند.

7- چرا برازش مهم است؟

تست های تناسب یا برازش به تعیین اینکه آیا داده های مشاهده شده با آنچه مورد انتظار است همسو هستند یا خیر کمک می کند. بر اساس نتیجه آزمون فرضیه انجام شده می توان تصمیم گیری کرد. به عنوان مثال، یک خرده فروش می خواهد بداند که چه محصولی برای جوانان جذاب است. خرده فروش نمونه تصادفی از افراد مسن و جوان را بررسی می کند تا مشخص کند کدام محصول ترجیح داده می شود. با استفاده از روش کی اسکوئر، آنها تشخیص دادند که با اطمینان 95 درصد، رابطه ای بین محصول A و افراد جوان وجود دارد. بر اساس این نتایج می توان مشخص کرد که این نمونه نشان دهنده جمعیت جوانان است. بازاریابان خرده فروشی می توانند از این برای اصلاح کمپین های خود استفاده کنند.

8- برازش در آزمون Chi-Square چیست؟

آزمون کی اسکوئر که آیا روابطی بین متغیرهای طبقه بندی وجود دارد و آیا نمونه کل را نشان می دهد یا خیر. تخمین می‌زند که داده‌های مشاهده‌شده چقدر منعکس‌کننده داده‌های مورد انتظار هستند، یا چقدر برازش دارند.

9- چگونه تست Goodness-of-Fit را انجام می دهید؟

آزمون Goodness-of-Fit از روش های مختلف تست تشکیل شده است. هدف از آزمون به تعیین اینکه کدام روش باید استفاده شود کمک خواهد کرد. به عنوان مثال، اگر هدف آزمایش نرمال بودن بر روی یک نمونه نسبتاً کوچک باشد، آزمایش Shapiro-Wilk ممکن است مناسب باشد. اگر بخواهیم مشخص کنیم که آیا یک نمونه از یک توزیع خاص در یک جامعه آمده است یا خیر، از آزمون کولموگروف- اسمیرنوف استفاده خواهد شد. هر آزمون از فرمول منحصر به فرد خود استفاده می کند. با این حال، آنها دارای اشتراکاتی هستند، مانند یک فرضیه صفر و سطح اهمیت.

جمع بندی

با یک جمع بندی مناسب به سوال برازش چیست پاسخ می دهیم. آزمون‌های برازش نشان می‌دهند که داده‌های نمونه چقدر با آنچه از یک جامعه انتظار می‌رود مطابقت دارد. از داده های نمونه، یک مقدار مشاهده شده جمع آوری شده و با استفاده از اندازه گیری اختلاف با مقدار مورد انتظار محاسبه شده مقایسه می شود. بسته به اینکه به دنبال چه نتیجه‌ای هستید، آزمون‌های مختلف فرضیه خوبی وجود دارد.

انتخاب تست نیکویی برازش تا حد زیادی به آنچه می خواهید در مورد یک نمونه بدانید و حجم نمونه بستگی دارد. به عنوان مثال، اگر می خواهید بدانید مقادیر مشاهده شده برای داده های طبقه بندی شده با مقادیر مورد انتظار برای داده های طبقه بندی مطابقت دارد یا خیر، از chi-square استفاده کنید. اگر می خواهید بدانید که آیا یک نمونه کوچک از توزیع نرمال پیروی می کند، آزمایش Shapiro-Wilk ممکن است سودمند باشد. به طور کلی تست های زیادی برای تعیین میزان برازش وجود دارد.

اشتراک گذاری این محتوا، پلتفرم خود را انتخاب کنید!
مطالب مرتبط دیگر :

  • رگرسیون لجستیک (logistic regression) چیست؟
رگرسیون لجستیک (logistic regression) چیست؟

اکتبر 4, 2024|بدون دیدگاه

چکیده مقاله:رگرسیون لجستیک احتمال وقوع یک رویداد، مانند رای دادن یا رای ندادن، را بر اساس یک مجموعه داده از متغیرهای مستقل تخمین می‌زند. این نوع مدل آماری (که به آن مدل لاجیت نیز گفته [...]

  • الگوریتم خفاش (Bat Algorithm) چیست؟
الگوریتم خفاش (Bat Algorithm) چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم خفاش (Bat Algorithm) یک الگوریتم فراابتکاری مبتنی بر جمعیت است که برای حل مسائل بهینه سازی پیوسته استفاده می شود. این الگوریتم برای بهینه سازی راه حل ها در رایانش ابری، [...]

  • الگوریتم کرم شب تاب چیست؟
الگوریتم کرم شب تاب چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم کرم شب تاب چیست؟ الگوریتم های الهام گرفته از زیست، که به عنوان الگوریتم های الهام گرفته از طبیعت یا الگوریتم های تکاملی نیز شناخته می شوند، تکنیک های محاسباتی هستند [...]

  • آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال
آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال

سپتامبر 30, 2024|بدون دیدگاه

چکیده مقاله: آزمون فریدمن ابزاری آماری برای مقایسه نمونه‌ها یا اندازه‌گیری‌های مکرر است زمانی که مفروضات پارامتریک برآورده نمی‌شوند. در واقع آزمون فریدمن توسعه‌ای از آزمون Wilcoxon signed-rank test و آنالوگ ناپارامتری از اندازه‌گیری [...]

  • برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند
برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند

سپتامبر 27, 2024|بدون دیدگاه

چکیده مقاله: اگر بخواهیم فرانت اند (Front-end) یا با اسم های دیگر سمت مشتری یا سمت کاربر را توضیح دهیم بهتر است بدانید که توسعه دهنده فرانت اند (Front-End Developer) به کمک زبان های برنامه [...]

  • برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد
برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد

سپتامبر 24, 2024|بدون دیدگاه

چکیده مقاله: امروزه تصور جهانی بدون اینترنت و وب سایت‌ها تقریباً غیرممکن است. در سال‌های اخیر، تقاضا برای برنامه نویسان وب حرفه‌ای به طور چشمگیری افزایش یافته است، بنابراین می توانید انواع کارشناسان این [...]