برازش چیست و چه آزمون هایی برای آن در تحلیل آماری وجود دارد ؟
چکیده مقاله :
حتما با واژه نیکویی برازش Goodness-of-fit در آمار آشنا شده اید یا به گوشتان خورده است. به طور خلاصه می توان آن را برازش نامید. در این مقاله به طور کامل به بررسی سوال برازش چیست می پردازیم و شما را با مفهوم آن آشنا کرده ، تست ها یا همان آزمون های مختلف سنجش آن را معرفی و به بررسی تفاوت های آن ها پرداخته و با ذکر مثال به بررسی دقیق تر و کاربرد آن در مسائل تحلیل آماری می پردازیم.
1- برازش چیست ؟ (نیکویی برازش)
اصطلاح “نیکویی برازش” به یک آزمون آماری اشاره دارد که تعیین میکند دادههای نمونه چقدر با یک توزیع جمعیتی با توزیع نرمال تناسب دارند. به بیان ساده، فرضیه ای را مطرح می کند که آیا یک نمونه کجی (انحراف یا نامتوازنی) دارد یا نشان دهنده داده هایی است که انتظار دارید در جامعه واقعی پیدا کنید.
برازش، اختلاف بین مقادیر مشاهده شده و مقادیر مورد انتظار از مدل را در یک حالت توزیع نرمال ایجاد می کند. روشهای متعددی برای تعیین نیکویی برازش وجود دارد، از جمله chi square.
جهت آشنایی بیشتر می توانید مقاله زیر را با عنوان تحلیل آماری چیست مطالعه نمایید.
نکات کلیدی
نیکویی برازش یک آزمون آماری است که سعی میکند تعیین کند آیا مجموعهای از مقادیر مشاهدهشده با مقادیر مورد انتظار تحت مدل کاربردی مطابقت دارند یا خیر.
آنها می توانند به شما نشان دهند که آیا داده های نمونه شما با مجموعه ای از داده های مورد انتظار از یک جمعیت با توزیع نرمال مطابقت دارد یا خیر.
انواع مختلفی از تست های برازش یا تناسب وجود دارد، اما رایج ترین آن تست chi square است.
آزمون chi square تعیین می کند که آیا رابطه ای بین داده های طبقه بندی وجود دارد یا خیر.
آزمون کولموگروف-اسمیرنوف تعیین می کند که آیا یک نمونه از یک توزیع خاص از یک جامعه است یا خیر.
2- تعریف برازش (Goodness-of-Fit)
آزمون های برازش، روش های آماری هستند که در مورد مقادیر مشاهده شده استنباط می کنند. به عنوان مثال، شما می توانید تعیین کنید که آیا یک گروه نمونه واقعا نماینده کل جامعه است یا خیر. به این ترتیب، آنها تعیین می کنند که چگونه مقادیر واقعی با مقادیر پیش بینی شده در یک مدل مرتبط هستند. آزمونهای برازش یا تناسب، وقتی در تصمیمگیری استفاده میشوند، پیشبینی روندها و الگوهای آینده را آسانتر میکنند.
همانطور که در بالا ذکر شد، انواع مختلفی از تست های برازش وجود دارد. آنها شامل آزمون chi square که رایج ترین است و همچنین آزمون کولموگروف-اسمیرنوف و آزمون شاپیرو-ویلک هستند. آزمون ها معمولاً با استفاده از نرم افزار کامپیوتری انجام می شود. اما آماردانان می توانند این آزمایش ها را با استفاده از فرمول هایی انجام دهند که برای نوع خاصی از آزمون طراحی شده است.
برای انجام آزمون، به یک متغیر خاص، همراه با فرض نحوه توزیع آن نیاز دارید. شما همچنین به یک مجموعه داده با مقادیر واضح و روشن نیاز دارید، مانند:
- مقادیر مشاهده شده، که از مجموعه داده های واقعی مشتق شده اند
- مقادیر مورد انتظار که برگرفته از مفروضات انجام شده است
- تعداد کل دسته ها در مجموعه
تست های برازش مناسب معمولاً برای آزمایش نرمال بودن باقیمانده ها یا تعیین اینکه آیا دو نمونه از توزیع های یکسان جمع آوری شده اند یا خیر استفاده می شود. مطمئنا همچنان کامل مفهوم نشده است تا بتوانید به سوال برازش چیست پاسخ دهید پس همچنان با ما همراه باشید.
3- ملاحظات اصلی و ویژه
به منظور تفسیر یک آزمون نیکویی برازش، برای آماردانان مهم است که یک سطح آلفا، مانند p-value برای آزمون chi square تعیین کنند. p-value به احتمال بدست آوردن نتایج نزدیک به حداکثر نتایج مشاهده شده اشاره دارد. فرض بر این است که فرضیه صفر درست است. یک فرضیه صفر بیان می کند که هیچ رابطه ای بین متغیرها وجود ندارد و فرضیه جایگزین فرض می کند که یک رابطه وجود دارد.
در عوض، فراوانی مقادیر مشاهدهشده اندازهگیری میشود و متعاقباً با مقادیر مورد انتظار و درجات آزادی برای محاسبه chi square استفاده میشود. اگر نتیجه کمتر از آلفا باشد، فرضیه صفر نامعتبر است که نشان دهنده وجود رابطه بین متغیرها است.
4- انواع تست های برازش
در پاسخ به سوال برازش چیست باید انواع تست های برازش را بشناسید تا به درک بهتری از مسئله برسید.
1-4- آزمون Chi-Square
آزمون کی اسکوئر که به عنوان آزمون chi-square test for independence نیز شناخته می شود، یک روش آمار استنباطی است که اعتبار ادعای مطرح شده در مورد یک جامعه را بر اساس یک نمونه تصادفی آزمایش می کند.
به طور انحصاری برای داده هایی که به کلاس ها (bins) جدا شده اند استفاده می شود، برای تولید نتایج دقیق به حجم نمونه کافی نیاز دارد. اما نوع یا شدت رابطه را نشان نمی دهد. به عنوان مثال، به این نتیجه نمی رسد که آیا رابطه مثبت است یا منفی.
برای محاسبه خوب بودن برازش کی اسکوئر، سطح آلفای دلخواه را تعیین کنید. بنابراین اگر سطح اطمینان شما 95٪ (یا 0.95) باشد، آنگاه آلفا 0.05 است. سپس، متغیرهای طبقهبندی را برای آزمایش شناسایی کنید، سپس گزارههای فرضیهای را در مورد روابط بین آنها تعریف کنید.
متغیرها باید متقابلاً منحصر به فرد باشند تا واجد شرایط آزمون کی اسکوئر برای استقلال باشند. و آزمون chi goodness-of-fit نباید برای داده هایی که پیوسته هستند استفاده شود.
2-4- آزمون کولموگروف-اسمیرنوف (K-S)
آزمون کولموگروف-اسمیرنوف (K-S) که به نام ریاضیدانان روسی آندری کولموگروف و نیکولای اسمیرنوف نامگذاری شده است، یک روش آماری است که تعیین می کند آیا یک نمونه از یک توزیع خاص در یک جامعه است یا خیر.
این آزمایش که برای نمونه های بزرگ توصیه می شود (به عنوان مثال، بیش از 2000)، ناپارامتریک است. این بدان معناست که برای معتبر بودن به هیچ توزیعی متکی نیست. هدف اثبات فرضیه صفر است که نمونه ای از توزیع نرمال است.
مانند آزمون کی اسکوئر، از یک فرضیه صفر و جایگزین و سطح آلفای معناداری استفاده می کند. صفر نشان می دهد که داده ها از توزیع خاصی در جامعه پیروی می کنند و جایگزین نشان می دهد که داده ها از توزیع خاصی در جامعه پیروی نمی کنند. آلفا برای تعیین مقدار بحرانی مورد استفاده در آزمون استفاده می شود. اما بر خلاف آزمون کی اسکوئر، آزمون کولموگروف-اسمیرنوف برای توزیع های پیوسته اعمال می شود.
آماره آزمون محاسبه شده اغلب با D نشان داده می شود. تعیین می کند که آیا فرضیه صفر پذیرفته می شود یا رد می شود. اگر D از مقدار بحرانی آلفا بزرگتر باشد، فرض صفر رد می شود. اگر D کمتر از مقدار بحرانی باشد، فرض صفر پذیرفته می شود.
3-4- تست اندرسون-دارلینگ (A-D)
تست اندرسون-دارلینگ (A-D) یک تغییر در آزمون K-S است، اما وزن بیشتری به دنباله های توزیع می دهد. آزمون K-S به تفاوت هایی که ممکن است نزدیک به مرکز توزیع رخ دهد حساس تر است، در حالی که آزمون A-D به تغییرات مشاهده شده در tail ها حساس تر است.
از آنجایی که tail risk و ایده “fatty tails” در بازارهای مالی رایج است، آزمون A-D می تواند قدرت بیشتری در تحلیل های مالی بدهد.
مانند آزمون K-S، آزمون A-D آماری را تولید می کند که با A2 نشان داده می شود، که می تواند با فرضیه صفر مقایسه شود.
4-4- تست Shapiro-Wilk (S-W)
آزمون Shapiro-Wilk (S-W) تعیین می کند که آیا یک نمونه از توزیع نرمال پیروی می کند یا خیر. این آزمایش تنها زمانی که از نمونه ای با یک متغیر داده پیوسته استفاده می کند، نرمال بودن را بررسی می کند و برای نمونه های کوچک تا 2000 توصیه می شود.
آزمون Shapiro-Wilk از نمودار احتمالی به نام QQ Plot استفاده میکند که دو مجموعه از کوانتایل ها را در محور y نشان میدهد که از کوچکترین به بزرگترین مرتب شدهاند. اگر هر کوانتایل از توزیع یکسانی باشد، سری نمودارها خطی هستند.
نمودار QQ برای تخمین واریانس استفاده می شود. با استفاده از واریانس QQ Plot همراه با واریانس تخمین زده شده جامعه، می توان تعیین کرد که آیا نمونه به توزیع نرمال تعلق دارد یا خیر. اگر ضریب هر دو واریانس برابر یا نزدیک به 1 باشد، فرض صفر را می توان پذیرفت. اگر به طور قابل توجهی کمتر از 1 باشد، می توان آن را رد کرد.
درست مانند آزمون های ذکر شده در بالا، این یکی از آلفا استفاده می کند و دو فرضیه صفر و جایگزین را تشکیل می دهد. فرضیه صفر بیان می کند که نمونه از توزیع نرمال می آید، در حالی که فرضیه جایگزین بیان می کند که نمونه از توزیع نرمال به دست نمی آید.
5- مثال نیکویی برازش
در اینجا یک مثال فرضی برای نشان دادن نحوه عملکرد تست برازش آورده شده است.
فرض کنید یک باشگاه ورزشی کوچک با این فرض کار می کند که بیشترین حضور در روزهای دوشنبه، سه شنبه و شنبه، میانگین حضور در روزهای چهارشنبه و پنجشنبه و کمترین حضور در روزهای جمعه و یکشنبه است. بر اساس این مفروضات، ورزشگاه روزانه تعداد معینی از کارکنان را برای بررسی اعضا، تمیز کردن امکانات، ارائه خدمات آموزشی و آموزش کلاسها استخدام می کند.
اما باشگاه از نظر مالی عملکرد خوبی ندارد و مالک میخواهد بداند که آیا این فرضیات حضور و غیاب و سطح کارکنان درست است یا خیر. مالک تصمیم می گیرد تعداد شرکت کنندگان ورزشگاه را هر روز به مدت شش هفته بشمارد. سپس آنها می توانند حضور فرضی باشگاه را با حضور مشاهده شده آن با استفاده از آزمون chi-square goodness-of-fit مقایسه کنند.
اکنون که دادههای جدید را در اختیار دارند، میتوانند نحوه مدیریت بهترین ورزشگاه و بهبود سودآوری را تعیین کنند.
6- برازش به چه معناست؟
نیکویی برازش یک آزمون فرضیه آماری است که برای مشاهده اینکه چگونه داده های مشاهده شده از نزدیک داده های مورد انتظار را منعکس می کند، استفاده می شود. تستهای برازش میتوانند به تعیین اینکه آیا یک نمونه از توزیع نرمال پیروی میکند، آیا متغیرهای طبقهبندی مرتبط هستند یا اینکه نمونههای تصادفی از همان توزیع هستند کمک میکند.
7- چرا برازش مهم است؟
تست های تناسب یا برازش به تعیین اینکه آیا داده های مشاهده شده با آنچه مورد انتظار است همسو هستند یا خیر کمک می کند. بر اساس نتیجه آزمون فرضیه انجام شده می توان تصمیم گیری کرد. به عنوان مثال، یک خرده فروش می خواهد بداند که چه محصولی برای جوانان جذاب است. خرده فروش نمونه تصادفی از افراد مسن و جوان را بررسی می کند تا مشخص کند کدام محصول ترجیح داده می شود. با استفاده از روش کی اسکوئر، آنها تشخیص دادند که با اطمینان 95 درصد، رابطه ای بین محصول A و افراد جوان وجود دارد. بر اساس این نتایج می توان مشخص کرد که این نمونه نشان دهنده جمعیت جوانان است. بازاریابان خرده فروشی می توانند از این برای اصلاح کمپین های خود استفاده کنند.
8- برازش در آزمون Chi-Square چیست؟
آزمون کی اسکوئر که آیا روابطی بین متغیرهای طبقه بندی وجود دارد و آیا نمونه کل را نشان می دهد یا خیر. تخمین میزند که دادههای مشاهدهشده چقدر منعکسکننده دادههای مورد انتظار هستند، یا چقدر برازش دارند.
9- چگونه تست Goodness-of-Fit را انجام می دهید؟
آزمون Goodness-of-Fit از روش های مختلف تست تشکیل شده است. هدف از آزمون به تعیین اینکه کدام روش باید استفاده شود کمک خواهد کرد. به عنوان مثال، اگر هدف آزمایش نرمال بودن بر روی یک نمونه نسبتاً کوچک باشد، آزمایش Shapiro-Wilk ممکن است مناسب باشد. اگر بخواهیم مشخص کنیم که آیا یک نمونه از یک توزیع خاص در یک جامعه آمده است یا خیر، از آزمون کولموگروف- اسمیرنوف استفاده خواهد شد. هر آزمون از فرمول منحصر به فرد خود استفاده می کند. با این حال، آنها دارای اشتراکاتی هستند، مانند یک فرضیه صفر و سطح اهمیت.
جمع بندی
با یک جمع بندی مناسب به سوال برازش چیست پاسخ می دهیم. آزمونهای برازش نشان میدهند که دادههای نمونه چقدر با آنچه از یک جامعه انتظار میرود مطابقت دارد. از داده های نمونه، یک مقدار مشاهده شده جمع آوری شده و با استفاده از اندازه گیری اختلاف با مقدار مورد انتظار محاسبه شده مقایسه می شود. بسته به اینکه به دنبال چه نتیجهای هستید، آزمونهای مختلف فرضیه خوبی وجود دارد.
انتخاب تست نیکویی برازش تا حد زیادی به آنچه می خواهید در مورد یک نمونه بدانید و حجم نمونه بستگی دارد. به عنوان مثال، اگر می خواهید بدانید مقادیر مشاهده شده برای داده های طبقه بندی شده با مقادیر مورد انتظار برای داده های طبقه بندی مطابقت دارد یا خیر، از chi-square استفاده کنید. اگر می خواهید بدانید که آیا یک نمونه کوچک از توزیع نرمال پیروی می کند، آزمایش Shapiro-Wilk ممکن است سودمند باشد. به طور کلی تست های زیادی برای تعیین میزان برازش وجود دارد.
مدیر2024-11-10T18:43:37+03:30نوامبر 10, 2024|بدون دیدگاه
چکیده مقاله: قبل از معرفی بهترین مربیان و متخصصان سئو بهتر است بدانید که سئو آسان نیست. موارد زیادی برای پیگیری وجود دارد و گوگل با هر به روزرسانی هدف گذاری های جدیدی تعیین [...]
مدیر2024-11-09T00:42:39+03:30نوامبر 9, 2024|بدون دیدگاه
مقدمه: افیلیت مارکتینگ (Affiliate Marketing) یا همکاری در فروش یک استراتژی است که در آن شما محصولات یا خدمات را تبلیغ می کنید و به ازای هر فروش یا لید (مشتری بالقوه) که ایجاد [...]
مدیر2024-11-08T18:49:21+03:30نوامبر 8, 2024|بدون دیدگاه
چکیده مقاله: نتایج جستجو گوگل می توانند شامل بیش از 10 لینک آبی ساده باشند. این نتایج با ویژگی های SERP (صفحه نتایج موتور جستجو) طراحی شده اند تا به کاربران دسترسی سریع و [...]
مدیر2024-11-07T18:27:36+03:30نوامبر 7, 2024|بدون دیدگاه
مقدمه: پیش از پرداختن به عملکرد سئو (SEO Performance) بهتر است بدانید که نمایش این که کار شما تفاوت واقعی ایجاد می کند، همان چیزی است که مشتریان شما را راضی نگه می دارد [...]
مدیر2024-11-07T13:25:02+03:30نوامبر 7, 2024|بدون دیدگاه
چکیده مقاله: ممیزی سئو (SEO Audit) یا ارزیابی سئو، یک بررسی دقیق از توانایی یک وب سایت برای رتبه بندی در موتورهای جستجو می باشد و یکی از اولین اقداماتی است که باید آژانس [...]
مدیر2024-11-05T20:52:22+03:30نوامبر 5, 2024|بدون دیدگاه
مقدمه: دو رویکرد اصلی برای سئو وجود دارد: سئو کلاه سفید و سئو کلاه سیاه. درست مثل فیلم های وسترن قدیمی، سئوکارهای کلاه سفید، کابوی های قابل اعتماد و قانونمند هستند، در حالی که [...]