انواع رگرسیون و زمان استفاده از آنها در تجزیه و تحلیل داده ها

انواع رگرسیون و زمان استفاده از آنها در تجزیه و تحلیل داده ها
توسط منتشر شده در : فوریه 23, 2024دسته بندی: مقالات تحلیل آماریLast Updated: فوریه 23, 2024بدون دیدگاه on انواع رگرسیون و زمان استفاده از آنها در تجزیه و تحلیل داده هانمایش: 1308

چکیده مقاله :
مسائل رگرسیون در یادگیری ماشین رایج است و تجزیه و تحلیل رگرسیون رایج ترین تکنیک برای حل آنها است. این مبتنی بر مدل سازی داده ها است و مستلزم تعیین بهترین خط مناسب است که از تمام نقاط داده با کمترین فاصله ممکن بین خط و هر نقطه داده می گذرد. در حالی که تکنیک های دیگری برای تحلیل رگرسیون وجود دارد، رگرسیون خطی و رگرسیون لجستیک دو تکنیک رایج تحلیل رگرسیون هستند که برای حل مشکل رگرسیون با استفاده از یادگیری ماشین استفاده می‌شوند. آنها برجسته ترین تکنیک های رگرسیون هستند. اما، انواع مختلفی از تکنیک های تحلیل رگرسیون در یادگیری ماشین وجود دارد و استفاده از آنها بر اساس ماهیت داده های مربوطه متفاوت است. در این مطلب به معرفی انواع رگرسیون پرداخته و زمان و نحوه استفاده از آن ها را در مسائل آماری و تجزیه و تحلیل داده ها توضیح می دهیم.

آنالیز رگرسیون چیست؟

تحلیل رگرسیون ابزار رایجی است که در تجارت، امور مالی و سایر زمینه ها برای مطالعه وابستگی متغیر استفاده می شود. این بدان معنی است که می تواند به یک متخصص در این زمینه ها کمک کند تا رابطه بین متغیرهای کلیدی را درک کنند. یادگیری در مورد رگرسیون و روش های مختلف آن می تواند به شما کمک کند تا مهارت های تحلیلی لازم برای موفقیت در موقعیت داده محور را به دست آورید.

آنالیز رگرسیون یک همبستگی اندازه گیری شده ریاضی از متغیرها است که به عنوان یک روش مدل سازی پیش بینی استفاده می شود. شما از مدل سازی رگرسیون برای پیش بینی مقادیر عددی بسته به ورودی های مختلف استفاده می کنید. به عنوان مثال، شما می توانید رابطه بین یک متغیر مستقل و وابسته را درک کنید و به شما این امکان را می دهد که پیش بینی کنید که متغیر وابسته به همراه همتای مستقل خود چگونه تغییر می کند. در این حالت، متغیر وابسته همان چیزی است که شما اندازه گیری می کنید و متغیر مستقل عاملی است که باعث تغییر می شود.

در تجارت، تجزیه و تحلیل رگرسیون می تواند به پیش بینی روندها، پیش بینی نقاط قوت و نقاط ضعف یا ایجاد روابط علت و معلولی برای اتخاذ تصمیمات تجاری آگاهانه و برنامه های استراتژیک کمک کند. شما اغلب تجزیه و تحلیل رگرسیون را از طریق یادگیری ماشین یا هوش مصنوعی محاسبه می کنید، اگرچه معادلات ریاضی نیز وجود دارد که می توانید از آنها استفاده کنید. انواع مختلفی از تجزیه و تحلیل وجود دارد که می توانید بر اساس ماهیت متغیرهایی که پیش بینی می کنید و اطلاعاتی که می خواهید از تجزیه و تحلیل خود جمع آوری کنید، استفاده کنید.

13 نوع رگرسیون

انواع مختلفی از رگرسیون وجود دارد و تصمیم گیری برای استفاده از آن به تعداد عوامل دخیل بستگی دارد. این می تواند شامل نوع متغیرها، تعداد متغیرهای مستقل و شکل خط رگرسیون باشد. در اینجا 13 نوع تحلیل رگرسیون را که هنگام انجام تجزیه و تحلیل داده ها باید در نظر گرفته شود تحت عنوان انواع رگرسیون توضیح می دهیم.

1. رگرسیون ساده Simple regression

روش های رگرسیون ساده به شما کمک می کند تا رابطه بین یک متغیر وابسته و یک متغیر مستقل را تخمین بزنید. به عنوان مثال، ممکن است از رگرسیون ساده برای مقایسه ارتباط بین فروش چتر (متغیر وابسته) و میزان باران پیش‌بینی‌شده توسط هواشناس (متغیر مستقل) استفاده کنید. نمونه‌های دیگر این رابطه متغیر ممکن است این باشد که یک فرد بر اساس سطح تحصیلاتش چقدر پول به دست می‌آورد یا قیمت چوب در هنگام کمبود نیروی کار بالا می‌رود.

2. رگرسیون چندگانه Multiple regression

روش های تحلیل رگرسیون چندگانه به شما کمک می کند تا رابطه بین یک متغیر وابسته و بیش از یک متغیر مستقل را تعیین کنید. افزودن متغیرهای مستقل بیشتر باعث می‌شود یک مطالعه تحلیل رگرسیون پیچیده‌تر انجام شود، اگرچه اغلب نتایج دقیق‌تر و واقعی‌تری ایجاد می‌کند. به عنوان مثال، زمانی که هواشناس هوای بارانی را به طور خاص در فصل بهار یا نسبتاً در تمام فصول پیش بینی می کند، ممکن است ارزیابی کنید که آیا چترهای بیشتری به فروش می رسند. یا ممکن است درآمدهای حقوق را برای تحصیل، تجربه و نزدیکی به یک منطقه شهری بررسی کنید.

3. رگرسیون خطی Linear regression

تحلیل رگرسیون خطی یک نوع رگرسیون ساده است که از شما می‌خواهد یک خط فرضی ایجاد کنید که بهترین نقاط داده را به هم متصل کند. شما بهترین خط تناسب را با رگرسیون خطی تعیین می‌کنید و یک خطای پیش‌بینی‌کننده بین مقدار پیش‌بینی‌شده بر اساس خط و آنچه واقعاً مشاهده می‌شود، ایجاد می‌کنید. نقطه ضعف رگرسیون خطی پتانسیل وجود نقاط پرت در داده ها است، بنابراین اغلب برای مجموعه های کوچک داده های اطلاعات یا پیش بینی ها استفاده می شود. این به این دلیل است که برخی از نقاط داده ممکن است به خوبی در خط رگرسیون قرار نگیرند.

4. رگرسیون خطی چندگانه Multiple linear regression

مشابه رگرسیون خطی، رگرسیون خطی چندگانه همبستگی مستقیم یا خطی بین متغیرها را نشان می دهد. تفاوت این است که بیش از یک متغیر وابسته را شامل می شود. حتی اگر رگرسیون خطی چندگانه ممکن است متغیرهای وابسته بیشتری را شامل شود، برای دسته‌های کوچک‌تر از داده‌ها نیز بهتر است برای جلوگیری از مشکلات دقت در موارد پرت استفاده شود.

5. رگرسیون لجستیک Logistic regression

رگرسیون لجستیک به اندازه گیری رابطه بین متغیرهای وابسته و مستقل کمک می کند، اگرچه بین متغیرهای مستقل همبستگی ندارد. معمولاً هنگام استفاده از رگرسیون لجستیک، مجموعه داده های بزرگی دارید و متغیر وابسته معمولاً گسسته است، به این معنی که می توانید همه مقادیر را در مدت زمان محدودی بشمارید. با رگرسیون منطقی، متغیر هدف معمولاً فقط دو مقدار دارد و یک منحنی سیگموئید همبستگی را نشان می‌دهد.

6. رگرسیون ریج Ridge regression

یکی دیگر از انواع رگرسیون درواقع رگرسیون ridge می باشد. رگرسیون ریج یکی دیگر از تحلیل‌های یادگیری ماشینی است که ممکن است در صورت وجود همبستگی قوی بین متغیرهای مستقل از آن استفاده کنید. این بدان معناست که با تغییر یک متغیر مستقل، سایرین نیز می توانند با آن تغییر کنند. به طور معمول، برآوردهای حداقل مربع، مقادیر بی طرفانه را تولید می کنند، به خصوص با داده هایی که چند خطی هستند. اگر رابطه خطی بسیار زیاد باشد، تحلیل ممکن است یک مقدار بایاس یا تفاوت بین مقدار مورد انتظار و واقعی یک متغیر ایجاد کند.

7. رگرسیون لاسو Lasso regression

رگرسیون کمند، یا حداقل عملگر انقباض و انتخاب مطلق (LASSO)، از توابع منظم و هدف با ممنوع کردن اندازه ضریب رگرسیون استفاده می کند. این اجازه می دهد تا برخلاف رگرسیون ریج به صفر نزدیک شود و می توانید مجموعه ای از ویژگی ها را از پایگاه داده خود برای ساخت مدل های رگرسیون کمند انتخاب کنید. از آنجایی که فقط ویژگی های مورد نیاز در رگرسیون کمند استفاده می شود و سایر ویژگی ها صفر علامت گذاری می شوند، اغلب می توانید از تطبیق بیش از حد مدل خودداری کنید. رگرسیون کمند نیز معمولاً نیاز به استانداردسازی دارد.

8. رگرسیون چند جمله ای Polynomial regression

یکی دیگر از انواع رگرسیون درواقع رگرسیون Polynomial می باشد. مشابه رگرسیون خطی چندگانه، تحلیل رگرسیون چند جمله‌ای اصلاح شده است، اگرچه از یک مدل خطی به عنوان تخمین‌گر اولیه استفاده می‌کند. این ارتباط بین متغیرهای مستقل و وابسته را نشان می دهد، اگرچه آنها با درجه n شناسایی می شوند. اغلب بهترین خط برازش ایجاد شده توسط رگرسیون چند جمله ای یک خط منحنی است نه یک خط مستقیم. برازش بیش از حد در هنگام استفاده از رگرسیون چند جمله ای یک نگرانی است، بنابراین تجزیه و تحلیل منحنی تولید شده را به سمت انتها در نظر بگیرید زیرا برون یابی، یا عمل تخمین یک مقدار با فرض ادامه روندهای فعلی، می تواند نتایج متفاوتی ایجاد کند.

9. رگرسیون خطی بیزی Bayesian linear regression

قضیه احتمال و آمار بیز پایه و اساس تکنیک رگرسیون خطی بیزی است. در این محاسبه، شما توزیع پسین ویژگی را به جای حداقل مربعات تعیین می کنید. تا حدودی شبیه به روش های رگرسیون خطی، تجزیه و تحلیل بیزی اغلب نتایج سازگارتر و پایدارتری برای تجزیه و تحلیل تولید می کند.

10. رگرسیون جک نایف Jackknife regression

شما را با یکی دیگر از انواع ذگرسیون یعنی رگرسیون Jackknife آشنا می کنیم. شما می توانید از رگرسیون jackknife زمانی استفاده کنید که سایر روش ها بعید به نظر می رسند که تخمین بزنند. این یک روش نمونه برداری است که هنگام محاسبه تخمین بایاس یا واریانس، یک نقطه داده مشاهده در هر نمونه را حذف می کند. سپس میانگین تمام این محاسبات تخمین زده شده را از طریق تجمیع پیدا می کنید.

11. رگرسیون نت الاستیک Elastic net regression

شما اغلب از رگرسیون خالص الاستیک زمانی استفاده می کنید که مجموعه داده شما دارای متغیرهای مستقل بسیار متصل باشد. شبیه به تحلیل رگرسیون ریج و کمند، نرمال بودن را فرض نمی کند. تفاوت خاص رگرسیون خالص الاستیک این است که شامل جریمه های منظم سازی در تحلیل می شود.

12. رگرسیون اکولوژیکی Ecological regression

رگرسیون اکولوژیکی مختص رشته های تاریخ یا علوم سیاسی است. برای مطالعه رفتار پیش‌بینی‌شده انسان در مجموعه داده‌های جمعیت، مانند مکان‌های جغرافیایی، سن، قومیت‌ها یا سطوح تحصیلات یا درآمد استفاده می‌شود. برای مثال، مطالعات رگرسیون بوم‌شناختی ممکن است بر روی الگوهای رأی‌دهی و رفتار در جمعیت‌شناسی خاص تمرکز کند تا به نامزدهای سیاسی یا احزاب کمک کند تا برای کمپین‌ها یا انتخابات آتی آماده شوند.

توجه به این نکته مهم است که این نوع تحلیل رگرسیون گاهی اوقات می تواند یک مغالطه اکولوژیکی ایجاد کند، که در آن محقق فرض می کند که پدیده ای که در گروه شاهد یا مشاهده می کند برای همه افراد صادق است. به عنوان مثال، اگر آنها متوجه شوند که جمعیت هایی که کلسترول و چربی بیشتری در رژیم غذایی خود دارند، نرخ های بالاتر دیابت دارند، محققان فرض می کنند افرادی که غذاهای حاوی چربی بیشتری می خورند ممکن است در طول زندگی خود به دیابت مبتلا شوند. این یک اشتباه است زیرا می تواند عوامل فردی را نادیده بگیرد و فرض کند که همه اعضای یک گروه یکسان هستند.

13. رگرسیون گام به گام Stepwise regression

در نهایت یکی دیگر از انواع رگرسیون همان رگرسیون stepwise می باشد. رگرسیون استپوایز اغلب گام به گام ساخته می شود و در نتیجه نام آن به وجود می آید. متغیرهای پیش بینی را یکی یکی بسته به معیارها اضافه یا حذف می کنید و اهمیت هر نسخه را آزمایش می کنید. این با رگرسیون چندگانه متفاوت است که همه متغیرهای پیش بینی را به طور همزمان در نظر می گیرد. در روش رگرسیون گام به گام، یک روش رو به عقب یا رو به جلو وجود دارد، اگرچه هر دو اغلب در طول تحقیقات اکتشافی بهترین استفاده را دارند زیرا پیش‌بینی‌ها گاهی اوقات دقت ندارند. اغلب، تحلیلگران داده یا آماردانان ممکن است از تکنیک های رگرسیون گام به گام برای آزمایش یا تأیید ظن خود قبل از انجام سایر آزمون های رگرسیون استفاده کنند.

اشتراک گذاری این محتوا، پلتفرم خود را انتخاب کنید!
مطالب مرتبط دیگر :

  • رگرسیون لجستیک (logistic regression) چیست؟
رگرسیون لجستیک (logistic regression) چیست؟

اکتبر 4, 2024|بدون دیدگاه

چکیده مقاله:رگرسیون لجستیک احتمال وقوع یک رویداد، مانند رای دادن یا رای ندادن، را بر اساس یک مجموعه داده از متغیرهای مستقل تخمین می‌زند. این نوع مدل آماری (که به آن مدل لاجیت نیز گفته [...]

  • الگوریتم خفاش (Bat Algorithm) چیست؟
الگوریتم خفاش (Bat Algorithm) چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم خفاش (Bat Algorithm) یک الگوریتم فراابتکاری مبتنی بر جمعیت است که برای حل مسائل بهینه سازی پیوسته استفاده می شود. این الگوریتم برای بهینه سازی راه حل ها در رایانش ابری، [...]

  • الگوریتم کرم شب تاب چیست؟
الگوریتم کرم شب تاب چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم کرم شب تاب چیست؟ الگوریتم های الهام گرفته از زیست، که به عنوان الگوریتم های الهام گرفته از طبیعت یا الگوریتم های تکاملی نیز شناخته می شوند، تکنیک های محاسباتی هستند [...]

  • آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال
آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال

سپتامبر 30, 2024|بدون دیدگاه

چکیده مقاله: آزمون فریدمن ابزاری آماری برای مقایسه نمونه‌ها یا اندازه‌گیری‌های مکرر است زمانی که مفروضات پارامتریک برآورده نمی‌شوند. در واقع آزمون فریدمن توسعه‌ای از آزمون Wilcoxon signed-rank test و آنالوگ ناپارامتری از اندازه‌گیری [...]

  • برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند
برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند

سپتامبر 27, 2024|بدون دیدگاه

چکیده مقاله: اگر بخواهیم فرانت اند (Front-end) یا با اسم های دیگر سمت مشتری یا سمت کاربر را توضیح دهیم بهتر است بدانید که توسعه دهنده فرانت اند (Front-End Developer) به کمک زبان های برنامه [...]

  • برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد
برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد

سپتامبر 24, 2024|بدون دیدگاه

چکیده مقاله: امروزه تصور جهانی بدون اینترنت و وب سایت‌ها تقریباً غیرممکن است. در سال‌های اخیر، تقاضا برای برنامه نویسان وب حرفه‌ای به طور چشمگیری افزایش یافته است، بنابراین می توانید انواع کارشناسان این [...]