انواع رگرسیون و زمان استفاده از آنها در تجزیه و تحلیل داده ها
- آنالیز رگرسیون چیست؟
- 13 نوع رگرسیون
- 1. رگرسیون ساده Simple regression
- 2. رگرسیون چندگانه Multiple regression
- 3. رگرسیون خطی Linear regression
- 4. رگرسیون خطی چندگانه Multiple linear regression
- 5. رگرسیون لجستیک Logistic regression
- 6. رگرسیون ریج Ridge regression
- 7. رگرسیون لاسو Lasso regression
- 8. رگرسیون چند جمله ای Polynomial regression
- 9. رگرسیون خطی بیزی Bayesian linear regression
- 10. رگرسیون جک نایف Jackknife regression
- 11. رگرسیون نت الاستیک Elastic net regression
- 12. رگرسیون اکولوژیکی Ecological regression
- 13. رگرسیون گام به گام Stepwise regression
چکیده مقاله :
مسائل رگرسیون در یادگیری ماشین رایج است و تجزیه و تحلیل رگرسیون رایج ترین تکنیک برای حل آنها است. این مبتنی بر مدل سازی داده ها است و مستلزم تعیین بهترین خط مناسب است که از تمام نقاط داده با کمترین فاصله ممکن بین خط و هر نقطه داده می گذرد. در حالی که تکنیک های دیگری برای تحلیل رگرسیون وجود دارد، رگرسیون خطی و رگرسیون لجستیک دو تکنیک رایج تحلیل رگرسیون هستند که برای حل مشکل رگرسیون با استفاده از یادگیری ماشین استفاده میشوند. آنها برجسته ترین تکنیک های رگرسیون هستند. اما، انواع مختلفی از تکنیک های تحلیل رگرسیون در یادگیری ماشین وجود دارد و استفاده از آنها بر اساس ماهیت داده های مربوطه متفاوت است. در این مطلب به معرفی انواع رگرسیون پرداخته و زمان و نحوه استفاده از آن ها را در مسائل آماری و تجزیه و تحلیل داده ها توضیح می دهیم.
آنالیز رگرسیون چیست؟
تحلیل رگرسیون ابزار رایجی است که در تجارت، امور مالی و سایر زمینه ها برای مطالعه وابستگی متغیر استفاده می شود. این بدان معنی است که می تواند به یک متخصص در این زمینه ها کمک کند تا رابطه بین متغیرهای کلیدی را درک کنند. یادگیری در مورد رگرسیون و روش های مختلف آن می تواند به شما کمک کند تا مهارت های تحلیلی لازم برای موفقیت در موقعیت داده محور را به دست آورید.
آنالیز رگرسیون یک همبستگی اندازه گیری شده ریاضی از متغیرها است که به عنوان یک روش مدل سازی پیش بینی استفاده می شود. شما از مدل سازی رگرسیون برای پیش بینی مقادیر عددی بسته به ورودی های مختلف استفاده می کنید. به عنوان مثال، شما می توانید رابطه بین یک متغیر مستقل و وابسته را درک کنید و به شما این امکان را می دهد که پیش بینی کنید که متغیر وابسته به همراه همتای مستقل خود چگونه تغییر می کند. در این حالت، متغیر وابسته همان چیزی است که شما اندازه گیری می کنید و متغیر مستقل عاملی است که باعث تغییر می شود.
در تجارت، تجزیه و تحلیل رگرسیون می تواند به پیش بینی روندها، پیش بینی نقاط قوت و نقاط ضعف یا ایجاد روابط علت و معلولی برای اتخاذ تصمیمات تجاری آگاهانه و برنامه های استراتژیک کمک کند. شما اغلب تجزیه و تحلیل رگرسیون را از طریق یادگیری ماشین یا هوش مصنوعی محاسبه می کنید، اگرچه معادلات ریاضی نیز وجود دارد که می توانید از آنها استفاده کنید. انواع مختلفی از تجزیه و تحلیل وجود دارد که می توانید بر اساس ماهیت متغیرهایی که پیش بینی می کنید و اطلاعاتی که می خواهید از تجزیه و تحلیل خود جمع آوری کنید، استفاده کنید.
13 نوع رگرسیون
انواع مختلفی از رگرسیون وجود دارد و تصمیم گیری برای استفاده از آن به تعداد عوامل دخیل بستگی دارد. این می تواند شامل نوع متغیرها، تعداد متغیرهای مستقل و شکل خط رگرسیون باشد. در اینجا 13 نوع تحلیل رگرسیون را که هنگام انجام تجزیه و تحلیل داده ها باید در نظر گرفته شود تحت عنوان انواع رگرسیون توضیح می دهیم.
1. رگرسیون ساده Simple regression
روش های رگرسیون ساده به شما کمک می کند تا رابطه بین یک متغیر وابسته و یک متغیر مستقل را تخمین بزنید. به عنوان مثال، ممکن است از رگرسیون ساده برای مقایسه ارتباط بین فروش چتر (متغیر وابسته) و میزان باران پیشبینیشده توسط هواشناس (متغیر مستقل) استفاده کنید. نمونههای دیگر این رابطه متغیر ممکن است این باشد که یک فرد بر اساس سطح تحصیلاتش چقدر پول به دست میآورد یا قیمت چوب در هنگام کمبود نیروی کار بالا میرود.
2. رگرسیون چندگانه Multiple regression
روش های تحلیل رگرسیون چندگانه به شما کمک می کند تا رابطه بین یک متغیر وابسته و بیش از یک متغیر مستقل را تعیین کنید. افزودن متغیرهای مستقل بیشتر باعث میشود یک مطالعه تحلیل رگرسیون پیچیدهتر انجام شود، اگرچه اغلب نتایج دقیقتر و واقعیتری ایجاد میکند. به عنوان مثال، زمانی که هواشناس هوای بارانی را به طور خاص در فصل بهار یا نسبتاً در تمام فصول پیش بینی می کند، ممکن است ارزیابی کنید که آیا چترهای بیشتری به فروش می رسند. یا ممکن است درآمدهای حقوق را برای تحصیل، تجربه و نزدیکی به یک منطقه شهری بررسی کنید.
3. رگرسیون خطی Linear regression
تحلیل رگرسیون خطی یک نوع رگرسیون ساده است که از شما میخواهد یک خط فرضی ایجاد کنید که بهترین نقاط داده را به هم متصل کند. شما بهترین خط تناسب را با رگرسیون خطی تعیین میکنید و یک خطای پیشبینیکننده بین مقدار پیشبینیشده بر اساس خط و آنچه واقعاً مشاهده میشود، ایجاد میکنید. نقطه ضعف رگرسیون خطی پتانسیل وجود نقاط پرت در داده ها است، بنابراین اغلب برای مجموعه های کوچک داده های اطلاعات یا پیش بینی ها استفاده می شود. این به این دلیل است که برخی از نقاط داده ممکن است به خوبی در خط رگرسیون قرار نگیرند.
4. رگرسیون خطی چندگانه Multiple linear regression
مشابه رگرسیون خطی، رگرسیون خطی چندگانه همبستگی مستقیم یا خطی بین متغیرها را نشان می دهد. تفاوت این است که بیش از یک متغیر وابسته را شامل می شود. حتی اگر رگرسیون خطی چندگانه ممکن است متغیرهای وابسته بیشتری را شامل شود، برای دستههای کوچکتر از دادهها نیز بهتر است برای جلوگیری از مشکلات دقت در موارد پرت استفاده شود.
5. رگرسیون لجستیک Logistic regression
رگرسیون لجستیک به اندازه گیری رابطه بین متغیرهای وابسته و مستقل کمک می کند، اگرچه بین متغیرهای مستقل همبستگی ندارد. معمولاً هنگام استفاده از رگرسیون لجستیک، مجموعه داده های بزرگی دارید و متغیر وابسته معمولاً گسسته است، به این معنی که می توانید همه مقادیر را در مدت زمان محدودی بشمارید. با رگرسیون منطقی، متغیر هدف معمولاً فقط دو مقدار دارد و یک منحنی سیگموئید همبستگی را نشان میدهد.
6. رگرسیون ریج Ridge regression
یکی دیگر از انواع رگرسیون درواقع رگرسیون ridge می باشد. رگرسیون ریج یکی دیگر از تحلیلهای یادگیری ماشینی است که ممکن است در صورت وجود همبستگی قوی بین متغیرهای مستقل از آن استفاده کنید. این بدان معناست که با تغییر یک متغیر مستقل، سایرین نیز می توانند با آن تغییر کنند. به طور معمول، برآوردهای حداقل مربع، مقادیر بی طرفانه را تولید می کنند، به خصوص با داده هایی که چند خطی هستند. اگر رابطه خطی بسیار زیاد باشد، تحلیل ممکن است یک مقدار بایاس یا تفاوت بین مقدار مورد انتظار و واقعی یک متغیر ایجاد کند.
7. رگرسیون لاسو Lasso regression
رگرسیون کمند، یا حداقل عملگر انقباض و انتخاب مطلق (LASSO)، از توابع منظم و هدف با ممنوع کردن اندازه ضریب رگرسیون استفاده می کند. این اجازه می دهد تا برخلاف رگرسیون ریج به صفر نزدیک شود و می توانید مجموعه ای از ویژگی ها را از پایگاه داده خود برای ساخت مدل های رگرسیون کمند انتخاب کنید. از آنجایی که فقط ویژگی های مورد نیاز در رگرسیون کمند استفاده می شود و سایر ویژگی ها صفر علامت گذاری می شوند، اغلب می توانید از تطبیق بیش از حد مدل خودداری کنید. رگرسیون کمند نیز معمولاً نیاز به استانداردسازی دارد.
8. رگرسیون چند جمله ای Polynomial regression
یکی دیگر از انواع رگرسیون درواقع رگرسیون Polynomial می باشد. مشابه رگرسیون خطی چندگانه، تحلیل رگرسیون چند جملهای اصلاح شده است، اگرچه از یک مدل خطی به عنوان تخمینگر اولیه استفاده میکند. این ارتباط بین متغیرهای مستقل و وابسته را نشان می دهد، اگرچه آنها با درجه n شناسایی می شوند. اغلب بهترین خط برازش ایجاد شده توسط رگرسیون چند جمله ای یک خط منحنی است نه یک خط مستقیم. برازش بیش از حد در هنگام استفاده از رگرسیون چند جمله ای یک نگرانی است، بنابراین تجزیه و تحلیل منحنی تولید شده را به سمت انتها در نظر بگیرید زیرا برون یابی، یا عمل تخمین یک مقدار با فرض ادامه روندهای فعلی، می تواند نتایج متفاوتی ایجاد کند.
9. رگرسیون خطی بیزی Bayesian linear regression
قضیه احتمال و آمار بیز پایه و اساس تکنیک رگرسیون خطی بیزی است. در این محاسبه، شما توزیع پسین ویژگی را به جای حداقل مربعات تعیین می کنید. تا حدودی شبیه به روش های رگرسیون خطی، تجزیه و تحلیل بیزی اغلب نتایج سازگارتر و پایدارتری برای تجزیه و تحلیل تولید می کند.
10. رگرسیون جک نایف Jackknife regression
شما را با یکی دیگر از انواع ذگرسیون یعنی رگرسیون Jackknife آشنا می کنیم. شما می توانید از رگرسیون jackknife زمانی استفاده کنید که سایر روش ها بعید به نظر می رسند که تخمین بزنند. این یک روش نمونه برداری است که هنگام محاسبه تخمین بایاس یا واریانس، یک نقطه داده مشاهده در هر نمونه را حذف می کند. سپس میانگین تمام این محاسبات تخمین زده شده را از طریق تجمیع پیدا می کنید.
11. رگرسیون نت الاستیک Elastic net regression
شما اغلب از رگرسیون خالص الاستیک زمانی استفاده می کنید که مجموعه داده شما دارای متغیرهای مستقل بسیار متصل باشد. شبیه به تحلیل رگرسیون ریج و کمند، نرمال بودن را فرض نمی کند. تفاوت خاص رگرسیون خالص الاستیک این است که شامل جریمه های منظم سازی در تحلیل می شود.
12. رگرسیون اکولوژیکی Ecological regression
رگرسیون اکولوژیکی مختص رشته های تاریخ یا علوم سیاسی است. برای مطالعه رفتار پیشبینیشده انسان در مجموعه دادههای جمعیت، مانند مکانهای جغرافیایی، سن، قومیتها یا سطوح تحصیلات یا درآمد استفاده میشود. برای مثال، مطالعات رگرسیون بومشناختی ممکن است بر روی الگوهای رأیدهی و رفتار در جمعیتشناسی خاص تمرکز کند تا به نامزدهای سیاسی یا احزاب کمک کند تا برای کمپینها یا انتخابات آتی آماده شوند.
توجه به این نکته مهم است که این نوع تحلیل رگرسیون گاهی اوقات می تواند یک مغالطه اکولوژیکی ایجاد کند، که در آن محقق فرض می کند که پدیده ای که در گروه شاهد یا مشاهده می کند برای همه افراد صادق است. به عنوان مثال، اگر آنها متوجه شوند که جمعیت هایی که کلسترول و چربی بیشتری در رژیم غذایی خود دارند، نرخ های بالاتر دیابت دارند، محققان فرض می کنند افرادی که غذاهای حاوی چربی بیشتری می خورند ممکن است در طول زندگی خود به دیابت مبتلا شوند. این یک اشتباه است زیرا می تواند عوامل فردی را نادیده بگیرد و فرض کند که همه اعضای یک گروه یکسان هستند.
13. رگرسیون گام به گام Stepwise regression
در نهایت یکی دیگر از انواع رگرسیون همان رگرسیون stepwise می باشد. رگرسیون استپوایز اغلب گام به گام ساخته می شود و در نتیجه نام آن به وجود می آید. متغیرهای پیش بینی را یکی یکی بسته به معیارها اضافه یا حذف می کنید و اهمیت هر نسخه را آزمایش می کنید. این با رگرسیون چندگانه متفاوت است که همه متغیرهای پیش بینی را به طور همزمان در نظر می گیرد. در روش رگرسیون گام به گام، یک روش رو به عقب یا رو به جلو وجود دارد، اگرچه هر دو اغلب در طول تحقیقات اکتشافی بهترین استفاده را دارند زیرا پیشبینیها گاهی اوقات دقت ندارند. اغلب، تحلیلگران داده یا آماردانان ممکن است از تکنیک های رگرسیون گام به گام برای آزمایش یا تأیید ظن خود قبل از انجام سایر آزمون های رگرسیون استفاده کنند.
مدیر2024-12-01T18:49:34+03:30دسامبر 1, 2024|بدون دیدگاه
چکیده مقاله: الگوریتم تکاملی تفاضلی (Differential Evolution Algorithm) یکی از الگوریتم های بهینه سازی مبتنی بر جمعیت است که در حل مسائل پیچیده و غیرخطی بسیار کارآمد می باشد. این الگوریتم با الهام از [...]
مدیر2024-11-28T14:59:42+03:30نوامبر 28, 2024|بدون دیدگاه
چکیده مقاله: MATLAB یک محیط محاسبات عددی تجاری و یک زبان برنامه نویسی می باشد که یکی از ساده ترین و کارآمدترین محیط ها برای مهندسان و دانشمندان است و به طور کامل به [...]
مدیر2024-11-26T18:14:43+03:30نوامبر 26, 2024|بدون دیدگاه
چکیده مقاله: فیلتر هودریک پرسکات (Hodrick-Prescott Filter) یک ابزار آماری و اقتصادی است که برای جداسازی روند بلندمدت از نوسانات کوتاه مدت در داده های سری زمانی به کار می رود. این فیلتر، به [...]
مدیر2024-11-10T19:36:22+03:30نوامبر 10, 2024|بدون دیدگاه
چکیده مقاله: توزیع محتوا (Content Syndication) می تواند به شما کمک کند تا محتوای بیشتری در معرض دید مخاطبان قرار بگیرد. شما می توانید محتوای وبلاگ خود را در چندین وبسایت و پلتفرم مجددا [...]
مدیر2024-11-10T18:43:37+03:30نوامبر 10, 2024|بدون دیدگاه
چکیده مقاله: قبل از معرفی بهترین مربیان و متخصصان سئو بهتر است بدانید که سئو آسان نیست. موارد زیادی برای پیگیری وجود دارد و گوگل با هر به روزرسانی هدف گذاری های جدیدی تعیین [...]
مدیر2024-11-09T00:42:39+03:30نوامبر 9, 2024|بدون دیدگاه
مقدمه: افیلیت مارکتینگ (Affiliate Marketing) یا همکاری در فروش یک استراتژی است که در آن شما محصولات یا خدمات را تبلیغ می کنید و به ازای هر فروش یا لید (مشتری بالقوه) که ایجاد [...]