رگرسیون چیست ؟ تعریف ، محاسبه و مثال

رگرسیون چیست ؟ تعریف ، محاسبه و مثال
توسط منتشر شده در : اکتبر 28, 2022دسته بندی: مقالات تحلیل آماریLast Updated: می 10, 2023بدون دیدگاه on رگرسیون چیست ؟ تعریف ، محاسبه و مثالنمایش: 2511
فهرست مطالب

چکیده مقاله :
در این مقاله، می‌خواهیم رگرسیون را تا حد امکان ساده بیان کنیم تا شما آن را به عنوان یک مفهوم آماری به یاد نیاورید، بلکه به عنوان یک تجربه مرتبط‌تر. تعریف رسمی رگرسیون عبارت است از هر معادله ای که تابعی از متغیرهای وابسته و مجموعه ای از وزن ها باشد تابع رگرسیون نامیده می شود. در واقع می آموزید که اصلا نام رگرسیون از کجا آمده ، چند نوع رگرسیون وجود دارد ، مفهوم و معادله رگرسیون چه کاربردی دارد و به طورکلی به جواب سوال رگرسیون چیست ؟ به طور کامل و با زبانی قابل درک و ساده دست خواهید یافت. پس تا انتهای مطلب با ما همراه باشید.

1- رگرسیون چیست ؟

رگرسیون چیست و چه کاربردی دارد ؟

رگرسیون چیست و چه کاربردی دارد ؟

رگرسیون را هر چقدر هم که تخیلی به نظر می رسد، می توان به عنوان “رابطه” بین هر دو چیز در نظر گرفت. برای مثال، تصور کنید روی زمین می‌مانید و دما 70 درجه فارنهایت است. شروع به بالا رفتن از تپه می کنید و در حین بالا رفتن متوجه می شوید که سردتر شده اید و دما در حال کاهش است. وقتی به بالای تپه ای رسیدید که 500 متر از سطح زمین بالاتر است و دمای آن 60 درجه فارنهایت است. می توان نتیجه گرفت که ارتفاع از سطح دریا بر دما تأثیر می گذارد. از این رو بین ارتفاع و دما رابطه وجود دارد. این در آمار “رگرسیون” نامیده می شود. دما به ارتفاع بستگی دارد و از این رو متغیر “وابسته” است، در حالی که ارتفاع متغیر “مستقل” است. ممکن است عوامل مختلفی بر دما تأثیر بگذارند مانند رطوبت، فشار، حتی سطح آلودگی هوا و غیره. همه این عوامل با دما رابطه دارند که می توان آن را به صورت ریاضی به صورت معادله نوشت.

رگرسیون یک روش آماری است که در امور مالی، سرمایه‌گذاری و سایر رشته‌ها استفاده می‌شود و تلاش می‌کند تا قدرت و ویژگی رابطه بین یک متغیر وابسته (معمولاً با Y نشان داده می‌شود) و یک سری متغیرهای دیگر (معروف به متغیرهای مستقل) را تعیین کند.

رگرسیون خطی که رگرسیون ساده یا حداقل مربعات معمولی (OLS) نامیده می شود، رایج ترین شکل این تکنیک است. رگرسیون خطی رابطه خطی بین دو متغیر را بر اساس خط بهترین برازش برقرار می کند. بنابراین رگرسیون خطی به صورت گرافیکی با استفاده از یک خط مستقیم با شیب نشان می‌دهد که چگونه تغییر در یک متغیر بر تغییر متغیر دیگر تأثیر می‌گذارد. عرض y در یک رابطه رگرسیون خطی نشان دهنده مقدار یک متغیر در زمانی است که مقدار متغیر دیگر صفر باشد. مدل های رگرسیون غیر خطی نیز وجود دارند، اما بسیار پیچیده تر هستند.

تجزیه و تحلیل رگرسیون ابزار قدرتمندی برای کشف ارتباط بین متغیرهای مشاهده شده در داده ها است، اما نمی تواند به راحتی علیت را نشان دهد. در زمینه های مختلفی در تجارت، امور مالی و اقتصاد استفاده می شود. به عنوان مثال، از آن برای کمک به مدیران سرمایه‌گذاری برای ارزش‌گذاری دارایی‌ها و درک روابط بین عواملی مانند قیمت کالاها و سهام کسب‌وکارهایی که با آن کالاها معامله می‌کنند، استفاده می‌شود. رگرسیون به عنوان یک تکنیک آماری نباید با مفهوم رگرسیون به میانگین (mean reversion) اشتباه گرفته شود.

موارد کلیدی

• رگرسیون یک تکنیک آماری است که یک متغیر وابسته را به یک یا چند متغیر مستقل (تبیینی) مرتبط می کند.
• یک مدل رگرسیون قادر است نشان دهد که آیا تغییرات مشاهده شده در متغیر وابسته با تغییرات در یک یا چند متغیر توضیحی مرتبط است یا خیر.
• این کار را اساساً با برازش بهترین خط و مشاهده نحوه پراکندگی داده ها در اطراف این خط انجام می دهد.
• رگرسیون به اقتصاددانان و تحلیلگران مالی در مواردی از ارزش گذاری دارایی تا پیش بینی کمک می کند.
• برای اینکه نتایج رگرسیون به درستی تفسیر شود، چندین فرض در مورد داده ها و خود مدل باید وجود داشته باشد.

2- رگرسیون در تحلیل آماری

رگرسیون چیست ؟ رگرسیون همبستگی بین متغیرهای مشاهده شده در یک مجموعه داده را ضبط می کند و تعیین می کند که آیا این همبستگی ها از نظر آماری معنی دار هستند یا خیر.

جهت آشنایی بیشتر می توانید مقاله زیر را با عنوان تحلیل آماری چیست مطالعه نمایید.

دو نوع اصلی رگرسیون، رگرسیون خطی ساده و رگرسیون خطی چندگانه هستند، اگرچه روش‌های رگرسیون غیرخطی برای داده‌ها و تحلیل‌های پیچیده‌تر وجود دارد. رگرسیون خطی ساده از یک متغیر مستقل برای توضیح یا پیش بینی نتیجه متغیر وابسته Y استفاده می کند، در حالی که رگرسیون خطی چندگانه از دو یا چند متغیر مستقل برای پیش بینی نتیجه استفاده می کند (در حالی که بقیه متغیرها را ثابت نگه می دارد).

رگرسیون می تواند به متخصصان امور مالی و سرمایه گذاری و همچنین متخصصان سایر مشاغل کمک کند. رگرسیون همچنین می تواند به پیش بینی فروش یک شرکت بر اساس آب و هوا، فروش قبلی، رشد تولید ناخالص داخلی یا سایر انواع شرایط کمک کند. مدل قیمت گذاری دارایی های سرمایه ای (CAPM) یک مدل رگرسیونی است که اغلب در امور مالی برای قیمت گذاری دارایی ها و کشف هزینه های سرمایه استفاده می شود.

1-2- رگرسیون و اقتصاد سنجی

اقتصاد سنجی (econometrics) مجموعه ای از تکنیک های آماری است که برای تجزیه و تحلیل داده ها در امور مالی و اقتصادی استفاده می شود. نمونه ای از کاربرد اقتصاد سنجی، مطالعه اثر درآمد با استفاده از داده های قابل مشاهده است. برای مثال، یک اقتصاددان ممکن است این فرض را مطرح کند که با افزایش درآمد شخصی، مخارج او نیز افزایش می یابد.

اگر داده‌ها نشان دهند که چنین ارتباطی وجود دارد، می‌توان تحلیل رگرسیون را برای درک قدرت رابطه بین درآمد و مصرف و اینکه آیا این رابطه از نظر آماری معنی‌دار است یا خیر انجام داد – یعنی بعید به نظر می‌رسد که تنها به دلیل شانس باشد.

توجه داشته باشید که می توانید چندین متغیر توضیحی در تحلیل خود داشته باشید – برای مثال، تغییرات تولید ناخالص داخلی و تورم علاوه بر بیکاری در توضیح قیمت های بازار سهام. هنگامی که بیش از یک متغیر توضیحی استفاده می شود، به آن رگرسیون خطی چندگانه گفته می شود. این پرکاربردترین ابزار در اقتصاد سنجی است.

اقتصاد سنجی گاهی به دلیل تکیه بیش از حد بر تفسیر خروجی رگرسیون بدون پیوند دادن آن به نظریه اقتصادی یا جستجوی مکانیسم های علی مورد انتقاد قرار می گیرد. بسیار مهم است که یافته های آشکار شده در داده ها بتوانند به اندازه کافی توسط یک نظریه توضیح داده شوند، حتی اگر این به معنای توسعه نظریه خود در مورد فرآیندهای اساسی باشد.

2-2- محاسبه رگرسیون

مدل‌های رگرسیون خطی اغلب از رویکرد حداقل مربعات برای تعیین خط بهترین برازش (line of best fit) استفاده می‌کنند. روش حداقل مربعات با به حداقل رساندن مجموع مربع های ایجاد شده توسط یک تابع ریاضی تعیین می شود. یک مربع نیز به نوبه خود با مربع کردن فاصله بین یک نقطه داده و خط رگرسیون یا مقدار میانگین مجموعه داده تعیین می شود. پس از تکمیل این فرآیند (معمولاً امروزه با نرم افزار انجام می شود)، یک مدل رگرسیون ساخته می شود. شکل کلی هر نوع مدل رگرسیون به صورت زیر است:

رگرسیون خطی ساده:

Y=a+bX+u

رگرسیون خطی چندگانه:

Y=a+b1X1+b2X2+b3X3+…+btXt+u

Y=متغیر وابسته ای که می خواهید پیش بینی کنید یا توضیح دهید
X=متغير(هاي) توضيحي (مستقل) كه براي پيش بيني يا مرتبط كردن با Y استفاده مي كنيد
a = عرض y
b=(ضریب بتا) شیب متغیر(های) توضیحی است.
u=مقدار خطا یا باقیمانده رگرسیون

3-2- چگونه معادله رگرسیون را تعیین کنیم؟

اکنون سؤال این است که بفهمیم چگونه وزن های معادله را یاد بگیریم. اصلا چرا این کار را می کنیم؟ بله، ما این کار را انجام می دهیم تا پیش بینی های آینده را انجام دهیم. زمانی که رابطه بین متغیرهای وابسته و مستقل را بدانیم، می‌توانیم متغیر وابسته را از قبل پیش‌بینی کنیم. برای یادگیری معادله رگرسیون، باید مقداری داده واقعی جمع آوری شده از میدان داشته باشیم. ما انسان ها از تجربیات دنیای واقعی درس می گیریم. به طور مشابه، تابع رگرسیون را می توان تنها با داشتن یک داده واقعی اولیه – که به عنوان داده “آموزش” نامیده می شود، بدست آورد.
در مثال در نظر گرفته شده، ما باید دما را در ارتفاعات مختلف، سطوح فشار، رطوبت و همه عواملی که می‌دانیم که بر متغیر وابسته ما تأثیر می‌گذارند، ثبت کنیم. یک مجموعه داده نمونه به صورت زیر خواهد بود.

دما بر حسب فارنهایت رطوبت بر حسب درصد فشار بر حسب hpa ارتفاع از سطح دریا به متر
84 67 1015 0
73 60 1000 500
65 40 850 700

مانند جدول بالا، ما باید تا حد امکان داده های واقعی را جمع آوری کنیم. اجازه دهید “دما” را به عنوان “y” و بقیه ویژگی ها (ارتفاع، فشار، رطوبت) را به عنوان “x” نشان دهم. تابع خطا را به صورت مجموع ²(y-x*w) تعریف می کنیم. یعنی مجموع مربعات خطا برای هر نقطه داده. ما باید بردار “w” را پیدا کنیم که تابع فوق را به حداقل می رساند (به طور منطقی، باعث ایجاد خطا نمی شود). چه زمانی تابع از نظر ریاضی حداقل است؟ جایی است که شیب معادله 0 است. بنابراین، می‌توانیم بردار «w» را با برابر کردن شیب تابع زیر با 0 پیدا کنیم و «w» را حل کنیم.

معادله تابع هدف

معادله تابع هدف

بردار

بردار “w” پس از حل معادله

این مقاله قصد ندارد زیاد وارد ریاضیات شود و هدف درک مفهوم مسئله رگرسیون چیست می باشد، اما بردار وزن با معادله بالا به دست می آید. با استفاده از تمام داده هایی که جمع آوری کردیم، بردار “w” را با معادله بالا بدست می آوریم.

4-2- مثالی از نحوه استفاده از تحلیل رگرسیون در امور مالی

رگرسیون اغلب برای تعیین اینکه چند عامل خاص مانند قیمت یک کالا، نرخ بهره، صنایع خاص یا بخش‌ها بر حرکت قیمت یک دارایی تأثیر می‌گذارند استفاده می‌شود. CAPM که پیش تر به آن اشاره شد بر اساس رگرسیون است و برای پیش بینی بازده مورد انتظار برای سهام و ایجاد هزینه های سرمایه استفاده می شود.

بتا ریسک سهام در رابطه با بازار یا شاخص است و به عنوان شیب در مدل CAPM منعکس می شود. بازده سهام مورد نظر، متغیر وابسته Y خواهد بود، در حالی که متغیر مستقل X، حق بیمه ریسک بازار خواهد بود.

متغیرهای اضافی مانند ارزش بازار سهام، نسبت های ارزش گذاری، و بازده اخیر را می توان به مدل CAPM اضافه کرد تا برآوردهای بهتری برای بازده بدست آورد. این عوامل اضافی به عنوان عوامل فاما-فرانسه Fama-French شناخته می شوند که به نام اساتیدی که مدل رگرسیون خطی چندگانه را برای توضیح بهتر بازده دارایی ایجاد کردند، نامگذاری شده اند.

3- چرا به آن رگرسیون می گویند؟

اگرچه بحث هایی در مورد ریشه این نام وجود دارد، تکنیک آماری توصیف شده در بالا به احتمال زیاد توسط سر فرانسیس گالتون در قرن 19 برای توصیف ویژگی های آماری داده های بیولوژیکی (مانند قد افراد در یک جمعیت) “رگرسیون” نامیده شد. به عبارت دیگر، در حالی که افراد کوتاه‌قدتر و قد بلندتر وجود دارند، فقط افراد خارج از محدوده (به اصطلاح داده های خارج از محدوده) بسیار بلند یا کوتاه‌قد هستند و بیشتر افراد در جایی دور و بر میانگین قرار می‌گیرند. در واقع در این بخش بیشتر می خواستیم بدانید که وقتی میپرسید رگرسیون چیست بهتر است قبل از آن بدانید که چرا آن را رگرسیون نامیده اند.

4- هدف از رگرسیون چیست؟

در تجزیه و تحلیل آماری، از رگرسیون برای شناسایی ارتباط بین متغیرهای موجود در برخی داده ها استفاده می شود. می تواند هم بزرگی چنین ارتباطی را نشان دهد و هم اهمیت آماری آن را تعیین کند (یعنی اینکه آیا این ارتباط احتمالاً به دلیل شانس است یا نه). رگرسیون ابزار قدرتمندی برای استنتاج آماری است و همچنین برای پیش بینی نتایج آینده بر اساس مشاهدات گذشته استفاده شده است.

5- چگونه یک مدل رگرسیون را تفسیر می کنند؟

خروجی مدل رگرسیون ممکن است به شکل Y = 1.0 + (3.2)X1 – 2.0 (X2) + 0.21 باشد.

در اینجا ما یک رگرسیون خطی چندگانه داریم که متغییر Y را با دو متغیر توضیحی X1 و X2 مرتبط می‌کند. ما مدل را به این صورت تفسیر می کنیم که مقدار Y به ازای هر تغییر یک واحدی در X1 به اندازه 3.2 برابر تغییر می کند (اگر X1 به اندازه 2 واحد افزایش یابد، Y به اندازه 6.4 واحد افزایش می یابد و غیره) و بقیه را ثابت نگه می داریم (همه چیزهای دیگر برابر). به همین ترتیب، با ثابت نگه داشتن X1، هر یک واحد افزایش در X2 با کاهش 2 برابری در Y همراه است. ما همچنین می‌توانیم به عرض 1 برای Y توجه کنیم، به این معنی که Y = 1 زمانی که X1 و X2 هر دو صفر هستند. عبارت خطا (باقیمانده) 0.21 است.

6- مفروضاتی که برای مدل های رگرسیون باید رعایت شود چیست؟

به منظور تفسیر صحیح خروجی یک مدل رگرسیون، مفروضات اصلی زیر در مورد فرآیند داده های زیربنایی آنچه شما تجزیه و تحلیل می کنید باید رعایت شود:

• رابطه بین متغیرها خطی است
• Homoskedasticity یا اینکه واریانس متغیرها و عبارت خطا باید ثابت بماند
• همه متغیرهای توضیحی مستقل از یکدیگر هستند
• همه متغیرها به طور معمول توزیع شده اند

اشتراک گذاری این محتوا، پلتفرم خود را انتخاب کنید!
مطالب مرتبط دیگر :

  • رگرسیون لجستیک (logistic regression) چیست؟
رگرسیون لجستیک (logistic regression) چیست؟

اکتبر 4, 2024|بدون دیدگاه

چکیده مقاله:رگرسیون لجستیک احتمال وقوع یک رویداد، مانند رای دادن یا رای ندادن، را بر اساس یک مجموعه داده از متغیرهای مستقل تخمین می‌زند. این نوع مدل آماری (که به آن مدل لاجیت نیز گفته [...]

  • الگوریتم خفاش (Bat Algorithm) چیست؟
الگوریتم خفاش (Bat Algorithm) چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم خفاش (Bat Algorithm) یک الگوریتم فراابتکاری مبتنی بر جمعیت است که برای حل مسائل بهینه سازی پیوسته استفاده می شود. این الگوریتم برای بهینه سازی راه حل ها در رایانش ابری، [...]

  • الگوریتم کرم شب تاب چیست؟
الگوریتم کرم شب تاب چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم کرم شب تاب چیست؟ الگوریتم های الهام گرفته از زیست، که به عنوان الگوریتم های الهام گرفته از طبیعت یا الگوریتم های تکاملی نیز شناخته می شوند، تکنیک های محاسباتی هستند [...]

  • آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال
آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال

سپتامبر 30, 2024|بدون دیدگاه

چکیده مقاله: آزمون فریدمن ابزاری آماری برای مقایسه نمونه‌ها یا اندازه‌گیری‌های مکرر است زمانی که مفروضات پارامتریک برآورده نمی‌شوند. در واقع آزمون فریدمن توسعه‌ای از آزمون Wilcoxon signed-rank test و آنالوگ ناپارامتری از اندازه‌گیری [...]

  • برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند
برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند

سپتامبر 27, 2024|بدون دیدگاه

چکیده مقاله: اگر بخواهیم فرانت اند (Front-end) یا با اسم های دیگر سمت مشتری یا سمت کاربر را توضیح دهیم بهتر است بدانید که توسعه دهنده فرانت اند (Front-End Developer) به کمک زبان های برنامه [...]

  • برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد
برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد

سپتامبر 24, 2024|بدون دیدگاه

چکیده مقاله: امروزه تصور جهانی بدون اینترنت و وب سایت‌ها تقریباً غیرممکن است. در سال‌های اخیر، تقاضا برای برنامه نویسان وب حرفه‌ای به طور چشمگیری افزایش یافته است، بنابراین می توانید انواع کارشناسان این [...]