رگرسیون لجستیک باینری چیست؟
- رگرسیون لجستیک باینری چیست؟
- کاربردهای رگرسیون لجستیک باینری
- 1. پیش بینی احتمال وقوع یک رویداد (Event Probability Prediction)
- 2. تحلیل دسته بندی (Classification Analysis)
- 3. تحلیل عوامل خطر (Risk Factor Analysis)
- 4. تحلیل رفتار کاربران (User Behavior Analysis)
- 5. مدیریت منابع انسانی (HR Management)
- 6. تحلیل بقا (Survival Analysis)
- 7. تحلیل سیاست گذاری اجتماعی و سیاسی
- 8. مهندسی و علوم محیطی
- کاربرد رگرسیون لجستیک باینری در تحلیل
- چرا نمیتوان از رگرسیون خطی برای متغیر وابسته باینری استفاده کرد؟
- مدل آماری برای رگرسیون لجستیک باینری
- فرضیات رگرسیون لجستیک باینری
- سوالات و تحلیل در رگرسیون لجستیک باینری
- مثال رگرسیون لجستیک باینری
- مطالعه موردی رگرسیون لجستیک باینری
- نحوه برآورد پارامترهای رگرسیون لجستیک باینری
- تفسیر نسبت شانس (Odds Ratio)
چکیده مقاله:
رگرسیون لجستیک باینری یا دودویی چیست؟ رگرسیون لجستیک، رابطه بین یک متغیر هدف دستهای و یک یا چند متغیر مستقل را اندازهگیری میکند. این روش زمانی مفید است که نتیجه متغیر هدف تنها بتواند دو حالت ممکن داشته باشد (به عبارتی، باینری باشد). رگرسیون لجستیک باینری از یک یا چند متغیر پیشبین استفاده میکند که میتوانند پیوسته یا دسته ای باشند تا کلاسهای متغیر هدف را پیشبینی کنند. این تکنیک به شناسایی عوامل مهم (Xi) تأثیرگذار بر متغیر هدف (Y) و همچنین نوع رابطه بین هر یک از این عوامل و متغیر وابسته کمک میکند. در این مطلب به بررسی کامل رگرسیون لجستیک باینری می پردازیم با ما همراه باشید.
رگرسیون لجستیک باینری چیست؟
رگرسیون لجستیک باینری، رابطه بین مجموعه ای از متغیرهای مستقل و یک متغیر وابسته باینری را مدلسازی میکند. این روش زمانی کاربرد دارد که متغیر وابسته ماهیتی دوتایی داشته باشد، مانند مرگ یا بقا، عدم وقوع یا وقوع یک رویداد و غیره. متغیرهای مستقل میتوانند دستهای یا پیوسته باشند، مانند جنسیت، سن، درآمد یا منطقه جغرافیایی. رگرسیون لجستیک باینری، متغیر وابسته را به صورت لگاریتم احتمال وقوع (p) مدل سازی میکند؛ جایی که p احتمال این است که متغیر وابسته مقدار ۱ بگیرد.
کاربردهای رگرسیون لجستیک باینری
این مدل در حوزهها و صنایع مختلفی استفاده میشود. به عنوان مثال، در تحلیل بازاریابی برای شناسایی خریداران احتمالی یک محصول، در مدیریت منابع انسانی برای شناسایی کارکنانی که احتمالاً شرکت را ترک میکنند، در مدیریت ریسک برای پیشبینی افرادی که احتمالاً وام خود را پرداخت نمیکنند، یا در صنعت بیمه برای پیشبینی لغو بیمهنامه. تمامی این اهداف بر اساس اطلاعاتی مانند سن، جنسیت، شغل، مبلغ حق بیمه و دفعات خرید استوار هستند. در همه این موارد، متغیر وابسته به صورت باینری است، در حالی که متغیرهای مستقل میتوانند دستهای یا پیوسته باشند.
رگرسیون لجستیک باینری در زمینههای مختلف کاربرد دارد و میتواند به تحلیل و پیشبینی رویدادهای دودویی کمک کند. در زیر، به تفصیل بیشتری در مورد هر کاربرد توضیح دادهام:
1. پیش بینی احتمال وقوع یک رویداد (Event Probability Prediction)
در این نوع کاربرد، رگرسیون لجستیک باینری برای پیشبینی احتمال وقوع یا عدم وقوع یک رویداد خاص استفاده میشود. متغیر وابسته (یا متغیر هدف) یک متغیر باینری است، یعنی فقط دو حالت دارد (مثل “بلی/خیر” یا “0/1”). برخی کاربردهای رایج شامل:
- پزشکی: پزشکان میتوانند از رگرسیون لجستیک باینری برای تعیین احتمال ابتلای بیمار به یک بیماری خاص بر اساس متغیرهای مستقل مانند سن، سابقه خانوادگی، فشار خون، میزان کلسترول و … استفاده کنند. مثلاً، احتمال اینکه یک بیمار دچار بیماری قلبی شود، با این روش قابل برآورد است.
- مالی: در حوزه مالی، از این مدل برای ارزیابی احتمال نکول (default) وام توسط یک متقاضی استفاده میشود. متغیر وابسته میتواند وضعیت نکول وام باشد (نکول شده یا نشده)، و متغیرهای مستقل شامل درآمد، تاریخچه اعتباری و نسبت بدهی به درآمد باشد.
2. تحلیل دسته بندی (Classification Analysis)
رگرسیون لجستیک باینری اغلب به عنوان یک روش دستهبندی (Classification) استفاده میشود. در اینجا، هدف دستهبندی افراد، اشیاء یا رویدادها به دو گروه مجزا است.
- بازاریابی: بازاریابان میتوانند از این روش برای شناسایی مشتریان وفادار از مشتریان موقتی استفاده کنند. متغیرهایی مثل تعداد خرید، مبلغ کل خرید و مدت زمان عضویت به عنوان متغیرهای مستقل استفاده میشوند، و نتیجه (وفادار/موقتی) به عنوان متغیر وابسته مد نظر قرار میگیرد.
- تشخیص تقلب (Fraud Detection): در صنعت بانکداری، میتوان از رگرسیون لجستیک برای تشخیص تراکنشهای مشکوک به تقلب استفاده کرد. متغیرهای مستقل شامل ویژگیهایی مانند محل جغرافیایی، زمان تراکنش و مبلغ تراکنش هستند، و متغیر وابسته تعیین میکند که آیا تراکنش تقلبی است یا خیر.
3. تحلیل عوامل خطر (Risk Factor Analysis)
در تحلیل عوامل خطر، هدف این است که تأثیر متغیرهای مستقل مختلف را بر احتمال وقوع یک رویداد مخاطرهآمیز بررسی کنیم. این کاربرد بیشتر در زمینههای مالی، بیمه، و بهداشت و درمان مشاهده میشود.
- بیمه: شرکتهای بیمه میتوانند از این مدل برای ارزیابی ریسک خسارت استفاده کنند. به عنوان مثال، ارزیابی احتمال وقوع یک حادثه رانندگی بر اساس متغیرهای مانند سن راننده، سابقه رانندگی، نوع وسیله نقلیه و غیره.
- پروژه ها: در مدیریت پروژهها، رگرسیون لجستیک میتواند برای ارزیابی ریسکهای پروژهها (مانند تأخیر در اتمام یا افزایش هزینهها) استفاده شود. این تحلیل به مدیران پروژه کمک میکند تا متغیرهای مهمی که احتمال وقوع مشکلات را افزایش میدهند شناسایی کنند و برای کنترل آنها برنامهریزی کنند.
4. تحلیل رفتار کاربران (User Behavior Analysis)
در تحلیل رفتار کاربران، هدف شناسایی الگوهای رفتاری خاص است که احتمال وقوع رویدادهایی مانند خروج کاربر از سایت، ثبتنام کاربر جدید، یا کلیک روی تبلیغات را پیشبینی میکند.
- وبسایت ها و شبکه های اجتماعی: با استفاده از رگرسیون لجستیک باینری، میتوان رفتار کاربران را پیشبینی کرد. برای مثال، تحلیلگر میتواند احتمال کلیک کاربر روی تبلیغات آنلاین را بر اساس ویژگیهایی مانند زمان سپری شده در وبسایت، تعداد صفحات مشاهده شده و نوع دستگاه کاربر بررسی کند.
5. مدیریت منابع انسانی (HR Management)
در مدیریت منابع انسانی، رگرسیون لجستیک برای پیشبینی احتمال رفتارهای مختلف کارمندان، از جمله ترک شغل (attrition)، شرکت در دورههای آموزشی یا احتمال ارتقاء به کار میرود.
- پیش بینی ترک شغل: در این کاربرد، متغیر وابسته «ترک شغل» است که شامل دو حالت «ترک/عدم ترک» میشود، و متغیرهای مستقل میتوانند شامل سن، سطح رضایت شغلی، سابقه کاری، عملکرد، و میزان حقوق باشد. با این مدل، مدیران منابع انسانی میتوانند عوامل مؤثر بر ترک شغل را شناسایی کرده و اقدامات لازم برای نگهداشت کارمندان انجام دهند.
6. تحلیل بقا (Survival Analysis)
رگرسیون لجستیک باینری میتواند برای مدلسازی زمان وقوع رویدادهایی مانند زمان ترک شغل، زمان نکول وام یا زمان وقوع مرگ در بیماران استفاده شود.
- تحلیل بقای بیماران: در زمینه پزشکی، میتوان از این مدل برای ارزیابی احتمال بقای بیماران مبتلا به یک بیماری خاص تا یک دوره مشخص استفاده کرد. متغیرهای مستقل شامل سن بیمار، نوع درمان، سابقه پزشکی و وضعیت بالینی است.
7. تحلیل سیاست گذاری اجتماعی و سیاسی
رگرسیون لجستیک باینری در تحلیلهای اجتماعی و سیاسی نیز کاربرد دارد. به عنوان مثال، میتوان از این مدل برای پیشبینی رفتار رأیدهی افراد در انتخابات استفاده کرد.
- پیش بینی نتایج انتخابات: با استفاده از ویژگیهایی مانند سن، جنسیت، میزان تحصیلات، محل سکونت و گرایش سیاسی، میتوان احتمال رأی دادن یک فرد به یک حزب خاص یا کاندیدای معین را پیشبینی کرد. این مدل میتواند به تحلیلگران سیاسی کمک کند تا بهتر استراتژیهای انتخاباتی را تدوین کنند.
8. مهندسی و علوم محیطی
در مهندسی و علوم محیطی، رگرسیون لجستیک باینری برای پیش بینی وقوع رویدادهای نادر ولی مهم (مانند وقوع سیل، زلزله و غیره) و ارزیابی خطرات محیطی مورد استفاده قرار میگیرد.
- پیش بینی وقوع سیل: این مدل میتواند برای پیشبینی احتمال وقوع سیل در یک منطقه بر اساس متغیرهایی مثل میزان بارندگی، رطوبت خاک، ارتفاع از سطح دریا و … استفاده شود. این تحلیل به متخصصان محیط زیست و مهندسان کمک میکند تا استراتژیهای پیشگیرانهای برای مدیریت خطرات تدوین کنند.
این کاربردهای گسترده نشان میدهد که رگرسیون لجستیک باینری به دلیل انعطاف پذیری، سادگی در تفسیر و توانایی تحلیل دادههای باینری، در طیف وسیعی از حوزهها و مسائل تحلیلی به کار میرود.
کاربرد رگرسیون لجستیک باینری در تحلیل
رگرسیون لجستیک باینری به منظور تحلیل و پیشبینی متغیر هدف در شرایطی که دو حالت ممکن (باینری) برای آن وجود داشته باشد، مورد استفاده قرار میگیرد. این روش برای بررسی و تحلیل عواملی که بر روی نتیجه مثبت یا منفی تأثیر میگذارند، یا هر نوع طبقهبندی که در آن تنها دو خروجی ممکن وجود دارد، بسیار مفید است. در ادامه، دو نمونه موردی از کاربردهای رگرسیون لجستیک باینری و نحوه استفاده آن در سازمانها آورده شده است:
نمونه موردی شماره ۱
مسئله تجاری: یک افسر اعتبارات در بانک میخواهد پیشبینی کند که آیا متقاضیان وام، وام خود را بازپرداخت خواهند کرد یا خیر. این پیشبینی بر اساس عواملی مانند مقدار وام، اقساط ماهانه، مدت زمان اشتغال، تعداد دفعات تأخیر در پرداخت، درآمد سالانه، نسبت بدهی به درآمد و … انجام میشود. در اینجا، متغیر هدف «وضعیت پیشین عدم پرداخت» خواهد بود و کلاسهای پیشبینیشده شامل مقادیر «بله یا خیر» هستند که به ترتیب نشاندهنده «احتمال عدم بازپرداخت/عدم احتمال عدم بازپرداخت» هستند.
مزیت تجاری: پس از تعیین کلاسها، بانک مجموعهای از متقاضیان وام با برچسب «احتمال عدم بازپرداخت/عدم احتمال عدم بازپرداخت» خواهد داشت. با استفاده از این برچسبها، بانک میتواند به راحتی در مورد اعطای وام به متقاضیان تصمیمگیری کند و محدودیت اعتباری و نرخ بهره هر متقاضی را بر اساس میزان ریسکی که شامل میشود، تعیین نماید.
نمونه موردی شماره ۲
مسئله تجاری: یک پزشک میخواهد احتمال موفقیت درمان یک بیماری جدید در یک بیمار را بر اساس ویژگیهای مختلفی مانند فشار خون، سطح هموگلوبین، سطح قند خون، نام داروهای تجویز شده، نام درمانهای ارائهشده و … پیشبینی کند. در اینجا، متغیر هدف «وضعیت پیشین درمان» خواهد بود و کلاسهای پیشبینیشده شامل مقادیر «بله یا خیر» هستند که به ترتیب به معنای «احتمال درمان/عدم احتمال درمان» میباشند.
مزیت تجاری: با در نظر گرفتن پروفایل سلامت بیمار و درمانها و داروهای اخیر مصرفشده توسط او، پزشک میتواند احتمال درمان را پیشبینی کرده و تغییرات لازم را در توصیههای درمانی و دارویی ایجاد نماید.
رگرسیون لجستیک باینری ابزاری قدرتمند برای تحلیل و پیشبینی عواملی است که بر نتایج مثبت/منفی تأثیر میگذارند و یا هر نوع طبقه بندی که تنها دو نتیجه ممکن دارد، میباشد. این روش به سازمانها کمک میکند تا تصمیمات خود را بر اساس پیش بینی دقیق تری از وضعیت آینده متغیرهای کلیدی بگیرند.
چرا نمیتوان از رگرسیون خطی برای متغیر وابسته باینری استفاده کرد؟
یکی از دلایل این است که توزیع Y به صورت تصادفی و غیر نرمال است، برخلاف رگرسیون خطی که توزیع Y باید نرمال باشد. همچنین، اگر از رگرسیون خطی برای متغیر وابسته باینری استفاده شود، سمت چپ و راست مدل قابل مقایسه نخواهند بود.
رگرسیون خطی برای پیشبینی مقادیر پیوسته، مانند قیمت یک ملک بر اساس متراژ مناسب است که در این حالت، خط رگرسیون به صورت یک خط مستقیم خواهد بود. اما رگرسیون لجستیک برای مسائل طبقهبندی استفاده میشود که در آن احتمال وقوع یک مقدار خاص برای متغیر وابسته Y پیشبینی میشود. در رگرسیون لجستیک باینری، منحنی رگرسیون به شکل یک منحنی سیگموئیدی (S-شکل) است.
مدل آماری برای رگرسیون لجستیک باینری
معادله زیر مدل آماری رگرسیون لجستیک باینری با یک پیشبین است:
logit(p) = ln(p / (1 – p)) = B0 + B1 * X
که در آن:
- p: احتمال این که متغیر وابسته Y مقدار ۱ بگیرد.
- X: متغیر مستقل.
- B0: عرض از مبدأ.
- B1: ضریب رگرسیون.
مدل کلی رگرسیون لجستیک برای چندین متغیر مستقل به صورت زیر است:
logit(p) = ln(p / (1 – p)) = B0 + B1 * X1 + B2 * X2 + … + Bk * Xk
که در آن:
- X1, X2, …, Xk: متغیرهای مستقل.
- B0, B1, …, Bk: پارامترهای مدل هستند.
فرضیات رگرسیون لجستیک باینری
رگرسیون لجستیک باینری یک تکنیک محبوب برای مدلسازی رابطه بین یک متغیر وابسته دودویی و یک یا چند متغیر مستقل است. مانند هر روش آماری، این روش دارای مجموعهای از فرضیات است که باید برای تحلیل و تفسیر دقیق رعایت شود. در حالی که رگرسیون لجستیک باینری برخی از فرضیات سخت گیرانه رگرسیون خطی و ANOVA را کاهش میدهد، اما همچنان دارای الزامات خاص خود است. در زیر به بررسی اصلی ترین فرضیات رگرسیون لجستیک باینری میپردازیم:
- متغیر وابسته باید دودویی باشد
متغیر وابسته (خروجی) باید دودویی باشد، به این معنی که میتواند فقط دو دسته یا مقدار ممکن داشته باشد. این دستهها معمولاً به صورت 0 و 1 کدگذاری میشوند، به طوری که 0 ممکن است نشاندهنده عدم وقوع یک رویداد (مثل عدم ابتلا به بیماری قلبی) و 1 نشاندهنده وقوع آن رویداد (مثل ابتلا به بیماری قلبی) باشد. - دستههای متغیر وابسته باید متعارف و جامع باشند
دستههای متغیر وابسته باید بهگونهای باشند که هر مشاهده فقط به یک دسته تعلق داشته باشد و تمام دستهها باید جامع باشند، به این معنی که هیچ دسته مفقودی یا تعریفنشدهای وجود نداشته باشد. به عنوان مثال، در یک مطالعه در مورد وجود بیماری، هر فرد باید به عنوان مبتلا یا غیرمبتلا به بیماری طبقه بندی شود. - وجود یک یا چند متغیر مستقل عددی
مدل باید حداقل یک متغیر مستقل داشته باشد که میتواند عددی (مانند سن یا درآمد) یا دستهای (مانند جنسیت یا سطح تحصیلات) باشد. اگر از متغیرهای مستقل دستهای استفاده شود، باید بهطور مناسب به صورت متغیرهای دمی کدگذاری شوند. - استقلال مشاهدات
مشاهدات باید مستقل از یکدیگر باشند. به این معنا که وقوع یک رویداد برای یک فرد نباید بر وقوع یا عدم وقوع رویداد برای فرد دیگری تأثیر بگذارد. نقض این فرضیه (به عنوان مثال، در دادههای تکراری یا خوشهای) نیاز به استفاده از تکنیکهای پیشرفتهتری مانند مدلهای ترکیبی یا معادلات برآورد عمومی (GEE) دارد. - رابطه خطی بین متغیرهای مستقل عددی و لگیت متغیر وابسته
با وجود اینکه متغیر وابسته دودویی است، رابطه بین متغیرهای مستقل عددی و متغیر وابسته باید به صورت خطی در نظر گرفته شود. این به این معناست که لگاریتم نسبت شانس (log-odds) متغیر وابسته باید به صورت خطی با متغیرهای مستقل مرتبط باشد. - عدم وجود یا کمبود همخطی میان متغیرهای مستقل
همخطی زمانی رخ میدهد که متغیرهای مستقل به شدت با یکدیگر همبسته باشند، که میتواند موجب ناپایداری در برآورد ضرایب رگرسیون شود. مهم است که با استفاده از روشهایی مانند ضریب تورم واریانس (VIF) به بررسی همخطی بپردازید و متغیرهای با همبستگی بالا را حذف یا ترکیب کنید. - حجم نمونه بزرگ
رگرسیون لجستیک باینری نیاز به حجم نمونه کافی دارد تا برآوردهای قابل اعتمادی ارائه دهد. قانون کلی این است که تعداد رویدادها (تعداد وقوع متغیر وابسته) باید حداقل 10 برابر تعداد متغیرهای مستقل در مدل باشد.
سوالات و تحلیل در رگرسیون لجستیک باینری
رگرسیون لجستیک باینری میتواند به پاسخگویی به چندین سوال کلیدی در تحقیقات کمک کند، و درک این سوالات میتواند به تفسیر و استفاده مؤثر از مدل کمک کند:
- بهترین مدل پیش بینی (مجموعه متغیرهای مستقل) لگیت چیست؟
هدف اصلی معمولاً شناسایی بهترین ترکیب از متغیرهای مستقل است که لگیت (لگاریتم نسبت شانس متغیر وابسته) را پیشبینی کند. این معمولاً با افزودن یا حذف متغیرها و مقایسه مدلها با استفاده از معیارهایی مانند معیار اطلاعات آکائیک (AIC) یا BIC انجام میشود. - آیا مدل پیشبینها نسبت به مدل تنها (null model) معنادار است؟
بررسی معناداری مدل پیشبینی نسبت به یک مدل خنثی مهم است تا مشخص شود آیا متغیرهای مستقل توانایی پیشبینی متغیر وابسته را دارند یا خیر. این کار معمولاً با استفاده از آزمونهای آماری مانند آزمون کایدو (Chi-square test) انجام میشود. - متغیرهای پیشبین که مدل نهایی و بهترین را تشکیل میدهند کدامند؟
پس از شناسایی بهترین مدل، مهم است که متغیرهای مستقل مؤثر در این مدل شناسایی شوند. این کار میتواند به درک بهتر عوامل تأثیرگذار کمک کند. - قدرت ارتباط بین متغیرهای مستقل و متغیر وابسته چیست؟
قدرت ارتباط به ما میگوید که چقدر تغییر در متغیرهای مستقل میتواند بر تغییر در متغیر وابسته تأثیر بگذارد. این ارتباط معمولاً با استفاده از معیارهایی مانند نسبت شانس (odds ratio) و ضریب تعیین (pseudo-R²) ارزیابی میشود. - تفسیر ضرایب (Bs) و Exp(B) چگونه است؟
ضرایب رگرسیون نشاندهنده تغییر در لگیت متغیر وابسته به ازای یک واحد تغییر در متغیر مستقل هستند. همچنین Exp(B) که به عنوان نسبت شانس شناخته میشود، نشاندهنده تغییر در شانس وقوع رویداد به ازای یک واحد تغییر در متغیر مستقل است. - با توجه به مقادیر پیشبینها، مقدار پیشبینیشده متغیر وابسته چیست؟
با استفاده از مدل رگرسیون لجستیک، میتوان برای هر ترکیب از مقادیر متغیرهای مستقل، مقدار پیشبینیشده متغیر وابسته را محاسبه کرد. این پیشبینیها میتوانند به تصمیمگیریهای عملی و راهبردی کمک کنند.
با درک این فرضیات و سوالات، میتوان به طور مؤثری از رگرسیون لجستیک باینری برای تحلیل دادهها و پیشبینی نتایج استفاده کرد.
مثال رگرسیون لجستیک باینری
بیایید با استفاده از مقادیر برخی از متغیرهای مستقل، نحوه تفسیر تحلیل رگرسیون لجستیک باینری را نشان دهیم.
برای یک مرد ۳۰ ساله (X2 = 1):
Li = (-1.791) + (0.016) * (30) + (0.530) * (1) = -0.781
محاسبه نمایی:
eLi = e^(-0.781) = 0.458
احتمال یک مرد ۳۰ ساله که مالک SUV است:
p1 = 0.458 / (1 + 0.458) = 0.314
احتمال مالکیت SUV برای یک مرد ۳۰ ساله 31.4% است. این یک احتمال شرطی است زیرا این احتمال یک نتیجه (مالکیت SUV) با توجه به دو شرط دیگر (مقادیر خاص برای جنسیت و سن) است.
نسبت شانس (Odds)
نسبت شانس یک مرد ۳۰ ساله مالک SUV است:
Odds = p1 / (1 – p1) = 0.314 / (1 – 0.314) = 0.458
به طور مشابه، برای یک زن ۳۰ ساله (X2 = 0):
Li = (-1.791) + (0.016) * (30) + (0.530) * (0) = -1.311
محاسبه نمایی:
eLi = e^(-1.311) = 0.270
احتمال مالکیت SUV برای یک زن ۳۰ ساله:
p2 = 0.270 / (1 + 0.270) = 0.212
احتمال مالکیت SUV برای این فرد 21.2% است. این نیز یک احتمال شرطی است.
نسبت شانس برای زن
نسبت شانس یک زن ۳۰ ساله مالک SUV است:
Odds = p2 / (1 – p2) = 0.212 / (1 – 0.212) = 0.270
مقایسه احتمالها
مردان 1.698 برابر بیشتر از زنان احتمال دارد که صاحب SUV باشند:
Odds نسبت مردان به زنان = 0.458 / 0.270 ≈ 1.698
تاثیر سن بر مدل
اگر سن (X1) به اندازه یک سال افزایش یابد، مدل رگرسیون و ضریب مربوط به سن (0.016) پیشبینی میکند که لگیت (Li) به اندازه 0.16 افزایش یابد، با فرض ثابت بودن سایر متغیرها.
برای یک مرد ۶۰ ساله:
Li = (-1.791) + (0.016) * (60) + (0.530) * (1) = -0.301
محاسبه نمایی:
eLi = e^(-0.301) = 0.740
احتمال مالکیت SUV برای یک مرد ۶۰ ساله:
p1 = 0.740 / (1 + 0.740) = 0.425
تغییرات در لگیت و احتمال
توجه داشته باشید که برای یک افزایش ۳۰ ساله در سن، Li به اندازه:
30 * (0.016) = 0.480
تغییر میکند. در واقع، Li از −0.781 (سن = ۳۰) به −0.301 (سن = ۶۰) تغییر کرده است که نشاندهنده یک افزایش 0.480 است. احتمال از 0.314 به 0.425 تغییر کرده است.
مطالعه موردی رگرسیون لجستیک باینری
اکنون مفهوم رگرسیون لجستیک باینری را با استفاده از یک مطالعه موردی در حوزه بانکداری بررسی میکنیم. بانکی وجود دارد که دادههای جمعیتشناختی و تراکنشی مشتریان وام خود را در اختیار دارد. بانک میخواهد مدلی برای پیشبینی مشتریانی که احتمال عدم پرداخت وام دارند، ایجاد کند تا در تصمیمگیریهای اعطای وام به بانک کمک کند. هدف این است که پیشبینی کنیم آیا مشتریانی که درخواست وام دادهاند، در پرداخت وام خود به مشکل برمیخورند یا خیر. برای توسعه مدل از یک نمونه ۷۰۰ تایی استفاده میشود. متغیرهای مستقل شامل گروه سنی، تعداد سالهای اقامت در آدرس فعلی، تعداد سالهای اشتغال در کار فعلی، نسبت بدهی به درآمد، بدهیهای کارت اعتباری و سایر بدهیها هستند. تمامی این متغیرها در زمان فرایند درخواست وام جمعآوری شده و به عنوان متغیرهای مستقل استفاده میشوند. متغیر وابسته، وضعیت پس از اعطای وام است که در صورت عدم پرداخت، ۱ و در غیر این صورت، ۰ خواهد بود.
نحوه برآورد پارامترهای رگرسیون لجستیک باینری
در این مدل، پارامترهای رگرسیون لجستیک با استفاده از روش حداکثر درستنمایی (Maximum Likelihood) تخمین زده میشوند. تابع درستنمایی، احتمال مشترک Y1, Y2, …, Yn است. پارامترها با حداکثرسازی تابع درستنمایی L تخمین زده میشوند. دو الگوریتم تکراری رایج برای این کار، روش امتیازدهی فیشر (Fisher Scoring Method) و روش نیوتن-رافسون (Newton-Raphson) هستند که هر دو نتایج مشابهی از لحاظ برآورد پارامترها ارائه میدهند.
تفسیر نسبت شانس (Odds Ratio)
نسبت شانس یا Odds Ratio معیاری برای بررسی ارتباط بین متغیرهای مستقل و نتیجه است. نسبت شانس، نسبت احتمال وقوع رویداد در صورت وجود متغیر مستقل به احتمال وقوع رویداد در صورت عدم وجود آن است. این نسبت، عامل تغییر شانس را برای یک واحد تغییر در متغیر مستقل نشان میدهد. با گرفتن لگاریتم طبیعی (Antilog) از ضریب رگرسیون، میتوان نسبت شانس را به دست آورد.
نسبت شانس برای هر متغیر مستقل به صورت زیر است:
- نسبت شانس بیشتر از ۱: نشاندهنده ارتباط مثبت بین متغیر وابسته و متغیر مستقل.
- نسبت شانس کمتر از ۱: نشاندهنده ارتباط منفی بین متغیر وابسته و متغیر مستقل.
- نسبت شانس برابر با ۱: نشاندهنده عدم وجود ارتباط بین متغیر وابسته و متغیر مستقل.
به عنوان مثال، اگر نسبت شانس برای متغیر employ برابر با 0.77 باشد، نشاندهنده این است که برای یک واحد تغییر در employ، شانس وقوع رویداد (یعنی عدم پرداخت وام) به میزان 0.77 برابر یا کاهش ۲۳ درصدی خواهد بود.
مدیر2024-11-10T18:43:37+03:30نوامبر 10, 2024|بدون دیدگاه
چکیده مقاله: قبل از معرفی بهترین مربیان و متخصصان سئو بهتر است بدانید که سئو آسان نیست. موارد زیادی برای پیگیری وجود دارد و گوگل با هر به روزرسانی هدف گذاری های جدیدی تعیین [...]
مدیر2024-11-09T00:42:39+03:30نوامبر 9, 2024|بدون دیدگاه
مقدمه: افیلیت مارکتینگ (Affiliate Marketing) یا همکاری در فروش یک استراتژی است که در آن شما محصولات یا خدمات را تبلیغ می کنید و به ازای هر فروش یا لید (مشتری بالقوه) که ایجاد [...]
مدیر2024-11-08T18:49:21+03:30نوامبر 8, 2024|بدون دیدگاه
چکیده مقاله: نتایج جستجو گوگل می توانند شامل بیش از 10 لینک آبی ساده باشند. این نتایج با ویژگی های SERP (صفحه نتایج موتور جستجو) طراحی شده اند تا به کاربران دسترسی سریع و [...]
مدیر2024-11-07T18:27:36+03:30نوامبر 7, 2024|بدون دیدگاه
مقدمه: پیش از پرداختن به عملکرد سئو (SEO Performance) بهتر است بدانید که نمایش این که کار شما تفاوت واقعی ایجاد می کند، همان چیزی است که مشتریان شما را راضی نگه می دارد [...]
مدیر2024-11-07T13:25:02+03:30نوامبر 7, 2024|بدون دیدگاه
چکیده مقاله: ممیزی سئو (SEO Audit) یا ارزیابی سئو، یک بررسی دقیق از توانایی یک وب سایت برای رتبه بندی در موتورهای جستجو می باشد و یکی از اولین اقداماتی است که باید آژانس [...]
مدیر2024-11-05T20:52:22+03:30نوامبر 5, 2024|بدون دیدگاه
مقدمه: دو رویکرد اصلی برای سئو وجود دارد: سئو کلاه سفید و سئو کلاه سیاه. درست مثل فیلم های وسترن قدیمی، سئوکارهای کلاه سفید، کابوی های قابل اعتماد و قانونمند هستند، در حالی که [...]