رگرسیون لجستیک باینری چیست؟

رگرسیون لجستیک باینری چیست؟
توسط منتشر شده در : اکتبر 4, 2024دسته بندی: مقالات تحلیل آماریLast Updated: اکتبر 4, 2024بدون دیدگاه on رگرسیون لجستیک باینری چیست؟نمایش: 1
فهرست مطالب

چکیده مقاله:
رگرسیون لجستیک باینری یا دودویی چیست؟ رگرسیون لجستیک، رابطه بین یک متغیر هدف دسته‌ای و یک یا چند متغیر مستقل را اندازه‌گیری می‌کند. این روش زمانی مفید است که نتیجه متغیر هدف تنها بتواند دو حالت ممکن داشته باشد (به عبارتی، باینری باشد). رگرسیون لجستیک باینری از یک یا چند متغیر پیش‌بین استفاده می‌کند که می‌توانند پیوسته یا دسته ای باشند تا کلاس‌های متغیر هدف را پیش‌بینی کنند. این تکنیک به شناسایی عوامل مهم (Xi) تأثیرگذار بر متغیر هدف (Y) و همچنین نوع رابطه بین هر یک از این عوامل و متغیر وابسته کمک می‌کند. در این مطلب به بررسی کامل رگرسیون لجستیک باینری می پردازیم با ما همراه باشید.

رگرسیون لجستیک باینری چیست؟

رگرسیون لجستیک باینری، رابطه بین مجموعه ای از متغیرهای مستقل و یک متغیر وابسته باینری را مدل‌سازی می‌کند. این روش زمانی کاربرد دارد که متغیر وابسته ماهیتی دوتایی داشته باشد، مانند مرگ یا بقا، عدم وقوع یا وقوع یک رویداد و غیره. متغیرهای مستقل می‌توانند دسته‌ای یا پیوسته باشند، مانند جنسیت، سن، درآمد یا منطقه جغرافیایی. رگرسیون لجستیک باینری، متغیر وابسته را به صورت لگاریتم احتمال وقوع (p) مدل سازی می‌کند؛ جایی که p احتمال این است که متغیر وابسته مقدار ۱ بگیرد.

کاربردهای رگرسیون لجستیک باینری

این مدل در حوزه‌ها و صنایع مختلفی استفاده می‌شود. به عنوان مثال، در تحلیل بازاریابی برای شناسایی خریداران احتمالی یک محصول، در مدیریت منابع انسانی برای شناسایی کارکنانی که احتمالاً شرکت را ترک می‌کنند، در مدیریت ریسک برای پیش‌بینی افرادی که احتمالاً وام خود را پرداخت نمی‌کنند، یا در صنعت بیمه برای پیش‌بینی لغو بیمه‌نامه. تمامی این اهداف بر اساس اطلاعاتی مانند سن، جنسیت، شغل، مبلغ حق بیمه و دفعات خرید استوار هستند. در همه این موارد، متغیر وابسته به صورت باینری است، در حالی که متغیرهای مستقل می‌توانند دسته‌ای یا پیوسته باشند.

رگرسیون لجستیک باینری در زمینه‌های مختلف کاربرد دارد و می‌تواند به تحلیل و پیش‌بینی رویدادهای دودویی کمک کند. در زیر، به تفصیل بیشتری در مورد هر کاربرد توضیح داده‌ام:

1. پیش بینی احتمال وقوع یک رویداد (Event Probability Prediction)

در این نوع کاربرد، رگرسیون لجستیک باینری برای پیش‌بینی احتمال وقوع یا عدم وقوع یک رویداد خاص استفاده می‌شود. متغیر وابسته (یا متغیر هدف) یک متغیر باینری است، یعنی فقط دو حالت دارد (مثل “بلی/خیر” یا “0/1”). برخی کاربردهای رایج شامل:

  • پزشکی: پزشکان می‌توانند از رگرسیون لجستیک باینری برای تعیین احتمال ابتلای بیمار به یک بیماری خاص بر اساس متغیرهای مستقل مانند سن، سابقه خانوادگی، فشار خون، میزان کلسترول و … استفاده کنند. مثلاً، احتمال اینکه یک بیمار دچار بیماری قلبی شود، با این روش قابل برآورد است.
  • مالی: در حوزه مالی، از این مدل برای ارزیابی احتمال نکول (default) وام توسط یک متقاضی استفاده می‌شود. متغیر وابسته می‌تواند وضعیت نکول وام باشد (نکول شده یا نشده)، و متغیرهای مستقل شامل درآمد، تاریخچه اعتباری و نسبت بدهی به درآمد باشد.

2. تحلیل دسته بندی (Classification Analysis)

رگرسیون لجستیک باینری اغلب به عنوان یک روش دسته‌بندی (Classification) استفاده می‌شود. در اینجا، هدف دسته‌بندی افراد، اشیاء یا رویدادها به دو گروه مجزا است.

  • بازاریابی: بازاریابان می‌توانند از این روش برای شناسایی مشتریان وفادار از مشتریان موقتی استفاده کنند. متغیرهایی مثل تعداد خرید، مبلغ کل خرید و مدت زمان عضویت به عنوان متغیرهای مستقل استفاده می‌شوند، و نتیجه (وفادار/موقتی) به عنوان متغیر وابسته مد نظر قرار می‌گیرد.
  • تشخیص تقلب (Fraud Detection): در صنعت بانکداری، می‌توان از رگرسیون لجستیک برای تشخیص تراکنش‌های مشکوک به تقلب استفاده کرد. متغیرهای مستقل شامل ویژگی‌هایی مانند محل جغرافیایی، زمان تراکنش و مبلغ تراکنش هستند، و متغیر وابسته تعیین می‌کند که آیا تراکنش تقلبی است یا خیر.

3. تحلیل عوامل خطر (Risk Factor Analysis)

در تحلیل عوامل خطر، هدف این است که تأثیر متغیرهای مستقل مختلف را بر احتمال وقوع یک رویداد مخاطره‌آمیز بررسی کنیم. این کاربرد بیشتر در زمینه‌های مالی، بیمه، و بهداشت و درمان مشاهده می‌شود.

  • بیمه: شرکت‌های بیمه می‌توانند از این مدل برای ارزیابی ریسک خسارت استفاده کنند. به عنوان مثال، ارزیابی احتمال وقوع یک حادثه رانندگی بر اساس متغیرهای مانند سن راننده، سابقه رانندگی، نوع وسیله نقلیه و غیره.
  • پروژه ها: در مدیریت پروژه‌ها، رگرسیون لجستیک می‌تواند برای ارزیابی ریسک‌های پروژه‌ها (مانند تأخیر در اتمام یا افزایش هزینه‌ها) استفاده شود. این تحلیل به مدیران پروژه کمک می‌کند تا متغیرهای مهمی که احتمال وقوع مشکلات را افزایش می‌دهند شناسایی کنند و برای کنترل آن‌ها برنامه‌ریزی کنند.

4. تحلیل رفتار کاربران (User Behavior Analysis)

در تحلیل رفتار کاربران، هدف شناسایی الگوهای رفتاری خاص است که احتمال وقوع رویدادهایی مانند خروج کاربر از سایت، ثبت‌نام کاربر جدید، یا کلیک روی تبلیغات را پیش‌بینی می‌کند.

  • وب‌سایت ها و شبکه های اجتماعی: با استفاده از رگرسیون لجستیک باینری، می‌توان رفتار کاربران را پیش‌بینی کرد. برای مثال، تحلیلگر می‌تواند احتمال کلیک کاربر روی تبلیغات آنلاین را بر اساس ویژگی‌هایی مانند زمان سپری شده در وب‌سایت، تعداد صفحات مشاهده شده و نوع دستگاه کاربر بررسی کند.

5. مدیریت منابع انسانی (HR Management)

در مدیریت منابع انسانی، رگرسیون لجستیک برای پیش‌بینی احتمال رفتارهای مختلف کارمندان، از جمله ترک شغل (attrition)، شرکت در دوره‌های آموزشی یا احتمال ارتقاء به کار می‌رود.

  • پیش بینی ترک شغل: در این کاربرد، متغیر وابسته «ترک شغل» است که شامل دو حالت «ترک/عدم ترک» می‌شود، و متغیرهای مستقل می‌توانند شامل سن، سطح رضایت شغلی، سابقه کاری، عملکرد، و میزان حقوق باشد. با این مدل، مدیران منابع انسانی می‌توانند عوامل مؤثر بر ترک شغل را شناسایی کرده و اقدامات لازم برای نگهداشت کارمندان انجام دهند.

6. تحلیل بقا (Survival Analysis)

رگرسیون لجستیک باینری می‌تواند برای مدل‌سازی زمان وقوع رویدادهایی مانند زمان ترک شغل، زمان نکول وام یا زمان وقوع مرگ در بیماران استفاده شود.

  • تحلیل بقای بیماران: در زمینه پزشکی، می‌توان از این مدل برای ارزیابی احتمال بقای بیماران مبتلا به یک بیماری خاص تا یک دوره مشخص استفاده کرد. متغیرهای مستقل شامل سن بیمار، نوع درمان، سابقه پزشکی و وضعیت بالینی است.

7. تحلیل سیاست گذاری اجتماعی و سیاسی

رگرسیون لجستیک باینری در تحلیل‌های اجتماعی و سیاسی نیز کاربرد دارد. به عنوان مثال، می‌توان از این مدل برای پیش‌بینی رفتار رأی‌دهی افراد در انتخابات استفاده کرد.

  • پیش بینی نتایج انتخابات: با استفاده از ویژگی‌هایی مانند سن، جنسیت، میزان تحصیلات، محل سکونت و گرایش سیاسی، می‌توان احتمال رأی دادن یک فرد به یک حزب خاص یا کاندیدای معین را پیش‌بینی کرد. این مدل می‌تواند به تحلیل‌گران سیاسی کمک کند تا بهتر استراتژی‌های انتخاباتی را تدوین کنند.

8. مهندسی و علوم محیطی

در مهندسی و علوم محیطی، رگرسیون لجستیک باینری برای پیش بینی وقوع رویدادهای نادر ولی مهم (مانند وقوع سیل، زلزله و غیره) و ارزیابی خطرات محیطی مورد استفاده قرار می‌گیرد.

  • پیش بینی وقوع سیل: این مدل می‌تواند برای پیش‌بینی احتمال وقوع سیل در یک منطقه بر اساس متغیرهایی مثل میزان بارندگی، رطوبت خاک، ارتفاع از سطح دریا و … استفاده شود. این تحلیل به متخصصان محیط زیست و مهندسان کمک می‌کند تا استراتژی‌های پیشگیرانه‌ای برای مدیریت خطرات تدوین کنند.

این کاربردهای گسترده نشان می‌دهد که رگرسیون لجستیک باینری به دلیل انعطاف پذیری، سادگی در تفسیر و توانایی تحلیل داده‌های باینری، در طیف وسیعی از حوزه‌ها و مسائل تحلیلی به کار می‌رود.

کاربرد رگرسیون لجستیک باینری در تحلیل

رگرسیون لجستیک باینری به منظور تحلیل و پیش‌بینی متغیر هدف در شرایطی که دو حالت ممکن (باینری) برای آن وجود داشته باشد، مورد استفاده قرار می‌گیرد. این روش برای بررسی و تحلیل عواملی که بر روی نتیجه مثبت یا منفی تأثیر می‌گذارند، یا هر نوع طبقه‌بندی که در آن تنها دو خروجی ممکن وجود دارد، بسیار مفید است. در ادامه، دو نمونه موردی از کاربردهای رگرسیون لجستیک باینری و نحوه استفاده آن در سازمان‌ها آورده شده است:

نمونه موردی شماره ۱

مسئله تجاری: یک افسر اعتبارات در بانک می‌خواهد پیش‌بینی کند که آیا متقاضیان وام، وام خود را بازپرداخت خواهند کرد یا خیر. این پیش‌بینی بر اساس عواملی مانند مقدار وام، اقساط ماهانه، مدت زمان اشتغال، تعداد دفعات تأخیر در پرداخت، درآمد سالانه، نسبت بدهی به درآمد و … انجام می‌شود. در اینجا، متغیر هدف «وضعیت پیشین عدم پرداخت» خواهد بود و کلاس‌های پیش‌بینی‌شده شامل مقادیر «بله یا خیر» هستند که به ترتیب نشان‌دهنده «احتمال عدم بازپرداخت/عدم احتمال عدم بازپرداخت» هستند.

مزیت تجاری: پس از تعیین کلاس‌ها، بانک مجموعه‌ای از متقاضیان وام با برچسب «احتمال عدم بازپرداخت/عدم احتمال عدم بازپرداخت» خواهد داشت. با استفاده از این برچسب‌ها، بانک می‌تواند به راحتی در مورد اعطای وام به متقاضیان تصمیم‌گیری کند و محدودیت اعتباری و نرخ بهره هر متقاضی را بر اساس میزان ریسکی که شامل می‌شود، تعیین نماید.

نمونه موردی شماره ۲

مسئله تجاری: یک پزشک می‌خواهد احتمال موفقیت درمان یک بیماری جدید در یک بیمار را بر اساس ویژگی‌های مختلفی مانند فشار خون، سطح هموگلوبین، سطح قند خون، نام داروهای تجویز شده، نام درمان‌های ارائه‌شده و … پیش‌بینی کند. در اینجا، متغیر هدف «وضعیت پیشین درمان» خواهد بود و کلاس‌های پیش‌بینی‌شده شامل مقادیر «بله یا خیر» هستند که به ترتیب به معنای «احتمال درمان/عدم احتمال درمان» می‌باشند.

مزیت تجاری: با در نظر گرفتن پروفایل سلامت بیمار و درمان‌ها و داروهای اخیر مصرف‌شده توسط او، پزشک می‌تواند احتمال درمان را پیش‌بینی کرده و تغییرات لازم را در توصیه‌های درمانی و دارویی ایجاد نماید.

رگرسیون لجستیک باینری ابزاری قدرتمند برای تحلیل و پیش‌بینی عواملی است که بر نتایج مثبت/منفی تأثیر می‌گذارند و یا هر نوع طبقه بندی که تنها دو نتیجه ممکن دارد، می‌باشد. این روش به سازمان‌ها کمک می‌کند تا تصمیمات خود را بر اساس پیش بینی دقیق تری از وضعیت آینده متغیرهای کلیدی بگیرند.

چرا نمی‌توان از رگرسیون خطی برای متغیر وابسته باینری استفاده کرد؟

یکی از دلایل این است که توزیع Y به صورت تصادفی و غیر نرمال است، برخلاف رگرسیون خطی که توزیع Y باید نرمال باشد. همچنین، اگر از رگرسیون خطی برای متغیر وابسته باینری استفاده شود، سمت چپ و راست مدل قابل مقایسه نخواهند بود.

رگرسیون خطی برای پیش‌بینی مقادیر پیوسته، مانند قیمت یک ملک بر اساس متراژ مناسب است که در این حالت، خط رگرسیون به صورت یک خط مستقیم خواهد بود. اما رگرسیون لجستیک برای مسائل طبقه‌بندی استفاده می‌شود که در آن احتمال وقوع یک مقدار خاص برای متغیر وابسته Y پیش‌بینی می‌شود. در رگرسیون لجستیک باینری، منحنی رگرسیون به شکل یک منحنی سیگموئیدی (S-شکل) است.

مدل آماری برای رگرسیون لجستیک باینری

معادله زیر مدل آماری رگرسیون لجستیک باینری با یک پیش‌بین است:

logit(p) = ln(p / (1 – p)) = B0 + B1 * X

که در آن:

  • p: احتمال این که متغیر وابسته Y مقدار ۱ بگیرد.
  • X: متغیر مستقل.
  • B0: عرض از مبدأ.
  • B1: ضریب رگرسیون.

مدل کلی رگرسیون لجستیک برای چندین متغیر مستقل به صورت زیر است:

logit(p) = ln(p / (1 – p)) = B0 + B1 * X1 + B2 * X2 + … + Bk * Xk

که در آن:

  • X1, X2, …, Xk: متغیرهای مستقل.
  • B0, B1, …, Bk: پارامترهای مدل هستند.

فرضیات رگرسیون لجستیک باینری

رگرسیون لجستیک باینری یک تکنیک محبوب برای مدل‌سازی رابطه بین یک متغیر وابسته دودویی و یک یا چند متغیر مستقل است. مانند هر روش آماری، این روش دارای مجموعه‌ای از فرضیات است که باید برای تحلیل و تفسیر دقیق رعایت شود. در حالی که رگرسیون لجستیک باینری برخی از فرضیات سخت گیرانه رگرسیون خطی و ANOVA را کاهش می‌دهد، اما همچنان دارای الزامات خاص خود است. در زیر به بررسی اصلی ترین فرضیات رگرسیون لجستیک باینری می‌پردازیم:

  1. متغیر وابسته باید دودویی باشد
    متغیر وابسته (خروجی) باید دودویی باشد، به این معنی که می‌تواند فقط دو دسته یا مقدار ممکن داشته باشد. این دسته‌ها معمولاً به صورت 0 و 1 کدگذاری می‌شوند، به طوری که 0 ممکن است نشان‌دهنده عدم وقوع یک رویداد (مثل عدم ابتلا به بیماری قلبی) و 1 نشان‌دهنده وقوع آن رویداد (مثل ابتلا به بیماری قلبی) باشد.
  2. دسته‌های متغیر وابسته باید متعارف و جامع باشند
    دسته‌های متغیر وابسته باید به‌گونه‌ای باشند که هر مشاهده فقط به یک دسته تعلق داشته باشد و تمام دسته‌ها باید جامع باشند، به این معنی که هیچ دسته مفقودی یا تعریف‌نشده‌ای وجود نداشته باشد. به عنوان مثال، در یک مطالعه در مورد وجود بیماری، هر فرد باید به عنوان مبتلا یا غیرمبتلا به بیماری طبقه بندی شود.
  3. وجود یک یا چند متغیر مستقل عددی
    مدل باید حداقل یک متغیر مستقل داشته باشد که می‌تواند عددی (مانند سن یا درآمد) یا دسته‌ای (مانند جنسیت یا سطح تحصیلات) باشد. اگر از متغیرهای مستقل دسته‌ای استفاده شود، باید به‌طور مناسب به صورت متغیرهای دمی کدگذاری شوند.
  4. استقلال مشاهدات
    مشاهدات باید مستقل از یکدیگر باشند. به این معنا که وقوع یک رویداد برای یک فرد نباید بر وقوع یا عدم وقوع رویداد برای فرد دیگری تأثیر بگذارد. نقض این فرضیه (به عنوان مثال، در داده‌های تکراری یا خوشه‌ای) نیاز به استفاده از تکنیک‌های پیشرفته‌تری مانند مدل‌های ترکیبی یا معادلات برآورد عمومی (GEE) دارد.
  5. رابطه خطی بین متغیرهای مستقل عددی و لگیت متغیر وابسته
    با وجود اینکه متغیر وابسته دودویی است، رابطه بین متغیرهای مستقل عددی و متغیر وابسته باید به صورت خطی در نظر گرفته شود. این به این معناست که لگاریتم نسبت شانس (log-odds) متغیر وابسته باید به صورت خطی با متغیرهای مستقل مرتبط باشد.
  6. عدم وجود یا کمبود هم‌خطی میان متغیرهای مستقل
    هم‌خطی زمانی رخ می‌دهد که متغیرهای مستقل به شدت با یکدیگر همبسته باشند، که می‌تواند موجب ناپایداری در برآورد ضرایب رگرسیون شود. مهم است که با استفاده از روش‌هایی مانند ضریب تورم واریانس (VIF) به بررسی هم‌خطی بپردازید و متغیرهای با همبستگی بالا را حذف یا ترکیب کنید.
  7. حجم نمونه بزرگ
    رگرسیون لجستیک باینری نیاز به حجم نمونه کافی دارد تا برآوردهای قابل اعتمادی ارائه دهد. قانون کلی این است که تعداد رویدادها (تعداد وقوع متغیر وابسته) باید حداقل 10 برابر تعداد متغیرهای مستقل در مدل باشد.

سوالات و تحلیل در رگرسیون لجستیک باینری

رگرسیون لجستیک باینری می‌تواند به پاسخ‌گویی به چندین سوال کلیدی در تحقیقات کمک کند، و درک این سوالات می‌تواند به تفسیر و استفاده مؤثر از مدل کمک کند:

  1. بهترین مدل پیش بینی (مجموعه متغیرهای مستقل) لگیت چیست؟
    هدف اصلی معمولاً شناسایی بهترین ترکیب از متغیرهای مستقل است که لگیت (لگاریتم نسبت شانس متغیر وابسته) را پیش‌بینی کند. این معمولاً با افزودن یا حذف متغیرها و مقایسه مدل‌ها با استفاده از معیارهایی مانند معیار اطلاعات آکائیک (AIC) یا BIC انجام می‌شود.
  2. آیا مدل پیش‌بین‌ها نسبت به مدل تنها (null model) معنادار است؟
    بررسی معناداری مدل پیش‌بینی نسبت به یک مدل خنثی مهم است تا مشخص شود آیا متغیرهای مستقل توانایی پیش‌بینی متغیر وابسته را دارند یا خیر. این کار معمولاً با استفاده از آزمون‌های آماری مانند آزمون کای‌دو (Chi-square test) انجام می‌شود.
  3. متغیرهای پیش‌بین که مدل نهایی و بهترین را تشکیل می‌دهند کدامند؟
    پس از شناسایی بهترین مدل، مهم است که متغیرهای مستقل مؤثر در این مدل شناسایی شوند. این کار می‌تواند به درک بهتر عوامل تأثیرگذار کمک کند.
  4. قدرت ارتباط بین متغیرهای مستقل و متغیر وابسته چیست؟
    قدرت ارتباط به ما می‌گوید که چقدر تغییر در متغیرهای مستقل می‌تواند بر تغییر در متغیر وابسته تأثیر بگذارد. این ارتباط معمولاً با استفاده از معیارهایی مانند نسبت شانس (odds ratio) و ضریب تعیین (pseudo-R²) ارزیابی می‌شود.
  5. تفسیر ضرایب (Bs) و Exp(B) چگونه است؟
    ضرایب رگرسیون نشان‌دهنده تغییر در لگیت متغیر وابسته به ازای یک واحد تغییر در متغیر مستقل هستند. همچنین Exp(B) که به عنوان نسبت شانس شناخته می‌شود، نشان‌دهنده تغییر در شانس وقوع رویداد به ازای یک واحد تغییر در متغیر مستقل است.
  6. با توجه به مقادیر پیش‌بین‌ها، مقدار پیش‌بینی‌شده متغیر وابسته چیست؟
    با استفاده از مدل رگرسیون لجستیک، می‌توان برای هر ترکیب از مقادیر متغیرهای مستقل، مقدار پیش‌بینی‌شده متغیر وابسته را محاسبه کرد. این پیش‌بینی‌ها می‌توانند به تصمیم‌گیری‌های عملی و راهبردی کمک کنند.

با درک این فرضیات و سوالات، می‌توان به طور مؤثری از رگرسیون لجستیک باینری برای تحلیل داده‌ها و پیش‌بینی نتایج استفاده کرد.

مثال رگرسیون لجستیک باینری

بیایید با استفاده از مقادیر برخی از متغیرهای مستقل، نحوه تفسیر تحلیل رگرسیون لجستیک باینری را نشان دهیم.

برای یک مرد ۳۰ ساله (X2 = 1):

Li = (-1.791) + (0.016) * (30) + (0.530) * (1) = -0.781

محاسبه نمایی:

eLi = e^(-0.781) = 0.458

احتمال یک مرد ۳۰ ساله که مالک SUV است:

p1 = 0.458 / (1 + 0.458) = 0.314

احتمال مالکیت SUV برای یک مرد ۳۰ ساله 31.4% است. این یک احتمال شرطی است زیرا این احتمال یک نتیجه (مالکیت SUV) با توجه به دو شرط دیگر (مقادیر خاص برای جنسیت و سن) است.

نسبت شانس (Odds)

نسبت شانس یک مرد ۳۰ ساله مالک SUV است:

Odds = p1 / (1 – p1) = 0.314 / (1 – 0.314) = 0.458

به طور مشابه، برای یک زن ۳۰ ساله (X2 = 0):

Li = (-1.791) + (0.016) * (30) + (0.530) * (0) = -1.311

محاسبه نمایی:

eLi = e^(-1.311) = 0.270

احتمال مالکیت SUV برای یک زن ۳۰ ساله:

p2 = 0.270 / (1 + 0.270) = 0.212

احتمال مالکیت SUV برای این فرد 21.2% است. این نیز یک احتمال شرطی است.

نسبت شانس برای زن

نسبت شانس یک زن ۳۰ ساله مالک SUV است:

Odds = p2 / (1 – p2) = 0.212 / (1 – 0.212) = 0.270

مقایسه احتمال‌ها

مردان 1.698 برابر بیشتر از زنان احتمال دارد که صاحب SUV باشند:

Odds نسبت مردان به زنان = 0.458 / 0.270 ≈ 1.698

تاثیر سن بر مدل

اگر سن (X1) به اندازه یک سال افزایش یابد، مدل رگرسیون و ضریب مربوط به سن (0.016) پیش‌بینی می‌کند که لگیت (Li) به اندازه 0.16 افزایش یابد، با فرض ثابت بودن سایر متغیرها.

برای یک مرد ۶۰ ساله:

Li = (-1.791) + (0.016) * (60) + (0.530) * (1) = -0.301

محاسبه نمایی:

eLi = e^(-0.301) = 0.740

احتمال مالکیت SUV برای یک مرد ۶۰ ساله:

p1 = 0.740 / (1 + 0.740) = 0.425

تغییرات در لگیت و احتمال

توجه داشته باشید که برای یک افزایش ۳۰ ساله در سن، Li به اندازه:

30 * (0.016) = 0.480

تغییر می‌کند. در واقع، Li از −0.781 (سن = ۳۰) به −0.301 (سن = ۶۰) تغییر کرده است که نشان‌دهنده یک افزایش 0.480 است. احتمال از 0.314 به 0.425 تغییر کرده است.

مطالعه موردی رگرسیون لجستیک باینری

اکنون مفهوم رگرسیون لجستیک باینری را با استفاده از یک مطالعه موردی در حوزه بانکداری بررسی می‌کنیم. بانکی وجود دارد که داده‌های جمعیت‌شناختی و تراکنشی مشتریان وام خود را در اختیار دارد. بانک می‌خواهد مدلی برای پیش‌بینی مشتریانی که احتمال عدم پرداخت وام دارند، ایجاد کند تا در تصمیم‌گیری‌های اعطای وام به بانک کمک کند. هدف این است که پیش‌بینی کنیم آیا مشتریانی که درخواست وام داده‌اند، در پرداخت وام خود به مشکل برمی‌خورند یا خیر. برای توسعه مدل از یک نمونه ۷۰۰ تایی استفاده می‌شود. متغیرهای مستقل شامل گروه سنی، تعداد سال‌های اقامت در آدرس فعلی، تعداد سال‌های اشتغال در کار فعلی، نسبت بدهی به درآمد، بدهی‌های کارت اعتباری و سایر بدهی‌ها هستند. تمامی این متغیرها در زمان فرایند درخواست وام جمع‌آوری شده و به عنوان متغیرهای مستقل استفاده می‌شوند. متغیر وابسته، وضعیت پس از اعطای وام است که در صورت عدم پرداخت، ۱ و در غیر این صورت، ۰ خواهد بود.

نحوه برآورد پارامترهای رگرسیون لجستیک باینری

در این مدل، پارامترهای رگرسیون لجستیک با استفاده از روش حداکثر درست‌نمایی (Maximum Likelihood) تخمین زده می‌شوند. تابع درست‌نمایی، احتمال مشترک Y1, Y2, …, Yn است. پارامترها با حداکثرسازی تابع درست‌نمایی L تخمین زده می‌شوند. دو الگوریتم تکراری رایج برای این کار، روش امتیازدهی فیشر (Fisher Scoring Method) و روش نیوتن-رافسون (Newton-Raphson) هستند که هر دو نتایج مشابهی از لحاظ برآورد پارامترها ارائه می‌دهند.

تفسیر نسبت شانس (Odds Ratio)

نسبت شانس یا Odds Ratio معیاری برای بررسی ارتباط بین متغیرهای مستقل و نتیجه است. نسبت شانس، نسبت احتمال وقوع رویداد در صورت وجود متغیر مستقل به احتمال وقوع رویداد در صورت عدم وجود آن است. این نسبت، عامل تغییر شانس را برای یک واحد تغییر در متغیر مستقل نشان می‌دهد. با گرفتن لگاریتم طبیعی (Antilog) از ضریب رگرسیون، می‌توان نسبت شانس را به دست آورد.

نسبت شانس برای هر متغیر مستقل به صورت زیر است:

  • نسبت شانس بیشتر از ۱: نشان‌دهنده ارتباط مثبت بین متغیر وابسته و متغیر مستقل.
  • نسبت شانس کمتر از ۱: نشان‌دهنده ارتباط منفی بین متغیر وابسته و متغیر مستقل.
  • نسبت شانس برابر با ۱: نشان‌دهنده عدم وجود ارتباط بین متغیر وابسته و متغیر مستقل.

به عنوان مثال، اگر نسبت شانس برای متغیر employ برابر با 0.77 باشد، نشان‌دهنده این است که برای یک واحد تغییر در employ، شانس وقوع رویداد (یعنی عدم پرداخت وام) به میزان 0.77 برابر یا کاهش ۲۳ درصدی خواهد بود.

اشتراک گذاری این محتوا، پلتفرم خود را انتخاب کنید!
مطالب مرتبط دیگر :

  • رگرسیون لجستیک (logistic regression) چیست؟
رگرسیون لجستیک (logistic regression) چیست؟

اکتبر 4, 2024|بدون دیدگاه

چکیده مقاله:رگرسیون لجستیک احتمال وقوع یک رویداد، مانند رای دادن یا رای ندادن، را بر اساس یک مجموعه داده از متغیرهای مستقل تخمین می‌زند. این نوع مدل آماری (که به آن مدل لاجیت نیز گفته [...]

  • الگوریتم خفاش (Bat Algorithm) چیست؟
الگوریتم خفاش (Bat Algorithm) چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم خفاش (Bat Algorithm) یک الگوریتم فراابتکاری مبتنی بر جمعیت است که برای حل مسائل بهینه سازی پیوسته استفاده می شود. این الگوریتم برای بهینه سازی راه حل ها در رایانش ابری، [...]

  • الگوریتم کرم شب تاب چیست؟
الگوریتم کرم شب تاب چیست؟

اکتبر 3, 2024|بدون دیدگاه

چکیده مقاله: الگوریتم کرم شب تاب چیست؟ الگوریتم های الهام گرفته از زیست، که به عنوان الگوریتم های الهام گرفته از طبیعت یا الگوریتم های تکاملی نیز شناخته می شوند، تکنیک های محاسباتی هستند [...]

  • آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال
آزمون فریدمن: تعریف، فرضیات، زمان استفاده و مثال

سپتامبر 30, 2024|بدون دیدگاه

چکیده مقاله: آزمون فریدمن ابزاری آماری برای مقایسه نمونه‌ها یا اندازه‌گیری‌های مکرر است زمانی که مفروضات پارامتریک برآورده نمی‌شوند. در واقع آزمون فریدمن توسعه‌ای از آزمون Wilcoxon signed-rank test و آنالوگ ناپارامتری از اندازه‌گیری [...]

  • برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند
برنامه نویسی فرانت اند: راهنمای جامع توسعه فرانت اند

سپتامبر 27, 2024|بدون دیدگاه

چکیده مقاله: اگر بخواهیم فرانت اند (Front-end) یا با اسم های دیگر سمت مشتری یا سمت کاربر را توضیح دهیم بهتر است بدانید که توسعه دهنده فرانت اند (Front-End Developer) به کمک زبان های برنامه [...]

  • برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد
برنامه نویسی تحت وب چیست؟ انواع، کاربرد و عملکرد

سپتامبر 24, 2024|بدون دیدگاه

چکیده مقاله: امروزه تصور جهانی بدون اینترنت و وب سایت‌ها تقریباً غیرممکن است. در سال‌های اخیر، تقاضا برای برنامه نویسان وب حرفه‌ای به طور چشمگیری افزایش یافته است، بنابراین می توانید انواع کارشناسان این [...]