اینستاگرام کالج مدیریت را دنبال کنید
/ در پایان نامه / توسط
آخرین زمان ویرایش:

رگرسیون خطی چندگانه

زمان مطالعه: ۵ دقیقه

مقدمه ای برای رگرسیون خطی چندگانه

رگرسیون خطی چندگانه ، از مدل های رگرسیون برای توصیف روابط بین متغیرها با قرار دادن یک خط به داده های مشاهده شده استفاده می شود. رگرسیون به شما امکان می دهد که با تغییر متغیر (های) مستقل، چگونه یک متغیر وابسته تغییر کند.

از رگرسیون خطی چندگانه برای تخمین رابطه بین دو یا چند متغیر مستقل و یک متغیر وابسته استفاده می شود. وقتی می خواهید بدانید از رگرسیون خطی متعدد می توانید استفاده کنید:

۱٫ رابطه بین دو یا چند متغیر مستقل و یک متغیر وابسته چقدر قوی است (به عنوان مثال میزان بارندگی، دما و مقدار کود اضافه شده روی رشد محصول تأثیر می گذارد).
۲٫ مقدار متغیر وابسته در مقدار مشخصی از متغیرهای مستقل (به عنوان مثال عملکرد قابل انتظار محصول در سطوح مشخصی از بارندگی، دما و کود اضافه شده).

 

مفروضات رگرسیون خطی چندگانه

رگرسیون خطی چندگانه، همه فرضیه های مشابه رگرسیون خطی ساده را ایجاد می کند:

همگنی واریانس (همسان سازی): اندازه خطای پیش بینی ما به طور قابل توجهی در مقادیر متغیر مستقل تغییر نمی کند.

استقلال مشاهدات: مشاهدات در مجموعه داده با استفاده از روش های آماری معتبر جمع آوری شده اند و هیچ رابطه پنهانی بین متغیرها وجود ندارد.

در رگرسیون خطی چندگانه، ممکن است برخی از متغیرهای مستقل در واقع با یکدیگر در ارتباط باشند، بنابراین بررسی این موارد قبل از ایجاد مدل رگرسیون مهم است. اگر دو متغیر مستقل خیلی زیاد با هم همبستگی داشته باشند (r2> ~ 0.6)، پس فقط یکی از آن ها باید در مدل رگرسیون استفاده شود.

نرمال بودن: داده ها از توزیع طبیعی پیروی می کنند.

خطی بودن: خط بهترین تطبیق از طریق نقاط داده یک خط مستقیم است، نه یک منحنی یا نوعی عامل گروه بندی.

 

نحوه انجام یک رگرسیون خطی چندگانه

فرمول رگرسیون خطی چندگانه

فرمول رگرسیون چند خطی به شرح زیر است:

. y = مقدار پیش بینی شده متغیر وابسته
. B0 = رهگیری y (مقدار y وقتی همه پارامترهای دیگر روی ۰ تنظیم شوند)
. B1X1 = ضریب رگرسیون (B1) اولین متغیر مستقل (X1) (معروف به تاثیری که افزایش مقدار متغیر مستقل بر مقدار y پیش بینی شده دارد)
. however = همین کار را برای متغیرهای مستقل مورد آزمایش انجام دهید
. BnXn = ضریب رگرسیون آخرین متغیر مستقل
. e = خطای مدل (a.k.a. چقدر تغییر در تخمین ما از y وجود دارد)

برای یافتن بهترین متناسب با هر متغیر مستقل، رگرسیون خطی چندگانه سه چیز را محاسبه می کند:

. ضرایب رگرسیون که منجر به کوچکترین خطای کلی مدل می شود.
. آماره t مدل کلی.
. مقدار p همراه (چقدر احتمال دارد که اگر فرضیه صفر عدم رابطه بین متغیرهای مستقل و وابسته درست باشد، آماره t اتفاقاً رخ داده باشد).
سپس آماره t و مقدار p را برای هر ضریب رگرسیون در مدل محاسبه می کند.

رگرسیون خطی چندگانه در R
گرچه انجام رگرسیون خطی چندگانه با دست امکان پذیر است، اما این کار معمولاً از طریق نرم افزار آماری انجام می شود. ما می خواهیم از R برای مثال های خود استفاده کنیم زیرا این نرم افزار رایگان، قدرتمند و به طور گسترده در دسترس است. مجموعه داده نمونه را بارگیری کنید تا خودتان امتحان کنید.

 

رگرسیون خطی چندگانه

رگرسیون خطی چندگانه – کالج مدیریت

 

تفسیر نتایج

برای مشاهده نتایج مدل، می توانید از summary() تابع:

summary(heart.disease.lm)

این تابع مهمترین پارامترها را از مدل خطی گرفته و آن ها را در جدولی قرار می دهد که به این شکل است:

R multiple linear regression summary output

در خلاصه ابتدا فرمول (“تماس”)، سپس باقیمانده های مدل (“باقیمانده”) چاپ می شود. اگر باقیمانده ها تقریباً در اطراف صفر و با گسترش مشابه در دو طرف متمرکز شوند، همانطور که این کار انجام می شود (میانه ۰٫۰۳، و دقیقه و حداکثر در حدود -۲ و ۲)، این مدل احتمالاً با فرض ناهمگونی سازگاری دارد.

بعد ضرایب رگرسیون مدل (“ضرایب”) است. ردیف ۱ جدول ضرایب با برچسب (Intercept) – این y-intercept معادله رگرسیون است. دانستن رهگیری تخمین زده شده برای اتصال آن به معادله رگرسیون و پیش بینی مقادیر متغیر وابسته، مفید است:

بیماری قلبی = ۱۵+ (-۰٫۲ * دوچرخه سواری) + (۰٫۱۷۸ * سیگار کشیدن) ± e

مهمترین مواردی که باید در این جدول خروجی ذکر شود، دو جدول بعدی است – برآورد متغیرهای مستقل.

ستون برآورد اثر تخمینی است که ضریب رگرسیون یا مقدار r2 نیز نامیده می شود. برآوردهای موجود در جدول به ما می گوید که به ازای هر یک درصد افزایش دوچرخه سواری در محل کار، ۰٫۲ درصد کاهش بیماری قلبی وجود دارد و به ازای هر یک درصد افزایش سیگار کشیدن ، ۱۷٫۰ درصد افزایش بیماری قلبی وجود دارد.

ستون خطای Std خطای استاندارد برآورد را نشان می دهد. این عدد نشان می دهد که چه مقدار تغییرات در برآورد ضریب رگرسیون وجود دارد.

ستون مقدار t آمار آزمون را نشان می دهد. مگر در مواردی که مشخص شده باشد، آمار آزمون مورد استفاده در رگرسیون خطی مقدار t از آزمون t دو طرفه است. هرچه آمار آزمون بزرگتر باشد، احتمال وقوع نتایج به طور تصادفی کمتر است.

ستون Pr (> | t |) مقدار p را نشان می دهد. این نشان می دهد که اگر فرضیه صفر عدم تأثیر پارامتر درست باشد، مقدار t محاسبه شده به طور اتفاقی رخ داده است.

از آنجا که این مقادیر بسیار کم است (در هر دو مورد ۰۰۱/۰> p)، می توانیم این فرضیه صفر را رد کنیم و نتیجه بگیریم که هر دوچرخه سواری برای کار و سیگار کشیدن احتمالاً بر میزان بیماری های قلبی تأثیر می گذارند.

 

ارائه نتایج

هنگام گزارش نتایج خود، اثر برآورد شده (یعنی ضریب رگرسیون)، خطای استاندارد برآورد و مقدار p را وارد کنید. همچنین باید اعداد خود را تفسیر کنید تا برای خوانندگان خود روشن کنید که ضریب رگرسیون به چه معناست.

تجسم نتایج در یک نمودار
همچنین درج نمودار با نتایج می تواند مفید باشد. رگرسیون خطی چندگانه تا حدودی پیچیده تر از رگرسیون خطی ساده است، زیرا پارامترهای بیشتری نسبت به طرح دو بعدی وجود دارد.

با این حال، روش هایی برای نمایش نتایج شما وجود دارد که شامل تأثیرات متغیرهای مستقل متعدد بر متغیر وابسته است، حتی اگر فقط یک متغیر مستقل در محور x رسم شود.

Multiple regression in R graph

در اینجا، ما مقادیر پیش بینی شده متغیر وابسته (بیماری قلبی) را در کل طیف مقادیر مشاهده شده برای درصد افراد دوچرخه سوار برای کار محاسبه کرده ایم.

برای در نظر گرفتن تأثیر سیگار کشیدن بر متغیر مستقل، این مقادیر پیش بینی شده را محاسبه کردیم در حالی که سیگار کشیدن را در حداقل، میانگین و حداکثر میزان سیگار کشیدن ثابت نگه داشت.

نوشته های مشابه

آزمون فرضیه

راهنمای گام به گام تست فرضیه آزمون فرضیه ، تست فرضیه یک روش رسمی برای بررسی ایده های ما در…

اهمیت آماری

مقدمه ای بر اهمیت آماری اهمیت آماری ، اگر یک نتیجه از نظر آماری قابل توجه باشد، به این معنی…