اینستاگرام کالج مدیریت را دنبال کنید
/ در پایان نامه / توسط
آخرین زمان ویرایش:

آزمون t، رگرسیون خطی ساده

زمان مطالعه: ۶ دقیقه

مقدمه ای برای رگرسیون خطی ساده

آزمون t، رگرسیون خطی ساده ، مدل های رگرسیونی با تطبیق یک خط به داده های مشاهده شده، رابطه بین متغیرها را توصیف می کنند. مدل های رگرسیون خطی از یک خط مستقیم استفاده می کنند، در حالی که مدل های رگرسیون لجستیک و غیرخطی از یک خط منحنی استفاده می کنند. رگرسیون به شما امکان می دهد که با تغییر متغیر (های) مستقل، چگونه یک متغیر وابسته تغییر می کند.

برای تخمین رابطه بین دو متغیر کمی از رگرسیون خطی ساده استفاده می شود. هنگامی که می خواهید بدانید از رگرسیون خطی ساده می توانید استفاده کنید:

۱٫ چقدر رابطه قوی بین دو متغیر وجود دارد (به عنوان مثال رابطه بین بارندگی و فرسایش خاک).
۲٫ مقدار متغیر وابسته در مقدار مشخصی از متغیر مستقل (به عنوان مثال میزان فرسایش خاک در سطح مشخصی از بارندگی).

می توانید متغیرهای وابسته و مستقل را هم مطالعه کنید.

 

مفروضات رگرسیون خطی ساده

رگرسیون خطی ساده یک آزمون پارامتریک است، به این معنی که فرضیه های خاصی را درباره داده ها ارائه می دهد. این فرضیات عبارتند از:

۱٫ همگنی واریانس (همسان سازی): اندازه خطای پیش بینی ما به طور قابل توجهی در مقادیر متغیر مستقل تغییر نمی کند.
۲٫ استقلال مشاهدات: مشاهدات موجود در مجموعه داده با استفاده از روش نمونه گیری معتبر آماری جمع آوری شده اند و هیچ رابطه پنهانی بین مشاهدات وجود ندارد.
۳٫ نرمال بودن: داده ها از توزیع طبیعی پیروی می کنند.

رگرسیون خطی یک فرض اضافی ایجاد می کند:

۴٫ رابطه بین متغیر مستقل و وابسته خطی است: خط بهترین جا از طریق نقاط داده یک خط مستقیم است (نه یک منحنی یا نوعی از عامل گروه بندی).

اگر داده های شما با مفروضات همسان سازی یا عادی بودن مطابقت نداشته باشد، ممکن است بجای آن از آزمون غیر پارامتری مانند آزمون رتبه Spearman استفاده کنید.

اگر داده های شما فرض استقلال مشاهدات را نقض می کند (به عنوان مثال اگر مشاهدات با گذشت زمان تکرار شوند)، ممکن است بتوانید یک مدل اثرات مخلوط خطی را که ساختار اضافی داده ها را تشکیل می دهد، انجام دهید.

 

نحوه انجام یک رگرسیون خطی ساده:

فرمول رگرسیون خطی ساده

فرمول یک رگرسیون خطی ساده به شرح زیر است:

Simple linear regression formula

. y مقدار پیش بینی شده متغیر وابسته (y) برای هر مقدار داده شده از متغیر مستقل (x) است.
. B0 رهگیری است، مقدار پیش بینی شده y هنگامی که x 0 است.
. B1 ضریب رگرسیون است- چقدر انتظار داریم y با افزایش x تغییر کند.
. x متغیر مستقل است (متغیری که انتظار داریم بر y تأثیر بگذارد).
. e خطای برآورد است، یا اینکه چقدر تغییرات در برآورد ما از ضریب رگرسیون وجود دارد.

رگرسیون خطی با جستجوی ضریب رگرسیون (B1) خط خط بهترین متناسب را از طریق داده های شما پیدا می کند که کل خطای (e) مدل را به حداقل می رساند.

در حالی که می توانید یک رگرسیون خطی را با دست انجام دهید، این یک فرایند خسته کننده است، بنابراین اکثر افراد از برنامه های آماری برای کمک به آن ها در تجزیه و تحلیل سریع داده ها استفاده می کنند.

رگرسیون خطی ساده در R

R یک برنامه آماری رایگان، قدرتمند و پر کاربرد است. مجموعه داده را بارگیری کنید تا خودتان با استفاده از مثال درآمد و خوشبختی آن را امتحان کنید.

Dataset for simple linear regression (.csv)

داده های data.data را در محیط R خود بارگیری کرده و سپس دستور زیر را برای تولید یک مدل خطی توصیف کننده رابطه بین درآمد و خوشبختی اجرا کنید:

این کد داده هایی را که جمع آوری کرده اید می گیرد data = income.data و اثر متغیر مستقل را محاسبه می کند income بر روی متغیر وابسته دارد happiness با استفاده از معادله برای مدل خطی: lm().

 

آزمون t، رگرسیون خطی ساده

آزمون t، رگرسیون خطی ساده – کالج مدیریت

 

تفسیر نتایج- آزمون t، رگرسیون خطی ساده

برای مشاهده نتایج مدل، می توانید از summary() تابع در R:

summary(income.happiness.lm)

این تابع مهمترین پارامترها را از مدل خطی گرفته و در جدول قرار می دهد که به شکل زیر است:

Simple linear regression summary output in R

این جدول خروجی ابتدا فرمولی را که برای تولید نتایج استفاده شده است تکرار می کند (“تماس”)، سپس باقیمانده مدل (“باقی مانده”) را خلاصه می کند، که ایده ای از چگونگی متناسب بودن مدل با داده های واقعی را ارائه می دهد.

بعد جدول “ضرایب” است. ردیف اول تخمین y-intercept را می دهد و ردیف دوم ضریب رگرسیون مدل را می دهد.

ردیف ۱ جدول برچسب گذاری شده است (Intercept). این y- رهگیری معادله رگرسیون است، با مقدار ۰٫۲۰٫ اگر می خواهید مقادیر خوشبختی را در طیف وسیعی از درآمد که مشاهده کرده اید، پیش بینی کنید:

happiness = ۰٫۲۰ + ۰٫۷۱*income ± ۰٫۰۱۸

ردیف بعدی در جدول “ضرایب” درآمد است. این سطری است که تأثیر تخمینی درآمد بر شادی گزارش شده را توصیف می کند:

ستون برآورد اثر تخمینی است که ضریب رگرسیون یا مقدار r2 نیز نامیده می شود. عدد موجود در جدول (۷۱۳/۰) به ما می گوید که به ازای هر یک واحد افزایش درآمد (که در آن یک واحد درآمد = ۱۰،۰۰۰ دلار) یک افزایش ۰٫۷۱ واحدی مربوط به خوشبختی گزارش شده وجود دارد (که در آن شادی مقیاس ۱ تا ۱۰ است).

Std. ستون خطا خطای استاندارد برآورد را نشان می دهد. این عدد نشان می دهد که در تخمین ما از رابطه بین درآمد و خوشبختی تنوع وجود دارد.

ستون مقدار t آمار آزمون را نشان می دهد. درصورتی که روش دیگری تعیین نکنید، آمار آزمون مورد استفاده در رگرسیون خطی مقدار t از یک آزمون t دو طرفه است. هرچه آمار آزمون بزرگتر باشد، احتمال وقوع نتایج ما به طور تصادفی کمتر است.

ستون Pr (> | t |) مقدار p را نشان می دهد. این عدد به ما می گوید که در صورت صحت فرضیه صفر عدم تأثیر، احتمالاً می توان تأثیر تخمینی درآمد را بر شادی مشاهده کرد.

از آنجا که مقدار p بسیار کم است (۰۰۱/۰> p)، می توانیم فرضیه صفر را رد کنیم و نتیجه بگیریم که درآمد از نظر آماری تأثیر معناداری بر خوشبختی دارد.

سه خط آخر خلاصه مدل آماری درباره کل مدل است. مهمترین نکته ای که در اینجا باید مورد توجه قرار گیرد مقدار p مدل است. در اینجا قابل توجه است (۰۰۱/۰> p) ، به این معنی که این مدل برای داده های مشاهده شده مناسب است.

 

ارائه نتایج

هنگام گزارش نتایج خود، اثر برآورد شده (یعنی ضریب رگرسیون)، خطای استاندارد برآورد و مقدار p را وارد کنید. همچنین باید اعداد خود را تفسیر کنید تا برای خوانندگان خود روشن کنید که ضریب رگرسیون شما به چه معناست:

ما بین درآمد و خوشبختی رابطه معنی داری (۰۰۱ / ۰p <) پیدا کردیم (۰۱۸/۰ ۷۱ ۷۱/۰ R2) ، با افزایش ۷۱/۰ واحدی در شادی گزارش شده به ازای هر ۱۰ هزار دلار درآمد.

همچنین درج نمودار با نتایج می تواند مفید باشد. برای یک رگرسیون خطی ساده، می توانید مشاهدات را بر روی محور x و y رسم کنید و سپس خط رگرسیون و تابع رگرسیون را وارد کنید:

Simple linear regression graph

آیا می توانید مقادیر خارج از محدوده داده های خود را پیش بینی کنید؟

نه ما اغلب می گوییم که می توان از مدل های رگرسیون برای پیش بینی مقدار متغیر وابسته در مقادیر خاص متغیر مستقل استفاده کرد. با این حال، این فقط برای دامنه مقادیر درست است که ما واقعاً پاسخ را اندازه گیری کرده ایم.

حتی وقتی یک الگوی قوی در داده های خود مشاهده می کنید، نمی توانید به طور قطعی بدانید که آیا این الگو فراتر از محدوده مقادیری است که در واقع اندازه گیری کرده اید، ادامه دارد یا خیر. بنابراین، مهم است که از فراتر از آنچه داده ها در واقع به شما می گویند، جلوگیری کنید.

ادمین

حدود 6 سالی هست که در زمینه آموزش رشته مدیریت به صورت تخصصی فعالیت می کند و علاقه زیادی به کسب تجربه در زمینه بازاریابی اینترنتی و تجارت الکترونیک دارد، یک کارآفرین خستگی ناپذیر است و با انرژی حیرت انگیزی تمام قسمت های کالج مدیریت را توسعه می دهد، به سبک حرفه ای و انحصاری خود زندگی می کند و خط فکری خاصی را همیشه دنبال می کند، او رفتار هایی کاملا متفاوت نسبت به سایر مدیرانی که تا به حال دیده اید دارد...

نوشته های مشابه

نتایج

نوشتن نتایج خود در یک پایان نامه یا پایان نامه نتایج ، پس از جمع آوری و تجزیه و تحلیل…

تحلیل متنی

یک راهنمای سریع برای تحلیل متنی تحلیل متنی ، اصطلاحی گسترده برای روش های مختلف تحقیق است که برای توصیف،…