الگوریتم رگرسیون خطی (Linear Regression)


الگوریتم رگرسیون خطی (Linear Regression) یکی از الگوریتم ‌های یادگیری ماشین است که برای مدل‌ سازی رابطه بین یک متغیر وابسته (یا ویژگی وابسته) با یک یا چند متغیر مستقل (یا ویژگی‌های مستقل) به کار میرود. این الگوریتم یک رابطه خطی بین ویژگی‌ های مستقل و متغیر وابسته را مدل می ‌کند.

خطی بودن الین الگوریتم به شکلی است که رابطه بین متغیرهای مستقل و وابسته خطی است. به عبارت دیگر، می‌ خواهیم یک خط را بکشیم که بهترین تطابق را با داده‌ ها داشته باشد.

استقلال خطاها (استقلال همبستگی): فرض می‌شود که خطاها (اختلاف بین پیش‌بینی مدل و واقعیت) مستقل از یکدیگر باشند.

همسانی واریانس خطاها (همسانی داده): فرض می‌شود که واریانس خطاها برای هر سطح متغیرهای مستقل ثابت باشد. به عبارت دیگر، اختلافات بین خط پیش‌بینی شده و داده‌های واقعی برای هر سطح متغیرهای مستقل یکسان است.

هدف از رگرسیون خطی یافتن بهترین مقادیر برای وزن‌ها (پارامترها) است که مدل بهترین پیش‌بینی را ارائه دهد. این کار به طور معمول با استفاده از روش کمترین مربعات (Least Squares) انجام می‌شود.



الگوریتم رگرسیون خطی Linear Regression


نحوه عملکرد الگوریتم رگرسیون خطی 


عملکرد الگوریتم رگرسیون خطی به صورت زیر است:


1.آموزش مدل: در الگوریتم رگرسیون خطی با استفاده از داده‌ های آموزشی (مجموعه داده‌ هایی که مقادیر ویژگی‌ها و متغیر وابسته آن‌ها معلوم است) آموزش داده می‌شود. هدف از آموزش مدل یافتن بهترین وزن‌ ها (پارامترها) برای تطابق خطی با داده‌ ها به نحوی که مدل توانمندی خوبی در پیش ‌بینی متغیر وابسته داشته باشد.


2-پیش بینی: پیش‌ بینی در این الگوریتم به صورتی است که پس از آموزش مدل، می‌توان از آن برای پیش‌ بینی مقادیر جدید متغیر وابسته با استفاده از مقادیر ویژگی ‌های جدید استفاده کرد. فرآیند پیش ‌بینی از معادله خطی تا بهینه ‌سازی وزن‌ها با استفاده از مقدار واقعی و پیش‌ بینی شده ادامه می ‌یابد.


3.معیارسنجی: عملکرد مدل با استفاده از معیارهایی مانند میانگین مربعات خطا (Mean Squared Error) یا R- squared  بررسی می‌شود و این معیارها نشان‌دهنده میزان انطباق مدل با داده‌های واقعی هستند.


4.تطابق خطی: خط تطابق (تا خودی خط بهترین تطابق) توسط بهینه ‌سازی وزن‌ها در مرحله آموزش به دست می‌آید. هدف این بهینه‌ سازی کاهش خطا و ایجاد یک خط که بهترین تطابق را با داده ‌های واقعی داشته باشد است.


5.پیش‌بینی در اندازه واقعی: پس از اینکه آموزش مدل و بهینه ‌سازی وزن‌ها انجام شد، می‌ توان با استفاده از مدل پیش‌ بینی‌ های واقعی در اندازه واقعی انجام داد.


6.ارزیابی مدل: مدل باید با داده‌ های جدید ارزیابی شود تا اطمینان حاصل شود که از داده‌ های آموزشی به خوبی یاد گرفته و قابلیت پیش‌بینی دارد.


7.استفاده از مدل در مسائل عملی: پس از اطمینان از عملکرد مدل، می‌ توان آن را در مسائل واقعی و برای پیش‌ بینی متغیر وابسته در شرایط جدید استفاده کرد.


در واقع، الگوریتم رگرسیون خطی از داده‌ های آموزشی یادگیری خود را فرا گرفته و یک مدل خطی ایجاد می‌ کند که بتواند متغیر وابسته را به ساده ترین شکل ممکن توسط متغیرهای مستقل پیش‌ بینی کند.



الگوریتم رگرسیون خطی Linear Regression



کاربردهای الگوریتم رگرسیون خطی 


الگوریتم رگرسیون خطی در موارد مختلف و در حوزه‌های متنوعی از علوم کاربرد دارد. در زیر، تعدادی از کاربردهای رگرسیون خطی را مشاهده می ‌کنید:


  • اقتصاد و مالی: در بخش اقتصادی و مالی از این الگوریتم برای پیش بینی قیمت ها استفاده میشود به طور مثال، پیش ‌بینی قیمت سهام، ملک، یا دارایی‌ها و... همچنین از این الگوریتم برای مدل ‌سازی رفتار بازارها برای درک عواملی که بر رفتار بازارها تأثیر می ‌گذارند.


  • بیمه: در حوزه بیمه از این الگوریتم برای پیش‌ بینی خطرات و خسارات استفاده میشود، به طور مثال پیش ‌بینی خطرات در بیمه حوادث یا بیمه خودرو و...


  • پزشکی: در زمینه پزشکی این الگوریتم پیش‌ بینی نتایج پزشکی را انجام میدهد . به طور مثال : پیش ‌بینی زمان بستری شدن بیمار در بیمارستان ، همچنین ارتباط بین عوامل و بیماری‌ ها را بررسی میکند به صورتی که ارتباط بین ویژگی‌های مشخص و احتمال بروز بیماری را ارائه میدهد.


  • بازاریابی: این الگوریتم در حوزه بازاریابی برای تحلیل تأثیر کمپین ‌های تبلیغاتی جهت تأثیر متغیرهای بازاریابی بر فروش یا نگرش مشتریان بکار میرود و علاوه بر این پیش ‌بینی فروش و مدل ‌سازی آن را بر اساس عوامل مختلف انجام میدهد.


  • مهندسی: پیش ‌بینی عملکرد سیستم ‌ها به صورتی است که  مدل‌ سازی و پیش‌ بینی عملکرد سیستم‌ها بر اساس ورودی‌ها در این الگوریتم انجام شده و همچنین مدل‌ سازی تأثیر متغیرهای مختلف نیز در بر میگیرد به طور مثال تأثیر متغیرهای زمانی بر کارایی یک سیستم.


  • کشاورزی: در حوزه کشاورزی از این الگوریتم جهت پیش‌بینی محصولات بهره برداری میشود مثلاً پیش‌بینی عملکرد محصولات کشاورزی بر اساس شرایط هواشناسی و دیگر عوامل.


  • علوم اجتماعی: در علوم اجتماعی برای تحلیل ارتباط بین متغیرها و بررسی ارتباط بین متغیرهای مختلف از این الگوریتم استفاده می شود.


  • علوم زیستی: از الگوریتم رگرسیون خطی برای پیش‌بینی تأثیرات متغیرها بر بیولوژی یا اکولوژی استفاده میشود مثلاً پیش‌بینی تأثیر تغییرات زیست محیطی بر جمعیت گونه‌ها.


  • صنعت و تولید: پیش‌بینی تقاضا در مدل ‌سازی و پیش ‌بینی تقاضا بر اساس عوامل مختلف در صنایع تولیدی نیز یکی از کاربردهای این الگوریتم است.


هر کاربردی ممکن است نیازمند تنظیمات و تطبیقات خاص خود با داده ‌ها باشد، اما رگرسیون خطی به عنوان یک ابزار قوی برای مدل‌ سازی روابط بین متغیرها مورد استفاده قرار می‌گیرد.


خلاصه مقاله 


الگوریتم رگرسیون خطی، یک از الگوریتم های یادگیری ماشین است که روابط بین یک متغیر وابسته به ویژگی ها  و متغیر مستقل عمل میکند و این رابطه به صورت خطی تعریف میشود. از این الگوریتم در حوزه های بسیاری از جمله پزشکی، صنعت تولید و کشاورزی و ... استفاده می شود.