پیش بینی: اصول و تمرین (چاپ دوم)

ساخت وبلاگ

چندین پیش بینی مفید وجود دارد که هنگام استفاده از رگرسیون برای داده های سری زمانی اغلب اتفاق می افتد.

روند

معمول است که داده های سری زمانی روند روند کار را داشته باشد. یک روند خطی را می توان به سادگی با استفاده از (x_ = t ) به عنوان پیش بینی کننده مدل کرد ، [y_ = beta_0+ beta_1t+ varepsilon_t ، ] که در آن (t = 1 ، dots ، t ). متغیر روند را می توان در عملکرد TSLM () با استفاده از پیش بینی کننده روند مشخص کرد. در بخش 5. 8 ما بحث می کنیم که چگونه می توانیم روند غیرخطی را نیز الگوبرداری کنیم.

متغیرهای ساختگی

تاکنون فرض کرده ایم که هر پیش بینی کننده مقادیر عددی را می گیرد. اما در مورد اینکه پیش بینی کننده یک متغیر طبقه بندی شده فقط دو ارزش (به عنوان مثال ، "بله" و "نه") چیست؟به عنوان مثال ، چنین متغیری ممکن است بوجود بیاید ، به عنوان مثال ، هنگام پیش بینی فروش روزانه و شما می خواهید در نظر بگیرید که آیا روز یک تعطیلات عمومی است یا خیر. بنابراین پیش بینی کننده در یک تعطیلات عمومی "بله" را می گیرد و در غیر این صورت "نه".

این وضعیت هنوز هم می تواند در چارچوب مدل های چند رگرسیون با ایجاد یک "متغیر ساختگی" که مقدار 1 مربوط به "بله" و 0 مربوط به "نه" است ، اداره شود. یک متغیر ساختگی همچنین به عنوان "متغیر شاخص" شناخته می شود.

از یک متغیر ساختگی نیز می توان برای حساب کردن اطلاعات دوربرد در داده ها استفاده کرد. یک متغیر ساختگی اثر خود را به جای اینکه از این دور خارج شود ، اثر خود را حذف می کند. در این حالت ، متغیر ساختگی مقدار 1 را برای آن مشاهده و 0 در هر جای دیگر می گیرد. نمونه ای از این موارد است که یک رویداد خاص رخ داده است. به عنوان مثال هنگام پیش بینی ورود توریستی به برزیل ، ما باید در سال 2016 تأثیر المپیک تابستانی ریو دوژانیرو را به حساب آوریم.

اگر بیش از دو دسته وجود داشته باشد ، می توان متغیر را با استفاده از چندین متغیر ساختگی (یک کمتر از تعداد کل دسته ها) کدگذاری کرد. اگر یک متغیر عامل را به عنوان پیش بینی کننده مشخص کنید ، TSLM () به طور خودکار این مورد را کنترل می کند. معمولاً نیازی به ایجاد دستی متغیرهای ساختگی مربوطه نیست.

متغیرهای ساختگی فصلی

فرض کنید که ما داده های روزانه را پیش بینی می کنیم و می خواهیم روز هفته را به عنوان پیش بینی کننده حساب کنیم. سپس می توان متغیرهای ساختگی زیر را ایجاد کرد.

 

(d_ ) (d_ ) (d_ ) (d_ ) (d_ ) (d_ )
دوشنبه100000
سهشنبه010000
چهار شنبه001000
پنج شنبه000100
جمعه000010
شنبه000001
یکشنبه000000
دوشنبه100000

توجه کنید که فقط شش متغیر ساختگی برای کدگذاری هفت دسته مورد نیاز است. دلیل این امر این است که دسته هفتم (در این مورد یکشنبه) توسط رهگیری اسیر می شود و وقتی متغیرهای ساختگی همه به صفر تنظیم می شوند ، مشخص می شود.

بسیاری از مبتدیان سعی می کنند یک متغیر ساختگی هفتم را برای دسته هفتم اضافه کنند. این به عنوان "تله متغیر ساختگی" شناخته می شود ، زیرا باعث می شود رگرسیون شکست بخورد. یک پارامترهای بیش از حد برای تخمین در هنگام رهگیری نیز وجود خواهد داشت. قانون کلی استفاده از یک متغیرهای ساختگی کمتر از دسته ها است. بنابراین برای داده های سه ماهه ، از سه متغیر ساختگی استفاده کنید. برای داده های ماهانه ، از 11 متغیر ساختگی استفاده کنید. و برای داده های روزانه ، از شش متغیر ساختگی و غیره استفاده کنید.

تفسیر هر یک از ضرایب مرتبط با متغیرهای ساختگی این است که این یک اندازه گیری از تأثیر آن دسته نسبت به دسته حذف شده است. در مثال بالا ، ضریب (D_ ) مرتبط با روز دوشنبه تأثیر روز دوشنبه بر متغیر پیش بینی در مقایسه با تأثیر یکشنبه را اندازه گیری می کند. نمونه ای از تفسیر ضرایب متغیر ساختگی تخمین زده شده که فصلی سه ماهه تولید آبجو استرالیا را به دست می آورد.

اگر فصل پیش بینی را مشخص کنید ، عملکرد TSLM () به طور خودکار این وضعیت را اداره می کند.

مثال: تولید سه ماهه آبجو استرالیا

داده های تولید آبجو سه ماهه استرالیا را که دوباره در شکل 5. 14 نشان داده شده است ، به یاد بیاورید.

Australian quarterly beer production.

شکل 5. 14: تولید سه ماهه آبجو استرالیا.

ما می خواهیم ارزش تولید آبجو آینده را پیش بینی کنیم. ما می توانیم این داده ها را با استفاده از یک مدل رگرسیون با یک روند خطی و متغیرهای ساختگی سه ماهه مدل کنیم ، [y_ = beta_ + beta_ t + beta_d_ + beta_3 d_ + beta_4 d_ + varepsilon_ ، ] جایی که (d_ =1 ) اگر (t ) در ربع (i ) و 0 در غیر این صورت باشد. متغیر سه ماهه اول حذف شده است ، بنابراین ضرایب مرتبط با سایر محله ها اقدامات مربوط به تفاوت بین آن محله ها و سه ماهه اول است.

توجه داشته باشید که روند و فصل در فضای کاری R اشیاء نیستند. آنها به طور خودکار توسط TSLM () ایجاد می شوند که به این روش مشخص شوند.

یک روند نزولی متوس ط-0. 34 مگالیت در هر سه ماه وجود دارد. به طور متوسط ، سه ماهه دوم تولید 34. 7 مگالیتر پایین تر از سه ماهه اول ، سه ماهه سوم تولید 17. 8 مگالیتر پایین تر از سه ماهه اول است و سه ماهه چهارم تولید 72. 8 مگالیتر بالاتر از سه ماهه اول است.

Time plot of beer production and predicted beer production.

شکل 5. 15: طرح زمانی تولید آبجو و پیش بینی تولید آبجو.

Actual beer production plotted against predicted beer production.

شکل 5. 16: تولید واقعی آبجو در برابر تولید آبجو پیش بینی شده ترسیم شده است.

متغیرهای مداخله

اغلب لازم است مداخلاتی که ممکن است بر متغیر پیش بینی شده تأثیر گذاشته باشد، مدل سازی شود. به عنوان مثال، فعالیت رقبا، هزینه های تبلیغاتی، اقدام صنعتی و غیره، همگی می توانند تأثیر داشته باشند.

هنگامی که اثر فقط برای یک دوره طول می کشد، از یک متغیر "spike" استفاده می کنیم. این یک متغیر ساختگی است که در دوره مداخله مقدار یک و در جای دیگر صفر می‌گیرد. یک متغیر spike معادل یک متغیر ساختگی برای رسیدگی به یک نقطه پرت است.

سایر مداخلات اثر فوری و دائمی دارند. اگر مداخله ای باعث تغییر سطح شود (یعنی مقدار سری به طور ناگهانی و دائمی از زمان مداخله تغییر کند)، از متغیر "گام" استفاده می کنیم. یک متغیر مرحله ای قبل از مداخله مقدار صفر و از زمان مداخله به بعد یک را می گیرد.

شکل دیگر اثر دائمی تغییر شیب است. در اینجا مداخله با استفاده از یک روند خطی تکه ای انجام می شود. روندی که در زمان مداخله خم می شود و بنابراین غیرخطی است. ما در این مورد در بخش 5. 8 بحث خواهیم کرد.

روزهای معاملاتی

تعداد روزهای معامله در یک ماه می تواند به طور قابل توجهی متفاوت باشد و می تواند تأثیر قابل توجهی بر داده های فروش داشته باشد. برای اجازه دادن به این امر، تعداد روزهای معاملاتی در هر ماه را می توان به عنوان یک پیش بینی در نظر گرفت.

برای داده های ماهانه یا فصلی، تابع bizdays () تعداد روزهای معاملاتی را در هر دوره محاسبه می کند.

جایگزینی که اثرات روزهای مختلف هفته را امکان پذیر می کند دارای پیش بینی های زیر است: [شروع x_ &= ext \ x_ &= ext \ & vdots \ x_ &= ext end]

تاخیرهای توزیع شده

اغلب مفید است که هزینه های تبلیغاتی را به عنوان یک پیش بینی در نظر بگیرید. با این حال، از آنجایی که تأثیر تبلیغات می‌تواند فراتر از کمپین واقعی باقی بماند، باید مقادیر عقب مانده هزینه‌های تبلیغات را نیز لحاظ کنیم. بنابراین، ممکن است از پیش بینی کننده های زیر استفاده شود.[شروع x_ &= ext \ x_ &= ext \ & vdots \ x_ &= ext end]

معمول است که با افزایش تاخیر، ضرایب کاهش یابد، اگرچه این خارج از حوصله این کتاب است.

عید پاک

عید پاک با اکثر تعطیلات متفاوت است زیرا هر سال در یک تاریخ برگزار نمی شود و تأثیر آن می تواند چندین روز ادامه یابد. در این مورد، یک متغیر ساختگی را می توان با مقدار یک که تعطیلات در دوره زمانی خاص قرار می گیرد و در غیر این صورت صفر می شود استفاده کرد.

با داده های ماهانه ، اگر عید پاک در ماه مارس سقوط کند ، متغیر ساختگی در ماه مارس ارزش 1 را می گیرد و اگر در ماه آوریل سقوط کند ، متغیر ساختگی ارزش 1 را در ماه آوریل می گیرد. هنگامی که عید پاک از ماه مارس شروع می شود و در ماه آوریل به پایان می رسد ، متغیر ساختگی به طور متناسب بین ماه ها تقسیم می شود.

عملکرد عید پاک () متغیر ساختگی را برای شما محاسبه می کند.

سریال فوریه

جایگزینی برای استفاده از متغیرهای ساختگی فصلی ، به ویژه برای دوره های طولانی فصلی ، استفاده از اصطلاحات فوریه است. ژان باپتیست فوریه یک ریاضیدان فرانسوی بود که در دهه 1700 متولد شد و نشان داد که یک سری از اصطلاحات سینوسی و کسین فرکانس های مناسب می تواند هر عملکرد دوره ای را تقریبی کند. ما می توانیم از آنها برای الگوهای فصلی استفاده کنیم.

اگر (m ) دوره فصلی است ، پس از آن چند اصطلاح اول فوریه توسط [x_ = sin سمت چپ ( textStyle frac "داده می شود<2pi t> راست) ، x_ = cos سمت چپ ( textStyle frac<2pi t> راست) ، x_ = sin سمت چپ ( textStyle frac<4pi t> راست) ، ] [x_ = cos سمت چپ ( textStyle frac<4pi t> راست) ، x_ = sin سمت چپ ( textStyle frac<6pi t> راست) ، x_ = cos سمت چپ ( textStyle frac<6pi t> راست) ، ] و غیره. اگر فصلی ماهانه داشته باشیم و از 11 مورد اول این متغیرهای پیش بینی کننده استفاده کنیم ، دقیقاً همان پیش بینی هایی را با استفاده از 11 متغیر ساختگی بدست می آوریم.

با اصطلاحات فوریه ، ما اغلب به پیش بینی های کمتری نسبت به متغیرهای ساختگی احتیاج داریم ، به خصوص وقتی (M ) بزرگ باشد. این باعث می شود آنها برای داده های هفتگی مفید باشند ، به عنوان مثال ، جایی که (m تقریبا 52 ). برای دوره های فصلی کوتاه (به عنوان مثال ، داده های سه ماهه) ، استفاده از اصطلاحات فوریه نسبت به متغیرهای ساختگی فصلی ، مزیت کمی دارد.

این اصطلاحات فوریه با استفاده از عملکرد Fourier () تولید می شود. به عنوان مثال ، داده های آبجو استرالیا را می توان مانند این مدل سازی کرد.

اولین استدلال برای فوریه () به آن اجازه می دهد تا دوره فصلی (m ) و طول پیش بینی کننده ها را شناسایی کند. استدلال دوم K مشخص می کند که چه تعداد جفت گناه و اصطلاحات COS را شامل می شود. حداکثر مجاز (k = m/2 ) است که (m ) دوره فصلی است. از آنجا که ما در اینجا از حداکثر استفاده کرده ایم ، نتایج با نتایج به دست آمده هنگام استفاده از متغیرهای ساختگی فصلی یکسان است.

اگر فقط از دو اصطلاح اول فوریه استفاده شود ( (x_ ) و (x_ )) ، الگوی فصلی یک موج سینوسی ساده را دنبال می کند. یک مدل رگرسیون حاوی اصطلاحات فوریه اغلب رگرسیون هارمونیک خوانده می شود زیرا اصطلاحات پی در پی فوریه بیانگر هارمونیک دو اصطلاح اول فوریه است.

مقالات آموزش فارکس...
ما را در سایت مقالات آموزش فارکس دنبال می کنید

برچسب : نویسنده : بهزاد فراهانی بازدید : 39 تاريخ : شنبه 12 فروردين 1402 ساعت: 14:45