Friday, 3 November 2017

Arima średnia ruchoma


Autoregressive Integrated Moving Average - ARIMA DEFINICJA Autoregressive Integrated Moving Average - ARIMA Model analizy statystycznej wykorzystujący dane szeregów czasowych do przewidywania przyszłych trendów. Jest to forma analizy regresji, która ma na celu przewidywanie przyszłych ruchów wzdłuż pozornie losowego spaceru mierzonego przez giełdy i rynek finansowy poprzez zbadanie różnic między wartościami w szeregu zamiast rzeczywistych wartości danych. Lagi z szeregu różnicowego określa się jako autoregresyjne, a opóźnienia w obrębie danych prognozowanych określa się jako średnią ruchomą. ZWALCZANIE Autoregressive Integrated Moving Average - ARIMA Ten typ modelu jest ogólnie określany jako ARIMA (p, d, q), z liczbami całkowitymi odnoszącymi się do autoregresji. odpowiednio zintegrowane i ruchome średnie części zbioru danych. Modelowanie ARIMA może uwzględniać trendy, sezonowość. cykle, błędy i niestacjonarne aspekty zbioru danych podczas tworzenia prognoz. Wprowadzenie do ARIMA: modele niesezonowe Równanie prognostyczne ARIMA (p, d, q): Modele ARIMA są w teorii najbardziej ogólną klasą modeli do prognozowania czasu Seria, która może być wykonana jako 8220stacja 8221 przez różnicowanie (jeśli to konieczne), być może w połączeniu z nieliniowymi transformacjami, takimi jak rejestracja lub deflacja (jeśli to konieczne). Zmienna losowa, która jest szeregiem czasowym, jest nieruchoma, jeśli jej właściwości statystyczne są stałe w czasie. Seria stacjonarna nie ma trendu, jej wahania wokół średniej mają stałą amplitudę i poruszają się w spójny sposób. tj. jego krótkoterminowe wzorce czasu losowego zawsze wyglądają tak samo w sensie statystycznym. Ten ostatni warunek oznacza, że ​​jego autokorelacje (korelacje z jego własnymi wcześniejszymi odchyleniami od średniej) pozostają stałe w czasie, lub równoważnie, że jego widmo mocy pozostaje stałe w czasie. Zmienna losowa tej postaci może być oglądana (jak zwykle) jako kombinacja sygnału i szumu, a sygnał (jeśli jest widoczny) może być wzorem szybkiej lub wolnej średniej rewersji, lub sinusoidalnej oscylacji, lub szybkiej przemiany w znaku , a także może mieć składnik sezonowy. Model ARIMA może być postrzegany jako 8220filter8221, który próbuje oddzielić sygnał od szumu, a sygnał jest następnie ekstrapolowany w przyszłość w celu uzyskania prognoz. Równanie prognostyczne ARIMA dla stacjonarnych szeregów czasowych jest równaniem liniowym (to jest typu regresyjnym), w którym predyktory składają się z opóźnień zmiennej zależnej i opóźnień błędów prognoz. Oznacza to: Przewidywaną wartość Y stałej stałej lub ważoną sumę jednej lub więcej ostatnich wartości Y i lub ważoną sumę jednej lub więcej ostatnich wartości błędów. Jeśli predykatory składają się tylko z opóźnionych wartości Y., jest to model czysto autoregresyjny (8220a-regressed8221), który jest tylko szczególnym przypadkiem modelu regresji i który może być wyposażony w standardowe oprogramowanie regresyjne. Na przykład, autoregresyjny model pierwszego rzędu (8220AR (1) 8221) dla Y jest prostym modelem regresji, w którym zmienna niezależna jest po prostu Y opóźniona o jeden okres (LAG (Y, 1) w Statgraphics lub YLAG1 w RegressIt). Jeśli niektóre z predyktorów są opóźnieniami błędów, to model ARIMA NIE jest modelem regresji liniowej, ponieważ nie ma sposobu, aby określić 8220last okres8217s błąd8221 jako zmienną niezależną: błędy muszą być obliczane na podstawie okresu do okresu kiedy model jest dopasowany do danych. Z technicznego punktu widzenia problem z wykorzystaniem opóźnionych błędów jako czynników predykcyjnych polega na tym, że przewidywania model8217 nie są liniowymi funkcjami współczynników. mimo że są liniowymi funkcjami przeszłych danych. Współczynniki w modelach ARIMA, które zawierają opóźnione błędy, muszą być oszacowane przez nieliniowe metody optymalizacji (8220hill-climbing8221), a nie przez samo rozwiązanie układu równań. Akronim ARIMA oznacza Auto-Regressive Integrated Moving Average. Lagi ze stacjonarnej serii w równaniu prognostycznym są nazywane "wartościami dodatnimi", opóźnienia błędów prognoz są nazywane "przesunięciem średniej", a szeregi czasowe, które muszą być różnicowane, aby stały się stacjonarne, są uważane za "podzielone" wersje stacjonarnej serii. Modele Random Walk i Random-Trend, modele autoregresyjne i modele wygładzania wykładniczego są szczególnymi przypadkami modeli ARIMA. Niesezonowy model ARIMA jest klasyfikowany jako model DAIMIMA (p, d, q), gdzie: p to liczba terminów autoregresyjnych, d to liczba niesezonowych różnic potrzebnych do stacjonarności, a q to liczba opóźnionych błędów prognozy w równanie predykcji. Równanie prognostyczne jest skonstruowane w następujący sposób. Po pierwsze, niech y oznacza różnicę d Y. Oznacza to: Zwróć uwagę, że druga różnica Y (przypadek d2) nie jest różnicą od 2 okresów temu. Jest to raczej różnica między pierwszą a różnicą. który jest dyskretnym analogiem drugiej pochodnej, tj. lokalnym przyspieszeniem szeregu, a nie jego lokalnym trendem. Pod względem y. ogólne równanie prognostyczne jest następujące: Tutaj parametry średniej ruchomej (9528217 s) są zdefiniowane w taki sposób, że ich znaki są ujemne w równaniu, zgodnie z konwencją wprowadzoną przez Boxa i Jenkinsa. Niektórzy autorzy i oprogramowanie (w tym język programowania R) definiują je, aby zamiast tego mieli znaki plus. Kiedy rzeczywiste liczby są podłączone do równania, nie ma dwuznaczności, ale ważne jest, aby wiedzieć, którą konwencję używa twoje oprogramowanie podczas odczytu danych wyjściowych. Często parametry są tam oznaczone przez AR (1), AR (2), 8230 i MA (1), MA (2), 8230 itd. Aby zidentyfikować odpowiedni model ARIMA dla Y. zaczynasz od określenia kolejności różnicowania (d) konieczność stacjonowania serii i usunięcia ogólnych cech sezonowości, być może w połączeniu z transformacją stabilizującą warianty, taką jak rejestracja lub deflacja. Jeśli zatrzymasz się w tym momencie i będziesz przewidywał, że zróżnicowana seria jest stała, dopasowałeś jedynie model losowego spaceru lub losowego trendu. Jednak stacjonarne serie mogą nadal mieć błędy związane z auto - korelacjami, co sugeruje, że w równaniu prognostycznym potrzebna jest również pewna liczba terminów AR (p 8805 1) i kilka warunków MA (q 8805 1). Proces określania wartości p, d i q, które są najlepsze dla danej serii czasowej, zostanie omówiony w dalszych sekcjach notatek (których linki znajdują się na górze tej strony), ale podgląd niektórych typów nietypowych modeli ARIMA, które są powszechnie spotykane, podano poniżej. ARIMA (1,0,0) Model autoregresyjny pierwszego rzędu: jeśli seria jest stacjonarna i autokorelowana, być może można ją przewidzieć jako wielokrotność jej poprzedniej wartości plus stałą. Równanie prognostyczne w tym przypadku wynosi 8230, co samo w sobie cofnęło się Y o jeden okres. Jest to model 8220ARIMA (1,0,0) constant8221. Jeżeli średnia z Y wynosi zero, wówczas nie zostałoby uwzględnione stałe wyrażenie. Jeśli współczynnik nachylenia 981 1 jest dodatni i mniejszy niż 1 w skali (musi być mniejszy niż 1 w wielkości, jeśli Y jest nieruchomy), model opisuje zachowanie polegające na odwróceniu średniej, w którym należy przypisać wartość kolejnego okresu 817 razy 981 razy jako daleko od średniej, jak ta wartość okresu. Jeżeli 981 1 jest ujemny, przewiduje zachowanie średniej odwrócenia z naprzemiennością znaków, tj. Przewiduje również, że Y będzie poniżej średniego następnego okresu, jeśli jest powyżej średniej tego okresu. W modelu autoregresyjnym drugiego rzędu (ARIMA (2,0,0)), po prawej stronie pojawi się również termin Y t-2 i tak dalej. W zależności od znaków i wielkości współczynników, model ARIMA (2,0,0) może opisywać układ, którego średnia rewersja zachodzi w sposób oscylacyjny sinusoidalnie, podobnie jak ruch masy na sprężynie poddanej losowym wstrząsom . Próba losowa ARIMA (0,1,0): Jeśli seria Y nie jest nieruchoma, najprostszym możliwym modelem jest model losowego spaceru, który można uznać za ograniczający przypadek modelu AR (1), w którym autoregresyjny Współczynnik jest równy 1, tzn. szeregowi z nieskończenie powolną średnią rewersją. Równanie predykcji dla tego modelu można zapisać jako: gdzie stałym terminem jest średnia zmiana okresu do okresu (tj. Dryf długoterminowy) w Y. Ten model może być dopasowany jako model regresji bez przechwytywania, w którym pierwsza różnica Y jest zmienną zależną. Ponieważ zawiera on (tylko) niesezonową różnicę i stały termin, jest klasyfikowany jako model DAIMA (0,1,0) ze stałą. Często Modelem bezładnego spaceru byłby ARIMA (0,1; 0) model bez stałego ARIMA (1,1,0) różny model autoregresyjny pierwszego rzędu: Jeśli błędy modelu chodzenia swobodnego są autokorelowane, być może problem można rozwiązać, dodając jedno opóźnienie zmiennej zależnej do równania predykcji - - to znaczy przez regresję pierwszej różnicy Y, która sama w sobie jest opóźniona o jeden okres. To przyniosłoby następujące równanie predykcji: które można przekształcić na To jest autoregresyjny model pierwszego rzędu z jednym rzędem niesezonowego różnicowania i stałym terminem - tj. model ARIMA (1,1,0). ARIMA (0,1,1) bez stałego prostego wygładzania wykładniczego: Inna strategia korekcji błędów związanych z autokorelacją w modelu losowego spaceru jest zasugerowana przez prosty model wygładzania wykładniczego. Przypomnijmy, że w przypadku niektórych niestacjonarnych szeregów czasowych (na przykład takich, które wykazują głośne wahania wokół wolno zmieniającej się średniej), model chodzenia losowego nie działa tak dobrze, jak średnia ruchoma wartości z przeszłości. Innymi słowy, zamiast brać ostatnią obserwację jako prognozę następnej obserwacji, lepiej jest użyć średniej z ostatnich kilku obserwacji, aby odfiltrować hałas i dokładniej oszacować średnią miejscową. Prosty model wygładzania wykładniczego wykorzystuje wykładniczo ważoną średnią ruchomą przeszłych wartości, aby osiągnąć ten efekt. Równanie predykcji dla prostego modelu wygładzania wykładniczego można zapisać w wielu matematycznie równoważnych formach. jedną z nich jest tak zwana forma 8220, korekta zera 8221, w której poprzednia prognoza jest korygowana w kierunku popełnionego błędu: Ponieważ e t-1 Y t-1 - 374 t-1 z definicji, można to przepisać jako : co jest równaniem ARIMA (0,1,1) - bez stałej prognozy z 952 1 1 - 945. Oznacza to, że możesz dopasować proste wygładzanie wykładnicze, określając je jako model ARIMA (0,1,1) bez stała, a szacowany współczynnik MA (1) odpowiada 1-minus-alfa w formule SES. Przypomnijmy, że w modelu SES średni wiek danych w prognozach z wyprzedzeniem 1 roku wynosi 1 945. Oznacza to, że będą one pozostawać w tyle za trendami lub punktami zwrotnymi o około 1 945 okresów. Wynika z tego, że średni wiek danych w prognozach 1-okresowych modelu ARIMA (0,1,1) - bez stałej wynosi 1 (1 - 952 1). Tak więc, na przykład, jeśli 952 1 0.8, średnia wieku wynosi 5. Ponieważ 952 1 zbliża się do 1, ARIMA (0,1,1) - bez stałego modelu staje się bardzo długookresową średnią ruchomą, a jako 952 1 zbliża się do 0, staje się modelem losowego chodzenia bez dryfu. Jaki jest najlepszy sposób korekcji autokorelacji: dodawanie terminów AR lub dodawanie terminów MA W dwóch poprzednich modelach omówionych powyżej, problem związanych z autokorelacją błędów w modelu losowego spaceru ustalono na dwa różne sposoby: przez dodanie opóźnionej wartości różnej serii do równania lub dodanie opóźnionej wartości błędu prognozy. Które podejście jest najlepsze Zasada praktyczna dla tej sytuacji, która zostanie omówiona bardziej szczegółowo w dalszej części, polega na tym, że pozytywna autokorelacja jest zwykle najlepiej traktowana przez dodanie do modelu warunku AR, a negatywna autokorelacja jest zwykle najlepiej traktowana przez dodanie Termin magisterski. W biznesowych i ekonomicznych szeregach czasowych negatywna autokorelacja często pojawia się jako artefakt różnicowania. (Ogólnie rzecz biorąc, różnicowanie zmniejsza pozytywną autokorelację, a nawet może spowodować przełączenie z autokorelacji dodatniej na ujemną). Tak więc model ARIMA (0,1,1), w którym różnicowanie jest połączone z terminem MA, jest częściej używany niż Model ARIMA (1,1,0). ARIMA (0,1,1) o stałym prostym wygładzaniu wykładniczym ze wzrostem: Dzięki wdrożeniu modelu SES jako modelu ARIMA można uzyskać pewną elastyczność. Po pierwsze, szacowany współczynnik MA (1) może być ujemny. odpowiada to współczynnikowi wygładzania większemu niż 1 w modelu SES, co zwykle nie jest dozwolone w procedurze dopasowania modelu SES. Po drugie, masz możliwość włączenia stałego warunku w modelu ARIMA, jeśli chcesz, aby oszacować średni niezerowy trend. Model ARIMA (0,1,1) ze stałą ma równanie prognozy: prognozy jednokresowe z tego modelu są jakościowo podobne do tych z modelu SES, z tym że trajektoria prognoz długoterminowych jest zwykle linia nachylenia (której nachylenie jest równe mu) zamiast linii poziomej. ARIMA (0,2,1) lub (0,2,2) bez stałego liniowego wygładzania wykładniczego: liniowe modele wygładzania wykładniczego są modelami ARIMA, które wykorzystują dwie niesezonowe różnice w połączeniu z terminami MA. Druga różnica w serii Y nie jest po prostu różnicą między Y a nią opóźnioną o dwa okresy, ale raczej jest pierwszą różnicą pierwszej różnicy - a. e. zmiana w Y w okresie t. Tak więc druga różnica Y w okresie t jest równa (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Druga różnica funkcji dyskretnej jest analogiczna do drugiej pochodnej funkcji ciągłej: mierzy ona przyspieszenie cytadania lub inną krzywiznę w funkcji w danym punkcie czasu. Model ARIMA (0,2,2) bez stałej przewiduje, że druga różnica szeregu równa się funkcji liniowej dwóch ostatnich błędów prognozy: która może być uporządkowana jako: gdzie 952 1 i 952 2 to MA (1) i Współczynniki MA (2). Jest to ogólny liniowy model wygładzania wykładniczego. w zasadzie taki sam jak model Holt8217s, a model Brown8217s to szczególny przypadek. Wykorzystuje wykładniczo ważone średnie ruchome do oszacowania zarówno lokalnego poziomu, jak i lokalnego trendu w serii. Długoterminowe prognozy z tego modelu zbiegają się do linii prostej, której nachylenie zależy od średniej tendencji obserwowanej pod koniec serii. ARIMA (1,1,2) bez stałego liniowego tłumienia wykładniczego. Ten model jest zilustrowany na załączonych slajdach w modelach ARIMA. Ekstrapoluje lokalny trend na końcu serii, ale spłaszcza go na dłuższych horyzontach prognozy, wprowadzając nutę konserwatyzmu, praktykę, która ma empiryczne wsparcie. Zobacz artykuł na ten temat: "Dlaczego działa Damped Trend" autorstwa Gardnera i McKenziego oraz artykuł "Zgodny z legendą" Armstronga i in. dla szczegółów. Ogólnie zaleca się trzymać modele, w których co najmniej jedno z p i q jest nie większe niż 1, tj. Nie próbować dopasować modelu takiego jak ARIMA (2,1,2), ponieważ może to prowadzić do przeuczenia oraz pytania o współczynniku równomolowym, które omówiono bardziej szczegółowo w uwagach dotyczących struktury matematycznej modeli ARIMA. Implementacja arkusza kalkulacyjnego: modele ARIMA, takie jak opisane powyżej, można łatwo wdrożyć w arkuszu kalkulacyjnym. Równanie predykcji jest po prostu równaniem liniowym, które odnosi się do przeszłych wartości pierwotnych szeregów czasowych i przeszłych wartości błędów. W ten sposób można skonfigurować arkusz kalkulacyjny prognozowania ARIMA, przechowując dane w kolumnie A, formułę prognozowania w kolumnie B i błędy (dane minus prognozy) w kolumnie C. Formuła prognozowania w typowej komórce w kolumnie B byłaby po prostu wyrażenie liniowe odnoszące się do wartości w poprzednich wierszach kolumn A i C, pomnożone przez odpowiednie współczynniki AR lub MA zapisane w komórkach w innym miejscu arkusza kalkulacyjnego. Ogólne sezonowe modele ARIMA: (0,1,1) x (0,1,1) ) itp. Zarys sezonowego modelowania ARIMA: sezonowa część modelu ARIMA ma taką samą strukturę jak część nie-sezonowa: może mieć czynnik AR, czynnik MA i kolejność różnicowania. W sezonowej części modelu wszystkie te czynniki działają w ramach wielokrotności opóźnień s (liczba okresów w sezonie). Sezonowy model ARIMA jest klasyfikowany jako model ARIMA (p, d, q) x (P, D, Q), gdzie liczba sezonowych autoregresyjnych (SAR) określeń, liczba różnic sezonowych, liczba sezonów sezonowej średniej ruchomej (SMA) Identyfikując model sezonowy, pierwszym krokiem jest ustalenie, czy różnica sezonowa jest potrzebna, czy nie, oprócz różnicy nie sezonowej. Powinieneś spojrzeć na wykresy szeregów czasowych i wykresy ACF i PACF dla wszystkich możliwych kombinacji 0 lub 1 różnicy nie-sezonowej i 0 lub 1 różnicy sezonowej. Uwaga: nie używaj więcej niż JEDNĄ różnicę sezonową, ani więcej niż DWIE różnice całkowite (sezonowe i niesezonowe łącznie). Jeśli sezonowość jest zarówno silna, jak i stabilna w czasie (np. Wysoka w lecie i niska w zimie lub na odwrót), prawdopodobnie należy użyć sezonowej różnicy niezależnie od tego, czy korzystasz z niesezonowej różnicy, ponieważ zapobiegają sezonowości w wycinkach w prognozach długoterminowych. Dodajmy to do naszej listy zasad identyfikacji modeli Zasada 12: Jeśli seria ma silny i spójny wzór sezonowy, powinieneś użyć kolejności sezonowego różnicowania - ale nigdy nie używaj więcej niż jednego rzędu sezonowego różnicowania lub więcej niż 2 rozkazy całkowitej różnicy (sezonowe). Sygnatura czystego SAR lub zachowania czystego SMA jest podobna do sygnatury czystego AR lub czystego zachowania MA, z tym wyjątkiem, że wzór pojawia się w przypadku wielokrotności opóźnień s w ACF i PACF. Na przykład, proces czystego SAR (1) ma skoki w ACF w opóźnieniach s, 2s, 3s, itp., Podczas gdy PACF odcina po lagach s. Odwrotnie, czysty proces SMA (1) ma skoki w PACF w opóźnieniach s, 2s, 3s, itp., Podczas gdy ACF odcina po opóźnieniu s. Sygnatura SAR zwykle występuje, gdy autokorelacja w sezonie jest pozytywna, podczas gdy sygnatura SMA zwykle występuje, gdy sezonowa autokorelacja jest ujemna. stąd: Zasada 13: Jeśli autokorelacja w okresie sezonowym jest dodatnia. rozważ dodanie do modelu warunku SAR. Jeśli autokorelacja w okresie sezonowym jest ujemna. rozważ dodanie do modelu terminu SMA. Staraj się unikać mieszania terminów SAR i SMA w tym samym modelu i unikaj używania więcej niż jednego z nich. Zwykle wystarczający jest termin SAR (1) lub SMA (1). Rzadko będziesz spotykał się z oryginalnym procesem SAR (2) lub SMA (2), a jeszcze rzadziej dysponujesz wystarczającą ilością danych, aby oszacować 2 lub więcej współczynników sezonowych bez zastosowania algorytmu oszacowania w pętli sprzężenia zwrotnego. Chociaż wydaje się, że sezonowy model ARIMA miał tylko kilka parametrów, pamiętaj, że w celu wykonania inwentaryzacji wymaga oszacowania wartości jednego lub dwóch sezonów parametrów domyślnych. Dlatego powinieneś mieć co najmniej 4 lub 5 sezonów danych, aby pasowały do ​​sezonowego modelu ARIMA. Prawdopodobnie najczęściej stosowanym sezonowym modelem ARIMA jest model (0,1,1) x (0,1,1) - tj. model MA (1) xSMA (1) z różnicą zarówno sezonową, jak i nie-sezonową. Jest to w gruncie rzeczy model posezonowy o wykładniczym wykładniku wygładzającym. Kiedy sezonowe modele ARIMA są dopasowane do rejestrowanych danych, są w stanie śledzić mnożnikowy wzór sezonowy. Przykład: ponowna ocena serii AUTOSALE Przypomnijmy, że wcześniej prognozowaliśmy serię sprzedaży detalicznej samochodów, stosując kombinację deflacji, korekty sezonowej i wygładzania wykładniczego. Spróbuj teraz dopasować tę samą serię do sezonowych modeli ARIMA, używając tej samej próbki danych od stycznia 1970 do maja 1993 (281 obserwacji). Tak jak poprzednio będziemy pracować z deflowaną sprzedażą auto - tj. użyjemy serii AUTOSALECPI jako zmiennej wejściowej. Oto wykresy szeregów czasowych i wykresy ACF i PACF z oryginalnej serii, które są otrzymywane w procedurze prognozowania poprzez wykreślenie wartości cząstkowych modelu ARIMA (0,0,0) x (0,0,0) ze stałą: Wzór mostka z zawieszeniem w ACF jest typowy dla serii, która jest zarówno niestacjonarna, jak i silnie sezonowa. Oczywiście potrzebujemy co najmniej jednej kolejności różnicowania. Jeśli przyjmiemy niesezonową różnicę, odpowiednie wykresy są następujące: Różna seria (reszty modelu losowego chodu ze wzrostem) wygląda mniej więcej stacjonarnie, ale wciąż jest bardzo silna autokorelacja w sezonie (opóźnienie 12). Ponieważ struktura sezonowa jest silna i stabilna, wiemy (zgodnie z zasadą 12), że będziemy chcieli zastosować kolejność sezonowego różnicowania w modelu. Oto jak wygląda obraz po różnicy sezonowej (tylko): Odmienna sezonowo seria pokazuje bardzo silny wzór pozytywnej autokorelacji, jak pamiętamy z naszej wcześniejszej próby dopasowania sezonowego modelu spaceru losowego. Może to być sygnatura cytatu - lub może sygnalizować potrzebę innej różnicy. Jeśli przyjmiemy zarówno sezonową, jak i niesezonową różnicę, uzyskamy następujące wyniki: Są to oczywiście pozostałości z sezonowego modelu trendu losowego, który wcześniej dopasowaliśmy do danych sprzedaży automatycznej. Teraz widzimy wyraźne oznaki łagodnego przesiewania. dodatnie skoki w ACF i PACF stały się ujemne. Jaka jest prawidłowa kolejność różnic Jedna dodatkowa informacja, która może być pomocna, to obliczenie statystyk błędów serii na każdym poziomie różnicowania. Możemy je obliczyć, dopasowując odpowiednie modele ARIMA, w których używane jest tylko różnicowanie: Najmniejsze błędy, zarówno w okresie oszacowania, jak i okresie sprawdzania, są uzyskiwane przez model A, który wykorzystuje jedną różnicę każdego typu. To, wraz z pojawieniem się powyższych działek, zdecydowanie sugeruje, że powinniśmy stosować zarówno sezonową, jak i niesezonową różnicę. Zauważ, że oprócz nieodpłatnego stałego terminu, model A jest modelem sezonowego trendu losowego (SRT), podczas gdy model B jest jedynie sezonowym modelem losowego spaceru (SRW). Jak zauważyliśmy wcześniej podczas porównywania tych modeli, model SRT wydaje się pasować lepiej niż model SRW. W poniższej analizie postaramy się ulepszyć te modele poprzez dodanie sezonowych warunków ARIMA. Wróć na górę strony. Często używany model ARIMA (0,1,1) x (0,1,1): model SRT plus warunki MA (1) i SMA (1) Wracając do ostatniego zestawu wykresów powyżej, należy zauważyć, że z jedną różnicą w każdym typie występuje ujemny skok w ACF przy opóźnieniu 1, a także ujemny skok w ACF przy opóźnieniu 12. mając na uwadze, że PACF wykazuje bardziej stopniowy wzór kwotowania w pobliżu obu tych opóźnień. Stosując nasze zasady do identyfikowania modeli ARIMA (w szczególności Zasada 7 i Zasada 13), możemy teraz stwierdzić, że model SRT zostałby ulepszony przez dodanie terminu MA (1), a także terminu SMA (1). Ponadto, zgodnie z zasadą 5, wykluczamy stałą, ponieważ zaangażowane są dwa rozkazy różnicowania. Jeśli to wszystko zrobimy, otrzymamy model ARIMA (0,1,1) x (0,1,1). który jest najczęściej używanym sezonowym modelem ARIMA. Jego równanie prognostyczne jest następujące: gdzie 952 1 to współczynnik MA (1), a 920 1 (kapitał teta-1) to współczynnik SMA (1). Zauważ, że jest to po prostu sezonowy model trendu losowego, który jest przewidziany przez dodanie wielokrotności błędów w opóźnieniach 1, 12 i 13. Zwróć też uwagę, że współczynnik błędu opóźnienia-13 jest iloczynem MA (1) i Współczynniki SMA (1). Model ten jest koncepcyjnie podobny do modelu Winters, o ile skutecznie stosuje wyrównanie wykładnicze do poziomu, trendu i sezonowości jednocześnie, chociaż opiera się na solidniejszych podstawach teoretycznych, w szczególności w odniesieniu do obliczania przedziałów ufności dla prognoz długoterminowych. Jego pozostałe wykresy w tym przypadku są następujące: chociaż niewielka ilość autokorelacji utrzymuje się w opóźnieniu 12, ogólny wygląd wykresów jest dobry. Wyniki dopasowania modelu pokazują, że oszacowane współczynniki MA (1) i SMA (1) (uzyskane po 7 iteracjach) są rzeczywiście znaczące: Prognozy z modelu przypominają modele sezonowego trendu losowego - tj. na końcu serii podnoszą sezonowość i lokalny trend - ale są nieco gładsze, ponieważ zarówno sezonowość, jak i trend są skutecznie uśredniane (w sposób wygładzający wykładniczy) w ciągu ostatnich kilka sezonów: Co naprawdę robi ten model? Możesz myśleć o tym w następujący sposób. Najpierw oblicza różnicę między wartością każdego miesiąca8217 a 8220 średnią ważoną historyczną średnią8221 dla tego miesiąca, która jest obliczana przez zastosowanie wygładzania wykładniczego do wartości obserwowanych w tym samym miesiącu w poprzednich latach, gdzie wielkość wygładzania jest określona przez SMA (1). ) współczynnik. Następnie stosuje się proste wygładzanie wykładnicze do tych różnic, aby przewidzieć odchylenie od średniej historycznej, która będzie obserwowana w przyszłym miesiącu. Wartość współczynnika SMA (1) w pobliżu 1,0 sugeruje, że wiele pór roku danych jest używanych do obliczenia średniej historycznej dla danego miesiąca roku. Przypomnijmy, że współczynnik MA (1) w modelu ARIMA (0,1,1) odpowiada 1-minus-alfa w odpowiadającym wykładniczym modelu wyrównującym, a średni wiek danych w prognozie wykładniczej modelu wygładzania wynosi 1alfa. Współczynnik SMA (1) ma podobną interpretację w odniesieniu do średnich w różnych porach roku. Tutaj wartość 0,91 sugeruje, że średni wiek danych wykorzystywanych do oszacowania historycznego wzoru sezonowego wynosi nieco ponad 10 lat (prawie połowa długości zbioru danych), co oznacza, że ​​zakłada się prawie stały sezonowy wzór. O wiele mniejsza wartość 0,5 dla współczynnika MA (1) sugeruje, że robi się względnie mało wygładzania, aby oszacować odchylenie prądu od średniej historycznej dla tego samego miesiąca, więc w przyszłym miesiącu przewidywana odchyłka od średniej historycznej będzie zbliżona do odchyleń od średniej historycznej obserwowanej w ciągu ostatnich kilku miesięcy. Model ARIMA (1,0,0) x (0,1,0) ze stałym modelem SRW i terminem AR (1) Poprzedni model był sezonowym modelem losowej tendencji (SRT), który został dostrojony przez dodanie MA ( 1) i współczynniki SMA (1). Alternatywny model ARIMA dla tej serii można uzyskać przez podstawienie terminu AR (1) dla różnicy niesezonowej - tj. dodając termin AR (1) do modelu sezonowego spaceru losowego (SRW). Pozwoli to nam zachować sezonowy wzór w modelu przy jednoczesnym obniżeniu całkowitej różnicy, zwiększając w ten sposób stabilność projekcji trendów, jeśli będzie to pożądane. (Przypomnijmy, że tylko z jedną różnicą sezonową seria pokazała silny podpis AR (1).) Jeśli to zrobimy, otrzymamy model ARIMA (1,0,0) x (0,1,0) ze stałą, co daje następujące wyniki: Współczynnik AR (1) jest rzeczywiście bardzo istotny, a RMSE wynosi zaledwie 2,06, w porównaniu z 3,00 dla modelu SRW (Model B w powyższym raporcie porównawczym). Równanie prognostyczne dla tego modelu jest następujące: Dodatkowym terminem po prawej stronie jest wielokrotność różnicy sezonowej obserwowanej w ostatnim miesiącu, która ma wpływ na korektę prognozy na skutek wyjątkowo dobrego lub złego roku. Tutaj 981 1 oznacza współczynnik AR (1), którego oszacowana wartość wynosi 0,73. Tak więc, na przykład, jeśli sprzedaż w ubiegłym miesiącu wyniesie X dolarów przed sprzedażą rok wcześniej, wówczas do prognozy na ten miesiąc zostanie dodana ilość 0,73X. 956 oznacza CONSTANT w równaniu prognostycznym, którego wartość szacunkowa wynosi 0,20. Oszacowana wartość MEAN, której wartość wynosi 0,75, jest wartością średnią szeregu różnicowego, który jest rocznym trendem w długoterminowych prognozach tego modelu. Stała jest (z definicji) równa średniej razy 1 minus współczynnik AR (1): 0.2 0.75 (1 8211 0.73). Prognozowany wykres pokazuje, że model rzeczywiście ma lepszą pracę niż model SRW śledzenia zmian cyklicznych (tj. Wyjątkowo dobrych lub złych lat): Jednak MSE dla tego modelu jest nadal znacznie większy niż uzyskany dla ARIMA (0, 1,1) x (0,1,1) model. Jeśli spojrzymy na wykresy reszt, widzimy możliwość poprawy. Reszty nadal wykazują pewną oznakę cyklicznej zmienności: ACF i PACF sugerują potrzebę stosowania zarówno współczynników MA (1), jak i SMA (1): Ulepszona wersja: ARIMA (1,0,1) x (0,1,1) ze stałą Jeśli dodamy wskazane warunki MA (1) i SMA (1) do poprzedniego modelu, otrzymamy model ARIMA (1,0,1) x (0,1,1) ze stałą, której równanie prognostyczne jest To jest prawie taki sam jak model ARIMA (0,1,1) x (0,1,1), z tym wyjątkiem, że zastępuje on niesezonową różnicę z terminem AR (1) (odpowiednikiem częściowej liczby) i zawiera stały długoterminowy trend. W związku z tym model ten zakłada bardziej stabilny trend niż model ARIMA (0,1,1) x (0,1,1), a to jest zasadnicza różnica między nimi. Wyniki dopasowania modelu są następujące: Zauważ, że szacowany współczynnik AR (1) (981 1 w równaniu modelu) wynosi 0,96, co jest bardzo zbliżone do 1,0, ale nie tak bliskie, aby sugerować, że absolutnie powinno ono zostać zastąpione przez pierwsza różnica: standardowy błąd wynosi 0,02, czyli około 2 standardowych błędów od 1,0. Pozostałe statystyki modelu (szacowane współczynniki MA (1) i SMA (1) oraz statystyki błędów w okresach oszacowania i weryfikacji) są poza tym prawie identyczne z danymi ARIMA (0,1,1) x (0,1 , 1) model. (Oszacowane współczynniki MA (1) i SMA (1) wynoszą 0,45 i 0,91 w tym modelu w porównaniu z 0,48 i 0,91 w drugim.) Oszacowana wartość MEAN równa 0,68 jest przewidywaną tendencją długoterminową (średni roczny wzrost). Jest to zasadniczo ta sama wartość, która została uzyskana w modelu (1,0,0) x (0,1,0) - with-constant. Błąd standardowy oszacowanej średniej wynosi 0,26, więc różnica między 0,75 a 0,68 nie jest znacząca. Jeżeli stała nie byłaby uwzględniona w tym modelu, byłaby to model z tłumioną tendencją: tendencja w jej prognozach bardzo długookresowych stopniowo by się spłaszczyła. Prognozy punktowe z tego modelu wyglądają bardzo podobnie do modelu (0,1,1) x (0,1,1), ponieważ trend średni jest podobny do trendu lokalnego na końcu serii. Jednak przedziały ufności dla tego modelu rozszerzają się nieco wolniej z powodu założenia, że ​​trend jest stabilny. Zauważ, że limity ufności dla prognoz na dwa lata teraz mieszczą się w poziomych liniach siatki na 24 i 44, podczas gdy w modelach (0,1,1) x (0,1,1) nie: Sezonowe ARIMA kontra wygładzanie wykładnicze i korekta sezonowa: teraz porównajmy wydajność dwóch najlepszych modeli ARIMA z prostymi i liniowymi modelami wygładzania wykładniczego, którym towarzyszy multiplikatywne korekty sezonowe, oraz model Winters, jak pokazano na slajdach dotyczących prognozowania z korektą sezonową: Statystyki błędów dla prognozy jednokresowe dla wszystkich modeli są w tym przypadku bardzo bliskie. Trudno jest wybrać 8220winner8221 na podstawie tych samych liczb. Wróć na górę strony. Jakie są kompromisy pomiędzy różnymi modelami sezonowymi? Trzy modele, które wykorzystują multiplikatywne korekty sezonowe, zajmują się sezonowością w sposób jednoznaczny - tj. wskaźniki sezonowe są rozbijane jako wyraźna część modelu. Modele ARIMA radzą sobie z sezonowością w bardziej niejawny sposób - nie możemy łatwo zobaczyć w wynikach ARIMA, jak przeciętny grudzień, na przykład, różni się od średniego lipca. W zależności od tego, czy uznano, że ważne jest wyodrębnienie schematu sezonowego, może to być czynnikiem decydującym o wyborze modeli. Modele ARIMA mają tę zaletę, że po zainicjowaniu mają mniej części ruchomych niż wykładnicze modele wygładzania i dopasowywania i jako takie mogą być mniej skłonne do nadpisywania danych. Modele ARIMA mają również solidniejszą podstawową teorię w odniesieniu do obliczania przedziałów ufności dla prognoz o dłuższym horyzoncie niż w przypadku innych modeli. Istnieją bardziej dramatyczne różnice między modelami pod względem zachowania ich prognoz i przedziałów ufności dla prognoz dłuższych niż 1 okres w przyszłości. W tym miejscu bardzo ważne są założenia dotyczące zmian trendu i schematu sezonowego. Między dwoma modelami ARIMA jeden (model A) szacuje trend zmieniający się w czasie, podczas gdy drugi (model B) uwzględnia długoterminowy trend średni. (Moglibyśmy, gdybyśmy chcieli, spłycić długoterminowy trend w modelu B, tłumiąc stały okres.) Wśród modeli z wykładniczo-wyrównawczo-dodatkowymi, jeden (model C) zakłada płaski trend, podczas gdy drugi ( model D) zakłada trend zmieniający się w czasie. Model Winters (E) przyjmuje również trend zmieniający się w czasie. Modele, które zakładają stały trend, są względnie bardziej pewne w swoich prognozach długoterminowych niż modele, które tego nie robią, a to zwykle ma odzwierciedlenie w stopniu, w jakim przedziały ufności dla prognoz stają się szersze przy dłuższych horyzontach prognozy. Modele, które nie przyjmują trendów zmieniających się w czasie, zazwyczaj mają węższe przedziały ufności dla prognoz o dłuższym horyzoncie, ale węższe nie są lepsze, chyba że to założenie jest poprawne. Dwa modele wygładzania wykładniczego w połączeniu z korektą sezonową zakładają, że wzór sezonowy pozostaje stały w ciągu 23 lat w próbie danych, podczas gdy pozostałe trzy modele nie. O ile sezonowość odpowiada za większość zmian danych z miesiąca na miesiąc, to odpowiednie ustawienie jest ważne dla prognozowania, co stanie się kilka miesięcy w przyszłości. Jeśli uważa się, że model sezonowy zmieniał się powoli w czasie, innym rozwiązaniem byłoby po prostu użycie krótszej historii danych do dopasowania modeli, które szacują stałe indeksy sezonowe. Dla przypomnienia, tutaj są prognozy i 95 limitów ufności na maj 1995 (24 miesiące), które są wytwarzane przez pięć modeli: Prognozy punktowe są w rzeczywistości zaskakująco blisko siebie, w stosunku do szerokości wszystkich przedziałów ufności. Prognoza punktu SES jest najniższa, ponieważ jest to jedyny model, który nie zakłada trendu wzrostowego na końcu serii. Model ARIMA (1,0,1) x (0,1,1) c ma najwęższe granice ufności, ponieważ przyjmuje on mniejszą zmienność parametrów w czasie niż inne modele. Co więcej, jego prognoza punktowa jest nieco większa niż w innych modelach, ponieważ ekstrapoluje raczej trend długoterminowy niż trend krótkoterminowy (lub trend zerowy). Model Winters jest najmniej stabilny z modeli, a jego prognoza ma najszersze granice ufności, co widać na szczegółowych wykresach prognoz dla modeli. A prognozy i limity ufności modelu ARIMA (0,1,1) x (0,1,1) i modelu korekty LESseasonal są praktycznie identyczne Aby logować się lub nie logować Coś, czego jeszcze nie zrobiliśmy, ale może to być transformacja dziennika jako część modelu. Sezonowe modele ARIMA są z natury modelami addytywnymi, więc jeśli chcemy uchwycić multiplikacyjny wzór sezonowy. musimy to zrobić, rejestrując dane przed dopasowaniem modelu ARIMA. (W Statgraphics, musielibyśmy po prostu określić "Naturalny Logquot" jako opcję modelowania - nic wielkiego.) W tym przypadku wydaje się, że transformacja deflacyjna zadawała zadowalającą stabilizację amplitud cykli sezonowych, więc nie ma Wydaje się, że jest to nieodparty powód dodania transformacji logarytmicznej w odniesieniu do trendów długoterminowych. Jeśli reszty wykazują wyraźny wzrost wariancji w czasie, możemy zdecydować inaczej. Nadal pozostaje pytanie, czy błędy tych modeli mają stałą wariancję przez miesiące w roku. Jeśli nie, to przedziały ufności dla prognoz mogą być zbyt szerokie lub zbyt wąskie w zależności od sezonu. Wykresy rezydualne w czasie nie wykazują oczywistego problemu w tym względzie, ale aby być dokładnym, dobrze byłoby spojrzeć na wariancję błędu według miesiąca. Jeśli rzeczywiście istnieje problem, transformacja dziennika może go naprawić. Wróć na górę strony.

No comments:

Post a Comment