Introduction

  • l’objectif principal de l’analyse d’une série temporelle est la prévision de ses futures réalisations en se basant sur ses valeurs passées

  • Une série temporelle \(Y_t\) est communément décomposée en tendance, saisonnalité, bruit:

\[ Y_t = T_t+S_t+\varepsilon_t \]

  • la tendance \(T_t\) correspondant à une évolution à long terme de la série, par exemple:

    • tendance linéaire: \(T_t=a+bt\)
    • tendance quadratique: \(T_t=a+bt+ct^2\)
    • tendance logarithmique: \(T_t=\log(t)\)
  • la saisonnalité \(S_t\) correspondant à un phénoméne périodique de période identifiée

  • l’erreur \(\varepsilon_t\) qui est la partie aléatoire de la série

Le but cette décomposition est de se ramener à un bruit \(\varepsilon_t\) stationnaire. Cette décomposition pouvant être additive, multiplicative \(Y_t = T_t*S_t*\varepsilon_t\) ou des combinaisons des deux:

\[ Y_t = (T_t+S_t)*\varepsilon_t \]

\[ Y_t = (T_t*S_t)+\varepsilon_t... \]

voir Hyndman et al. (2008) Forecasting with exponential smoothing: the state space approach, Springer-Verlag. http://www.exponentialsmoothing.net.

  • nous nous intéressons ici aux méthodes de base (modélisation de série chro. linéaires): lissages exponentiels, modéles de régression (régression linéaire, modéles non-paramétriques. . . ), modéles SARIMA

 

Drawing

 

Drawing

Stationnarité

définition soit un processus aléatoire \((Y_t)_{t \in \textbf{Z}}\), il est dit stationnaire au sens fort (ou strictement) si pour toute fonction f mesurable \(f(Y_1,Y_2,...,Y_t)\) et \(f(Y_{1+h}, Y_{2+h}, ..., Y_{t+h})\) ont la même loi.

Cette notion de stationnarité forte est très difficile à vérifier en pratique. On lui préfère généralement la notion de stationnarité faible qui porte sur les moments d’ordre 1 et 2 du processus.

définition la fonction d’auto-covariance d’un processus \(Y_{t \in \textbf{Z}}\)

\[ \text{cov}(Y_t, Y_{t+h})= \gamma(h) \]

définition la fonction d’auto-corrélation d’un processus \(Y_{t \in \textbf{Z}}\)

\[ \rho(h)= \gamma(h)/\gamma(0) \]

\(\gamma(h)\) et \(\rho(h)\) sont des fonctions symétriques, \(\rho(0)=1\).

définition soit un processus aléatoire \((Y_t)_{t \in \textbf{Z}}\) tel que \(E(Y_t^2) < \infty\), il est dit stationnaire au sens faible (ou d’ordre 2) si son espérance est constante et ses auto-covariances sont stables dans le temps ie:

\[ \forall t \quad E(Y_t)= \mu \]

\[ \forall t \quad, \forall h \quad \text{cov}(Y_t, Y_{t+h})= \gamma(h) \]

On remarque que \(\text{var}(Y_t)=\gamma(0)\) et donc qu’un processus stationnaire faible à une variance constante dans le temps.

En pratique, pour apprécier la stationnarité d’un processus, on commence d’abord par vérifier que sa moyenne et sa variance sont constantes dans le temps.

exercice selon vous quel(s) processus ci-dessous est(sont) stationnaire(s)? Pourquoi?

Voilà quelques examples de processus stationnaires:

  • un bruit blanc \(\varepsilon_t\) vérifiant \(E(\varepsilon_t)=\mu\) et \(\text{var}(\varepsilon_t)=\sigma^2\)

preuve on a par définition \(\text{cov}(\varepsilon_t,\varepsilon_{t+h})=0\)

  • Le processus gaussien \((Y_t)_{t \in \textbf{Z}}\) tel que \(E(Y_t)=\mu\) et \(\text{cov}(Y_t,Y_{t+h})=\alpha^{|h|}\) (\(|\alpha|<1\)) est faiblement stationnaire. Tout processus gaussien stationnaire faible est stationnaire fort.

  • le processus moyenne mobile \(X_t=\varepsilon_t+a_1\varepsilon_{t-1}+a_2\varepsilon_{t-2}+...+a_q\varepsilon_{t-q}\)

preuve

\[\begin{align} \gamma(0) &= \sigma^2 (1+a_1^2+...+a_q^2) \nonumber \\ \gamma(1) &=\sigma^2 (a_1+a_1a_2+...+a_{q-1}a_{q})\nonumber \\ ... \nonumber \\ \gamma(q) & = \sigma^2 (a_q) \nonumber\\ \gamma(q+h) & = 0 \nonumber \nonumber \end{align}\]
  • processus autorégressif d’ordre 1:

\[ Y_t= a Y_{t-1}+ \varepsilon_t \]

en supposant que \(|a|<1\) on a bien \(E(Y_t)=0\) et

\[ \text{var}(Y_t)= \sigma^2(1+a+a^2+...)= \frac{\sigma^2}{1-a^2} \]

pour tout \(h>0\):

\[ \gamma(h)= \sigma^2(a^h+a^{h+2}+...)= \frac{\sigma^2 a^h}{1-a^2} \]

comme de plus \(\gamma(h)=\gamma(-h)\),

\[ \gamma(h)= \frac{\sigma^2 a^{|h|}}{1-a^2} \]

on remarque que pour ce processus \(\rho(h)= a^{|h|}\), donc l’autocorrélation tend vers 0 à une vitesse exponentielle.

En pratique, on ne connait pas explicitement les fonctions d’auto-covariance et d’auto-corrélation. Il est donc nécessaire de les estimer en se basant sur des observations.

définition soit une série d’observations \((y_t)_{t \in (1,...,n)}\), notons \(\bar{y}=\frac{1}{n} \sum_{t=1}^n y_t\), alors la fonction d’auto-covariance empirique vaut, pour tout \(h \in (0,...,n-1)\)

\[ \widehat{\gamma}(h)= \frac{1}{n-h} \sum_{t=h+1}^n (y_t-\bar{y})(y_{t-h}-\bar{y}) \]

définition soit une série d’observations \((y_t)_{t \in (1,...,n)}\), notons \(\bar{y}=\frac{1}{n} \sum_{t=1}^n y_t\), alors la fonction d’auto-corrélation empirique vaut, pour tout \(h \in (0,...,n-1)\)

\[ \widehat{\rho}(h)= \frac{\frac{1}{n-h} \sum_{k=h+1}^n (y_t-\bar{y})(y_{t-h}-\bar{y})}{\frac{1}{n}\sum_{t=1}^n (y_t-\bar{y})^2} \]

Le graphique représentant la fonction d’auto-corrélation empirique est appelé l’auto-corrélogramme.

exemple voilà un exemple de série et son auto-corrélogramme, à votre avis de quel type de série s’agit-il?

Auto-corrélation partielle

Lorsque l’on s’intéresse à caractériser les dépendances d’au moins 3 variables aléatoires, il est nécessaire d’introduire la notion de corrélation partielle. En effet, si l’on considère les variables \(X_1,...,X_k\), \(X_1\) peut être corrélée à \(X_3\) parce que \(X_1\) et \(X_3\) sont toutes deux corrélées à \(X_2\).

définition soit les variables aléatoires \(X_1,...,X_k\), le coefficient de corrélation partielle entre \(X_1\) et \(X_k\) conditionnellement à \(X_2,...,X_{k-1}\) est définie par:

\[ r_{X_2,..,X_{k-1}}(X_1,X_k)= \rho(X_1-P_{M(X_2,..,X_{k-1})}, X_k-P_{M(X_2,..,X_{k-1})}) \]

projection \(P_{M(X_1,..,X_k)}(Y)=X\alpha\) la projection linéaire d’une variable \(Y\) sur \(M(X_1,..,X_k)\) est telle que

\[ E[(Y-X\alpha)^2]\leq E[(Y-X\beta)^2], \forall \beta \]

c’est le vecteur de \(M(X_1,..,X_k)\) le plus proche de \(Y\) au sens de la distance \(d\) définie ci-dessous.

distance on définie la distance entre \(X\) et \(Y\) deux variables aléatoires par \(d(X,Y)=\sqrt{E[(X-Y)^2]}\)

espace engendré l’espace engendré par les variables aléatoires \(X_1, X_2, ...X_k\), noté \(M(X_1,..,X_k)\) est l’ensemble des combinaisons linéaires de ces variables \(M(X_1,..,X_k)=\{\lambda_1X_1+...+\lambda_k X_k, \lambda \in \textbf{R}^k\}\)

définition soit un processus aléatoire \((Y_t)_{t \in \textbf{Z}}\) stationnaire faible centré. La fonction d’auto-corrélation partielle est définie de la manière suivante:

\[\begin{align} r(1) &= \rho(1) \nonumber \\ r(h) &= r_{Y_2,...,Y_h} (Y_1,Y_{h+1}) , \forall h \geq 2 \nonumber \\ r(h) & = r(-h) \nonumber \end{align}\]

on remarque que \(r(h) = r_{Y_2,...,Y_h} (Y_1,Y_{h+1})= r_{Y_{k+2},...,Y_{k+h}} (Y_{k+1},Y_{k+h+1})\) car le processus est stationnaire.

Pour obtenir l’auto-corrélation partielle d’un processus, voyons les propriétés suivantes.

propriété soit un processus stationnaire faible \((Y_t)_{t \in \textbf{Z}}\) et \(P_{M_{t-1}^k}(Y_t)=b_{k,1} Y_{t-1}+...+b_{k,k} Y_{t-k}\) sa projection sur son passé, alors on a son auto-corrélation partielle d’ordre \(k\) vaut \(r(k)=b_{k,k}\).

algorithme de Durbin l’agorithme de Durbin permet d’obtenir les auto-corrélation partielles \(r(k)=b_{k,k}\) d’un processus processus stationnaire faible \((Y_t)_{t \in \textbf{Z}}\) via la formule récursive suivante:

\[\begin{align} b_{k,j} & = b_{k-1,j}-b_{k,k} b_{k-1,k-j} , \; \forall j = 1, ...,k-1 \nonumber \\ b_{k,k} &= \frac{\gamma(k)-\sum_{j=1}^{k-1}\gamma(k-j)b_{k-1,j}}{\gamma(0)-\sum_{j=1}^{k-1}\gamma(j) b_{k-1,j}}\nonumber \end{align}\]

Comment se ramener à un processus stationnaire?

La tendance

Il existe différents procédés permettant d’anlyser puis/ou de corriger la tendance d’une série temporelle.

Moyenne mobile

La moyenne mobile est une méthode simple permettant d’extraire les composantes basses fréquences d’une série temporelle autrement dit sa tendance. Elle est également connue comme une méthode de lissage car elle agit comme un filtre passe bas et donc élimine le bruit.

Le calcul de la moyenne mobile dépend d’un paramètre \(l\) appelé la largeur de fenêtre. Ce paramètre correspond au nombre d’observations inclues dans le calcul de la moyenne glissante éffectuée. Plus \(l\) est grand plus le lissage est important (jusqu’à atteindre la fonction constante égale à la moyenne).

La moyenne mobile se calcule ainsi:

\[ \widehat{y_t}= \frac{1}{2l+1} \sum_{i=t-l}^{t+l} y_t \]

Et en r, une des nombreuses alternatives est la fonction filter:

library(xts)
date1<- strptime("01/01/1900", "%m/%d/%Y")
date2<- strptime("01/01/2000", "%m/%d/%Y")
Date<-seq.POSIXt(date1,date2,by = "year")
n<-length(Date)
t<-c(1:n)
T<-t/20+1
w=2*pi/5
S<-cos(w*t)
eps<-rnorm(n,0,1)
X<-T*S*eps
X<-xts(X,order.by=Date)
T<-xts(T,order.by=Date)
S<-xts(S,order.by=Date)

X<-T+S+eps
MA<-filter(X, filter=array(1/10,dim=10), method = c("convolution"),
             sides = 2, circular = FALSE)