Introduction aux chaînes de Markov, intégration de Monte Carlo

Technique générale de McMC

  • Une ou plusieurs chaînes de Markov (terme à définir) peuvent fournir sous certaines conditions (à voir lesquelles) un échantillon de la distribution a posteriori \(p(\boldsymbol{\theta}|y)\) dont on peut (à voir comment) extraire des résumés consistants sous certaines conditions (à voir lesquelles) avec les vrais résumés de la distribution a posteriori

  • Deux grandes procédures ont révolutionné l'inférence bayésienne car elles ont permis l'estimation de modèles réalistes : algorithmes de Metropolis(-Hastings) et algorithme de Gibbs avec leurs dérivés mais aussi d'autres RJ-McMC, ...

Chaîne de Markov

  • Une chaîne de Markov est une variable aléatoire générée séquentiellement dans le temps

  • On lui définit un point de départ à \(t_0\)

  • A chaque temps, une nouvelle valeur est issue d'une distribution de probabilité (toujours la même famille) dont les paramètres ne dépendent que de la valeur de la chaîne au temps précédent

\(\Rightarrow\) \(p(X_t=x_t|x_{t-1}, x_{t-2}, ..., x_{0}) = p(X_t = x_t|x_{t-1})\) (Kernel de transition)

  • Sous la condition d'ergodicité (cumul des conditions d'irréductibilité, d'apériodicité et de récurrence positive), une chaîne de Markov converge en distribution vers une distribution cible.

Chaîne de Markov pour les McMC

Pour l'inférence bayésienne on voudrait définir le Kernel de transition de manière à ce que

  1. \( p(X_t = x_t|x_{t-1})\) soit facile à échantillonner

  2. la distribution cible soit la distribution postérieure \(p(\boldsymbol{\theta}|y)\)

→ différentes conséquences

  • comment définir le kernel ? → différents algorithmes (Metropolis 1953, Hastings 1970, Geman and Geman 1984, Gibbs sampling in Gelfand and Smith 1990, ...)

  • comment remplir les conditions de convergence ?

  • comment s'assurer de la convergence ? plusieurs chaînes et diagnostics, burnin, thinning, ...

  • comment assurer une intégration de MC correcte : erreurs de MC, ...

Integration de Monte Carlo

Cf. plus haut

Vocabulaire

  • Distribution cible : \(p(\theta | y)\) qui doit être la distribution d'équilibre de la chaîne de Markov

  • Convergence : chaîne de Markov à son équilibre

  • Itérations : pas de la chaîne. La position de \(x\) au pas \(k\) est noté \(x^{(k)}\) (rien à voir avec \(x^k\))

  • Valeurs initiales : \(x_0\)

  • Période de chauffe de la chaîne (burn-in) : nombre de pas avant l'équilibre = nombre d'itérations de McMC à jeter pour les estimations

  • Thinning : l'échantillon final de McMC n'est pas indépendant. Pour obtenir un échantillon indépendant, on ne retient que 1 valeur sur \(k\)

\(\Rightarrow\) Si on a \(T\) itérations de la chaîne, un burn-in de \(B\) et un thinning de \(k\), on aura un échantillon indépendant de \((T-B)/k\) valeurs