Introduction aux chaînes de Markov, intégration de Monte Carlo
Technique générale de McMC
Une ou plusieurs chaînes de Markov (terme à définir) peuvent fournir sous certaines conditions (à voir lesquelles) un échantillon de la distribution a posteriori \(p(\boldsymbol{\theta}|y)\) dont on peut (à voir comment) extraire des résumés consistants sous certaines conditions (à voir lesquelles) avec les vrais résumés de la distribution a posteriori
Deux grandes procédures ont révolutionné l'inférence bayésienne car elles ont permis l'estimation de modèles réalistes : algorithmes de Metropolis(-Hastings) et algorithme de Gibbs avec leurs dérivés mais aussi d'autres RJ-McMC, ...
Chaîne de Markov
Une chaîne de Markov est une variable aléatoire générée séquentiellement dans le temps
On lui définit un point de départ à \(t_0\)
A chaque temps, une nouvelle valeur est issue d'une distribution de probabilité (toujours la même famille) dont les paramètres ne dépendent que de la valeur de la chaîne au temps précédent
\(\Rightarrow\) \(p(X_t=x_t|x_{t-1}, x_{t-2}, ..., x_{0}) = p(X_t = x_t|x_{t-1})\) (Kernel de transition)
Sous la condition d'ergodicité (cumul des conditions d'irréductibilité, d'apériodicité et de récurrence positive), une chaîne de Markov converge en distribution vers une distribution cible.
Chaîne de Markov pour les McMC
Pour l'inférence bayésienne on voudrait définir le Kernel de transition de manière à ce que
\( p(X_t = x_t|x_{t-1})\) soit facile à échantillonner
la distribution cible soit la distribution postérieure \(p(\boldsymbol{\theta}|y)\)
→ différentes conséquences
comment définir le kernel ? → différents algorithmes (Metropolis 1953, Hastings 1970, Geman and Geman 1984, Gibbs sampling in Gelfand and Smith 1990, ...)
comment remplir les conditions de convergence ?
comment s'assurer de la convergence ? plusieurs chaînes et diagnostics, burnin, thinning, ...
comment assurer une intégration de MC correcte : erreurs de MC, ...
Integration de Monte Carlo
Cf. plus haut
Vocabulaire
Distribution cible : \(p(\theta | y)\) qui doit être la distribution d'équilibre de la chaîne de Markov
Convergence : chaîne de Markov à son équilibre
Itérations : pas de la chaîne. La position de \(x\) au pas \(k\) est noté \(x^{(k)}\) (rien à voir avec \(x^k\))
Valeurs initiales : \(x_0\)
Période de chauffe de la chaîne (burn-in) : nombre de pas avant l'équilibre = nombre d'itérations de McMC à jeter pour les estimations
Thinning : l'échantillon final de McMC n'est pas indépendant. Pour obtenir un échantillon indépendant, on ne retient que 1 valeur sur \(k\)
\(\Rightarrow\) Si on a \(T\) itérations de la chaîne, un burn-in de \(B\) et un thinning de \(k\), on aura un échantillon indépendant de \((T-B)/k\) valeurs