Intégration de Monte Carlo
Quand on s'intéresse à un résumé de la distribution a posteriori \(t(\theta)\), par exemple sa moyenne, sa variance, etc l'intégration de Monte Carlo donne l'espérance de ce résumé comme étant la moyenne observée sur un échantillon de taille \(K\) issu de \(p(\theta|y)\).
Ainsi \(\mathbb{E}[t(\theta)|y] = \int{t(\theta) p(\theta|y) \mathrm{d} \theta}\) est approchée par \(\dfrac{1}{K} \sum{t\left(\theta^{(k)}\right)}\).
Le problème essentiel est de pouvoir échantillonner des valeurs de \(p(\theta|y)\), notamment en dimension élevée. L'intégration de Monte Carlo seule ne suffit donc pas.
Exemple d'un odds-ratio
On suppose une étude épidémiologique dans laquelle des cas d'une maladie donnée (par exemple des cas de cancer du poumon) et des témoins (sujets sans cancer du poumon) ont été inclus.
On a recueilli auprès de ces sujets l'exposition (oui/non) à un facteur de risque (par exemple le fait de fumer)
Les données peuvent être présentées sous forme d'un tableau 2X2:
Maladie |
||||
Cas |
Témoins |
|||
Exposition |
Oui |
25 |
275 |
300 |
Non |
30 |
870 |
900 |
|
55 |
1145 |
1200 | ||
% exposés |
45 |
24 |
On peut s'intéresser à comparer les fréquences de l'exposition entre les cas, \(\pi_1\), et les témoins, \(\pi_0\).
Mais en épidémiologie un indicateur souvent utilisé est l'odds-ratio, estimateur d'un risque relatif.
Il mesure la multiplication du risque d'avoir la maladie lorsqu'on est exposé par rapport au fait de ne pas être exposé (« lorsqu'on fume, on a \(X\) fois plus de chance d'avoir un cancer du poumon que quand on ne fume pas »).
L'odds-ratio s'écrit \(OR=\dfrac{\pi_1(1-\pi_0)}{\pi_0(1-\pi_1)}\).
→ on peut estimer l'odds-ratio et ses caractéristiques (quantiles, cart-type, ...) par intégration de Monte Carlo au travers de la modélisation des deux proportions \(\pi_0\) et \(\pi_1\)
On commence par construire le modèle pour les proportions \(\pi_0\) et \(\pi_1\)
On a \(n_1\) sujets malades (variable aléatoire \(Y\)), parmi lesquels certains sont exposés \(y_1\) et on a \(n_0\) témoins parmi lesquels \(y_0\) sont exposés.
La vraisemblance est alors \( y_1 \sim Bin(\pi_1, n_1)\) et \( y_0 \sim Bin(\pi_0, n_0)\).
Sur le paramètre \(\theta = (\pi_0, \pi_1)\), on place deux loi beta indépendantes \(\mathcal{B}(a_0,b_0)\) (pour être en situation conjuguée).
On utilise les priors de Jeffreys d'information minimale: \(a_0 = 0.5\) et \(b_0 = 0.5\).
On sait qu'a posteriori: \(\pi_0|\boldsymbol{y} \sim \mathcal{B}(a_0+y_0,b_0+n_0-y_0)\) et \(\pi_1|\boldsymbol{y} \sim \mathcal{B}(a_0+y_1,b_0+n_1-y_1)\).
Mais l'intérêt est sur l'odds-ratio. On va donc utiliser l'intégration de Monte Carlo en considérant que cet odds-ratio est la transformation du paramètre \(\theta= \left( \pi_0, \pi_1 \right)\) par une fonction \(t(.)\):
On génère un échantillon de \(OR\) (par exemple 2000), c'est-à-dire qu'on répète 2000 fois:
Générer une valeur de \(\pi_0\), \(\pi_0^{(k)}\), dans une \(\mathcal{B}(a_0+y_0,b_0+n_0-y_0)\)
Générer une valeur de \(\pi_1\), \(\pi_1^{(k)}\), dans une \(\mathcal{B}(a_0+y_1,b_0+n_1-y_1)\)
Calculer la valeur de \(OR^{(k)}=\dfrac{\pi_1^{(k)}(1-\pi_0^{(k)})}{\pi_0^{(k)}(1-\pi_1^{(k)})}\)
On extrait ensuite les caractéristiques (quantiles, moyenne, variance) de la distribution empirique de \(OR\).
Manipulation : Exemple d'un odds-ratio
Remplir le tableau 2X2
Calcul et estimation MLE de l'odds-ratio
Choisir la distribution a priori (identique par simplicité) sur les deux proportions
Graphique des deux distributions a posteriori (différentes à cause des différences d'effectif)
Choisir le nombre de simulation (entre 100 et 5.000)
\(\Rightarrow\) histogramme et caractéristique de la distribution empirique a posteriori de l'odds-ratio