Contexte
on dispose d'une série de valeurs binaires, recueillies au cours d'une expérimentation
pour réaliser l'estimation d'une proportion
et calculer son intervalle de confiance, encore appelé intervalle de crédibilité en bayésien
puis faire la comparaison à une valeur de référence
Utilisation du Théorème de Laplace-Bayes (TLB) pour déterminer la valeur du paramètre \(\theta\) d'une loi binomiale
la proportion d'intérêt est modélisée par une loi binomiale \(Bin(n,\theta)\)
on recherche la valeur de la proportion \(\theta\) expliquant au mieux les données
dans une version simplifié d'une analyse bayésienne, il s'agit de déterminer laquelle de deux valeurs \(\theta_1\) et \( \theta_2\) a le plus probablement généré les données
On défini alors, a priori, la probabilité de \(\theta_1\) et \(\theta_2\) :
\(\Pr(\theta_1)\) : probabilité a priori \(\theta_1\) soit le paramètre de \(Bin(n,\theta)\)
\(\Pr(\theta_2)\) : probabilité a priori que \(\theta_2\) soit le paramètre de \(Bin(n,\theta)\)
l'ensemble \(\{\Pr(\theta_1); \Pr(\theta_2)\}\) forme la loi a priori de \(\theta\)
\(\Pr(D|\theta)\) : vraisemblance des données
Exemple :
on veut par exemple tester deux valeurs possibles pour \(\theta\)
\(\theta_1= 0,5\) et \(\theta_2 = 0,7\)
on définit ensuite une probabilité d'observer ces deux proportions
par exemple \(\Pr(\theta_1) = 0,5\) et \(\Pr(\theta_2) = 0,5\)
on réalise une expérimentation avec 10 essais
et on observe \(s=7\) succès et \(f=3\) échecs sur \(n = s+f=10\) essais
on calcule alors la vraisemblance pour les deux situations possibles :
\(\Pr(D|\theta_t) = C_n^s\theta_t^s(1-\theta_t)^{f}\) avec \(t\in\{1;2\}\)
\(\Pr(D|\theta_1) = C_n^s\theta_1^s(1-\theta_1)^{f}\)
\(\Pr(D|\theta_2) = C_n^s\theta_2^s(1-\theta_2)^{f}\)
Dans R, le calcul de la vraisemblance se fait de la manière suivante :
choose(10,7)*0.5^7*0.5^3 = 0.1172
choose(10,7)*0.7^7*0.7^3 = 0.2668
\(\theta_1=0,5\) | \(\theta_2=0,7\) | |
\(\Pr(D|\theta_i)\) | 0,1172 | 0,2668 |
\(1-\Pr(D|\theta_i)\) | 0,8828 | 0,7332 |
Total | \(\Pr(\theta_1)=0,5\) | \(\Pr(\theta_2)=0,5\) |
D'après le TLB :
\(\Pr(\theta_1 |D) = \frac{\Pr(D|\theta_1)\Pr(\theta_1)}{\Pr(D)}\)
soit :
\(\Pr(\theta_1 |D) = \frac{\Pr(D|\theta_1)\Pr(\theta_1)}{\Pr(D|\theta_1)\Pr(\theta_1)+\Pr(D|\theta_2)\Pr(\theta_2)}\)
on trouve que \(\Pr(\theta_1 |D)= 0,3052\) et donc \(\Pr(\theta_2|D)= 0,6948\)
donc, à la vue des données, la probabilité a posteriori de \(\theta_1\) a diminuée par rapport à sa valeur a priori.
et la probabilité a posteriori de \(\theta_2\) a augmentée