Contexte

  • on dispose d'une série de valeurs binaires, recueillies au cours d'une expérimentation

  • pour réaliser l'estimation d'une proportion

  • et calculer son intervalle de confiance, encore appelé intervalle de crédibilité en bayésien

  • puis faire la comparaison à une valeur de référence

Utilisation du Théorème de Laplace-Bayes (TLB) pour déterminer la valeur du paramètre \(\theta\) d'une loi binomiale

  • la proportion d'intérêt est modélisée par une loi binomiale \(Bin(n,\theta)\)

  • on recherche la valeur de la proportion \(\theta\) expliquant au mieux les données

  • dans une version simplifié d'une analyse bayésienne, il s'agit de déterminer laquelle de deux valeurs \(\theta_1\) et \( \theta_2\) a le plus probablement généré les données

On défini alors, a priori, la probabilité de \(\theta_1\) et \(\theta_2\) :

  • \(\Pr(\theta_1)\) : probabilité a priori \(\theta_1\) soit le paramètre de \(Bin(n,\theta)\)

  • \(\Pr(\theta_2)\) : probabilité a priori que \(\theta_2\) soit le paramètre de \(Bin(n,\theta)\)

  • l'ensemble \(\{\Pr(\theta_1); \Pr(\theta_2)\}\) forme la loi a priori de \(\theta\)

  • \(\Pr(D|\theta)\) : vraisemblance des données

Exemple

on veut par exemple tester deux valeurs possibles pour \(\theta\)

  • \(\theta_1= 0,5\) et \(\theta_2 = 0,7\)

  • on définit ensuite une probabilité d'observer ces deux proportions

  • par exemple \(\Pr(\theta_1) = 0,5\) et \(\Pr(\theta_2) = 0,5\)

  • on réalise une expérimentation avec 10 essais

  • et on observe \(s=7\) succès et \(f=3\) échecs sur \(n = s+f=10\) essais

  • on calcule alors la vraisemblance pour les deux situations possibles :

    \(\Pr(D|\theta_t) = C_n^s\theta_t^s(1-\theta_t)^{f}\) avec \(t\in\{1;2\}\)

    • \(\Pr(D|\theta_1) = C_n^s\theta_1^s(1-\theta_1)^{f}\)

    • \(\Pr(D|\theta_2) = C_n^s\theta_2^s(1-\theta_2)^{f}\)

Dans R, le calcul de la vraisemblance se fait de la manière suivante :

choose(10,7)*0.5^7*0.5^3 = 0.1172

choose(10,7)*0.7^7*0.7^3 = 0.2668

\(\theta_1=0,5\)

\(\theta_2=0,7\)

\(\Pr(D|\theta_i)\)

0,1172

0,2668

\(1-\Pr(D|\theta_i)\)

0,8828

0,7332

Total

\(\Pr(\theta_1)=0,5\)

\(\Pr(\theta_2)=0,5\)

D'après le TLB :

\(\Pr(\theta_1 |D) = \frac{\Pr(D|\theta_1)\Pr(\theta_1)}{\Pr(D)}\)

soit :

\(\Pr(\theta_1 |D) = \frac{\Pr(D|\theta_1)\Pr(\theta_1)}{\Pr(D|\theta_1)\Pr(\theta_1)+\Pr(D|\theta_2)\Pr(\theta_2)}\)

  • on trouve que \(\Pr(\theta_1 |D)= 0,3052\) et donc \(\Pr(\theta_2|D)= 0,6948\)

  • donc, à la vue des données, la probabilité a posteriori de \(\theta_1\) a diminuée par rapport à sa valeur a priori.

  • et la probabilité a posteriori de \(\theta_2\) a augmentée