Exercice
On souhaite comparer la proportion de fumeurs parmi les adolescents dans une ville avec la proportion dans la population des adolescents du pays. La proportion de référence est de 37%.
On constitue pour cela un échantillon de 125 adolescents et on observe 56 fumeurs.
Les questions que l'on se pose sont les suivantes :
Question 1
Quelle est la proportion d'adolescents tabagiques ?
Solution
la proportion observée d'adolescents tabagiques est : x/n = 56/125 = 0,448
il faut ensuite choisir une loi a priori
on peut partir de ce que l'on sait dans la population
car la fréquence du tabagisme est connue dans la population avant le début de l'étude
on choisit donc une \(Be(\alpha\ ;\ \beta )\) → \(Be(8\ ;\ 14)\) par exemple (voir ci-dessous la justification)
cela se justifie entre autre par le fait que suivant cette loi, cette proportion n'est « jamais » supérieure à 60% (elle n'a qu'une probabilité infime d'être supérieure à 60%)
on peut choisir un a priori encore plus faiblement informatif \(Be(2\ ;\ 2)\)
puis
soit calcul par simulation
soit calcul formel par les fonctions qbeta etc
Détermination des paramètres de la loi Beta
Comment définir la loi beta correspondant à une connaissance a priori ?
On peut montrer à partir des propriétés de la loi Beta que :
pour une moyenne m et une intervalle de confiance de longueur 2L connus ou voulu, on calcule :
\(\alpha = \frac{4m^2(1-m)}{L^2}-m\)
\(\beta = \frac{1-m}{m\alpha}\)
Soit, dans R :
alpha <-4*m^2*(1-m)/(lic^2)-m
beta <-(1-m)/m*(alpha)
La solution à la question 1 est obtenue par simulation avec une loi informative :
définir la loi attendue pour : m = 0,37 et L = 0,20
soit \(Be(8\ ;\ 14)\)
la loi a posteriori est donc une loi Beta \(Be(8+56\ ;\ 14+125-56)\)
en vertu des propriétés et de l'interprétation des paramètres de la loi Beta
Cette loi répond à la question 1. La probabilité qu'un adolescent soit tabagique dans la ville considérée est entièrement décrite à l'aide de cette loi Beta, qui contient toute l'information disponible sur cette proportion. Toute description de cette loi décrit également la connaissance que l'on a de la proportion d'adolescents tabagiques dans la ville. Usuellement, on prend comme estimation ponctuelle le mode de la loi, mais on peut prendre aussi la médiane ou la moyenne. Au mieux, il faut donner le mode et un intervalle de crédibilité à 95%, ou encore à 90 ou 99%.
Question 2
Quelle est la probabilité que la proportion d'adolescents tabagiques soit supérieure à la proportion de référence d'adolescents tabagiques ?
Solution
La réponse à la question 2 s'obtient de la manière suivante :
Dans R, on calcule :
> n<-125
> x<-56
> x/n
[1] 0.448
c'est la proportion observée dans l'échantillon
> pref<-0.37
> # puis mise à jour de la loi
> apré<-8
> bpré<-14
> apost<-apré+x
> bpost<-bpré+n-x
>
> M<-100000 # nombre d'itérations pour la simulation
> d.simul<-rbeta(M,apost,bpost)
> # puis calcul empirique de la proba que la proportion
> # observée soit supérieure à valeur de référence
> sum(d.simul>pref)/M
[1] 0.94753
Donc dans la ville considérée, il y a une probabilité de 94,7% que la proportion d'adolescents tabagiques dépasse les 37% (stocké dans pref
).
On peut réaliser le calcul de manière plus formelle en utilisant les fonctions de R basées sur les propriétés des lois de probabilités. Le calcul formel donne la proba que la loi \(Be(apré\ ;\ apost)\) soit inférieure à 0,37
On calcule d'abord la probabilité que la proportion soit inférieure à 0,37 :
> pbeta(pref,apost,bpost)
[1] 0.05318448
Puis on calcule le complément à 1 pour avoir la probabilité que la proportion soit supérieure à 0,37 :
> 1-pbeta(pref,apost,bpost)
[1] 0.9468155
On retrouve le même résultat qu'avant qui était obtenu par simulation, aux approximations des simulations près.
Dans le cadre d'une analyse de sensibilité, on peut répondre également en utilisant une loi a priori faiblement informative, par exemple une \(Be(2\ ;\ 2)\) :
> apré<-2
> bpré<-2
> apost<-apré+x
> bpost<-bpré+n-x
> M<-1000000
> d.simul<-rbeta(M,apost,bpost)
Puis on fait un calcul empirique de la probabilité que la proportion observée soit supérieure à la valeur de référence :
> sum(d.simul>0.37)/M # proportion de cas où c'est vrai
[1] 0.96697
Le résultat est assez proche, mais néanmoins légèrement différent, ce qui montre l'impact limité du changement de loi a priori.
On peut obtenir la même réponse en réalisant un calcul formel avec cette même loi a priori peu informative :
> apré<-2
> bpré<-2
> apost<-apré+x
> bpost<-bpré+n-x
>
> pbeta(pref,apost,bpost)
[1] 0.03284736
> # on calcule :
> 1-pbeta(pref,apost,bpost)
[1] 0.9671526
On retrouve le même résultat qu'avant qui était obtenu par simulation, aux approximations des simulations près.
Question 3
Quelle est la probabilité que la proportion d'adolescents tabagiques soit supérieure de plus de 17% à la proportion de référence d'adolescents tabagiques ?
Solution
Calcul formel, avec le prior informatif :
# calcul de la probabilité que la proportion dans la ville
# soit supérieure de plus de 17%
# par rapport à la prop de réf
# calcul formel
> 1-pbeta(pref+0.17,apost,bpost)
[1] 0.005493669
Ou de manière complémentaire, par un calcul empirique de la probabilité que la proportion soit inférieure de plus de 17% à la proportion de référence :
> sum(d.simul<(pref+0.17))/M
[1] 0.99441
Il y a donc 99,4% de chance que la proportion tabagique dans la ville ne dépasse pas la proportion de référence de plus de 17%.
Avec la loi a priori peu informative utilisée pour répondre à la question 2 :
# calcul de la proba que la proportion
# soit supérieure de 17% dans le lycée
# par rapport à la prop de réf
> # calcul formel
> 1-pbeta(pref+0.17,apost,bpost)
# → penser à vérifier les valeurs de apost et bpost
[1] 0.019822
>
> # calcul empirique que la proportion ne soit pas supérieure de plus de 17% à la proportion de référence :
> sum(d.simul<(pref+0.17))/M
[1] 0.980145
Question 4
Quelle est la probabilité que la proportion d'adolescents tabagiques dans le lycée étudié soit comprise entre 20 et 40% ?
Solution
En utilisant un calcul formel, sans simulation, on obtient :
> # calcul de la probabilité que la proportion soit entre 20 et 40%
> # calcul formel
> (1-pbeta(0.20,apost,bpost))-(1-pbeta(0.40,apost,bpost))
[1] 0.1940902
Il y a donc 19,4 % de chance que dans la ville considérée, la proportion d'adolescents tabagiques soit comprise entre 20 et 40%.