Inférence de la moyenne, variance connue

La situation de conjugaison

  • Cas particulier qui permet une inférence exacte et analytique sur la distribution a posteriori

  • La loi a priori est conjuguée pour la vraisemblance si la loi a posteriori est de la même classe que la loi a priori

Exemple

Normale (moyenne) → normale

Normale (précision) → Gamma (ou inverse-Gamma sur la variance)

Posterior explicite

Situation conjuguée: quand la vraisemblance est normale, si loi a priori sur la moyenne de cette loi est normale, sa distribution a posteriori sera une loi normale.

Important

En toute rigueur la situation conjuguée s'applique si c'est la loi a priori sur la moyenne conditionnellement à la précision qui est normale.

\(\mathcal{L}_n\) : \(\mathcal{N}(\mu, \sigma^2)\)

prior sur \(\color{red}{\mu|\sigma^2}\) : \(\mathcal{N}(\mu_0, \sigma_0^2)\)

posterior sur \(\mu|\sigma^2\) : \(\mathcal{N}(\mu_n, \sigma_n^2)\)

Il reste à trouver \(\mu_n\) et \(\sigma_n^2\). On a :

  • Vraisemblance de l'échantillon :

    \(\mathcal{L}_n = \left(2\pi \sigma^2\right)^{-n/2} \exp{\left\{-\dfrac{1}{2 \color{red}{\sigma^2}} \sum^n{\left(y_i - \color{red}{\mu} \right)^2} \right\}}\)

    • On se rappelle que \(\exp{(ab)} = \left(\exp{a}\right)^b = \left(\exp{b}\right)^a\)

    • Donc \(\mathcal{L}_n \propto \exp{\left\{-\dfrac{1}{2 \sigma^2} \sum^n{\left(y_i - \mu\right)^2} \right\}}\)

  • Prior sur \(\mu\) : \(p(\mu|\sigma^2) \propto \exp{\left\{-\dfrac{1}{2 \sigma_0^2} \left(\mu - \mu_0\right)^2 \right\}}\)

  • Posterior sur \(\mu\) : \(p(\mu|\sigma^2,y) \propto \mathcal{L}_n \times p(\mu|\sigma^2)\) et donc \(p(\mu|\sigma^2,y) \propto \exp{\left\{-\dfrac{1}{2} \left[ \dfrac{1}{\sigma_0^2}\left(\mu - \mu_0\right)^2 + \dfrac{1}{\sigma^2} \sum^n{\left(y_i - \mu\right)^2} \right] \right\}}\)

  • Après quelques manipulations et en introduisant \(\bar{y} = \dfrac{1}{n} \sum^n{y_i}\), la moyenne observée des observations, on arrive à

    \(\left\{\begin{array}{lcl} \mu_n&=& \dfrac{\dfrac{1}{\sigma_0^2}\mu_0 + \dfrac{n}{\sigma^2}\bar{y}}{\dfrac{1}{\sigma_0^2} + \dfrac{n}{\sigma^2}}\\[5ex] \dfrac{1}{\sigma_n^2}&=& \dfrac{1}{\sigma_0^2} + \dfrac{n}{\sigma^2} \end{array} \right.\)

  • En reformulant avec les précisions (\(\tau\), \(\tau_0\) et \(\tau_n\))

    \(\mu|\tau,y \sim \mathcal{N}\left(\mu_n, 1/\tau_n\right), \left\{\begin{array}{lcl} \mu_n&=& \dfrac{\tau_0}{\tau_0 + n \tau} \mu_0 + \dfrac{n \tau}{\tau_0 + n \tau} \bar{y}\\[5ex] \tau_n&=& \tau_0 + n \tau \end{array} \right.\)

  • A noter

    • Précision a posteriori = précision a priori + précision des données

    • Moyenne a posteriori = moyenne pondérée par les précisions entre moyenne a priori + moyenne des données

\(\mu|\tau,y \sim \mathcal{N}\left(\mu_n, 1/\tau_n\right), \left\{\begin{array}{lcl} \mu_n&=& \dfrac{\tau_0}{\tau_0 + n \color{blue}{\tau}} \mu_0 + \dfrac{n \color{blue}{\tau}}{\tau_0 + n \color{blue}{\tau}} \bar{y}\\[5ex] \tau_n&=& \tau_0 + n \color{blue}{\tau} \end{array} \right.\)

On suppose \(\tau = 1/\sigma^2\) connu, réduit à une quantité fixe

De quoi a-t-on besoin?

  1. Connaissance sur la moyenne a priori\(\mathcal{N}(\mu_0, 1/\tau_0)\)

  2. Données → \(n\) et \(\bar{y}\)

Manipulation

  • Choisir \(\mathcal{N}(\mu_0, 1/\tau_0)\)

  • Fixer \(n\) et \(\bar{y}\)

  • Voir l'effet sur la densité de la loi a posteriori de \(\mu\)

ExempleExemple (extrait de Hoff, 2009)

  • On s'intéresse à estimer la longueur des ailes dans une espèce de moucherons

  • On a recueilli \(n=9\) valeurs: 1.64, 1.70, 1.72, 1.74, 1.82, 1.82, 1.82, 1.90 et 2.08, donc de moyenne \(\bar{y} = 1.804\)

  • On suppose a priori une distribution normale à la moyenne des longueurs d'ailes de moyenne \(\mu_0 = 1.9\) et d'écart-type \(\sigma_0 = 0.95\)

  • A posteriori :

    \(\mu|\tau,y \sim \mathcal{N}\left(\mu_n, 1/\tau_n\right), \left\{\begin{array}{lcl} \mu_n&=& \dfrac{1.11}{1.11 + 9 \tau} 1.9 + \dfrac{9 \tau}{1.11 + 9 \tau} 1.804\\[5ex] \tau_n&=& 1.11 + 9 \tau \end{array} \right.\)

  • Si on considère que \(\tau = 1/s^2\), la précision de l'échantillon, ici 59, on trouve que \(\mu|\tau,y \sim \mathcal{N}\left(1.805, 0.002\right)\)

\(\mu|\tau,y \sim \mathcal{N}\left(1.805, 0.002\right)\)

Le choix d'utiliser \(s^2\) pour \(1/\tau\) est-il vraiment adéquat?

→ NON : car on utilise les données actuelles dans des priors