Graphe probabiliste associé à une chaîne de Markov

icône de pdf
Signaler

Une chaîne de Markov est un processus qui passe par différents états, où la probabilité de passer à un état futur dépend uniquement de l'état présent et non des états précédents

Dans cette fiche, nous parlerons de Chaîne de Markov à deux ou trois États.

I. Le vocabulaire

États : Les états représentent les différentes situations possibles dans le système modélisé.

Distribution initiale π0\pi_0 : La distribution initiale est une matrice ligne qui représente la probabilité de se trouver dans chaque état au début du processus.

Matrice de transition (P) : La matrice de transition est une matrice carrée où chaque élément PijP_{ij}représente la probabilité de passer de l'état i i à l'état jj en une étape.

Graphe Pondéré Associé : pour une chaîne de Markov, le graphe pondéré associé est un graphe orienté où les sommets représentent les états, et les arêtes pondérées représentent les probabilités de transition entre les états.

Interprétation du coefficient (i,j) de Pn P^n : dans la matrice PnP^n, le coefficient (i,j)(i,j) représente la probabilité de passer de l'étati i à l'état j j en exactement n n étapes.

Distribution après n transitions (π0Pn)(\pi_0 P^n): La distribution après n n transitions est obtenue en multipliant la distribution initiale π0\pi_0par la matrice PnP^n . Cela donne la probabilité de se trouver dans chaque état après n n étapes.

Distribution invariante (π)(\pi): Une distribution invariante est une distribution qui reste inchangée après une transition. Elle satisfait l'équation π=πP\pi = \pi P. Pour une chaîne de Markov, la distribution invariante représente l'état d'équilibre du système.

II. Chaîne de Markov

Définition :

Une chaîne de Markov est un processus dans lequel l’état futur ne dépend que de l’état actuel, et pas du passé. On parle de propriété de Markov.

Dans une chaîne à 2 ou 3 états, on considère un ensemble fini d’états, par exemple :

Pour 2 états : AA et BB

Pour 3 états : AA, BB, et CC

Les probabilités de transition entre ces états sont regroupées dans une matrice de transition PP.

Exemple 1 :

Considérons une chaîne de Markov à deux états A A et B B avec la matrice de transition suivante :

P=(0.70.30.40.6)P = \begin{pmatrix} 0.7 \quad 0.3 \\ 0.4 \quad 0.6 \end{pmatrix} et une distribution initiale π0=(0.50.5)\pi_0 = \begin{pmatrix} 0.5 \quad 0.5 \end{pmatrix}

La distribution après 2 Transitions est π2=π0P2\pi_2 = \pi_0 P^2

La distribution invariante s'obtient en résolvant l'équation π=πP\pi = \pi P pour trouver π\pi.

Solution :

picture-in-text

picture-in-text1. Distribution après 2 transitions

On calcule P2P^2 puis π2=π0P2\pi_2 = \pi_0 P^2 :
Résultat obtenu :

π2=(0.5650.435) \pi_2 = \begin{pmatrix} 0.565 \quad 0.435 \end{pmatrix}

Cela signifie qu’après deux transitions, la probabilité d’être en état AA est environ 0.5650.565 et en état BB environ 0.4350.435.

2. Distribution invariante

On cherche une distribution π=(x,y)\pi = (x, y) telle que :

πP=πetx+y=1 \pi P = \pi \quad \text{et} \quad x + y = 1

La solution de ce système donne :

π=(0.5714290.428571) \pi = \begin{pmatrix} 0.571429 \quad 0.428571 \end{pmatrix}

C’est la distribution invariante : si la chaîne commence avec cette répartition, elle reste stable à chaque transition.Dans cet exemple précis, la chaîne de Markov converge très rapidement vers sa distribution invariante. Résultat :

π2=(0.5650.435) \pi_2 = \begin{pmatrix} 0.565 \quad 0.435 \end{pmatrix}

Autrement dit : π2π\pi_2 \approx \pi

Mais ce n’est pas une généralité. En réalité :

π2=π0P2\pi_2 = \pi_0 P^2 → dépend de l’état initial.

π\pi vérifie l’équation π=πP\pi = \pi P → ne dépend que de PP.

Exemple 2 : Comportement d’un étudiant face à un devoir

Un étudiant peut être dans l’un des trois états suivants chaque jour :

AA : Il travaille sérieusement

BB : Il procrastine

CC : Il ne fait rien du tout

Matrice de transition

L’étudiant change (ou pas) d’état chaque jour selon les probabilités suivantes :

P=(0.60.30.10.30.40.30.20.40.4) P = \begin{pmatrix} 0.6 \quad 0.3 \quad 0.1 \\ 0.3 \quad 0.4 \quad 0.3 \\ 0.2 \quad 0.4 \quad 0.4 \end{pmatrix}

Ligne 1 : s’il travaille sérieusement un jour (AA), le lendemain il a 60% de chances de continuer (AA), 30% de procrastiner (BB), 10% de ne rien faire (CC).

Ligne 2 : s’il procrastine (BB), il a 30% de chances de se mettre au travail, 40% de rester en procrastination, etc.

Ligne 3 : s’il ne fait rien (CC), il y a 20% de chances qu’il se remette à bosser, 40% de rester inactif, etc.

Distribution initiale

On suppose qu’au départ (jour 0), l’étudiant est motivé :

π0=(100) \pi_0 = \begin{pmatrix} 1 \quad 0 \quad 0 \end{pmatrix}

Questions qu’on peut poser :

À long terme, quelle est la répartition stable entre les 3 comportements ?
Cela revient à déterminer la distribution invariante π\pi telle que π=πP\pi = \pi P

Distribution invariante :

On considère la matrice de transition
P=(0.60.30.10.30.40.30.20.40.4)P = \begin{pmatrix} 0.6 \quad 0.3 \quad 0.1 \\ 0.3 \quad 0.4 \quad 0.3 \\ 0.2 \quad 0.4 \quad 0.4 \end{pmatrix}

Nous cherchons à calculer P2P^2, c'est-à-dire le produit PPP \cdot P.

Calcul ligne par colonne :

picture-in-text

Ce qui donne :

P2=(0.470.340.190.360.370.270.320.380.30)P^2 = \begin{pmatrix} 0.47 \quad 0.34 \quad 0.19 \\ 0.36 \quad 0.37 \quad 0.27 \\ 0.32 \quad 0.38 \quad 0.30 \end{pmatrix}

On vérifie que P2P^2 est bien une matrice de transition :
les lignes ont pour somme 11 :

  • Ligne 1 : 0.47+0.34+0.19=10.47 + 0.34 + 0.19 = 1

  • Ligne 2 : 0.36+0.37+0.27=10.36 + 0.37 + 0.27 = 1

  • Ligne 3 : 0.32+0.38+0.30=10.32 + 0.38 + 0.30 = 1

On cherche maintenant le vecteur stationnaire π=(x,y,z)\pi = (x, y, z) tel que
πP=π\pi P = \pi et x+y+z=1x + y + z = 1

Cela revient à résoudre le système suivant :

{0.6x+0.3y+0.2z=x0.3x+0.4y+0.4z=y0.1x+0.3y+0.4z=zx+y+z=1\begin{cases} 0.6x + 0.3y + 0.2z = x \\ 0.3x + 0.4y + 0.4z = y \\ 0.1x + 0.3y + 0.4z = z \\ x + y + z = 1 \end{cases}

On simplifie :

{0.4x+0.3y+0.2z=00.3x0.6y+0.4z=00.1x+0.3y0.6z=0x+y+z=1\begin{cases} -0.4x + 0.3y + 0.2z = 0 \\ 0.3x - 0.6y + 0.4z = 0 \\ 0.1x + 0.3y - 0.6z = 0 \\ x + y + z = 1 \end{cases}

Résolution numérique du système :
π=(x,y,z)(0.348,0.370,0.282)\pi = (x, y, z) \approx (0.348, 0.370, 0.282)

Ce vecteur stationnaire signifie qu’à long terme, l'étudiant passera environ :

34.8 % du temps dans l’état 1

37.0 % dans l’état 2

28.2 % dans l’état 3