En travaillant sur un ensemble de données AML (leucémie aiguë myéloïde), je suis tombé sur un gène X. Lorsque son expression est haute, une mutation dans le gène Y est présente dans 50% des échantillons (cette mutation n’étant présente que dans 20% de l’ensemble de données). Y aurait-il un lien entre ces deux observations?

Et si on y mettait des chiffres: des 131 échantillons de l’ensemble de données, 28 ont une mutation dans le gène Y, 6 expriment hautement le gène X et 3 possèdent ces deux caractéristiques. La table de contingence (ci-dessous) sert à représenter la distribution de ces caractéristiques:

Mutation dans Y Pas de mutation dans Y Total
Haute expression de X 3 3 6
Basse expression de X 25 100 125
Total 28 103 131

L’histoire se complique: seulement 6 échantillons présentent une haute expression du gène X.
Supposons maintenant que le fait de voir un peu plus d’échantillons présentant les deux caractéristiques dans notre jeu de données soit le fruit du hasard. Une pure coïncidence. À quelle fréquence cette coïncidence se produirait-elle si on assume que la fréquence de la mutation dans Y est égale entre les deux groupes présentant une basse et haute expression de X?

Cette probabilité correspond à la p-value calculée par un test de Fisher dans R:

> fisher.test (matrix (c(3, 3, 25, 100), nrow=2, byrow=T))

Fisher's Exact Test for Count Data

data: matrix(c(3, 3, 25, 100), nrow = 2)
p-value = 0.1116
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.4982704 31.2702870
sample estimates:
odds ratio
3.944561

Il y a deux nombres qui nous intéressent dans ce résultat. La p-value, qui est de 0.1116, signifie qu’il y a 11 % de chances d’observer ce type de divergence entre les deux groupes en l’absence d’une réelle différence. Le odds ratio ou rapport de chances (parfois rapport de cotes), estime l’ampleur de l’enrichissement. En combinant ces deux informations, nous concluons que malgré l’observation de près de 4 fois plus de mutations dans le groupe présentant une sur-expression du gène X (1:1 vs 1:4), nous ne pouvons pas rejeter l’hypothèse que ces observations soient dues à une coïncidence.

Il faut faire attention, cependant, car ces données ne supportent pas l’absence de différences. En fait, nous ne pouvons même pas confirmer que le rapport de chances (odds ratio) est de moins de 4:

> fisher.test (matrix (c(3, 3, 25, 100), nrow=2, byrow=T), or=4, alt="less")

Fisher's Exact Test for Count Data

data: matrix(c(3, 3, 25, 100), nrow = 2, byrow = T)
p-value = 0.6555
alternative hypothesis: true odds ratio is less than 4
95 percent confidence interval:
0.00000 23.04848
sample estimates:
odds ratio
3.944561

On dit parfois que les statistiques peuvent nous raconter n’importe quelle histoire….  Ici, les statistiques restent pourtant résolument muettes!