En travaillant sur un ensemble de données AML (leucémie aiguë myéloïde), je suis tombé sur un gène X. Lorsque son expression est haute, une mutation dans le gène Y est présente dans 50% des échantillons (cette mutation n’étant présente que dans 20% de l’ensemble de données). Y aurait-il un lien entre ces deux observations?
Et si on y mettait des chiffres: des 131 échantillons de l’ensemble de données, 28 ont une mutation dans le gène Y, 6 expriment hautement le gène X et 3 possèdent ces deux caractéristiques. La table de contingence (ci-dessous) sert à représenter la distribution de ces caractéristiques:
Mutation dans Y | Pas de mutation dans Y | Total | |
Haute expression de X | 3 | 3 | 6 |
Basse expression de X | 25 | 100 | 125 |
Total | 28 | 103 | 131 |
L’histoire se complique: seulement 6 échantillons présentent une haute expression du gène X.
Supposons maintenant que le fait de voir un peu plus d’échantillons présentant les deux caractéristiques dans notre jeu de données soit le fruit du hasard. Une pure coïncidence. À quelle fréquence cette coïncidence se produirait-elle si on assume que la fréquence de la mutation dans Y est égale entre les deux groupes présentant une basse et haute expression de X?
Cette probabilité correspond à la p-value calculée par un test de Fisher dans R:
> fisher.test (matrix (c(3, 3, 25, 100), nrow=2, byrow=T)) Fisher's Exact Test for Count Data data: matrix(c(3, 3, 25, 100), nrow = 2) p-value = 0.1116 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.4982704 31.2702870 sample estimates: odds ratio 3.944561
Il y a deux nombres qui nous intéressent dans ce résultat. La p-value, qui est de 0.1116, signifie qu’il y a 11 % de chances d’observer ce type de divergence entre les deux groupes en l’absence d’une réelle différence. Le odds ratio ou rapport de chances (parfois rapport de cotes), estime l’ampleur de l’enrichissement. En combinant ces deux informations, nous concluons que malgré l’observation de près de 4 fois plus de mutations dans le groupe présentant une sur-expression du gène X (1:1 vs 1:4), nous ne pouvons pas rejeter l’hypothèse que ces observations soient dues à une coïncidence.
Il faut faire attention, cependant, car ces données ne supportent pas l’absence de différences. En fait, nous ne pouvons même pas confirmer que le rapport de chances (odds ratio) est de moins de 4:
> fisher.test (matrix (c(3, 3, 25, 100), nrow=2, byrow=T), or=4, alt="less") Fisher's Exact Test for Count Data data: matrix(c(3, 3, 25, 100), nrow = 2, byrow = T) p-value = 0.6555 alternative hypothesis: true odds ratio is less than 4 95 percent confidence interval: 0.00000 23.04848 sample estimates: odds ratio 3.944561
On dit parfois que les statistiques peuvent nous raconter n’importe quelle histoire…. Ici, les statistiques restent pourtant résolument muettes!
Laisser un commentaire