{"id":816,"date":"2014-10-14T09:48:20","date_gmt":"2014-10-14T13:48:20","guid":{"rendered":"http:\/\/bioinfo.iric.ca\/?p=816"},"modified":"2016-11-08T09:30:16","modified_gmt":"2016-11-08T14:30:16","slug":"dois-je-calculer-une-p-value","status":"publish","type":"post","link":"https:\/\/bioinfo.iric.ca\/fr\/dois-je-calculer-une-p-value\/","title":{"rendered":"Dois-je calculer une \u00ab\u00a0p-value\u00a0\u00bb?"},"content":{"rendered":"<p>Le besoin d&rsquo;appliquer des statistiques appropri\u00e9es\u00a0en g\u00e9nomique a \u00e9t\u00e9 bien document\u00e9. \u00a0Plusieurs approches statistiques astucieuses ont \u00e9t\u00e9 mises au point\u00a0et de nombreux logiciels ont \u00e9t\u00e9 d\u00e9velopp\u00e9s (certains gratuits et tr\u00e8s performants). \u00a0Malgr\u00e9 tout, je re\u00e7ois fr\u00e9quemment la visite d&rsquo;un \u00e9tudiant ou chercheur qui se demande s&rsquo;il doit rapporter la magnitude d&rsquo;un effet (ex. le g\u00e8ne X est sur-exprim\u00e9 4.5 fois dans la condition A vs B) ou le niveau de signification statistique de cette magnitude (ex. le g\u00e8ne X est sur-exprim\u00e9 dans la condition A vs B avec une <em>p-value<\/em> de 0.0012). \u00a0Il faut savoir qu&rsquo;une <em>p-value<\/em> est syst\u00e9matiquement li\u00e9e \u00e0 un test statistique (test d&rsquo;hypoth\u00e8se), ce type de test n&rsquo;\u00e9tant qu&rsquo;une formulation math\u00e9matique d&rsquo;une question pr\u00e9cise pos\u00e9e sur les donn\u00e9es. \u00a0Pour obtenir une <em>p-value<\/em>, cette question prend la forme d&rsquo;une hypoth\u00e8se (ex. le g\u00e8ne X <span style=\"text-decoration: underline;\">n&rsquo;est pas<\/span> diff\u00e9rentiellement exprim\u00e9), appel\u00e9e $H_0$ (hypoth\u00e8se nulle) dans le jargon statistique. \u00a0Une <em>p-value<\/em> proche de z\u00e9ro sugg\u00e8re que l&rsquo;hypoth\u00e8se <span style=\"text-decoration: underline;\">n&rsquo;est pas<\/span> confirm\u00e9e (ex. les donn\u00e9es <span style=\"text-decoration: underline;\">ne supportent pas<\/span> la <span style=\"text-decoration: underline;\">non<\/span>-sur-expression du g\u00e8ne X&#8230;  Remarquez la double n\u00e9gation!). \u00a0Dans la pratique, cette nuance\u00a0pose probl\u00e8me dans deux cas: \u00a0lorsqu&rsquo;on observe de faibles et incons\u00e9quentes diff\u00e9rences dans de grands jeux de donn\u00e9es OU lorsqu&rsquo;on observe de grandes diff\u00e9rences accompagn\u00e9es d&rsquo;un bruit inattendu (ex. <em>outlier<\/em>). \u00a0Pour illustrer, voici deux exemples obtenus par simulation (on peut imaginer qu&rsquo;il s&rsquo;agit de quantification par qPCR d&rsquo;un g\u00e8ne dans deux conditions).<br \/>\n<center><br \/>\n<a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/Rplot02.png\"><img decoding=\"async\" class=\"alignnone size-medium wp-image-592\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/Rplot02-210x300.png\" alt=\"Rplot02\" width=\"210\" height=\"300\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/Rplot02-210x300.png 210w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/Rplot02.png 351w\" sizes=\"(max-width: 210px) 100vw, 210px\" \/><\/a> <a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/Rplot04.png\"><img decoding=\"async\" class=\"alignnone wp-image-595 size-medium\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/Rplot04-210x300.png\" alt=\"\" width=\"210\" height=\"300\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/Rplot04-210x300.png 210w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/Rplot04.png 351w\" sizes=\"(max-width: 210px) 100vw, 210px\" \/><\/a><br \/>\n<\/center><br \/>\nDans le premier sc\u00e9nario, le test d&rsquo;hypoth\u00e8se indique que la diff\u00e9rence est statistiquement significative ($p &lt; 0.01$), mais on remarque que la diff\u00e9rence d&rsquo;expression est sans doute\u00a0inint\u00e9ressante (augmentation de 3%) et possiblement le r\u00e9sultat d&rsquo;un biais difficile \u00e0 d\u00e9terminer. \u00a0Dans le second sc\u00e9nario, l&rsquo;un des trois \u00e9chantillons de la condition \u00ab\u00a0B\u00a0\u00bb se comporte \u00e9trangement et r\u00e9sulte en un test non-significatif malgr\u00e9 une diff\u00e9rence substantielle. \u00a0Dans les deux cas, la diff\u00e9rence dans les moyennes d&rsquo;expression aurait donn\u00e9 une meilleure indication de la situation. \u00a0Dans la majorit\u00e9 des projets dans lesquels j&rsquo;ai \u00e9t\u00e9 impliqu\u00e9 (puce \u00e0 ADN, RNA-Seq, criblage haut-d\u00e9bit, prot\u00e9omique, qPCR, etc.), ma premi\u00e8re suggestion est toujours de d\u00e9buter l&rsquo;analyse en utilisant la magnitude de l&rsquo;effet sous \u00e9tude (diff\u00e9rence, log-ratio, %inhibition, etc.). \u00a0De mani\u00e8re g\u00e9n\u00e9rale, je recommande de se demander si l&rsquo;hypoth\u00e8se du test envisag\u00e9 correspond bien \u00e0 une question scientifiquement pertinente (ex. est-ce que les conditions A et B influencent l&rsquo;expression du g\u00e8ne X?). \u00a0Je vous promets de revenir dans un prochain article avec de bons exemples d&rsquo;application de tests d&rsquo;hypoth\u00e8se&#8230; \u00a0D&rsquo;ici l\u00e0, n&rsquo;h\u00e9sitez pas \u00e0 laisser vos commentaires!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le besoin d&rsquo;appliquer des statistiques appropri\u00e9es\u00a0en g\u00e9nomique a \u00e9t\u00e9 bien document\u00e9. \u00a0Plusieurs approches statistiques astucieuses ont \u00e9t\u00e9 mises au point\u00a0et de nombreux logiciels ont \u00e9t\u00e9 d\u00e9velopp\u00e9s (certains gratuits et tr\u00e8s performants). \u00a0Malgr\u00e9 tout, je re\u00e7ois fr\u00e9quemment la visite d&rsquo;un \u00e9tudiant ou chercheur qui se demande s&rsquo;il doit rapporter la magnitude d&rsquo;un effet (ex. le g\u00e8ne X est sur-exprim\u00e9 4.5 fois dans la condition A vs B) ou le niveau de signification statistique de cette magnitude (ex. le g\u00e8ne X est <a href=\"https:\/\/bioinfo.iric.ca\/fr\/dois-je-calculer-une-p-value\/\"> [&#8230;]<\/a><\/p>\n","protected":false},"author":5,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":false,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[27],"tags":[],"class_list":["post-816","post","type-post","status-publish","format-standard","hentry","category-statistiques"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/816","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/comments?post=816"}],"version-history":[{"count":5,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/816\/revisions"}],"predecessor-version":[{"id":823,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/816\/revisions\/823"}],"wp:attachment":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media?parent=816"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/categories?post=816"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/tags?post=816"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}