{"id":664,"date":"2014-09-21T16:37:21","date_gmt":"2014-09-21T20:37:21","guid":{"rendered":"http:\/\/bioinfo.iric.ca\/?p=664"},"modified":"2016-11-08T09:30:17","modified_gmt":"2016-11-08T14:30:17","slug":"apprends-moi-lart-du-boxplot","status":"publish","type":"post","link":"https:\/\/bioinfo.iric.ca\/fr\/apprends-moi-lart-du-boxplot\/","title":{"rendered":"Apprends-moi l&rsquo;art du boxplot!"},"content":{"rendered":"<p>Les <em>boxplots<\/em> ou diagramme de quartiles sont partout! Les \u00e9diteurs aiment les diagrammes de quartiles.  Mais demandez \u00e0 quelques personnes et la plupart ne pourront m\u00eame pas vous expliquer ce que repr\u00e9sente cet amas de lignes!<br \/>\nR\u00e9cemment, j&rsquo;ai voulu examiner l&rsquo;expression g\u00e9nique entre deux \u00e9chantillons pour un certain g\u00e8ne. Le graphique standard pour ceci est bien s\u00fbr\u00a0 ***roulement de tambour***&#8230;  Le <em>boxplot<\/em>!<\/p>\n<p>Fait int\u00e9ressant #1: Saviez-vous que les diagrammes de quartiles sont \u00e9galement appel\u00e9s \u00ab\u00a0bo\u00eete moustache\u00a0\u00bb*?<\/p>\n<p>Et si on les regardait de plus pr\u00e8s?  Un <em>boxplot<\/em> est g\u00e9n\u00e9r\u00e9 ais\u00e9ment avec un logiciel d&rsquo;analyse, tel que R, et son interpr\u00e9tation est intuitive, mais il y reste quelques nuances.<\/p>\n<p>\n<a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/boxplotannotated.png\"><img decoding=\"async\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/boxplotannotated.png\" alt=\"boxplotannotated\" width=\"511\" height=\"400\" class=\"alignnone size-full wp-image-651\" \/><\/a><\/p>\n<p>D\u00e9cortiquons-le ensemble!<\/p>\n<p><strong>A- Cette ligne est une m\u00e9diane<\/strong> <\/p>\n<p>Qu&rsquo;est-ce que la m\u00e9diane? Si vous ne le savez pas, continuez votre lecture, on vous explique!  Si vous mettiez toutes les valeurs en ordre croissant, la m\u00e9diane serait la valeur du milieu. Par exemple, pour les valeurs 1,5,6,12,17,18,21 :  la m\u00e9diane est 12. C&rsquo;est la valeur au centre. Attention de ne pas la confondre avec la moyenne. Dans ce cas-ci, la moyenne est 11.42.  <\/p>\n<p>Mais alors, que fait-on si on a un nombre de valeurs pair? Par exemple, 1,3,4,5,19,156. La m\u00e9diane ici est la moyenne des deux valeurs du milieu, alors $(4+5)\/2 = 4.5$.  Encore une fois, ne pas confondre avec la moyenne, qui est ici de 31.33.<\/p>\n<p><strong>B- Ces deux lignes repr\u00e9sentent la s\u00e9paration des 1<sup>er<\/sup> et 3<sup>\u00e8me<\/sup> quartiles<\/strong><\/p>\n<p>Un quartile est un peu comme une m\u00e9diane, mais divis\u00e9e en quatre au lieu de 2. Ici, les lignes B repr\u00e9sentent respectivement les premier (Q1 ou quartile inf\u00e9rieur) et troisi\u00e8me (Q3 ou quartile sup\u00e9rieur) quarts des valeurs.<\/p>\n<p><strong>C- Les moustaches<\/strong><\/p>\n<p>Dans un <em>boxplot<\/em> Tukey, ces lignes repr\u00e9sentent 1.5*IQR (l&rsquo;\u00e9cart interquartile ou <em>interquartile range<\/em>).  Cette curieuse valeur est la distance (lire diff\u00e9rence) entre les valeurs Q3 et Q1, qui sont les 3<sup>\u00e8me<\/sup> et 1<sup>er<\/sup> quartiles.  Dans certains <em>boxplots<\/em>, les moustaches repr\u00e9sentent les valeurs minimum et maximum.<\/p>\n<p><strong>D- Donn\u00e9es aberrantes (<em>Outliers<\/em>)<\/strong><\/p>\n<p>Et il y a eux, les aberrants. Ce sont des donn\u00e9es qui ne sont pas incluses ni dans les lignes 1.5*IQR (moustaches), ni dans la bo\u00eete principale. Ces donn\u00e9es nous donnent des indices sur la distribution, chose qu&rsquo;il est impossible de visualiser avec la bo\u00eete. Notez que les donn\u00e9es aberrantes ne sont pas toujours repr\u00e9sent\u00e9es.<\/p>\n<p>Dans d&rsquo;autres cas, les <em>violin plots<\/em> sont utilis\u00e9s. Ces graphiques montrent la distribution d&rsquo;une plage de donn\u00e9es. Plus il y a d&rsquo;entr\u00e9es ayant la m\u00eame valeur, plus le graphique sera large \u00e0 cette valeur. Ci-dessous est un graphique violon avec l&rsquo;expression du g\u00e8ne <em>TP53<\/em> dans les \u00e9chantillons cancer versus normal, pour les cancers suivants: de la vessie (BLCA), du sein (BRCA) et de la t\u00eate et du cou (\u00ab\u00a0Head and Neck\u00a0\u00bb, abr\u00e9vi\u00e9 HNSC)<\/p>\n<p>\n<a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/boxplot_violin.png\"><img decoding=\"async\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/boxplot_violin.png\" alt=\"boxplot_violin\" width=\"864\" height=\"400\" class=\"alignnone size-full wp-image-653\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/boxplot_violin-300x138.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2014\/09\/boxplot_violin.png 864w\" sizes=\"(max-width: 864px) 100vw, 864px\" \/><\/a>\n<\/p>\n<p><strong>Poussons un peu plus loin!<\/strong><\/p>\n<p>La valeur IQR est utile pour v\u00e9rifier la normalit\u00e9 d&rsquo;une plage de donn\u00e9es (distribution Gaussienne).  Disons que vous d\u00e9tenez un ensemble de donn\u00e9es dont vous connaissez l&rsquo;\u00e9cart-type, la moyenne ainsi que les valeurs Q1 et Q3.  Si la distribution est normale, la valeur Q1 devrait correspondre \u00e0 la somme de la moyenne ($\\underline{x}$) plus -0.67 fois l&rsquo;\u00e9cart-type ($\\sigma$). Comme ceci:  $Q1 = \\overline{x}+(-0.67*\\sigma)$.  Et la m\u00eame chose s&rsquo;applique pour Q3, sauf que c&rsquo;est 0.67 fois l&rsquo;\u00e9cart-type:  $Q3 = \\overline{x}+(0.67*\\sigma)$.<\/p>\n<p>Les <em>boxplots<\/em> sont un bon moyen pour apprendre \u00e0 conna\u00eetre ses donn\u00e9es. Laissez-les vous raconter leur histoire, vous n&rsquo;avez qu&rsquo;\u00e0 \u00e9couter&#8230;\u00e0 condition de poser les bonnes questions, bien s\u00fbr!<\/p>\n<p>** Les diagrammes de quartiles sont aussi appel\u00e9s trac\u00e9 en bo\u00eetes, trac\u00e9s en rectangles et moustaches ou tout simplement, bo\u00eetes \u00e0 moustaches.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Les boxplots ou diagramme de quartiles sont partout! Les \u00e9diteurs aiment les diagrammes de quartiles. Mais demandez \u00e0 quelques personnes et la plupart ne pourront m\u00eame pas vous expliquer ce que repr\u00e9sente cet amas de lignes! R\u00e9cemment, j&rsquo;ai voulu examiner l&rsquo;expression g\u00e9nique entre deux \u00e9chantillons pour un certain g\u00e8ne. Le graphique standard pour ceci est bien s\u00fbr\u00a0 ***roulement de tambour***&#8230; Le boxplot! Fait int\u00e9ressant #1: Saviez-vous que les diagrammes de quartiles sont \u00e9galement appel\u00e9s \u00ab\u00a0bo\u00eete moustache\u00a0\u00bb*? Et si on les <a href=\"https:\/\/bioinfo.iric.ca\/fr\/apprends-moi-lart-du-boxplot\/\"> [&#8230;]<\/a><\/p>\n","protected":false},"author":6,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":false,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[24,27,44],"tags":[],"class_list":["post-664","post","type-post","status-publish","format-standard","hentry","category-langage-r","category-statistiques","category-visualisation-de-donnees"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/664","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/comments?post=664"}],"version-history":[{"count":17,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/664\/revisions"}],"predecessor-version":[{"id":682,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/664\/revisions\/682"}],"wp:attachment":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media?parent=664"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/categories?post=664"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/tags?post=664"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}