{"id":2152,"date":"2016-04-07T10:21:50","date_gmt":"2016-04-07T14:21:50","guid":{"rendered":"http:\/\/bioinfo.iric.ca\/fr\/?p=2152"},"modified":"2017-04-29T17:01:08","modified_gmt":"2017-04-29T21:01:08","slug":"ecart-type-sur-un-graphe-de-correlation","status":"publish","type":"post","link":"https:\/\/bioinfo.iric.ca\/fr\/ecart-type-sur-un-graphe-de-correlation\/","title":{"rendered":"\u00c9cart-type sur un graphe de corr\u00e9lation"},"content":{"rendered":"<p>Un coll\u00e8gue m&rsquo;a r\u00e9cemment demand\u00e9 de produire une visualisation montrant l&rsquo;expression diff\u00e9rentielle des g\u00e8nes entre deux \u00e9chantillons (sans r\u00e9plicats). En utilisant les donn\u00e9es de RPKM, il voulait faire ressortir tous les g\u00e8nes se trouvant aux extr\u00e9mit\u00e9s de la distribution i.e. \u00e0 2 \u00e9cart-types de la moyenne ou plus.<\/p>\n<p>Comme premier essai, j&rsquo;ai calcul\u00e9 la distribution de <em>fold change<\/em> et l&rsquo;\u00e9cart-type et j&rsquo;ai trac\u00e9 les droites correspondantes de chaque c\u00f4t\u00e9 de la diagonale sur un graphe en nuage de points pr\u00e9sentant les deux \u00e9chantillons :<\/p>\n<p><img decoding=\"async\" class=\"size-full wp-image-2132 aligncenter\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_1.png\" alt=\"RPKM_1\" width=\"400\" height=\"400\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_1-66x66.png 66w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_1-150x150.png 150w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_1-300x300.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_1.png 400w\" sizes=\"(max-width: 400px) 100vw, 400px\" \/><\/p>\n<p>Ceci \u00e9quivaut \u00e0 calculer l&rsquo;\u00e9cart-type des valeurs r\u00e9siduelles d&rsquo;un mod\u00e8le lin\u00e9aire appliqu\u00e9 \u00e0 cette distribution. En R :<br \/>\n<code><br \/>\nsd(residuals(lm(y ~ x + 0)) ~= sd (log(FC))<br \/>\n<\/code><\/p>\n<p>Mon coll\u00e8gue m&rsquo;a vite fait remarqu\u00e9 que ce n&rsquo;\u00e9tait pas tout \u00e0 fait satisfaisant puisqu&rsquo;il s&rsquo;attendait \u00e0 voir l&rsquo;\u00e9cart-type varier le long de la diagonale. M\u00eame si cela semblait logique, apr\u00e8s plusieurs minutes de recherche, je ne voyais pas comment arriver \u00e0 le satisfaire. \u00c9ventuellement, nous avons obtenu des r\u00e9plicats pour ce projet et j&rsquo;ai pu faire une analyse compl\u00e8te de l&rsquo;expression diff\u00e9rentielle en utilisant le logiciel DESeq2. J&rsquo;ai pu utiliser les <em>p-values<\/em> ajust\u00e9es pour colorer les g\u00e8nes significatifs (p-adj &lt; 0.001):<\/p>\n<p><img decoding=\"async\" class=\"size-full wp-image-2131 aligncenter\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/DESEQ2.png\" alt=\"DESEQ2\" width=\"400\" height=\"400\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/DESEQ2-66x66.png 66w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/DESEQ2-150x150.png 150w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/DESEQ2-300x300.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/DESEQ2.png 400w\" sizes=\"(max-width: 400px) 100vw, 400px\" \/><\/p>\n<p>Projetons-nous plusieurs semaines plus tard. Sortant de nulle part, la r\u00e9ponse au probl\u00e8me original m&rsquo;est apparue sous la forme d&rsquo;un simple probl\u00e8me de g\u00e9ometrie. J&rsquo;ai test\u00e9 la solution suivante. D&rsquo;abord, appliquer un mod\u00e8le lin\u00e9aire sur la distribution pour obtenir la pente (m) de la droite d\u00e9riv\u00e9e du mod\u00e8le, qui devrait th\u00e9oriquement \u00eatre proche de 1 si les donn\u00e9es sont normalis\u00e9es correctement. Dans mon cas, j&rsquo;ai obtenu une valeur de 0.986, ce qui n&rsquo;est pas mauvais du tout. Ensuite, j&rsquo;ai fait une rotation de la distribution en utilisant une valeur d&rsquo;angle correspondant \u00e0 la pente, ou atan(m), mais dans le sens des aiguilles d&rsquo;une montre, donc Theta=-atan(m). On peut facilement convertir les coordonn\u00e9es (x,y) en utilisant une matrice de rotation :<\/p>\n<p><img decoding=\"async\" class=\"size-full wp-image-2135 aligncenter\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/NumberedEquation1.gif\" alt=\"NumberedEquation1\" width=\"121\" height=\"36\" \/><\/p>\n<p>Nous pouvons ensuite calculer un \u00e9cart-type par fen\u00eatre sur les valeurs de y&rsquo; le long de l&rsquo;axe des x&rsquo; et transformer ces valeurs en deux courbes en utilisant une rotation -Theta. Ceci donne :<\/p>\n<p><img decoding=\"async\" class=\"size-full wp-image-2133 aligncenter\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_2.png\" alt=\"RPKM_2\" width=\"400\" height=\"400\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_2-66x66.png 66w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_2-150x150.png 150w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_2-300x300.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2016\/04\/RPKM_2.png 400w\" sizes=\"(max-width: 400px) 100vw, 400px\" \/><\/p>\n<p>Un observateur avis\u00e9 remarquera que cela revient presque \u00e0 calculer l&rsquo;\u00e9cart-type par fen\u00eatre sur les valeurs A le long de l&rsquo;axe M sur un graphe MA. Ce serait en fait exactement la m\u00eame chose si l&rsquo;angle de rotation \u00e9tait de pi\/4. Aussi, on remarquera que pour identifier les g\u00e8nes int\u00e9ressants, un seuil appliqu\u00e9 \u00e0 l&rsquo;\u00e9cart-type n&rsquo;est probablement pas la meilleure solution puisqu&rsquo;on se retrouve \u00e0 conserver beaucoup de g\u00e8nes peu exprim\u00e9s. Un seuil sur le niveau d&rsquo;expression et sur le <em>fold change<\/em> reste la meilleure option lorsqu&rsquo;on travaille sans r\u00e9plicats.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Un coll\u00e8gue m&rsquo;a r\u00e9cemment demand\u00e9 de produire une visualisation montrant l&rsquo;expression diff\u00e9rentielle des g\u00e8nes entre deux \u00e9chantillons (sans r\u00e9plicats). En utilisant les donn\u00e9es de RPKM, il voulait faire ressortir tous les g\u00e8nes se trouvant aux extr\u00e9mit\u00e9s de la distribution i.e. \u00e0 2 \u00e9cart-types de la moyenne ou plus. Comme premier essai, j&rsquo;ai calcul\u00e9 la distribution de fold change et l&rsquo;\u00e9cart-type et j&rsquo;ai trac\u00e9 les droites correspondantes de chaque c\u00f4t\u00e9 de la diagonale sur un graphe en nuage de points pr\u00e9sentant <a href=\"https:\/\/bioinfo.iric.ca\/fr\/ecart-type-sur-un-graphe-de-correlation\/\"> [&#8230;]<\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[24,27,44],"tags":[129],"class_list":["post-2152","post","type-post","status-publish","format-standard","hentry","category-langage-r","category-statistiques","category-visualisation-de-donnees","tag-analyse-de-donnees"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/2152","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/comments?post=2152"}],"version-history":[{"count":7,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/2152\/revisions"}],"predecessor-version":[{"id":3269,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/2152\/revisions\/3269"}],"wp:attachment":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media?parent=2152"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/categories?post=2152"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/tags?post=2152"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}