{"id":3649,"date":"2017-08-18T13:24:37","date_gmt":"2017-08-18T17:24:37","guid":{"rendered":"http:\/\/bioinfo.iric.ca\/?p=3649\/"},"modified":"2017-08-18T13:24:37","modified_gmt":"2017-08-18T17:24:37","slug":"megadonnes-gros-defi-partie-2","status":"publish","type":"post","link":"https:\/\/bioinfo.iric.ca\/fr\/megadonnes-gros-defi-partie-2\/","title":{"rendered":"M\u00e9gadonn\u00e9es, gros d\u00e9fi &#8211; partie 2"},"content":{"rendered":"<p>Cet article est la suite de<a href=\"https:\/\/bioinfo.iric.ca\/fr\/megadonnees-gros-defi\/\"> mon pr\u00e9c\u00e9dent article sur les m\u00e9gadonn\u00e9es<\/a>. Il n&rsquo;a pas engendr\u00e9 de discussion virtuelle enflamm\u00e9e sur le sujet, mais j&rsquo;\u00e9tais tr\u00e8s heureuse de recevoir quelques commentaires sur la situation dans d&rsquo;autres domaines de la bio-informatique.<\/p>\n<h2>Prot\u00e9omique<\/h2>\n<p>Mathieu Courcelles, bio-informaticien \u00e0 la<a href=\"https:\/\/proteomics.iric.ca\/?_LOCALE_=fr\"> plate-forme de prot\u00e9omique<\/a>, explique que la prot\u00e9omique utilisant la spectrom\u00e9trie de masse a toujours g\u00e9n\u00e9r\u00e9 des \u00ab\u00a0m\u00e9gadonn\u00e9es\u00a0\u00bb. Donc, l&rsquo;expression n&rsquo;est pas tr\u00e8s utilis\u00e9e dans le domaine puisqu&rsquo;elle n&rsquo;a rien de nouveau.<\/p>\n<p>Comme il le dit (je me suis permise de traduire ses propos &#8211; voir la version anglaise pour la citation originale) :<\/p>\n<blockquote><p>Les spectrom\u00e8tres de masse sont des instruments qui g\u00e9n\u00e8rent un large volume de donn\u00e9es 24\/7. Tr\u00e8s t\u00f4t et pour suivre l&rsquo;\u00e9volution des instruments, de l&rsquo;informatique distribu\u00e9e a \u00e9t\u00e9 n\u00e9cessaire pour processer toutes ces donn\u00e9es. J&rsquo;ai l&rsquo;impression que le traitement de larges quantit\u00e9s de donn\u00e9es n&rsquo;est pas une nouvelle tendance dans notre champs de recherche. Le mouvement \u00ab\u00a0m\u00e9gadonn\u00e9es\u00a0\u00bb nous offre, cependant, un acc\u00e8s pratique \u00e0 plus de ressources informatiques (nuage informatique) et \u00e0 un ensemble d&rsquo;outils g\u00e9n\u00e9riques pour faire du traitement de donn\u00e9es (par exemple, Hadoop, Spark, Dask, Docker). Pour l&rsquo;instant, il n&rsquo;y a que quelques laboratoires qui utilisent ces nouveaux outils de traitement de donn\u00e9es.<br \/>\nDes processus optimis\u00e9s et flexibles sont d\u00e9j\u00e0 en place pour traiter les donn\u00e9es brutes pour identifier les prot\u00e9ines. Toutefois, ces nouveaux processus g\u00e9n\u00e9riques seront peut-\u00eatre utiles pour approfondir le traitement des donn\u00e9es ou permettre leur int\u00e9gration. Le partage de donn\u00e9es devient aussi populaire en prot\u00e9omique. ProteomeXchange et HUPO, principaux projets support\u00e9s par la communaut\u00e9, tentent de d\u00e9finir des standards de partage. L&rsquo;int\u00e9gration de donn\u00e9es est aussi un d\u00e9fi. Un des probl\u00e8mes particulier est li\u00e9 aux donn\u00e9es manquantes. Tout d\u00e9pendant des conditions exp\u00e9rimentales et des instruments, la couverture du prot\u00e9ome peut diff\u00e9rer grandement.<\/p><\/blockquote>\n<h2>Donn\u00e9es CRISPR<\/h2>\n<p>Concernant les donn\u00e9es CRISPR, Jasmin Coulombe-Huntington, post-doc au laboratoire de Mike Tyers, est aussi d&rsquo;avis que le traitement de donn\u00e9es massives dans notre domaine existait bien avant l&rsquo;apparition du mot \u00ab\u00a0m\u00e9gadonn\u00e9es\u00a0\u00bb. \u00a0En traitant les donn\u00e9es de screens CRISPR, il fait face aux m\u00eames probl\u00e8mes qu&rsquo;en g\u00e9nomique, principalement ceux li\u00e9s \u00e0 l&rsquo;int\u00e9gration efficace de donn\u00e9es provenant de diff\u00e9rentes exp\u00e9riences. M\u00eame si, dans son cas, le probl\u00e8me n&rsquo;est pas li\u00e9 \u00e0 l&rsquo;int\u00e9gration de donn\u00e9es provenant de diff\u00e9rentes technologies, la quantit\u00e9 de donn\u00e9es g\u00e9n\u00e9r\u00e9es pose un probl\u00e8me au niveau de la \u00a0logistique et des ressources. Il croit toutefois que l&rsquo;int\u00e9gration est importante, ayant d\u00e9montr\u00e9 dans ses travaux que l&rsquo;int\u00e9gration de diff\u00e9rents exp\u00e9riences permettait de mieux contr\u00f4ler les biais et d&rsquo;augmenter la valeur de chacune des exp\u00e9riences en permettant de rep\u00e9rer celles qui sont informatives facilement.<\/p>\n<h2>G\u00e9nomique<\/h2>\n<p>Dans mon dernier article, j&rsquo;ai parl\u00e9 bri\u00e8vement de Genomic Data Commons (GDC), dont la mission est d&rsquo;harmoniser les donn\u00e9es servies par le site. Chaque \u00e9chantillon est reprocess\u00e9 de la m\u00eame fa\u00e7on pour rendre tous les \u00e9chantillons comparables. \u00c0 la plate-forme, nous avons aussi reprocess\u00e9 les \u00e9chantillons de TCGA-AML et ceux du projet Leucegene en utilisant un pipeline identique (<a href=\"https:\/\/pachterlab.github.io\/kallisto\/\">kallisto <\/a>pour calculer des TPMs) pour les rendre comparables. <span style=\"font-weight: 400;\"> La corr\u00e9lation entre la moyenne d&rsquo;expression (en log) des g\u00e8nes entre les deux cohortes est plus grande pour les g\u00e8nes plus fortement exprim\u00e9s (les valeurs d&rsquo;expression pour les g\u00e8nes faiblement exprim\u00e9s \u00e9tant plus bruit\u00e9es), mais reste globablement bonne. La cl\u00e9 ici est l&rsquo;utilisation de kallisto qui est beaucoup plus rapide et moins exigeant que les outils d&rsquo;alignement traditionnels.<\/span><\/p>\n<p>D&rsquo;autres s&rsquo;engagent aussi dans la voie de l&rsquo;harmonisation des donn\u00e9es. <a href=\"https:\/\/xenabrowser.net\/\"> Xena Browser<\/a>, de UCSC, h\u00e9berge les donn\u00e9es publiques de plusieurs diff\u00e9rents projets (GTEx, ICGC, TCGA, TARGET, m\u00eame les donn\u00e9es de projets de perturbation de g\u00e9nome comme Connectivity Map ou NCI ou CCLE <span style=\"font-weight: 400;\">pour n\u2019en nommer que quelques-uns<\/span>) et offre des outils interactifs pour explorer les donn\u00e9es. Pour l&rsquo;une de leurs sources de donn\u00e9es, ils ont r\u00e9analys\u00e9 les \u00e9chantillons de GTEx, TCGA et TARGET en utilisant le m\u00eame pipeline (kallisto et star\/rsem)<br \/>\npour ainsi permettre une comparaison directe et retirer tous les biais computationnels.<\/p>\n<p><center><br \/>\n<img decoding=\"async\" class=\"aligncenter size-full wp-image-3658\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/08\/XenaBrowser-1-e1502998223457.png\" alt=\"\" width=\"600\" \/><\/center><strong>Figure1<\/strong>. Comparaison de l&rsquo;expression des g\u00e8nes MYC, BAD, PTEN et TP53 dans les \u00e9chantillons de cerveau de GTEx (normal) et de TCGA (cancer) via le XenaBrowser.<\/p>\n<p>&nbsp;<\/p>\n<p>Leur article publi\u00e9 dans Nature Biotechnology, <em><a href=\"http:\/\/www.nature.com\/nbt\/journal\/v35\/n4\/full\/nbt.3772.html\">Toil enables reproducible, open source, big biomedical data analyses<\/a><\/em>, d\u00e9crit leur approche et leurs infrastructures. Cela ne corrige pas les biais exp\u00e9rimentaux ni ceux li\u00e9s aux \u00e9chantillons comme tel. Et cela ne pourrait pas servir \u00e0 int\u00e9grer des donn\u00e9es provenant de diff\u00e9rentes technologies. Toutefois, cela montre que la communaut\u00e9 essaie de trouver des solutions aux probl\u00e8mes d&rsquo;int\u00e9gration.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Cet article est la suite de mon pr\u00e9c\u00e9dent article sur les m\u00e9gadonn\u00e9es. Il n&rsquo;a pas engendr\u00e9 de discussion virtuelle enflamm\u00e9e sur le sujet, mais j&rsquo;\u00e9tais tr\u00e8s heureuse de recevoir quelques commentaires sur la situation dans d&rsquo;autres domaines de la bio-informatique. Prot\u00e9omique Mathieu Courcelles, bio-informaticien \u00e0 la plate-forme de prot\u00e9omique, explique que la prot\u00e9omique utilisant la spectrom\u00e9trie de masse a toujours g\u00e9n\u00e9r\u00e9 des \u00ab\u00a0m\u00e9gadonn\u00e9es\u00a0\u00bb. Donc, l&rsquo;expression n&rsquo;est pas tr\u00e8s utilis\u00e9e dans le domaine puisqu&rsquo;elle n&rsquo;a rien de nouveau. Comme il le <a href=\"https:\/\/bioinfo.iric.ca\/fr\/megadonnes-gros-defi-partie-2\/\"> [&#8230;]<\/a><\/p>\n","protected":false},"author":3,"featured_media":3658,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2},"jetpack_post_was_ever_published":false},"categories":[161],"tags":[126,93],"class_list":["post-3649","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-analyse-de-donnees-fr","tag-integration-de-donnees","tag-megadonnees"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/08\/XenaBrowser-1-e1502998223457.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3649","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/comments?post=3649"}],"version-history":[{"count":15,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3649\/revisions"}],"predecessor-version":[{"id":3683,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3649\/revisions\/3683"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media\/3658"}],"wp:attachment":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media?parent=3649"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/categories?post=3649"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/tags?post=3649"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}