{"id":3195,"date":"2017-04-24T14:24:45","date_gmt":"2017-04-24T18:24:45","guid":{"rendered":"http:\/\/bioinfo.iric.ca\/?p=3195\/"},"modified":"2017-04-29T16:26:01","modified_gmt":"2017-04-29T20:26:01","slug":"megadonnees-gros-defi","status":"publish","type":"post","link":"https:\/\/bioinfo.iric.ca\/fr\/megadonnees-gros-defi\/","title":{"rendered":"M\u00e9gadonn\u00e9es, gros d\u00e9fi"},"content":{"rendered":"<p>Vous avez certainement d\u00e9j\u00e0 entendu le mot m\u00e9gadonn\u00e9es. Ou \u00ab\u00a0Big Data\u00a0\u00bb. Notamment, si vous avez lu <a href=\"https:\/\/www.iric.ca\/2017\/03\/biologie-des-systemes-la-recherche-biomedicale-a-lere-des-%E2%80%89big-data%E2%80%89\/\">l&rsquo;article de Simon Mathien<\/a> sur le site de l&rsquo;IRIC. (Si vous ne l&rsquo;avez pas lu, je vous encourage \u00e0 le lire!)<\/p>\n<p>Il existe plusieurs d\u00e9finitions (ou interpr\u00e9tations) du mot m\u00e9gadonn\u00e9es qui sont bien r\u00e9sum\u00e9es par les deux d\u00e9finitions suivantes :<\/p>\n<blockquote><p>Data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data<\/p>\n<p><a href=\"http:\/\/www.oed.com\/view\/Entry\/18833?redirectedFrom=big+data#eid301162177\">Oxford English Dictionary<\/a><\/p><\/blockquote>\n<blockquote><p>Domaine technologique d\u00e9di\u00e9 \u00e0 l\u2019analyse de tr\u00e8s grands volumes de donn\u00e9es informatiques (petaoctets), issus d&rsquo;une grande vari\u00e9t\u00e9 de sources, tels les moteurs de recherche et les r\u00e9seaux sociaux ; ces grands volumes de donn\u00e9es. (Recommandation officielle : m\u00e9gadonn\u00e9es.)<\/p>\n<p><a href=\"http:\/\/www.larousse.fr\/dictionnaires\/francais\/big_data\/10911026?q=BIG\">Larousse<\/a><\/p><\/blockquote>\n<p>La d\u00e9finition que donne le dictionnaire anglais <a href=\"http:\/\/www.oed.com\/view\/Entry\/18833?redirectedFrom=big+data#eid301162177\">Oxford English Dictionary<\/a> implique une notion de d\u00e9fi. Ce qui n&rsquo;est pas le cas de la d\u00e9finition trouv\u00e9e dans le <a href=\"http:\/\/www.larousse.fr\/dictionnaires\/francais\/big_data\/10911026?q=BIG\">Larousse<\/a> qui parle plut\u00f4t du domaine d\u00e9di\u00e9 \u00e0 l&rsquo;analyse des donn\u00e9es de grand volume.<\/p>\n<p>Je crois que la d\u00e9finition du dictionnaire Oxford correspond mieux \u00e0 la situation actuelle des m\u00e9gadonn\u00e9es dans le domaine de la recherche biom\u00e9dicale. Nous ne sommes pas encore capables de b\u00e9n\u00e9ficier de l&rsquo;information contenue dans les nombreux jeux de donn\u00e9es disponibles dans le monde (ou m\u00eame provenant de diff\u00e9rents centres m\u00e9dicales).<\/p>\n<p>Plusieurs d\u00e9fis surviennent \u00e0 diff\u00e9rents niveaux lorsque l&rsquo;on travaille avec des m\u00e9gadonn\u00e9es. Nobobstant, les probl\u00e8mes techniques importants li\u00e9s \u00e0 la taille des donn\u00e9es et aux limites des ressources disponibles (bande passante, espace disque, espace m\u00e9moire), il y a aussi des consid\u00e9rations \u00ab\u00a0logistiques\u00a0\u00bb. Parmi celles-ci, trouver des jeux de donn\u00e9es d&rsquo;int\u00e9r\u00eat, les r\u00e9cup\u00e9rer et les formatter convenablement, r\u00e9cup\u00e9rer et comprendre leur m\u00e9tadonn\u00e9es, rendre les jeux de donn\u00e9es compatibles et les int\u00e9grer ensemble.<\/p>\n<p>Je ne connais pas tr\u00e8s bien la situation pour les autres types de donn\u00e9es bio-informatiques, mais en g\u00e9nomique, plus pr\u00e9cis\u00e9ment pour les donn\u00e9es d&rsquo;expression de g\u00e8nes, ces consid\u00e9rations logistiques ne sont pas toujours \u00e9videntes. Je compte explorer la situation pour les autres types de donn\u00e9es dans le futur, mais pour l&rsquo;instant, je vais me restreindre aux donn\u00e9es d&rsquo;expression de g\u00e8nes.<\/p>\n<p><strong>Trouver et r\u00e9cup\u00e9rer des donn\u00e9es<\/strong><\/p>\n<p>Plusieurs efforts ont \u00e9t\u00e9 mis en place pour rendre l&rsquo;acc\u00e8s aux donn\u00e9es d&rsquo;expression g\u00e9nique plus facile. Par exemple, le site du <a href=\"http:\/\/Gene%20Expression%20Omnibus\">Gene Expression Omnibus<\/a> (GEO) pour le d\u00e9p\u00f4t des donn\u00e9es de biopuces et de RNA-Seq standardise les formats et offrent des m\u00e9tadonn\u00e9es (obligatoires lors du d\u00e9p\u00f4t). Les m\u00e9tadonn\u00e9es (comme par exemple les caract\u00e9ristiques des patients test\u00e9s, les conditions exp\u00e9rimentales, le but de l&rsquo;\u00e9tude, les protocoles utilis\u00e9s, le type de traitement et transformation de donn\u00e9es effectu\u00e9es, etc.) sont importantes. Sans ces pr\u00e9cieuses m\u00e9tadonn\u00e9es, les jeux de donn\u00e9es sont inutiles (vous ne savez pas avec quoi vous travaillez).<\/p>\n<p>Concernant les plus gros projets de s\u00e9quen\u00e7age, ils ont g\u00e9n\u00e9ralement un portail permettant de t\u00e9l\u00e9charger donn\u00e9es et m\u00e9tadonn\u00e9es. C&rsquo;est le cas de<br \/>\n<a href=\"https:\/\/gtexportal.org\/home\/\">GTex<\/a> qui a son propre portail et du <em>The Cancer Genome Atlas<\/em> (TCGA) qui utilisent maintenant le portail de <a href=\"https:\/\/portal.gdc.cancer.gov\/\">Harmonized Cancer Datasets\/Genomic Data Commons (GDC)<\/a> pour offrir ses donn\u00e9es. GDC contient les donn\u00e9es de 39 projets pour un total de 14 551 cas (patients) dans 29 sites primaires. Harmoniser et standardiser diff\u00e9rents jeux de donn\u00e9es est tr\u00e8s souhaitable quoique la bonne approche \u00e0 adopter n&rsquo;est pas n\u00e9cessairement claire. GDC retraite les donn\u00e9es brutes afin que tous les \u00e9chantillons aient \u00e9t\u00e9 process\u00e9s de la m\u00eame fa\u00e7on (m\u00eame g\u00e9nome de r\u00e9f\u00e9rence, m\u00eame algorithme d&rsquo;alignement, de quantification, etc.).<\/p>\n<p><strong>L&rsquo;int\u00e9gration des donn\u00e9es<\/strong><\/p>\n<p>N\u00e9anmoins, m\u00eame si des efforts de standardisation ont \u00e9t\u00e9 entrepris, le d\u00e9fi le plus important reste \u00e0 savoir comment int\u00e9grer de multiple jeux de donn\u00e9es ensemble. Les jeux de donn\u00e9es g\u00e9n\u00e9r\u00e9s par diff\u00e9rentes technologies (biopuces versus RNA-Seq) ou process\u00e9s de diff\u00e9rentes fa\u00e7ons (quantification en RPKM, rsem, d\u00e9comptes de kmer pour les donn\u00e9es de RNA-Seq) ne sont pas directement comparables. De plus, il n&rsquo;est pas rare de voir des biais exp\u00e9rimentaux parmi les \u00e9chantillons d&rsquo;un m\u00eame projet (utilisant la m\u00eame technologie et les m\u00eame m\u00e9thodes d&rsquo;analyse de donn\u00e9es). Dans ces conditions, imaginez les biais pouvant exister entre des \u00e9chantillons utilisant des technologies diff\u00e9rentes, venant de centres diff\u00e9rents, utilisant des protocoles diff\u00e9rents, processant les donn\u00e9es diff\u00e9remment&#8230; Les variations exp\u00e9rimentales potentielles sont infinies. Bien que l&rsquo;effort de GDC soit louable, nous ne pouvons probablement pas retraiter tous les jeux de donn\u00e9es brutes existants de la m\u00eame fa\u00e7on. Pouvons-nous quand m\u00eame envisager fusionner n&rsquo;importe quel jeux de donn\u00e9es d&rsquo;expression ensemble? \u00c0 part normaliser et corriger les biais connus, que pouvons-nous faire pour am\u00e9liorer la compatibilit\u00e9 des jeux de donn\u00e9es disponibles afin de permettre l&rsquo;exploitation la grande quantit\u00e9 d&rsquo;information qui s&rsquo;y trouve? Je ne suis pas certaine. Et je ne me suis pas encore questionn\u00e9e sur la fa\u00e7on d&rsquo;int\u00e9grer des jeux de donn\u00e9es de type diff\u00e9rents (exp\u00e9riences de perturbation par exemple avec des donn\u00e9es de s\u00e9quen\u00e7age et de cribles chimiques).<\/p>\n<p><strong>Qu&rsquo;en pensez-vous<\/strong><\/p>\n<p>Je ne sais pas si l&rsquo;int\u00e9gration est possible, faisable ou m\u00eame d\u00e9sirable pour les donn\u00e9es d&rsquo;expression de g\u00e8nes. Toutefois, il en est peut-\u00eatre autrement pour les donn\u00e9es d&rsquo;imagerie m\u00e9dicale. Quant aux donn\u00e9es de prot\u00e9omiques, je n&rsquo;en ai aucune id\u00e9e.<\/p>\n<p>Et VOUS, qu&rsquo;en pensez-vous? J&rsquo;aimerais avoir votre opinion sur le sujet. Peut-\u00eatre que vous avez m\u00eame d\u00e9j\u00e0 eu \u00e0 travailler avec des m\u00e9gadonn\u00e9es. Comment \u00e7a s&rsquo;est pass\u00e9?<\/p>\n<p>Laissez un commentaire plus bas ou contactez-moi directement! Je vais r\u00e9sumer vos opinions\/inqui\u00e9tudes\/exp\u00e9riences dans mon prochain article pour que l&rsquo;on puisse avoir une bonne id\u00e9e de comment chacun se d\u00e9brouille pr\u00e9sentement avec les m\u00e9gadonn\u00e9es biom\u00e9dicales.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vous avez certainement d\u00e9j\u00e0 entendu le mot m\u00e9gadonn\u00e9es. Ou \u00ab\u00a0Big Data\u00a0\u00bb. Notamment, si vous avez lu l&rsquo;article de Simon Mathien sur le site de l&rsquo;IRIC. (Si vous ne l&rsquo;avez pas lu, je vous encourage \u00e0 le lire!) Il existe plusieurs d\u00e9finitions (ou interpr\u00e9tations) du mot m\u00e9gadonn\u00e9es qui sont bien r\u00e9sum\u00e9es par les deux d\u00e9finitions suivantes : Data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing <a href=\"https:\/\/bioinfo.iric.ca\/fr\/megadonnees-gros-defi\/\"> [&#8230;]<\/a><\/p>\n","protected":false},"author":3,"featured_media":3247,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[161,69],"tags":[127,126,93],"class_list":["post-3195","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-analyse-de-donnees-fr","category-analyse-de-donnees","tag-expression-de-genes","tag-integration-de-donnees","tag-megadonnees"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/04\/pca_TCGA_Leuencgene2.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3195","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/comments?post=3195"}],"version-history":[{"count":18,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3195\/revisions"}],"predecessor-version":[{"id":3238,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3195\/revisions\/3238"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media\/3247"}],"wp:attachment":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media?parent=3195"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/categories?post=3195"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/tags?post=3195"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}