Mégadonnées, gros défi

Vous avez certainement déjà entendu le mot mégadonnées. Ou « Big Data ». Notamment, si vous avez lu l’article de Simon Mathien sur le site de l’IRIC. (Si vous ne l’avez pas lu, je vous encourage à le lire!)

Il existe plusieurs définitions (ou interprétations) du mot mégadonnées qui sont bien résumées par les deux définitions suivantes :

Data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data

Oxford English Dictionary

Domaine technologique dédié à l’analyse de très grands volumes de données informatiques (petaoctets), issus d’une grande variété de sources, tels les moteurs de recherche et les réseaux sociaux ; ces grands volumes de données. (Recommandation officielle : mégadonnées.)

Larousse

La définition que donne le dictionnaire anglais Oxford English Dictionary implique une notion de défi. Ce qui n’est pas le cas de la définition trouvée dans le Larousse qui parle plutôt du domaine dédié à l’analyse des données de grand volume.

Je crois que la définition du dictionnaire Oxford correspond mieux à la situation actuelle des mégadonnées dans le domaine de la recherche biomédicale. Nous ne sommes pas encore capables de bénéficier de l’information contenue dans les nombreux jeux de données disponibles dans le monde (ou même provenant de différents centres médicales).

Plusieurs défis surviennent à différents niveaux lorsque l’on travaille avec des mégadonnées. Nobobstant, les problèmes techniques importants liés à la taille des données et aux limites des ressources disponibles (bande passante, espace disque, espace mémoire), il y a aussi des considérations « logistiques ». Parmi celles-ci, trouver des jeux de données d’intérêt, les récupérer et les formatter convenablement, récupérer et comprendre leur métadonnées, rendre les jeux de données compatibles et les intégrer ensemble.

Je ne connais pas très bien la situation pour les autres types de données bio-informatiques, mais en génomique, plus précisément pour les données d’expression de gènes, ces considérations logistiques ne sont pas toujours évidentes. Je compte explorer la situation pour les autres types de données dans le futur, mais pour l’instant, je vais me restreindre aux données d’expression de gènes.

Trouver et récupérer des données

Plusieurs efforts ont été mis en place pour rendre l’accès aux données d’expression génique plus facile. Par exemple, le site du Gene Expression Omnibus (GEO) pour le dépôt des données de biopuces et de RNA-Seq standardise les formats et offrent des métadonnées (obligatoires lors du dépôt). Les métadonnées (comme par exemple les caractéristiques des patients testés, les conditions expérimentales, le but de l’étude, les protocoles utilisés, le type de traitement et transformation de données effectuées, etc.) sont importantes. Sans ces précieuses métadonnées, les jeux de données sont inutiles (vous ne savez pas avec quoi vous travaillez).

Concernant les plus gros projets de séquençage, ils ont généralement un portail permettant de télécharger données et métadonnées. C’est le cas de
GTex qui a son propre portail et du The Cancer Genome Atlas (TCGA) qui utilisent maintenant le portail de Harmonized Cancer Datasets/Genomic Data Commons (GDC) pour offrir ses données. GDC contient les données de 39 projets pour un total de 14 551 cas (patients) dans 29 sites primaires. Harmoniser et standardiser différents jeux de données est très souhaitable quoique la bonne approche à adopter n’est pas nécessairement claire. GDC retraite les données brutes afin que tous les échantillons aient été processés de la même façon (même génome de référence, même algorithme d’alignement, de quantification, etc.).

L’intégration des données

Néanmoins, même si des efforts de standardisation ont été entrepris, le défi le plus important reste à savoir comment intégrer de multiple jeux de données ensemble. Les jeux de données générés par différentes technologies (biopuces versus RNA-Seq) ou processés de différentes façons (quantification en RPKM, rsem, décomptes de kmer pour les données de RNA-Seq) ne sont pas directement comparables. De plus, il n’est pas rare de voir des biais expérimentaux parmi les échantillons d’un même projet (utilisant la même technologie et les même méthodes d’analyse de données). Dans ces conditions, imaginez les biais pouvant exister entre des échantillons utilisant des technologies différentes, venant de centres différents, utilisant des protocoles différents, processant les données différemment… Les variations expérimentales potentielles sont infinies. Bien que l’effort de GDC soit louable, nous ne pouvons probablement pas retraiter tous les jeux de données brutes existants de la même façon. Pouvons-nous quand même envisager fusionner n’importe quel jeux de données d’expression ensemble? À part normaliser et corriger les biais connus, que pouvons-nous faire pour améliorer la compatibilité des jeux de données disponibles afin de permettre l’exploitation la grande quantité d’information qui s’y trouve? Je ne suis pas certaine. Et je ne me suis pas encore questionnée sur la façon d’intégrer des jeux de données de type différents (expériences de perturbation par exemple avec des données de séquençage et de cribles chimiques).

Qu’en pensez-vous

Je ne sais pas si l’intégration est possible, faisable ou même désirable pour les données d’expression de gènes. Toutefois, il en est peut-être autrement pour les données d’imagerie médicale. Quant aux données de protéomiques, je n’en ai aucune idée.

Et VOUS, qu’en pensez-vous? J’aimerais avoir votre opinion sur le sujet. Peut-être que vous avez même déjà eu à travailler avec des mégadonnées. Comment ça s’est passé?

Laissez un commentaire plus bas ou contactez-moi directement! Je vais résumer vos opinions/inquiétudes/expériences dans mon prochain article pour que l’on puisse avoir une bonne idée de comment chacun se débrouille présentement avec les mégadonnées biomédicales.