Analyse de données

Comprendre comment fonctionne kallisto

En 2016,  Bray et al. ont introduit une nouvelle méthode basée sur les k-mers pour estimer l'abondance des isoformes dans les données de RNA-Seq.  La méthode s'appelle kallisto.  Comparée aux méthodes existantes, pour une précision de résultat comparable, kallisto est plus rapide et plus efficace en mémoire ce qui constitue une amélioration significative.  En fait, kallisto est capable de quantifier l'expression d'un échantillon en l'espace d'une vingtaine de minutes au lieu de prendre plusieurs heures.  Comme cette méthode est légère et conviviale, [...]

Mégadonnées, gros défi – partie 2

Cet article est la suite de mon précédent article sur les mégadonnées. Il n'a pas engendré de discussion virtuelle enflammée sur le sujet, mais j'étais très heureuse de recevoir quelques commentaires sur la situation dans d'autres domaines de la bio-informatique. Protéomique Mathieu Courcelles, bio-informaticien à la plate-forme de protéomique, explique que la protéomique utilisant la spectrométrie de masse a toujours généré des "mégadonnées". Donc, l'expression n'est pas très utilisée dans le domaine puisqu'elle n'a rien de nouveau. Comme il le [...]

By |2017-08-18T13:24:37+00:0018 août 2017|Categories: Analyse de données|Tags: , |1 commentaire

R ou Python, à vous de choisir!

Mise à jour 27/08/2018 J'ai déjà introduit la librairie Python pandas en comparant certaines de ses fonctions à leurs fonctions équivalentes en R. Pandas est une librairie qui rend Python beaucoup plus facile à utiliser pour faire de l'exploration et de la visualisation de données (presque autant que R). La librairie permet de manipuler des dataframes très facilement (elle est construite par-dessus numpy). Elle a beaucoup évolué ces dernières années et la communauté d'utilisateurs a aussi beaucoup grossie. R offre [...]

By |2018-08-28T10:20:03+00:0026 juin 2017|Categories: Analyse de données, Python, R|Tags: , |0 Commentaires

Tutoriels de réduction de dimensionalité: 1- Analyse de composantes principales

Comprendre la réduction de dimensionalité Si vous utilisez de larges jeux de données (transcriptomes, séquençage de génome, protéomes), tôt ou tard, vous tomberez sur quelque chose qui porte le nom "d'analyse de composantes principales" (Principal Components Analysis, en anglais, abrévié PCA). PCA est une méthode de réduction de dimensionalité, une famille large de méthodes qui font exactement ce que leur nom dit: elles réduisent la dimensionalité. Mais qu'est-ce que ça veut dire? Qu'est-ce qu'une dimension et pourquoi on voudrait les [...]

Flux de données et programmation réactive

Qu'est-ce que tout cela ? ReactiveX est la combinaison des meilleures idées du modèle observateur, du modèle itérateur et de la programmation fonctionnelle. À l'aide des librairies Rx, vous pouvez aisément: - Créer des flux de données ou d'évènements à partir de sources diverses comme des fichiers ou des services web - Fusionner ou transformer ces flux grâce à divers opérateurs - Souscrire aux flux et "réagir" à leurs émissions pour produire de nouvelles données L'intérêt pour la programmation réactive [...]