R ou Python, à vous de choisir!

J'ai déjà introduit la librairie Python pandas en comparant certaines de ses fonctions à leurs fonctions équivalentes en R. Pandas est une librairie qui rend Python beaucoup plus facile à utiliser pour faire de l'exploration et de la visualisation de données (presque autant que R). La librairie permet de manipuler des dataframes très facilement (elle est construite par-dessus numpy). Elle a beaucoup évolué ces dernières années et la communauté d'utilisateurs a aussi beaucoup grossie. R offre certainement plus de modules [...]

By | 2017-06-26T13:10:54+00:00 26 juin 2017|Categories: Analyse de données, Python, R|Tags: , |0 Commentaires

Tutoriels de réduction de dimensionalité: 1- Analyse de composantes principales

Comprendre la réduction de dimensionalité Si vous utilisez de larges jeux de données (transcriptomes, séquençage de génome, protéomes), tôt ou tard, vous tomberez sur quelque chose qui porte le nom "d'analyse de composantes principales" (Principal Components Analysis, en anglais, abrévié PCA). PCA est une méthode de réduction de dimensionalité, une famille large de méthodes qui font exactement ce que leur nom dit: elles réduisent la dimensionalité. Mais qu'est-ce que ça veut dire? Qu'est-ce qu'une dimension et pourquoi on voudrait les [...]

ggplot2 101 :Visualisation simple pour une analyse simple

Il est souvent plus facile d'interpréter des données biologiques lorsqu'il est possible de les visualiser à l'aide d'une représentation graphique. Cela peut être fait via l'exploitation de différentes options de ggplot2, un progiciel pour la représentation graphique en R. Dans le billet qui suit, je vous présenterai quelques-unes de mes astuces favorites pour la visualisation de données: rien de trop poussé ou complexe, parfait pour les utilisateurs avancés de R, tout comme les utilisateurs un peu plus débutants! Les extraits de [...]

By | 2017-06-02T14:45:28+00:00 19 mai 2017|Categories: Analyse de données, R, Visualisation de données|1 commentaire

Flux de données et programmation réactive

Qu'est-ce que tout cela ? ReactiveX est la combinaison des meilleures idées du modèle observateur, du modèle itérateur et de la programmation fonctionnelle. À l'aide des librairies Rx, vous pouvez aisément: - Créer des flux de données ou d'évènements à partir de sources diverses comme des fichiers ou des services web - Fusionner ou transformer ces flux grâce à divers opérateurs - Souscrire aux flux et "réagir" à leurs émissions pour produire de nouvelles données L'intérêt pour la programmation réactive [...]

Mégadonnées, gros défi

Vous avez certainement déjà entendu le mot mégadonnées. Ou "Big Data". Notamment, si vous avez lu l'article de Simon Mathien sur le site de l'IRIC. (Si vous ne l'avez pas lu, je vous encourage à le lire!) Il existe plusieurs définitions (ou interprétations) du mot mégadonnées qui sont bien résumées par les deux définitions suivantes : Data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing [...]