boucherg

About Geneviève

Mon parcours a débuté en biochimie, mais c ’est en bioinformatique que je m ’amuse depuis plusieurs années : que ce soit en analysant et visualisant des données en R, en construisant des outils web interactifs en javascript ou en explorant des algorithmes d ’apprentissage automatique en python.

Mégadonnées, gros défi – partie 2

Cet article est la suite de mon précédent article sur les mégadonnées. Il n'a pas engendré de discussion virtuelle enflammée sur le sujet, mais j'étais très heureuse de recevoir quelques commentaires sur la situation dans d'autres domaines de la bio-informatique. Protéomique Mathieu Courcelles, bio-informaticien à la plate-forme de protéomique, explique que la protéomique utilisant la spectrométrie de masse a toujours généré des "mégadonnées". Donc, l'expression n'est pas très utilisée dans le domaine puisqu'elle n'a rien de nouveau. Comme il le [...]

By | 2017-08-18T13:24:37+00:00 18 août 2017|Categories: Analyse de données|Tags: , |0 Commentaires

R ou Python, à vous de choisir!

J'ai déjà introduit la librairie Python pandas en comparant certaines de ses fonctions à leurs fonctions équivalentes en R. Pandas est une librairie qui rend Python beaucoup plus facile à utiliser pour faire de l'exploration et de la visualisation de données (presque autant que R). La librairie permet de manipuler des dataframes très facilement (elle est construite par-dessus numpy). Elle a beaucoup évolué ces dernières années et la communauté d'utilisateurs a aussi beaucoup grossie. R offre certainement plus de modules [...]

By | 2017-06-26T13:10:54+00:00 26 juin 2017|Categories: Analyse de données, Python, R|Tags: , |0 Commentaires

Mégadonnées, gros défi

Vous avez certainement déjà entendu le mot mégadonnées. Ou "Big Data". Notamment, si vous avez lu l'article de Simon Mathien sur le site de l'IRIC. (Si vous ne l'avez pas lu, je vous encourage à le lire!) Il existe plusieurs définitions (ou interprétations) du mot mégadonnées qui sont bien résumées par les deux définitions suivantes : Data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing [...]

Régression logistique et GTEx

Lorsqu'on travaille avec toutes sortes de données, il arrive parfois que nous voulons prédire la valeur d'une variable qui n'est pas numérique. Dans ces cas-là, la régression logistique est tout à fait appropriée. On peut dire qu'elle est s'apparente à une régression linéaire sauf que la variable dépendante est une catégorie. Vous vous souvenez de la fonction de la régression linéaire où l'on essaie d'estimer les paramètres beta (les coefficients) qui s'ajustent le mieux la droite à nos données: \begin{equation} [...]

Pivoter des tables: du format long à large

En tant que bio-informaticiens, nous avons souvent à manipuler des données qui ne sont pas organisées comme nous le voudrions. Un cas souvent rencontré est l'obtention de données qui se trouvent dans un format "long" au lieu de les avoir dans le format plus habituel, "large". Pour ceux qui sont familiers avec la librairie ggplot du langage R, vous connaissez très bien le format "long". C'est le format requis par ggplot pour lui permettre de produire ses élégants graphiques. En [...]

By | 2017-04-29T18:22:08+00:00 14 novembre 2016|Categories: Analyse de données, Python, R|Tags: |0 Commentaires