Mégadonnées, gros défi – partie 2

Cet article est la suite de mon précédent article sur les mégadonnées. Il n'a pas engendré de discussion virtuelle enflammée sur le sujet, mais j'étais très heureuse de recevoir quelques commentaires sur la situation dans d'autres domaines de la bio-informatique. Protéomique Mathieu Courcelles, bio-informaticien à la plate-forme de protéomique, explique que la protéomique utilisant la spectrométrie de masse a toujours généré des "mégadonnées". Donc, l'expression n'est pas très utilisée dans le domaine puisqu'elle n'a rien de nouveau. Comme il le [...]

By | 2017-08-18T13:24:37+00:00 18 août 2017|Categories: Analyse de données|Tags: , |0 Commentaires

L’algorithme de descente de gradient

L'algorithme de descente de gradient est un algorithme itératif ayant comme but de trouver les valeurs optimales des paramètres d'une fonction donnée. Il tente d'ajuster ces paramètres afin de minimiser la sortie d'une fonction de coût face à un certain jeux de données. Cet algorithme est souvent utilisé en apprentissage machine dans le cadre de régressions non linéaires puisqu'il permet de rapidement trouver une solution approximative à des problèmes très complexes. Mon dernier article, Introduction à la régression linéaire, fait mention [...]

R ou Python, à vous de choisir!

J'ai déjà introduit la librairie Python pandas en comparant certaines de ses fonctions à leurs fonctions équivalentes en R. Pandas est une librairie qui rend Python beaucoup plus facile à utiliser pour faire de l'exploration et de la visualisation de données (presque autant que R). La librairie permet de manipuler des dataframes très facilement (elle est construite par-dessus numpy). Elle a beaucoup évolué ces dernières années et la communauté d'utilisateurs a aussi beaucoup grossie. R offre certainement plus de modules [...]

By | 2017-06-26T13:10:54+00:00 26 juin 2017|Categories: Analyse de données, Python, R|Tags: , |0 Commentaires

Tutoriels de réduction de dimensionalité: 1- Analyse de composantes principales

Comprendre la réduction de dimensionalité Si vous utilisez de larges jeux de données (transcriptomes, séquençage de génome, protéomes), tôt ou tard, vous tomberez sur quelque chose qui porte le nom "d'analyse de composantes principales" (Principal Components Analysis, en anglais, abrévié PCA). PCA est une méthode de réduction de dimensionalité, une famille large de méthodes qui font exactement ce que leur nom dit: elles réduisent la dimensionalité. Mais qu'est-ce que ça veut dire? Qu'est-ce qu'une dimension et pourquoi on voudrait les [...]

ggplot2 101 :Visualisation simple pour une analyse simple

Il est souvent plus facile d'interpréter des données biologiques lorsqu'il est possible de les visualiser à l'aide d'une représentation graphique. Cela peut être fait via l'exploitation de différentes options de ggplot2, un progiciel pour la représentation graphique en R. Dans le billet qui suit, je vous présenterai quelques-unes de mes astuces favorites pour la visualisation de données: rien de trop poussé ou complexe, parfait pour les utilisateurs avancés de R, tout comme les utilisateurs un peu plus débutants! Les extraits de [...]

By | 2017-06-02T14:45:28+00:00 19 mai 2017|Categories: Analyse de données, R, Visualisation de données|1 commentaire