Analyse de données

Comprendre comment fonctionne kallisto

En 2016,  Bray et al. ont introduit une nouvelle méthode basée sur les k-mers pour estimer l'abondance des isoformes dans les données de RNA-Seq.  La méthode s'appelle kallisto.  Comparée aux méthodes existantes, pour une précision de résultat comparable, kallisto est plus rapide et plus efficace en mémoire ce qui constitue une amélioration significative.  En fait, kallisto est capable de quantifier l'expression d'un échantillon en l'espace d'une vingtaine de minutes au lieu de prendre plusieurs heures.  Comme cette méthode est légère et conviviale, [...]

Le surapprentissage et la régularisation

Cette série d'articles sur l'apprentissage machine ne serait complète sans y couvrir le surapprentissage et la régularisation. Le surapprentissage L'une des difficultés rencontrée lors de l'application de techniques d'apprentissage machine est le surapprentissage. Plus les techniques utilisées sont puissantes (grand nombre de paramètres libres), plus nous sommes susceptibles au surapprentissage. Lors du surapprentissage, le modèle diverge du principe du rasoir d'Occam en augmentant si bien son niveau de complexité qu'il finit par essentiellement mémoriser chaque détails de l'ensemble d'entraînement. Un modèle [...]

By |2017-10-30T12:54:24+00:0030 octobre 2017|Categories: Analyse de données, Apprentissage automatique|0 Commentaires

L’algorithme de descente de gradient

L'algorithme de descente de gradient est un algorithme itératif ayant comme but de trouver les valeurs optimales des paramètres d'une fonction donnée. Il tente d'ajuster ces paramètres afin de minimiser la sortie d'une fonction de coût face à un certain jeux de données. Cet algorithme est souvent utilisé en apprentissage machine dans le cadre de régressions non linéaires puisqu'il permet de rapidement trouver une solution approximative à des problèmes très complexes. Mon dernier article, Introduction à la régression linéaire, fait mention [...]

Tutoriels de réduction de dimensionalité: 1- Analyse de composantes principales

Comprendre la réduction de dimensionalité Si vous utilisez de larges jeux de données (transcriptomes, séquençage de génome, protéomes), tôt ou tard, vous tomberez sur quelque chose qui porte le nom "d'analyse de composantes principales" (Principal Components Analysis, en anglais, abrévié PCA). PCA est une méthode de réduction de dimensionalité, une famille large de méthodes qui font exactement ce que leur nom dit: elles réduisent la dimensionalité. Mais qu'est-ce que ça veut dire? Qu'est-ce qu'une dimension et pourquoi on voudrait les [...]

ggplot2 101 :Visualisation simple pour une analyse simple

Il est souvent plus facile d'interpréter des données biologiques lorsqu'il est possible de les visualiser à l'aide d'une représentation graphique. Cela peut être fait via l'exploitation de différentes options de ggplot2, un progiciel pour la représentation graphique en R. Dans le billet qui suit, je vous présenterai quelques-unes de mes astuces favorites pour la visualisation de données: rien de trop poussé ou complexe, parfait pour les utilisateurs avancés de R, tout comme les utilisateurs un peu plus débutants! Les extraits de [...]

By |2017-06-02T14:45:28+00:0019 mai 2017|Categories: Analyse de données, R, Visualisation de données|1 commentaire