Analyse de données

Introduction à la régression linéaire

L'objectif premier du scientifique des données (data scientist) est l'exploration de données afin d'en découvrir des relations d'intérêt. Des méthodes statistiques et d'apprentissage machine lui servent d'outils pour la découverte et la modélisation de telles relations. L'information découverte par ces méthodes peut ensuite être mise en pratique. Par exemple, en médecine clinique, l'élaboration d'un modèle prédictif basé sur des données cliniques peut servir d'outil prognostic afin de guider un traitement. Régression linéaire simple L'une des méthodes la plus simple à la disposition du scientifique des données est la régression [...]

Criblage chimique: évaluation de la sensibilité aux molécules

L’étude de la réponse cellulaire face à un composé chimique est cruciale au développement de nouvelles molécules thérapeutiques. Une telle analyse se fait généralement par expérience de criblage, où les cellules (spécifiques à une maladie, telle la leucémie) sont exposées aux composés chimiques d’intérêt pour différentes concentrations. La réponse ou la sensibilité de ces cellules est conventionnellement quantifiée par la valeur de l’IC50 ou de l’EC50. Voici quelques notions importantes à garder en tête lorsque nous analysons ces valeurs. IC50/EC50 [...]

By | 2017-02-13T11:16:14+00:00 13 février 2017|Categories: Analyse de données, Data Analysis|0 Commentaires

Réseau de neurones « Siamois » avec Mariana 1.0

Mariana fut introduit précédemment sur ce blog en mai par Geneviève dans son article Apprentissage automatique en sciences de la vie. Présentement à la version 1.0rc3 sur github, le lancement de la version 1.0 stable de Mariana approche maintenant à grands pas. Cette nouvelle version représente un remaniement de code important et ajoute plusieurs nouvelles fonctionnalités (une liste complète des changements incorporés dans la version 1.0 est disponible ici). Je profite de cette occasion pour présenter une petite capsule sur l'extension des fonctionnalités de [...]

By | 2016-11-15T13:51:48+00:00 7 novembre 2016|Categories: Analyse de données, Apprentissage automatique, Python|0 Commentaires

Écart-type sur un graphe de corrélation

Un collègue m'a récemment demandé de produire une visualisation montrant l'expression différentielle des gènes entre deux échantillons (sans réplicats). En utilisant les données de RPKM, il voulait faire ressortir tous les gènes se trouvant aux extrémités de la distribution i.e. à 2 écart-types de la moyenne ou plus. Comme premier essai, j'ai calculé la distribution de fold change et l'écart-type et j'ai tracé les droites correspondantes de chaque côté de la diagonale sur un graphe en nuage de points présentant [...]

Création de données génomiques synthétiques

L'application de méthodes statistiques forme une grande partie de la bio-informatique. En plus de méthodes classiques, certaines techniques d'apprentissage machine (notamment, des techniques de clustering telles k-means) sont aussi régulièrement appliquées sur des données cliniques et biologiques. Quelques-unes de ces techniques telles les réseaux de neurones ont récemment connu un grand succès en reconnaissance d'images et traitement du langage naturel. Malheureusement, ces techniques performent mal sur de petits jeux de données ayant un grand nombre de dimensions, un type de jeux de données fréquemment rencontré à la plateforme. L'introduction [...]

By | 2016-11-08T09:30:07+00:00 7 janvier 2016|Categories: Analyse de données, Bioinformatique, Data Analysis, Python|0 Commentaires