Analyse de données

Mégadonnées, gros défi

Vous avez certainement déjà entendu le mot mégadonnées. Ou "Big Data". Notamment, si vous avez lu l'article de Simon Mathien sur le site de l'IRIC. (Si vous ne l'avez pas lu, je vous encourage à le lire!) Il existe plusieurs définitions (ou interprétations) du mot mégadonnées qui sont bien résumées par les deux définitions suivantes : Data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing [...]

Introduction à la régression linéaire

L'objectif premier du scientifique des données (data scientist) est l'exploration de données afin d'en découvrir des relations d'intérêt. Des méthodes statistiques et d'apprentissage machine lui servent d'outils pour la découverte et la modélisation de telles relations. L'information découverte par ces méthodes peut ensuite être mise en pratique. Par exemple, en médecine clinique, l'élaboration d'un modèle prédictif basé sur des données cliniques peut servir d'outil prognostic afin de guider un traitement. Régression linéaire simple L'une des méthodes la plus simple à la disposition du scientifique des données est la régression [...]

Criblage chimique: évaluation de la sensibilité aux molécules

L’étude de la réponse cellulaire face à un composé chimique est cruciale au développement de nouvelles molécules thérapeutiques. Une telle analyse se fait généralement par expérience de criblage, où les cellules (spécifiques à une maladie, telle la leucémie) sont exposées aux composés chimiques d’intérêt pour différentes concentrations. La réponse ou la sensibilité de ces cellules est conventionnellement quantifiée par la valeur de l’IC50 ou de l’EC50. Voici quelques notions importantes à garder en tête lorsque nous analysons ces valeurs. IC50/EC50 [...]

By |2017-04-29T16:29:23+00:0013 février 2017|Categories: Analyse de données|Tags: |0 Commentaires

Une implémentation en javascript de la version non centrée du test exact de Fisher

Mon article précédent expliquait pourquoi la version non-centrée du test exact de Fisher est plus appropriée dans la plupart des cas rencontrés en bio-informatique. Je poursuis en présentant maintenant une implémentation de ce test en Javascript qui pourrait facilement être intégrée à une interface web. Même si le Javascript est un langage très mal adapté à l'implémentation de méthodes statistiques, j'espère que cet article présentera tous les détails nécessaires pour simplifier l'implémentation de ce test dans d'autres langages, selon les besoins. À tout le moins, [...]

By |2017-04-29T17:50:55+00:009 janvier 2017|Categories: Analyse de données, Statistiques|Tags: , |0 Commentaires

Pivoter des tables: du format long à large

En tant que bio-informaticiens, nous avons souvent à manipuler des données qui ne sont pas organisées comme nous le voudrions. Un cas souvent rencontré est l'obtention de données qui se trouvent dans un format "long" au lieu de les avoir dans le format plus habituel, "large". Pour ceux qui sont familiers avec la librairie ggplot du langage R, vous connaissez très bien le format "long". C'est le format requis par ggplot pour lui permettre de produire ses élégants graphiques. En [...]

By |2017-04-29T18:22:08+00:0014 novembre 2016|Categories: Analyse de données, Python, R|Tags: |0 Commentaires