Statistiques

Introduction à la régression linéaire

L'objectif premier du scientifique des données (data scientist) est l'exploration de données afin d'en découvrir des relations d'intérêt. Des méthodes statistiques et d'apprentissage machine lui servent d'outils pour la découverte et la modélisation de telles relations. L'information découverte par ces méthodes peut ensuite être mise en pratique. Par exemple, en médecine clinique, l'élaboration d'un modèle prédictif basé sur des données cliniques peut servir d'outil prognostic afin de guider un traitement. Régression linéaire simple L'une des méthodes la plus simple à la disposition du scientifique des données est la régression [...]

Une implémentation en javascript de la version non centrée du test exact de Fisher

Mon article précédent expliquait pourquoi la version non-centrée du test exact de Fisher est plus appropriée dans la plupart des cas rencontrés en bio-informatique. Je poursuis en présentant maintenant une implémentation de ce test en Javascript qui pourrait facilement être intégrée à une interface web. Même si le Javascript est un langage très mal adapté à l'implémentation de méthodes statistiques, j'espère que cet article présentera tous les détails nécessaires pour simplifier l'implémentation de ce test dans d'autres langages, selon les besoins. À tout le moins, [...]

By | 2017-01-16T09:25:09+00:00 9 janvier 2017|Categories: Javascript, Statistiques, Test|0 Commentaires

La méthode la plus rapide pour calculer une AUC

Contexte: AUC est un acronyme pour "Area Under the (ROC) Curve". Si vous n'êtes pas familier avec les notions de courbe ROC et d'AUC, je vous suggère de commencer par ce blog post avant de continuer. Dans plusieurs projets, il m'a fallu calculer un grand nombre d'AUC. J'ai commencé par devoir en calculer 25000, puis 230000 et, maintenant, j'en suis au tour de 1,5 million. Avec autant d'AUC, le temps nécessaire pour calculer une AUC devient un paramètre critique. Je n'ai pas [...]

By | 2016-11-08T09:30:03+00:00 18 août 2016|Categories: Data Analysis, Performance, Python, R, Statistiques|0 Commentaires

Écart-type sur un graphe de corrélation

Un collègue m'a récemment demandé de produire une visualisation montrant l'expression différentielle des gènes entre deux échantillons (sans réplicats). En utilisant les données de RPKM, il voulait faire ressortir tous les gènes se trouvant aux extrémités de la distribution i.e. à 2 écart-types de la moyenne ou plus. Comme premier essai, j'ai calculé la distribution de fold change et l'écart-type et j'ai tracé les droites correspondantes de chaque côté de la diagonale sur un graphe en nuage de points présentant [...]

Permutations

Supposons que vous ayez ces deux groupes de données : g1 <- c(55, 65, 58) g2 <- c(12, 18, 32) Nous voulons savoir si ces deux groupes appartiennent à la même distribution ou sont considérés comme deux groupes différents. Nous serions probablement tenté, pour élucider la question, d'appliquer un test de Student, le test-t. t.test(g1, g2) ## Welch Two Sample t-test ## ## data: g1 and g2 ## t = 5.8366, df = 2.9412, p-value = 0.01059 ## alternative hypothesis: [...]

By | 2016-11-08T09:30:09+00:00 16 octobre 2015|Categories: Analyse de données, Data Analysis, R, Statistiques|0 Commentaires