Statistiques

Une implémentation en javascript de la version non centrée du test exact de Fisher

Mon article précédent expliquait pourquoi la version non-centrée du test exact de Fisher est plus appropriée dans la plupart des cas rencontrés en bio-informatique. Je poursuis en présentant maintenant une implémentation de ce test en Javascript qui pourrait facilement être intégrée à une interface web. Même si le Javascript est un langage très mal adapté à l'implémentation de méthodes statistiques, j'espère que cet article présentera tous les détails nécessaires pour simplifier l'implémentation de ce test dans d'autres langages, selon les besoins. À tout le moins, [...]

By | 2017-04-29T17:50:55+00:00 9 janvier 2017|Categories: Analyse de données, Statistiques|Tags: , |0 Commentaires

Bootstraps et intervalles de confiance

Lors de l'analyse des données, vous pourriez vouloir ajuster (fitter) un type de courbe spécifique à un ensemble de données particulier. Ce type d'analyse peut nous éclaircir sur la relation entre deux (ou plusieurs...) paramètres quantifiables. L'object principal de cet article n'est pas le comment de l'ajustement-même, mais plutôt l'évaluation de sa qualité i.e. comment calculer un intervalle de confiance autour d'une courbe ajustée. Cela étant dit, je vous montrerai comment faire un ajustement simple en utilisant différentes librairies R, mais je [...]

By | 2017-04-29T18:30:53+00:00 29 septembre 2016|Categories: Analyse de données, R, Statistiques|Tags: |0 Commentaires

La méthode la plus rapide pour calculer une AUC

Contexte: AUC est un acronyme pour "Area Under the (ROC) Curve". Si vous n'êtes pas familier avec les notions de courbe ROC et d'AUC, je vous suggère de commencer par ce blog post avant de continuer. Dans plusieurs projets, il m'a fallu calculer un grand nombre d'AUC. J'ai commencé par devoir en calculer 25000, puis 230000 et, maintenant, j'en suis au tour de 1,5 million. Avec autant d'AUC, le temps nécessaire pour calculer une AUC devient un paramètre critique. Je n'ai pas [...]

By | 2017-04-29T16:56:12+00:00 18 août 2016|Categories: Performance, Python, R, Statistiques|Tags: |0 Commentaires

Écart-type sur un graphe de corrélation

Un collègue m'a récemment demandé de produire une visualisation montrant l'expression différentielle des gènes entre deux échantillons (sans réplicats). En utilisant les données de RPKM, il voulait faire ressortir tous les gènes se trouvant aux extrémités de la distribution i.e. à 2 écart-types de la moyenne ou plus. Comme premier essai, j'ai calculé la distribution de fold change et l'écart-type et j'ai tracé les droites correspondantes de chaque côté de la diagonale sur un graphe en nuage de points présentant [...]

By | 2017-04-29T17:01:08+00:00 7 avril 2016|Categories: R, Statistiques, Visualisation de données|Tags: |0 Commentaires

Permutations

Supposons que vous ayez ces deux groupes de données : g1 <- c(55, 65, 58) g2 <- c(12, 18, 32) Nous voulons savoir si ces deux groupes appartiennent à la même distribution ou sont considérés comme deux groupes différents. Nous serions probablement tenté, pour élucider la question, d'appliquer un test de Student, le test-t. t.test(g1, g2) ## Welch Two Sample t-test ## ## data: g1 and g2 ## t = 5.8366, df = 2.9412, p-value = 0.01059 ## alternative hypothesis: [...]

By | 2017-04-30T10:07:23+00:00 16 octobre 2015|Categories: Analyse de données, R, Statistiques|0 Commentaires