R

Langage de programmation R

Bootstraps et intervalles de confiance

Lors de l'analyse des données, vous pourriez vouloir ajuster (fitter) un type de courbe spécifique à un ensemble de données particulier. Ce type d'analyse peut nous éclaircir sur la relation entre deux (ou plusieurs...) paramètres quantifiables. L'object principal de cet article n'est pas le comment de l'ajustement-même, mais plutôt l'évaluation de sa qualité i.e. comment calculer un intervalle de confiance autour d'une courbe ajustée. Cela étant dit, je vous montrerai comment faire un ajustement simple en utilisant différentes librairies R, mais je [...]

By |2017-04-29T18:30:53-04:0029 septembre 2016|Categories: Analyse de données, R, Statistiques|Tags: |0 Commentaires

Traitement parallèle facile avec R (suite)

La dernière fois que j'ai abordé ce sujet, je vous ai présenté une technique vraiment simple pour changer vos appels lapply en leur équivalents parallèles mclapply. Mais bien que ce soit une modification extrêmement simple à implémenter et qui donne d'excellent gains en performance, celle-ci nécessitait toutefois que votre code fasse déjà usage de lapply. Alors explorons une autre techinque simple pour introduire du traitement parallèle dans votre code source existant à l'aide des librairies foreach et doMC. La librairie [...]

By |2017-04-29T17:04:48-04:0019 septembre 2016|Categories: Performance, R|Tags: , |0 Commentaires

La méthode la plus rapide pour calculer une AUC

Contexte: AUC est un acronyme pour "Area Under the (ROC) Curve". Si vous n'êtes pas familier avec les notions de courbe ROC et d'AUC, je vous suggère de commencer par ce blog post avant de continuer. Dans plusieurs projets, il m'a fallu calculer un grand nombre d'AUC. J'ai commencé par devoir en calculer 25000, puis 230000 et, maintenant, j'en suis au tour de 1,5 million. Avec autant d'AUC, le temps nécessaire pour calculer une AUC devient un paramètre critique. Je n'ai pas [...]

By |2017-04-29T16:56:12-04:0018 août 2016|Categories: Performance, Python, R, Statistiques|Tags: |0 Commentaires

Bonnes ressources pour apprendre R

Comme ce sont les vacances d'été, pourquoi ne pas en profiter pour apprendre un peu de R. Il existe d'innombrables ressources gratuites en ligne. Pour qui veut apprendre, il suffit d'y mettre le temps. Vidéos Coursera est un incontournable dans le domaine de l'apprentissage en ligne. Il existe quelques bons cours sur R sous forme de vidéo qui traitent aussi plus ou moins de génomique : https://www.coursera.org/learn/r-programming https://www.coursera.org/learn/exploratory-data-analysis https://www.coursera.org/learn/bioconductor (Bioconductor est un répertoire de modules R pour la biologie). Livres [...]

By |2017-04-29T16:57:04-04:0011 juillet 2016|Categories: Bioinformatique, R|Tags: |0 Commentaires

Écart-type sur un graphe de corrélation

Un collègue m'a récemment demandé de produire une visualisation montrant l'expression différentielle des gènes entre deux échantillons (sans réplicats). En utilisant les données de RPKM, il voulait faire ressortir tous les gènes se trouvant aux extrémités de la distribution i.e. à 2 écart-types de la moyenne ou plus. Comme premier essai, j'ai calculé la distribution de fold change et l'écart-type et j'ai tracé les droites correspondantes de chaque côté de la diagonale sur un graphe en nuage de points présentant [...]

By |2017-04-29T17:01:08-04:007 avril 2016|Categories: R, Statistiques, Visualisation de données|Tags: |0 Commentaires