Bootstraps et intervalles de confiance

Lors de l'analyse des données, vous pourriez vouloir ajuster (fitter) un type de courbe spécifique à un ensemble de données particulier. Ce type d'analyse peut nous éclaircir sur la relation entre deux (ou plusieurs...) paramètres quantifiables. L'object principal de cet article n'est pas le comment de l'ajustement-même, mais plutôt l'évaluation de sa qualité i.e. comment calculer un intervalle de confiance autour d'une courbe ajustée. Cela étant dit, je vous montrerai comment faire un ajustement simple en utilisant différentes librairies R, mais je [...]

By |2017-04-29T18:30:53+00:0029 septembre 2016|Categories: Analyse de données, R, Statistiques|Tags: |0 Commentaires

Traitement parallèle facile avec R (suite)

La dernière fois que j'ai abordé ce sujet, je vous ai présenté une technique vraiment simple pour changer vos appels lapply en leur équivalents parallèles mclapply. Mais bien que ce soit une modification extrêmement simple à implémenter et qui donne d'excellent gains en performance, celle-ci nécessitait toutefois que votre code fasse déjà usage de lapply. Alors explorons une autre techinque simple pour introduire du traitement parallèle dans votre code source existant à l'aide des librairies foreach et doMC. La librairie [...]

By |2017-04-29T17:04:48+00:0019 septembre 2016|Categories: Performance, R|Tags: , |0 Commentaires

La méthode la plus rapide pour calculer une AUC

Contexte: AUC est un acronyme pour "Area Under the (ROC) Curve". Si vous n'êtes pas familier avec les notions de courbe ROC et d'AUC, je vous suggère de commencer par ce blog post avant de continuer. Dans plusieurs projets, il m'a fallu calculer un grand nombre d'AUC. J'ai commencé par devoir en calculer 25000, puis 230000 et, maintenant, j'en suis au tour de 1,5 million. Avec autant d'AUC, le temps nécessaire pour calculer une AUC devient un paramètre critique. Je n'ai pas [...]

By |2017-04-29T16:56:12+00:0018 août 2016|Categories: Performance, Python, R, Statistiques|Tags: |0 Commentaires

Accélérer l’accès aléatoire aux disques

Lorsqu'on utilise un logiciel qui doit accéder à des données sur disque de manière aléatoire, il est généralement reconnu que les disques SSD (solid state drive) offrent une meilleure performance; les disques SAS étant moins efficaces et les disques SATA étant les pires. Toutefois, les disques SSD à grande capacité de stockage étant relativement dispendieux, lorsque l'on traite de larges ensembles de données, nous nous retrouvons souvent à travailler sur les plus abordables et communs disques SATA. J'ai récemment expérimenté [...]

By |2017-04-29T17:02:18+00:004 août 2016|Categories: Informatique, Performance|0 Commentaires

Introduction à la bio-informatique dans un conteneur

Une récente tendance issue de l’informatique nuagique semble intéresser de plus en plus la communauté bio-informatique. Cette tendance est de développer et de déployer une application dans un conteneur. Ce conteneur contient non seulement l’application mais les librairies nécessaires et une version minimaliste des applications du système d’exploitation. Une fois le conteneur construit, il est immédiatement prêt à être utilisé sur un ordinateur hôte qui contient l’environnent requis pour démarrer le conteneur. Pour un développeur, ceci est très intéressant puisque [...]

By |2017-04-29T22:53:42+00:0021 juillet 2016|Categories: Bioinformatique|Tags: , |0 Commentaires
Go to Top