Performance – IRIC's Bioinformatics Platform

Un exemple utilisant multiprocessing et plus

Récemment, j'ai eu à chercher une structure chimique donnée dans une liste de structures. En utilisant les librairies python de chimie informatique pybel et rdkit, je suis facilement arrivée à faire cette recherche, mais celle-ci prenait beaucup trop de temps à mon goût. En me demandant comment l'accélérer, je me suis souvenue de l'article de blog de Jean-Philippe intitulé "Faites travailler vos CPUs !". J'ai donc décidé de suivre ses instructions et de faire travailler mes CPUs! But Trouver une [...]

By Geneviève|2017-12-11T12:56:26+00:0011 décembre 2017|Categories: Bioinformatique, Informatique, Performance|0 Commentaires

Transferts réseau rapides?

Récemment, tout le monde s'est mis à utiliser différents outils dans le but d'optimiser de gros transferts de données de, vers et entre super-ordinateurs. Historiquement, nous avons vu des outils tels que FDT, BBCP qui essayaient de surpasser la performance obtenue par les autres méthodes de transfert classique, comme scp, rsync, ftp, etc. Un outil en particulier est en train de gagner en popularité et est déployé sur la plupart des super-ordinateurs : GridFTP et son interface, Globus. L'interface [...]

By Patrick|2017-04-29T17:02:01+00:0012 octobre 2016|Categories: Informatique, Performance|Tags: manipulation de fichiers, test|0 Commentaires

Traitement parallèle facile avec R (suite)

La dernière fois que j'ai abordé ce sujet, je vous ai présenté une technique vraiment simple pour changer vos appels lapply en leur équivalents parallèles mclapply. Mais bien que ce soit une modification extrêmement simple à implémenter et qui donne d'excellent gains en performance, celle-ci nécessitait toutefois que votre code fasse déjà usage de lapply. Alors explorons une autre techinque simple pour introduire du traitement parallèle dans votre code source existant à l'aide des librairies foreach et doMC. La librairie [...]

By Jean-Philippe|2017-04-29T17:04:48+00:0019 septembre 2016|Categories: Performance, R|Tags: multiprocessing, test|0 Commentaires

La méthode la plus rapide pour calculer une AUC

Contexte: AUC est un acronyme pour "Area Under the (ROC) Curve". Si vous n'êtes pas familier avec les notions de courbe ROC et d'AUC, je vous suggère de commencer par ce blog post avant de continuer. Dans plusieurs projets, il m'a fallu calculer un grand nombre d'AUC. J'ai commencé par devoir en calculer 25000, puis 230000 et, maintenant, j'en suis au tour de 1,5 million. Avec autant d'AUC, le temps nécessaire pour calculer une AUC devient un paramètre critique. Je n'ai pas [...]

By Éric|2017-04-29T16:56:12+00:0018 août 2016|Categories: Performance, Python, R, Statistiques|Tags: aire sous la courbe|0 Commentaires

Accélérer l’accès aléatoire aux disques

Lorsqu'on utilise un logiciel qui doit accéder à des données sur disque de manière aléatoire, il est généralement reconnu que les disques SSD (solid state drive) offrent une meilleure performance; les disques SAS étant moins efficaces et les disques SATA étant les pires. Toutefois, les disques SSD à grande capacité de stockage étant relativement dispendieux, lorsque l'on traite de larges ensembles de données, nous nous retrouvons souvent à travailler sur les plus abordables et communs disques SATA. J'ai récemment expérimenté [...]

By Patrick|2017-04-29T17:02:18+00:004 août 2016|Categories: Informatique, Performance|0 Commentaires