Performance

Transferts réseau rapides?

Récemment, tout le monde s'est mis à utiliser différents outils dans le but d'optimiser de gros transferts de données de, vers et entre super-ordinateurs. Historiquement, nous avons vu des outils tels que FDT, BBCP qui essayaient de surpasser la performance obtenue par les autres méthodes de transfert classique, comme scp, rsync, ftp, etc. Un outil en particulier est en train de gagner en popularité et est déployé sur la plupart des super-ordinateurs : GridFTP et son interface, Globus. L'interface [...]

By | 12 octobre 2016|Categories: Informatique, Performance, Test|0 Commentaires

Traitement parallèle facile avec R (suite)

La dernière fois que j'ai abordé ce sujet, je vous ai présenté une technique vraiment simple pour changer vos appels lapply en leur équivalents parallèles mclapply. Mais bien que ce soit une modification extrêmement simple à implémenter et qui donne d'excellent gains en performance, celle-ci nécessitait toutefois que votre code fasse déjà usage de lapply. Alors explorons une autre techinque simple pour introduire du traitement parallèle dans votre code source existant à l'aide des librairies foreach et doMC. La librairie [...]

By | 19 septembre 2016|Categories: Performance, R|0 Commentaires

La méthode la plus rapide pour calculer une AUC

Contexte: AUC est un acronyme pour "Area Under the (ROC) Curve". Si vous n'êtes pas familier avec les notions de courbe ROC et d'AUC, je vous suggère de commencer par ce blog post avant de continuer. Dans plusieurs projets, il m'a fallu calculer un grand nombre d'AUC. J'ai commencé par devoir en calculer 25000, puis 230000 et, maintenant, j'en suis au tour de 1,5 million. Avec autant d'AUC, le temps nécessaire pour calculer une AUC devient un paramètre critique. Je n'ai pas [...]

By | 18 août 2016|Categories: Data Analysis, Performance, Python, R, Statistiques|0 Commentaires

Accélérer l’accès aléatoire aux disques

Lorsqu'on utilise un logiciel qui doit accéder à des données sur disque de manière aléatoire, il est généralement reconnu que les disques SSD (solid state drive) offrent une meilleure performance; les disques SAS étant moins efficaces et les disques SATA étant les pires. Toutefois, les disques SSD à grande capacité de stockage étant relativement dispendieux, lorsque l'on traite de larges ensembles de données, nous nous retrouvons souvent à travailler sur les plus abordables et communs disques SATA. J'ai récemment expérimenté [...]

By | 4 août 2016|Categories: Performance|0 Commentaires

Parallélise ton Python !

Dans cet article, vous apprendrez ce qu'est que le multithread ou multicore, et dans quel cas utiliser l’un ou l’autre. Votre ami nerd vous parle de sa déformation professionnelle tout le temps? À vouloir paralléliser et optimiser son temps? Vous souhaitez vous aussi comprendre et gagner du temps en parallélisant vos programmes en Python? Alors cet article est pour vous! Vous allez pouvoir, grâce à une petite dose de parallélisme, de Python et de beaucoup d’amour, gagner [...]

By | 31 mars 2016|Categories: Bioinformatique, Performance, Python|0 Commentaires