gendrop

About Patrick

Ancien physicien devenu développeur de logiciels et biologiste structural, il gère aujourd ’hui une équipe de bio-informaticiens de talent à la plate-forme. Dieu de la course automobile et maître barista, il gère habilement le service d'analyse de séquençage next-gen et de l'infrastructure TI. La légende veut qu ’il se promenait sur le futur site de l'IRIC avant sa fondation. Il a également écrit toute cette bio lui-même, à la troisième personne.

Transferts réseau rapides?

Récemment, tout le monde s'est mis à utiliser différents outils dans le but d'optimiser de gros transferts de données de, vers et entre super-ordinateurs. Historiquement, nous avons vu des outils tels que FDT, BBCP qui essayaient de surpasser la performance obtenue par les autres méthodes de transfert classique, comme scp, rsync, ftp, etc. Un outil en particulier est en train de gagner en popularité et est déployé sur la plupart des super-ordinateurs : GridFTP et son interface, Globus. L'interface [...]

By |2017-04-29T17:02:01-04:0012 octobre 2016|Categories: Informatique, Performance|Tags: , |0 Commentaires

Accélérer l’accès aléatoire aux disques

Lorsqu'on utilise un logiciel qui doit accéder à des données sur disque de manière aléatoire, il est généralement reconnu que les disques SSD (solid state drive) offrent une meilleure performance; les disques SAS étant moins efficaces et les disques SATA étant les pires. Toutefois, les disques SSD à grande capacité de stockage étant relativement dispendieux, lorsque l'on traite de larges ensembles de données, nous nous retrouvons souvent à travailler sur les plus abordables et communs disques SATA. J'ai récemment expérimenté [...]

By |2017-04-29T17:02:18-04:004 août 2016|Categories: Informatique, Performance|0 Commentaires

Écart-type sur un graphe de corrélation

Un collègue m'a récemment demandé de produire une visualisation montrant l'expression différentielle des gènes entre deux échantillons (sans réplicats). En utilisant les données de RPKM, il voulait faire ressortir tous les gènes se trouvant aux extrémités de la distribution i.e. à 2 écart-types de la moyenne ou plus. Comme premier essai, j'ai calculé la distribution de fold change et l'écart-type et j'ai tracé les droites correspondantes de chaque côté de la diagonale sur un graphe en nuage de points présentant [...]

By |2017-04-29T17:01:08-04:007 avril 2016|Categories: R, Statistiques, Visualisation de données|Tags: |0 Commentaires

Manipuler de gros fichiers

À la plateforme, je fais régulièrement des analyses de données de séquençage de nouvelle génération (Next Generation Sequencing ou NGS). L'une des questions qui revient fréquemment chez mes clients est : comment ouvrir les fichiers de séquences générés? Considérant l'énorme taille de ces fichiers (souvent plusieurs millions de lignes) et, par conséquent, l'espace qu'ils requièrent en mémoire, ils ne devraient pas être ouverts d'une quelconque façon, ils devraient plutôt être processés. La plupart des programmes conçus pour traiter les données [...]

By |2017-04-30T12:51:58-04:001 octobre 2015|Categories: Analyse de données, Scripts|Tags: , |1 commentaire

Identifier un point avec ggplot2

Comme nous tous, vous vous êtes laissé séduire par ggplot2. L'élégance des graphes, la facilité de grouper les données... Vous avez décidé de convertir tous vos graphes en graphes ggplot2 pour ensuite vous rendre compte, après tout vos efforts, que vous étiez incapable d'identifier un point d'intérêt facilement. En effet, la fonction identify (qui permet de cliquer sur un point d'un graphique pour récupérer ses coordonnées) ne fonctionne plus! Comment étiquetter facilement le point outlier alors? Heureusement, il y a [...]

By |2017-05-01T10:10:51-04:005 mars 2015|Categories: Bioinformatique, R, Visualisation de données|Tags: |0 Commentaires