Python

Pivoter des tables: du format long à large

En tant que bio-informaticiens, nous avons souvent à manipuler des données qui ne sont pas organisées comme nous le voudrions. Un cas souvent rencontré est l'obtention de données qui se trouvent dans un format "long" au lieu de les avoir dans le format plus habituel, "large". Pour ceux qui sont familiers avec la librairie ggplot du langage R, vous connaissez très bien le format "long". C'est le format requis par ggplot pour lui permettre de produire ses élégants graphiques. En [...]

By |2017-04-29T18:22:08-04:0014 novembre 2016|Categories: Analyse de données, Python, R|Tags: |0 Commentaires

Réseau de neurones « Siamois » avec Mariana 1.0

Mariana fut introduit précédemment sur ce blog en mai par Geneviève dans son article Apprentissage automatique en sciences de la vie. Présentement à la version 1.0rc3 sur github, le lancement de la version 1.0 stable de Mariana approche maintenant à grands pas. Cette nouvelle version représente un remaniement de code important et ajoute plusieurs nouvelles fonctionnalités (une liste complète des changements incorporés dans la version 1.0 est disponible ici). Je profite de cette occasion pour présenter une petite capsule sur l'extension des fonctionnalités de [...]

By |2017-04-29T16:53:00-04:007 novembre 2016|Categories: Apprentissage automatique, Python|Tags: , , |0 Commentaires

La méthode la plus rapide pour calculer une AUC

Contexte: AUC est un acronyme pour "Area Under the (ROC) Curve". Si vous n'êtes pas familier avec les notions de courbe ROC et d'AUC, je vous suggère de commencer par ce blog post avant de continuer. Dans plusieurs projets, il m'a fallu calculer un grand nombre d'AUC. J'ai commencé par devoir en calculer 25000, puis 230000 et, maintenant, j'en suis au tour de 1,5 million. Avec autant d'AUC, le temps nécessaire pour calculer une AUC devient un paramètre critique. Je n'ai pas [...]

By |2017-04-29T16:56:12-04:0018 août 2016|Categories: Performance, Python, R, Statistiques|Tags: |0 Commentaires

SciPy et les régressions logistiques

Il arrive souvent que l'on veuille voir s'il existe une une relation quelconque entre les points d'un jeu de données. Lorsqu'il est question de régressions linéaires, celles-ci peuvent être facilement visualisées avec Seaborn, une librairie Python visant l'exploration et la visualisation plutôt que l'analyse statistique. Quant aux régressions logistiques, SciPy est un bon outil à utiliser lorsque nous n'avons pas notre propre script d'analyse. Regardons le paquet optimisation 'optimize'                        from [...]

By |2017-04-29T16:58:18-04:009 juin 2016|Categories: Analyse de données, Python|Tags: , , , |0 Commentaires

Parallélise ton Python !

Dans cet article, vous apprendrez ce qu'est que le multithread ou multicore, et dans quel cas utiliser l’un ou l’autre. Votre ami nerd vous parle de sa déformation professionnelle tout le temps? À vouloir paralléliser et optimiser son temps? Vous souhaitez vous aussi comprendre et gagner du temps en parallélisant vos programmes en Python? Alors cet article est pour vous! Vous allez pouvoir, grâce à une petite dose de parallélisme, de Python et de beaucoup d’amour, gagner [...]

By |2017-04-29T17:05:58-04:0031 mars 2016|Categories: Performance, Python|Tags: , |0 Commentaires