R

Langage de programmation R

Introduction à cowplot, pour combiner plusieurs plots avec R

Bonjour à tous, aujourd'hui, nous allons voir une extension de la librairie ggplot2: cowplot Some helpful extensions and modifications to the 'ggplot2' package. In particular, this package makes it easy to combine multiple 'ggplot2' plots into one and label them with letters, e.g. A, B, C, etc., as is often required for scientific publications. Comme on peut le lire dans la description, cette librairie permet de créer des figures avec plusieurs graphiques (plots), mais pas uniquement. Il est aussi possible de [...]

By | 28 novembre 2016|Categories: Bioinformatique, Biologie, Data Analysis, R, Représentation grahique|0 Commentaires

Pivoter des tables: du format long à large

En tant que bio-informaticiens, nous avons souvent à manipuler des données qui ne sont pas organisées comme nous le voudrions. Un cas souvent rencontré est l'obtention de données qui se trouvent dans un format "long" au lieu de les avoir dans le format plus habituel, "large". Pour ceux qui sont familiers avec la librairie ggplot du langage R, vous connaissez très bien le format "long". C'est le format requis par ggplot pour lui permettre de produire ses élégants graphiques. En [...]

By | 14 novembre 2016|Categories: Python, R|0 Commentaires

Bootstraps et intervalles de confiance

Lors de l'analyse des données, vous pourriez vouloir ajuster (fitter) un type de courbe spécifique à un ensemble de données particulier. Ce type d'analyse peut nous éclaircir sur la relation entre deux (ou plusieurs...) paramètres quantifiables. L'object principal de cet article n'est pas le comment de l'ajustement-même, mais plutôt l'évaluation de sa qualité i.e. comment calculer un intervalle de confiance autour d'une courbe ajustée. Cela étant dit, je vous montrerai comment faire un ajustement simple en utilisant différentes librairies R, mais je [...]

By | 29 septembre 2016|Categories: Data Analysis, R, Visualisation de données|0 Commentaires

Traitement parallèle facile avec R (suite)

La dernière fois que j'ai abordé ce sujet, je vous ai présenté une technique vraiment simple pour changer vos appels lapply en leur équivalents parallèles mclapply. Mais bien que ce soit une modification extrêmement simple à implémenter et qui donne d'excellent gains en performance, celle-ci nécessitait toutefois que votre code fasse déjà usage de lapply. Alors explorons une autre techinque simple pour introduire du traitement parallèle dans votre code source existant à l'aide des librairies foreach et doMC. La librairie [...]

By | 19 septembre 2016|Categories: Performance, R|0 Commentaires

La méthode la plus rapide pour calculer une AUC

Contexte: AUC est un acronyme pour "Area Under the (ROC) Curve". Si vous n'êtes pas familier avec les notions de courbe ROC et d'AUC, je vous suggère de commencer par ce blog post avant de continuer. Dans plusieurs projets, il m'a fallu calculer un grand nombre d'AUC. J'ai commencé par devoir en calculer 25000, puis 230000 et, maintenant, j'en suis au tour de 1,5 million. Avec autant d'AUC, le temps nécessaire pour calculer une AUC devient un paramètre critique. Je n'ai pas [...]

By | 18 août 2016|Categories: Data Analysis, Performance, Python, R, Statistiques|0 Commentaires