analyse de données

R ou Python, à vous de choisir!

Mise à jour 27/08/2018 J'ai déjà introduit la librairie Python pandas en comparant certaines de ses fonctions à leurs fonctions équivalentes en R. Pandas est une librairie qui rend Python beaucoup plus facile à utiliser pour faire de l'exploration et de la visualisation de données (presque autant que R). La librairie permet de manipuler des dataframes très facilement (elle est construite par-dessus numpy). Elle a beaucoup évolué ces dernières années et la communauté d'utilisateurs a aussi beaucoup grossie. R offre [...]

By |2018-08-28T10:20:03-04:0026 juin 2017|Categories: Analyse de données, Python, R|Tags: , |0 Commentaires

Créer un beau tableau graphique avec R

Bonjour à tous, Aujourd'hui, je vais vous parler de formattable. This package is designed for applying formatting on vectors and data frames to make data presentation easier, richer, more flexible and hopefully convey more information. Nous allons voir comment utiliser cette librairie pour interpréter nos données en un coup d'oeil, à l'aide de quelques lignes de code (vous pouvez suivre les indications ci-dessous ou aller regarder tout le code disponible sur git). Avant d'aller plus loin, j'aimerais préciser que cette [...]

By |2017-09-12T11:40:54-04:0030 mars 2017|Categories: R, Visualisation de données|Tags: , |0 Commentaires

Réseau de neurones « Siamois » avec Mariana 1.0

Mariana fut introduit précédemment sur ce blog en mai par Geneviève dans son article Apprentissage automatique en sciences de la vie. Présentement à la version 1.0rc3 sur github, le lancement de la version 1.0 stable de Mariana approche maintenant à grands pas. Cette nouvelle version représente un remaniement de code important et ajoute plusieurs nouvelles fonctionnalités (une liste complète des changements incorporés dans la version 1.0 est disponible ici). Je profite de cette occasion pour présenter une petite capsule sur l'extension des fonctionnalités de [...]

By |2017-04-29T16:53:00-04:007 novembre 2016|Categories: Apprentissage automatique, Python|Tags: , , |0 Commentaires

Écart-type sur un graphe de corrélation

Un collègue m'a récemment demandé de produire une visualisation montrant l'expression différentielle des gènes entre deux échantillons (sans réplicats). En utilisant les données de RPKM, il voulait faire ressortir tous les gènes se trouvant aux extrémités de la distribution i.e. à 2 écart-types de la moyenne ou plus. Comme premier essai, j'ai calculé la distribution de fold change et l'écart-type et j'ai tracé les droites correspondantes de chaque côté de la diagonale sur un graphe en nuage de points présentant [...]

By |2017-04-29T17:01:08-04:007 avril 2016|Categories: R, Statistiques, Visualisation de données|Tags: |0 Commentaires

Factoriel et log factoriel

Factoriel: Quand vous avez besoin de calculer n!, il existe plusieurs solutions:  La solution "rapide": qui utilise une boucle ou une fonction récursive:  def factorial_for(n): r = 1 for i in range(2, n + 1): r *= i return(r) def factorial_rec(n): if n > 1: return(n * factorial_rec(n - 1)) else: return(1) Ici, la multiplication séquentielle de chaque nombre va générer un nombre très grand très rapidement, ce qui n'est pas optimum. En effet, les ordinateurs sont plus rapides quand ils multiplient [...]

By |2017-04-29T17:06:29-04:0019 février 2016|Categories: Performance, Python|Tags: |0 Commentaires