Visualisation de données

Créer un beau tableau graphique avec R

Bonjour à tous, Aujourd'hui, je vais vous parler de formattable. This package is designed for applying formatting on vectors and data frames to make data presentation easier, richer, more flexible and hopefully convey more information. Nous allons voir comment utiliser cette librairie pour interpréter nos données en un coup d'oeil, à l'aide de quelques lignes de code (vous pouvez suivre les indications ci-dessous ou aller regarder tout le code disponible sur git). Avant d'aller plus loin, j'aimerais préciser que cette [...]

Introduction à la régression linéaire

L'objectif premier du scientifique des données (data scientist) est l'exploration de données afin d'en découvrir des relations d'intérêt. Des méthodes statistiques et d'apprentissage machine lui servent d'outils pour la découverte et la modélisation de telles relations. L'information découverte par ces méthodes peut ensuite être mise en pratique. Par exemple, en médecine clinique, l'élaboration d'un modèle prédictif basé sur des données cliniques peut servir d'outil prognostic afin de guider un traitement. Régression linéaire simple L'une des méthodes la plus simple à la disposition du scientifique des données est la régression [...]

Bootstraps et intervalles de confiance

Lors de l'analyse des données, vous pourriez vouloir ajuster (fitter) un type de courbe spécifique à un ensemble de données particulier. Ce type d'analyse peut nous éclaircir sur la relation entre deux (ou plusieurs...) paramètres quantifiables. L'object principal de cet article n'est pas le comment de l'ajustement-même, mais plutôt l'évaluation de sa qualité i.e. comment calculer un intervalle de confiance autour d'une courbe ajustée. Cela étant dit, je vous montrerai comment faire un ajustement simple en utilisant différentes librairies R, mais je [...]

By | 2016-11-08T09:30:02+00:00 29 septembre 2016|Categories: Data Analysis, R, Visualisation de données|0 Commentaires

SciPy et les régressions logistiques

Il arrive souvent que l'on veuille voir s'il existe une une relation quelconque entre les points d'un jeu de données. Lorsqu'il est question de régressions linéaires, celles-ci peuvent être facilement visualisées avec Seaborn, une librairie Python visant l'exploration et la visualisation plutôt que l'analyse statistique. Quant aux régressions logistiques, SciPy est un bon outil à utiliser lorsque nous n'avons pas notre propre script d'analyse. Regardons le paquet optimisation 'optimize'                        from [...]

Écart-type sur un graphe de corrélation

Un collègue m'a récemment demandé de produire une visualisation montrant l'expression différentielle des gènes entre deux échantillons (sans réplicats). En utilisant les données de RPKM, il voulait faire ressortir tous les gènes se trouvant aux extrémités de la distribution i.e. à 2 écart-types de la moyenne ou plus. Comme premier essai, j'ai calculé la distribution de fold change et l'écart-type et j'ai tracé les droites correspondantes de chaque côté de la diagonale sur un graphe en nuage de points présentant [...]