Visualisation de données

Introduction à la régression linéaire

L'objectif premier du scientifique des données (data scientist) est l'exploration de données afin d'en découvrir des relations d'intérêt. Des méthodes statistiques et d'apprentissage machine lui servent d'outils pour la découverte et la modélisation de telles relations. L'information découverte par ces méthodes peut ensuite être mise en pratique. Par exemple, en médecine clinique, l'élaboration d'un modèle prédictif basé sur des données cliniques peut servir d'outil prognostic afin de guider un traitement. Régression linéaire simple L'une des méthodes la plus simple à la disposition du scientifique des données est la régression [...]

Bootstraps et intervalles de confiance

Lors de l'analyse des données, vous pourriez vouloir ajuster (fitter) un type de courbe spécifique à un ensemble de données particulier. Ce type d'analyse peut nous éclaircir sur la relation entre deux (ou plusieurs...) paramètres quantifiables. L'object principal de cet article n'est pas le comment de l'ajustement-même, mais plutôt l'évaluation de sa qualité i.e. comment calculer un intervalle de confiance autour d'une courbe ajustée. Cela étant dit, je vous montrerai comment faire un ajustement simple en utilisant différentes librairies R, mais je [...]

By | 29 septembre 2016|Categories: Data Analysis, R, Visualisation de données|0 Commentaires

SciPy et les régressions logistiques

Il arrive souvent que l'on veuille voir s'il existe une une relation quelconque entre les points d'un jeu de données. Lorsqu'il est question de régressions linéaires, celles-ci peuvent être facilement visualisées avec Seaborn, une librairie Python visant l'exploration et la visualisation plutôt que l'analyse statistique. Quant aux régressions logistiques, SciPy est un bon outil à utiliser lorsque nous n'avons pas notre propre script d'analyse. Regardons le paquet optimisation 'optimize'                        from [...]

Écart-type sur un graphe de corrélation

Un collègue m'a récemment demandé de produire une visualisation montrant l'expression différentielle des gènes entre deux échantillons (sans réplicats). En utilisant les données de RPKM, il voulait faire ressortir tous les gènes se trouvant aux extrémités de la distribution i.e. à 2 écart-types de la moyenne ou plus. Comme premier essai, j'ai calculé la distribution de fold change et l'écart-type et j'ai tracé les droites correspondantes de chaque côté de la diagonale sur un graphe en nuage de points présentant [...]

Mise en forme de fichiers de données pour Circos avec R

Lorsqu'il est question de générer une image Circos, la mise en forme des données est une des étapes les plus importantes. Voici quelques points clés pouvant vous aider à éviter le redoutable ***CIRCOS ERROR***. Tous les fichiers de données doivent être en format texte, c'est-à-dire avoir une extension .txt et utiliser une tabulation comme séparateur.  R s'avère très utile pour générer les fichiers dans le format requis.  Avec l'aide de R,  je peux générer un fichier myData.txt qui par la suite, sera incorporé dans [...]

By | 31 octobre 2015|Categories: Circos, R, Visualisation de données|0 Commentaires