Diagrammes de Venn: un cauchemar pour la visualisation de données

J’ai récemment lu un article introduisant un aligneur (read mapper) très inspirant pour les données de séquençage d’ARN (RNA-Seq). Dans la présentation de leurs résultats, les auteurs ont voulu comparer le nombre de jonctions d’épissage détectées par quatre aligneurs différents; leur but étant de montrer le chevauchement entre leur méthode et les différentes méthodes existantes. Ils ont choisi de présenter ces données sous la forme d’un diagramme de Venn (voir la figure 1). Je suis resté plusieurs minutes à fixer cette mosaïque colorée… sans en retirer beaucoup d’informations.

Figure 1: Exemple d’un diagramme de Venn à quatre ensembles. Reproduction de la figure 4b de Genome Biology, 14(3):R30, 2013.

Quels aligneurs présentent le plus de similitudes dans leurs prédictions de jonctions? Est-ce qu’il y a un aligneur dont les résultats diffèrent plus particulièrement des autres (outlier)? Tentez de répondre à ces questions en utilisant le diagramme de Venn reproduit à la figure 1.

J’ai sorti les nombres de la figure et essayé de construire une représentation alternative facilitant l’exploration des résultats. La figure 2 montre une version rudimentaire de cet essai. Au premier coup d’oeil, il est facile de voir que 65% des jonctions sont identifiées par les quatre aligneurs (bonne nouvelle!). Tophat est plutôt marginal; CRAC, GSNAP et MapSplice ayant plus de 86% de jonctions en commun. Seulement une petite fraction des jonctions sont uniques à chaque aligneur (1-2%). MapSplice semble être le plus conservateur des quatre (seulement 815 jonctions uniques).

Figure 2: Exploration du diagramme de Venn. Ces nombres sont aisément calculés par la fonction « sommeprod » de votre tabulateur préféré.

Cette représentation alternative prend un peu plus d’espace (quand il y a plus de deux catégories) et est fondamentalement moins colorée, mais elle atteint l’objectif principal: permettre au lecteur de comprendre les données! La prochaine fois, avant de lancer Venny (ici), demandez-vous si le diagramme de Venn est vraiment le moyen le plus convenable de montrer le chevauchement observé dans vos données.