{"id":1670,"date":"2015-10-31T13:54:53","date_gmt":"2015-10-31T17:54:53","guid":{"rendered":"http:\/\/bioinfo.iric.ca\/fr\/?p=1670"},"modified":"2017-04-29T17:10:22","modified_gmt":"2017-04-29T21:10:22","slug":"mise-en-forme-de-fichiers-de-donnees-pour-circos-avec-r","status":"publish","type":"post","link":"https:\/\/bioinfo.iric.ca\/fr\/mise-en-forme-de-fichiers-de-donnees-pour-circos-avec-r\/","title":{"rendered":"Mise en forme de fichiers de donn\u00e9es pour Circos avec R"},"content":{"rendered":"<p>Lorsqu&rsquo;il est question de g\u00e9n\u00e9rer une image Circos, la mise en forme des donn\u00e9es est une des \u00e9tapes les plus importantes. Voici quelques points cl\u00e9s pouvant vous aider \u00e0 \u00e9viter le redoutable ***CIRCOS ERROR***.<\/p>\n<p>Tous les fichiers de donn\u00e9es doivent \u00eatre en\u00a0format texte, c&rsquo;est-\u00e0-dire avoir une extension .txt et utiliser une tabulation comme s\u00e9parateur. \u00a0R s&rsquo;av\u00e8re tr\u00e8s utile pour g\u00e9n\u00e9rer les fichiers dans le format requis. \u00a0Avec\u00a0l&rsquo;aide de R, \u00a0je\u00a0peux\u00a0g\u00e9n\u00e9rer un fichier myData.txt qui par la suite, sera incorpor\u00e9 dans un de mes fichiers de configuration. Les fichiers de donn\u00e9es sont n\u00e9cessaires pour\u00a0la cr\u00e9ation de\u00a0repr\u00e9sentations graphiques en 2 dimensions, pour le positionnement d&rsquo;\u00e9tiquettes \u00a0(qui sont en en r\u00e9alit\u00e9 consid\u00e9r\u00e9es comme une sorte de graphique), ainsi que pour la repr\u00e9sentation de\u00a0liens entre deux positions de chromosomes. Pour savoir comment faire la mise en forme du fichier de donn\u00e9es, il faut d&rsquo;abord savoir ce que l&rsquo;on veut repr\u00e9senter (graphiques 2-d, \u00e9tiquettes, liens).<\/p>\n<table style=\"height: 217px;\" width=\"864\">\n<tbody>\n<tr>\n<td><strong>Type de repr\u00e9sentation de donn\u00e9es<\/strong><\/td>\n<td style=\"text-align: center;\">Graphiques<\/td>\n<td style=\"text-align: center;\">\u00c9tiquettes<\/td>\n<td style=\"text-align: center;\">Liens<\/td>\n<\/tr>\n<tr>\n<td><strong>Colonnes requises<\/strong><\/td>\n<td>chr \u00a0 \u00a0start \u00a0 \u00a0end \u00a0 \u00a0 val<\/td>\n<td>chr \u00a0 \u00a0 start \u00a0 \u00a0 \u00a0 end \u00a0 \u00a0 \u00a0 label<\/td>\n<td>chr1 \u00a0 start1 \u00a0end1 \u00a0 \u00a0chr2 \u00a0 \u00a0 \u00a0start2 \u00a0 end2<\/td>\n<\/tr>\n<tr>\n<td><strong>Exemple<\/strong><\/td>\n<td>chr1 \u00a01000 \u00a0 1199 \u00a0 1.00<br \/>\nchr1 \u00a01200 \u00a0 1399 \u00a0 \u00a015.00<br \/>\nchr1 \u00a01400 \u00a0 1599 \u00a0 \u00a0-2.00<\/td>\n<td>chr1 \u00a0 11873 \u00a0 14409 \u00a0 DDX11L1<br \/>\nchr1 \u00a0 14361 \u00a0 29370 \u00a0 WASH7P<br \/>\nchr1 \u00a0 17368 \u00a0 17436 \u00a0 MIR6859-1<\/td>\n<td>chr1 \u00a0 486 \u00a0 \u00a0 769 \u00a0 \u00a0 \u00a0chr15 \u00a0 10026 \u00a0 10033<br \/>\nchr1 \u00a0 3426 \u00a0 3938 \u00a0 \u00a0 chr15 \u00a0 10021 \u00a0 10026<br \/>\nchr1 \u00a0 5763 \u00a0 6268 \u00a0 \u00a0 chr15 \u00a0 10021 \u00a0 10026<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>D&rsquo;autres param\u00e8tres peuvent \u00eatre ajout\u00e9s apr\u00e8s\u00a0la derni\u00e8re colonne (respectivement \u00a0val\/label\/end2 pour les graphiques, \u00e9tiquettes et liens). \u00a0On pourrait ajouter une colonne pour la couleur \u00a0(<em>color<\/em>) par exemple. \u00a0 Dans cet\u00a0\u00a0article, nous allons toutefois nous en tenir \u00e0 la mise en forme classique. Notons qu&rsquo;avec ou sans ces param\u00e8tres additionnels, les \u00e9tapes restent tr\u00e8s similaires.<\/p>\n<p>Maintenant que l&rsquo;on sait comment illustrer nos donn\u00e9es, nous pouvons commencer \u00e0 les formater. Importez tout d&rsquo;abord les donn\u00e9es brutes dans R en cr\u00e9ant un nouveau &lsquo;data frame&rsquo;.<\/p>\n<pre>&gt; data_df &lt;- read.table(\"<span style=\"color: green;\">myRawData.txt<\/span>\", header = <span style=\"color: blue;\">TRUE<\/span>, sep = \"<span style=\"color: green;\">\\t<\/span>\", as.is = <span style=\"color: blue;\">TRUE<\/span>)<\/pre>\n<p>Puis travaillez vos donn\u00e9es comme vous le feriez en temps normal. Par exemple, vous pourriez calculer des moyennes, des \u00e9carts-types ou vous pourriez filtrer vos donn\u00e9es en appliquant\u00a0un test statistique et conserver seulement les valeurs jug\u00e9es significatives. Cette \u00e9tape est compl\u00e8tement \u00e0 votre guise!<\/p>\n<p>Il faut absolument conserver\u00a0sur quel chromosome telle valeur se trouve, ainsi que sa position de d\u00e9part et de fin. Une bonne fa\u00e7on de faire cela est de travailler vos donn\u00e9es dans une table. De la sorte, vous pouvez avoir une colonne avec les valeurs , une colonne avec le chromosome et deux autres avec la position initiale et finale. Toutes les autres colonnes de cette table sont \u00e0 votre discr\u00e9tion.<\/p>\n<p>Lorsque vous \u00eates pr\u00eats \u00e0 enregistrer vos donn\u00e9es manipul\u00e9es dans un nouveau fichier, cr\u00e9ez une nouvelle table dans laquelle les colonnes correspondent au bon format, tel que repr\u00e9sent\u00e9 dans le tableau plus haut.\u00a0Si vous travailliez d\u00e9j\u00e0 avec une table, assurez-vous que les colonnes soient dans le bon ordre. Pour exporter vos donn\u00e9es de fa\u00e7on efficace, vous pourriez utiliser cette simple ligne de code:<\/p>\n<pre>&gt; write.table(myDataTable, file = \"<span style=\"color: green;\">myData.txt<\/span>\", row.names = <span style=\"color: blue;\">FALSE<\/span>, col.names = <span style=\"color: blue;\">FALSE<\/span>, sep = \"<span style=\"color: green;\">\\t<\/span>\", quote = <span style=\"color: blue;\">FALSE<\/span>)<\/pre>\n<p><em>myDataTable<\/em> est le nom de la table \u00e0 exporter, tandis que <em>myData.txt<\/em> est le nom du fichier texte r\u00e9sultant. Le format Circos ne permet pas les noms de rang\u00e9es, d&rsquo;o\u00f9 <em>row.names = FALSE<\/em>. Cela dit, les noms de colonnes sont accept\u00e9s jusqu\u2019\u00e0 un certain point, mais l\u2019appellation doit \u00eatre exacte et doit correspondre \u00e0 celle attendue\u00a0par le programme. Pour \u00e9viter toute erreur, je vous conseille d&rsquo;exporter votre table sans les \u00e9tiquettes de colonnes et d&rsquo;utiliser<em> col.names = FALSE<\/em>. L&rsquo;argument de s\u00e9paration <em>sep =\u00a0\u00ab\u00a0\\t\u00a0\u00bb <\/em>assure que chaque entr\u00e9e de chaque rang\u00e9e sera s\u00e9par\u00e9e par une tabulation, ce qui est pr\u00e9f\u00e9r\u00e9 par\u00a0Circos.\u00a0\u00a0Finalement, <em>quote = FALSE<\/em> fait en sorte que tous les guillemets (\u00ab\u00a0\u00a0\u00bb) seront supprim\u00e9s\u00a0dans l\u2019appellation des\u00a0chromosomes et \u00e9tiquettes. Ce dernier d\u00e9tail est tr\u00e8s important, car la pr\u00e9sence de guillemets peut facilement causer une erreur du c\u00f4t\u00e9 de Circos.<\/p>\n<p>Enfin, pour \u00eatre s\u00fbr d&rsquo;\u00e9viter les erreurs, r\u00e9visez vos fichiers de donn\u00e9es avant des les utiliser.<\/p>\n<p>Plusieurs ***CIRCOS ERROR*** peuvent \u00eatre \u00e9vit\u00e9es lorsque l&rsquo;on sait comment bien formater ses fichiers de donn\u00e9es!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Lorsqu&rsquo;il est question de g\u00e9n\u00e9rer une image Circos, la mise en forme des donn\u00e9es est une des \u00e9tapes les plus importantes. Voici quelques points cl\u00e9s pouvant vous aider \u00e0 \u00e9viter le redoutable ***CIRCOS ERROR***. Tous les fichiers de donn\u00e9es doivent \u00eatre en\u00a0format texte, c&rsquo;est-\u00e0-dire avoir une extension .txt et utiliser une tabulation comme s\u00e9parateur. \u00a0R s&rsquo;av\u00e8re tr\u00e8s utile pour g\u00e9n\u00e9rer les fichiers dans le format requis. \u00a0Avec\u00a0l&rsquo;aide de R, \u00a0je\u00a0peux\u00a0g\u00e9n\u00e9rer un fichier myData.txt qui par la suite, sera incorpor\u00e9 dans <a href=\"https:\/\/bioinfo.iric.ca\/fr\/mise-en-forme-de-fichiers-de-donnees-pour-circos-avec-r\/\"> [&#8230;]<\/a><\/p>\n","protected":false},"author":11,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[24,44],"tags":[129,116,138],"class_list":["post-1670","post","type-post","status-publish","format-standard","hentry","category-langage-r","category-visualisation-de-donnees","tag-analyse-de-donnees","tag-circos","tag-manipulation-de-donnees"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/1670","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/users\/11"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/comments?post=1670"}],"version-history":[{"count":14,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/1670\/revisions"}],"predecessor-version":[{"id":1693,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/1670\/revisions\/1693"}],"wp:attachment":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media?parent=1670"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/categories?post=1670"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/tags?post=1670"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}