{"id":3486,"date":"2017-06-01T12:00:47","date_gmt":"2017-06-01T16:00:47","guid":{"rendered":"http:\/\/bioinfo.iric.ca\/?p=3486\/"},"modified":"2017-06-01T12:36:12","modified_gmt":"2017-06-01T16:36:12","slug":"tutoriels-de-reduction-de-dimensionalite-1-analyse-de-composantes-principales","status":"publish","type":"post","link":"https:\/\/bioinfo.iric.ca\/fr\/tutoriels-de-reduction-de-dimensionalite-1-analyse-de-composantes-principales\/","title":{"rendered":"Tutoriels de r\u00e9duction de dimensionalit\u00e9: 1- Analyse de composantes principales"},"content":{"rendered":"<p><strong>Comprendre la r\u00e9duction de dimensionalit\u00e9<\/strong><\/p>\n<p>Si vous utilisez de larges jeux de donn\u00e9es (transcriptomes, s\u00e9quen\u00e7age de g\u00e9nome, prot\u00e9omes), t\u00f4t ou tard, vous tomberez sur quelque chose qui porte le nom \u00ab\u00a0d&rsquo;analyse de composantes principales\u00a0\u00bb (<em>Principal Components Analysis<\/em>, en anglais, abr\u00e9vi\u00e9 PCA). PCA est une m\u00e9thode de r\u00e9duction de dimensionalit\u00e9, une famille large de m\u00e9thodes qui font exactement ce que leur nom dit: elles r\u00e9duisent la dimensionalit\u00e9.<\/p>\n<p>Mais qu&rsquo;est-ce que \u00e7a veut dire? Qu&rsquo;est-ce qu&rsquo;une dimension et pourquoi on voudrait les r\u00e9duire?<br \/>\nVoici un exemple r\u00e9pondant \u00e0 ces questions<\/p>\n<p><span style=\"text-decoration: underline;\">La probl\u00e9matique<\/span><br \/>\nDisons que vous faites face \u00e0 un transcriptome hypoth\u00e9tique, d&rsquo;une esp\u00e8ce primitive qui a un total de 3 g\u00e8nes dans son g\u00e9nome. Certains des individus de cette esp\u00e8ce ont \u00e9t\u00e9 trait\u00e9s avec un compos\u00e9 chimique et vous observez le changement d&rsquo;expression des 3 g\u00e8nes de l&rsquo;organisme. Si vous tracez les trois combinaisons de g\u00e8nes, vous obtenez les trois graphiques suivants (les couleurs symbolisent les deux conditions exp\u00e9rimentales). Note g\u00e9n\u00e9rale: l&#8217;emploi du mot dimensions n&rsquo;est ici qu&rsquo;un terme sp\u00e9cial pour d\u00e9signer les g\u00e8nes.<\/p>\n<p><a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM.png\"><img decoding=\"async\" class=\"alignnone wp-image-3481\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-300x272.png\" alt=\"\" width=\"211\" height=\"191\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-200x181.png 200w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-300x272.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-400x363.png 400w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-600x544.png 600w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-768x697.png 768w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-800x726.png 800w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-1024x929.png 1024w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM-1200x1089.png 1200w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.49.38-PM.png 1208w\" sizes=\"(max-width: 211px) 100vw, 211px\" \/><\/a><a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM.png\"><img decoding=\"async\" class=\"alignnone wp-image-3482\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM-300x277.png\" alt=\"\" width=\"200\" height=\"185\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM-200x184.png 200w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM-300x277.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM-400x369.png 400w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM-600x553.png 600w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM-768x708.png 768w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM-800x738.png 800w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM-1024x945.png 1024w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.10-PM.png 1186w\" sizes=\"(max-width: 200px) 100vw, 200px\" \/><\/a><a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM.png\"><img decoding=\"async\" class=\"alignnone wp-image-3483\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM-300x281.png\" alt=\"\" width=\"202\" height=\"189\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM-200x187.png 200w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM-300x281.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM-400x375.png 400w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM-600x562.png 600w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM-768x719.png 768w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM-800x749.png 800w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM-1024x959.png 1024w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.51.03-PM.png 1194w\" sizes=\"(max-width: 202px) 100vw, 202px\" \/><\/a><\/p>\n<p>On peut observer une tendance dans l&rsquo;expression des g\u00e8nes s\u00e9parant les deux conditions (les rouges des bleus), cependant, elle demeure impossible \u00e0 extraire. Cette tendance, \u00e0 peine visible \u00e0 l&rsquo;oeil, peut \u00eatre distill\u00e9e utilisant des techniques de r\u00e9duction de dimensionalit\u00e9. R\u00e9duire les dimensions ne veut pas dire en jeter certaines et en garder d&rsquo;autres. Cette famille de m\u00e9thodes tente plut\u00f4t de se d\u00e9barrasser de redondances, en cr\u00e9ant un nouveau syst\u00e8me de dimensions, qui expliquerait mieux les observations dans le jeu de donn\u00e9es. Dans l&rsquo;article suivant (et les prochains) je tenterai de fournir une explication intuitive de ce que chaque type de r\u00e9duction de dimensionalit\u00e9 fait.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Analyse de composantes principales<\/strong><\/p>\n<p>La PCA, sp\u00e9cifiquement, tente de cr\u00e9er un nouveau syst\u00e8me de coordonn\u00e9es qui explique le mieux la variabilit\u00e9 dans les \u00e9chantillons. En d&rsquo;autres mots, la PCA cherche une direction dans les donn\u00e9es, qui s\u00e9pare le mieux les \u00e9chantillons. Une fois la direction trouv\u00e9e, elle cherche la deuxi\u00e8me, \u00ab\u00a0meilleure s\u00e9paratrice\u00a0\u00bb, etc.<br \/>\n<em>Il y a cependant un d\u00e9tail technique: chaque nouvelle direction (ou dimension) trouv\u00e9e doit \u00eatre orthogonale aux autres. Orthogonal fait r\u00e9f\u00e9rence \u00e0 un angle droit et la raison du choix d&rsquo;orthogonalit\u00e9 des dimensions est, entre autres, due au fait que dans l&rsquo;espace d&rsquo;origine, les dimensions sont orthogonales l&rsquo;une \u00e0 l&rsquo;autre.<\/em><\/p>\n<p>Des fois, on r\u00e9f\u00e8re \u00e0 la PCA comme une rotation. La rotation est en fait appliqu\u00e9e sur l&rsquo;espace du jeu de donn\u00e9es pour trouver les dimensions les plus s\u00e9parantes. Dans la gif ci-dessous (cliquez pour voir l&rsquo;animation), on peut voir une rotation qui s\u00e9pare facilement les deux groupes d&rsquo;individus selon les conditions exp\u00e9rimentales.<\/p>\n<div class=\"gif_wrap wpgp-width600\">\r\n                        <a href=\"javascript:void(0);\" class=\"gif_link_wrap wpgp-width600\" title=\"Click to play\" rel=\"nofollow\"><\/a>\r\n                        <span class=\"play_gif wpgp-width600\">GIF<\/span>\r\n                        <img decoding=\"async\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/media1_still_tmp.jpeg\" class=\"_showing frame no-lazy\" alt=\"\">\r\n                   <\/div>\r\n                   <img decoding=\"async\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/media1_still_tmp.jpeg\" class=\"_hidden no-lazy\" alt=\"\" style=\"display:none;\">\n<p>Si vous aviez \u00e0 expliquer comment cette rotation est faite, intuitivement vous direz que la rotation n&rsquo;est qu&rsquo;un angle dans lequel on a tourn\u00e9 l&rsquo;espace des g\u00e8nes. Sachant qu&rsquo;un angle est une combinaison lin\u00e9aire de deux dimensions, la rotation peut donc \u00eatre r\u00e9sum\u00e9e \u00e0 une combinaison lin\u00e9aire des dimensions (ou g\u00e8nes) d&rsquo;entr\u00e9e.<\/p>\n<p>Une autre observation importante est que soudainement, vous n&rsquo;avez plus besoin de repr\u00e9senter le jeu de donn\u00e9es en 3 dimensions (1 dimension par g\u00e8nes). Vous pouvez plut\u00f4t le tracer\u00a0en deux dimensions o\u00f9 chaque nouvelle dimension du nouveau syst\u00e8me de coordonn\u00e9es est une combinaison des g\u00e8nes.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Comprendre la r\u00e9duction de dimensionalit\u00e9 Si vous utilisez de larges jeux de donn\u00e9es (transcriptomes, s\u00e9quen\u00e7age de g\u00e9nome, prot\u00e9omes), t\u00f4t ou tard, vous tomberez sur quelque chose qui porte le nom \u00ab\u00a0d&rsquo;analyse de composantes principales\u00a0\u00bb (Principal Components Analysis, en anglais, abr\u00e9vi\u00e9 PCA). PCA est une m\u00e9thode de r\u00e9duction de dimensionalit\u00e9, une famille large de m\u00e9thodes qui font exactement ce que leur nom dit: elles r\u00e9duisent la dimensionalit\u00e9. Mais qu&rsquo;est-ce que \u00e7a veut dire? Qu&rsquo;est-ce qu&rsquo;une dimension et pourquoi on voudrait les <a href=\"https:\/\/bioinfo.iric.ca\/fr\/tutoriels-de-reduction-de-dimensionalite-1-analyse-de-composantes-principales\/\"> [&#8230;]<\/a><\/p>\n","protected":false},"author":6,"featured_media":3484,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[69,161,85,41,88,27,44],"tags":[],"class_list":["post-3486","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-analyse-de-donnees","category-analyse-de-donnees-fr","category-apprentissage-automatique","category-bioinformatique","category-informatique","category-statistiques","category-visualisation-de-donnees"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/05\/Screen-Shot-2017-05-31-at-3.52.52-PM.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3486","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/comments?post=3486"}],"version-history":[{"count":5,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3486\/revisions"}],"predecessor-version":[{"id":3496,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3486\/revisions\/3496"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media\/3484"}],"wp:attachment":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media?parent=3486"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/categories?post=3486"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/tags?post=3486"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}