{"id":3759,"date":"2017-10-30T12:54:24","date_gmt":"2017-10-30T16:54:24","guid":{"rendered":"http:\/\/bioinfo.iric.ca\/?p=3759"},"modified":"2017-10-30T12:54:24","modified_gmt":"2017-10-30T16:54:24","slug":"le-surapprentissage-et-la-regularisation","status":"publish","type":"post","link":"https:\/\/bioinfo.iric.ca\/fr\/le-surapprentissage-et-la-regularisation\/","title":{"rendered":"Le surapprentissage et la r\u00e9gularisation"},"content":{"rendered":"<p>Cette s\u00e9rie d&rsquo;articles sur l&rsquo;apprentissage machine ne serait compl\u00e8te sans y couvrir le surapprentissage et la r\u00e9gularisation.<\/p>\n<h3>Le surapprentissage<\/h3>\n<p>L&rsquo;une des difficult\u00e9s rencontr\u00e9e lors de l&rsquo;application de techniques d&rsquo;apprentissage machine est le surapprentissage. Plus les techniques utilis\u00e9es sont puissantes (grand nombre de param\u00e8tres libres), plus nous sommes susceptibles au surapprentissage.<\/p>\n<p>Lors du surapprentissage, le mod\u00e8le diverge du principe du <a href=\"https:\/\/fr.wikipedia.org\/wiki\/Rasoir_d%27Ockham\">rasoir d&rsquo;Occam<\/a> en augmentant si bien son niveau de complexit\u00e9 qu&rsquo;il\u00a0finit par essentiellement m\u00e9moriser chaque d\u00e9tails de l&rsquo;ensemble d&rsquo;entra\u00eenement. Un mod\u00e8le surentrain\u00e9 peut donc\u00a0difficilement g\u00e9n\u00e9raliser sur de nouveaux cas.<\/p>\n<p>Heureusement, le surapprentissage peut \u00eatre contr\u00f4l\u00e9 \u00e0 l&rsquo;aide de diff\u00e9rentes techniques de r\u00e9gularisation afin de g\u00e9n\u00e9rer des mod\u00e8les plus parsimonieux.<\/p>\n<table style=\"width: 669px; height: 419px;\" align=\"center\">\n<tbody>\n<tr>\n<td style=\"width: 327.266px;\">\n<div class=\"mceTemp\">\n<div style=\"width: 310px\" class=\"wp-caption alignnone\"><a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/overfit.png\"><img decoding=\"async\" class=\"wp-image-3780 size-medium\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/overfit-300x300.png\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/overfit-66x66.png 66w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/overfit-150x150.png 150w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/overfit-200x200.png 200w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/overfit-300x300.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/overfit-400x400.png 400w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/overfit.png 600w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><p class=\"wp-caption-text\"><em>Cas typique de surapprentissage. La fonction g\u00e9n\u00e9r\u00e9e couvre tous les points de l&rsquo;ensemble d&rsquo;entra\u00eenement mais risque de mal g\u00e9n\u00e9raliser\u00a0<\/em><em style=\"font-family: inherit;\">sur de nouvelles donn\u00e9es.<\/em><\/p><\/div>\n<\/div>\n<\/td>\n<td style=\"width: 327.266px;\">\n<p><div id=\"attachment_3781\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/proper_fit.png\"><img decoding=\"async\" aria-describedby=\"caption-attachment-3781\" class=\"wp-image-3781 size-medium\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/proper_fit-300x300.png\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/proper_fit-66x66.png 66w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/proper_fit-150x150.png 150w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/proper_fit-200x200.png 200w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/proper_fit-300x300.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/proper_fit-400x400.png 400w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/proper_fit.png 600w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-3781\" class=\"wp-caption-text\"><em>Bien que cette fonction pr\u00e9sente une erreur plus \u00e9lev\u00e9e sur l&rsquo;ensemble d&rsquo;entra\u00eenement, elle offre une solution plus simple et g\u00e9n\u00e9raliste qui risque de mieux performer sur de nouvelles donn\u00e9es.<\/em><\/p><\/div><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3>La r\u00e9gularisation<\/h3>\n<p>\u00c0 la base, la r\u00e9gularisation tente de limiter le surapprentissage. Bien que certaines m\u00e9thodes de r\u00e9gularisation peuvent s&rsquo;av\u00e9rer tr\u00e8s complexes, certaines de ces m\u00e9thodes sont surprenamment simples et directes. Par exemple, un mod\u00e8le peut \u00eatre forc\u00e9 \u00e0 g\u00e9n\u00e9raliser simplement en limitant sa capacit\u00e9 (nombre de param\u00e8tres libres).<\/p>\n<h4>L&rsquo;arr\u00eat d\u00e9lib\u00e9r\u00e9<\/h4>\n<p>La m\u00e9thode de l&rsquo;arr\u00eat d\u00e9lib\u00e9r\u00e9 (<em>early stopping<\/em>), souvent utilis\u00e9e dans le cadre d&rsquo;un entra\u00eenement par <a href=\"https:\/\/bioinfo.iric.ca\/fr\/algorithme-du-gradient\/\">descente de gradient<\/a>, a comme but d&rsquo;arr\u00eater l&rsquo;entra\u00eenement lorsque le r\u00e9seau donne des signes de surapprentissage. Lors d&rsquo;un entra\u00eenement avec arr\u00eat d\u00e9lib\u00e9r\u00e9, une partie de l&rsquo;ensemble d&rsquo;entra\u00eenement est mise de c\u00f4t\u00e9 et utilis\u00e9e lors de l&rsquo;entra\u00eenement comme ensemble de validation. Cette ensemble de validation, cach\u00e9 du mod\u00e8le, offre un aper\u00e7u de la capacit\u00e9 de g\u00e9n\u00e9ralisation du mod\u00e8le au cours de l&rsquo;entra\u00eenement. L&rsquo;entra\u00eenement est arr\u00eat\u00e9 lorsque l&rsquo;erreur de l&rsquo;ensemble de validation commence \u00e0 augmenter.<\/p>\n<table align=\"center\">\n<tbody>\n<tr>\n<td>\n<p><div id=\"attachment_3785\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves.png\"><img decoding=\"async\" aria-describedby=\"caption-attachment-3785\" class=\"wp-image-3785 size-medium\" src=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves-300x300.png\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves-66x66.png 66w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves-150x150.png 150w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves-200x200.png 200w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves-300x300.png 300w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves-400x400.png 400w, https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves.png 600w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-3785\" class=\"wp-caption-text\"><em>Courbes d&rsquo;entra\u00eenement\u00a0pour l&rsquo;ensemble d&rsquo;entra\u00eenement (bleu) et l&rsquo;ensemble de validation (rouge). La ligne pointill\u00e9e indique le moment clef pour l&rsquo;arr\u00eat de l&rsquo;apprentissage o\u00f9 l&rsquo;erreur de l&rsquo;ensemble de validation (erreur de g\u00e9n\u00e9ralisation) cesse de diminuer et commence \u00e0 augmenter. <\/em><\/p><\/div><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h4>L1 \/ L2<\/h4>\n<p>La r\u00e9gularisation peut aussi s&rsquo;introduire dans <a href=\"https:\/\/bioinfo.iric.ca\/fr\/introduction_a_la_regression_lineaire\/\">la fonction de co\u00fbt<\/a>. Les normes L1 ou L2 sont des termes ajout\u00e9 \u00e0 la fonction de co\u00fbt en tant que terme de r\u00e9gularisation. L&rsquo;ajout de tels termes de r\u00e9gularisation \u00e0 la fonction de co\u00fbt est un concept tr\u00e8s populaire en apprentissage machine.<\/p>\n<p>La r\u00e9gularisation par norme L1 (<a href=\"https:\/\/fr.wikipedia.org\/wiki\/Lasso_(statistiques)\">Lasso<\/a>)\u00a0tente de minimiser la somme des diff\u00e9rences absolues entre valeurs r\u00e9elles et valeurs pr\u00e9dites ($\\theta_i$). Lin\u00e9aire, elle offre la possibilit\u00e9 au mod\u00e8le de facilement fixer un poids \u00e0 0 et peut donc, entre autres, faciliter la s\u00e9lection de caract\u00e9ristiques en for\u00e7ant une repr\u00e9sentation \u00e9parse (<em>sparse<\/em>).<\/p>\n<p style=\"text-align: left;\"><strong>$ L1 :\\lambda\\sum_{i=1}^n |\\theta_i| $<\/strong><\/p>\n<p>La r\u00e9gularisation par norme L2\u00a0(<a href=\"https:\/\/fr.wikipedia.org\/wiki\/R%C3%A9gularisation_de_Tikhonov\">Ridge \/\u00a0Tikhonov<\/a>) tente de minimiser la somme des carr\u00e9es des diff\u00e9rences entre valeurs r\u00e9elles et valeurs pr\u00e9dites ($\\theta_i$). Ce terme est, entre autres, plus rapide \u00e0 calculer que le terme L1. Exponentielle, elle promouvoit plut\u00f4t une repr\u00e9sentation diffuse et, de ce fait, performe g\u00e9n\u00e9ralement mieux que la L1.<\/p>\n<p style=\"text-align: left;\"><strong>$ L2 : \\lambda\\sum_{i=1}^n \\theta_i^2 $<\/strong><\/p>\n<p>Enfin, l&rsquo;ampleur de l&rsquo;effet du terme de r\u00e9gularisation est contr\u00f4l\u00e9 gr\u00e2ce \u00e0 un poids ($\\lambda$) plac\u00e9 \u00e0 l&rsquo;avant du terme.<\/p>\n<p>Voil\u00e0! J&rsquo;esp\u00e8re vous avoir inspir\u00e9 avec ce petit d\u00e9tour sur la probl\u00e9matique du surapprentissage et de quelques-unes des solutions offertes par r\u00e9gularisation. Comme toujours, restez \u00e0 l&rsquo;aff\u00fbt pour les prochaines mises \u00e0 jours dans cette s\u00e9rie d&rsquo;articles sur l&rsquo;apprentissage machine!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Cette s\u00e9rie d&rsquo;articles sur l&rsquo;apprentissage machine ne serait compl\u00e8te sans y couvrir le surapprentissage et la r\u00e9gularisation. Le surapprentissage L&rsquo;une des difficult\u00e9s rencontr\u00e9e lors de l&rsquo;application de techniques d&rsquo;apprentissage machine est le surapprentissage. Plus les techniques utilis\u00e9es sont puissantes (grand nombre de param\u00e8tres libres), plus nous sommes susceptibles au surapprentissage. Lors du surapprentissage, le mod\u00e8le diverge du principe du rasoir d&rsquo;Occam en augmentant si bien son niveau de complexit\u00e9 qu&rsquo;il\u00a0finit par essentiellement m\u00e9moriser chaque d\u00e9tails de l&rsquo;ensemble d&rsquo;entra\u00eenement. Un mod\u00e8le <a href=\"https:\/\/bioinfo.iric.ca\/fr\/le-surapprentissage-et-la-regularisation\/\"> [&#8230;]<\/a><\/p>\n","protected":false},"author":7,"featured_media":3785,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"footnotes":"","jetpack_publicize_message":"","jetpack_publicize_feature_enabled":true,"jetpack_social_post_already_shared":true,"jetpack_social_options":{"image_generator_settings":{"template":"highway","default_image_id":0,"font":"","enabled":false},"version":2}},"categories":[69,85],"tags":[],"class_list":["post-3759","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-analyse-de-donnees","category-apprentissage-automatique"],"jetpack_publicize_connections":[],"jetpack_featured_media_url":"https:\/\/bioinfo.iric.ca\/wpbioinfo\/wp-content\/uploads\/2017\/10\/error_curves.png","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3759","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/comments?post=3759"}],"version-history":[{"count":37,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3759\/revisions"}],"predecessor-version":[{"id":3812,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/posts\/3759\/revisions\/3812"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media\/3785"}],"wp:attachment":[{"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/media?parent=3759"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/categories?post=3759"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bioinfo.iric.ca\/fr\/wp-json\/wp\/v2\/tags?post=3759"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}