next up previous contents index
suivant: Signaux incomplets et bruités monter: Apprentissage de séquences précédent: Séquences ambiguës   Table des matières   Index

Apprentissage de plusieurs séquences

Comme on l'a vu au chapitre 4, la couche dynamique est capable, après apprentissage, de produire un signal spécifique lorsqu'on la stimule avec l'entrée statique associée au cours du processus d'apprentissage. Cette propriété permet d'inscrire sur un même réseau plusieurs organisations dynamiques différentes, qui peuvent être activées à la commande.

Cette propriété peut bien sûr être exploitée sur le nouveau modèle. À chaque motif conditionnant $ D_m$ (gaussien, de moyenne $ \bar{D}=-0.4$ et d'écart-type $ \sigma _D=0.3$) on associe pour les besoins de l'apprentissage une séquence $ s_{m,\tau}$ que l'on projette sur la couche primaire lorsque le motif $ D_m$ est présent.

Pendant l'apprentissage, les associations $ (s_{m,\tau}, D_m)$ sont présentées les unes à la suite des autres, en laissant à chaque fois une soixantaine de transitoires, et en itérant la dynamique d'apprentissage sur une durée $ \tau_m$. Ce passage en revue de toutes les séquences compte comme une présentation, et correspond en tout à $ \sum_m\tau_m$ pas d'apprentissage. La valeur de $ n$ donne le nombre de présentations.

Pour l'exemple présenté, toutes les séquences apprises sont de période 6, et non ambiguës. De plus, les différentes séquences ne possèdent aucun neurone commun. Il y a en tout 10 séquences qui activent les neurones numérotés de $ 6(m-1)+1$ à $ 6m$. On a calé la taille de la couche primaire sur les caractéristiques des stimulations, soit $ N^{(1)}=60$, autrement dit tous les neurones de cette couche appartiennent à l'une ou l'autre des séquences. On autorise l'apprentissage sur tous les liens.

À l'issue de l'apprentissage, on calcule les taux de réussite en présentant successivement 10 séquences incomplètes qui stimulent un neurone sur 3, soit $ s_{m,6}'=(6(m-1)+1,0,0,6(m-1)+4,0,0)$, avec le motif $ D_m$ associé sur la couche dynamique. Le taux $ R_\mathrm{app}$ donne alors le rapport entre le nombre de réponses correctes et le nombre total de réponses testées. On compare ce taux avec le taux $ R_\mathrm{cond}$ que l'on obtient en stimulant le réseau avec $ s_{m,6}'$ et en mettant un mauvais motif conditionnant, appartenant cependant à l'ensemble utilisé. Le taux $ R_\mathrm{test}$ correspond comme précédemment au taux de réussite obtenu lorsque l'on réinitialise les poids afférents à la couche dynamique.

La figure [*] donne l'évolution de $ R_\mathrm{app}$, $ R_\mathrm{cond}$ et $ R_\mathrm{test}$ en fonction du nombre de présentations des séquences pendant l'apprentissage. La moyenne a été effectuée sur 10 réseaux pour chaque valeur de $ n$, au lieu de 50 dans le cas précédent, pour des raisons de temps de calcul (4 nuits sur Sparc 10). Ceci qui explique l'aspect plus accidenté de la courbe.

Figure: Évolution des taux de réussite avec le nombre de présentations, pour l'apprentissage de 10 associations entre un motif dynamique et un motif conditionnant. En ligne pleine : $ R_\mathrm{app}$. Pointillé long : $ R_\mathrm{cond}$. Pointillé fin : $ R_\mathrm{test}$. paramètres : $ N^{(1)}=60$, $ N^{(2)}=200$, $ g=8$, $ \alpha =0.1$.
\includegraphics[]{stat_drives.eps}

La courbe présente les mêmes caractéristiques que précédemment : on constate qu'il y a un nombre de présentations optimal au delà duquel la qualité de la réponse du réseau chute rapidement. Ce nombre optimal $ n_c^{(12)}$ est légèrement inférieur au nombre obtenu précédemment, de l'ordre de 30 à 40 itérations. Le taux de réussite maximal atteint est de l'ordre de 88%, et le taux moyen pour $ n$ entre 30 et 40 est de l'ordre de 80%. On peut penser, comme cela se confirme sur des exemples individuels d'apprentissage, que sur 10 motifs présentés, environ 8 sont bien reproduits.

On remarque que la chute du taux de réussite, lorsque $ n_c^{(12)}$, est dépassé est beaucoup plus ``catastrophique'' que sur les exemples précédents. Ce point illustre une sensibilité beaucoup plus prononcée à l'effet des activations parasites sur le signal retour. En effet, le test sur la réponse du réseau évalue le maximum sur les 60 signaux d'activation. Il suffit qu'un seul parmi les 60 neurones présente une activation parasite pour tout fausser. Dès lors que les poids retour atteignent des valeurs critiques, l'hétérogénéité sur les 60 sorties tend rapidement à faire chuter le taux de réussite.

Le comportement du taux $ R_\mathrm{cond}$, qui plafonne à 30% jusqu'à $ n_c^{(12)}$, montre que la présentation du mauvais motif conditionnant ne permet pas d'obtenir la bonne réponse. On voit donc que l'évocation de la séquence apprise est bien dépendante de la présence du motif statique asssocié pendant l'apprentissage. Seule la présence de ce motif permet de reconstituer la séquence apprise.

Le même système possède donc différents modes de fonctionnement dépendant des motifs conditionnants. À chaque motif conditionnant correspond une séquence de sortie privilégiée, que l'on peut activer ou désactiver à volonté. La couche dynamique tient bien le rôle de ``réservoir à dynamiques''.

On a représenté sur la figure [*] le comportement dynamique d'un réseau après un apprentissage où chaque association $ (D_m,s_{\tau_m})$ est présentée 40 fois au cours de l'apprentissage. Par ailleurs, les séquences ont une longueur variable, dont la période varie entre $ \tau_m=2$ et $ \tau_m=6$.

On a plus précisément $ s_{1,2}=(1,2)$, $ s_{2,3}=(3,4,5)$, $ s_{3,4}=(6,7,8,9)$, $ s_{4,5}=(10,11,12,13,14)$, $ s_{5,6}=(15,16,17,18,19,20)$, $ s_{6,2}=(21,22)$, $ s_{7,3}=(23,24,25)$, $ s_{8,4}=(26,27,28,29)$, $ s_{9,5}=(30,31,32,33,34)$ et $ s_{10,6}=(35,36,37,38,39,40)$. Après apprentissage, on présente successivement les $ m$ motifs $ D_m$ sur une durée de l'ordre de 100 pas de temps, et on regarde le signal d'activation des 40 premiers neurones de la couche primaire. Ces signaux d'activation sont représentés figure [*].

Figure: Signaux d'activation sur la couche primaire après apprentissage Chaque motif conditionnant (de 1 à 10) induit une organisation spatio-temporelle sur la couche dynamique qui se traduit par l'excitation via les poids retour des neurones correspondant aux séquences apprises. Pendant l'apprentissage : 40 présentations pour chacune des 10 séquence à apprendre. Apprentissage croisé. Paramètres : $ \alpha =0.1$, $ g=8$, $ N^{(1)}=40$, $ N^{(2)}=200$.
\includegraphics[]{raster_drives.eps}

Après apprentissage, la présentation du motif $ D_m$ tend à produire l'activation de la séquence associée sur la couche primaire (pour $ n=40$, on a donc dans ce cas légèrement dépassé la valeur critique). On voit qu'environ 7 séquences sur 10 sont nettement reproduites sur la couche primaire. On voit également qu'il existe quelques neurones parasites qui tendent à s'activer pour le mauvais motif conditionnant, et forment une sorte de bruit de fond sur le signal retour. Pour les motifs conditionnants 1, 6 et 8, l'activité de fond sur la couche primaire est essentiellement chaotique, et aucune séquence ne se dégage sur le signal retour.

Il faut noter que l'activité qui se développe sur la couche primaire est entièrement pilotée par la couche dynamique, puisqu'aucun signal n'est projeté sur la couche primaire. La seule information provient des motifs conditionnants, et porte sur la configuration spatiale des activations, qui sert donc de guide pour la mise en place du bon circuit d'activation.


next up previous contents index
suivant: Signaux incomplets et bruités monter: Apprentissage de séquences précédent: Séquences ambiguës   Table des matières   Index
Dauce Emmanuel 2003-05-07