next up previous contents index
suivant: Adaptation dynamique monter: Application à la robotique précédent: Architecture   Table des matières   Index


Apprentissage

L'apprentissage se fonde sur la corrélation entre les stimulations motrices imposées au robot et l'entrée visuelle.

La séquence mise en entrée motrice est de période 3, et vaut $ s_3=(5,6,7)$, ce qui correspond à la séquence de rotations ($ 30^\circ$, $ 60^\circ$, $ 90^\circ$). Après avoir effectué une fois la séquence, le robot a donc fait un demi-tour sur lui-même et regarde le mur opposé. (Deux séquences forment un tour complet) - voir figure [*] -.

Figure: Mouvements de rotation effectués par le robot.
\includegraphics[]{robot_rotation.eps}

Cette mise en \oeuvre de l'algorithme d'apprentissage se situe dans un contexte différent des simulations précédentes. Cette différence repose sur le fait que les perceptions dépendent à présent des actions produites au sein de l'environnement. Dans le cadre de cette expérimentation, une partie de la perception est imposé, sous forme de séquence d'ordres moteurs sur la couche primaire sensori-motrice, et une autre provient directement du monde perçu sur la couche primaire visuelle. Une partie de l'environnement perçu n'est plus sous le contrôle de l'expérimentateur, et se définit à partir des mouvements effectués.

Néanmoins, il nous a paru important de vérifier que le protocole mis en place permet bien de capter des éléments réguliers de l'environnement, et en particulier qu'une stimulation périodique doit correspondre à un défilement périodique des entrées visuelles. Il nous a ainsi semblé nécessaire de corriger pendant l'apprentissage les effets de la dérive du robot. En effet, lorsque l'on donne comme commande motrice ``tourner de $ \phi$ degrés'', le robot, du fait des frottements et de contraintes mécaniques, tourne en général d'un peu moins que l'ordre donné. C'est imperceptible sur un mouvement, mais en additionnant les erreurs, la dérive tend à devenir importante, de l'ordre de $ 30^\circ$ au bout d'une quinzaine de rotations. Pendant l'apprentissage, le robot est recalé dans la bonne direction par l'expérimentateur tous les demi-tours environ.

C'est au sein de cet environnement ``sans dérive'' que l'apprentissage prend place. Le système effectue son apprentissage dans un environnement un petit peu plus régulier que l'environnement qu'il aurait rencontré si on l'avait laissé tourner spontanément. Nous verrons plus loin les conséquences de ce choix sur le comportement du système après apprentissage.

Le robot est placé sur un repère, au milieu de la pièce. les poids du système sont initialisés. La dynamique du système est itérée sur 20 transitoires, avec une stimulation régulière sur la couche primaire motrice. Vu le temps que prend une itération (chaque pas de temps, qui correspond à la saisie d'une image, à la sélection de 5 amers et à un mouvement prend entre 10 et 15 secondes), nos expériences d'apprentissage se sont déroulées sur des temps beaucoup plus courts qu'en simulation. Pour l'expérience décrite, la dynamique d'apprentissage est alors itérée sur 20 pas de temps. Cet apprentissage correspond donc à seulement 6 séquences d'ordres moteurs, ce qui donne le temps de faire un peu plus de trois tours complets.


next up previous contents index
suivant: Adaptation dynamique monter: Application à la robotique précédent: Architecture   Table des matières   Index
Dauce Emmanuel 2003-05-07