Ejemplo de los Robot Bombero
En esta sección
del blog, se hablará de un ejemplo del Q-learning, con la pretensión de
explicar un poco más la sección anterior referente al aprendizaje por refuerzo.
El siguiente
ejemplo se basa en dos robots que deben sincronizarse entre ellos para
controlar una manguera y poder apagar un fuego. El escenario de este ejemplo es
un tablero de 2x2, donde el origen de la manguera se encuentra en el centro del
tablero:
Para entender
mejor la imagen, hay que decir que la manguera se representa en rojo, los dos
robots son como cuadrados azules y el fuego como una estrella naranja. Los
robots han de localizar el fuego y desplazarse hasta el fuego sin enrollar la
manguera ni caer del tablero (En este ejemplo no se tiene en cuenta la
orientación del extremo de la manguera).
Si para resolver
este problema se usará un algoritmo genético, habría situaciones en las que la
manguera se enrollaría. Mediante la técnica Q-learning se consigue que el
sistema aprenda solo. Esta técnica tiene tres estados, el inicial, el “GOAL”
(cuando el algoritmo llega a una de las soluciones) y el “termination” (cuando
la respuesta es incorrecta).
Para ello, el
algoritmo hace uso de una matriz Q (s,a), que indica como de prometedor es una
acción dentro de un estado concreto, con ello se hacen diferentes simulaciones con
diferentes acciones hasta encontrar un resultado correcto.
Una vez se ha
encontrado una solución, se puede decir que ha acabado el proceso de
aprendizaje.
Comentarios
Publicar un comentario