Ejemplo de los Robot Bombero


En esta sección del blog, se hablará de un ejemplo del Q-learning, con la pretensión de explicar un poco más la sección anterior referente al aprendizaje por refuerzo.

El siguiente ejemplo se basa en dos robots que deben sincronizarse entre ellos para controlar una manguera y poder apagar un fuego. El escenario de este ejemplo es un tablero de 2x2, donde el origen de la manguera se encuentra en el centro del tablero:


Para entender mejor la imagen, hay que decir que la manguera se representa en rojo, los dos robots son como cuadrados azules y el fuego como una estrella naranja. Los robots han de localizar el fuego y desplazarse hasta el fuego sin enrollar la manguera ni caer del tablero (En este ejemplo no se tiene en cuenta la orientación del extremo de la manguera).
Si para resolver este problema se usará un algoritmo genético, habría situaciones en las que la manguera se enrollaría. Mediante la técnica Q-learning se consigue que el sistema aprenda solo. Esta técnica tiene tres estados, el inicial, el “GOAL” (cuando el algoritmo llega a una de las soluciones) y el “termination” (cuando la respuesta es incorrecta).
Para ello, el algoritmo hace uso de una matriz Q (s,a), que indica como de prometedor es una acción dentro de un estado concreto, con ello se hacen diferentes simulaciones con diferentes acciones hasta encontrar un resultado correcto.
Una vez se ha encontrado una solución, se puede decir que ha acabado el proceso de aprendizaje.
 

Comentarios

Entradas populares de este blog

Aprendizaje por Refuerzo (Reinforcement Learning)

Tarea del TEMA 3: Estación Meteorológica

Resumen de la primera clase del TEMA 3