Summary: | A aprendizagem por reforço é uma aprendizagem por tentativa e erro, onde o agente, através da interacção com o ambiente, aprende a realizar uma tarefa com base em recompensas positivas e negativas. Este artigo pretende analisar o comportamento de um robô implementado com um sistema de aprendizagem por reforço cujo objectivo consiste em seguir uma linha. Para tal foi utilizado o robô educacional criado pela Lego, o NXT Mindstorms, implementado com o algoritmo Q-learning. Realizaram-se experiências com o propósito de determinar quais os valores óptimos das variáveis principais do algoritmo Q-learning (taxa de aprendizagem, o factor de desconto e a taxa de exploração), para que o robô tivesse um bom desempenho. Conclui-se que um robô implementado com um sistema de aprendizagem por reforço consegue aprender uma determinada tarefa em poucas iterações (passos).
|