Automated behavior learning for robotic soccer

No desenvolvimento de um agente inteligente e necess ario criar um conjunto de comportamentos, mais ou menos complexos, para que o agente possa escolher o que achar mais adequado para utilizar a cada instante. Comportamentos simples podem ser facilmente programados \ a m~ao", mas, a medida que...

ver descrição completa

Detalhes bibliográficos
Autor principal: Soares, Nádia Filipa de Jesus (author)
Formato: masterThesis
Idioma:eng
Publicado em: 2017
Assuntos:
Texto completo:http://hdl.handle.net/10773/17398
País:Portugal
Oai:oai:ria.ua.pt:10773/17398
Descrição
Resumo:No desenvolvimento de um agente inteligente e necess ario criar um conjunto de comportamentos, mais ou menos complexos, para que o agente possa escolher o que achar mais adequado para utilizar a cada instante. Comportamentos simples podem ser facilmente programados \ a m~ao", mas, a medida que se tentam criar comportamentos mais complexos esta tarefa pode tornar-se invi avel. Isto pode acontecer, por exemplo, em casos onde o espa co de estados, o espa co de a c~oes e/ou o tempo tomam valores cont nuos. E esse o caso no futebol rob otico, onde os rob^os se movem num espa co cont nuo, com velocidades e em tempo cont nuos. A aprendizagem por refor co permite que seja o agente a aprender um comportamento atrav es da sua experi^encia ao interagir com o mundo. Esta t ecnica baseia-se num mecanismo que ocorre na natureza, uma vez que imita a forma como os animais aprendem, mais concretamente, observando o estado do mundo, tomando uma a c~ao e observando as consequ^encias dessa a c~ao. A longo prazo, e com base nas consequ^encias das a c~oes tomadas, o animal aprende se, nessas circunst^ancias, a sequ^encia de a c~oes que o levaram a esse ponto e boa e pode ser repetida ou n~ao. Para que o agente aprenda da mesma forma, e preciso que consiga percecionar o valor que as suas a c~oes t^em a longo prazo. Para isso, e-lhe dada uma recompensa ou um castigo quando faz uma a c~ao desejada ou indesejada, respetivamente. Comportamentos aprendidos podem ser usados em situa c~oes em que e invi avel escrev^e-los a m~ao, ou para criar comportamentos com melhor desempenho uma vez que o agente consegue derivar fun c~oes complexas que descrevam melhor a solu c~ao do problema. No contexto desta tese foram desenvolvidos 3 comportamentos no contexto da equipa de futebol rob otico CAMBADA da Univeridade de Aveiro. O primeiro comportamento, o mais simples, consistiu em fazer o rob^o rodar sobre si pr oprio at e estar virado para uma dada orienta c~ao absoluta. O segundo permitia que o rob^o, com a bola na sua posse, a driblasse numa dire c~ao desejada. Por m, o terceiro comportamento permitiu que o rob^o aprendesse a ajustar a sua posi c~ao para receber uma bola que pode vir com mais ou menos velocidade e descentrada em rela c~ao ao receptor. Os resultados das compara c~oes feitas com os comportamentos desenvolvidos a m~ao que j a existiam na CAMBADA, mostram que comportamentos aprendidos conseguem ser mais e cientes e obter melhores resultados do que os explicitamente programados.