Aluno: Matheus Vieira Portela
Orientador: Guilherme Novaes Ramos
Data e Horário: 4 de dezembro, 10:00
Local: Auditório - Prédio CIC/EST

Resumo: Agentes inteligentes agem baseados nas suas medições sensoriais a fim de alcançar seus objetivos. Em ambientes dinâmicos, como sistemas multiagentes, agentes devem adaptar seus processos de seleção de ações de acordo com o estado do sistema mutável, uma vez que comportamentos anteri-
ormente considerados adequados podem tornar-se sub-ótimos. Tal problema é ainda maior quando estocasticidade presente, uma vez que os agentes desconhecem o estado real do ambiente. Esse trabalho propõe um algoritmo de aprendizado por reforço para sistemas multiagentes estocásticos,
o qual utiliza programação bayesiana para estimação de estados e Q-learning com aproximação de funções para prover capacidades de aprendizado aos agentes, os quais aprendem a selecionar os comportamentos de direcionamento mais adequados. Experimentos indicam resultados positivos para a abordagem, onde agentes aprenderam a cooperar, de forma autônoma, em um jogo eletrônico estocástico multiagente.