TÉCNICA DE INTELIGÊNCIA ARTIFICIAL Q-LEARNING APLICADA NO PROBLEMA DO PÊNDULO INVERTIDO
Resumo
Este artigo foi redigido para apresentar uma implementação e estudo de caso da técnica de aprendizado Q-learning, aplicado na solução do problema pêndulo invertido, disponibilizado através do simulador CartPole-v0 pelo toolkit Gym. O trabalho fundamenta-se no desenvolvimento de um controlador, utilizando aprendizado por reforço, para o problema do pêndulo invertido, qual consiste em um pino ligado a um carro por um eixo onde o objetivo é equilibrar o pino utilizando apenas movimentos do carro. A elaboração do trabalho consiste na introdução da área da computação de Inteligência Artificial com o tópico de aprendizado por reforço, que descreve como agentes podem aprimorar seu comportamento por meio de estudo de suas próprias experiências. A segunda etapa baseia-se em um estudo da técnica de aprendizado por reforço q-learning desenvolvida por Watkins e apresentada em 1989 como variante de outra técnica chamada diferenças temporais. O objetivo desta técnica é ensinar ao agente uma política sobre que ações tomar e sobre quais circunstâncias. A terceira etapa baseia-se em um estudo do ambiente de desenvolvimento e interfaces do simulador do pêndulo invertido, disponibilizada pela biblioteca Gym que tem como objetivo oferecer ambientes para o teste de algoritmos de Inteligência Artificial com interfaces simples para a iteração com o ambiente. A quarta etapa consiste na implementação da técnica estudada no cenário escolhido visando a modelagem dos dados segundo análises empíricas, de forma a atender as características de ambos. Por fim, na quinta e última etapa, são apresentados os resultados obtidos, analisando diferentes taxas de aprendizado e quantidades de treinamento, e os resultados obtidos com as mesmas, bem como uma comparação entre tais e eleição das melhores métricas.
Downloads
Publicado
Edição
Seção
Licença
Submeto o trabalho apresentado como texto original à Comissão Editorial do XIII SEPE e concordo que os direitos autorais, a ele referente, se torne propriedade do Anais do XIII SEPE da UFFS.