Aplicação de aprendizado por reforço ao problema de corte de estoque estocástico

Resumo

Propõe-se uma formulação do problema de corte de estoque estocástico como um processo de decisão markoviano de horizonte infinito descontado. Em cada época de decisão deve-se escolher as quantidades de itens a serem cortados em antecipação à demanda desconhecida. Uma solução ótima corresponde a uma política que associa a cada estado uma decisão de forma a minimizar o custo total esperado. Dado que algoritmos exatos são exponenciais com a dimensão do espaço de estados, propõe-se um algoritmo de iteração de política aproximada para a obtenção de uma política subótima. Emprega-se um modelo linear com uso de funções-base polinomiais e de Fourier para aproximar a função de valor. Realizam-se experimentos computacionais com uso de dados sintéticos para ilustrar a aplicação do algoritmo. Os resultados indicam a possibilidade de obtenção de políticas capazes de controlar adequadamente os estoques com custo médio menor do que o custo obtido por uma política míope.

Publicação
LII Simpósio Brasileiro de Pesquisa Operacional
Avatar
Anselmo R. Pitombeira Neto
Departamento de Eng. de Produção/UFC

Professor de Pesquisa Operacional e líder do OPL. Seus interesses de pesquisa incluem a aplicação de modelagem e simulação estocástica, otimização matemática, aprendizado de máquina e métodos bayesianos a problemas em sistemas de produção e transportes.

Relacionados