Aplicação de aprendizado por reforço ao problema de corte de estoque estocástico

Anselmo R. Pitombeira Neto, Vitória I.T. Mendonça

September 2020

PDF Projeto

Resumo

Propõe-se uma formulação do problema de corte de estoque estocástico como um processo de decisão markoviano de horizonte infinito descontado. Em cada época de decisão deve-se escolher as quantidades de itens a serem cortados em antecipação à demanda desconhecida. Uma solução ótima corresponde a uma política que associa a cada estado uma decisão de forma a minimizar o custo total esperado. Dado que algoritmos exatos são exponenciais com a dimensão do espaço de estados, propõe-se um algoritmo de iteração de política aproximada para a obtenção de uma política subótima. Emprega-se um modelo linear com uso de funções-base polinomiais e de Fourier para aproximar a função de valor. Realizam-se experimentos computacionais com uso de dados sintéticos para ilustrar a aplicação do algoritmo. Os resultados indicam a possibilidade de obtenção de políticas capazes de controlar adequadamente os estoques com custo médio menor do que o custo obtido por uma política míope.

Tipo

Artigo de conferência

Publicação

LII Simpósio Brasileiro de Pesquisa Operacional

cutting-stock problem reinforcement learning

Anselmo R. Pitombeira Neto

Departamento de Eng. de Produção/UFC

Professor de Pesquisa Operacional e líder do OPL. Seus interesses de pesquisa incluem a aplicação de modelagem e simulação estocástica, otimização matemática, aprendizado de máquina e métodos bayesianos a problemas em sistemas de produção e transportes.

Aplicação de aprendizado por reforço ao problema de corte de estoque estocástico

Resumo

Anselmo R. Pitombeira Neto

Departamento de Eng. de Produção/UFC

Relacionados