Home   |   Structure   |   Research   |   Resources   |   Members   |   Training   |   Activities   |   Contact

EN | PT

BrBRCEEn0101-74382001000200003

BrBRCEEn0101-74382001000200003

National varietyBr
Year2001
SourceScielo

Javascript seems to be turned off, or there was a communication error. Turn on Javascript for more display options.

UM MODELO MARKOVIANO DE DECISÃO PARA A OTIMIZAÇÃO DE UM SISTEMA DE MANUTENÇÃO COM TEMPOS DE REPARO COXIANOS E FASES NÃO OBSERVÁVEIS

1. Introdução O crescimento do processo produtivo e a busca da diminuição dos custos de produção têm incentivado o estudo de sistemas de manutenção de máquinas. Estes sistemas são intrinsecamente estocásticos devido à aleatoriedade inerente aos processos de falhas. Dentre os sistemas estocásticos, os markovianos merecem um lugar de destaque devido à sua relativa facilidade de tratamento matemático e computacional. Atualmente, dispõe-se de resultados teóricos e de recursos computacionais que permitem a aplicação dos processos markovianos na modelagem de sistemas do porte de sistemas reais. Os processos markovianos podem ser considerados a tempo discreto ou a tempo contínuo. Nos dois casos, deve-se garantir a propriedade da ausência de memória que caracteriza esses processos.

Esta propriedade pode ser resumida em o comportamento probabilístico futuro do processo ser condicionalmente independente do comportamento passado, dado o estado presente.

Alguns sistemas estão sujeitos a um controle dinâmico onde um supervisor deve observar continuamente o estado corrente do sistema e decidir sobre uma ação que influenciará o comportamento futuro do sistema. Periodicamente ou a cada mudança de estado (instantes de decisão) uma nova ação deve ser escolhida dentre um conjunto de ações disponíveis para cada estado observado. Uma regra que dita a forma com que as ações devem ser escolhidas ao longo do tempo define uma política de controle para o sistema em estudo. No caso dos sistemas estocásticos, sob a hipótese da ausência de memória, este tipo de controle dinâmico caracteriza o sistema como um processo markoviano de decisão (PMD). A modelagem de sistemas por PMD permite a obtenção de uma política de controle que minimiza o custo do sistema.

Nos modelos a tempo contínuo, uma hipótese necessária para se garantir a propriedade de ausência de memória dos processos markovianos é que o tempo de permanência do sistema em cada estado seja aleatório e exponencialmente distribuído. Geralmente, na literatura sobre modelos estocásticos de sistemas de manutenção, admite-se esta hipótese tanto para os tempos até a quebra de máquinas quanto para os tempos de reparo. No entanto, principalmente em relação aos tempos de reparo, esta hipótese nem sempre é verificada na prática.

Trabalhando sobre dados de manutenção de centros de usinagens e robôs, Carvalho (1991) verificou que, para os dados tratados, a hipótese de tempos até a quebra de máquinas exponencialmente distribuídos foi aceitável mas o mesmo não ocorreu para os tempos de reparo.

Nos casos onde as variáveis aleatórias exponenciais negativas não modelam bem os processos reais, uma boa alternativa é o uso de distribuições do tipo fase (distribuições PH). Em Neuts (1981), define-se uma variável aleatória do tipo fase como uma variável aleatória positiva que pode representar o tempo até a absorção numa cadeia de Markov a tempo contínuo composta de um número finito de estados transitórios (fases) e um único estado absorvente. Estas variáveis aleatórias generalizam as variáveis aleatórias exponenciais negativas e podem ser facilmente inseridas em modelos markovianos a tempo contínuo. Para inseri- las nestes modelos, deve-se acrescentar ao espaço de estados do modelo a informação sobre a fase corrente de cada processo modelado por uma variável aleatória do tipo fase.

Nos modelos markovianos de decisão a tempo contínuo, pode-se utilizar o mesmo procedimento acima. No entanto, em cada instante de decisão, deve-se observar o estado corrente do sistema e tomar uma decisão em função do estado observado.

Nesses processos, ao se introduzir no espaço de estados as informações sobre a fase corrente das variáveis do tipo fase introduzidas no modelo, pode-se considerar as fases observáveis para se garantir a propriedade markoviana do processo. Assim, se é possível observar as fases correntes das variáveis aleatórias do tipo fase do modelo e dado que o tempo de permanência do sistema em cada fase é exponencial, este sistema é facilmente modelado por um processo markoviano de decisão a tempo contínuo (Rodrigues, 1990).

Desde sua formalização em Neuts (1981), a teoria das distribuições PH tem evoluído continuamente. Um importante resultado teórico apresentado em Cumani  (1982) é que qualquer distribuição PH acíclica, ou seja, que é a soma ou mistura (combinação convexa) de distribuições exponenciais negativas, pode ser reduzida à configuração de Cox (Figura_1). Em O'Cinneide (1991), este resultado é estendido a qualquer distribuição PH onde os auto-valores da matriz geradora das transições entre os estados transitórios são reais.

Uma distribuição PH de ordem N com configuração de Cox é definida pelos parâmetros {N; l1, l2,...,lN; p1, p2,..., pN-1}, onde N é o número de estados transitórios, li, i = 1, 2,..., N, são as taxas de transições das fases e pié a probabilidade do processo ir da fase i para a próxima fase; o processo vai diretamente para o estado absorvente com probabilidade 1 -  pi, i = 1, 2,..., N'1.

Note que uma distribuição PH com configuração de Cox é um caso particular da distribuição proposta em Cox (1956). Nesse trabalho, Cox considerou que os parâmetros da distribuição mostrada na Figura 1 podem ser complexos.

Quando distribuições PH são obtidas através da aproximação de outras distribuições positivas arbitrárias e são inseridas em processos markovianos de decisão, as fases destas distribuições não são observáveis (por terem sido obtidas a partir de um artifício matemático). Neste caso, a teoria clássica dos processos markovianos de decisão não pode ser aplicada.

Com este trabalho tem-se como objetivo estudar um sistema de manutenção de máquinas considerando os tempos de reparo distribuídos segundo uma distribuição PH com configuração de Cox, a qual, por simplificação, será chamada por todo o texto de distribuição PH. Generalizam-se trabalhos anteriores dos autores, utilizando-se um modelo baseado em processos markovianos de decisão com informação parcial para a otimização do sistema sem considerar as fases observáveis.

O sistema de manutenção estudado é composto de um número finito de máquinas idênticas na linha de produção, um número finito de máquinas de reserva e uma estação de reparo com dois servidores. O tempo até a quebra de cada máquina é exponencial e os tempos de reparo seguem uma distribuição PH que depende do servidor que está executando o reparo. Os servidores se diferenciam por um ser mais rápido do que o outro, em média, e pelo custo de sua utilização. Deseja-se escolher entre não ativar nenhum servidor, ativar somente o servidor 1, ativar somente o servidor 2 ou ativar ambos os servidores, em função do estado do sistema, de maneira a minimizar o custo médio por unidade de tempo do sistema a longo prazo.

Considerando-se a possibilidade ou não de se observar as fases das distribuições PH, modela-se o sistema de manutenção de máquinas em estudo, respectivamente, por um processo markoviano de decisão a tempo contínuo (modelo com informação completa) e por um processo markoviano de decisão com informação parcial (modelo com informação parcial), na forma que este é definido em Hordijk & Loeve (1994).

Os processos markovianos de decisão com informação parcial são construídos a partir de processos markovianos de decisão, onde o espaço de estados é particionado e as decisões são tomadas com base apenas no elemento da partição em que se encontra o estado corrente do sistema. Hordijk & Loeve (1994) apresentam um algoritmo do tipo aproximação sucessivas que encontra políticas markovianas sub-ótimas para modelos a tempo discreto (os tempos entre decisões são eqüidistantes) sob o mesmo critério de otimalidade adotado neste trabalho, ou seja, o custo esperado médio a longo prazo. Este algoritmo por todo o texto será chamado de Algoritmo HL.

A apresentação deste trabalho está dividida em seis seções. Na Seção 2, descreve-se o sistema de manutenção em estudo que é modelado como um processo markoviano de decisão (modelo com informação completa). Os processos markovianos de decisão com informação parcial e o Algoritmo HL são apresentados na Seção 3. Na Seção 4 modela-se o sistema de manutenção em estudo por um processo markoviano com informação parcial (modelo com informação parcial). Na Seção 5, comparam-se os modelos utilizando-se um conjunto de dados numéricos.

Comentários são apresentados na Seção 6.

2. Sistema de Manutenção em Estudo O sistema de manutenção estudado é composto de uma linha de produção com M máquinas idênticas e independentes trabalhando em paralelo e Mr máquinas de reserva idênticas às da linha de produção. Quando uma máquina na linha de produção quebra, ela é enviada à estação de reparo e substituída imediatamente por uma máquina de reserva, se existir alguma disponível.

A estação de reparo dispõe de dois servidores. Cada servidor poderá consertar uma máquina quebrada de cada vez, portanto no máximo duas máquinas serão atendidas simultaneamente. O servidor não pode ficar ocioso se estiver ativado e houver máquina quebrada esperando reparo.

O tempo até a falha das máquinas em operação é exponencialmente distribuído com taxa l; as máquinas de reserva não estão sujeitas a falha enquanto não forem utilizadas. À medida que as máquinas quebram, elas são enviadas à estação de reparo, formando uma fila com disciplina FIFO (first in, first out).

O tempo de reparo de cada máquina executado pelo servidor k, k = 1, 2, segue uma distribuição PH de ordem nk com taxas {mkf, k = 1, 2;f = 1, 2..., nk} e probabilidades {pkf, k = 1, 2; f = 1, 2,..., nk}, onde k é o servidor que está reparando a máquina e f a fase de reparo. Assim, como o reparo executado pelo servidor ktem nk fases de reparo, k = 1, 2, se este estiver na fasef < nk, com probabilidade 1 ' pkf o reparo terminará logo após o término da fase corrente e com probabilidade pkf a máquina passará para a fase de reparo seguinte. Supõe- se que o servidor 2 seja mais rápido em média que o servidor 1. Na Figura 2 apresenta-se uma representação do sistema em estudo.

Como o tempo até a falha das máquinas é exponencial e o tempo de reparo tem distribuição PH, que é constituída de fases exponenciais, é possível modelar este sistema segundo um processo markoviano de decisão a tempo contínuo.

Observa-se o estado do sistema nos instantes de quebra de máquina e final de fase de reparo e, com base nesta observação, uma ação deve ser tomada. Um conjunto de ações forma a política que controla o sistema, ou seja, a política que determina em cada instante de decisão a ativação ou a desativação de cada servidor.

Em cada instante de decisão, o estado do sistema é definido pelo conjunto de valores (m, r, q, s1, s2, f1, f2) que são, respectivamente, o número de máquinas na linha de produção, o número de máquinas de reserva, o número de máquinas quebradas, o estado em que se encontra o servidor 1, o estado em que se encontra o servidor 2, a fase de reparo do servidor 1 e a fase de reparo do servidor2. O estado de cada servidor k é dado por sk Î {D, Ao, Ae}, k = 1, 2, onde D significa desativado, Ao significa servidor ativado mas ocioso (ou imediatamente após um final de reparo) e Ae significa servidor ativado executando um reparo. A fase de reparo do servidor k é definida por fk Î {0, 1,..., nk}, onde os valores de 1 até nk significam as fases em curso do reparo executado pelo servidork, e fk = 0 significa que o servidor k está ocioso ou desativado. É importante ressaltar que ser ¹0, então m = M, isto porque, se existe máquina de reserva disponível, a linha de produção não pode estar incompleta. Considera-se que, se o servidor k terminou um reparo, seu estado passa a ser sk = Ao, para k = 1, 2. Então, se * q = 0, s1 = Ao e s2 = Ao, tem-se que ambos os servidores estão ociosos porque não existem máquinas quebradas para serem consertadas; * q = 1, s1 = Ao e s2 = Ao, significa que um servidor está ocioso porque terminou um reparo e o outro servidor está ocioso pois não existem máquinas para serem consertadas; * q  > 1 e (s1 = Ao ou s2 = Ao), significa que o servidor k, k = 1ou k = 2, cujo estado é Ao, ou seja, sk = Ao, está ocioso porque terminou um reparo.

Considera-se que o espaço de estados do sistema é dado por: E={(m,r,q,s1,s2,f1,f2)/ m = 0, 1,..., M; r = 0, 1,..., Mr; q = 0, 1,..., M + Mr; s1Î {D, Ao, Ae}; s2Î{D, Ao, Ae}; f1Î{0,...,n1}; f2Î {0,...,n2}; m + r + q = M + Mr; m = M se r > 0; se s1Î {D, Ao} então f1 = 0; se s2Î {D, Ao} então f2 = 0; se s1 = Ae então f1¹ 0; se s2 = Ae então f2¹ 0; se q = 0 então s1¹ Ae e s2¹ Ae; se q = 1 então ((se s1 = Ae então s2¹ Ae) ou (se s2 = Ae então s1¹ Ae)); se q>1 então ((se s1 = Ao então s2¹ Ao) ou (se s2 = Ao então s1¹ Ao))}.

O comportamento dinâmico do sistema é descrito pelas mudanças de estado ao longo do tempo. Cada vez que o sistema muda de estado, deve-se observar o novo estado atingido e decidir sobre ativar ou não cada servidor k, k = 1, 2, em função do estado observado. Cada ação é representada por um par ordenado (a1,a2) onde, para k = 1, 2, ak = A significa ativar ou manter ativado o servidor k e ak = N significa desativar ou manter desativado o servidor k. O espaço de ações possíveis é A = {(A,A), (A,N), (N,A), (N,N)}. Por simplificação, em todo o texto, a ação representada pelo par ordenado (a1,a2) será denotada por a1a2.

Considera-se que se todas as máquinas do sistema estão quebradas, ou seja, se q = M+Mr, a ação a = NN não é uma ação possível pois levaria a um estado absorvente. Considera-se, também, que se não existem máquinas quebradas, uma máquina quebra e a ação a = AA é escolhida, o servidor 2 (mais rápido) tem prioridade para consertar a máquina que quebrou.

A estrutura de custos do sistema inclui um custo de perda de produção dado pelo produto da taxal (l >  0) pela quantidade de máquinas faltando para completar o número máximo M de máquinas na linha de produção; um custo de executar um reparo à taxa ek (ek > 0) quando o servidor k estiver reparando uma máquina, k = 1, 2; um custo de espera no sistema de reparo dado pelo produto da taxa h (h >  0) pelo número de máquinas quebradas no sistema de reparo (incluindo a máquina que está sendo reparada); um custo à taxa cmk (cmk > 0) de manter o servidork ativado, k = 1, 2, e um custo fixo cak (cak > 0) de ativar o servidor k, k = 1, 2.

Deseja-se obter uma política estacionária f*que minimize o custo médio por unidade de tempo do sistema a longo prazo. Para obtenção desta política, utilizou-se o Algoritmo de Iteração de Valores (Tijms, 1994).

2.1 Processos semi-markovianos de decisão e processos markovianos de decisão a tempo contínuo Considera-se um processo estocástico onde um supervisor, em instantes de decisão, deve observar o processo, classificá-lo em um estado i pertencente a um espaço de estados E e decidir sobre uma ação pertencente a um conjunto de ações A(i) possíveis para o estado observado. Este processo de decisão é um processo semi-markoviano de decisão (PSMD) se o tempo até o próximo instante de decisão, o estado em que o sistema estará nesse instante e o custo incorrido até esse instante são aleatórios e dependentes somente do estado observado e da ação escolhida.

Um PSMD deve ser controlado por uma política que escolhe a ação a ser tomada em cada instante de decisão. Uma política corresponde à aplicação seqüencial de regras de decisão que prescrevem a ação a ser escolhida em cada instante de decisão t. De forma geral, uma política de controle pode ser escrita como R =  (f 0, f 1, f 2, ...), onde f t, t = 0, 1, 2, ..., é a regra de decisão a ser aplicada no instante de decisão t. Consideram-se políticas markovianas estacionárias determinísticas, ou seja, políticas que prescrevem em cada instante de decisão uma ação que depende apenas do último estado observado, sem considerar o comportamento do processo no passado. Uma política desse tipo é construída a partir de uma regra de decisão f :  A, ondeÈiÎEA(i),tal que, se o estado observado é i Î E, então uma única ação f(i) Î A(i) é escolhida, independente do instante de decisão corrente t. Uma política markoviana estacionária determinística R, caracterizada pela regra de decisão f, prescreve a ação f(i) sempre que o estado i for observado. Denota-se tal política R = (f, f, f, ...) ou R = (f )¥.

Para um PSMD, dado que em um instante de decisão o sistema está no estado i Î E e a ação a Î A(i) foi escolhida, definem-se: ti(a)= tempo esperado até o próximo instante de decisão; pij(a)= probabilidade de que no próximo instante de decisão o sistema estará no estado j; Ci(a)= custo esperado incorrido até o próximo instante de decisão.

O problema da otimização de um PSMD consiste em obter uma política de controle que otimiza o processo. No presente trabalho, considera-se como critério para a otimalidade a minimização do custo esperado médio a longo prazo do processo.

Para escrever a expressão deste custo, define-se Z(t) como o custo total incorrido até o instante t(t ³0). Para uma política de controle R e para um estado inicial i, define-se o custo esperado médio a longo prazo do processo sob esta política como:

onde Ei,R corresponde ao operador valor esperado quando o estado inicial é i e a política R é usada. Tijms (1994) mostrou que o limite acima existe e que no caso unichain, ou seja, quando sob a política R o processo possui um único conjunto fechado de estados, o custo gi(R) é independente do estado inicial i e pode ser denotado porg(R).

Para os PSMD, é provado (Tijms, 1994) que existe uma política markoviana estacionária determinística R* ótima, ou seja, que minimiza o custo esperado médio do sistema a longo prazo dentro do espaço de políticas de controle possíveis.

Quando o sistema é controlado por uma política markoviana estacionária determinística R fixada, pode-se considerar a cadeia de Markov imersa no processo {X0, X1, X2 ,...}. Esta cadeia representa a seqüência de estados visitados pelo processo, ou seja, X0 é o estado inicial do processo e, para n = 1, 2,..., Xné o estado atingido pelo processo logo após a n-ésima transição. Esta cadeia de Markov tem o mesmo espaço de estados do processo original e probabilidades de transição dadas por pij(Ri), onde Ri é a ação prescrita pela política R para o estado i. Se sob a política R, a cadeia de Markov imersa no processo é unichain, então esta possui probabilidades limites denotadas {(R), i ÎE}. Tijms (1994) mostra que o custo g(R)pode ser escrito como:

A expressão do custo de uma política R, em função das probabilidades limites da cadeia de Markov imersa no processo, não é utilizada no Algoritmo de Iteração de Valores considerado neste trabalho para a obtenção de uma política R* de custo mínimo. Apesar disto, esta é importante porque pode facilmente ser estendida para a obtenção de medidas de desempenho do sistema sob esta política. De forma geral estas medidas representam o valor esperado médio de "funções de estado" definidas de forma análoga aos custos.

O tratamento computacional do modelo baseado num PSMD apresentado neste trabalho pode ser resumido em três partes: (1) obtenção de uma política de controle markoviana estacionária determinística ótima pelo Algoritmo de Iteração de Valores apresentado em Tijms (1994); (2) cálculo das probabilidades limite da cadeia de Markov imersa no processo quando a política de controle ótima é utilizada e (3) cálculo de medidas de desempenho do processo sob a política de controle ótima baseado nas probabilidades limite calculadas.

Mais especificamente, o modelo apresentado neste trabalho baseia-se num processo markoviano de decisão a tempo contínuo (PMDTC). Os PMDTCs são casos particulares dos PSMD onde o tempo entre decisões sucessivas são exponencialmente distribuídos com parâmetro dependente do último estado observado. Para estes processos, define-se Lij(a) como a taxa de transição do estado i ao estado j (i, j ÎE), quando a última ação escolhida foi a Î A(i). A partir das taxas de transição, obtém-se facilmente a taxa total de saída de cada estado dada por Li(a) = åj¹i Lij(a). Note que Li(a) é o parâmetro da distribuição exponencial negativa que descreve o tempo de permanência no estado i quando a ação a é escolhida. A partir das taxas de transição, as probabilidades de transição são dadas por pij(a) = Lij(a)/Li(a) e o tempo esperado entre transições é dado por ti(a) = 1/Li(a). Assim, um PMDTC pode ser caracterizado pelo espaço de estados E, pelos conjuntos de ações A(i), pelas taxas de transição Lij(a) e pelos custos Ci(a).

O tratamento matemático e computacional dos PMDTCs é idêntico àquele dos PSMDs.

Na prática, a diferença entre esses dois processos se encontra na forma que são construídos. Geralmente, para um PSMD, a obtenção das probabilidades de transição pij(a) e dos custos Ci(a) envolve a teoria das renovações (Çinlar, 1975) e dificilmente os cálculos efetuados para um modelo podem ser diretamente reutilizado num outro modelo. Por outro lado, as probabilidades de transição e os custos necessários à construção de um PMDTC possuem expressões simples. A construção de um PMDTC permite o uso direto de uma modelagem por eventos, onde cada taxa de transição Lij(a) está associada a um evento.

A seguir, apresentam-se dois casos particulares que ilustram o raciocínio usado no cálculo das taxas de transição.

Se em um instante de decisão o sistema está no estado: i) i = (M, Mr, 0, Ao, D, 0, 0) com Mr ³ 1, o único evento possível é a quebra de uma máquina. Assim, o número de máquinas quebradas, que era zero, aumenta de uma unidade e o número de máquinas de reserva diminui de uma unidade. Neste caso, se a ação escolhida for: 1)a = AA, ambos os servidores são ativados, então s1 = Ao e s2 = Ae, o servidor 2 começa a consertar a máquina quebrada, f2 = 1, e o servidor 1 fica ativado mas ocioso, f1 = 0.

O estado do sistema passa a ser j1 = (M, Mr '1, 1, Ao, Ae, 0, 1).

2) a = NA, o servidor 1 é desativado, s1 = D e f1 = 0, enquanto o servidor 2 conserta a máquina, s2 = Ae e f2 = 1, o estado do sistema passa a ser j2 =  (M, Mr'1, 1, D, Ae, 0, 1).

3) a = AN, o servidor 1 começa a consertar a máquina quebrada, s1 = Ae e f1 = 1,o servidor 2 é desativado, s2 = D e f2 = 0, e o estado do sistema passa a ser j3 =  (M, Mr'1, 1, Ae, D, 1, 0).

4) a = NN, ambos os servidores são desativados,s1 = D, s2 = D, f1 = 0 e f2 = 0, e o estado do sistema passa a ser j4 = (M, Mr'1, 1, D, D, 0, 0).

A taxa de transição do estado i para j1, j2, j3 ou j4éMl.

ii) i = (0, 0, M+Mr, Ae, Ae, f1, f2) com M+Mr ³ 2, 0 < f1 < n1 e 0 < f2 < n2, dois eventos podem ocorrer: o final de um reparo ou a mudança de fase de reparo de uma das máquinas que está sendo consertada. Se ocorrer o final de um reparo, o número de máquinas quebradas diminui de uma unidade, o número de máquinas na linha de produção aumenta de uma unidade e a fase de reparo do servidor que terminou o reparo passa a ser zero. Caso contrário, apenas o reparo que mudou de fase é acrescido de uma unidade. Assim, se a ação escolhida é: 1)a = AA mantém ativados ambos os servidores. Neste caso, existem as seguintes possibilidades: * servidor 1 pode acabar o reparo da máquina, s1 = Ao e f1 = 0, e o estado do sistema passa a ser j1 = (1, 0, M+Mr'1, Ao, Ae, 0, f2) com taxa de transição Lij(a) = (1- p1f1)m1f1; * o servidor 2 pode terminar o reparo, s2 = Ao e f2 = 0, e o estado do sistema passa a ser j3 = (1, 0, M+Mr-1, Ae, Ao, f1, 0) com taxa de transição (1'p2f2)m2f2; * o reparo executado pelo servidor 1 pode mudar de fase, e o estado do sistema passa a ser j2 = (0, 0, M+Mr, Ae, Ae, f1+1, f2) com taxa de transição Lij(a) = p1f1m1f1; * o reparo executado pelo servidor 2 pode mudar de fase, e o estado passa a ser j4 =  (0, 0, M+Mr, Ae, Ae, f1, f2+1) com taxa de transição p2f2m2f2.

2) a = AN mantém ativado o servidor 1 e desativa-se o servidor 2, s2 = D e f2 = 0. Então, existem as seguintes possibilidades: * o reparo executado pelo servidor 1 termina, s1 = Ao e f1 = 0, e o estado passa a ser j5 = (1, 0, M+Mr'1, Ao, D, 0, 0) com taxa de transição Lij(a) = (1-p1f1)m1f1; * reparo executado pelo servidor 1 muda de fase e o estado passa a ser j6 =  (0, 0, M+Mr, Ae, D, f1+1, 0) com taxa de transição p1f1m1f1.

3) a = NA desativa-se o servidor 1, s1 = D e f1 = 0, e mantém ativado o servidor 2. Então, existem as seguintes possibilidades: * reparo executado pelo servidor 2 termina, s2 = Ao e f2 = 0, e o estado passa a ser j7 =  (1, 0, M+Mr'1, D, Ao, 0, 0) com taxa de transição (1'p2f2)m2f2; * reparo executado pelo servidor 2 muda de fase e o estado passa a ser j8 =  (0 0, M+Mr, D, Ae, 0, f2+1) com taxa de transição p2f2m2f2.

O custo esperado entre decisões Ci(a) é composto por todos os custos acarretados ao sistema. Assim,

onde Cl(i,a), Ce(i,a), Ch(i,a), Cm1(i,a), Cm2(i,a), Ca1(i,a) e Ca2(i,a) são, respectivamente, os custos esperados de perda de produção, de reparo, de espera no sistema de reparo, de manter o servidor 1 ativado, de manter o servidor 2 ativado, de ativar o servidor 1 e de ativar o servidor 2 incorridos até o próximo instante de decisão, dado que o estado i = (m, r, q, s1, s2, f1, f2) ÎE e a ação a Î A(i) foi adotada.

Suponha que o sistema está no estado i = (m, r, q, s1, s2, f1, f2). Se q > Mr, isto significa que faltam q ' Mrmáquinas na linha de produção. Então, tem-se que o custo esperado de perda de produção é dado pelo produto entre a taxa de perda de produção, o número de máquinas que faltam na linha de produção e o tempo esperado até a próxima decisão. Ou seja,

Se q > 0 e a ação escolhida é a = AN, ou seja, ativa-se o servidor 1 e desativa-se o servidor 2, o custo esperado de reparo é dado pelo produto entre a taxa de execução de reparo do servidor 1 e o tempo esperado até o próximo instante de decisão. Analogamente, se q > 0 mas escolhe-se a ação a = NA, o custo esperado de reparo é o produto entre a taxa de execução de reparo do servidor 2 e o tempo esperado até o próximo instante de decisão. Se q > 1 e a = AA, tem-se que o custo esperado de reparo é dado pelo produto entre a taxa de execução de reparo do servidor 1 somada a taxa de reparo do servidor 2 e o tempo esperado até o próximo instante de decisão. Finalmente, se q = 1 e a ação escolhida é a = AA, ou seja, ambos os servidores são ativados, tem-se que o custo esperado de reparo é o produto entre a taxa de execução de reparo do servidor que está realizando o reparo e o tempo esperado até o próximo instante de decisão. Então,

Se q > 0, ou seja, se existem máquinas quebradas, o custo médio de espera no sistema de reparo é dado pelo produto entre a taxa de espera no sistema, o número de máquinas quebradas no sistema de reparo (incluindo a máquina em reparo) e o tempo esperado até o próximo instante de decisão. Assim, tem-se que:

Se a ação escolhida é a = AA ou a = AN, ou seja, ativa-se o servidor 1, o custo esperado de manter o servidor 1 ativado é dado pelo produto entre a taxa de manter o servidor 1 ativado cm1 e o tempo esperado até o próximo instante de decisão. Logo,

Se a ação escolhida é a = AA ou a = NA, o custo esperado de manter o servidor 2 ativado é dado pelo produto entre a taxa de manter o servidor 2 ativado cm2 e o tempo esperado até o próximo instante de decisão. Logo,

O custo de ativar o servidor 1, Ca1(i,a), assume o valor fixo ca1quando o servidor 1 está desativado e a ação escolhida prescreve sua ativação. Ou seja,

Analogamente, o custo de ativar o servidor 2, Ca2(i,a), assume o valor fixo ca2 quando o servidor 2 está desativado e a ação escolhida prescreve sua ativação.

Então,

3. Processo Markoviano de Decisão com Informação Parcial Neste trabalho, para modelar o sistema em estudo, quando não é possível observar as fases das distribuições PH, utilizam-se processos markovianos de decisão com informação parcial. Nestes processos, o espaço de estados E é particionado em subconjuntos {E1, E2,..., Ek}, onde e Ei Ç Ej = Æsei ¹j,tal que no instante de decisão a única informação disponível é o subconjunto Ej no qual o estado está contido.

Observa-se Es, s = 1, 2,..., k, e escolhe-se uma ação, ou seja, para todos os estados pertencentes ao subconjunto Esobservado a mesma decisão é tomada. Isto segue para todos os subconjuntos de estados pertencentes à partição. A regra de decisão que satisfaz esta condição é chamada markoviana admissível ou, simplesmente, admissível.

Uma regra de decisão markoviana depende apenas do estado corrente, ou seja, ela determina, para cada estado i Î E, que ação a Î A(i) deve ser escolhida se o estado i for observado no instante de decisão t. Logo, em cada instante de decisão t, a regra de decisão pt é um elemento do conjunto P, onde P é o conjunto de regras de decisão markovianas aleatórias dado por:

e denota-se por F o conjunto de todas as regras de decisão markovianas determinísticas:

onde A=<formula/>.

Uma regra de decisão aleatória admissível p e uma regra de decisão admissível determinística f são, respectivamente, elementos dos conjuntos:

onde o conjunto de ações possíveis é A=<formula/>.

Além das políticas estacionárias consideradas no modelo com informação completa, no modelo com informação parcial deve-se considerar as políticas markovianas periódicas. As políticas markovianas periódicas formam uma subclasse das políticas markovianas definida por:

onde (p1,p2, , pL )¥é uma política que usa a regra de decisão pu , u Î  {1, 2,..., L}, em cada instante de decisão t, u = t (mod L) se t (mod L) > 0 e u = L se t (mod L) = 0,eCMé a classe das políticas markovianas .

chamado período da política. Note que se L = 1 a política não é realmente periódica, mas uma política estacionária. Por todo o texto, u será chamado de passo do período.

3.1 Algoritmo HL Para otimizar os processos markovianos de decisão com informação parcial, Hordijk & Loeve (1994) propõem um algoritmo (Algoritmo HL) baseado no Algoritmo de Iteração de Valores. Ao contrário dos processos markovianos de decisão a tempo contínuo, não se pode garantir a existência de uma política markoviana de custo mínimo para um processo markoviano de decisão com informação parcial pois, como estes processos são um caso particular dos processos markovianos de decisão parcialmente observáveis, a política ótima pode depender de todo o histórico do processo. Portanto, este algoritmo busca uma "boa" política dentro da classe das políticas admissíveis.

Denotando-se por P(f) = [pij(f)]i,jÎE, a matriz de transição do processo e c(f) o vetor do custo até a próxima transição quando a regra de decisão f é usada, e Vo vetor do custo esperado total mínimo, o Algoritmo HL é dado por: Algoritmo_HL Escolher uma regra de decisão determinística admissível f 1 e e > 0; Escolher o vetor das probabilidades iniciais x1 e V1eÂN ; Para n = 1, 2, 3,... fazer { Para cada s, s= 1, 2,...,k, calcular

Para cada s, s= 1, 2,...,k, e para " iÎEs se f n(i) minimiza gn(s,.) então f n+1( i ) ¬f n ( i ); senão f n+1( i ) ¬ apara algum aÎarg minbÎAsgn (s,b); x n+1¬xn P (f n+1); V n+1¬c( f n+1)+P (f n+1)V n.

Verificar se critério de parada é atingido.

} Critério_de_Parada:o algoritmo pára se para algum L e m = n ' L é assegurado que: * fm+L = fm, * ||xm+L' xm|| <ee * span ( Vm+L' Vm )<e; onde span(V) = maxi Vi ' mini Vi, para um vetor V, e ||x|| é a norma de x, tal que ||x|| < epara x ÎÂN significa que |xi| < e, "i.

O Algoritmo HL foi proposto para modelos markovianos de decisão a tempo discreto. Para utilizá-lo em modelos a tempo contínuo, aplicou-se o método de uniformização apresentado em Tijms (1994).

Dois problemas se apresentam quando se consideram políticas periódicas em modelos a tempo contínuo: * Ao se aplicar o método da uniformização, a equação funcional de um processo a tempo contínuo sob uma política markoviana periódica R = (f1, f2 ,...,fL-1, fL)¥ é dada por:

onde: <formula/>( R )= c(f 1) + P(f 1)c(f 2) + ...

+ P(f 1)P(f 2) ... P(f L-1)c(f L) <formula/>( R )=t(f 1) + P(f 1)t(f 2) + ...

+ P(f 1)P(f 2) ... P(f L-1)t(f L) <formula/>( R)= P(p1) P(p2) ... P (pL) Esta equação funcional pode ser reduzida àquela do processo original somente se os tempos esperados <formula/>( R ) forem iguais para todos os estados do processo. Neste caso, a equação anterior praticamente se reduz àquela do tempo discreto.

Testes computacionais confirmaram este fato.

* Quando existem transições não observáveis, ou seja, transições entre estados de um mesmo subconjunto da partição do espaço de estados, pode ser inviável na prática a implementação da política pela impossibilidade de se saber em que passo do período o sistema se encontra. No modelo apresentado neste trabalho, tais transições ocorrem quando mudanças de fase em uma distribuição PH inserida no modelo.

3.2 Heurística para obtenção de uma política admissível estacionária Para evitar os problemas apresentados na Seção 3.1, se a política obtida pelo Algoritmo HL for periódica, ou seja, se R = (f1, f2,..., f L-1, fL)¥, propõe-se a seguinte heurística: * extraem-se todas as políticas estacionárias possíveis a partir das regras de decisão da política periódica obtida, ou seja, f1, f2,..., fL-1, f L; * calcula-se o custo de cada uma destas políticas estacionárias; * comparam-se os custos e escolhe-se a política estacionária caracterizada pela regra de decisão de menor custo.

A política assim obtida é admissível e será adotada como uma solução sub-ótima para o problema.

4. Modelo com Informação Parcial Considera-se um modelo com informação parcial em que nos instantes de decisão as informações disponíveis são o número de máquinas na linha de produção, o número de máquinas de reserva, o número de máquinas quebradas, o estado do servidor 1 e o estado do servidor 2. Não se tem nenhuma informação sobre as fases de reparo do servidor 1 e as fases de reparo do servidor 2.

Para este modelo consideram-se somente políticas admissíveis, ou seja, políticas que determinam a mesma ação para todos os estados de um mesmo subconjunto da partição.

Analogamente ao modelo anterior, neste modelo com informação parcial existe a possibilidade de utilizar os dois servidores, lento e rápido, simultaneamente.

Então, quando o sistema muda de um conjunto da partição para outro deve-se escolher entre não utilizar nenhum servidor, utilizar o servidor lento, o servidor rápido (supostamente mais caro) ou ambos os servidores.

Portanto, o espaço de estados E é particionado em subconjuntos E(m,r,q,s1,s2) tal que, para m = 0, 1,..., M; r = 0, 1,..., Mr; q = 0, 1,..., M+Mr; s1 Î {D, Ao, Ae}; s2 Î{D, Ao, Ae}, tem-se que: E(m,r,q,s1,s2) = { (m',r',q',s'1,s'2,f'1,f'2) Î E /  m' = m, r' = r, q' = q, s'1 = s1, s'2 = s2} Neste modelo com informação parcial, consideram-se os mesmos custos do modelo com informação completa. Para se obter a política admissível de custo mínimo utiliza-se o Algoritmo HL.

5. Exemplo Nesta seção analisam-se os modelos descritos nas Seções 2 e 4 considerando-se os seguintes parâmetros para o sistema modelado: máquinas na linha de produção (M= 8) máquinas de reserva (Mr= 4) quebra de cada máquina: tempo médio = 3,33 Þ l = 0,3 reparo tipo 1: tempo médio = 0,5; desvio padrão = 0,25 n1 =4    m11 =m12 =m13=m14 =8                p11 = p12 = p13 = p14 =1 reparo tipo 2: tempo médio = 0,25; desvio padrão = 0,1 n2 =7    m21 =m22 =m23=m24 =m25 =m26 =m27= 25                p21 = p22 = p23 = p24 = p25 =1,p26 =0,25, p27 = 1 constantes de custo: l = 200       h = 10       e1 = 100       e2 = 400       ca1 = ca2 = 10       cm1 = cm2 = 0 Estes parâmetros foram considerados por terem sido utilizados em trabalhos anteriores do autores (Carvalho, 1987; Rodrigues et al., 1994).

Considerando-se os dados anteriores, no modelo com informação completa, o custo médio do sistema a longo prazo foi de 181,98 sob a política ótima apresentada na Tabela_1.

O símbolo "---" utilizado nas tabelas significa que a ação escolhida independe do valor da variável correspondente à coluna.. Por exemplo, na Tabela 1 se existem de 4 a 12 máquinas quebradas, independente dos valores de s1, s2, f1 e f2, a ação escolhida é AA, ou seja, ativar ambos os servidores.

No modelo com informação parcial, o custo médio mínimo obtido foi de 182,63 sob a política apresentada na Tabela 2. Como esta política é estacionária, não foi necessário utilizar a heurística apresentada na Seção 3.2 deste trabalho.

Na Tabela 3 apresenta-se uma comparação de medidas de desempenho obtidas no modelo com informação completa e no modelo com informação parcial sob as políticas apresentadas nas Tabelas 1 e 2.

A política descrita na Tabela 2 acarreta um custo 0,36% maior que o obtido ao se aplicar a política da Tabela 1. Este aumento se deve ao fato de no modelo com informação parcial, por não se levar em conta a fase do reparo, utilizou-se mais o servidor 1. Este servidor, embora mais barato, é mais lento e por isto aumentou-se o número de máquinas quebradas e, conseqüentemente, o custo de perda de produção e o custo de espera no sistema de reparo.

5.1 Análise da influência dos parâmetros nos custos Nesta seção analisam-se os modelos descrito nas Seções 2 e 4 variando-se alguns parâmetros considerados na Seção 6.1.

Inicialmente, variou-se o número de máquinas de reserva. Na Tabela_4 são apresentados os custos obtidos para ambos os modelos quando se variou o número de máquinas de reserva de zero (sistema sem máquinas de reserva) até oito (número de maquinas de reserva igual ao número de máquinas na linha de produção).

Na Tabela_5 apresentam-se os custos obtidos quando se considerou o sistema com quatro máquinas de reserva e variou-se a taxa de quebra das máquinas.

Como a maior diferença observada entres os custos obtidos para ambos os modelos foi quando se considerou o sistema com duas máquinas de reserva, realizou-se um experimento variando-se a taxa de quebra de máquinas para este sistema. Os resultados obtidos estão apresentados na Tabela_6.

Dos exemplos apresentados, aquele em que se obteve a maior diferença entre os custos obtidos para o modelo com informação completa e para o modelo com informação parcial foi quando se considerou o sistema com duas máquinas de reserva e taxa de quebra das máquinas igual a 0,3. Na Tabela_7 são apresentadas as medidas de desempenho para este sistema.

Observando-se os custos incorridos com os diversos experimentos realizados, nos quais vários parâmetros foram variados, nota-se que as diferenças não foram significativas, sendo que no máximo o custo incorrido com o modelo de informação parcial foi 1,89% maior que o incorrido com o modelo com informação total.

6. Comentários O tratamento matemático analítico e computacional de sistemas onde os eventos relevantes ocorrem em intervalos de tempos não exponenciais são muitos complexos. Para contornar algumas dificuldades de modelagem propõe-se a utilização da distribuição PH com configuração de Cox para modelar estes tempos. A distribuição PH com configuração de Cox é uma mistura de distribuições exponenciais com diferentes médias. A grande vantagem da utilização destas distribuições é o fato de elas aproximarem bem qualquer variável aleatória contínua positiva.

Por ser a distribuição PH construída a partir de componentes exponenciais (fases) pode-se modelar sistemas por processos markovianos de decisão, bastando para isto supor que as fases são observáveis e tomar as decisões nos instantes de final de fases.

Em sistemas reais dois casos podem ocorrer: as fases são realmente observáveis (por exemplo, no sistema analisado neste trabalho, o reparo seria executado em duas etapas: 1 ' diagnóstico do defeito e reparo menores e 2 ' reparos maiores) ou as fases são um artifício matemático para aproximar distribuições não exponenciais negativas. No primeiro caso, a hipótese de se observar as fases é realística mas no segundo não corresponde à realidade.

A questão que se coloca, portanto, é como tomar decisões em final de fases que não são observáveis. A solução proposta neste trabalho é modelar o sistema por um processo markoviano de decisão com informação parcial e utilizar o algoritmo apresentado em Hordijk & Loeve (1994) para obtenção da política admissível de custo mínimo. Quando esta política é periódica, propõe-se uma heurística para obtenção de uma política admissível estacionária.

Deste modo, neste trabalho, considerou-se um sistema que foi modelado admitindo-se que as fases de reparo são observadas ' modelo com informação completa ' e que estas não são observadas ' modelo com informação parcial.

Testes computacionais foram realizados utilizando dados numéricos e observou-se que, no modelo com informação parcial, o custo médio a longo prazo do sistema teve um aumento de no máximo 1,89% quando comparado com o custo obtido no modelo com informação completa. Este aumento pode ser dependente dos dados considerados e se deve ao fato que as fases não são observáveis. Finalmente salienta-se que para os experimentos computacionais realizados, utilizou-se uma biblioteca de classes desenvolvida por um dos autores em linguagem C++.

Talvez seja interessante comentar que para obtenção dos parâmetros das distribuições PH várias autores têm utilizado o método dos momentos, o método da máxima verossimilhança e o método da minimização de distâncias. Os procedimentos baseados em ajustes de momentos podem ser divididos em dois grupos distintos: o método dos momentos tradicional onde se utiliza os momentos de baixa ordem, média e desvio padrão (Tijms, 1994 e Lima, 1997), e as técnicas nas quais momentos de mais alta ordem são ajustados (Carvalho, 1991). O método dos momentos pode ser usado tanto para estimar parâmetros a partir de dados amostrais como para obter parâmetros para uma distribuição PH que aproxime uma distribuição contínua e positiva dada. O método da máxima verossimilhança foi empregado em Carvalho (1991) para estimação de parâmetros a partir de dados amostrais e em Bobbio & Cumani (1992) para obtenção de parâmetros a partir de uma distribuição dada, para isso, esta referência se serve da geração de amostras sistemáticas. Em Miranda (1996) é proposto um método de minimização de distância estocástica para obtenção dos parâmetros de uma distribuição PH a partir de uma distribuição dada.

O problema da obtenção de parâmetros das distribuições PH foge do escopo deste trabalho. Assim, para a construção dos modelos apresentados, optou-se por supor conhecidos os parâmetros e fornecê-los aos modelos.


Download text