UM MODELO MARKOVIANO DE DECISÃO PARA A OTIMIZAÇÃO DE UM SISTEMA DE MANUTENÇÃO
COM TEMPOS DE REPARO COXIANOS E FASES NÃO OBSERVÁVEIS
1. Introdução
O crescimento do processo produtivo e a busca da diminuição dos custos de
produção têm incentivado o estudo de sistemas de manutenção de máquinas. Estes
sistemas são intrinsecamente estocásticos devido à aleatoriedade inerente aos
processos de falhas. Dentre os sistemas estocásticos, os markovianos merecem um
lugar de destaque devido à sua relativa facilidade de tratamento matemático e
computacional. Atualmente, dispõe-se de resultados teóricos e de recursos
computacionais que permitem a aplicação dos processos markovianos na modelagem
de sistemas do porte de sistemas reais. Os processos markovianos podem ser
considerados a tempo discreto ou a tempo contínuo. Nos dois casos, deve-se
garantir a propriedade da ausência de memória que caracteriza esses processos.
Esta propriedade pode ser resumida em o comportamento probabilístico futuro do
processo ser condicionalmente independente do comportamento passado, dado o
estado presente.
Alguns sistemas estão sujeitos a um controle dinâmico onde um supervisor deve
observar continuamente o estado corrente do sistema e decidir sobre uma ação
que influenciará o comportamento futuro do sistema. Periodicamente ou a cada
mudança de estado (instantes de decisão) uma nova ação deve ser escolhida
dentre um conjunto de ações disponíveis para cada estado observado. Uma regra
que dita a forma com que as ações devem ser escolhidas ao longo do tempo define
uma política de controle para o sistema em estudo. No caso dos sistemas
estocásticos, sob a hipótese da ausência de memória, este tipo de controle
dinâmico caracteriza o sistema como um processo markoviano de decisão (PMD). A
modelagem de sistemas por PMD permite a obtenção de uma política de controle
que minimiza o custo do sistema.
Nos modelos a tempo contínuo, uma hipótese necessária para se garantir a
propriedade de ausência de memória dos processos markovianos é que o tempo de
permanência do sistema em cada estado seja aleatório e exponencialmente
distribuído. Geralmente, na literatura sobre modelos estocásticos de sistemas
de manutenção, admite-se esta hipótese tanto para os tempos até a quebra de
máquinas quanto para os tempos de reparo. No entanto, principalmente em relação
aos tempos de reparo, esta hipótese nem sempre é verificada na prática.
Trabalhando sobre dados de manutenção de centros de usinagens e robôs,
Carvalho (1991) verificou que, para os dados tratados, a hipótese de tempos até
a quebra de máquinas exponencialmente distribuídos foi aceitável mas o mesmo
não ocorreu para os tempos de reparo.
Nos casos onde as variáveis aleatórias exponenciais negativas não modelam bem
os processos reais, uma boa alternativa é o uso de distribuições do tipo fase
(distribuições PH). Em Neuts (1981), define-se uma variável aleatória do tipo
fase como uma variável aleatória positiva que pode representar o tempo até a
absorção numa cadeia de Markov a tempo contínuo composta de um número finito de
estados transitórios (fases) e um único estado absorvente. Estas variáveis
aleatórias generalizam as variáveis aleatórias exponenciais negativas e podem
ser facilmente inseridas em modelos markovianos a tempo contínuo. Para inseri-
las nestes modelos, deve-se acrescentar ao espaço de estados do modelo a
informação sobre a fase corrente de cada processo modelado por uma variável
aleatória do tipo fase.
Nos modelos markovianos de decisão a tempo contínuo, pode-se utilizar o mesmo
procedimento acima. No entanto, em cada instante de decisão, deve-se observar o
estado corrente do sistema e tomar uma decisão em função do estado observado.
Nesses processos, ao se introduzir no espaço de estados as informações sobre a
fase corrente das variáveis do tipo fase introduzidas no modelo, pode-se
considerar as fases observáveis para se garantir a propriedade markoviana do
processo. Assim, se é possível observar as fases correntes das variáveis
aleatórias do tipo fase do modelo e dado que o tempo de permanência do sistema
em cada fase é exponencial, este sistema é facilmente modelado por um processo
markoviano de decisão a tempo contínuo (Rodrigues, 1990).
Desde sua formalização em Neuts (1981), a teoria das distribuições PH tem
evoluído continuamente. Um importante resultado teórico apresentado em Cumani
(1982) é que qualquer distribuição PH acíclica, ou seja, que é a soma ou
mistura (combinação convexa) de distribuições exponenciais negativas, pode ser
reduzida à configuração de Cox (Figura_1). Em O'Cinneide (1991), este resultado
é estendido a qualquer distribuição PH onde os auto-valores da matriz geradora
das transições entre os estados transitórios são reais.
Uma distribuição PH de ordem N com configuração de Cox é definida pelos
parâmetros {N; l1, l2,...,lN; p1, p2,..., pN-1}, onde N é o número de estados
transitórios, li, i = 1, 2,..., N, são as taxas de transições das fases e pié a
probabilidade do processo ir da fase i para a próxima fase; o processo vai
diretamente para o estado absorvente com probabilidade 1 - pi,
i = 1, 2,..., N'1.
Note que uma distribuição PH com configuração de Cox é um caso particular da
distribuição proposta em Cox (1956). Nesse trabalho, Cox considerou que os
parâmetros da distribuição mostrada na Figura 1 podem ser complexos.
Quando distribuições PH são obtidas através da aproximação de outras
distribuições positivas arbitrárias e são inseridas em processos markovianos de
decisão, as fases destas distribuições não são observáveis (por terem sido
obtidas a partir de um artifício matemático). Neste caso, a teoria clássica dos
processos markovianos de decisão não pode ser aplicada.
Com este trabalho tem-se como objetivo estudar um sistema de manutenção de
máquinas considerando os tempos de reparo distribuídos segundo uma distribuição
PH com configuração de Cox, a qual, por simplificação, será chamada por todo o
texto de distribuição PH. Generalizam-se trabalhos anteriores dos autores,
utilizando-se um modelo baseado em processos markovianos de decisão com
informação parcial para a otimização do sistema sem considerar as fases
observáveis.
O sistema de manutenção estudado é composto de um número finito de máquinas
idênticas na linha de produção, um número finito de máquinas de reserva e uma
estação de reparo com dois servidores. O tempo até a quebra de cada máquina é
exponencial e os tempos de reparo seguem uma distribuição PH que depende do
servidor que está executando o reparo. Os servidores se diferenciam por um ser
mais rápido do que o outro, em média, e pelo custo de sua utilização. Deseja-se
escolher entre não ativar nenhum servidor, ativar somente o servidor 1, ativar
somente o servidor 2 ou ativar ambos os servidores, em função do estado do
sistema, de maneira a minimizar o custo médio por unidade de tempo do sistema a
longo prazo.
Considerando-se a possibilidade ou não de se observar as fases das
distribuições PH, modela-se o sistema de manutenção de máquinas em estudo,
respectivamente, por um processo markoviano de decisão a tempo contínuo (modelo
com informação completa) e por um processo markoviano de decisão com informação
parcial (modelo com informação parcial), na forma que este é definido em
Hordijk & Loeve (1994).
Os processos markovianos de decisão com informação parcial são construídos a
partir de processos markovianos de decisão, onde o espaço de estados é
particionado e as decisões são tomadas com base apenas no elemento da partição
em que se encontra o estado corrente do sistema. Hordijk & Loeve (1994)
apresentam um algoritmo do tipo aproximação sucessivas que encontra políticas
markovianas sub-ótimas para modelos a tempo discreto (os tempos entre decisões
são eqüidistantes) sob o mesmo critério de otimalidade adotado neste trabalho,
ou seja, o custo esperado médio a longo prazo. Este algoritmo por todo o texto
será chamado de Algoritmo HL.
A apresentação deste trabalho está dividida em seis seções. Na Seção 2,
descreve-se o sistema de manutenção em estudo que é modelado como um processo
markoviano de decisão (modelo com informação completa). Os processos
markovianos de decisão com informação parcial e o Algoritmo HL são apresentados
na Seção 3. Na Seção 4 modela-se o sistema de manutenção em estudo por um
processo markoviano com informação parcial (modelo com informação parcial). Na
Seção 5, comparam-se os modelos utilizando-se um conjunto de dados numéricos.
Comentários são apresentados na Seção 6.
2. Sistema de Manutenção em Estudo
O sistema de manutenção estudado é composto de uma linha de produção com M
máquinas idênticas e independentes trabalhando em paralelo e Mr máquinas de
reserva idênticas às da linha de produção. Quando uma máquina na linha de
produção quebra, ela é enviada à estação de reparo e substituída imediatamente
por uma máquina de reserva, se existir alguma disponível.
A estação de reparo dispõe de dois servidores. Cada servidor só poderá
consertar uma máquina quebrada de cada vez, portanto no máximo duas máquinas
serão atendidas simultaneamente. O servidor não pode ficar ocioso se estiver
ativado e houver máquina quebrada esperando reparo.
O tempo até a falha das máquinas em operação é exponencialmente distribuído com
taxa l; as máquinas de reserva não estão sujeitas a falha enquanto não forem
utilizadas. À medida que as máquinas quebram, elas são enviadas à estação de
reparo, formando uma fila com disciplina FIFO (first in, first out).
O tempo de reparo de cada máquina executado pelo servidor k, k = 1, 2, segue
uma distribuição PH de ordem nk com taxas {mkf, k = 1, 2;f = 1, 2..., nk} e
probabilidades {pkf, k = 1, 2; f = 1, 2,..., nk}, onde k é o servidor que está
reparando a máquina e f a fase de reparo. Assim, como o reparo executado pelo
servidor ktem nk fases de reparo, k = 1, 2, se este estiver na fasef < nk, com
probabilidade 1 ' pkf o reparo terminará logo após o término da fase corrente e
com probabilidade pkf a máquina passará para a fase de reparo seguinte. Supõe-
se que o servidor 2 seja mais rápido em média que o servidor 1. Na Figura 2
apresenta-se uma representação do sistema em estudo.
Como o tempo até a falha das máquinas é exponencial e o tempo de reparo tem
distribuição PH, que é constituída de fases exponenciais, é possível modelar
este sistema segundo um processo markoviano de decisão a tempo contínuo.
Observa-se o estado do sistema nos instantes de quebra de máquina e final de
fase de reparo e, com base nesta observação, uma ação deve ser tomada. Um
conjunto de ações forma a política que controla o sistema, ou seja, a política
que determina em cada instante de decisão a ativação ou a desativação de cada
servidor.
Em cada instante de decisão, o estado do sistema é definido pelo conjunto de
valores (m, r, q, s1, s2, f1, f2) que são, respectivamente, o número de
máquinas na linha de produção, o número de máquinas de reserva, o número de
máquinas quebradas, o estado em que se encontra o servidor 1, o estado em que
se encontra o servidor 2, a fase de reparo do servidor 1 e a fase de reparo do
servidor2. O estado de cada servidor k é dado por sk Î {D, Ao, Ae}, k = 1, 2,
onde D significa desativado, Ao significa servidor ativado mas ocioso (ou
imediatamente após um final de reparo) e Ae significa servidor ativado
executando um reparo. A fase de reparo do servidor k é definida por fk Î
{0, 1,..., nk}, onde os valores de 1 até nk significam as fases em curso do
reparo executado pelo servidork, e fk = 0 significa que o servidor k está
ocioso ou desativado. É importante ressaltar que ser ¹0, então m = M, isto
porque, se existe máquina de reserva disponível, a linha de produção não pode
estar incompleta. Considera-se que, se o servidor k terminou um reparo, seu
estado passa a ser sk = Ao, para k = 1, 2. Então, se
* q = 0, s1 = Ao e s2 = Ao, tem-se que ambos os servidores estão ociosos
porque não existem máquinas quebradas para serem consertadas;
* q = 1, s1 = Ao e s2 = Ao, significa que um servidor está ocioso porque
terminou um reparo e o outro servidor está ocioso pois não existem
máquinas para serem consertadas;
* q
> 1 e (s1 = Ao ou s2 = Ao), significa que o servidor k, k = 1ou k = 2,
cujo estado é Ao, ou seja, sk = Ao, está ocioso porque terminou um
reparo.
Considera-se que o espaço de estados do sistema é dado por:
E={(m,r,q,s1,s2,f1,f2)/ m = 0, 1,..., M; r = 0, 1,..., Mr; q = 0, 1,..., M +
Mr;
s1Î {D, Ao, Ae}; s2Î{D, Ao, Ae};
f1Î{0,...,n1}; f2Î {0,...,n2};
m + r + q = M + Mr; m = M se r > 0;
se s1Î {D, Ao} então f1 = 0;
se s2Î {D, Ao} então f2 = 0;
se s1 = Ae então f1¹ 0;
se s2 = Ae então f2¹ 0;
se q = 0 então s1¹ Ae e s2¹ Ae;
se q = 1 então ((se s1 = Ae então s2¹ Ae) ou (se s2 = Ae então s1¹ Ae));
se q>1 então ((se s1 = Ao então s2¹ Ao) ou (se s2 = Ao então s1¹ Ao))}.
O comportamento dinâmico do sistema é descrito pelas mudanças de estado ao
longo do tempo. Cada vez que o sistema muda de estado, deve-se observar o novo
estado atingido e decidir sobre ativar ou não cada servidor k, k = 1, 2, em
função do estado observado. Cada ação é representada por um par ordenado
(a1,a2) onde, para k = 1, 2, ak = A significa ativar ou manter ativado o
servidor k e ak = N significa desativar ou manter desativado o servidor k. O
espaço de ações possíveis é A = {(A,A), (A,N), (N,A), (N,N)}. Por
simplificação, em todo o texto, a ação representada pelo par ordenado (a1,a2)
será denotada por a1a2.
Considera-se que se todas as máquinas do sistema estão quebradas, ou seja, se q
= M+Mr, a ação a = NN não é uma ação possível pois levaria a um estado
absorvente. Considera-se, também, que se não existem máquinas quebradas, uma
máquina quebra e a ação a = AA é escolhida, o servidor 2 (mais rápido) tem
prioridade para consertar a máquina que quebrou.
A estrutura de custos do sistema inclui um custo de perda de produção dado pelo
produto da taxal (l > 0) pela quantidade de máquinas faltando para completar o
número máximo M de máquinas na linha de produção; um custo de executar um
reparo à taxa ek (ek > 0) quando o servidor k estiver reparando uma máquina,
k = 1, 2; um custo de espera no sistema de reparo dado pelo produto da taxa h
(h > 0) pelo número de máquinas quebradas no sistema de reparo (incluindo a
máquina que está sendo reparada); um custo à taxa cmk (cmk > 0) de manter o
servidork ativado, k = 1, 2, e um custo fixo cak (cak > 0) de ativar o servidor
k, k = 1, 2.
Deseja-se obter uma política estacionária f*que minimize o custo médio por
unidade de tempo do sistema a longo prazo. Para obtenção desta política,
utilizou-se o Algoritmo de Iteração de Valores (Tijms, 1994).
2.1 Processos semi-markovianos de decisão e processos markovianos de decisão a
tempo contínuo
Considera-se um processo estocástico onde um supervisor, em instantes de
decisão, deve observar o processo, classificá-lo em um estado i pertencente a
um espaço de estados E e decidir sobre uma ação pertencente a um conjunto de
ações A(i) possíveis para o estado observado. Este processo de decisão é um
processo semi-markoviano de decisão (PSMD) se o tempo até o próximo instante de
decisão, o estado em que o sistema estará nesse instante e o custo incorrido
até esse instante são aleatórios e dependentes somente do estado observado e da
ação escolhida.
Um PSMD deve ser controlado por uma política que escolhe a ação a ser tomada em
cada instante de decisão. Uma política corresponde à aplicação seqüencial de
regras de decisão que prescrevem a ação a ser escolhida em cada instante de
decisão t. De forma geral, uma política de controle pode ser escrita como R =
(f 0, f 1, f 2, ...), onde f t, t = 0, 1, 2, ..., é a regra de decisão a ser
aplicada no instante de decisão t. Consideram-se políticas markovianas
estacionárias determinísticas, ou seja, políticas que prescrevem em cada
instante de decisão uma ação que depende apenas do último estado observado, sem
considerar o comportamento do processo no passado. Uma política desse tipo é
construída a partir de uma regra de decisão f : E® A, ondeÈiÎEA(i),tal que, se
o estado observado é i Î E, então uma única ação f(i) Î A(i) é escolhida,
independente do instante de decisão corrente t. Uma política markoviana
estacionária determinística R, caracterizada pela regra de decisão f, prescreve
a ação f(i) sempre que o estado i for observado. Denota-se tal política R = (f,
f, f, ...) ou R = (f )¥.
Para um PSMD, dado que em um instante de decisão o sistema está no estado i Î E
e a ação a Î A(i) foi escolhida, definem-se:
ti(a)= tempo esperado até o próximo instante de decisão;
pij(a)= probabilidade de que no próximo instante de decisão o sistema
estará no estado j;
Ci(a)= custo esperado incorrido até o próximo instante de decisão.
O problema da otimização de um PSMD consiste em obter uma política de controle
que otimiza o processo. No presente trabalho, considera-se como critério para a
otimalidade a minimização do custo esperado médio a longo prazo do processo.
Para escrever a expressão deste custo, define-se Z(t) como o custo total
incorrido até o instante t(t ³0). Para uma política de controle R e para um
estado inicial i, define-se o custo esperado médio a longo prazo do processo
sob esta política como:
onde Ei,R corresponde ao operador valor esperado quando o estado inicial é i e
a política R é usada. Tijms (1994) mostrou que o limite acima existe e que no
caso unichain, ou seja, quando sob a política R o processo possui um único
conjunto fechado de estados, o custo gi(R) é independente do estado inicial i e
pode ser denotado porg(R).
Para os PSMD, é provado (Tijms, 1994) que existe uma política markoviana
estacionária determinística R* ótima, ou seja, que minimiza o custo esperado
médio do sistema a longo prazo dentro do espaço de políticas de controle
possíveis.
Quando o sistema é controlado por uma política markoviana estacionária
determinística R fixada, pode-se considerar a cadeia de Markov imersa no
processo {X0, X1, X2 ,...}. Esta cadeia representa a seqüência de estados
visitados pelo processo, ou seja, X0 é o estado inicial do processo e, para
n = 1, 2,..., Xné o estado atingido pelo processo logo após a n-ésima
transição. Esta cadeia de Markov tem o mesmo espaço de estados do processo
original e probabilidades de transição dadas por pij(Ri), onde Ri é a ação
prescrita pela política R para o estado i. Se sob a política R, a cadeia de
Markov imersa no processo é unichain, então esta possui probabilidades limites
denotadas {(R), i ÎE}. Tijms (1994) mostra
que o custo g(R)pode ser escrito como:
A expressão do custo de uma política R, em função das probabilidades limites da
cadeia de Markov imersa no processo, não é utilizada no Algoritmo de Iteração
de Valores considerado neste trabalho para a obtenção de uma política R* de
custo mínimo. Apesar disto, esta é importante porque pode facilmente ser
estendida para a obtenção de medidas de desempenho do sistema sob esta
política. De forma geral estas medidas representam o valor esperado médio de
"funções de estado" definidas de forma análoga aos custos.
O tratamento computacional do modelo baseado num PSMD apresentado neste
trabalho pode ser resumido em três partes: (1) obtenção de uma política de
controle markoviana estacionária determinística ótima pelo Algoritmo de
Iteração de Valores apresentado em Tijms (1994); (2) cálculo das probabilidades
limite da cadeia de Markov imersa no processo quando a política de controle
ótima é utilizada e (3) cálculo de medidas de desempenho do processo sob a
política de controle ótima baseado nas probabilidades limite calculadas.
Mais especificamente, o modelo apresentado neste trabalho baseia-se num
processo markoviano de decisão a tempo contínuo (PMDTC). Os PMDTCs são casos
particulares dos PSMD onde o tempo entre decisões sucessivas são
exponencialmente distribuídos com parâmetro dependente do último estado
observado. Para estes processos, define-se Lij(a) como a taxa de transição do
estado i ao estado j (i, j ÎE), quando a última ação escolhida foi a Î A(i). A
partir das taxas de transição, obtém-se facilmente a taxa total de saída de
cada estado dada por Li(a) = åj¹i Lij(a). Note que Li(a) é o parâmetro da
distribuição exponencial negativa que descreve o tempo de permanência no estado
i quando a ação a é escolhida. A partir das taxas de transição, as
probabilidades de transição são dadas por pij(a) = Lij(a)/Li(a) e o tempo
esperado entre transições é dado por ti(a) = 1/Li(a). Assim, um PMDTC pode ser
caracterizado pelo espaço de estados E, pelos conjuntos de ações A(i), pelas
taxas de transição Lij(a) e pelos custos Ci(a).
O tratamento matemático e computacional dos PMDTCs é idêntico àquele dos PSMDs.
Na prática, a diferença entre esses dois processos se encontra na forma que são
construídos. Geralmente, para um PSMD, a obtenção das probabilidades de
transição pij(a) e dos custos Ci(a) envolve a teoria das renovações
(Çinlar, 1975) e dificilmente os cálculos efetuados para um modelo podem ser
diretamente reutilizado num outro modelo. Por outro lado, as probabilidades de
transição e os custos necessários à construção de um PMDTC possuem expressões
simples. A construção de um PMDTC permite o uso direto de uma modelagem por
eventos, onde cada taxa de transição Lij(a) está associada a um evento.
A seguir, apresentam-se dois casos particulares que ilustram o raciocínio usado
no cálculo das taxas de transição.
Se em um instante de decisão o sistema está no estado:
i) i = (M, Mr, 0, Ao, D, 0, 0) com Mr ³ 1, o único evento possível é a quebra de uma
máquina. Assim, o número de máquinas quebradas, que era zero, aumenta de uma unidade e o
número de máquinas de reserva diminui de uma unidade. Neste caso, se a ação escolhida
for:
1)a = AA, ambos os servidores são ativados, então s1 = Ao e s2 = Ae, o servidor 2 começa
a consertar a máquina quebrada, f2 = 1, e o servidor 1 fica ativado mas ocioso, f1 = 0.
O estado do sistema passa a ser j1 = (M, Mr '1, 1, Ao, Ae, 0, 1).
2) a = NA, o servidor 1 é desativado, s1 = D e f1 = 0, enquanto o servidor 2 conserta a
máquina, s2 = Ae e f2 = 1, o estado do sistema passa a ser j2 =
(M, Mr'1, 1, D, Ae, 0, 1).
3) a = AN, o servidor 1 começa a consertar a máquina quebrada, s1 = Ae e f1 = 1,o
servidor 2 é desativado, s2 = D e f2 = 0, e o estado do sistema passa a ser j3 =
(M, Mr'1, 1, Ae, D, 1, 0).
4) a = NN, ambos os servidores são desativados,s1 = D, s2 = D, f1 = 0 e f2 = 0, e o
estado do sistema passa a ser j4 = (M, Mr'1, 1, D, D, 0, 0).
A taxa de transição do estado i para j1, j2, j3 ou j4éMl.
ii) i = (0, 0, M+Mr, Ae, Ae, f1, f2) com M+Mr ³ 2, 0 < f1 < n1 e 0 < f2 < n2, dois eventos podem
ocorrer: o final de um reparo ou a mudança de fase de reparo de uma das máquinas que está sendo
consertada. Se ocorrer o final de um reparo, o número de máquinas quebradas diminui de uma
unidade, o número de máquinas na linha de produção aumenta de uma unidade e a fase de reparo do
servidor que terminou o reparo passa a ser zero. Caso contrário, apenas o reparo que mudou de
fase é acrescido de uma unidade. Assim, se a ação escolhida é:
1)a = AA mantém ativados ambos os servidores. Neste caso, existem as seguintes possibilidades:
* servidor 1 pode acabar o reparo da máquina, s1 = Ao e f1 = 0, e o estado do sistema passa
a ser j1 = (1, 0, M+Mr'1, Ao, Ae, 0, f2) com taxa de transição Lij(a) = (1- p1f1)m1f1;
* o servidor 2 pode terminar o reparo, s2 = Ao e f2 = 0, e o estado do sistema passa a ser
j3 = (1, 0, M+Mr-1, Ae, Ao, f1, 0) com taxa de transição (1'p2f2)m2f2;
* o reparo executado pelo servidor 1 pode mudar de fase, e o estado do sistema passa a ser
j2 = (0, 0, M+Mr, Ae, Ae, f1+1, f2) com taxa de transição Lij(a) = p1f1m1f1;
* o reparo executado pelo servidor 2 pode mudar de fase, e o estado passa a ser j4 =
(0, 0, M+Mr, Ae, Ae, f1, f2+1) com taxa de transição p2f2m2f2.
2) a = AN mantém ativado o servidor 1 e desativa-se o servidor 2, s2 = D e f2 = 0. Então,
existem as seguintes possibilidades:
* o reparo executado pelo servidor 1 termina, s1 = Ao e f1 = 0, e o estado passa a ser
j5 = (1, 0, M+Mr'1, Ao, D, 0, 0) com taxa de transição Lij(a) = (1-p1f1)m1f1;
* reparo executado pelo servidor 1 muda de fase e o estado passa a ser j6 =
(0, 0, M+Mr, Ae, D, f1+1, 0) com taxa de transição p1f1m1f1.
3) a = NA desativa-se o servidor 1, s1 = D e f1 = 0, e mantém ativado o servidor 2. Então,
existem as seguintes possibilidades:
* reparo executado pelo servidor 2 termina, s2 = Ao e f2 = 0, e o estado passa a ser j7 =
(1, 0, M+Mr'1, D, Ao, 0, 0) com taxa de transição (1'p2f2)m2f2;
* reparo executado pelo servidor 2 muda de fase e o estado passa a ser j8 =
(0 0, M+Mr, D, Ae, 0, f2+1) com taxa de transição p2f2m2f2.
O custo esperado entre decisões Ci(a) é composto por todos os custos
acarretados ao sistema. Assim,
onde Cl(i,a), Ce(i,a), Ch(i,a), Cm1(i,a), Cm2(i,a), Ca1(i,a) e Ca2(i,a) são,
respectivamente, os custos esperados de perda de produção, de reparo, de espera
no sistema de reparo, de manter o servidor 1 ativado, de manter o servidor 2
ativado, de ativar o servidor 1 e de ativar o servidor 2 incorridos até o
próximo instante de decisão, dado que o estado i = (m, r, q, s1, s2, f1, f2) ÎE
e a ação a Î A(i) foi adotada.
Suponha que o sistema está no estado i = (m, r, q, s1, s2, f1, f2). Se q > Mr,
isto significa que faltam q ' Mrmáquinas na linha de produção. Então, tem-se
que o custo esperado de perda de produção é dado pelo produto entre a taxa de
perda de produção, o número de máquinas que faltam na linha de produção e o
tempo esperado até a próxima decisão. Ou seja,
Se q > 0 e a ação escolhida é a = AN, ou seja, ativa-se o servidor 1 e
desativa-se o servidor 2, o custo esperado de reparo é dado pelo produto entre
a taxa de execução de reparo do servidor 1 e o tempo esperado até o próximo
instante de decisão. Analogamente, se q > 0 mas escolhe-se a ação a = NA, o
custo esperado de reparo é o produto entre a taxa de execução de reparo do
servidor 2 e o tempo esperado até o próximo instante de decisão. Se q > 1 e
a = AA, tem-se que o custo esperado de reparo é dado pelo produto entre a taxa
de execução de reparo do servidor 1 somada a taxa de reparo do servidor 2 e o
tempo esperado até o próximo instante de decisão. Finalmente, se q = 1 e a ação
escolhida é a = AA, ou seja, ambos os servidores são ativados, tem-se que o
custo esperado de reparo é o produto entre a taxa de execução de reparo do
servidor que está realizando o reparo e o tempo esperado até o próximo instante
de decisão. Então,
Se q > 0, ou seja, se existem máquinas quebradas, o custo médio de espera no
sistema de reparo é dado pelo produto entre a taxa de espera no sistema, o
número de máquinas quebradas no sistema de reparo (incluindo a máquina em
reparo) e o tempo esperado até o próximo instante de decisão. Assim, tem-se
que:
Se a ação escolhida é a = AA ou a = AN, ou seja, ativa-se o servidor 1, o custo
esperado de manter o servidor 1 ativado é dado pelo produto entre a taxa de
manter o servidor 1 ativado cm1 e o tempo esperado até o próximo instante de
decisão. Logo,
Se a ação escolhida é a = AA ou a = NA, o custo esperado de manter o servidor 2
ativado é dado pelo produto entre a taxa de manter o servidor 2 ativado cm2 e o
tempo esperado até o próximo instante de decisão. Logo,
O custo de ativar o servidor 1, Ca1(i,a), assume o valor fixo ca1quando o
servidor 1 está desativado e a ação escolhida prescreve sua ativação. Ou seja,
Analogamente, o custo de ativar o servidor 2, Ca2(i,a), assume o valor fixo ca2
quando o servidor 2 está desativado e a ação escolhida prescreve sua ativação.
Então,
3. Processo Markoviano de Decisão com Informação Parcial
Neste trabalho, para modelar o sistema em estudo, quando não é possível
observar as fases das distribuições PH, utilizam-se processos markovianos de
decisão com informação parcial. Nestes processos, o espaço de estados E é
particionado em subconjuntos {E1, E2,..., Ek}, onde
e Ei Ç Ej = Æsei ¹j,tal que no instante de decisão a única informação
disponível é o subconjunto Ej no qual o estado está contido.
Observa-se Es, s = 1, 2,..., k, e escolhe-se uma ação, ou seja, para todos os
estados pertencentes ao subconjunto Esobservado a mesma decisão é tomada. Isto
segue para todos os subconjuntos de estados pertencentes à partição. A regra de
decisão que satisfaz esta condição é chamada markoviana admissível ou,
simplesmente, admissível.
Uma regra de decisão markoviana depende apenas do estado corrente, ou seja, ela
determina, para cada estado i Î E, que ação a Î A(i) deve ser escolhida se o
estado i for observado no instante de decisão t. Logo, em cada instante de
decisão t, a regra de decisão pt é um elemento do conjunto P, onde P é o
conjunto de regras de decisão markovianas aleatórias dado por:
e denota-se por F o conjunto de todas as regras de decisão markovianas
determinísticas:
onde A=<formula/>.
Uma regra de decisão aleatória admissível p e uma regra de decisão admissível
determinística f são, respectivamente, elementos dos conjuntos:
onde o conjunto de ações possíveis é A=<formula/>.
Além das políticas estacionárias consideradas no modelo com informação
completa, no modelo com informação parcial deve-se considerar as políticas
markovianas periódicas. As políticas markovianas periódicas formam uma
subclasse das políticas markovianas definida por:
onde (p1,p2, , pL )¥é uma política que usa a regra de decisão pu , u Î
{1, 2,..., L}, em cada instante de decisão t, u = t (mod L) se t (mod L) > 0 e
u = L se t (mod L) = 0,eCMé a classe das políticas markovianas
.
Lé chamado período da política. Note que se L = 1 a política não é realmente
periódica, mas uma política estacionária. Por todo o texto, u será chamado de
passo do período.
3.1 Algoritmo HL
Para otimizar os processos markovianos de decisão com informação parcial,
Hordijk & Loeve (1994) propõem um algoritmo (Algoritmo HL) baseado no
Algoritmo de Iteração de Valores. Ao contrário dos processos markovianos de
decisão a tempo contínuo, não se pode garantir a existência de uma política
markoviana de custo mínimo para um processo markoviano de decisão com
informação parcial pois, como estes processos são um caso particular dos
processos markovianos de decisão parcialmente observáveis, a política ótima
pode depender de todo o histórico do processo. Portanto, este algoritmo busca
uma "boa" política dentro da classe das políticas admissíveis.
Denotando-se por P(f) = [pij(f)]i,jÎE, a matriz de transição do processo e c(f)
o vetor do custo até a próxima transição quando a regra de decisão f é usada, e
Vo vetor do custo esperado total mínimo, o Algoritmo HL é dado por:
Algoritmo_HL
Escolher uma regra de decisão determinística admissível f 1 e e > 0;
Escolher o vetor das probabilidades iniciais x1 e V1eÂN ;
Para n = 1, 2, 3,... fazer {
Para cada s, s= 1, 2,...,k, calcular
Para cada s, s= 1, 2,...,k, e para " iÎEs
se f n(i) minimiza gn(s,.)
então f n+1( i ) ¬f n ( i );
senão f n+1( i ) ¬ apara algum aÎarg minbÎAsgn
(s,b);
x n+1¬xn P (f n+1);
V n+1¬c( f n+1)+P (f n+1)V n.
Verificar se critério de parada é atingido.
}
Critério_de_Parada:o algoritmo pára se para algum L e m = n ' L é assegurado
que:
* fm+L = fm,
* ||xm+L' xm|| <ee
* span ( Vm+L' Vm )<e;
onde span(V) = maxi Vi ' mini Vi, para um vetor V, e ||x|| é a norma de x, tal
que ||x|| < epara x ÎÂN significa que |xi| < e, "i.
O Algoritmo HL foi proposto para modelos markovianos de decisão a tempo
discreto. Para utilizá-lo em modelos a tempo contínuo, aplicou-se o método de
uniformização apresentado em Tijms (1994).
Dois problemas se apresentam quando se consideram políticas periódicas em
modelos a tempo contínuo:
* Ao se aplicar o método da uniformização, a equação funcional de um
processo a tempo contínuo sob uma política markoviana periódica R = (f1,
f2 ,...,fL-1, fL)¥ é dada por:
onde:
<formula/>( R )= c(f 1) + P(f 1)c(f 2) + ...
+ P(f 1)P(f 2) ... P(f L-1)c(f L)
<formula/>( R )=t(f 1) + P(f 1)t(f 2) + ...
+ P(f 1)P(f 2) ... P(f L-1)t(f L)
<formula/>( R)= P(p1) P(p2) ... P
(pL)
Esta equação funcional pode ser reduzida àquela do processo original
somente se os tempos esperados <formula/>( R
) forem iguais para todos os estados do processo. Neste caso, a
equação anterior praticamente se reduz àquela do tempo discreto.
Testes computacionais confirmaram este fato.
* Quando existem transições não observáveis, ou seja, transições entre
estados de um mesmo subconjunto da partição do espaço de estados, pode
ser inviável na prática a implementação da política pela impossibilidade
de se saber em que passo do período o sistema se encontra. No modelo
apresentado neste trabalho, tais transições ocorrem quando há mudanças de
fase em uma distribuição PH inserida no modelo.
3.2 Heurística para obtenção de uma política admissível estacionária
Para evitar os problemas apresentados na Seção 3.1, se a política obtida pelo
Algoritmo HL for periódica, ou seja, se R = (f1, f2,..., f L-1, fL)¥, propõe-se
a seguinte heurística:
* extraem-se todas as políticas estacionárias possíveis a partir das regras
de decisão da política periódica obtida, ou seja, f1, f2,..., fL-1, f L;
* calcula-se o custo de cada uma destas políticas estacionárias;
* comparam-se os custos e escolhe-se a política estacionária caracterizada
pela regra de decisão de menor custo.
A política assim obtida é admissível e será adotada como uma solução sub-ótima
para o problema.
4. Modelo com Informação Parcial
Considera-se um modelo com informação parcial em que nos instantes de decisão
as informações disponíveis são o número de máquinas na linha de produção, o
número de máquinas de reserva, o número de máquinas quebradas, o estado do
servidor 1 e o estado do servidor 2. Não se tem nenhuma informação sobre as
fases de reparo do servidor 1 e as fases de reparo do servidor 2.
Para este modelo consideram-se somente políticas admissíveis, ou seja,
políticas que determinam a mesma ação para todos os estados de um mesmo
subconjunto da partição.
Analogamente ao modelo anterior, neste modelo com informação parcial existe a
possibilidade de utilizar os dois servidores, lento e rápido, simultaneamente.
Então, quando o sistema muda de um conjunto da partição para outro deve-se
escolher entre não utilizar nenhum servidor, utilizar o servidor lento, o
servidor rápido (supostamente mais caro) ou ambos os servidores.
Portanto, o espaço de estados E é particionado em subconjuntos E(m,r,q,s1,s2)
tal que, para m = 0, 1,..., M; r = 0, 1,..., Mr; q = 0, 1,..., M+Mr; s1 Î
{D, Ao, Ae}; s2 Î{D, Ao, Ae}, tem-se que:
E(m,r,q,s1,s2) = { (m',r',q',s'1,s'2,f'1,f'2) Î E /
m' = m, r' = r, q' = q, s'1 = s1, s'2 = s2}
Neste modelo com informação parcial, consideram-se os mesmos custos do modelo
com informação completa. Para se obter a política admissível de custo mínimo
utiliza-se o Algoritmo HL.
5. Exemplo
Nesta seção analisam-se os modelos descritos nas Seções 2 e 4 considerando-se
os seguintes parâmetros para o sistema modelado:
máquinas na linha de produção (M= 8)
máquinas de reserva (Mr= 4)
quebra de cada máquina: tempo médio = 3,33 Þ l = 0,3
reparo tipo 1: tempo médio = 0,5; desvio padrão = 0,25
n1 =4 m11 =m12 =m13=m14 =8
p11 = p12 = p13 = p14 =1
reparo tipo 2: tempo médio = 0,25; desvio padrão = 0,1
n2 =7 m21 =m22 =m23=m24 =m25 =m26 =m27= 25
p21 = p22 = p23 = p24 = p25 =1,p26 =0,25, p27 = 1
constantes de custo:
l = 200 h = 10 e1 = 100 e2 = 400 ca1 = ca2 = 10 cm1 = cm2 = 0
Estes parâmetros foram considerados por já terem sido utilizados em trabalhos
anteriores do autores (Carvalho, 1987; Rodrigues et al., 1994).
Considerando-se os dados anteriores, no modelo com informação completa, o custo
médio do sistema a longo prazo foi de 181,98 sob a política ótima apresentada
na Tabela_1.
O símbolo "---" utilizado nas tabelas significa que a ação escolhida
independe do valor da variável correspondente à coluna.. Por exemplo, na Tabela
1 se existem de 4 a 12 máquinas quebradas, independente dos valores de s1, s2,
f1 e f2, a ação escolhida é AA, ou seja, ativar ambos os servidores.
No modelo com informação parcial, o custo médio mínimo obtido foi de 182,63 sob
a política apresentada na Tabela 2. Como esta política é estacionária, não foi
necessário utilizar a heurística apresentada na Seção 3.2 deste trabalho.
Na Tabela 3 apresenta-se uma comparação de medidas de desempenho obtidas no
modelo com informação completa e no modelo com informação parcial sob as
políticas apresentadas nas Tabelas 1 e 2.
A política descrita na Tabela 2 acarreta um custo 0,36% maior que o obtido ao
se aplicar a política da Tabela 1. Este aumento se deve ao fato de no modelo
com informação parcial, por não se levar em conta a fase do reparo, utilizou-se
mais o servidor 1. Este servidor, embora mais barato, é mais lento e por isto
aumentou-se o número de máquinas quebradas e, conseqüentemente, o custo de
perda de produção e o custo de espera no sistema de reparo.
5.1 Análise da influência dos parâmetros nos custos
Nesta seção analisam-se os modelos descrito nas Seções 2 e 4 variando-se alguns
parâmetros considerados na Seção 6.1.
Inicialmente, variou-se o número de máquinas de reserva. Na Tabela_4 são
apresentados os custos obtidos para ambos os modelos quando se variou o número
de máquinas de reserva de zero (sistema sem máquinas de reserva) até oito
(número de maquinas de reserva igual ao número de máquinas na linha de
produção).
Na Tabela_5 apresentam-se os custos obtidos quando se considerou o sistema com
quatro máquinas de reserva e variou-se a taxa de quebra das máquinas.
Como a maior diferença observada entres os custos obtidos para ambos os modelos
foi quando se considerou o sistema com duas máquinas de reserva, realizou-se um
experimento variando-se a taxa de quebra de máquinas para este sistema. Os
resultados obtidos estão apresentados na Tabela_6.
Dos exemplos apresentados, aquele em que se obteve a maior diferença entre os
custos obtidos para o modelo com informação completa e para o modelo com
informação parcial foi quando se considerou o sistema com duas máquinas de
reserva e taxa de quebra das máquinas igual a 0,3. Na Tabela_7 são apresentadas
as medidas de desempenho para este sistema.
Observando-se os custos incorridos com os diversos experimentos realizados, nos
quais vários parâmetros foram variados, nota-se que as diferenças não foram
significativas, sendo que no máximo o custo incorrido com o modelo de
informação parcial foi 1,89% maior que o incorrido com o modelo com informação
total.
6. Comentários
O tratamento matemático analítico e computacional de sistemas onde os eventos
relevantes ocorrem em intervalos de tempos não exponenciais são muitos
complexos. Para contornar algumas dificuldades de modelagem propõe-se a
utilização da distribuição PH com configuração de Cox para modelar estes
tempos. A distribuição PH com configuração de Cox é uma mistura de
distribuições exponenciais com diferentes médias. A grande vantagem da
utilização destas distribuições é o fato de elas aproximarem bem qualquer
variável aleatória contínua positiva.
Por ser a distribuição PH construída a partir de componentes exponenciais
(fases) pode-se modelar sistemas por processos markovianos de decisão, bastando
para isto supor que as fases são observáveis e tomar as decisões nos instantes
de final de fases.
Em sistemas reais dois casos podem ocorrer: as fases são realmente observáveis
(por exemplo, no sistema analisado neste trabalho, o reparo seria executado em
duas etapas: 1 ' diagnóstico do defeito e reparo menores e 2 ' reparos maiores)
ou as fases são um artifício matemático para aproximar distribuições não
exponenciais negativas. No primeiro caso, a hipótese de se observar as fases é
realística mas no segundo não corresponde à realidade.
A questão que se coloca, portanto, é como tomar decisões em final de fases que
não são observáveis. A solução proposta neste trabalho é modelar o sistema por
um processo markoviano de decisão com informação parcial e utilizar o algoritmo
apresentado em Hordijk & Loeve (1994) para obtenção da política admissível
de custo mínimo. Quando esta política é periódica, propõe-se uma heurística
para obtenção de uma política admissível estacionária.
Deste modo, neste trabalho, considerou-se um sistema que foi modelado
admitindo-se que as fases de reparo são observadas ' modelo com informação
completa ' e que estas não são observadas ' modelo com informação parcial.
Testes computacionais foram realizados utilizando dados numéricos e observou-se
que, no modelo com informação parcial, o custo médio a longo prazo do sistema
teve um aumento de no máximo 1,89% quando comparado com o custo obtido no
modelo com informação completa. Este aumento pode ser dependente dos dados
considerados e se deve ao fato que as fases não são observáveis. Finalmente
salienta-se que para os experimentos computacionais realizados, utilizou-se uma
biblioteca de classes desenvolvida por um dos autores em linguagem C++.
Talvez seja interessante comentar que para obtenção dos parâmetros das
distribuições PH várias autores têm utilizado o método dos momentos, o método
da máxima verossimilhança e o método da minimização de distâncias. Os
procedimentos baseados em ajustes de momentos podem ser divididos em dois
grupos distintos: o método dos momentos tradicional onde se utiliza os momentos
de baixa ordem, média e desvio padrão (Tijms, 1994 e Lima, 1997), e as técnicas
nas quais momentos de mais alta ordem são ajustados (Carvalho, 1991). O método
dos momentos pode ser usado tanto para estimar parâmetros a partir de dados
amostrais como para obter parâmetros para uma distribuição PH que aproxime uma
distribuição contínua e positiva dada. O método da máxima verossimilhança foi
empregado em Carvalho (1991) para estimação de parâmetros a partir de dados
amostrais e em Bobbio & Cumani (1992) para obtenção de parâmetros a partir
de uma distribuição dada, para isso, esta referência se serve da geração de
amostras sistemáticas. Em Miranda (1996) é proposto um método de minimização de
distância estocástica para obtenção dos parâmetros de uma distribuição PH a
partir de uma distribuição dada.
O problema da obtenção de parâmetros das distribuições PH foge do escopo deste
trabalho. Assim, para a construção dos modelos apresentados, optou-se por supor
conhecidos os parâmetros e fornecê-los aos modelos.