Separação de espectros simulados e de luminescência total através do método
generalizado de anulação do posto (GRAM)
1. INTRODUÇÃO
O desenvolvimento de instrumentos combinados1,2, como cromatografia líquida de
alta eficiência ("CLAE") tendo como detector um espectrofotômetro UV-
Visível com arranjo de díodos, espectros de emissão-excitação, etc., tem
colocado o químico frente a uma grande quantidade de informações numéricas, que
possuem expressivos valores quantitativos e qualitativos. Nestes exemplos
citados, as respostas experimentais são classificadas como dados de ordem
superior3 e para seu tratamento estatístico a quimiometria tem desenvolvido
vários métodos como o GRAM4 do inglês "Generalized Rank Annihilation
Method", PARAFAC5 do inglês "Parallel Factor Analysis"e TLD6 do
inglês "Trilinear Decomposition". Estes métodos podem ser aplicados
em calibração tensorial7 e na separação de sinais8, necessária quando ocorre
sobreposição de espectros.
O principal objetivo deste trabalho é a divulgação da quimiometria, mostrando a
possível utilização de ferramentas matemáticas, estatísticas e computacionais,
aplicadas em conjunto, na solução de problemas experimentais. Para isto, foi
escolhido o Método Generalizado de Anulação do Posto ou GRAM, que é a extensão
desenvolvida por Wilson, Sanchez e Kowalski aos primeiros métodos de anulação
do posto9. O GRAM se aplica ao caso geral onde não é necessário que as duas
amostras analisadas tenham todas as substâncias em comum. Neste caso, a
separação de sinais e calibração tensorial são conseguidas através da resolução
de um problema generalizado de autovalores-autovetores4,10.
A primeira aplicação do GRAM é apresentada com dados simulados e a segunda tem
como objeto de trabalho espectros de luminescência total coletados para
amostras de cálculo dentário em felinos e humanos.
A simulação é importante para a apresentação do método, pois com ela a
compreensão das técnicas algébricas é facilitada, também por ser possível
apresentar a diferença entre a solução matemática para dados perfeitos, neste
caso aqueles simulados, e dados experimentais.
2. O MÉTODO GENERALIZADO DE ANULAÇÃO DO POSTO
Para facilitar a compreensão das técnicas algébricas utilizadas no GRAM, foi
simulado um conjunto de espectros, representando as respostas de um experimento
hipotético. Neste experimento, as amostras Me N, constituídas por misturas das
substâncias químicasAeB, são submetidas à cromatografia líquida, cujo detector
é um espectrofotômetro. Desta forma, a cada tempo de eluição é coletado um
espectro de intensidade de absorção. Os cromatogramas foram simulados contendo
vinte tempos de eluição, de 0 a 20 minutos com 1 minuto de intervalo, e os
espectros em cinqüenta comprimentos de onda, 400-449nm com intervalo de 1nm. Os
espectros e cromatogramas foram normalizados pelo maior pico, isto é, os
valores encontrados nos cromatogramas e espectros foram divididos pelos valores
de seus respectivos máximos. A Figura_1 apresenta as curvas, cromatogramas e
espectros, para as duas substâncias hipotéticas.
Admitindo que a Lei de Beer11é seguida e considerando o caminho ótico igual a
um centímetro, a relação entre absorbância em cada comprimento de onda e o
respectivo tempo de eluição, será dada pela equação (1).
aki =cA tk bi,
(1)
onde: akié a absorbância no tempo de eluição k e no comprimento de onda i.
cAé a concentração da substância A,(mol l-1).
tké a constante referente ao tempo de eluição k.
bié a absortividade molar no comprimento de onda i, (lmol-1cm-1).
Para k tempos de eluição e i comprimentos de onda tem-se a equação (2).
onde A é uma matriz (kX i) na qual as linhas correspondem a espectros de
absorbância. Graficamente esta matriz representa uma superfície de resposta.
Para uma dada amostra S, constituída pela mistura das substâncias AeB, os
espectros coletados correspondem à soma dos espectros de AeB,em suas
respectivas concentrações. Em termos matriciais esta amostra é representada
pela equação (3).
S = X C Yt, (3)
obs.: o símbolo "t" em Yt indica que a matriz está transposta.
Onde: S é uma matriz contendo os espectros e representa uma
superfície de resposta para a amostra S;
X é uma matriz na qual as colunas correspondem aos cromatogramas, normalizados
para concentração unitária, das substâncias puras;
C é uma matriz diagonal contendo concentrações das substâncias puras;
Y é uma matriz onde as colunas correspondem às absortividades molares das
substâncias puras;
A equação (3) pode ser estendida ao caso geral para este tipo de dados. Por
exemplo, X poderia representar espectros de intensidade de excitação, Y
espectros de intensidade de emissão e C as concentrações das espécies
luminescentes.
Para a aplicação do GRAM são necessárias duas amostras, constituídas por
misturas de substâncias químicas comuns, mas em concentrações diferentes. Desta
forma, os cromatogramas e espectros simulados para as substâncias AeB foram
colocados em suas formas matriciais e substituídos na equação (3) (ver equações
(3.1) e (3.2)), para dar origem a duas matrizes de espectros simulados
correspondentes às amostras hipotéticas Me N. As concentrações usadas para AeB
são as seguintes:
-Para M: 2 unidades de concentração de Ae 5 unidades de concentração de B;
-Para N: 7 unidades de concentração de Ae 3 unidades de concentração de B.
onde: tAke tBk são as constantes dos tempos de eluição para as substâncias
AeB,respectivamente, ou seja, os valores correspondentes aos pontos das curvas
simuladas para cromatogramas.
bAie bBi são as absortividades molares para as substâncias AeB,respectivamente,
ou seja, os valores correspondentes aos pontos das curvas simuladas para
espectros.
A Figura_2 apresenta as superfícies das amostras MeN.
Em termos vetoriais os espectros correspondentes a estas amostras são
combinações lineares8,12,13 dos espectros das substâncias puras AeB. Como as
amostras Me N diferem entre si apenas nas concentrações das substânciasAeB,
então suas matrizes correspondentes podem ser representadas pelo mesmo conjunto
de autovetores12,13,14, mas com autovalores12,13,14 diferentes, equações (4) e
(5).
MY = YlM, (4)
NY = YlN, (5)
onde: Y é a matriz de autovetores e l é a matriz de autovalores;
Como a matriz de autovalores é uma matriz diagonal e sua inversa é a matriz
diagonal cujos elementos são os inversos dos autovalores, pode se escrever as
equações (6) e (7).
MYlM-1 = Y, (6)
NYl
N-1= Y, (7)
A igualdade dos autovetores nas equações (6) e (7) permite que se igualem os
lados esquerdos destas equações resultando na equação (8) e, por conseguinte, a
equação (9).
MY lM-1 =N
Yl
N-1, (8)
M Y = N Yl
N-1lM,(9)
O produto dos autovalores, lN-1lM , resulta em uma matriz diagonal representada
pela equação (10), onde, L é a matriz cujos elementos são dados pela relação
entre os autovalores, que representam as concentrações das substância AeB, das
matrizes correspondentes às amostras Me N.
L=lN-1lM, (10)
A substituição da equação (10) na equação (9) dá origem à equação (11):
MY =NY L, (11)
A equação (11) representa um problema de autovetores-autovalores
generalizado10,14. Para sua solução, as matrizes devem ser quadradas e não pode
existir correlações entre colunas e entre linhas, evitando assim que seus
determinantes12,13sejam iguais a zero. Para evitar correlações, as matrizes Me
N devem ser projetadas em uma base ortogonal12,13, porque assim as linhas e
colunas passam a ser representadas por vetores linearmente independentes12,13.
Uma base ortogonal pode ser encontrada através de uma decomposição em valores
singulares13,14.
Após a decomposição, a matriz original passa a ser representada pelo produto de
três matrizes, duas ortonormais e uma diagonal. As ortonormais possuem seus
vetores ortogonais entre si e com módulo unitário12,13. A matriz diagonal
possui os valores singulares da matriz original.
Como a base do espaço vetorial12,13 deve ser a mesma para as duas matrizes
correspondentes às amostras Me N , então é necessário usar informações destas
duas para efetuar a decomposição em valores singulares. Para tal, são criadas
as matrizes justapostas (M|
N
), M ao lado deNe M acima deN.As equações (12) e
(13) apresentam as decomposições para as matrizes justapostas.
(M |N)=P Z1Vt , (12)
onde U, P, Ve Qsão as matrizes ortonormais e Z1eZ2 as matrizes diagonais com os
valores singulares.
A Tabela_1 apresenta os cinco primeiros valores singulares para as
decomposições das matrizes correspondentes aos espectros simulados. Destes
valores singulares, apenas dois são diferentes de zero porque só existem duas
substâncias diferentes nas amostras Me N, ou seja, apenas dois vetores
linearmente independentes são necessários para formar uma base para estas
matrizes.
Os quadrados dos valores singulares estão ligados à proporção da variação nos
novos vetores15, ou seja, quanto cada novo vetor esta sendo importante na
representação das matrizes originais. Desta forma, os valores singulares são
dispostos na matriz diagonal de forma decrescente, isto é, daquele de maior
importância para o de menor. Portanto, para Me N onde apenas dois vetores
ortogonais são necessários para descrever as matrizes originais, só os dois
primeiros valores singulares correspondentes aos vetores de maior importância
serão diferentes de zero. O número de valores singulares diferentes de zero é
igual ao posto da matriz.
A relação entre valor singular e variação dos dados também explica a grande
importância do primeiro valor singular da Tabela_1. Tal importância é devida ao
fato de o vetor, correspondente ao primeiro valor singular, ter a mesma direção
que o vetor média dos espectros, onde esta presente a maior variação dos dados,
resultando assim em uma alto valor singular.
Em se tratando de dados experimentais, com a presença de ruídos, o número de
valores singulares diferentes de zero não será igual ao posto da matriz, pois
um número maior de vetores ortogonais será necessário para descrever tais
ruídos8,15. Por este motivo, é necessário escolher o número de vetores
importantes para a representação da matriz original e eliminar aqueles usados
para descrever os ruídos.
Para mostrar tal influência dos ruídos, um novo conjunto de dados foi gerado a
partir dos espectros e cromatogramas já simulados. Mas agora, com a adição de
interferentes e ruídos gerados aleatoriamente com média igual a zero e
variância um. Na Figura_3 são mostrados os espectros e cromatogramas dos
interferentes, as superfícies após a adição de ruídos e interferentes.
A Tabela_2 apresenta os valores singulares para esta última simulação, onde se
pode verificar que a variação, a partir do terceiro valor singular, é menos
"significativa", se comparada com aquela existente entre o primeiro e
o segundo valores. Para facilitar a compreensão da significância dos valores
singulares, vale lembrar o exemplo dos espectros simulados sem interferentes e
ruídos, onde de 0,9192 no primeiro valor singular caiu para 0,0808 no segundo e
depois para zero no terceiro valor singular, permanecendo constante nos valores
seguintes, ou seja a variação igual a zero. Agora voltando ao caso da simulação
com ruídos e interferentes, a variação entre o primeiro e o segundo valores
singulares é de 0,8087 para 0,0707 e deste para 0,0117 o terceiro valor
singular, de onde a variação passa a ser praticamente constante semelhante ao
primeiro exemplo simulado. Ainda sobre os valores citados nestas comparações,
eles correspondem às matrizes justapostas verticalmente e lateralmente para
simulações com e sem ruídos e interferentes. Aquela queda na significância da
variação entre valores singulares, é uma indicação de que apenas os dois
primeiros vetores, correspondentes aos dois primeiros valores singulares, são
importantes para descrever as matrizes justapostas.
Conhecido o número de vetores necessários para formar a base para as matrizes
Me N, são feitas as projeções mostradas nas equações (14) e (15), onde: Mpq
eNpq são as matrizes correspondentes a Me N na nova base.
obs.: O traço acima dePe Q indica que estão truncadas, isto é, só os vetores
importantes estão sendo usados, tendo sido eliminados aqueles correspondentes
aos ruídos experimentais.
Agora o problema de autovetores-autovalores generalizado, equação (16), pode
ser resolvido, pelo algoritmo QZ10.
MpqY =NpqY L, (16)
A matriz de cromatogramas será dada pela equação (17) e a de espectros pela
equação (18).
X = P (Mpq + Npq) Y, (17)
Y = Q (Y -1)t,(18)
A Figura_4 apresenta o resultado para o conjunto de dados simulado, sem ruído e
interferentes. A proporção das concentrações L é 3,5 e 0,6 que correspondem a 7
unidades de concentração em N dividido por 2 unidades de concentração em M para
a substância A e 3 unidades de concentração em N dividido por 5 unidades de
concentração em M para a substância B.
No segundo conjunto de dados simulados, com interferentes e ruídos, o GRAM foi
aplicado para posto das matrizes igual a dois e depois igual a três. Estes dois
testes têm por objetivo mostrar que o terceiro vetor será usado para descrever
ruídos e interferentes. Os resultados destes testes são mostrados na Figura_5
onde é verificada a distribuição aleatória no terceiro vetor.
3. RESULTADOS E DISCUSSÃO
O conjunto de dados experimentais é constituído por amostras de cálculo
dentário, uma de felino e outra humana. Seus espectros foram coletados de
amostras pesando em torno de 0,01g, dissolvidas em 5ml de ácido clorídrico a
27%, sem filtração, apenas com decantação16. O instrumento usado foi um
espectrofluorímetro Perkin-Elmer LS50, com lâmpada de xenônio para a excitação
e cubeta de 1cm. Este instrumento conta com um monocromador para excitação e
outro para emissão16. A região espectral envolvida, no caso da emissão, inicia-
se em 460nm indo até 750nm com intervalos de 0,5nm. Em relação à excitação, o
comprimento de onda inicial foi fixado em 390nm variando até 450nm, sendo que o
intervalo é de 2 nm. As Figuras_6e 7 apresentam as superfícies resultantes para
estas duas amostras.
Os espectros de emissão apresentam espalhamento Raman na região entre 460 a
580nm e também uma provável fluorescência residual. Já a amostra humana, também
apresenta deslocamento em relação à linha de base (Fig._8). Assim, a região a
ser trabalhada foi limitada entre 584nm e 709nm (Fig._8), pois abaixo de 580nm,
ocorre o espalhamento Raman e a fluorescência residual, e acima de 709nm a
intensidade de emissão é muito baixa, ou seja, da ordem do ruído experimental.
Em se tratando da correção para a linha de base, uma curva foi ajustada ao
espectro menos intenso da amostra humana, para que, ao ser subtraída dos
espectros desta amostra, a intensidade em 584nm tivesse valor próximo ao valor
em 709nm, semelhante ao que ocorre na amostra referente aos felinos. A Figura_9
mostra os espectros de emissão e excitação para a amostra humana antes e depois
da correção da linha de base.
Os valores singulares destas amostras, apresentados na Tabela_3, mostram uma
queda na variação entre eles a partir do quarto valor singular. Para os dados
simulados, a queda na variação entre os valores singulares ocorreu quando os
vetores, correspondentes a estes valores, passaram a descrever ruídos e
interferentes. Sendo assim, uma analogia entre tais valores, simulados e
experimentais, sugere que o posto para as matrizes referentes aos dados
experimentais deva ser três. Este valor para o posto será confirmado após a
aplicação do Método Generalizado de Anulação do Posto, ou seja, primeiro
aplicado considerando o posto igual a três e depois igual a quatro, seguindo a
metodologia adotada para os dados simulados.
Outro fato a ser verificado é se as mesmas substâncias estão presentes nas duas
amostras. Para isto, os valores singulares das matrizes originais são
comparados com aqueles obtidos para as matrizes justapostas. Desta maneira, se
o número de vetores linearmente independentes para descrever as matrizes em
separado for igual ao das justapostas é uma indicação de que as mesmas
substâncias são as constituintes das duas amostras. A Tabela_4 apresenta os
valores singulares obtidos para as amostras de cálculo dentário humano e felino
quando justapostas.
Para confirmar o posto das matrizes o GRAM foi aplicado, primeiro considerando
o posto com sendo igual a três e depois igual a quatro. Os resultados para o
primeiro teste são espectros com significado químico, isto é, positivos e com
picos distintos (Figura_10). No segundo teste, para posto igual a quatro, dois
espectros de excitação possuem os seus máximos no mesmo comprimento de onda, ou
seja, destes dois apenas um tem sentido químico, no caso da identificação pelo
comprimento de onda do máximo da banda (Figura_10). Sendo assim, para a
resolução empregada na excitação é possível identificar três espectros
diferentes, o que indica existência de três espécies luminescentes. Pode se
verificar ainda, a presença de três espécies semelhantes nas duas amostras,
pois o posto para as matrizes justapostas é três e as distribuições dos valores
singulares correspondentes às duas amostras são praticamente iguais (Tabelas_3
e 4).
Os espectros de excitação mostrados na Figura_9, são os responsáveis pela
caracterização destas três espécies, por aparecerem na região da banda Soret
característica de espécies porfirínicas17. Os comprimentos de onda
correspondentes aos máximos nos espectros de excitação resolvidos pelo método
são: 410nm, 418nm e 434nm; semelhantes àqueles encontrados para felinos e
caninos16, 410nm, 417nm, 436nm.
4. CONCLUSÕES
A apresentação do Método Generalizado de Anulação do Posto em conjunto com os
dados simulados é importante, principalmente, para a interpretação da
decomposição em valores singulares. Isto por mostrar que, na ausência de ruídos
e interferentes, o número de valores singulares diferentes de zero é igual ao
número de substâncias presentes nas amostras, cujas matrizes foram decompostas.
Outro fato que reafirma tal importância, é a comparação dos valores singulares
resultantes da decomposição feita após a adição de interferentes e ruídos aos
dados simulados com aqueles encontrados para os dados experimentais. Esta
comparação mostra que a variação entre os valores singulares, usados para
descrever os ruídos e interferentes, não é significativa frente àquela variação
encontrada para os valores singulares importantes na descrição da matriz
original, fato este que serve de parâmetro na escolha do posto das matrizes. Em
se tratando desta escolha, também é importante o conhecimento químico, o que é
verificado nos dados experimentais, onde a confirmação do posto está
diretamente ligada ao fato de serem os espectros de excitação os responsáveis
pela identificação das espécies luminescentes presentes nas amostras. Cabe
ressaltar ainda que, a discussão teórica a respeito do método tem por objetivo
mostrar a confiabilidade de seus resultados, comprovada através das aplicações
tanto para dados simulados quanto para dados reais.
A grande vantagem que o GRAM apresenta é uma solução matemática, de rápida
aplicação e com um baixo custo computacional, sendo que, a determinação destas
substâncias por um tratamento químico, no que diz respeito a sua separação,
poderia ser mais dispendiosa em tempo e custos operacionais, ou até mesmo
inviável. Ainda sobre sua aplicação, o GRAM exige do químico a compreensão do
problema a ser resolvido e o conhecimento de fundamentos básicos a seu
respeito, não existindo assim, a necessidade de se especializar em álgebra para
sua manipulação.
Além destas duas aplicações o GRAM pode ser empregado nos mais variados tipos
de experimentos envolvidos em pesquisas, principalmente na química analítica,
que enfrentem problemas de separação de curvas. Como por exemplo análises por
injeção em fluxo utilizando fotodetectores com arranjo de díodos e outro
experimentos que empreguem instrumentos combinados18.
Outro fato que favorece a utilização do GRAM é sua fácil implementação
computacional, podendo ser feita através de programas especiais para álgebra
linear como por exemplo OCTAVE ou MATLAB.
Os algoritmos utilizados foram escritos usando rotinas internas do pacote
MATLAB para Windows.