TOP - um programa de cálculo de descritores topológicos para uso em correlações
entre estrutura e atividade
INTRODUÇÃO
Métodos para obtenção de correlações quantitativas entre estrutura molecular e
atividade(QSAR) e/ou propriedades (QSPR) baseiam-se em três hipóteses básicas.
A primeira é que a estrutura de uma molécula, quer nos aspectos estéricos quer
nos aspectos eletrônicos, deve conter as informações responsáveis por suas
propriedades físicas, químicas ou biológicas. A segunda hipótese é que estas
informações podem ser representadas de forma quantitativa por parâmetros
numéricos para a atividade e/ou propriedade. Por fim, a possível correlação
entre a estrutura molecular e a atividade/propriedade que se quer otimizar deve
ser expressa em termos de relações matemáticas simples que permitam ao mesmo
tempo fazer previsões de atividade/propriedade para sistemas análogos e, mais
importante, permitam uma interpretação do processo em termos químicos2. A
essência dos métodos QSAR é, portanto, transformar a estrutura química de um
composto em uma série de descritores numéricos que representem as
características mais relevantes para uma dada atividade/propriedade e,
adicionalmente, estabelecer relações quantitativas entre os descritores e a
atividade/propriedade que se quer otimizar.
A possibilidade de que a atividade e/ou propriedade seja uma função da
estrutura molecular é uma hipótese intuitiva e vastamente discutida3. A segunda
hipótese acima, qual seja, que a estrutura de uma molécula seja representada
quantitativamente por descritores é menos intuitiva e também de ampla
discussão4. Existe uma variedade de procedimentos para representar estrutura em
termos de descritores, os quais, em maior ou menor grau, contêm as propriedades
relevantes da estrutura molecular. Dentre as várias metodologias disponíveis
para representação de estrutura molecular em termos de parâmetros numéricos,
uma que merece destaque é a que procura representar uma molécula em termos de
informações contidas em sua estrutura bidimensional, essencialmente aquelas
relacionadas à conectividade atômica que dão origem à estrutura molecular.
Estes parâmetros são conhecidos de uma forma geral como índices topológicos5.
Índices topológicos têm encontrado considerável sucesso na previsão de uma
grande variedade de propriedades físicas, químicas ou biológicas5. Propriedades
tais como calor de vaporização5, calor de formação5,ponto de ebulição6,7,
refração molar6,solubilidade7, densidade8, coeficiente de partição9,
polaridade, tempo de retenção em cromatografia10,11,etc., têm sido
correlacionadas com descritores derivados dos índices topológicos. Estes
índices também vêm sendo empregados na obtenção de correlação com diferentes
atividades biológicas, podendo-se citar anestésicas12,13,14, narcóticas4,
halucinogênicas15, inibições enzimáticas5,16, bromatológicas17, analgésicas18,
anticonvulsivantes19, etc.
O cálculo de uma série de descritores topológicos para um conjunto de moléculas
é, do ponto de vista matemático, consideravelmente simples, contudo, pode
tornar-se uma tarefa laboriosa e com grande chance de erro se aplicada
manualmente a um grande número de moléculas, principalmente quando estas
possuem estrutura complexa. O emprego de metodologias computacionais é portanto
recomendável não apenas pela redução no tempo necessário para tratar um
determinado número de moléculas, mas principalmente, por evitar a chance de
erro na obtenção dos descritores. Embora algumas metodologias computacionais
para o cálculo de descritores topológicos tenham sido descritas na literatura,
estas não são gerais e nem sempre são de fácil acesso20,21. O presente trabalho
apresenta uma metodologia simples, de fácil emprego pelo usuário e de aplicação
generalizada para cálculo de descritores topológicos, principalmente aqueles
desenvolvidos por Kier e Hall4,5, conhecidos como índices de conectividade
molecular.
TEORIA DOS ÍNDICES TOPOLÓGICOS
Os índices topológicos baseados na conectividade molecular são de três tipos:
índices chi de conectividade molecular, mc, que caracterizam atributos
estruturais da molécula; índices kappa de forma molecular, mk, e os valores de
equivalência topológica T, que caracterizam átomos e grupos no esqueleto
molecular e que são usados essencialmente para determinar átomos quimicamente
equivalentes dentro de uma molécula4,5. Outros tipos de índices também merecem
destaque, podendo-se citar, por exemplo, os índices eletrotopológicos22.
A análise da estrutura molecular do ponto de vista da conectividade começa pela
adoção de uma representação apropriada para esta estrutura. Esta representação
é baseada no esqueleto molecular, o qual contém a rede de ligações químicas,
incluindo os átomos e as conexões entre eles. Tal representação é chamada de
gráfico molecular. Este por sua vez é constituído de vértices, representados
pelos átomos, e lados, representados pelas ligações. A série de átomos e
conexões, no gráfico molecular, contém informação estrutural a qual deve ser
transformada em um índice numérico que pode ser usado para representar a
estrutura molecular. Os índices devem contemplar principalmente os elementos
que são variáveis com a estrutura.
O menor nível de informação estrutural em um gráfico molecular é simplesmente o
número de vértices. Obviamente este é um índice com baixíssimo conteúdo de
informação. Outros índices com maior grau de informação podem ser abstraídos a
partir do gráfico molecular. Índices que representam simplesmente o número de
lados (índice de Wiener) ou o número de pares de lados adjacentes (índice de
Platt23) em um gráfico molecular são exemplos de índices simples mas que podem
fornecer interessantes correlações com uma série de propriedades. O avanço
natural é no sentido de desenvolver índices que incluam maior quantidade de
informação estrutural. Neste sentido, Randic introduziu o conceito de grau de
vértice, d, o qual, para um dado vértice, é definido como o número de vértices
vizinhos24. Por exemplo, o grupo metila possui apenas um vizinho, portanto d =
1; um grupo metileno tem dois vizinhos, d = 2, e daí por diante. Randic também
propôs um peso para o lado entre os vértices i e j, definindo-o por (di.dj)-1/
2 . A partir deste ponto pode-se definir um índice de ramificação como a soma
dos pesos dos lados, para todos os lados em um gráfico molecular, (S(di.dj)-1/
2 ).
Expressando matematicamente, cada lado entre os vértices i e j é caracterizado
por um número definido como:
(1)
onde Ci jé o peso entre os vértices i e j e di é o grau do vértice i.
O índice de ramificação ou de conectividade molecular, c é obtido fazendo-se a
soma de todos os Ci j.
<formula/> (2)
A generalização do índice de Randic foi feita por Kier e Hall. Estes definiram
o índice c em várias ordens, mc, em função do número de lados considerados em
cada caso, como pode ser mostrado pelas equações a seguir:
<formula/> (3)
<formula/> (4)
<formula/> (5)
Segundo Kier e Hall o índice c, em cada ordem, representa uma característica
distinta da estrutura molecular. Para ordens maiores que 2 foram definidos
novos índices de conectividade que levam em consideração os tipos de
subestruturas consideradas. Desta forma, pode-se ter sequências do tipo linha
(cL), ramo(cR), linha/ramo(cLR) ou anel(cA), dependendo da molécula apresentar
ramificações ou ciclos, como exemplificadas no esquema 1.
Os índices de conectividades, como definidos acima, não conseguem distinguir
entre diferentes átomos nem entre diferentes hibridizações. Por exemplo, o p-
nitrotolueno (a) e o limoneno (b) apresentam o mesmo gráfico molecular (c) e
portanto índices de conectividades iguais (Figura_1).
Para corrigir estas deficiências Kier e Hall sugeriram a definição do grau de
vértice (d) não mais em função do número de lados vizinhos ao vértice mas em
função da valência do átomo representado pelo vértice25. Desta forma o grau de
vértice é definido por:
<formula/> (6)
onde:
Zvi = número de elétrons de valência do átomo i;
hi= número de átomos de hidrogênios ligados ao átomo i; e
Zi = número atômico do átomo i.
A relação acima leva a uma definição equivalente à anterior para carbonos
saturados, mas distingue claramente a presença de insaturações ou de
heteroátomos (Figura_2).
Com base no grau de vértice dv, calcula-se o índice de conectividade de
valência de várias ordens, mcv, de forma similar à definida anteriormente,
conforme mostrados nas equações 3, 4 e 5.
As relações expressas acima definem o cálculo dos índices de conectividade
conforme desenvolvido por Kier e Hall7,8. No presente trabalho outros índices,
o índice de Wiener e o índice de Schultz26 foram também incluídos. Estes são
calculados de forma simples. O índice de Wiener é definido como a soma das
menores distâncias entre todos os vértices em um gráfico molecular e é
calculado a partir da matriz de distâncias como a soma de todos os elementos ai
j/2.
O índice de Schultz (Molecular Topological Index-MTI) é definido como:
onde, ei (i = 1, 2, ...N) são os elementos da matriz de ordem N n.[A + D] =
[e1, e2 ...eN ], onde A é a matriz adjacência (N x N), D é a matriz distância
(N x N) e n a matriz grau de vértice (1 x N). n é obtida pela soma das colunas
ou linhas da matriz adjacência.
METODOLOGIA
A motivação para o presente trabalho foi o desenvolvimento de uma interface
computacional capaz de calcular índices de conectividade de todas as ordens e,
o maior espectro possível, de outros índices topológicos, a partir de
informações elementares e facilmente acessíveis sobre estrutura molecular.
Atualmente existem vários pacotes computacionais que geram estruturas
moleculares bidimensionais com relativa simplicidade. A partir da estrutura
gerada no terminal de um computador, pode-se obter diferentes tipos de formatos
de entrada de gráficos moleculares, de programas tais como: MOPAC, PCModel,
alchemy, gaussian, etc. Dentre estes formatos, o que se mostrou mais adequado
para o presente trabalho foi o formato sybyl, gerado pelo PCModel27, que traz
informações sobre número e tipo de átomos, coordenadas cartesianas e
conectividades.
O primeiro passo é a leitura de arquivos no formato sybyl (Esquema 2), gerado
por programa de computador que desenha a estrutura molecular32. A partir da
leitura armazenam-se as informações relativas aos elementos químicos e suas
conectividades (ligações químicas) e compõe-se as matrizes e os vetores
computacionais, estabelecendo-se os procedimentos lógicos de cálculo,
independente do tipo de estrutura, cíclica ou acíclica.
Priorizou-se nesta etapa o desenvolvimento de uma sequência de programa (Figura
3) e os algoritmos necessários para esta implementação, independentemente da
linguagem que fora utilizada (Clipper).
O arquivo de formato sybyl (*.mol) para a molécula do p-nitrotolueno, tomada
como exemplo para demonstrar as várias etapas do código, é mostrado no Esquema
2 e os dados em negrito são aqueles usados como entrada para construção de uma
matriz de conectividade no padrão da matriz Z, complementada por uma matriz
ciclos (linha hachurada) , quando for o caso, que indica a ligação responsável
pelo fechamento de cada anel, sendo que o tamanho desta matriz é variável
conforme o número de anéis na estrutura (Figura_4).
A partir destas matrizes são compostas as matrizes distâncias, adjacências,
ligações adjacentes e grau de vértice.
A matriz adjacências é simétrica e indica os vértices que são conectados ou não
(ligações). A matriz grau de vértice é obtida a partir da soma das colunas ou
das linhas da matriz adjacências. A matriz distâncias também é uma matriz
simétrica contendo a menor distância entre todos os pares de vértices. A matriz
ligações adjacentes é obtida com base na matriz adjacências e é composta de 8
colunas, sendo as duas primeiras para o número dos átomos da ligação e as
demais para o número das ligações adjacentes à mesma, partindo do princípio que
cada ligação tem no máximo 6 ligações adjacentes.
Exemplos destas matrizes para a molécula do p-nitrotolueno são mostrados na
Figura_4.
A etapa seguinte no código é a geração de todas as subestruturas de ordem 1 até
n, onde n é o número de linhas da matriz ligações adjacentes. Cada subestrutura
de ordem m gera novas subestruturas de ordem m+1, iniciando com as ligações
unitárias, a partir da matriz ligações adjacentes. Em cada sequência de ordem m
são pesquisadas ligações adjacentes para todas as ligações que a compõe,
garantindo assim, todas as possibilidades de combinações para qualquer tipo de
gráfico molecular, sendo que as combinações com ligações repetidas são
eliminadas, bem como as combinações idênticas (Esquema 3).
Em uma etapa subsequente cada subestrutura é classificada como sendo do tipo
linha (cL), ramo (cR), linha-ramo (cLR) e anel (cA).
Simultaneamente à classificação, são calculados os índices de conectividade
(nc) e de conectividade de valência (ncv) com base nas equações descritas
anteriormente. Os índices de Wiener e de Schultz são calculados diretamente das
matrizes distâncias e adjacências, respectivamente, sendo todos os valores
acumulados numa matriz resultados que é gravada em arquivos texto (TXT)
(Esquema 4) e também em arquivos tipo tabela de banco de dados (DBF).
RESULTADOS E DISCUSSÃO
Os resultados do processamento feito com a estrutura do p-nitrotolueno são
mostrados no Esquema 4, sendo que o seu gráfico molecular apresenta 93
subestruturas linha, 4 subestruturas ramo, 99 subestruturas linha-ramo e 10
subestruturas anel. O tempo de processamento para esta molécula é de
aproximadamente 3 segundos quando calculada em um microcomputador pentium de
150 MHz. Um exemplo de arquivo de saída do programa pode ser visto no Esquema
4.
À medida que o número de átomos na cadeia cresce, o tempo de processamento
cresce exponencialmente e isso pode ser verificado com um alcalóide do ergot
(Figura_5).
O gráfico molecular correspondente possui 26 vértices com 29 lados, gerando
935.674 subestruturas com ordem de 1 a 29. Para este sistema o tempo de
cálculo, no mesmo computador, é de aproximadamente 19 horas.
A metodologia adotada para a geração de todas as subestruturas mostrou-se
eficiente para qualquer tipo de gráfico molecular (spiros, anéis condensados e
isolados, cubanos, etc.). A depuração dos resultados foi feita passo a passo,
verificando-se, manualmente, as possibilidades de combinações de moléculas
menores e, no caso da estrutura de um alcalóide do ergot, verificou-se
coincidência dos dados com os disponíveis da literatura23 até a ordem 6, sendo
o número de combinações das demais ordens aceito como correto por extensão.
Observou-se, também, que os valores numéricos obtidos para os índices de
conectividade de maior ordem, podem apresentar uma certa dispersão numérica
devido ao valor individual de cada sequência ser muito pequeno, de tal modo
que, mesmo ocorrendo um grande número de combinações, numa dada ordem, o
somatório é menor do que 10-4.