Web Semântica: ontologias como ferramentas de representação do conhecimento
INTRODUÇÃO
O desenvolvimento da Web possibilitou o surgimento de um novo meio de interação
e comunicação em sociedade que, além de absorver todas as mídias anteriores,
permitiu o crescimento explosivo da quantidade de informação e conhecimento
disponíveis e acessíveis em rede a todo o mundo. Como conseqüência, houve a
necessidade de ferramentas capazes de encontrar entre inúmeros dados
irrelevantes, uma informação precisa. Para tanto, foram criados os mecanismos
de busca.
A clássica organização do conhecimento realizada por áreas como a
Biblioteconomia e a Documentação é fundamentada na classificação de conceitos
proposta por Aristóteles, formando diversas subcategorias para que todo e
qualquer informação ou conhecimento produzido estivesse contemplado em algumas
dessas classes/categorias pré-estabelecidas.
A organização do conhecimento realizada através da adoção de terminologias
padronizadas e o controle da linguagem possibilitada pela utilização dos
tesauros, eliminaram a polissemia, não permitindo ambigüidades nas linguagens
documentárias. No entanto, no ciberespaço1, esse controle de terminologia da
linguagem dos documentos já não é possível (ou necessário) considerando que sua
multiplicidade permite a polissemia, característica intrínseca à própria
linguagem natural, base da indexação na rede. Monteiro (2006, p. 35) ressalta:
No ciberespaço não há centro de significância estruturado, hierarquizado,
linear, ou instrumentos de organização do conhecimento que reproduzem o modelo
de significância, sentido único e referência fixa. A multiplicidade e as várias
possibilidades de tratamento da informação no ciberespaço ilustram que não há
uma maneira correta de organização do conhecimento que deva ser empregada e
reproduzida pelos outros sistemas para tentar atingir a universalidade [ ].
Segundo a autora, a característica do ciberespaço é justamente essa ausência de
classificação do conhecimento; o ciberespaço permite a virtualização da
linguagem que a organização formal do conhecimento impede ao retirar a sua
ambigüidade.
Assim sendo, para recuperar informações disponíveis na Web, os mecanismos de
busca valem-se da indexação de palavras (em linguagem natural) presentes nos
próprios documentos, embora cada ferramenta opere segundo princípios por vezes
divergentes.
A polissemia da linguagem natural apresenta-se como um obstáculo na recuperação
de informações realizada pelos mecanismos de busca da Web. Uma vez que a Web
contempla um número inestimável de documentos de todas as áreas possíveis do
conhecimento humano, ao realizar uma busca por determinado termo, os mecanismos
de busca trarão, como resultados, todos os sites (que constam em sua base de
dados) que apresentem em seu conteúdo as palavras buscadas. Cabe ao usuário
(humano) consultar cada site obtido a fim de verificar se o conteúdo do
documento recuperado é pertinente ao seu contexto e sua necessidade, ou seja,
se a palavra buscada aparece nos resultados com o mesmo sentido e significado.
Nessa direção, Souza e Alvarenga (2004) consideram que a dificuldade em
determinar os contextos informacionais tem como conseqüência a impossibilidade
de se identificar de forma precisa a atinência dos documentos. Além disso, a
ênfase das tecnologias e linguagens utilizadas nas páginas da Web tradicional
focaliza os aspectos de exibição e apresentação dos dados, de uma forma que a
informação seja descrita pobremente e pouco passível de ser consumida
concomitantemente por máquinas e seres humanos. A partir disso é que surge a
proposta da Web Semântica.
A Web Semântica foi proposta por Berners-Lee para tentar melhorar (ou mesmo
otimizar) as pesquisas realizadas na Web. É uma nova ferramenta de busca de
informações no ciberespaço, uma extensão da Web, acrescentando semântica ao
atual formato de representação de dados. Uma ferramenta inteligente, que
trabalha através de associação e dedução. Sob essa perspectiva, a tarefa de
verificar o assunto do documento ficaria a cargo das máquinas, poupando tempo e
trabalho a quem realizasse uma busca.
Nesse contexto, foi proposta uma série de tecnologias necessárias para que as
máquinas sejam dotadas de ferramentas inteligentes e, assim, sendo capaz de
raciocinar, inferindo (deduzindo) o conteúdo dos documentos armazenados em seu
banco de dados.
Uma dessas tecnologias necessárias é a elaboração e utilização de ontologias,
não no sentido da Filosofia, como estudo do ser e da existência, mas como uma
forma de atribuir sentido e significado a determinados termos, em dados
contextos, em busca de atribuir semântica ao conteúdo dos documentos, atuando
como ferramenta de representação do conhecimento.
Sendo assim, o que consideramos um problema a ser estudado é de que maneira as
ontologias proporcionarão a organização do (quase) infinito conteúdo na caótica
Web. Se as ontologias seriam utilizadas apenas para representar o assunto de
uma página Web através de termos contextualizados ou se tentariam controlar o
vocabulário da Web como um tesauro que estabelece uma linguagem controlada.
A ontologia seria uma ferramenta/linguagem que permite a instauração de
sentido, mas o sentido atualizado de acordo com o contexto do leitor,
minimizando a polissemia para quem busca determinado assunto, mas sem excluí-la
do ciberespaço, ou diz respeito aos conceitos do tesauro, quer seja, uma
rubrica autorizada à organização e recuperação do conhecimento, operando apenas
na instauração de um significado.
Nesse sentido, o objetivo geral da presente pesquisa consistiu em analisar a
literatura científica da área e/ou áreas afins para definir e caracterizar a
Web Semântica. Para isso, foi necessário estabelecer alguns objetivos
específicos, tais como: definir e caracterizar a Web atual; apresentar alguns
tipos de mecanismos de busca disponíveis na Web, como os diretórios, motores de
busca e metabuscadores; identificar, na literatura, as ontologias; estudar, na
literatura, a Web Semântica.
A presente pesquisa procurou verificar como se dá a recuperação de informação e
conhecimento na Web através dos mecanismos de busca, para basear o estudo da
extensão da Web que foi proposta e ainda não foi desenvolvida: a Web Semântica.
A Web Semântica objetiva aprimorar o serviço de busca e recuperação de dados na
Web, embora ainda não exista. Por esse motivo, esta pesquisa adquire o caráter
de Pesquisa Documental, baseada apenas na literatura, uma vez que objeto da
pesquisa (a Web Semântica) está, por ora, em construção. Como conseqüência, a
pesquisa não teve um corpus já que, como dito anteriormente, o objeto
específico ainda não foi desenvolvido.
Assim sendo, esta pesquisa iniciou-se com o levantamento bibliográfico da
literatura da área e áreas afins que contemplam o objeto. Toda a pesquisa foi
desenvolvida em torno da revisão de literatura científica obtida no
levantamento bibliográfico, tratando-se, portanto, de uma pesquisa teórica.
A Web semântica
A World Wide Web foi criada por Tim Berners-Lee entre 1989 e 1991, com base nas
idéias originadas de trabalhos anteriores sobre hipertexto realizados por Bush
na década de 40 e por Ted Nelson na década de 60.
A Web surgiu com a visão de que seria um espaço onde a informação poderia
adquirir um significado bem definido, de forma que facilitasse a cooperação e a
comunicação entre as pessoas e os agentes computacionais, conforme observa
Cunha (2002). Entretanto, a Web voltou-se mais para a comunicação entre os
humanos.
A Web atual é denominada por Breitman (2005) de Web Sintática, na qual os
computadores fazem apenas a apresentação da informação, enquanto o processo de
interpretação fica a cargo dos seres humanos, já que isso exige um grande
esforço para avaliar, classificar e selecionar informações e conhecimentos de
interesse.
Embora a Web tenha sido projetada com a finalidade de possibilitar o fácil
acesso, o intercâmbio e a recuperação de informações, Souza e Alvarenga (2004)
afirmam que ela foi implementada de forma descentralizada e quase anárquica,
cresceu de maneira exponencial e se apresenta atualmente como um imenso
repositório de documentos que deixa muito a desejar quando se trata de
recuperação de conteúdo relevante. Os autores fundamentam suas críticas
afirmando que:
Não há nenhuma estratégia abrangente e satisfatória para a indexação
dos documentos nela contidos, e a recuperação das informações,
possível por meio dos motores de busca (search engines), é baseada
primariamente em palavras-chave contidas no texto dos documentos
originais, o que é muito pouco eficaz. (SOUZA e ALVARENGA, 2004, p.
133).
Nesse sentido, cabe notar que os mecanismos de busca são extremamente ricos em
quantidade de sites indexados em suas bases de dados, embora sequer os melhores
deles consigam abranger a totalidade de conteúdo disponível na Web.
Apesar de a quantidade de informações recuperadas pelos mecanismos de busca ser
massiva, apenas uma parte da Web é pesquisada, enquanto uma parte considerável
do conteúdo fica inacessível através dos buscadores (Web Oculta).
Além disso, a dificuldade de se encontrar informações relevantes através dos
buscadores é mascarada por suas interfaces aparentemente amigáveis. Assim,
apesar da grande quantidade de informação na Web e dos mecanismos disponíveis
para buscá-las, o usuário muitas vezes fica frustrado com os resultados
insatisfatórios que lhe são retornados.
Nesse sentido, a Web Semântica visa, justamente, melhorar a satisfação do
usuário no momento da busca, retornando-lhe as informações adequadas às suas
necessidades.
Contrapondo essa Web Sintática, surge a Web Semântica, através da qual se
buscam mecanismos que capturem o significado das páginas, criando um ambiente
no qual os computadores possam processar e relacionar conteúdos provenientes de
várias fontes. Para que isso se torne possível, é necessário embutir semântica
na estrutura dos documentos disponíveis na Web (BREITMAN, 2005).
A palavra semântica, segundo Guirald (1980), é formada do grego sêmainô
(significar), derivado de sema (sinal), que corresponde a sentido. Para o
autor, é semântica tudo o que se refere ao sentido de um sinal de comunicação e
tudo o que se refere às palavras.
Dessa forma, Chateaubriand (1998) afirma que a semântica é a disciplina que
estuda a relação da linguagem com a realidade, ou seja, a relação linguagem-
mundo. Exemplificando, o autor ressalta que o fato de que a palavra casa se
refira, na realidade, a casas e não a elefantes é um fato semântico.
Se as palavras codificam um sentido de várias maneiras, podemos entender que a
semântica é o estudo da função das palavras, função essa de transmitir um
sentido e um significado relativos a um conteúdo. Sendo assim, percebemos que,
se a intenção inicial da Web Semântica é justamente acrescentar semântica ao
conteúdo da Web, essa semântica servirá para determinar o sentido de um termo
no contexto de determinado documento.
A Web Semântica não é, propriamente, uma outra Web. Oliveira (2002) afirma que
Tim Berners Lee a caracteriza como uma extensão da Web atual que apresentará
uma estrutura que possibilite a compreensão e o gerenciamento dos conteúdos
armazenados na Web independentemente da forma em que esses se apresentam
(texto, som, imagem) a partir da valoração semântica desses conteúdos, e
através de agentes coletores de conteúdos advindos de fontes diversas capazes
de processar as informações e permutar resultados com outros programas.
A Web Semântica, assim como a atual Web (Web Sintática), será tão
descentralizada quanto possível e deverá manter a responsabilidade exigida pela
descentralização, procurando alcançar o ideal de consistência de interconexões,
permitindo, porém, seu crescimento exponencial. Com efeito, a extensão da Web,
na esteira de Dziekaniak e Kirinus (2004), surge como uma possível solução para
a estruturação dos dados nesse meio, viabilizando o processamento da informação
por parte das máquinas e melhorando a recuperação de informações.
Enquanto a Web Sintática foi desenvolvida para ser entendida apenas pelos
usuários, a Web Semântica está sendo projetada para ser compreendida pelas
máquinas, na forma de agentes computacionais que serão capazes de operar
eficientemente sobre as informações, podendo até entender (inferir) seus
significados. Assim, esses agentes auxiliarão os usuários em suas diversas
operações na Web.
A proposta da Web Semântica é estruturar os dados contidos nos sites de uma
forma que o próprio sistema de busca identifique seu assunto e conteúdo e para
isso seria preciso embutir semântica na estrutura dos dados.
Assim, ao buscar um termo polissêmico por um de seus significados, o usuário
teria como resultados apenas os sites nos quais aquele termo aparece
relacionado ao sentido buscado por ele.
Nesse contexto, podemos perceber que a Web Semântica visa facilitar e melhorar
a recuperação de informação relevante, já que a própria máquina, dotada de
ferramentas inteligentes, funcionaria por associação e dedução automática para
identificar (inferir) o conteúdo de um site antes de trazê-lo ao usuário como
resultado de uma pesquisa.
Souza e Alvarenga (2004) observam que, para atingir os propósitos da Web
Semântica, é necessária uma padronização de tecnologias, de linguagens e de
metadados descritivos, de forma que todos os usuários da Web obedeçam a
determinadas regras comuns e compartilhadas sobre como armazenar dados e
descrever a informação armazenada de forma que esta possa ser consumida por
outros usuários (humanos ou não), de uma maneira automática e não ambígüa.
Sendo assim, a partir da existência da infra-estrutura tecnológica comum da
Internet, o primeiro passo para esse objetivo é a criação de padrões para
descrição de dados e de uma linguagem que permita a construção e codificação de
significados compartilhados.
Revisitando Souza e Alvarenga (2004), o projeto da Web Semântica, em sua
essência, é criar e implantar padrões (standards) tecnológicos para permitir
esse panorama, que não somente facilite a troca de dados entre os agentes
pessoais, mas estabeleça uma língua franca para o compartilhamento mais
significativo de dados entre dispositivos e sistemas de informação de uma
maneira geral.
Dziekaniak e Kirinus (2004) acreditam que, para a Web Semântica se tornar
possível, os computadores necessitam ter acesso a coleções estruturadas de
informações (dados e metadados) e de conjuntos de regras de inferência que
ajudem no processo de dedução automática para que seja administrado o
raciocínio automatizado, ou seja, a representação do conhecimento. Essas
regras, para as autoras, são especificadas por meio de ontologias que permitem
representar explicitamente a semântica dos dados.
Através das ontologias será possível elaborar uma enorme rede de conhecimento
humano, complementando o processamento da máquina e melhorando qualitativamente
o nível de serviços na Web, sobretudo os serviços de busca e recuperação de
dados.
Nesse sentido, Hendler apud Dziekaniak e Kirinus (2004) afirma que a Web
Semântica pode ser considerada como a composição de um grande número de
pequenos componentes ontológicos que se apontam entre si. Dessa forma,
companhias, universidades, agências governamentais e grupos de interesses
específicos procurarão ter seus recursos Web ligados a um conteúdo ontológico,
uma vez que ferramentas poderosas serão disponibilizadas para intercambiar e
processar essas informações entre aplicações Web.
Ontologias
A palavra ontologia é derivada do grego: onto (ser) e logos (palavra). O termo
ontologia foi cunhado em 1613 por Rudolf Goclenius e, aparentemente, de forma
independente por Jacob Lorhard. (MOREIRA et al, 2004).
De acordo com Souza e Alvarenga (2004), na filosofia, a ontologia é uma teoria
sobre a natureza da existência.Chateaubriand (1998, p. 12) afirma que:
Em princípio, pode-se dizer que ontologia é uma teoria do real, uma
teoria do ser. Essa é uma concepção tradicional que afirma, em geral,
que a ontologia envolve alguma categorização muito ampla da
realidade. Isto é, para se fazer uma teoria ontológica, uma das
primeiras coisas a fazer, e é o que foi feito na tradição filosófica,
é categorizar de alguma maneira a realidade em certas grandes
distribuições do ser.
Para o autor, uma das tendências mais fortes do século XX é fazer a ontologia,
de certa forma, derivar da semântica. A semântica, para o autor, tem a ver com
a relação entre linguagem e realidade e é a partir dessa idéia que,
evidentemente, ontologias e semântica se conectam. Com efeito, se a semântica
tem a ver com a relação entre a linguagem e a realidade e a ontologia é o
estudo da estrutura geral da realidade, então necessariamente haverá relações
entre elas.
Breitman (2005) afirma que o vocábulo ontologia foi introduzido no estudo da
Filosofia para distinguir o estudo do ser e o estudo dos vários tipos de seres
vivos existentes no mundo natural, tendo o objetivo de fornecer sistemas de
categorização para organizar a realidade. No entanto, o uso do termo ontologia
tornou-se freqüente na ciência da computação no início dos anos 90, em projetos
para organização de grandes bases de conhecimento, como ressaltam Moreira et al
(2004). Para os autores, um dos principais objetivos do uso de ontologias na
Ciência da Computação é a construção de bases de conhecimento interoperáveis e
melhor estruturadas.
Assim, no contexto da Web e da Inteligência Artificial, o termo ontologia foi
adaptado e, para os profissionais dessas áreas, uma ontologia é um documento ou
um arquivo que define formalmente as relações entre termos e conceitos,
mantendo, nesse sentido, semelhanças com os tesauros utilizados para definição
de vocabulários controlados (SOUZA e ALVARENGA, 2004).
Na concepção de Breitman (2005, p. 7):
Ontologias são especificações formais e explícitas de
conceitualizações compartilhadas. Ontologias são modelos conceituais
que capturam e explicitam o vocabulário utilizado nas aplicações
semânticas. Servem como base para garantir uma comunicação livre de
ambigüidades. Ontologias serão a língua franca da Web Semântica.
Dessa forma, as ontologias fornecerão o vocabulário necessário para a
comunicação entre os agentes e as páginas da Web, definindo as relações entre
os conceitos, como salientam Dziekaniak e Kirinus (2004). Para as autoras, na
prática, uma ontologia define termos associados aos textos que descreve, o que
os mesmos significam e axiomas formais que restringem a interpretação e o uso
dos termos.
O W3C coloca que as ontologias devem prover descrições para os seguintes tipos
de conceitos (BREITMAN, 2005, p. 31): classes (ou coisas) nos vários domínios
de interesse; relacionamentos entre essas coisas; propriedades (ou atributos)
que essas coisas devem possuir.
Uma ontologia, para Martins (2002), requer o uso de um vocabulário específico
para descrever uma realidade e mais um conjunto de axiomas lógicos necessários
para dar semântica ao significado pretendido pelas palavras desse vocabulário.
Sendo assim, duas ontologias podem referir-se à mesma semântica, embora
apresentem vocabulários distintos de representação, tal como o uso de dois
idiomas diferentes que descrevem uma mesma ontologia, por exemplo. A autora
afirma que para a construção de uma ontologia são utilizados os seguintes
objetos:
* entidades, que descrevem conceitos (elementos de um domínio estudado) e
providenciam uma representação lógica;
* atributos, que descrevem as propriedades das entidades;
* relações, que descrevem as ligações entre objetos no modelo (entidades e
atributos);
* restrições, condições que o projetista impõe sobre as entidades,
atributos ou relações.
Martins (2002) observa, ainda, que uma ontologia possui uma hierarquia de
conceitos dentro de um domínio, as descrições de cada conceito e as
propriedades definidas por atributos do tipo valor. Consiste, geralmente, de
uma taxonomia2 e de um conjunto de regras de inferências. A taxonomia define
classes, subclasses e as relações entre elas, e o conjunto de regras de
inferência fornece o mecanismo de manipulação dos objetos das classes
utilizando raciocínio lógico.
Sendo assim, para Cunha (2002), uma ontologia fornece um entendimento comum e
compartilhado de um domínio, que pode ser comunicado através de pessoas e
sistemas de aplicação, tornando-se fator chave para o desenvolvimento da Web
Semântica. O autor salienta:
A ontologia tem um papel crucial no sentido que permite o acesso, a
interoperação e a comunicação baseados em conteúdo, fornecendo à Web
um nível de serviço qualitativamente novo, que consideramos na Web
Semântica. Ela une em rede incríveis porções do conhecimento humano,
complementando-as com capacidade de processamento de máquina. (CUNHA,
2002, p. 14).
O autor supracitado ressalta, também, que as ontologias vêm sendo aplicadas no
gerenciamento de dados semi-estruturados como um suporte semântico para o
acesso de determinadas informações de interesses presentes em um conjunto de
fontes semi-estruturadas.
Para a construção de ontologias, Freitas (2004, p. 27) observa que alguns
princípios, se usados com precisão, garantem sua qualidade:
* clareza: os programas usam diferentes modelos e abstrações na resolução
de seus problemas. Na definição do conhecimento, deve-se ter a
objetividade de definir apenas o que se presume ser útil na resolução da
classe de problemas a ser atingida. As definições completas, com
condições necessárias e suficientes devem ter precedência sobre
definições parciais;
* legibilidade: as definições devem corresponder com as definições
correntes e informais. A ontologia deve usar um vocabulário
compartilhável (geralmente o jargão e a terminologia usados por
especialistas do domínio);
* coerência: as inferências derivadas da ontologia definida devem ser
corretas e consistentes do ponto de vista formal e informal com as
definições;
* extensibilidade: a ontologia deve permitir extensões e especializações
monotonicamente e com coerência, sem a necessidade de uma revisão de
teoria, que consiste na revisão lógica automática de uma base de
conhecimento em busca de contradições;
* mínima codificação: devem se especificados conceitos genéricos
independente de padrões estabelecidos para mensuração, notação e
codificação, garantindo a extensibilidade. Essa genericidade é limitada
pela clareza.
* mínimo compromisso ontológico: com a finalidade de maximizar o reuso,
apenas o conhecimento essencial deve ser incluído, gerando a menor teoria
possível acerca de cada conceito, e permitindo a criação de novos
conceitos, mais especializados ou estendidos.
Nesse contexto, Souza e Alvarenga (2004) afirmam que as ontologias se
apresentam como um modelo de relacionamento de entidades e suas interações, em
algum domínio particular do conhecimento ou específico a alguma atividade. O
objetivo de sua construção é a necessidade de um vocabulário compartilhado para
se trocarem informações entre os membros de uma comunidade, sejam eles seres
humanos ou agentes inteligentes.
Lembrando Breitman (2005, p. 44), as ontologias "[ ] servem para estruturar e
compartilhar conhecimento, não para representar inteligência." Para a autora, o
papel da ontologia, na Web Semântica, é explicitar o vocabulário utilizado e
possibilitar um padrão para o compartilhamento da informação, fornecendo um
modelo comum que permita aos agentes de software trocar informações de modo
significativo.
A propósito de Freitas (2004), as ontologias servem não só como vocabulário de
comunicação entre agentes, mas também na definição e organização apropriadas de
conceitos, relações e restrições. Além disso, a utilização de ontologias
permite um ganho de expressividade e flexibilidade, uma vez que o conhecimento
sobre uma classe não se circunscreve a termos e palavras-chave como nos
mecanismos de busca, mas a qualquer fato que diga respeito às páginas, tais
como estrutura, regiões e conceitos nelas contidos.
Tesauros e ontologias
A ciência da informação propõe a organização do conhecimento, e essa
organização, como já dito, é fundamentada na classificação de conceitos
proposta por Aristóteles. Assim, foram formadas diversas categorias para que
toda e qualquer tipo de conhecimento produzido pudesse ser enquadrado em alguma
dessas classes ou categorias pré-estabelecidas.
Dessa forma, para a efetiva organização do conhecimento realizada pela área,
identificou-se a necessidade da adoção de uma linguagem documentária que
buscasse uma padronização da linguagem natural, eliminando a polissemia
característica da mesma.
Como observam Moreira et al (2004), sendo a organização do conhecimento uma das
principais preocupações de Aristóteles, é justamente no momento da construção
das linguagens documentárias que sua filosofia se faz mais presente.
Nesse sentido, os tesauros, como linguagem documentária, foram criados com o
intuito de formalizar a padronização de termos da linguagem específica de uma
determinada área do conhecimento humano. Assim, as possíveis ambigüidades na
utilização de termos em linguagem natural são eliminadas, permitindo que o
processo de indexação e recuperação de informações fosse realizado
satisfatoriamente.
Os tesauros evoluíram das listas de cabeçalhos de assuntos até os tesauros
baseados em conceitos. Assim, era preciso trabalhar com um vocabulário mais
específico e com uma estrutura mais depurada do que a presente em cabeçalhos de
assuntos. Logo, cuidou-se de melhorar, além da especificidade, a estrutura.
(GOMES apud SOUTO, 2003).
O tesauro é uma linguagem documentária, um vocabulário controlado que contém
termos relacionados lógica e semanticamente.
Na área de ciência da informação, os tesauros podem ser definidos sob dois
aspectos: o estrutural e o funcional, segundo a Unesco apud Moreira et al
(2004, p. 3). No primeiro caso, seria:
Um vocabulário controlado dinâmico de termos relacionados semântica e
genericamente, cobrindo um domínio específico do conhecimento. Quanto à
definição funcional, seria: Um dispositivo de controle terminológico usado na
tradução da linguagem natural dos documentos, dos indexadores ou dos usuários
numa linguagem dos sistemas (linguagem de documentação, linguagem de
informação) mais restrita.
Estipulando o controle da linguagem, a utilização de tesauros na organização do
conhecimento elimina a polissemia da linguagem natural, não permitindo
ambigüidades.
Um tesauro, segundo Breitman (2005), reúne um conjunto de relacionamentos entre
termos que estão organizados em uma taxonomia. A autora define Tesauros como "
[ ] uma taxonomia adicionada de um conjunto de relacionamentos semânticos
(equivalência, associação, entre outros) entre seus termos." (BREITMAN, 2005,
p. 36).
Uma taxonomia define termos, mas a única relação entre os termos é a de
generalização, ou seja, os termos encontram-se, sempre, em uma hierarquia que
parte de gênero para espécie, ou seja, do geral para o específico. Um tesauro é
uma taxonomia na qual se acrescentam possibilidades de relacionamentos.
Quanto às relações estruturais entre os termos que o tesauro possibilita,
caracterizemos as explicitadas por Gusmão (1985, p. 22):
relações de equivalência ou sinonímia. São referências cruzadas, remetem de um
termo não adotado no sistema para um sinônimo ou similar que foi adotado. Para
isso, usa-se a remissiva U, que quer dizer USE. Partindo-se do termo adotado, o
termo não adotado é indicado pela remissiva UF (used for) ou UP (usado para).
Gusmão (1985) salienta que, ao selecionar os termos preferidos (adotados) deve-
se dar prioridade à forma mais compreensiva pelos usuários, aos termos
científicos e/ou termos correntes:
* relação de hierarquia. É estabelecida para cada descritor e indica
relações de superordenação ou subordinação. A de superordenação mostra os
termos mais abrangentes (gerais) com eles relacionados, enquanto as
relações de subordinação mostram os termos mais específicos relacionados
com eles. Os símbolos utilizados são BT (broader term) ou TG (termo
genérico), e NT (narrow term) ou TE (termo específico);
* relação de associação. É utilizada para representar termos que têm uma
correlação entre si, e é representada pelos símbolos RT (related term) ou
TR (termo relacionado). Nesse tipo de relação, os termos não representam
uma hierarquização. Podemos dizer, em outras palavras, que eles têm igual
importância dentro do assunto que representam.
Para Breitman (2005), um tesauro visa garantir que conceitos sejam descritos de
maneira consistente, permitindo que os usuários possam refinar suas buscas e
localizar a informação que necessitam. Para facilitar essa tarefa, os tesauros
contam com os relacionamentos adicionais que auxiliam na organização dos dados,
como explicitado anteriormente. No entanto, os tipos de relacionamentos
permitidos pelos tesauros são finitos e pré-determinados, isto é, não são
passíveis de modificações, sendo bem útil na criação de vocabulários, mas não
são suficientes para modelar outros aspectos do mundo real.
Atualmente, como observam Moreira et al (2004), existe uma grande demanda para
desenvolvimento de sistemas que trabalhem com recuperação e troca de
informações e conhecimentos. Com a finalidade de servir de suporte a esses
sistemas e auxiliar a suprir essa demanda, novos instrumentos para a
organização de conhecimento surgem a cada dia; muitos deles, recentemente, são
chamados ontologias.
Um dos principais objetivos do uso de ontologias no âmbito da ciência da
computação é a construção de bases de conhecimento interoperáveis e melhor
estruturadas. Sob a denominação de ontologias, ferramentas têm sido criadas
para auxiliar a inserção e recuperação de documentos em sistemas
computacionais, a extração de informações em texto de linguagem natural, em
sistemas de comércio eletrônico, a troca de informações entre agentes
inteligentes, a aquisição automática de conhecimento e várias outras tarefas
que envolvem o uso e a representação do conhecimento (MOREIRA et al, 2004).
De acordo, ainda, com as autoras supracitadas, o emprego do termo ontologia
para denominar uma estrutura de termos e as relações entre eles em um
determinado domínio é mais comum na área da ciência da computação e, mais
particularmente, na inteligência artificial. Com essa definição de ontologia,
fica clara a confusão entre a definição desse termo com o conceito de tesauros,
uma vez que estes, da mesma forma, podem ser considerados estruturas de termos
e das relações entre eles. Contudo, Breitman (2005, p. 37), afirma:
Muitas vezes é necessário relacionar conceitos utilizando
relacionamentos do tipo parte-de, membro-conjunto, fase-processo,
lugar-região, material-objeto, causa-efeito, entre muitos outros. Um
tesauro não permite a seus usuários a criação destes e novos tipos de
relacionamento, para tal é necessário utilizar uma ontologia.
(BREITMAN, 2005, p. 37).
Sendo assim, de acordo com as afirmações de Breitman (2005), podemos argumentar
que as ontologias são mais flexíveis e complexas que os tesauros porque
permitem que novos relacionamentos sejam estabelecidos entre os termos,
conforme necessário.
Os tesauros são linguagens pré-definidas e suas relações são finitas. Essa
ferramenta é bastante útil para a padronização da linguagem de termos e
relações em um domínio de conhecimento para definir termos de organização e
recuperação, por exemplo, em uma base de dados.
Segundo Moreira et al (2004), o tesauro constitui-se em um elemento de suma
importância em um sistema de recuperação de informações por cumprir o papel de:
determinar quais termos podem ser usados no sistema; determinar quais termos
podem ser usados na busca para que esta tenha um resultado satisfatório e,
ainda, permitir a introdução de novos termos em sua estrutura de termos e
relações de modo a aproximar a linguagem do usuário à linguagem do sistema,
realizando alterações de sentidos dos termos existentes.
Os tesauros podem ser utilizados por indexadores para atribuir uma terminologia
consistente a várias bases de dados e, ainda, pelos usuários dessas bases na
definição dos termos de busca, uma vez que, pela sua estrutura de termos e suas
relações auxilia a encontrar o melhor termo que representa um assunto.
Entretanto, no contexto da Web Semântica, os tesauros parecem não ser
adequados, justamente devido à sua falta de flexibilidade.
As ontologias, por sua vez, podem ser redefinidas ou adaptadas em determinados
contextos, e suas relações são extensíveis, conforme necessário.
Moreira et al (2004) afirmam que, usando linguagens para ontologias é mais
fácil registrar certas propriedades do que com o uso dos tesauros. Por outro
lado, essa diferença de expressividade não é tão significativa para a tarefa de
indexação ou busca de documentos.
Nesse sentido, percebemos que, se ontologias e tesauros foram criados em
contextos distintos, em situações também distintas, poderá ser observado que há
casos em que o uso de tesauros é mais adequado, enquanto, em outros casos faz-
se necessária a aplicação das ontologias.
Enquanto os tesauros se mostram eficientes no escopo da Ciência da Informação
no que condiz à indexação e recuperação de informações, no âmbito da Web
Semântica, para descrição de recursos, a utilização de ontologias é
fundamental.
De todo modo, McGuiness apud Breitman (2005) definiu três propriedades
essenciais de uma ontologia para a Web que a torna mais expressiva que uma
taxonomia ou um tesauro. São elas:
* estrita hierarquia de subconceitos. Toda a instância de uma classe tem de
ser uma instância do nó pai (hierarquia tipo-de formal). A organização
dos termos segundo o relacionamento tipo-de (generalização) forma a
espinha dorsal da ontologia;
* interpretação livre de ambigüidades para os significados e
relacionamentos. As propriedades de cada nó podem ser definidas pelos
usuários. Essas propriedades podem ter valores restritos por uma gama de
valores determinada também pelos usuários (restrições de valor).
Ontologias mais sofisticadas podem contar com relacionamentos mais
expressivos, tais com disjunção (macho x fêmea) e parte-de;
* utilização de um vocabulário finito, porém extensível.
Baseando-nos nas palavras dessa autora, percebemos que, em sua concepção, a
ontologia proposta para a Web Semântica não consistirá em uma simples adaptação
dos tesauros para a organização do conhecimento na Web, proporcionando o
controle de vocabulário e o fechamento semântico de seu conteúdo. Para essa
autora, as ontologias deverão ser mais flexíveis e complexas que os tesauros.
Uma outra diferença importante a ser destacada é que, enquanto o tesauro é
visto como uma ferramenta de organização do conhecimento, com a finalidade de
facilitar a indexação e recuperação de informações, operando para a comunicação
entre usuários e linguagens documentárias, a ontologia é tida como um
instrumento de representação do conhecimento no ambiente computacional, voltada
para o registro de conceitos de um domínio visando a inferência automatizada.
Estabelecendo, ainda, uma comparação entre ontologia e tesauro, Moreira et al
(2004) observam que uma ontologia, como vista pela ciência da computação, é um
sistema de conceitos, da mesma forma que os tesauros e, como tal, pertence ao
nível epistemológico e não ao ontológico. A diferença em relação aos tesauros
pode ocorrer em termos de linguagem, de nível de formalização e de propósitos.
Para a autora supracitada, os tesauros têm como propósito servir de instrumento
de registro terminológico e para ser usado por pessoas, não para registro do
conhecimento para inferências computacionais, caso das ontologias.
Corroborando essa idéia, Breitman (2005) afirma que o processo de classificação
das informações contidas em uma ontologia deve levar em conta a possibilidade
de automação dessa informação, e não a maneira com que os seres humanos
organizam o conhecimento. Dessa forma:
Ontologias não refletem a maneira com que os seres humanos pensam nem
classificam. Se estivéssemos buscando um modelo que refletisse o modo
como os seres humanos organizam seu conhecimento, ontologias
definitivamente não seriam o modelo mais adequado. (BREITMAN, 2005,
p. 43).
Analisando a citação acima, percebemos que a autora faz uma distinção entre a
função das ontologias e a clássica organização do conhecimento possibilitada
pela linguagem controlada, com o uso dos tesauros. No entanto, como dito
anteriormente, parece haver uma contradição nas palavras da autora quando
afirma que os metadados permitirão a adoção de um vocabulário controlado,
necessário para a realização da Web Semântica e, ainda, na observação que as
ontologias não refletem o modo formal de organização do conhecimento.
Nesse sentido, cabe notar que, se um tesauro estabelece um vocabulário
controlado, ele assemelha-se às ontologias, embora ambos sejam utilizados em
contextos e com princípios distintos, conforme destacou Moreira et al (2004, p.
22):
Os tesauros da ciência da informação e as ontologias da ciência da computação
possuem origens e propósitos distintos. O primeiro nasceu como instrumento
prático para auxiliar na indexação e busca de documentos e o segundo da
necessidade de descrever os objetos digitais e suas relações. Pode-se dizer que
existem alguns pontos de contato entre essas origens, uma vez que estão
relacionadas com a descrição de alguma entidade: assunto de uma área no
primeiro caso e objetos e relações no segundo. No entanto, as diferenças também
deixaram suas marcas, influenciando na forma final do instrumento de cada
vertente. Na ciência da computação a situação é um pouco mais indefinida.
Aparentemente tudo que modela um segmento da realidade pode ser denominado de
ontologia, uma vez que é a palavra da moda. Neste caso, até mesmo os tesauros
podem ser enquadrados como ontologias terminológicas. (grifo nosso).
Como podemos perceber, a autora distingue ontologias e tesauros quanto às suas
origens e propósitos, embora finalize sua assertiva dizendo que o tesauro pode
ser considerado uma ontologia terminológica. E, ainda, como a autora observou,
os tesauros e as ontologias foram criados em contextos e com finalidades
distintas. Contudo, como ambas as ferramentas foram idealizados com o intuito
de descrição e padronização acaba ocorrendo uma certa confusão na definição e
conceitualização entre tesauros e ontologias.
Alguns pesquisadores apontados por Moreira et al (2004), tais como Jasper e
Milke Uschold (1999) e Fensel (2001), consideram os tesauros como ontologias
simples, uma vez que uma ontologia complexa exige uma riqueza maior de relações
do que as tradicionalmente apresentadas em um tesauro.
Na ciência da informação os tesauros são, há muito tempo, amplamente utilizados
como linguagem documentária. A definição e os conceitos dos tesauros estão,
portanto, consolidados. Na ciência da computação as ontologias consistem em
tecnologias recentes com definições e conceitos ainda não difundidos e
plenamente cristalizados.
Moreira et al (2004) afirmam que os tesauros podem ser entendidos como sendo um
tipo de ontologia voltada para a organização de termos. Da mesma forma,
poderíamos entender as ontologias como tesauros extensíveis e reutilizáveis no
escopo na computação. Afirmações como essas é que denotam a existência de
conceitos e diferenças imprecisos entre tesauros e ontologias. Se, por um lado,
um tesauro é visto como uma ontologia simples e, por outro lado, as ontologias
são entendidas como tesauros complexos e flexíveis, podemos notar que, embora
consistam em diferentes ferramentas, tesauros e ontologias, como vimos, possuem
características em comum que permitem a comparação de ambos na definição de um
dos termos.
Dessa forma, percebemos que, algumas vezes, o termo tesauro, utilizado
comumente no âmbito da ciência da informação, é utilizado como analogia ao
significado de ontologia, uma vez que, como vimos anteriormente, essas
ferramentas possuem características comuns. Entretanto, analisando a literatura
foi possível notar que, embora semelhantes em alguns aspectos, tesauros e
ontologias são diferentes em muitos outros, tais como em suas origens,
princípios, graus de expressividade e relações, além de se aplicarem em
contextos também distintos.
Conclusão
As novas tecnologias de informação e comunicação afetam significativamente
todos os setores da sociedade, e a disponibilização de conhecimento e
informações no ciberespaço, ambiente da Web, faz surgir novos paradigmas de
organização e recuperação de dados.
O fato de as páginas da Web atual não conterem dados sobre si mesmas dificulta
a recuperação de conhecimento e informações relevantes. Ao solicitar uma busca
por determinada palavra, o sistema não faz distinção entre os diversos sentidos
que uma mesma palavra pode representar, ou seja, a diferença de significado
afeta significantemente os resultados. Assim, os mecanismos de busca
freqüentemente apresentam grande número de páginas encontradas, porém com pouca
precisão.
Isso acontece porque as palavras indexadas pelas ferramentas de busca podem ter
diversos sentidos (polissemia) em diferentes contextos. Uma vez realizada a
busca, fica a cargo do usuário determinar a semântica, ou seja, o sentido e o
significado do conteúdo obtido como resultado.
Para Breitman (2005), a grande verdade é que a Internet se desenvolveu mais
rapidamente como um meio para a troca de documentos entre pessoas, em vez de um
meio que fomentasse a troca de dados que pudessem ser processados
automaticamente. Como conseqüência disso, o conteúdo semântico das páginas, ou
seja, seu significado é codificado apenas pelo homem.
Falta, na Web, uma forma de organizar os dados de maneira que estes possam ter
seu sentido identificado pela própria máquina no momento da busca.
Nesse contexto, podemos perceber que a Web Semântica está sendo projetada para
tentar resolver um problema apresentado na Web atual: a pesquisa realizada
pelas ferramentas de busca.
A Web Semântica, para Dziekaniak e Kirinus (2004), visa incorporar semântica
aos dados, o que proporcionará não somente aos usuários entenderem as
informações como também às máquinas. Ela pretende fornecer estruturas e dar
significado semântico ao conteúdo da Web, criando um ambiente onde agentes de
software e usuários possam trabalhar de forma cooperativa.
Dessa forma, os mecanismos de busca trariam resultados adequados à semântica
dos termos procurados pelo usuário, aumentando (senão otimizando) a relevância
dos mesmos.
Para a efetivação dessa extensão da Web foram propostas diversas tecnologias, e
dentre essas cabe-nos destacar a criação de ontologias, utilizada como um
vocabulário controlado, visando atribuir sentido e significado ao conteúdo dos
documentos, atuando como ferramenta de representação do conhecimento.
No decorrer da pesquisa, procurou-se verificar se as ontologias seriam
utilizadas apenas para representar o assunto de uma página Web através de
termos contextualizados ou se tentariam controlar o vocabulário da Web como um
tesauro, que estabelece uma linguagem controlada.
Nesse sentido, foi possível perceber que as ontologias, embora sejam definidas
por alguns autores como vocabulários controlados, assim como os tesauros, não
pretendem realizar, na Web, o que os tesauros fizeram na tradicional
organização do conhecimento: o fechamento semântico no significado.
Isso porque as ontologias são mais complexas e flexíveis que os tesauros,
porque permitem que novos relacionamentos sejam estabelecidos entre os termos,
conforme necessário, e são criadas ou adaptadas (quando reutilizadas) ao
contexto do documento que descrevem. Os tesauros, ao contrário, possuem termos,
conceitos e relacionamentos finitos e bem definidos.
Cabe notar que os termos ontologia e tesauros são mais utilizados no âmbito da
ciência da computação e ciência da informação, respectivamente. Obviamente, com
a crescente interdisciplinaridade entre as áreas do conhecimento, acabou
ocorrendo um conflito de definições dessas ferramentas devido ao fato de as
mesmas apresentarem algumas características em comum.
Sendo assim, percebemos que alguns autores da ciência da informação, na
tentativa de definir e/ou conceituar ontologia, acabam comparando-a com um
tesauro, em analogia, de forma a explicar como as ontologias pretendem atuar no
contexto da Web Semântica.
Da mesma forma, alguns autores relacionados à ciência da computação afirmam que
os tesauros são ontologias simples e que, portanto, as ontologias podem ser
estendidas, tornando-se mais expressivas, de acordo com a necessidade e o
contexto.
Provavelmente o termo tesauro é utilizado como analogia na definição de
ontologias por tratar-se de um termo cristalizado, enquanto ontologia, fora do
escopo da filosofia, é um termo recente, ainda em vias de definição.
No entanto, com a realização do trabalho ficou claro que, apesar de existirem
pontos comuns entre ontologias e tesauros, trata-se de ferramentas distintas,
com origens e propósitos distintos.
Enquanto os tesauros são utilizados para realizar o fechamento semântico no
significado, eliminando a polissemia característica da linguagem natural,
traduzindo os termos para uma linguagem documentária padronizada, as ontologias
pretendem servir de vocabulário controlado, porém flexível, para que os
conceitos descritos em páginas Web sejam únicos e, assim possam ser passíveis
de compartilhamento entre diferentes agentes, permitindo a adição de semântica
aos documentos disponíveis na rede.
Com o advento do ciberespaço, o profissional da informação dispõe de um novo
meio e espaço de trabalho: a Web. A Web modificou os parâmetros de organização
do conhecimento e tratamento da informação e, nesse contexto, a Web Semântica
propõe uma nova forma de representação do conhecimento e da informação, uma
nova revolução, um novo paradigma.
Sendo assim, se a Web já representou uma verdadeira revolução no que condiz à
produção, representação e recuperação de informações e conhecimento com suas
tecnologias e possibilidades, a Web Semântica parece uma proposta de
revolucionar a Web.