RedeCI: colaboração e produção científica em ciência da informação no Brasil
1 Introdução
O conhecimento científico é uma questão essencial para a ciência da informação
desde sua origem (BUSH, 1945). Tal fato coloca a recuperação da informação
(SARACEVIC, 1996) e os estudos bibliométricos no centro das pesquisas na área
(BROOKES, 1980). Dentre os estudos bibliométricos, estão os de co-autoria, que
buscam entender a produção científica por meio da análise da colaboração entre
pesquisadores. A análise de redes sociais - ARS - , por seu turno, oferece
ferramentas capazes de analisar redes de contatos entre pessoas (WASSERMAN;
FAUST, 1999), inclusive redes de colaboração.
O objetivo deste artigo é apresentar a metodologia e os resultados preliminares
de uma pesquisa das redes de colaborações entre pesquisadores da área da
ciência da informação no Brasil, doravante denominada RedeCI, enfatizando os
métodos de ARS, sem se restringir a eles, e indicando como se deu a criação da
base de dados de co-autoria a partir de periódicos e eventos científicos, do
sistema de consulta, bem como caminhos futuros para o projeto RedeCI. Mais
especificamente, com relação aos resultados preliminares, busca-se responder à
seguinte pergunta: Qual é o perfil do autor dos trabalhos em literatura branca
(periódicos) ou cinzenta (eventos) na ciência da informação no Brasil?
Como contribuição, espera-se colaborar com o entendimento da produção da área
no Brasil, promover a disseminação dos métodos de ARS e ainda estabelecer as
bases para continuação e ampliação do projeto RedeCI.
Em relação à organização do texto, na Seção 2 são apresentados os conceitos que
embasam a pesquisa, assim como trabalhos relacionados; na Seção 3 são
apresentados os meios utilizados na criação da base de dados da RedeCI e também
os métodos de análise adotados; na Seção 4 é mostrada a análise da colaboração
científica na área no Brasil, com base nos artigos analisados; finalmente, na
Seção 5 conclui-se que a ARS oferece instrumentos valiosos de análise para a
ciência da informação e indicam-se caminhos futuros para o projeto RedeCI,
visando ampliar a base de publicações e os métodos de análise disponíveis.
2 Visão geral da ARS e da análise de co-autoria na RedeCI
A RedeCI, através da elaboração de uma base de dados de redes de colaboração
científica, permite a aplicação de métodos de análise de redes sociais, bem
como métodos bibliométricos tradicionais, na análise da produção da área de
ciência da informação.
2.1 A ARS e a CI
"Uma rede social (do inglês social network) consiste de um ou mais conjuntos
finitos de atores [e eventos] e todas as relações definidas entre eles"
(WASSERMAN, FAUST, 1999).
Um ator em ARS é uma unidade discreta que pode se apresentar de diferentes
formas: como uma pessoa, ou um conjunto discreto de pessoas, agregados em uma
unidade social coletiva, como subgrupos, organizações e outras coletividades.
Como se pode ver, o conceito de ator é flexível, permitindo diferentes níveis
de agregação, o que permite sua adequação a diferentes problemas de pesquisa.
Exemplos de atores são: um indivíduo, um pesquisador, um autor, uma empresa e
agências de serviço público de uma cidade.
Os atributosde um ator são suas características individuais. Embora o foco da
ARS sejam os laços relacionais, não há nada que impeça que os atributos sejam
analisados, mesmo que com auxílio de outros métodos estatísticos que estão além
da ARS. O conjunto de atributos de uma rede é denominado composiçãoda rede
social.
O laço relacional(relational tie) ' também denominado simplesmente laço ou
ligação (linkage) ' é responsável por estabelecer a ligação entre pares de
atores. Uma relaçãoem uma rede (relation) define todo o conjunto de laços que
respeitam o mesmo critério de relacionamento, dado um conjunto de atores. As
relações têm duas propriedades importantes que devem ser consideradas nas
pesquisas e que condicionam os métodos de análise de dados disponíveis, que
são: direcionamento, podendo ser direcionais, caso no qual têm um ator como
transmissor e outro como receptor, ou não-direcionais, caso no qual a relação é
recíproca; valoração, podendo ser dicotômicas, o que implica em sua presença ou
ausência, ou valoradas, com valores discretos ou contínuos. A distância
geodésica, d(ni,nj), entre um par de nós é o número de laços que existe no
caminho mais curto entre eles. O diâmetro de um grafo é a maior distância
geodésica entre todos os pares de nós presentes.
Um grafo não direcionado G(N, L)(undirected graph) consiste de dois conjuntos
de informações: um conjunto de nós (node), representado por N = {n1,n2,...,ng)
e um ou mais conjunto(s) de linhas ou arestas(edge), representadas por L = {l1,
l2,..., lL) entre pares de nós. O número total de nós existente em um grafo é
representado por g e o número total de linhas por L. A linha (não direcionada)
responsável por ligar os nós ni e nj é representada porlk = (ni, nj), sendo que
lk =lq = (ni, nj) = (nj, ni). Em um grafo (não direcionado), o grau (nodal
degree), denotado por d(ni), é o número de linhas incidentes em um nó, ou
ainda, de forma equivalente, o número de nós adjacentes a ele. O grau de um nó
pode variar de 0, caso no qual o nó é isolado, até g ' l, caso no qual o nó
está em contato com todos os demais nós do grafo. No caso de um grafo
direcionado, considera-se o grau de entrada (indegree), dI(ni), e o grau de
saída (outdegree), dO(ni), de acordo com a direção dos arcos que chegam ou
parte do nó.
Pode-se definir algumas medidas de importância de um nó em uma rede, como grau
centralidade (degree centrality); grau de proximidade (closeness centrality) e
grau de intermediação (Betweenness centrality). Na ARS, essas características
estruturais mostram a posição de cada nó. O grau de centralidade para um atoré
dada por CD (ni) = d(ni); ou seja, é simplesmente o grau do nó. Tal medida pode
ser normalizada, a fim de ter um valor entre 0 e 1 e permitir a comparação
entre atores de redes diferentes, dividindo-se o grau do nó pelo grau máximo
que um nó pode ter, ou seja o número de nós no grafo menos 1 (o próprio nó),
chegando-se a , sendo
. O grau de proximidade de um ator mede o quanto o nó que
representa o ator está próximo de todos os demais nós da rede. Para calcular a
centralidade de proximidade se soma a distância geodésica do nó em relação a
todos os demais nós do grafo e depois inverte-se, uma vez que, quanto maior a
distância, menor a proximidade, chegando-se à seguinte fórmula [/img/revistas/
pci/v11n3/a02img03.gif]. A normalização do índice, para o mesmo ficar na faixa
de valores entre 0 e 1, o que pode ser feito multiplicando-se CC (ni)por g - 1,
obtendo-se <formula/>. O grau de intermediação, por
seu turno, analisa o quanto um nó está no caminho geodésico entre outros nós.
Seja g jko número de caminhos geodésicos (mais curtos e de mesmo tamanho) que
ligam os nós j e k, e g jk (ni)o número de tais caminhos, no total de g jk, que
passa pelo nó ni. O índice de centralidade de intermediação [/img/revistas/pci/
v11n3/a02img05.gif], que mede, para um nó ni, a soma de probabilidades de o
mesmo estar no caminho geodésico entre todos os demais nós do grafo. Para
normalizar tal índice, deve-se dividi-lo pelo seu máximo possível, que é o
número de pares de nós no grafo que não incluem ni, ou seja, ( g - 1)( g - 2 )
/ 2 chegando-se ao seguinte índice de centralidade de intermediação normalizado
por ator <formula/>.
A ARS utiliza softwares para visualização de grafos a fim de se obter imagens
das redes sociais. Geralmente, no caso dos softwares disponíveis para ARS, os
dados são fornecidos através de matrizes, mas podem ser exibidos através
grafos. A visualização gráfica por si só pode oferecer novas informações e
insights para pesquisadores.
Existe, entre os estudiosos da ARS, uma discussão a respeito de sua
fundamentação teórica. Muitas das medidas usadas para descrever a posição dos
indivíduos ou atores na rede, como as de centralidade, são objetos de pesquisas
que visam trazer elementos para essa fundamentação, assim como criar meios de
testar sua validade. Essas medidas visam associar a posição do indivíduo em
relação à estrutura da rede e podem ser associadas à influência interpessoal,
ao acesso à informação, às relações de poder, dentre outras. Buscam-se medidas
que possam representar a posição do indivíduo na estrutura independente do
contexto, isto é, as medidas deveriam oferecer a mesma informação sobre
diferentes redes (FRIEDKIN, 1991). No caso das redes de co-autoria, as medidas
de centralidade poderiam ser associadas à influência dos autores em relação aos
demais.
O uso da ARS vem crescendo significativamente nos últimos 20 anos. Tal
crescimento vem ocorrendo em função do aumento da quantidade de dados
disponíveis para análise, do desenvolvimento nas áreas de informática e
processamento de dados ' com o conseqüente aumento do poder computacional à
disposição dos pesquisadores ', e da ampliação dos assuntos de interesse e das
áreas de conhecimento que utilizam a ARS. Alguns pesquisadores demonstraram
essa tendência a partir de pesquisas realizadas em base de dados de artigos
científicos e programas de pesquisa. Consultando três bases de dados
(Sociological Abstracts Database, Medline Advanced e PsycINFO), Otte e Rousseau
(2002) comprovaram, para o período de 1974 a 2000, o crescimento linear do
número de artigos publicados anualmente cujo assunto fosse a análise de redes
sociais1. Foram detectados dois momentos nos quais o crescimento no número de
artigos se amplia: 1981, graças à publicação de inúmeros manuais sobre o tema e
ao desenvolvimento de aplicativos (softwares) e 1993, em função da Web2. O
total de artigos sobre o tema, acumulados nas bases pesquisadas, foi
multiplicado por 20 entre 1981 e 1999. Além disso, os autores concluíram que o
número de assuntos estudados com essa metodologia também se ampliou. No período
inicial, a maior parte dos artigos enfocava a família ou a socialização dos
indivíduos, enquanto no período final, assuntos tais como sociologia da saúde e
da medicina foram encontrados em maior quantidade (OTTE, ROUSSEAU, 2002, p.
446-447). Tomando-se por base a classificação de temas na área de sociologia
(Sociological Abstracts Classification Scheme), o número de códigos presentes
nos artigos passou de cerca de 20 em 1984 para mais de 50 em 1999.
O tema da ARS não é, em termos internacionais, uma proposta nova para a ciência
da informação. Para saber se o mesmo fenômeno se repetia na área, Otte e
Rousseau (2002) fizeram uma revisão de estudos, aplicando a metodologia de ARS,
situando-os a partir do início dos anos 70 e relacionando-os, principalmente,
com redes de informação, redes de co-autoria, de pesquisadores e de citações.
Posteriormente, combinando a base de dados LISA - Library and Information
Science Abstracts - e da lista dos principais autores sobre o tema de ARS,
pesquisaram sua relevância na ciência da informação. Dos 47 autores mais
prolíficos (com 6 ou mais artigos), 12 haviam escrito trabalhos presentes nessa
base de dados (independente de serem os primeiros autores).
A pesquisa não alcançou outras áreas do conhecimento que, também, são de
interesse da CI. Numa revisão da literatura sobre o paradigma de redes sociais
na área de pesquisa organizacional, Borgatti e Foster (2003) comprovam o
crescimento da pesquisa em várias áreas do conhecimento. Eles aprofundam a
revisão em relação à área de administração e gestão (Management), e propõem uma
classificação das subáreas de pesquisas em gestão organizacional que utilizam a
ARS. Em comum com a área de pesquisa de gestão da informação na área de CI,
apontam-se os problemas relacionados com a análise dos fluxos de informação
entre os empregados, gerentes, diretores e departamentos dentro de uma
organização empresarial.
De uma maneira geral, destacam-se duas grandes linhas de pesquisa que utilizam
a ARS e tratam de assuntos relacionados aos problemas de pesquisa na área: i)
análise de redes de pesquisadores e de artigos científicos, agregando-se a
possibilidade de análise social às técnicas de bibliometria e cientometria; ii)
estudos relacionados ao conceito de capital social de pessoas em determinados
grupos ou organizações, associados às informações e conhecimentos relevantes
para o seu progresso.
2.2 Bibliometria, co-autoria e cooperação
A bibliometria é descrita como um campo de pesquisa verdadeiramente
interdisciplinar. Sua metodologia inclui elementos da matemática, ciências
sociais e naturais, engenharia, incluindo, ainda, as ciências da vida (GLÄNZEL,
2003). Uma das subáreas de estudo se relaciona com o estudo das co-autorias
como indicadores da produção científica. Na verdade, existem várias formas de
cooperação entre os cientistas e pesquisadores e essa é apenas uma delas, sendo
que a compreensão final da organização social de uma área só poderia ser
compreendida com a adição dessas outras formas de relacionamento (CRANE, 1972).
No entanto, cada abordagem fornece pistas para as demais e permite testar
algumas suposições sobre o comportamento social dos pesquisadores.
Apesar do crescimento acentuado das publicações com múltiplos autores, frutos
da crescente cooperação entre instituições e a ampliação das pesquisas
multidisciplinares, deve-se levar em conta que existem vários fatores
associados à indicação de um colaborador que transcendem a colaboração per se.
Glånzel (2003), baseando-se nos estudos de Beaver (2001), enumera 18 motivos
pelos quais os cientistas cooperam entre si, sendo que alguns estão associados
à montagem de redes ou colégios invisíveis, associação com pesquisadores de
maior renome ou à obtenção de prestígio. Embora sem entrar na descrição da
metodologia de ARS, várias análises são feitas a partir das redes de co-
publicação e co-autoria, inclusive entre países. Na descrição de ferramentas
bibliométricas, ao final da publicação, observa-se que várias delas combinam as
técnicas de bibliometria tradicional com a ARS (GLÄNZEL, 2003).
Na mesma linha, Katz e Martin (1997), consideram que a co-autoria é apenas um
indicador parcial da colaboração entre pesquisadores. Inicialmente os autores
analisam o significado de colaboração em pesquisa, mostrando que se trata de um
termo sem um sentido claro, de uso geral. Eles apontam as dificuldades de se
medir a colaboração, mesmo com entrevistas e questionários, em função da
complexidade da natureza da interação humana. O artigo analisa ainda a premissa
que a colaboração é positiva para os resultados das pesquisas, concluindo que
pouco foi feito para explicar como e porque ocorre a colaboração. Com relação
ao aumento do número de autores por publicação, e fazendo uma combinação do que
vários pesquisadores na área detectaram, são destacadas dez razões.
O aumento da participação de vários pesquisadores de diferentes formações nas
pesquisas evidencia a sua característica multidisciplinar e explica o aumento
da colaboração, mas outros fatores, como a área de conhecimento, os contatos
informais, a distância física e a existência de colégios invisíveis são fatores
relevantes. Embora não mencionada claramente, a preocupação com as redes de
colaboração aparece na menção aos colégios invisíveis e no compartilhamento de
conhecimento tácito. A distinção entre colaboração e co-autoria poderia ser
estudada com auxílio da ARS e a comparação dos elementos e das topologias
desses dois tipos de redes.
Vários estudos foram feitos no Brasil na área, com usos de técnicas de
bibliometria e cienciometria, para tentar identificar a produção científica de
ciência da informação. Esses termos são, muitas vezes, associados a outros,
mais recentes, como infometria ewebometria. Numa discussão sobre a definição,
conteúdo e metodologias subjacentes aos termos mencionados, Macias-Chapula
(1998) não mencionou o uso de ARS como uma metodologia a ser utilizada na
bibliometria. Deve-se mencionar que o objetivo do artigo era discutir o papel e
o uso que vem sendo dado à bibliometria e à cienciometria e as dificuldades e
suas limitações com relação às comparações internacionais e a disponibilidade
de bases de informações adequadas.
Com o objetivo de analisar a produção cientifica dos docentes dos cursos de
pós-graduação em CI registrados até 1999, Población e Noronha, (2002)
realizaram um estudo usando essas técnicas. Inicialmente, com base nos
atributos dos docentes (área e ano da titulação, linhas de pesquisa,
instituição de origem, dentre outros) montaram o quadro sobre a evolução da
formação dos professores vinculados ao programa. Em seguida, associaram os
professores segundo as linhas de pesquisa identificadas (22 ao todo) e
instituições de origem, assim como a sua produção (1108 documentos no período
de 1990 a 1999). O total foi dividido em literatura branca (59,8%) e literatura
cinzenta (40,2%). Com relação ao número de autores, a maior parte dos
documentos (aproximadamente 74%) tinha um único autor e 15% tinham dois
autores. As autoras destacaram, entretanto, uma tendência de ampliação do
número de trabalhos com dois ou mais autores, como reflexo da constituição de
núcleos de pesquisa multidisciplinares, a ampliação da cooperação entre
instituições e a maior valorização dos trabalhos em parceria por parte das
agências patrocinadoras de pesquisa. Ainda assim, todas as análises sobre a
produção e produtividade foram feitas a partir das informações dos atributos e
não era objetivo do trabalho identificar quem eram os colaboradores nos grupos
de pesquisa e nos documentos já analisados com múltiplos autores.
Em estudo anterior, mas tendo como base uma única publicação ' Ciência da
Informação, no período de 1990 a 1999 ', foram feitas análises tomando-se por
base os atributos dos artigos, tais como o número de autores, os temas, o
volume e fascículo no qual foram publicados (MUELLER, PECEGUEIRO, 2001). Com
relação à autoria, aproximadamente 78% dos 248 artigos apresentavam um único
autor e, daqueles com múltipla autoria (54 artigos), a maior parte apresentava
apenas dois autores. Dessa forma, o número total de autores pesquisados chegou
a 270, sendo que 83% do total (225) apresentaram um único artigo nas revistas
estudadas. Embora relevante para a apresentação de uma metodologia para a
análise de publicações, cujos resultados servem como um dos insumos para a
compreensão da CI, o estudo poderia ter maior impacto se a base de publicações
analisadas fosse ampliada.
2.3 ARS e as redes de co-autoria
Além do trabalho já mencionado de Otte e Rousseau (2002), outros evidenciam a
importância da ARS como ferramenta relevante nos estudos de comunidades de
prática e na análise bibliométrica, também podem ser citados. Aplicando a ARS
em dois departamentos da mesma área (Biologia), mas de duas diferentes
universidades suecas, foram analisadas as redes de co-autoria e de citações
diretas e indiretas (MAHLCK, PERSSON, 2000). Os autores testaram basicamente
duas hipóteses (sobre a posição dos pesquisadores mais produtivos e sobre a
integração de diferentes grupos de pesquisa) tendo por base a estrutura das
redes obtidas dos dados oficiais, ou seja, a estrutura dos grupos de pesquisa.
Na mesma linha, tomando por base as redes de co-autoria de grande porte
(inclusive com laços internacionais, numa base de 385 autores) Kretschmer
(2004) usa a ARS e as demais informações bibliométricas (produção e
produtividade) para definir os atributos dos autores e analisar a posição na
rede daqueles com as mesmas características ou atributos. O autor testa
basicamente três hipóteses: i) se existe uma conexão entre a estrutura dos
clusters e a produtividade dos cientistas; ii) se existe uma relação entre a
distância geodésica e a produtividade; e iii) se a estratificação social é
maior quando são pequenas distâncias geodésicas.
Ainda na linha de análise de redes e estrutura social dos colaboradores e,
buscando a compreensão sobre a dinâmica dos grupos de pesquisadores, Yoshikane
e Kageura (2004) usam a ARS para estudar a estrutura de cooperação entre
pesquisadores japoneses de quatro áreas: duas da área de engenharia (engenharia
elétrica e processamento de dados) e duas na área de Química (bioquímica e
polímeros). Eles constatam o crescimento relativo do número de artigos
produzidos em co-autoria, assim como no número de autores por artigo, com
impactos significativos sobre as redes de cooperação.
Ainda no que diz respeito às redes de colaboração entre cientistas, Newman
(2001) constrói redes de co-autoria, para o período de 1995 a 1999, a partir de
grandes bases de dados americanas (variando de 13.000 artigos e 12.000 autores
na área de ciência da computação, a 2 milhões e 1,5 milhões, respectivamente,
na área de pesquisa biomédica). Os resultados evidenciam as redes do tipo mundo
pequeno (small-worlds,(WATTS, 1999)); ou seja, dois cientistas escolhidos
aleatoriamente estão separados por um pequeno número de passos (a distância
geodésica é curta, cerca de 5 ou 6 passos) e a presença de clusters (em todas
as bases existe um componente ou subconjunto com cerca de 50 a 80% dos autores,
dependendo da área, ou seja, a maioria se conecta entre si através de autores
intermediários e dois cientistas têm 30% ou mais de probabilidade de
colaborarem entre si, se ambos já colaboraram como um terceiro cientista, isto
é, formam uma tríade). (NEWMAN, 2001).
No Brasil, aplicando-se a metodologia de ARS, foi feito um estudo sobre a rede
de co-autoria englobando os professores do Programa de Pós-Graduação em Ciência
da Informação da UFMG, com o objetivo de identificar: i) se ela é densa, com
muitos artigos publicados nessa condição, envolvendo a maior parte dos
professores; ii) se existe colaboração entre os professores das diferentes
linhas de pesquisa (SILVA et al., 2005). Os resultados estariam manifestados
nas publicações totais e, especialmente, nas conjuntas. A base de dados foi
construída a partir da base do CNPq ' Lattes (CNPQ, 2005). Além dos resultados
provenientes da aplicação da metodologia da ARS, foram feitas análises
estatísticas sobre a produtividade dos autores. Os resultados mostraram que a
rede de colaboração é bastante esparsa e muito da produção ocorre entre
colaboradores preferenciais. O crescimento da produção está, em grande medida,
associado à ampliação da pós-graduação, como demonstra o crescimento da
produção em conjunto com alunos do próprio Programa.
Com o objetivo de estudar as redes de colaboração científica, Balancieri et al.
(2005) fazem uma análise da literatura sobre a cooperação científica situando
historicamente os principais pontos tratados por diferentes autores ao longo
dos últimos 50 anos. O artigo enumera vários estudos sobre as razões da
cooperação, não entrando nos questionamentos sobre o seu significado e sua
importância para a produção e a produtividade dos pesquisadores, embora faça
menção a autores que tiveram essa preocupação como, por exemplo, Katz e Martin
(1997). Ao longo do período, as análises utilizando a metodologia de ARS são
apontadas no final da década de 1990 e início da seguinte como, por exemplo,
Newman (2001). Em seguida, os autores analisam a importância das novas
tecnologias de informação e comunicação - TIC's - na montagem de bases de dados
para estudos das redes de colaboração entre cientistas, tomando como exemplo a
Plataforma Lattes. Os autores destacam que existem três sistemas na Plataforma
que tratam da análise de redes: a) Lattes Egressos, b) Lattes Colaboradores e
c) Lattes Redes-GP. Para estudos das redes de co-autoria, o segundo sistema é o
mais indicado. De acordo com os autores pode-se montar a rede de co-autoria de
cada pesquisador, com uso da ferramenta Link Analysis. A base de dados da
Plataforma Lattes é, inegavelmente, a maior fonte de informações para a análise
da organização das comunidades científicas das diferentes áreas de
conhecimento. Existe, ainda, um longo caminho a ser percorrido, especialmente
com relação ao uso da base estar atualmente ainda restrita a um grupo de
pesquisadores. Não se deve esquecer dos problemas de tratamentos dos dados,
conforme mencionados em Silva et al. (2005), especialmente a inconsistência
entre informações que deveriam ser comuns a dois pesquisadores.
O uso das ferramentas de bibliometria no estudo da Web é uma tendência
crescente, uma vez que a Web e as publicações eletrônicas romperam a barreira
da publicação tradicional e da colaboração entre pesquisadores, entre o contato
informal e a cooperação (GLÄNZEL, 2003). O estudo de clusters na Web, da
formação de redes do tipo mundo pequeno (small Word), assim como o mapeamento
da estrutura de redes na Web são áreas de aplicação das técnicas estatísticas
da bibliometria (GLÄNZEL, 2003) e da ARS, chegando-se ao que vem sendo
denominado de webometria.
3 Metodologia
Adotou-se a mesma metodologia de coleta e análise de dados utilizada no projeto
RedeCI. Como esta é a primeira publicação referente ao tema, é feita uma
apresentação geral da RedeCI. Em seguida, descrevem-se as medidas de ARS
utilizadas.
3.1 Criação de dados da RedeCI
A metodologia para criação da base de dados da RedeCI ocorreu por meio de três
etapas: inclusão manual de periódicos e eventos; transformação de dados e
processamento de consultas, que resultaram em diferentes produtos, conforme
esboçado na FIG.1. A realização destas atividades culminou na criação do sítio
Web3
.
A primeira etapa refere-se à inclusão dos periódicos e eventos, a partir de
seus sítios, em um Banco de dados relacional - BDR - e geração do Esquema
relacional da RedeCI (ER RCI). Os dados do ER RCI são tratados através de um
processo de extração, transformação e carga - ETC - , no qual são realizados
filtros para eliminar possíveis erros e dados redundantes, além da
identificação de autores idênticos com nomes diferentes. A partir da
transformação das tabelas é dada a carga no armazém de dados (DW RCI), que
serve como fonte de dados básica para as outras aplicações da RedeCI.
Após tal tratamento, são gerados três Data Marts para as diferentes saídas: i)
as tabelas apresentadas no sítio com números da base; ii) arquivos de entrada
para o aplicativo UCINET (BORGATTI et al., 2002), com o objetivo de gerar as
medidas da rede; iii) arquivos para a visualização da rede em forma de grafo,
gerada pelo aplicativo NV2D (BO SHI, 2006).
Finalmente, as informações geradas são publicadas no sítio da rede, que conta
com a possibilidade de navegação por autores. O sítio apresenta também as
últimas mensagens do grupo de discussão, além de bibliografia, links, dentre
outros.
No contexto da rede, a literatura cinzenta compreende eventos, congressos,
colóquios etc. enquanto a literatura branca abrange os periódicos. Autores
transientes são aqueles que realizaram somente uma publicação em um determinado
grupo de artigos e autores permanentes são aqueles que realizaram mais de uma
publicação no mesmo grupo de artigos.
3.2 A ARS e a RedeCI
No caso da RedeCI, o ator é um autor ou pesquisador, sendo que, embora ainda
não façam parte da base, seus atributos seriam: as características individuais
(idade, sexo) e profissionais (instituição ao qual está vinculada, formação
etc.). O laço usado para a montagem da base de dados foi o de co-autoria, sendo
eles considerados não direcionais, podendo ser tratados como ora dicotômicos,
ora valorados (número de publicações em co-autoria), dependendo do objetivo do
estudo. Dessa forma, a RedeCI pode ser representada por um grafo não
direcionado, sendo que, por se tratar de uma rede não direcional, as medidas de
entrada (indegree) e saída (outdegree) são idênticas.
Para o presente estudo e, com base nos dados da RedeCI, foram analisadas as
seguintes medidas: grau de centralidade (degree centrality), grau de
proximidade (closeness centrality) e grau de intermediação (betweenness
centrality).
3.3 Outros métodos de análise de produtividade
Além das medidas acima mencionadas, obtidas da ARS, foi feita uma análise sobre
a distribuição dos artigos e autores com base na Lei de Lotka. Segundo Glånzel
(2003), Alfred Lotka foi um dos pioneiros da bibliometria ao realizar, em 1926,
estudos sobre a produtividade científica na área da química, com base no índice
decenal (1907-1916), do Chemical Abstracts. Não se trata da única formulação
sobre a produtividade científica; ao longo dos anos ela vem sendo criticada ou
desafiada por proposições concorrentes (RAVICHANDRA RAO, 1986). Glånzel (2003)
considera que a lei de Lotka é, para a descrição da produtividade científica,
válida ainda hoje, e a apresenta com a seguinte formulação: "O número de
(autores) que fazem n contribuições é cerca de 1/n2 daqueles que fazem apenas
uma; e a proporção de colaboradores que fizeram apenas uma (contribuição) é de
60%". (GLÄNZEL 2003, p.6).
Olhando de outra forma, ele mostrou que o número de autores com n publicações
em uma bibliografia pode ser descrito como uma lei de potência da forma C/kb.
Ele demonstrou que b tende para 2 e, nesse caso, C seria igual a 6/(p)2, ou
seja, aproximadamente 0,61. Assim, se uma bibliografia pode ser descrita por
essa lei de potência, aproximadamente 61% dos autores teriam contribuído com
apenas uma publicação. Assim: f(k) = C / Kb, k = 1,2,
Reescrevendo-se a equação como uma distribuição estatística (de forma que a
soma de todos os n seja igual a 1), obtém-se:[/img/revistas/pci/v11n3/
a02img07.gif] (ROUSSEAU, ROUSSEAU, 2000).
4. Resultados preliminares
A seguir são apresentados os resultados referentes à primeira versão da base de
dados da RedeCI e a análise preliminar da produção e da co-autoria.
4.1 Os números da base de dados da RedeCI
A base da RedeCI contava em dezembro de 2005 com 1309 autores e 1361 artigos,
gerando uma proporção de menos de um artigo por autor (0,961). Para a
literatura branca, foram considerados periódicos de circulação nacional
disponíveis na Webe avaliados com classificação A pelo Qualis em sua
classificação relativa aos dados de 2004 (QUALIS, 2005). Para a literatura
cinzenta foram considerados os eventos de alcance nacional que levam a palavra
ciência da informação em seu nome. Uma vez delimitada a literatura, foram
incluídos todos os números referentes disponíveis na Web. A TABELA_1 apresenta
o nome do periódico, o primeiro e último números disponíveis na base, e as
respectivas quantidades de artigos e autores.
A partir do estado atual da base, foi possível realizar a análise dos autores
transientes e permanentes considerados separadamente pelo tipo de literatura '
cinzenta e branca ' ou conjuntamente (TAB._2). Observa-se que a proporção de
autores transientes em relação aos permanentes é maior na literatura branca, ou
seja, é mais comum que um autor de um trabalho em um evento publique outro
trabalho em outro evento. Os autores permanentes e transientes também são
considerados independentemente do tipo de literatura na última linha da TAB._2.
Na TAB._3 verifica-se o número de autores que publicaram trabalhos em eventos
diferentes (e não em edições diferentes do mesmo evento) e revistas diferentes
(idem). Observa-se que a quantidade de autores que publicam em diferentes
periódicos ou eventos é baixa em relação ao todo. Somente 158 autores (12,1%)
publicam artigos em mais de uma revista, enquanto somente 23 publicaram nos
dois eventos disponíveis na base. Assim, a maioria absoluta dos autores publica
trabalhos sempre no mesmo periódico. Ressalta-se que a base possui somente dois
eventos disponíveis (CINFORM e ENANCIB), com suas respectivas edições.
4.2 ARS usando a base de dados da RedeCI
As medidas de centralidade foram tomadas usando-se o UCINET para 949 autores
que apresentaram, pelo menos, uma relação de co-autoria. Não foram feitas
análises sobre facções ou grupos isolados entre si (componentes da rede). Os
resultados demonstraram que o uso dessa ferramenta requer cuidados especiais e
que há necessidade de se aprofundar o conhecimento sobre a estrutura da rede,
incluindo o conhecimento sobre a área investigada, no caso, a CI. Portanto, os
resultados da ARS sobre a base de dados da RedeCI, ainda que iniciais, mostram
que as medidas de centralidade precisam ser analisadas com cautela e que sua
utilização depende dos objetivos propostos. Por exemplo, tomando-se os valores
obtidos para as medidas de centralidade, lembrando-se que o grau de
centralidade deve ter sua ordem invertida para a análise pretendida, foi feita
uma análise de correlação de Pearson para os valores encontrados, o que revelou
que as medidas não se correlacionam (TAB._4).
Em outras palavras, o conhecimento da posição dos autores segundo uma
determinada medida de centralidade não permite projeções sobre as demais (entre
as três aqui usadas).
4.3 Análise de produtividade
Os parâmetros de concentração da produção foram estimados e testados com base
no aplicativo desenvolvido por Rousseau e Rousseau (2000) e os resultados
mostram uma participação de 72%, maior que a prevista, em relação a autores com
apenas uma única contribuição (TAB._5).
A adequação das estimativas dos parâmetros em uma dada distribuição é testada
com sucesso por meio do teste de Kolmogorov-Smirnov, calculado com base nos
desvios absolutos entre os valores das funções de distribuição observados e as
distribuições teóricas (RAVICHANDRA RAO, 1986). Esse teste indicou que os
resultados acima eram, estatisticamente, significativos.
Os valores obtidos chamam a atenção para a possibilidade de que grande parte
das contribuições seja de autores que concluíram um trabalho de pesquisa
referente à elaboração da sua dissertação.
5 Conclusões
Os resultados da análise da produção indicam a concentração de artigos com
autoria única e de autores transientes (com um único artigo) na área e o fato
de que os diferentes índices de centralidade têm baixo índice de correlação
entre si.
Neste momento, ainda existe um longo trabalho a ser realizado na análise da
base de dados de co-autoria com base na ARS, abrindo um amplo espaço para
estudos sobre representação, com medidas de fácil compreensão e de uso
generalizado, que representem a posição dos autores na estrutura, segundo
fatores como influência e importância para a área de CI. Além disso, estudos
sobre a estrutura completa da rede, sobre a existência de subgrupos (clusters
etc.), cliques, redes de cooperação interinstitucionais e colégios invisíveis,
dentre outros, permitirão um retrato aprofundado na CI no Brasil. Além disso,
estudos de interdisciplinaridade e de epistemologia da área podem ser temas de
trabalhos futuros.
Deve-se também destacar que todos os autores dos diversos trabalhos citados,
assim como se faz aqui, tomam o cuidado de salientar que a ARS e os resultados
estatísticos não eliminam a necessidade de uma análise qualitativa aprofundada.
Entender a sistemática de desenvolvimento das conexões, dos mecanismos
facilitadores da criação e manutenção de fluxos de informações e de
conhecimento são problemas de pesquisa da CI.
Na fase atual, a estrutura da base de dados da RedeCI permite o estudo da
colaboração entre os pesquisadores na forma de redes de co-autoria, isto é,
estudos classificados no primeiro grupo mencionado acima (sistemática do
desenvolvimento de conexões). Com a introdução dos atributos dos autores na
base de dados, especialmente os dados referentes à instituição de interesse e
área de pesquisa, permitirão estudos adicionais, como, por exemplo, das redes
de colaboração entre pesquisadores de uma mesma área ou, ainda, das redes de
colaboração entre as instituições de pesquisa.
Entre os desenvolvimentos futuros para o projeto RedeCI estão previstos a
inclusão de atividades como a busca no currículo Lattes (CNPQ, 2005), no Google
Scholar (GOOGLE, 2006), na lista da ANCIB (ANCIB, 2006), a inclusão de teses e
dissertações defendidas em PPGCIs e a utilização de ontologias para descrever
as conexões entre os diferentes tipos de informações. O crescente papel da Web
na comunicação formal e informal entre pesquisadores, as publicações on-line e
as iniciativas do tipo Open Archive indicam a necessidade de uma crescente
integração entre a ARS, a bibliometria e as aplicações de websemântica, sob
pena de não se analisar uma parte relevante da produção e comunicações
científica.
Estas informações, disponíveis no armazém de dados, permitirão a geração de
consultas e estatísticas mais elaboradas, além da possibilidade de exportar
dados em formato estruturado que podem ser utilizados pelos autores em seus
respectivos sítiosWeb.