Home   |   Structure   |   Research   |   Resources   |   Members   |   Training   |   Activities   |   Contact

EN | PT

CoPEP: Corpus de Português Escrito em Periódicos

O CoPEP (Corpus de Português Escrito em Periódicos) é um corpus sincrónico composto de cerca de 10 000 textos coligidos de revistas académicas de Brasil e Portugal. O corpus foi criado com o propósito de servir de referência para um projeto lexicográfico cujo principal objetivo era o desenho de um dicionário on-line para estudantes universitários com base em dados de corpora (Kuhn 2017). O corpus contém quase 50 milhões de átomos, distribuídos por três colégios, por sua vez subdivididos em seis grandes áreas (de acordo com a classificação da CAPES).

Os subcorpora de cada variedade linguística têm sensivelmente a mesma dimensão e contêm quase o mesmo número de átomos por grande área e por colégio, fazendo do CoPEP um corpus equilibrado. Os metadados foram guardados de forma a permitir opções avançadas de pesquisa, e.g. ano de publicação, grande área do conhecimento e ISSN.

Para informação mais detalhada, consultar as publicações.


Como citar este corpus:

Tanara Zingano Kuhn & José Pedro Ferreira (2018). CoPEP - Corpus de Português Escrito em Periódicos (v.1.5). Coimbra: CELGA-ILTEC.


Alguns dados e números

Os textos distribuem-se por três colégios e, mais abaixo, em seis grandes áreas (de acordo com a classificação CAPES).

Colégios

Colégio de Humanidades (HU)

Colégio de Ciências da Vida (CV)

Colégio de Ciências Exatas, da Terra e Multidisciplinar (CE)

Grandes áreas

Ciências Humanas (Hu)

Ciências Socias Aplicadas (Ap)

Ciências da Saúde (He)

Ciências Agrícolas (Ag)

Engenharia (En)

Ciências Exatas e da Terra (Ex)

 

O corpus contém perto de 50 milhões de átomos, distribuídos de forma equilibrada entre variedades, tanto globalmente como em casa domínio científico.

 

Corpus

Português brasileiro

Português europeu

Textos

9, 900

3,811

6,089

Palavras

40,424,598

20,250,823

20,173,775

Tokens

(também para os dados abaixo)

48,840,337

24,427,255

24,413,082

Colégio de Humanidades

 

30,988,552

15,460,402

15,528,150

 

Ciências Humanas

25,595,789

12,763,135

12,832,654

 

Ciências Sociais Aplicadas

5,392,763

2,697,267

2,695,496

Colégio de Ciências da Vida

 

16,151,841

8,112,981

8,038,860

 

Ciências da Saúde

13,540,819

6,797,058

6,743,761

 

Ciências Agrícolas

2,611,022

1,315,923

1,295,099

Colégio de Ciências Exatas, da Terra e Multidisciplinar

 

1,699,944

853,872

846,072

 

Ciências Exatas e da Terra

829,983

409,500

420,483

 

Engenharia

869,961

444,372

425,589

 


Este estudo foi financiado em parte pela Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES, Código de financiamento 001), e em parte pela Fundação para a Ciência e a Tecnologia de Portugal, através do Projeto Estratégico do CELGA-ILTEC da Universidade de Coimbra (POCI-01-0145-FEDER-006986 - UID/LIN/04887/2013).