Corpus de Português Escrito em Periódicos (CoPEP)

O CoPEP - Corpus de Português Escrito em Periódicos (Tanara Zingano Kuhn & José Pedro Ferreira, 2018) é um corpus de textos escritos em contexto académico e publicados no Brasil e em Portugal. Tem como principal ambição ser representativo da escrita académica em diferentes domínios de especialidade nestes dois países.

O corpus foi pensado para servir de referência para o projeto de doutoramento de TZ Kuhn (concluído em 2017), que teve como objetivo desenhar um dicionário de português baseado em corpus para estudantes universitários. O corpus, pretendendo ser representativo da língua escrita por peritos de diferentes domínios do conhecimento em contexto académico, é constituído por uma quantidade comparável de texto escrito por especialistas de diferentes domínios de especialidade; quer em cada um desses domínios, quer globalmente, o CoPEP é quase perfeitamente equilibrado entre as variedades brasileira e europeia.

O corpus contém cerca de 10 000 textos extraídos de revistas científicas publicadas nas coleções nacionais brasileira e portuguesa do SciELO (Scientific Electronic Library Online), distribuídos por seis grandes áreas, que por sua vez são agrupadas em três colégios. No total, esses textos têm perto de 50 milhões de átomos / tokens. O CoPEP é um corpus sincrónico: a quase totalidade dos textos que inclui foram publicados entre 2000 e 2016. Os subcorpora para cada variedade do português têm quase exatamente a mesma dimensão total e um número muito próximo de palavras, quer por grande área, quer por colégio.

Os metadados de cada texto foram guardados de modo a permitir opções de pesquisa avançadas no corpus, e.g. por ano de publicação, ou por Grande Área. A interoperabilidade com o SciELO é possível através dos ISSN dos periódicos, também guardados como metadatos. Para mais informações, pode consultar a descrição detalhada ou as publicações.

Como citar este corpus:
Tanara Zingano Kuhn & José Pedro Ferreira (2018). CoPEP - Corpus de Português Escrito em Periódicos (v.1.5). Coimbra: CELGA-ILTEC.