|
CoPEP: Corpus de Português Escrito em Periódicos O CoPEP (Corpus de Português Escrito em Periódicos) é um corpus sincrónico composto de cerca de 10 000 textos coligidos de revistas académicas de Brasil e Portugal. O corpus foi criado com o propósito de servir de referência para um projeto lexicográfico cujo principal objetivo era o desenho de um dicionário on-line para estudantes universitários com base em dados de corpora (Kuhn 2017). O corpus contém quase 50 milhões de átomos, distribuídos por três colégios, por sua vez subdivididos em seis grandes áreas (de acordo com a classificação da CAPES). Os subcorpora de cada variedade linguística têm sensivelmente a mesma dimensão e contêm quase o mesmo número de átomos por grande área e por colégio, fazendo do CoPEP um corpus equilibrado. Os metadados foram guardados de forma a permitir opções avançadas de pesquisa, e.g. ano de publicação, grande área do conhecimento e ISSN. Para informação mais detalhada, consultar as publicações. Como citar este corpus: Tanara Zingano Kuhn & José Pedro Ferreira (2018). CoPEP - Corpus de Português Escrito em Periódicos (v.1.5). Coimbra: CELGA-ILTEC. Alguns dados e números Os textos distribuem-se por três colégios e, mais abaixo, em seis grandes áreas (de acordo com a classificação CAPES).
O corpus contém perto de 50 milhões de átomos, distribuídos de forma equilibrada entre variedades, tanto globalmente como em casa domínio científico.
Este estudo foi financiado em parte pela Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES, Código de financiamento 001), e em parte pela Fundação para a Ciência e a Tecnologia de Portugal, através do Projeto Estratégico do CELGA-ILTEC da Universidade de Coimbra (POCI-01-0145-FEDER-006986 - UID/LIN/04887/2013). |