A distribuição de renda nas pesquisas domiciliares brasileiras: harmonização e
comparação entre Censos, PNADs e POFs
Introdução
O crescimento pró-pobre – isto é, com redução da desigualdade – na primeira
década dos anos 2000 foi amplamente documentado e continua sendo objeto de
inúmeras investigações (HOFFMANN,_2005; SOARES,_2006; BARROS;_FOGUEL;_ULYSSEA,
2006), o que só foi possível em função de outra novidade menos comentada: a
profusão de bancos de dados de alta qualidade publicamente disponíveis. Essa
abundância de dados é extremamente positiva, pois permite que os pesquisadores
avaliem a robustez de suas descobertas. Contudo, ela também desperta dúvidas,
já que nem sempre os números obtidos são compatíveis entre si.
Este trabalho procura entender as discrepâncias nas distribuições de renda nas
três pesquisas domiciliares regularmente conduzidas pelo IBGE que têm cobertura
nacional e coletam informações sobre rendimentos: o Censos Demográficos, a
Pesquisa Nacional por Amostra de Domicílios (PNAD) e a Pesquisa de Orçamentos
Familiares (POF).
Para isso, o artigo procede em duas etapas: primeiro, as principais diferenças
entre as três fontes de dados são agregadas em três grandes grupos – diferenças
amostrais, conceituais e na coleta e tratamento das informações –, documentadas
e, dentro do possível, harmonizadas. Em seguida, as distribuições e outros
indicadores importantes são comparados antes e depois da harmonização.
A principal hipótese é a de que um conjunto relativamente pequeno de ajustes é
capaz de promover grande convergência nas distribuições de renda no Censo, na
PNAD e na POF. Como a maior parte desses ajustes tem como objetivo tornar o
Censo e a POF mais parecidos com a PNAD, a hipótese pode ser colocada em outros
termos: a PNAD mede bem aquilo que seu desenho se propôs a medir e permite
inferências adequadas – pelo menos dentro das limitações inerentes às pesquisas
domiciliares –, principalmente para as tendências dos rendimentos ao longo do
tempo. A convergência das distribuições será testada por meio da comparação das
distribuições como um todo e por três aspectos centrais para o debate público:
renda média; desigualdade medida pelo índice de Gini; e percentual de extrema
pobreza.
Esse objetivo é diferente da abordagem comum da literatura, que tenta validar
os rendimentos declarados nas pesquisas domiciliares, comparando-os com
referências externas. As estratégias mais comuns são a comparação de agregados
com registros administrativos ou com as contas nacionais
Em geral, os resultados dessa abordagem mostram que, no Brasil, as pesquisas
domiciliares subestimam o nível dos rendimentos e a participação em programas
sociais, como o Bolsa Família, e provavelmente também a desigualdade de renda,
embora haja menos consenso nessa área (LLUCH,_1982; HOFFMANN,_1988; BARROS;
CURY;_ULYSSEA,_2006; HOFFMANN;_NEY,_2008; SOUZA,_2013; MEDEIROS;_SOUZA;_CASTRO,
2014a, 2014b). A literatura internacional chega a resultados parecidos.
Primeiro, a participação em programas governamentais e os rendimentos
associados a eles são quase sempre subestimados, com alguma piora ao longo do
tempo, e com grande variação entre programas (MATHIOWETZ;_BROWN;_BOUND,_2001;
WEINBERG_et_al.,_1999; WHEATON,_2007; MEYER;_MOK;_SULLIVAN,_2009). Segundo,
algumas fontes de rendimentos – como rendas de propriedade, juros e afins, ou
rendimentos de empregadores e contas próprias – também são notoriamente mal
captadas nas pesquisas domiciliares (CANBERRA_GROUP,_2001; HURST,_2010).
Terceiro, os resultados são sensíveis ao desenho das pesquisas e variam
bastante entre levantamentos (CODER;_SCOON-ROGERS,_1996; MOORE;_STINSON;
WELNIAK_JR.,_2000; GOUSKOVA;_SCHOENI,_2007).
Neste trabalho, a ideia não é comparar os resultados com números "verdadeiros",
mas sim explicar diferenças entre pesquisas. Um dos pressupostos é que um
fenômeno pode ser considerado bem estabelecido sempre que as três fontes de
dados – Censo, PNAD e POF – concordarem entre si, independentemente da
validação externa.
Naturalmente, é possível que haja problemas comuns às três fontes, mas sua
investigação está além do escopo desse estudo. Por exemplo, há evidências
baseadas em dados tributários que indicam que as pesquisas domiciliares
brasileiras subestimam a concentração de renda no topo da distribuição e que
houve estabilidade – e não queda – da desigualdade entre 2006 e 2012 (MEDEIROS;
SOUZA;_CASTRO,_2014a, 2014b).
Comparações parciais entre Censo, PNAD e POF já foram feitas por alguns
autores, juntamente com o contraste com as contas nacionais, mas sempre em
apenas um momento do tempo e nunca entre as três pesquisas simultaneamente
(LLUCH,_1982; BARROS;_CURY;_ULYSSEA,_2006; HOFFMANN;_NEY,_2008). Este trabalho
cobre todas as edições realizadas desde o fim da hiperinflação, o que inclui
dois censos (2000 e 2010), 15 PNADs (1995-2011) e duas POFs com cobertura
nacional (2002-2003 e 2008-2009 – para simplificar, 2002 e 2008).
Breve caracterização das pesquisas
O Censo Demográfico de 1872 foi a primeira pesquisa domiciliar brasileira de
cobertura nacional. Desde então, a periodicidade decenal foi mantida, salvo
poucas exceções, mas o escopo dos dados coletados cresceu continuamente
(MÉDICI,_1986; OLIVEIRA;_SIMÕES,_2005).
A coleta de informações sobre rendimentos data de 1890. Depois, os rendimentos
só reapareceram em 1960, como uma única questão com respostas fechadas em
múltiplos do salário mínimo. A renda continuou a ser coletada nos censos
subsequentes, em questões abertas com detalhamento crescente até 2000, quando
foram pesquisadas oito diferentes fontes. O Censo 2010 discriminou os
rendimentos em apenas três fontes (trabalho principal, demais trabalhos e
outros rendimentos).
A PNAD surgiu como parte do esforço de aperfeiçoamento das estatísticas
nacionais no pós-guerra (MARTINE_et_al.,_1988; MÉDICI,_1988; MARTINE,_2005).
Sua primeira edição foi conduzida em 1967, com caráter trimestral e abrangência
geográfica restrita. Em 1974 e 1975, a PNAD foi interrompida para realização do
Estudo Nacional de Despesas Familiares (Endef). Seu retorno, em 1976, marcou
uma nova etapa, com mudanças no questionário e periodicidade anual, exceto em
anos censitários e em 1994 (SCHWARTZMAN,_1994). Não houve mudanças estruturais
nos últimos 30 anos.
No caso dos rendimentos, desde 1981, ocorreram apenas pequenas mudanças nas
perguntas sobre o trabalho e maior desagregação dos "outros rendimentos",
elevando para 11 as fontes pesquisadas. Apesar de positiva, tamanha
consistência também produziu efeitos indesejados: até 2011, a PNAD continuou
captando os rendimentos do abono de permanência – extinto em 1993 –, mas nunca
incluiu no questionário básico perguntas sobre programas como o Bolsa Família e
seus predecessores (ROCHA,_2003; MÉDICI,_1988). Isso só deverá ocorrer nos
próximos anos, com a reformulação das pesquisas domiciliares do IBGE.
Finalmente, as origens da POF remontam ao Endef, a primeira pesquisa de grande
abrangência a trazer dados de rendimentos e despesas e a coletar informações
antropométricas e relativas ao consumo alimentar. Sua complexidade e alto custo
fizeram com que uma nova edição viesse a ser realizada somente em 1987-1988, já
com novo nome – Pesquisa de Orçamentos Familiares – e escopo mais restrito. As
edições subsequentes reverteram esse movimento: tanto o consumo alimentar
quanto a antropometria voltaram em 1995-1996, e as edições de 2002-2003 e 2008-
2009 recuperaram os aluguéis estimados para famílias em residência própria e
tiveram abrangência nacional (DINIZ_et_al.,_2007; VAZ,_2012) .
A coleta dos rendimentos é mais completa na POF do que na PNAD e no Censo. Os
microdados da primeira edição com cobertura nacional, em 2002-2003, discriminam
mais de 80 tipos de rendimentos monetários. Em 2008-2009, são cerca de 110.
Tratamento dos dados
Para harmonizar as fontes de dados, as divergências entre elas foram agrupadas
em três categorias: plano amostral; definições conceituais; e coleta e
tratamento dos dados.
A seleção das unidades de análise constituiu etapa preliminar: os resultados
apresentados dizem respeito à renda domiciliar per capita medida para os
moradores de domicílios particulares permanentes (exceto pensionistas e afins).
Os rendimentos foram deflacionados pelo INPC para outubro de 2011, data da PNAD
mais recente quando da elaboração deste texto. A linha de pobreza extrema é de
R$ 70 per capita, seguindo a definição do Programa Bolsa Família em 2011. Todas
as estimativas consideram os pesos amostrais das pesquisas.
Diferenças no desenho amostral
Representatividade geográfica
As populações de pesquisa dos levantamentos são semelhantes. A harmonização se
faz necessária apenas em função da PNAD: até 2004, sua cobertura não incluía
áreas rurais da Região Norte (exceto Tocantins), ao contrário do Censo, POF e
PNADs recentes. Assim, o primeiro ajuste para harmonização amostral implicou
descartar essas áreas, de modo que a população considerada nas análises
subsequentes consiste nos residentes no território nacional, exclusive
moradores das áreas rurais da Região Norte (exceto Tocantins). Os pesos
amostrais não foram recalculados.
Tamanho das amostras
Entre 1995 e 2011, as PNADs ampliaram de 85 mil para 112 mil domicílios
entrevistados, enquanto as duas POFs visitaram com sucesso 49 mil e 56 mil
domicílios. As amostras dos Censos são entre 50 e 100 vezes maiores, uma vez
que incluem porcentagens relativamente constantes do total de domicílios –
11,7% em 2000 e 10,7% em 2010 (IBGE,_2003; 2012a).
Para a maior parte das variáveis, isso não representa problema, mas o caso da
renda é especial. Os rendimentos não têm limite superior necessário e a
distribuição de renda aproxima-se de uma distribuição de Pareto no topo.
Amostras de grande tamanho, ao alcançar melhor os muito ricos, podem apresentar
indicadores distintos de amostras menores.
A maior capacidade em localizar e entrevistar os muito ricos é uma vantagem dos
Censos: a probabilidade de PNADs ou POFs representarem corretamente grupos tão
diminutos é tão irrisória que, na prática, pode-se considerar que eles não
fazem parte do universo representado por ambas.
O Gráfico_1 mostra as razões entre as rendas médias de cada milésimo da
população pertencente ao centésimo mais rico da população no Censo 2010 e na
PNAD 2010 (ver a seção Seleção dos anos para comparação) e na POF 2008 e na
PNAD 2008. No primeiro caso, há uma descontinuidade quando se chega ao milésimo
mais rico; no segundo, isso não ocorre. Assim, no Censo 2010, a maior parte do
1% mais rico da população ganha entre 25% e 50% a mais que nas PNADs, mas
quando se chega ao 0,1% mais rico, esta porcentagem dispara para algo entre
100% e 150% a mais.
Fonte: IBGE.
PNADs 2008, 2009 e 2011; Censo Demográfico 2010; POF 2008-2009.
GRÁFICO 1 Razão entre as rendas dos milésimos dentro do centésimo mais rico da
renda domiciliar per capita: Censo 2010/PNAD 2010 e POF 2008/PNAD 2008
Como isso não ocorre na comparação com as POFs, é razoável concluir que a
influência do tamanho da amostra dos Censos se manifesta, no topo, sobretudo a
partir do centésimo mais rico e, indiscutivelmente, acima do milésimo mais
rico. Os mesmos padrões são encontrados quando se comparam o Censo 2000 com a
PNAD 2000 sintética e a POF 2002 com a PNAD 2002.
Logo, o segundo procedimento de harmonização das amostras consistiu na
eliminação do 0,1% mais rico nos Censos. Vale notar que esse procedimento visa,
exclusivamente, aumentar a comparabilidade entre pesquisas, e não aproximá-las
do "mundo real": pelos motivos discutidos anteriormente, é muito provável que
as informações do Censo para o topo da distribuição sejam mais precisas do que
as das POFs e PNADs. Além disso, cabe notar também que a escolha do ponto de
corte poderia ser diferente.
Seleção das amostras
Os Censos visitam todos os municípios do país. Em cada setor censitário, os
domicílios são sorteados com equiprobabilidade, com fração amostral constante
para setores no mesmo município. Em 2000, havia duas frações amostrais, 10% e
20%; em 2010, foram quatro faixas, de 5% a 50% (IBGE,_2003; 2012a).
A PNAD segue amostragem em três estágios, na qual municípios são as unidades
primárias, setores censitários são as secundárias e domicílios, as terciárias.
Os municípios são classificados em três estratos: o primeiro engloba as nove
regiões metropolitanas mais antigas e o Distrito Federal (estrato das RM); o
segundo é composto pelos municípios autorrepresentativos (AR), isto é,
municípios não metropolitanos de grande porte; e o terceiro abarca os não
autorrepresentativos (NAR), reunindo os demais municípios.
No primeiro estágio, os municípios RM e AR são necessariamente selecionados,
isto é, sorteados com probabilidade igual a 1. Os municípios NAR são agrupados
principalmente por critérios geográficos e sorteados sem reposição, em seus
grupos, com probabilidades proporcionais à população. No segundo estágio, os
setores censitários são selecionados, em cada município, com probabilidade
proporcional ao tamanho e com reposição; e no terceiro estágio, os domicílios
são sorteados por amostragem sistemática simples dentro de cada setor (SILVA;
PESSOA;_LILA,_2002; IBGE,_2010a).
O plano amostral da POF é conglomerado em dois estágios, com setores
censitários como unidades primárias e domicílios particulares permanentes como
secundárias. O sorteio do primeiro estágio é feito a partir da estratificação
geográfica e socioeconômica das unidades primárias, que são selecionadas,
dentro de cada estrato, com probabilidade proporcional ao seu tamanho; o
segundo estágio sorteia os domicílios por amostragem aleatória simples (IBGE,
2004). A POF 2008, ao contrário da anterior, foi feita com base na Amostra
Mestra, que deverá municiar as pesquisas do IBGE nos próximos anos (FREITAS_et
al.,_2007; IBGE,_2010b).
Em suma, a PNAD visita menos municípios do que a POF e o Censo, e os municípios
visitados são mais concentrados geograficamente (IBGE,_2007). Não há o que ser
feito para minimizar essa diferença entre as pesquisas. Felizmente, essas
diferenças devem ser pouco significativas, pois os pesos amostrais da PNAD
levam em conta as probabilidades de inclusão dos municípios.1
Diferenças conceituais
Definição geral da renda
A definição geral da renda depende de duas decisões: se os rendimentos são
brutos ou líquidos; e se devem se restringir aos rendimentos monetários. O
padrão internacional recomenda o uso da renda disponível – rendimentos
monetários e não monetários líquidos de tributos diretos – como aproximação
mais fidedigna da capacidade de consumo das famílias (CANBERRA_GROUP,_2001).
Quase toda a literatura brasileira, entretanto, limita-se à renda monetária
bruta, porque nem Censos nem PNADs trazem informações sobre rendimentos não
monetários e tributos.
A questão passa a ser como definir a renda nas POFs. A opção foi apresentar
somente dados relativos aos rendimentos brutos – mesmo para tabulações dos
dados originais – e considerar como primeira etapa do filtro conceitual a
exclusão dos rendimentos não monetários.
Períodos de referência
No Censo e na PNAD, a referência é o mês de realização da pesquisa, enquanto a
POF não se restringe a um mês de referência fixo: seu questionário coleta, para
os diversos tipos de rendimentos, o valor bruto do último rendimento e o número
de vezes que a pessoa recebeu aquele rendimento no período de referência da
pesquisa, isto é, os 12 meses anteriores à entrevista.2 Além disso, tanto o
Censo quanto a PNAD dão espaço para subjetividade ao perguntar qual o
rendimento "habitualmente" recebido nos meses de referência, o que gera um sem-
número de dificuldades adicionais (MÉDICI,_1988; ROCHA,_2003). Infelizmente,
não há como fazer qualquer harmonização dessas diferenças.
Definição dos rendimentos captados
Grosso modo, Censo e PNAD captam um conjunto semelhante de rendimentos, ainda
que em níveis de agregação diferentes, enquanto a POF é mais detalhada. Toda a
harmonização consistiu, então, em descartar os rendimentos não captados nos
Censos e nas PNADs, como pagamentos de 13º salário e férias, saques do Fundo de
Garantia por Tempo de Serviço (FGTS), rendimentos não monetários e afins.3
A Tabela_1 mostra que a renda média na POF cai 18% em 2002 e 24% em 2008 com a
exclusão dos rendimentos não captados nas outras pesquisas. Como esperado, os
principais responsáveis pela queda são os rendimentos de empregados formais e
os outros rendimentos (que incluem os não monetários).
TABELA 1 Estimativas da renda domiciliar per capita nas POFs antes e depois da
harmonização conceitual, segundo fontes de rendimento Brasil – 2002-2008
POF 2002 POF 2008
Fontes de Original Harmonizado Original Harmonizado
rendimento (em (em reais Variação (em (em reais Variação
reais de de 2011) (%) reais de de 2011) (%)
2011) 2011)
Trabalho 514 453 -12,0 591 528 -11,0
Com 275 230 -17,0 333 285 -14,0
carteira
Sem 73 66 -9,0 80 73 -9,0
carteira
Conta 106 99 -6,0 125 120 -4,0
própria
Empregador 60 58 -4,0 53 50 -7,0
Outras 195 128 -34,0 349 184 -47,0
fontes
Previdência 89 89 0,0 145 136 -6,0
pública
Aluguéis 15 15 0,0 16 16 0,0
Doações e 19 19 0,0 21 21 -3,0
afins
Programas 2 2 0,0 7 7 0,0
sociais
Outros 71 4 -94,0 159 3 -98,0
rendimentos
Total 709 581 -18,0 941 712 -24,0
Fonte: IBGE. POFs 2002/2003 e 2008/2009.
Nota: Cada linha representa a soma populacional da renda total de cada fonte
dividida pela estimativa da população total.
Diferenças na coleta e tratamento dos dados
Se as diferenças conceituais são mais graves e menos tratáveis que as
amostrais, as diferenças na coleta e tratamento dos dados são ainda maiores. Há
diversas questões irreversíveis relacionadas ao treinamento dos
entrevistadores, à duração da entrevista, à ordem das perguntas, ao
conhecimento dos entrevistados sobre as pesquisas, etc.
A harmonização diz respeito, então, a dois pontos principais: indivíduos com
rendimentos ignorados – que não quiseram ou não souberam declarar renda em
alguma fonte – e indivíduos com renda domiciliar per capita igual a zero.
No primeiro caso, tanto o Censo quanto a POF imputam rendimentos válidos via
hot deck ou semelhante:4 grosso modo, os indivíduos são estratificados segundo
características socioeconômicas e recebem valores imputados a partir de
doadores selecionados aleatoriamente dentro do seu estrato (IBGE,_2003; 2004;
2010b; 2012b). Na PNAD não há imputação. A maioria dos pesquisadores
simplesmente descarta os domicílios em que pelo menos um membro possui algum
rendimento ignorado. Além de prejudicar a comparação, o problema maior é que
houve aumento dos casos nessa situação, que flutuaram em torno de 2% da
população até 2005 e chegaram a mais de 5% em 2011. Nos Censos e nas POFs, os
números oscilam entre 3% (POF 2002) e 9% (Censo 2000).
Os domicílios com renda igual a zero são praticamente inexistentes nas POFs e
muito mais numerosos nas PNADs (cerca de 1% da população desde 1995) e nos
Censos (cerca de 4%). O caso da POF é relativamente fácil de entender, pois não
há um mês de referência fixo e a coleta de informações sobre despesas
provavelmente induz a declaração de rendimentos positivos. Já na PNAD e no
Censo, isso causa mais estranhamento, pois, como a pergunta diz respeito aos
rendimentos habituais, seria de se esperar que apenas poucas famílias tenham
rendimentos tão sazonais a ponto de ser "normal" não ter nenhuma renda nos
meses de referência.
Osorio,_Soares_e_Souza_(2011) argumentam que boa parte desses domicílios nas
PNADs possui perfil incompatível com a ausência de renda, sendo "não pobres" em
situação temporária. Hoffmann_e_Ney_(2008) também identificaram casos muito
atípicos no Censo 2000. É provável que o problema seja ainda mais agudo no
Censo 2010, pois há fortes suspeitas de que "a opção 'não tem rendimento'
serviu [...], em um número significativo de situações, como alternativa para a
categoria 'ignorado'" (IBGE,_2012b).
Imputação dos rendimentos ignorados nas PNADs
A imputação de valores válidos de renda para os indivíduos com rendimentos
ignorados deu-se via hot deck. Para os rendimentos do trabalho – responsáveis
por cerca de 80% da não declaração – e abono de permanência, o hot deck foi
estratificado por Unidade da Federação, área censitária (região metropolitana,
município autorrepresentativo, município não autorrepresentativo), educação
(nenhuma, fundamental completo, médio completo, superior completo) e posição na
ocupação (formal, informal, conta própria, empregador). Para as demais rendas,
a estratificação foi por Unidade da Federação, área censitária, gênero e
educação. Especificações alternativas foram testadas, sem mudanças
significativas nos resultados.
A imputação foi precedida pela análise do perfil dos domicílios com renda
ignorada ao longo do tempo. Os resultados não serão discutidos em detalhe, mas,
de modo geral, pode-se afirmar que o aumento da não declaração de renda foi
concomitante à diminuição do viés: antes, indivíduos com alta escolaridade,
empregadores e contas próprias tinham probabilidade muito maior de não declarar
rendimentos, mas nos últimos anos houve estreitamento dos diferenciais.
Identificação e imputação de rendimentos para domicílios com renda igual a zero
e sem perfil de extrema pobreza
O tratamento dos domicílios com renda zero foi feito em duas etapas. Primeiro,
aplicou-se modelo de análise de conglomerados para identificar quais não tinham
perfil socioeconômico compatível com a extrema pobreza (OSORIO_et_al.,_2011).
Em seguida, foi feita imputação de rendimentos para esses domicílios via hot
deck.
Quatro variáveis foram utilizadas na análise de conglomerados: dummiespara
domicílios urbanos; cujas pessoas de referência eram homens; com membro(s) com
ensino médio completo; e índice socioeconômico do domicílio. O índice foi
construído a partir da análise de componentes principais de variáveis
relacionadas às características do domicílio (presença ou não de geladeira,
máquina de lavar, televisão, banheiro exclusivo, esgotamento sanitário, coleta
de lixo, água de rede geral de distribuição, densidade de mais de dois
moradores por dormitório; variável contínua de moradores por cômodos) e
padronizado para ter média igual a zero em todos os anos.
O hot deck para imputar rendimentos foi estratificado por Unidade da Federação,
área censitária, maior nível educacional entre os moradores e número de
moradores por cômodo.
Os resultados confirmam que Censos e PNADs superestimam a quantidade de
indivíduos com renda domiciliar per capita zero. No Censo 2000, 50% das pessoas
com renda per capita igual a zero não tinham perfil de pobreza; em 2010, já
eram 80%. Nas PNADs, esse percentual cresce de 55%, em 1995, para quase 85%, em
2011.
Os dois grupos identificados entre os domicílios com renda igual a zero são
muito distintos. O índice socioeconômico para os pobres extremos oscila, nos
Censos e nas PNADs, entre -1,5 e -3,0; já o dos "não pobres" fica sempre pouco
acima de zero, ou seja, da média geral do Brasil.
Seleção dos anos para comparação
Como não há PNADs em anos censitários, optou-se por criar PNADs sintéticas para
2000 e 2010, de modo que o nível e a distribuição dos rendimentos em cada caso
representam a média entre a PNAD do ano anterior e a do posterior. Com isso,
evitam-se escolhas arbitrárias entre 1999 ou 2001 e 2009 ou 2011.
Há diversas formas mais ou menos sofisticadas para construir essas PNADs
sintéticas. Neste trabalho, optou-se por agregar as PNADs 1999, 2001, 2009 e
2011 em 12 mil grupos de tamanho igual, ordenados por renda, e construir, a
partir deles, as versões sintéticas de 2000 e 2010. A quantidade de grupos foi
escolhida de forma a reproduzir com precisão a distribuição de renda de cada
ano. Por exemplo, todas as estatísticas de renda, desigualdade e pobreza geram
resultados idênticos até várias casas decimais, seja se aplicadas aos cerca de
100 mil domicílios de cada PNAD, seja se geradas a partir da agregação da PNAD
em 12 mil grupos.
A comparação com as POFs é simples: tendo em vista que a data de referência da
POF 2002 é janeiro de 2003, e a da POF 2008 é janeiro de 2009, a opção mais
razoável é compará-las com as PNADs mais próximas, 2002 e 2008.
Resumo
A aplicação desses procedimentos garante a maior comparabilidade possível entre
as três fontes de dados. O maior interesse está em cotejar as versões originais
e plenamente harmonizadas e observar se há convergência dos dados. Contudo,
também interessa saber qual procedimento tem o maior impacto, principalmente
porque os filtros apresentam características distintas. No caso dos filtros
amostral e conceitual, há um possível tradeoff entre comparabilidade e viés com
relação aos parâmetros populacionais, o que não ocorre com o filtro de
tratamento.
As comparações sempre relacionam bancos que receberam o mesmo tratamento: as
PNADs com filtro amostral são cotejadas com os Censos com o filtro amostral e
assim por diante. Como não é necessário aplicar o filtro conceitual às PNADs
nem o de tratamento às POFs, nesses casos foram usados os dados originais.
A comparação entre Censos, PNADs e POFs
Divergências nos dados originais
Para dimensionar as discrepâncias entre os dados originais dos Censos, das
PNADs e das POFs, a Tabela_2 exibe informações sobre renda média, desigualdade
e extrema pobreza em cada pesquisa.
TABELA 2 Renda domiciliar per capita média, índice de Gini e extrema pobreza
nos Censos, PNADs e POFs Brasil - 2000-2010
Comparação: PNADs e Censos
Indicadores PNAD 2000 Censo 2000 Diferença PNAD 2010 Censo 2010 Diferença
(%) (%)
Renda per
capita (em 571 629 10,0 732 828 13,0
reais de
2011)
Gini (x 100) 59,3 64,6 9,0 53,4 60,9 14,0
Extrema 9,5 13,5 4,0 p.p. 4,4 8,9 4,5 p.p.
pobreza (%)
Comparação: PNADs e POFs
Indicadores PNAD 2002 POF 2002 Diferença PNAD 2008 POF 2008 Diferença
(%) (%)
Renda per
capita (em 576 709 23,0 691 941 36,0
reais de
2011)
Gini (x 100) 58,7 61,2 4,0 54,4 56,0 3,0
Extrema 7,9 8,2 0,3 p.p. 4,5 2,3 -2,2 p.p.
pobreza (%)
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008-2009. Nota: Para renda e Gini, usa-se a
diferença relativa e, para a extrema pobreza, emprega-se a diferença absoluta
(em pontos percentuais).
A comparação entre Censos e PNADs revela números muito diferentes, com aumento
da divergência ao longo do tempo. A renda per capita nos Censos era mais
elevada em 2000, crescendo de forma mais rápida até 2010, enquanto a
desigualdade e a extrema pobreza eram mais altas e caíram menos do que nas
PNADs. A diferença é particularmente grande para o coeficiente de Gini, que
permanece no Censo 2010 em patamar superior ao registrado pela PNAD há uma
década. Essas diferenças não parecem resultar da má captação de alguma fonte
específica de rendimentos. Tanto a composição da renda total quanto o
recebimento de cada fonte são similares nas duas pesquisas.
Em consonância com resultados anteriores (BARROS;_CURY;_ULYSSEA,_2006), a
comparação entre PNADs e POFs revela que o nível de renda é mais alto nas POFs,
mas os níveis de desigualdade são relativamente próximos. Os dois aspectos –
renda e desigualdade – apresentam comportamentos distintos ao longo do tempo:
enquanto a renda nas POFs descolou-se ainda mais das PNADs, a queda na
desigualdade teve intensidade semelhante nas duas. Já a extrema pobreza parte
de patamar semelhante nas duas pesquisas, mas cai mais rapidamente nas POFs.
A distribuição de renda
Se as divergências entre as três pesquisas derivarem principalmente dos fatores
passíveis de harmonização, então é de se esperar que haja maior proximidade
entre as distribuições plenamente harmonizadas do que entre as originais.
Os Gráficos_2 e 3 proporcionam comparações visuais: o primeiro mostra, para
2000 e 2010, a razão entre a renda domiciliar per capita média de cada
centésimo nos Censos e nas PNADs tanto para os dados originais quanto para os
plenamente harmonizados; o segundo faz o mesmo para as POFs. Em ambos, se as
distribuições fossem idênticas às das PNADs de referência, os valores das
curvas seriam constantes e iguais a 1.
[/img/revistas/rbepop/v32n1//0102-3098-rbepop-32-01-0165-gf02.jpg]Fonte: IBGE.
PNADs 1999, 2001, 2009 e 2011; Censos Demográficos 2000 e 2010.
GRÁFICO 2 Razão entre a renda domiciliar per capita dos centésimos nos Censos e
nas PNADs Brasil – 2000-2010
[/img/revistas/rbepop/v32n1//0102-3098-rbepop-32-01-0165-gf03.jpg]Fonte: IBGE.
PNADs 2002 e 2008; POFs 2002-2003 e 2008-2009.
GRÁFICO 3 Razão entre as rendas domiciliares per capita dos centésimos nas POFs
e PNADs Brasil – 2002-2008
Nos Censos, as divergências originais estão nos extremos: os pobres são muito
mais pobres e os ricos são muito mais ricos do que nas PNADs. A harmonização
promove convergência, em especial na cauda inferior. Nos dados originais, as
razões entre Censos e PNADs se aproximam da unidade apenas quando se chega
perto da mediana; nos harmonizados isso ocorre antes. Por exemplo, nos dados
originais, a renda média dos 20% mais pobres nos Censos era apenas 70% da renda
média desse grupo nas PNADs; já nos dados harmonizados, esse percentual sobe
para cerca de 85%. No outro extremo, a renda média do centésimo mais rico nos
dados originais dos Censos era 41% e 67% maior do que nas PNADs 2000 e 2010;
nos dados harmonizados essas porcentagens caem para 3% e 14%.5
A comparação entre POFs e PNADs também mostra convergência após a harmonização
dos dados. Nesse caso, a harmonização afeta mais o nível do que a desigualdade
dos rendimentos. Com exceção dos primeiros centésimos, as distribuições
harmonizadas correm paralelas, mas abaixo das originais e mais próximas da
unidade.
Naturalmente, em nenhum dos dois casos a convergência é perfeita. Mesmo nos
dados harmonizados, as PNADs permanecem com rendas mais elevadas para os mais
pobres e com rendas mais baixas para os mais ricos, em especial na comparação
com os Censos. De todo modo, a magnitude das diferenças diminui
perceptivelmente.
Podemos quantificar a convergência pela estatística de Kolmogorov-Smirnov (K-
S), que permite calcular a proximidade entre distribuições ao comparar as
funções de distribuição empíricas acumuladas de duas amostras de tamanhos ne m.
A estatística K-S é igual ao maior valor absoluto da diferença entre as duas
funções de distribuição empíricas ao longo de x e varia entre 0 (distribuições
idênticas) e 1 (sem sobreposição de valores entre elas):
[/img/revistas/rbepop/v32n1//0102-3098-rbepop-32-01-0165-e01.jpg]
Na Tabela_3, a aplicação da estatística de K-S para as comparações entre Censos
e PNADs e entre POFs e PNADs revela que, em todos os casos, a harmonização
torna as distribuições mais similares.6
TABELA 3 Estatísticas de Kolmogorov-Smirnov para rendas domiciliares per capita
originais e harmonizadas: comparações entre Censos e PNADs e entre POFs e PNADs
Brasil - 2000-2010
Comparação Originais Harmonizadas Diferença
Censo 2000 versus PNAD 2000 0,049 0,033 -0,017
Censo 2010 versus PNAD 2010 0,048 0,029 -0,019
POF 2002 versus PNAD 2002 0,067 0,050 -0,017
POF 2008 versus PNAD 2008 0,117 0,047 -0,071
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008-2009.
A Tabela_4 decompõe a variação na estatística de K-S para mostrar as
contribuições dos três filtros para a convergência. No caso dos Censos, o
filtro de tratamento tem o maior efeito, inclusive com importância crescente
entre 2000 e 2010, refletindo as mudanças operacionais e conceituais entre os
Censos que resultaram em maior percentual de indivíduos com renda per capita
igual a zero nos dados originais com relação às PNADs. Na comparação entre
PNADs e POFs, os resultados são mais estáveis: o que importa mesmo é o filtro
conceitual.
TABELA 4 Decomposição da variação das estatísticas de Kolmogorov-Smirnov entre
rendas domiciliares per capita originais e harmonizadas: comparações entre
Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010
Comparação Amostral Conceitual Tratamento Harmonização completa
Contribuições absolutas
Censo 2000 versus PNAD -0.007 - -0.010 -0.017
2000
Censo 2010 versus PNAD -0.004 - -0.016 -0.019
2010
POF 2002 versus PNAD 2002 0.000 -0.018 0.000 -0.017
POF 2008 versus PNAD 2008 0.000 -0.070 0.000 -0.070
Contribuições relativas
(%)
Censo 2000 versus PNAD 40,0 - 60,0 100,0
2000
Censo 2010 versus PNAD 19,0 - 81,0 100,0
2010
POF 2002 versus PNAD 2002 -2,0 105,0 -2,0 100,0
POF 2008 versus PNAD 2008 0,0 100,0 0,0 100,0
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008-2009.
Nota: As diferenças entre a coluna "harmonização completa" e a soma das demais
decorrem de arredondamentos.
Os rendimentos médios
A harmonização promove maior convergência na renda domiciliar per capitanas
POFs do que nos Censos, como se vê na Tabela_5. No primeiro caso, há
convergência quase perfeita: se, nos dados originais, tanto o nível quanto o
crescimento da renda eram maiores nas POFs do que nas PNADs, nos dados
harmonizados ambos tornam-se substantivamente idênticos nas duas pesquisas.
TABELA 5 Renda domiciliar per capita nos dados originais e harmonizados:
comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010
Dados originais Dados plenamente harmonizados
Comparaçã2000 2010 Variação anual (% 2000 2010 Variação anual (%)
Censo (A) 629 828 2,5 616 816 2,7
PNAD (B) 571 732 2,8 588 767 2,8
A/B (%) 110,0 113,0 - 105,0 106,0 -
Dados originais Dados plenamente harmonizados
Comparaçã2002 2008 Variação anual (% 2002 2008 Variação anual (%)
POF (C) 709 941 4,8 588 721 3,3
PNAD (D) 576 691 3,1 592 719 3,5
C/D (%) 123,0 136,0 - 99,0 100,0 -
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008-2009.
Nos Censos, o efeito da harmonização é menor, mas não desprezível: a renda
média nos dados originais era entre 10% e 13% maior do que nas PNADs, mas nos
dados harmonizados esse percentual cai para algo em torno de 5%. As taxas de
crescimento da renda também se tornam levemente mais próximas. A coleta mais
agregada dos dados de renda no Censo 2010 não gerou viés de subestimação dos
rendimentos médios, seja nos dados originais ou harmonizados.
A Tabela_6 traz a decomposição das razões entre as rendas domiciliares per
capita nos Censos e nas PNADs e nas POFs e PNADs. As três primeiras colunas
mostram em pontos percentuais (p.p.) quanto cada filtro contribui para alterar
essas razões. A quarta coluna mostra o efeito combinado dos três (harmonização
completa). As duas últimas apresentam as diferenças após a harmonização e as
diferenças originais.
TABELA 6 Decomposição das razões entre a renda domiciliar per capitamédia:
comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010
Contribuição de cada filtro (p.p.)Razão entre dados Razão entre dados
Comparaçã Amostral Tratamento Harmonização harmonizados originais
Conceitual completa
Censo 2000
versus -4 - -1 -5 105 110
PNAD 2000
Censo 2010
versus -6 - 0 -7 106 113
PNAD 2010
POF 2002
versus 1 -22 -3 -24 99 123
PNAD 2002
POF 2008
versus 0 -33 -3 -36 100 136
PNAD 2008
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008-2009.
Nota: As diferenças entre a coluna "harmonização completa" e a soma das demais
decorrem de arredondamentos.
Na comparação entre Censos e PNADs, verifica-se que o filtro amostral é o
responsável pelas mudanças. Mais especificamente, a eliminação do milésimo mais
rico nos Censos derruba a renda média o suficiente para aproximar essa pesquisa
das PNADs. Na comparação entre POFs e PNADs, o filtro conceitual é o grande
responsável por fazer evaporar a diferença original entre as pesquisas. A
diferença original decorre exclusivamente do fato de que as POFs aplicam um
conceito de renda mais abrangente.
Em conjunto, os dois resultados ajudam a explicar boa parte das diferenças
entre as pesquisas, mas também reforçam a ideia de que as PNADs de fato
subestimam o nível de renda no país, para além das limitações que afetam todas
as pesquisas domiciliares. No limite, pode-se especular que uma pesquisa com
uma amostra como a do Censo e com questionário abrangente como a POF revelaria
níveis de renda ainda mais altos. De qualquer modo, há grande concordância
entre Censos, PNADs e POFs no que diz respeito à taxa de crescimento da renda.
O coeficiente de Gini
A Tabela_7 replica para o coeficiente de Gini a análise da Tabela_5. De novo, a
harmonização aproxima bastante os resultados, embora não elimine totalmente as
discrepâncias entre eles. Originalmente, o nível de desigualdade nos Censos era
maior em 2000 e a queda da desigualdade, menor. Depois da harmonização, tanto
os níveis quanto o ritmo de queda ficam mais parecidos nas duas pesquisas.
TABELA 7 Coeficiente de Gini da renda domiciliar per capita nos dados originais
e harmonizados: comparações entre Censos e PNADs e entre POFs e PNADs Brasil -
2000-2010
Dados originais Dados plenamente harmonizados
Comparaçã2000 2010 Variação anual (Δ 2000 2010 Variação anual (Δ
(x (x Gini) (x (x Gini)
100) 100) 100) 100)
Censo (A) 64,6 60,9 -0,4 61,6 56,9 -0,5
PNAD (B) 59,3 53,4 -0,6 59,3 53,3 -0,6
A/B (%) 109,0 114,0 - 104,0 107,0 -
Dados originais Dados plenamente harmonizados
Comparaçã2000 2010 Variação anual 2000 2010 Variação anual
(x100) (x100) (ΔGini) (x100) (x100) (ΔGini)
POF (C) 61,2 56,0 -0,9 60,7 57,2 -0,6
PNAD (D) 58,7 54,4 -0,7 58,7 54,2 -0,7
C/D (%) 104,0 103,0 - 103,0 106,0 -
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008-2009.
Os efeitos da harmonização sobre as POFs são mais ambíguos. Originalmente, os
coeficientes de Gini já eram muito próximos, com níveis e ritmo de queda
superiores nas POFs. Com a harmonização, o coeficiente de Gini em 2002 fica
mais próximo, mas o de 2008 fica mais distante, de modo que a queda da
desigualdade passa a ser um pouco mais lenta do que nas PNADs.
A Tabela_8 mostra o efeito de cada filtro sobre as razões entre os coeficientes
de Gini registrados nos Censos e PNADs e nas POFs e PNADs. No primeiro caso, o
filtro amostral é um pouco mais importante do que o de tratamento, o que
reflete o maior peso dos 0,1% mais ricos nos Censos do que nas PNADs. No
segundo caso, a harmonização não muda muito a razão entre os coeficientes de
Gini, mas o filtro conceitual é o que tem mais peso.
TABELA 8 Decomposição das razões dos coeficientes de Gini da renda domiciliar
per capita: comparações entre Censos e PNADs e entre POFs e PNADs Brasil -
2000-2010
Contribuição de cada filtro (p.p.) Razão entre dados Razão entre dados
ComparaçãAmostral Conceitual Tratamento Harmonização harmonizados originais
completa
Censo 2000
versus -3 -2 - -5 104 109
PNAD 2000
Censo 2010
versus -5 -2 - -7 107 114
PNAD 2010
POF 2002
versus -1 0 -0 -1 103 104
PNAD 2002
POF 2008
versus -1 0 3 2 106 103
PNAD 2008
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008
Nota: As diferenças entre a coluna "harmonização completa" e a soma das demais
decorrem de arredondamentos.
De modo mais geral, é possível chegar a conclusões semelhantes às anteriores: a
comparação entre as três bases harmonizadas apresenta resultados bem mais
próximos do que os observados originalmente, sem eliminar totalmente as
diferenças. Mais uma vez, verifica-se uma leve tendência de subestimação do
nível de desigualdade nas PNADs em comparação com as outras duas pesquisas.
Ainda assim, há grande convergência quanto ao ritmo de queda da desigualdade
nos Censos, PNADs e POFs.
A extrema pobreza
Os números relativos à extrema pobreza, apresentados na Tabela_9, confirmam as
tendências anteriores: após a harmonização, as porcentagens nas três fontes de
dados tornam-se mais próximas, pelo menos entre Censos e PNADs. Originalmente,
a principal diferença nesse caso estava nos níveis, não na trajetória de queda
da extrema pobreza. Após a harmonização, a diferença nos níveis cai mais ou
menos pela metade: de 4,0 e 4,5 p.p. para 2,3 e 2,1 p.p. em 2000 e 2010,
respectivamente.
TABELA 9 Incidência da extrema pobreza nos dados originais e harmonizados:
comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010
Dados originais Dados plenamente harmonizados
Comparaçã2000 2010 Variação anual 2000 (%) 2010 (%) Variação anual
(%) (%) (p.p.) (p.p.)
Censo (A) 13,5 8,94,4 -0,5 10,8 5,5 -0,5
PNAD (B) 9,5 4,4 -0,5 8,5 3,4 -0,5
A/B (p.p.) 4,0 4,5 - 2,3 2,1 -
Dados originais Dados plenamente harmonizados
Comparaçã2002 2008 Variação anual 2002 (%) 2008 (%) Variaçãoanual
(%) (%) (p.p.) (p.p.)
POF (C) 8,2 2,3 -1,0 11,5 5,7 -1,0
PNAD (D) 7,9 4,5 -0,6 7,1 3,7 -0,6
C/D (p.p.) 0,3 -2,2 - 4,4 2,0 -
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008-2009.
Nas POFs a situação é distinta. Originalmente, POF e PNAD apresentavam
porcentagens bem próximas em 2002, mas a queda até 2008 era mais rápida na
primeira. Depois da harmonização, a extrema pobreza continua caindo mais
rapidamente nas POFs, mas a partir de patamar mais elevado do que nas PNADs.
A Tabela_10 mostra o efeito de cada filtro sobre as diferenças nas porcentagens
de pobreza extrema de cada pesquisa com as PNADs. Na comparação com os Censos,
a importância do filtro de tratamento chama a atenção: entre 30% (em 2000) e
43% (em 2010) das diferenças com relação às PNADs decorrem de questões de
coleta e tratamento dos dados que são passíveis de harmonização. A explicação
remete ao percentual elevado de indivíduos com renda per capita igual a zero
nos Censos, em especial em 2010, com relação às PNADs.
TABELA 10 Decomposição das diferenças na incidência de extrema pobreza:
comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010
Contribuição de cada filtro (p.p.) Diferença (p.p.)
ComparaçãAmostal Conceitual Tratamento Harmonização Dados Dados
completa harmonizados originais
Censo 2000
versus -0,6 -1,2 - -1,7 2,3 4,0
PNAD 2000
Censo 2010
versus -0,4 -1,9 - -2,4 2,1 4,5
PNAD 2010
POF 2002
versus -0,4 0,8 3,7 4,1 4,4 0,3
PNAD 2002
POF 2008
versus -0,1 0,8 3,6 4,2 2,0 -2,2
PNAD 2008
Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos
2000 e 2010; POFs 2002-2003 e 2008-2009.
Nota: As diferenças entre a coluna "harmonização completa" e a soma das demais
decorrem de arredondamentos.
A comparação entre POFs e PNADs revela que praticamente todas as mudanças
ocorrem por causa do filtro conceitual. Mais especificamente, a exclusão dos
rendimentos não monetários aumenta significativamente a incidência da extrema
pobreza. Como as PNADs obviamente não captam esse tipo de rendimentos, pode-se
concluir que a concordância entre pesquisas observada nos dados originais em
2002 era mera coincidência.
Em boa medida, os resultados para extrema pobreza corroboram as conclusões das
seções anteriores: por um lado, as diferenças mais gritantes diminuem
sensivelmente, como na comparação entre censos e PNADs; por outro, a
harmonização não promove convergência perfeita entre as pesquisas e, mais um
vez, os números das PNADs destoam um pouco das outras duas, indicando
percentuais de extrema pobreza um pouco inferiores aos Censos e POFs.
Conclusão
Os Censos, as PNADs e as POFs são as três principais fontes de dados sobre
distribuição de renda no Brasil, mas, muitas vezes, os resultados obtidos em
cada uma delas parecem incompatíveis entre si. O objetivo aqui foi entender
essas diferenças, tomando as PNADs como referência.
Para isso, o texto partiu de uma breve caracterização das pesquisas e, em
seguida, procurou harmonizar suas principais diferenças, agregando-as em três
grandes grupos: diferenças amostrais; diferenças conceituais; e diferenças na
coleta e tratamento dos dados. Como em qualquer harmonização ex post, os
ajustes propostos são imperfeitos, mas necessários para tornar a comparação
mais apropriada.
O filtro amostral é simples, com duas etapas: exclusão dos moradores do Norte
rural (exceto Tocantins), para compatibilizar os Censos, as POFs e as PNADs
2004-2011 com as PNADs anteriores; e exclusão do milésimo da população com
maior renda domiciliar per capita dos Censos, público que não é captado em
amostras menores.
Já o filtro conceitual é mais problemático, porque não há como resolver
perfeitamente as discrepâncias entre as pesquisas. Com isso, esse filtro
limitou-se a manter nas POFs apenas os rendimentos também captados pelos Censos
e pelas PNADs, excluindo, principalmente, rendimentos não monetários e alguns
relacionados ao trabalho formal.
O filtro de tratamento também foi apenas parcial. No caso dos indivíduos com
rendimentos ignorados, foi utilizado nas PNADs um método de imputação por hot
deckparecido com o que o IBGE aplica aos Censos e às POFs. No caso dos
domicílios com renda igual a zero, foi empregado modelo de análise de
conglomerados nos Censos e nas PNADs para dividi-los entre aqueles com perfil
de pobreza extrema e aqueles com perfil não pobre. Em seguida, estes últimos
tiveram rendimentos imputados por hot deck.
A etapa seguinte foi a comparação entre dados originais e harmonizados dos
Censos, das PNADs e das POFs. A expectativa era de que, caso ocorresse
convergência, então as discrepâncias em relação a Censos e às POFs estariam
explicadas e seria lícito supor que as PNADs captam bem aquilo que se propõem a
captar.
A análise empírica confirma isso em boa medida. Após a harmonização, de modo
geral, os resultados dos Censos, das PNADs e das POFs tornaram-se bem mais
próximos do que os observados originalmente, sem a harmonização proposta.
Os filtros são particularmente úteis na comparação entre Censos e PNADs, o que
era de se esperar, pois são pesquisas mais semelhantes entre si: no que diz
respeito aos níveis de renda média, desigualdade e extrema pobreza, nos dados
harmonizados as discrepâncias caem em geral pelo menos à metade. Nas três
dimensões, também há convergência quanto às tendências ao longo do tempo, que
já eram originalmente próximas e se tornam ainda mais semelhantes.
Os efeitos da harmonização sobre a comparação entre POFs e PNADs são mais
ambíguos. Por um lado, as grandes discrepâncias dos dados originais – relativas
tanto ao nível quanto ao ritmo de crescimento da renda média – desaparecem por
completo, dando lugar à plena convergência entre pesquisas nos dados
harmonizados. Também há alguma convergência, em grau bem menor, quanto ao nível
e ao ritmo de queda da desigualdade. Por outro lado, a harmonização fez
aumentar as diferenças na incidência da pobreza extrema entre POFs e PNADs,
que, por pura coincidência, eram mínimas nos dados originais.
Naturalmente, a convergência entre as pesquisas não é perfeita e, mais ainda,
as discrepâncias remanescentes seguem mais ou menos o mesmo padrão: em
comparação com os Censos e as POFs, as PNADs tendem a "contrair" um pouco a
distribuição de renda, superestimando a renda dos mais pobres e subestimando a
dos mais ricos.
Nenhuma pesquisa jamais será capaz de retratar com perfeição o que é o "mundo
real". O importante é entender os limites de cada pesquisa e quão compatíveis
entre si elas são. Nesse sentido, a convergência após a harmonização é
encorajadora: o retrato que emerge nos Censos, nas PNADs e nas POFs é
relativamente coerente, confirmando que algumas diferenças sistemáticas entre
planos amostrais, conceitos e tratamento dos dados são responsáveis por boa
parte das discrepâncias observadas nos dados originais.
*O autor agradece os comentários de Rodolfo Hoffmann, Marcelo Medeiros, Fábio
Veras Soares e dos dois pareceristas anônimos.
1As versões anteriores deste texto aplicavam um procedimento para manter nos
Censos apenas os municípios sorteados nas PNADs, com efeitos pequenos e/ou
insignificantes sobre a maior parte dos resultados. O autor agradece os
esclarecimentos prestados por um dos pareceristas anônimos.
2Como as entrevistas da POF são conduzidas ao longo de um ano, os 12 meses que
constituem o período de referência não são idênticos para todas as famílias.
3A lista de variáveis utilizadas na construção dos rendimentos na POF pode ser
obtida com o autor.
4Mais precisamente, no Censo 2000 as variáveis de rendimento passaram por
processo de crítica dentro do sistema DIA (Deteccion e Imputación Automática de
Errores para Datos Cualitativos), e a imputação foi feita pela técnica de
árvores de regressão (IBGE,_2003). No Censo 2010, a crítica e a imputação foram
feitas pelo sistema Canceis (Canadian Census Edit and Imputation System) (IBGE,
2012b). Nas POFs 2002 e 2008, a imputação da não resposta para despesas e
rendimentos deu-se via hot deck (IBGE,_2004; 2010b). De modo geral, todos esses
métodos consistem em atribuir aos casos problemáticos valores observados em
doadores com características semelhantes.
5A razão no topo após a harmonização parece mais elevada no gráfico do que
esses números sugerem, pois o 1% mais rico – que concentra parcela expressiva
da renda nacional – tem, por definição, pouco destaque visual quando se mostra
a distribuição completa. Infelizmente, caso os gráficos fossem sensíveis à
distribuição desigual da renda, as diferenças na cauda inferior da distribuição
ficariam imperceptíveis.
6O teste de K-S não é adequado quando os dados são provenientes de amostras
complexas. Por isso, apenas a estatística é apresentada como referência, sem
ênfase na parte inferencial e em testes de significância. O autor agradece a um
dos pareceristas anônimos por levantar este ponto.