Home   |   Structure   |   Research   |   Resources   |   Members   |   Training   |   Activities   |   Contact

EN | PT

BrBRHUAp0102-30982015000100165

BrBRHUAp0102-30982015000100165

variedadeBr
Country of publicationBR
colégioHumanities
Great areaApplied Social Sciences
ISSN0102-3098
ano2015
Issue0001
Article number00165

O script do Java parece estar desligado, ou então houve um erro de comunicação. Ligue o script do Java para mais opções de representação.

A distribuição de renda nas pesquisas domiciliares brasileiras: harmonização e comparação entre Censos, PNADs e POFs Introdução O crescimento pró-pobre isto é, com redução da desigualdade na primeira década dos anos 2000 foi amplamente documentado e continua sendo objeto de inúmeras investigações (HOFFMANN,_2005; SOARES,_2006; BARROS;_FOGUEL;_ULYSSEA, 2006), o que foi possível em função de outra novidade menos comentada: a profusão de bancos de dados de alta qualidade publicamente disponíveis. Essa abundância de dados é extremamente positiva, pois permite que os pesquisadores avaliem a robustez de suas descobertas. Contudo, ela também desperta dúvidas, que nem sempre os números obtidos são compatíveis entre si.

Este trabalho procura entender as discrepâncias nas distribuições de renda nas três pesquisas domiciliares regularmente conduzidas pelo IBGE que têm cobertura nacional e coletam informações sobre rendimentos: o Censos Demográficos, a Pesquisa Nacional por Amostra de Domicílios (PNAD) e a Pesquisa de Orçamentos Familiares (POF).

Para isso, o artigo procede em duas etapas: primeiro, as principais diferenças entre as três fontes de dados são agregadas em três grandes grupos diferenças amostrais, conceituais e na coleta e tratamento das informações , documentadas e, dentro do possível, harmonizadas. Em seguida, as distribuições e outros indicadores importantes são comparados antes e depois da harmonização.

A principal hipótese é a de que um conjunto relativamente pequeno de ajustes é capaz de promover grande convergência nas distribuições de renda no Censo, na PNAD e na POF. Como a maior parte desses ajustes tem como objetivo tornar o Censo e a POF mais parecidos com a PNAD, a hipótese pode ser colocada em outros termos: a PNAD mede bem aquilo que seu desenho se propôs a medir e permite inferências adequadas pelo menos dentro das limitações inerentes às pesquisas domiciliares , principalmente para as tendências dos rendimentos ao longo do tempo. A convergência das distribuições será testada por meio da comparação das distribuições como um todo e por três aspectos centrais para o debate público: renda média; desigualdade medida pelo índice de Gini; e percentual de extrema pobreza.

Esse objetivo é diferente da abordagem comum da literatura, que tenta validar os rendimentos declarados nas pesquisas domiciliares, comparando-os com referências externas. As estratégias mais comuns são a comparação de agregados com registros administrativos ou com as contas nacionais Em geral, os resultados dessa abordagem mostram que, no Brasil, as pesquisas domiciliares subestimam o nível dos rendimentos e a participação em programas sociais, como o Bolsa Família, e provavelmente também a desigualdade de renda, embora haja menos consenso nessa área (LLUCH,_1982; HOFFMANN,_1988; BARROS; CURY;_ULYSSEA,_2006; HOFFMANN;_NEY,_2008; SOUZA,_2013; MEDEIROS;_SOUZA;_CASTRO, 2014a, 2014b). A literatura internacional chega a resultados parecidos.

Primeiro, a participação em programas governamentais e os rendimentos associados a eles são quase sempre subestimados, com alguma piora ao longo do tempo, e com grande variação entre programas (MATHIOWETZ;_BROWN;_BOUND,_2001; WEINBERG_et_al.,_1999; WHEATON,_2007; MEYER;_MOK;_SULLIVAN,_2009). Segundo, algumas fontes de rendimentos como rendas de propriedade, juros e afins, ou rendimentos de empregadores e contas próprias também são notoriamente mal captadas nas pesquisas domiciliares (CANBERRA_GROUP,_2001; HURST,_2010).

Terceiro, os resultados são sensíveis ao desenho das pesquisas e variam bastante entre levantamentos (CODER;_SCOON-ROGERS,_1996; MOORE;_STINSON; WELNIAK_JR.,_2000; GOUSKOVA;_SCHOENI,_2007).

Neste trabalho, a ideia não é comparar os resultados com números "verdadeiros", mas sim explicar diferenças entre pesquisas. Um dos pressupostos é que um fenômeno pode ser considerado bem estabelecido sempre que as três fontes de dados Censo, PNAD e POF concordarem entre si, independentemente da validação externa.

Naturalmente, é possível que haja problemas comuns às três fontes, mas sua investigação está além do escopo desse estudo. Por exemplo, evidências baseadas em dados tributários que indicam que as pesquisas domiciliares brasileiras subestimam a concentração de renda no topo da distribuição e que houve estabilidade e não queda da desigualdade entre 2006 e 2012 (MEDEIROS; SOUZA;_CASTRO,_2014a, 2014b).

Comparações parciais entre Censo, PNAD e POF foram feitas por alguns autores, juntamente com o contraste com as contas nacionais, mas sempre em apenas um momento do tempo e nunca entre as três pesquisas simultaneamente (LLUCH,_1982; BARROS;_CURY;_ULYSSEA,_2006; HOFFMANN;_NEY,_2008). Este trabalho cobre todas as edições realizadas desde o fim da hiperinflação, o que inclui dois censos (2000 e 2010), 15 PNADs (1995-2011) e duas POFs com cobertura nacional (2002-2003 e 2008-2009 para simplificar, 2002 e 2008).

Breve caracterização das pesquisas O Censo Demográfico de 1872 foi a primeira pesquisa domiciliar brasileira de cobertura nacional. Desde então, a periodicidade decenal foi mantida, salvo poucas exceções, mas o escopo dos dados coletados cresceu continuamente (MÉDICI,_1986; OLIVEIRA;_SIMÕES,_2005).

A coleta de informações sobre rendimentos data de 1890. Depois, os rendimentos reapareceram em 1960, como uma única questão com respostas fechadas em múltiplos do salário mínimo. A renda continuou a ser coletada nos censos subsequentes, em questões abertas com detalhamento crescente até 2000, quando foram pesquisadas oito diferentes fontes. O Censo 2010 discriminou os rendimentos em apenas três fontes (trabalho principal, demais trabalhos e outros rendimentos).

A PNAD surgiu como parte do esforço de aperfeiçoamento das estatísticas nacionais no pós-guerra (MARTINE_et_al.,_1988; MÉDICI,_1988; MARTINE,_2005).

Sua primeira edição foi conduzida em 1967, com caráter trimestral e abrangência geográfica restrita. Em 1974 e 1975, a PNAD foi interrompida para realização do Estudo Nacional de Despesas Familiares (Endef). Seu retorno, em 1976, marcou uma nova etapa, com mudanças no questionário e periodicidade anual, exceto em anos censitários e em 1994 (SCHWARTZMAN,_1994). Não houve mudanças estruturais nos últimos 30 anos.

No caso dos rendimentos, desde 1981, ocorreram apenas pequenas mudanças nas perguntas sobre o trabalho e maior desagregação dos "outros rendimentos", elevando para 11 as fontes pesquisadas. Apesar de positiva, tamanha consistência também produziu efeitos indesejados: até 2011, a PNAD continuou captando os rendimentos do abono de permanência extinto em 1993 , mas nunca incluiu no questionário básico perguntas sobre programas como o Bolsa Família e seus predecessores (ROCHA,_2003; MÉDICI,_1988). Isso deverá ocorrer nos próximos anos, com a reformulação das pesquisas domiciliares do IBGE.

Finalmente, as origens da POF remontam ao Endef, a primeira pesquisa de grande abrangência a trazer dados de rendimentos e despesas e a coletar informações antropométricas e relativas ao consumo alimentar. Sua complexidade e alto custo fizeram com que uma nova edição viesse a ser realizada somente em 1987-1988, com novo nome Pesquisa de Orçamentos Familiares e escopo mais restrito. As edições subsequentes reverteram esse movimento: tanto o consumo alimentar quanto a antropometria voltaram em 1995-1996, e as edições de 2002-2003 e 2008- 2009 recuperaram os aluguéis estimados para famílias em residência própria e tiveram abrangência nacional (DINIZ_et_al.,_2007; VAZ,_2012) .

A coleta dos rendimentos é mais completa na POF do que na PNAD e no Censo. Os microdados da primeira edição com cobertura nacional, em 2002-2003, discriminam mais de 80 tipos de rendimentos monetários. Em 2008-2009, são cerca de 110.

Tratamento dos dados Para harmonizar as fontes de dados, as divergências entre elas foram agrupadas em três categorias: plano amostral; definições conceituais; e coleta e tratamento dos dados.

A seleção das unidades de análise constituiu etapa preliminar: os resultados apresentados dizem respeito à renda domiciliar per capita medida para os moradores de domicílios particulares permanentes (exceto pensionistas e afins).

Os rendimentos foram deflacionados pelo INPC para outubro de 2011, data da PNAD mais recente quando da elaboração deste texto. A linha de pobreza extrema é de R$ 70 per capita, seguindo a definição do Programa Bolsa Família em 2011. Todas as estimativas consideram os pesos amostrais das pesquisas.

Diferenças no desenho amostral Representatividade geográfica As populações de pesquisa dos levantamentos são semelhantes. A harmonização se faz necessária apenas em função da PNAD: até 2004, sua cobertura não incluía áreas rurais da Região Norte (exceto Tocantins), ao contrário do Censo, POF e PNADs recentes. Assim, o primeiro ajuste para harmonização amostral implicou descartar essas áreas, de modo que a população considerada nas análises subsequentes consiste nos residentes no território nacional, exclusive moradores das áreas rurais da Região Norte (exceto Tocantins). Os pesos amostrais não foram recalculados.

Tamanho das amostras Entre 1995 e 2011, as PNADs ampliaram de 85 mil para 112 mil domicílios entrevistados, enquanto as duas POFs visitaram com sucesso 49 mil e 56 mil domicílios. As amostras dos Censos são entre 50 e 100 vezes maiores, uma vez que incluem porcentagens relativamente constantes do total de domicílios 11,7% em 2000 e 10,7% em 2010 (IBGE,_2003; 2012a).

Para a maior parte das variáveis, isso não representa problema, mas o caso da renda é especial. Os rendimentos não têm limite superior necessário e a distribuição de renda aproxima-se de uma distribuição de Pareto no topo.

Amostras de grande tamanho, ao alcançar melhor os muito ricos, podem apresentar indicadores distintos de amostras menores.

A maior capacidade em localizar e entrevistar os muito ricos é uma vantagem dos Censos: a probabilidade de PNADs ou POFs representarem corretamente grupos tão diminutos é tão irrisória que, na prática, pode-se considerar que eles não fazem parte do universo representado por ambas.

O Gráfico_1 mostra as razões entre as rendas médias de cada milésimo da população pertencente ao centésimo mais rico da população no Censo 2010 e na PNAD 2010 (ver a seção Seleção dos anos para comparação) e na POF 2008 e na PNAD 2008. No primeiro caso, uma descontinuidade quando se chega ao milésimo mais rico; no segundo, isso não ocorre. Assim, no Censo 2010, a maior parte do 1% mais rico da população ganha entre 25% e 50% a mais que nas PNADs, mas quando se chega ao 0,1% mais rico, esta porcentagem dispara para algo entre 100% e 150% a mais.

Fonte: IBGE.

PNADs 2008, 2009 e 2011; Censo Demográfico 2010; POF 2008-2009.

GRÁFICO 1 Razão entre as rendas dos milésimos dentro do centésimo mais rico da renda domiciliar per capita: Censo 2010/PNAD 2010 e POF 2008/PNAD 2008  Como isso não ocorre na comparação com as POFs, é razoável concluir que a influência do tamanho da amostra dos Censos se manifesta, no topo, sobretudo a partir do centésimo mais rico e, indiscutivelmente, acima do milésimo mais rico. Os mesmos padrões são encontrados quando se comparam o Censo 2000 com a PNAD 2000 sintética e a POF 2002 com a PNAD 2002.

Logo, o segundo procedimento de harmonização das amostras consistiu na eliminação do 0,1% mais rico nos Censos. Vale notar que esse procedimento visa, exclusivamente, aumentar a comparabilidade entre pesquisas, e não aproximá-las do "mundo real": pelos motivos discutidos anteriormente, é muito provável que as informações do Censo para o topo da distribuição sejam mais precisas do que as das POFs e PNADs. Além disso, cabe notar também que a escolha do ponto de corte poderia ser diferente.

Seleção das amostras Os Censos visitam todos os municípios do país. Em cada setor censitário, os domicílios são sorteados com equiprobabilidade, com fração amostral constante para setores no mesmo município. Em 2000, havia duas frações amostrais, 10% e 20%; em 2010, foram quatro faixas, de 5% a 50% (IBGE,_2003; 2012a).

A PNAD segue amostragem em três estágios, na qual municípios são as unidades primárias, setores censitários são as secundárias e domicílios, as terciárias.

Os municípios são classificados em três estratos: o primeiro engloba as nove regiões metropolitanas mais antigas e o Distrito Federal (estrato das RM); o segundo é composto pelos municípios autorrepresentativos (AR), isto é, municípios não metropolitanos de grande porte; e o terceiro abarca os não autorrepresentativos (NAR), reunindo os demais municípios.

No primeiro estágio, os municípios RM e AR são necessariamente selecionados, isto é, sorteados com probabilidade igual a 1. Os municípios NAR são agrupados principalmente por critérios geográficos e sorteados sem reposição, em seus grupos, com probabilidades proporcionais à população. No segundo estágio, os setores censitários são selecionados, em cada município, com probabilidade proporcional ao tamanho e com reposição; e no terceiro estágio, os domicílios são sorteados por amostragem sistemática simples dentro de cada setor (SILVA; PESSOA;_LILA,_2002; IBGE,_2010a).

O plano amostral da POF é conglomerado em dois estágios, com setores censitários como unidades primárias e domicílios particulares permanentes como secundárias. O sorteio do primeiro estágio é feito a partir da estratificação geográfica e socioeconômica das unidades primárias, que são selecionadas, dentro de cada estrato, com probabilidade proporcional ao seu tamanho; o segundo estágio sorteia os domicílios por amostragem aleatória simples (IBGE, 2004). A POF 2008, ao contrário da anterior, foi feita com base na Amostra Mestra, que deverá municiar as pesquisas do IBGE nos próximos anos (FREITAS_et al.,_2007; IBGE,_2010b).

Em suma, a PNAD visita menos municípios do que a POF e o Censo, e os municípios visitados são mais concentrados geograficamente (IBGE,_2007). Não o que ser feito para minimizar essa diferença entre as pesquisas. Felizmente, essas diferenças devem ser pouco significativas, pois os pesos amostrais da PNAD levam em conta as probabilidades de inclusão dos municípios.1 Diferenças conceituais Definição geral da renda A definição geral da renda depende de duas decisões: se os rendimentos são brutos ou líquidos; e se devem se restringir aos rendimentos monetários. O padrão internacional recomenda o uso da renda disponível rendimentos monetários e não monetários líquidos de tributos diretos como aproximação mais fidedigna da capacidade de consumo das famílias (CANBERRA_GROUP,_2001).

Quase toda a literatura brasileira, entretanto, limita-se à renda monetária bruta, porque nem Censos nem PNADs trazem informações sobre rendimentos não monetários e tributos.

A questão passa a ser como definir a renda nas POFs. A opção foi apresentar somente dados relativos aos rendimentos brutos mesmo para tabulações dos dados originais e considerar como primeira etapa do filtro conceitual a exclusão dos rendimentos não monetários.

Períodos de referência No Censo e na PNAD, a referência é o mês de realização da pesquisa, enquanto a POF não se restringe a um mês de referência fixo: seu questionário coleta, para os diversos tipos de rendimentos, o valor bruto do último rendimento e o número de vezes que a pessoa recebeu aquele rendimento no período de referência da pesquisa, isto é, os 12 meses anteriores à entrevista.2 Além disso, tanto o Censo quanto a PNAD dão espaço para subjetividade ao perguntar qual o rendimento "habitualmente" recebido nos meses de referência, o que gera um sem- número de dificuldades adicionais (MÉDICI,_1988; ROCHA,_2003). Infelizmente, não como fazer qualquer harmonização dessas diferenças.

Definição dos rendimentos captados Grosso modo, Censo e PNAD captam um conjunto semelhante de rendimentos, ainda que em níveis de agregação diferentes, enquanto a POF é mais detalhada. Toda a harmonização consistiu, então, em descartar os rendimentos não captados nos Censos e nas PNADs, como pagamentos de 13º salário e férias, saques do Fundo de Garantia por Tempo de Serviço (FGTS), rendimentos não monetários e afins.3 A Tabela_1 mostra que a renda média na POF cai 18% em 2002 e 24% em 2008 com a exclusão dos rendimentos não captados nas outras pesquisas. Como esperado, os principais responsáveis pela queda são os rendimentos de empregados formais e os outros rendimentos (que incluem os não monetários).

TABELA 1 Estimativas da renda domiciliar per capita nas POFs antes e depois da harmonização conceitual, segundo fontes de rendimento Brasil 2002-2008  POF 2002   POF 2008 Fontes de Original Harmonizado Original Harmonizado rendimento (em (em reais Variação   (em (em reais Variação reais de de 2011) (%) reais de de 2011) (%) 2011) 2011) Trabalho 514 453 -12,0   591 528 -11,0 Com 275 230 -17,0   333 285 -14,0 carteira Sem 73 66 -9,0   80 73 -9,0 carteira Conta 106 99 -6,0   125 120 -4,0 própria Empregador 60 58 -4,0   53 50 -7,0 Outras 195 128 -34,0   349 184 -47,0 fontes Previdência 89 89 0,0   145 136 -6,0 pública Aluguéis 15 15 0,0   16 16 0,0 Doações e 19 19 0,0   21 21 -3,0 afins Programas 2 2 0,0   7 7 0,0 sociais Outros 71 4 -94,0   159 3 -98,0 rendimentos Total 709 581 -18,0   941 712 -24,0 Fonte: IBGE. POFs 2002/2003 e 2008/2009.

Nota: Cada linha representa a soma populacional da renda total de cada fonte dividida pela estimativa da população total.

Diferenças na coleta e tratamento dos dados Se as diferenças conceituais são mais graves e menos tratáveis que as amostrais, as diferenças na coleta e tratamento dos dados são ainda maiores. diversas questões irreversíveis relacionadas ao treinamento dos entrevistadores, à duração da entrevista, à ordem das perguntas, ao conhecimento dos entrevistados sobre as pesquisas, etc.

A harmonização diz respeito, então, a dois pontos principais: indivíduos com rendimentos ignorados que não quiseram ou não souberam declarar renda em alguma fonte e indivíduos com renda domiciliar per capita igual a zero.

No primeiro caso, tanto o Censo quanto a POF imputam rendimentos válidos via hot deck ou semelhante:4 grosso modo, os indivíduos são estratificados segundo características socioeconômicas e recebem valores imputados a partir de doadores selecionados aleatoriamente dentro do seu estrato (IBGE,_2003; 2004; 2010b; 2012b). Na PNAD não imputação. A maioria dos pesquisadores simplesmente descarta os domicílios em que pelo menos um membro possui algum rendimento ignorado. Além de prejudicar a comparação, o problema maior é que houve aumento dos casos nessa situação, que flutuaram em torno de 2% da população até 2005 e chegaram a mais de 5% em 2011. Nos Censos e nas POFs, os números oscilam entre 3% (POF 2002) e 9% (Censo 2000).

Os domicílios com renda igual a zero são praticamente inexistentes nas POFs e muito mais numerosos nas PNADs (cerca de 1% da população desde 1995) e nos Censos (cerca de 4%). O caso da POF é relativamente fácil de entender, pois não um mês de referência fixo e a coleta de informações sobre despesas provavelmente induz a declaração de rendimentos positivos. na PNAD e no Censo, isso causa mais estranhamento, pois, como a pergunta diz respeito aos rendimentos habituais, seria de se esperar que apenas poucas famílias tenham rendimentos tão sazonais a ponto de ser "normal" não ter nenhuma renda nos meses de referência.

Osorio,_Soares_e_Souza_(2011) argumentam que boa parte desses domicílios nas PNADs possui perfil incompatível com a ausência de renda, sendo "não pobres" em situação temporária. Hoffmann_e_Ney_(2008) também identificaram casos muito atípicos no Censo 2000. É provável que o problema seja ainda mais agudo no Censo 2010, pois fortes suspeitas de que "a opção 'não tem rendimento' serviu [...], em um número significativo de situações, como alternativa para a categoria 'ignorado'" (IBGE,_2012b).

Imputação dos rendimentos ignorados nas PNADs A imputação de valores válidos de renda para os indivíduos com rendimentos ignorados deu-se via hot deck. Para os rendimentos do trabalho responsáveis por cerca de 80% da não declaração e abono de permanência, o hot deck foi estratificado por Unidade da Federação, área censitária (região metropolitana, município autorrepresentativo, município não autorrepresentativo), educação (nenhuma, fundamental completo, médio completo, superior completo) e posição na ocupação (formal, informal, conta própria, empregador). Para as demais rendas, a estratificação foi por Unidade da Federação, área censitária, gênero e educação. Especificações alternativas foram testadas, sem mudanças significativas nos resultados.

A imputação foi precedida pela análise do perfil dos domicílios com renda ignorada ao longo do tempo. Os resultados não serão discutidos em detalhe, mas, de modo geral, pode-se afirmar que o aumento da não declaração de renda foi concomitante à diminuição do viés: antes, indivíduos com alta escolaridade, empregadores e contas próprias tinham probabilidade muito maior de não declarar rendimentos, mas nos últimos anos houve estreitamento dos diferenciais.

Identificação e imputação de rendimentos para domicílios com renda igual a zero e sem perfil de extrema pobreza O tratamento dos domicílios com renda zero foi feito em duas etapas. Primeiro, aplicou-se modelo de análise de conglomerados para identificar quais não tinham perfil socioeconômico compatível com a extrema pobreza (OSORIO_et_al.,_2011).

Em seguida, foi feita imputação de rendimentos para esses domicílios via hot deck.

Quatro variáveis foram utilizadas na análise de conglomerados: dummiespara domicílios urbanos; cujas pessoas de referência eram homens; com membro(s) com ensino médio completo; e índice socioeconômico do domicílio. O índice foi construído a partir da análise de componentes principais de variáveis relacionadas às características do domicílio (presença ou não de geladeira, máquina de lavar, televisão, banheiro exclusivo, esgotamento sanitário, coleta de lixo, água de rede geral de distribuição, densidade de mais de dois moradores por dormitório; variável contínua de moradores por cômodos) e padronizado para ter média igual a zero em todos os anos.

O hot deck para imputar rendimentos foi estratificado por Unidade da Federação, área censitária, maior nível educacional entre os moradores e número de moradores por cômodo.

Os resultados confirmam que Censos e PNADs superestimam a quantidade de indivíduos com renda domiciliar per capita zero. No Censo 2000, 50% das pessoas com renda per capita igual a zero não tinham perfil de pobreza; em 2010, eram 80%. Nas PNADs, esse percentual cresce de 55%, em 1995, para quase 85%, em 2011.

Os dois grupos identificados entre os domicílios com renda igual a zero são muito distintos. O índice socioeconômico para os pobres extremos oscila, nos Censos e nas PNADs, entre -1,5 e -3,0; o dos "não pobres" fica sempre pouco acima de zero, ou seja, da média geral do Brasil.

Seleção dos anos para comparação Como não PNADs em anos censitários, optou-se por criar PNADs sintéticas para 2000 e 2010, de modo que o nível e a distribuição dos rendimentos em cada caso representam a média entre a PNAD do ano anterior e a do posterior. Com isso, evitam-se escolhas arbitrárias entre 1999 ou 2001 e 2009 ou 2011.

diversas formas mais ou menos sofisticadas para construir essas PNADs sintéticas. Neste trabalho, optou-se por agregar as PNADs 1999, 2001, 2009 e 2011 em 12 mil grupos de tamanho igual, ordenados por renda, e construir, a partir deles, as versões sintéticas de 2000 e 2010. A quantidade de grupos foi escolhida de forma a reproduzir com precisão a distribuição de renda de cada ano. Por exemplo, todas as estatísticas de renda, desigualdade e pobreza geram resultados idênticos até várias casas decimais, seja se aplicadas aos cerca de 100 mil domicílios de cada PNAD, seja se geradas a partir da agregação da PNAD em 12 mil grupos.

A comparação com as POFs é simples: tendo em vista que a data de referência da POF 2002 é janeiro de 2003, e a da POF 2008 é janeiro de 2009, a opção mais razoável é compará-las com as PNADs mais próximas, 2002 e 2008.

Resumo A aplicação desses procedimentos garante a maior comparabilidade possível entre as três fontes de dados. O maior interesse está em cotejar as versões originais e plenamente harmonizadas e observar se convergência dos dados. Contudo, também interessa saber qual procedimento tem o maior impacto, principalmente porque os filtros apresentam características distintas. No caso dos filtros amostral e conceitual, um possível tradeoff entre comparabilidade e viés com relação aos parâmetros populacionais, o que não ocorre com o filtro de tratamento.

As comparações sempre relacionam bancos que receberam o mesmo tratamento: as PNADs com filtro amostral são cotejadas com os Censos com o filtro amostral e assim por diante. Como não é necessário aplicar o filtro conceitual às PNADs nem o de tratamento às POFs, nesses casos foram usados os dados originais.

A comparação entre Censos, PNADs e POFs Divergências nos dados originais Para dimensionar as discrepâncias entre os dados originais dos Censos, das PNADs e das POFs, a Tabela_2 exibe informações sobre renda média, desigualdade e extrema pobreza em cada pesquisa.

TABELA 2 Renda domiciliar per capita média, índice de Gini e extrema pobreza nos Censos, PNADs e POFs Brasil - 2000-2010  Comparação: PNADs e Censos Indicadores PNAD 2000 Censo 2000 Diferença PNAD 2010 Censo 2010 Diferença (%) (%) Renda per capita (em 571 629 10,0 732 828 13,0 reais de 2011) Gini (x 100) 59,3 64,6 9,0 53,4 60,9 14,0 Extrema 9,5 13,5 4,0 p.p. 4,4 8,9 4,5 p.p.

pobreza (%) Comparação: PNADs e POFs Indicadores PNAD 2002 POF 2002 Diferença PNAD 2008 POF 2008 Diferença (%) (%) Renda per capita (em 576 709 23,0 691 941 36,0 reais de 2011) Gini (x 100) 58,7 61,2 4,0 54,4 56,0 3,0 Extrema 7,9 8,2 0,3 p.p. 4,5 2,3 -2,2 p.p.

pobreza (%) Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008-2009. Nota: Para renda e Gini, usa-se a diferença relativa e, para a extrema pobreza, emprega-se a diferença absoluta (em pontos percentuais).

A comparação entre Censos e PNADs revela números muito diferentes, com aumento da divergência ao longo do tempo. A renda per capita nos Censos era mais elevada em 2000, crescendo de forma mais rápida até 2010, enquanto a desigualdade e a extrema pobreza eram mais altas e caíram menos do que nas PNADs. A diferença é particularmente grande para o coeficiente de Gini, que permanece no Censo 2010 em patamar superior ao registrado pela PNAD uma década. Essas diferenças não parecem resultar da captação de alguma fonte específica de rendimentos. Tanto a composição da renda total quanto o recebimento de cada fonte são similares nas duas pesquisas.

Em consonância com resultados anteriores (BARROS;_CURY;_ULYSSEA,_2006), a comparação entre PNADs e POFs revela que o nível de renda é mais alto nas POFs, mas os níveis de desigualdade são relativamente próximos. Os dois aspectos renda e desigualdade apresentam comportamentos distintos ao longo do tempo: enquanto a renda nas POFs descolou-se ainda mais das PNADs, a queda na desigualdade teve intensidade semelhante nas duas. a extrema pobreza parte de patamar semelhante nas duas pesquisas, mas cai mais rapidamente nas POFs.

A distribuição de renda Se as divergências entre as três pesquisas derivarem principalmente dos fatores passíveis de harmonização, então é de se esperar que haja maior proximidade entre as distribuições plenamente harmonizadas do que entre as originais.

Os Gráficos_2 e 3 proporcionam comparações visuais: o primeiro mostra, para 2000 e 2010, a razão entre a renda domiciliar per capita média de cada centésimo nos Censos e nas PNADs tanto para os dados originais quanto para os plenamente harmonizados; o segundo faz o mesmo para as POFs. Em ambos, se as distribuições fossem idênticas às das PNADs de referência, os valores das curvas seriam constantes e iguais a 1.

[/img/revistas/rbepop/v32n1//0102-3098-rbepop-32-01-0165-gf02.jpg]Fonte: IBGE.

PNADs 1999, 2001, 2009 e 2011; Censos Demográficos 2000 e 2010.

GRÁFICO 2 Razão entre a renda domiciliar per capita dos centésimos nos Censos e nas PNADs Brasil 2000-2010  [/img/revistas/rbepop/v32n1//0102-3098-rbepop-32-01-0165-gf03.jpg]Fonte: IBGE.

PNADs 2002 e 2008; POFs 2002-2003 e 2008-2009.

GRÁFICO 3 Razão entre as rendas domiciliares per capita dos centésimos nas POFs e PNADs Brasil 2002-2008  Nos Censos, as divergências originais estão nos extremos: os pobres são muito mais pobres e os ricos são muito mais ricos do que nas PNADs. A harmonização promove convergência, em especial na cauda inferior. Nos dados originais, as razões entre Censos e PNADs se aproximam da unidade apenas quando se chega perto da mediana; nos harmonizados isso ocorre antes. Por exemplo, nos dados originais, a renda média dos 20% mais pobres nos Censos era apenas 70% da renda média desse grupo nas PNADs; nos dados harmonizados, esse percentual sobe para cerca de 85%. No outro extremo, a renda média do centésimo mais rico nos dados originais dos Censos era 41% e 67% maior do que nas PNADs 2000 e 2010; nos dados harmonizados essas porcentagens caem para 3% e 14%.5 A comparação entre POFs e PNADs também mostra convergência após a harmonização dos dados. Nesse caso, a harmonização afeta mais o nível do que a desigualdade dos rendimentos. Com exceção dos primeiros centésimos, as distribuições harmonizadas correm paralelas, mas abaixo das originais e mais próximas da unidade.

Naturalmente, em nenhum dos dois casos a convergência é perfeita. Mesmo nos dados harmonizados, as PNADs permanecem com rendas mais elevadas para os mais pobres e com rendas mais baixas para os mais ricos, em especial na comparação com os Censos. De todo modo, a magnitude das diferenças diminui perceptivelmente.

Podemos quantificar a convergência pela estatística de Kolmogorov-Smirnov (K- S), que permite calcular a proximidade entre distribuições ao comparar as funções de distribuição empíricas acumuladas de duas amostras de tamanhos ne m.

A estatística K-S é igual ao maior valor absoluto da diferença entre as duas funções de distribuição empíricas ao longo de x e varia entre 0 (distribuições idênticas) e 1 (sem sobreposição de valores entre elas): [/img/revistas/rbepop/v32n1//0102-3098-rbepop-32-01-0165-e01.jpg] Na Tabela_3, a aplicação da estatística de K-S para as comparações entre Censos e PNADs e entre POFs e PNADs revela que, em todos os casos, a harmonização torna as distribuições mais similares.6 TABELA 3 Estatísticas de Kolmogorov-Smirnov para rendas domiciliares per capita originais e harmonizadas: comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010  Comparação Originais Harmonizadas Diferença Censo 2000 versus PNAD 2000 0,049 0,033 -0,017 Censo 2010 versus PNAD 2010 0,048 0,029 -0,019 POF 2002 versus PNAD 2002 0,067 0,050 -0,017 POF 2008 versus PNAD 2008 0,117 0,047 -0,071 Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008-2009.

A Tabela_4 decompõe a variação na estatística de K-S para mostrar as contribuições dos três filtros para a convergência. No caso dos Censos, o filtro de tratamento tem o maior efeito, inclusive com importância crescente entre 2000 e 2010, refletindo as mudanças operacionais e conceituais entre os Censos que resultaram em maior percentual de indivíduos com renda per capita igual a zero nos dados originais com relação às PNADs. Na comparação entre PNADs e POFs, os resultados são mais estáveis: o que importa mesmo é o filtro conceitual.

TABELA 4 Decomposição da variação das estatísticas de Kolmogorov-Smirnov entre rendas domiciliares per capita originais e harmonizadas: comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010  Comparação Amostral Conceitual Tratamento Harmonização completa Contribuições absolutas         Censo 2000 versus PNAD -0.007 - -0.010 -0.017 2000 Censo 2010 versus PNAD -0.004 - -0.016 -0.019 2010 POF 2002 versus PNAD 2002 0.000 -0.018 0.000 -0.017 POF 2008 versus PNAD 2008 0.000 -0.070 0.000 -0.070 Contribuições relativas         (%) Censo 2000 versus PNAD 40,0 - 60,0 100,0 2000 Censo 2010 versus PNAD 19,0 - 81,0 100,0 2010 POF 2002 versus PNAD 2002 -2,0 105,0 -2,0 100,0 POF 2008 versus PNAD 2008 0,0 100,0 0,0 100,0 Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008-2009.

Nota: As diferenças entre a coluna "harmonização completa" e a soma das demais decorrem de arredondamentos.

Os rendimentos médios A harmonização promove maior convergência na renda domiciliar per capitanas POFs do que nos Censos, como se na Tabela_5. No primeiro caso, convergência quase perfeita: se, nos dados originais, tanto o nível quanto o crescimento da renda eram maiores nas POFs do que nas PNADs, nos dados harmonizados ambos tornam-se substantivamente idênticos nas duas pesquisas.

TABELA 5 Renda domiciliar per capita nos dados originais e harmonizados: comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010    Dados originais  Dados plenamente harmonizados Comparaçã2000 2010 Variação anual (% 2000 2010 Variação anual (%) Censo (A) 629 828 2,5   616 816 2,7 PNAD (B) 571 732 2,8   588 767 2,8 A/B (%) 110,0 113,0 -  105,0 106,0 -   Dados originais  Dados plenamente harmonizados Comparaçã2002 2008 Variação anual (% 2002 2008 Variação anual (%) POF (C) 709 941 4,8   588 721 3,3 PNAD (D) 576 691 3,1   592 719 3,5 C/D (%) 123,0 136,0 -   99,0 100,0 - Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008-2009.

Nos Censos, o efeito da harmonização é menor, mas não desprezível: a renda média nos dados originais era entre 10% e 13% maior do que nas PNADs, mas nos dados harmonizados esse percentual cai para algo em torno de 5%. As taxas de crescimento da renda também se tornam levemente mais próximas. A coleta mais agregada dos dados de renda no Censo 2010 não gerou viés de subestimação dos rendimentos médios, seja nos dados originais ou harmonizados.

A Tabela_6 traz a decomposição das razões entre as rendas domiciliares per capita nos Censos e nas PNADs e nas POFs e PNADs. As três primeiras colunas mostram em pontos percentuais (p.p.) quanto cada filtro contribui para alterar essas razões. A quarta coluna mostra o efeito combinado dos três (harmonização completa). As duas últimas apresentam as diferenças após a harmonização e as diferenças originais.

TABELA 6 Decomposição das razões entre a renda domiciliar per capitamédia: comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010  Contribuição de cada filtro (p.p.)Razão entre dados Razão entre dados Comparaçã Amostral Tratamento Harmonização harmonizados originais Conceitual completa Censo 2000 versus -4 - -1 -5 105 110 PNAD 2000 Censo 2010 versus -6 - 0 -7 106 113 PNAD 2010 POF 2002 versus 1 -22 -3 -24 99 123 PNAD 2002 POF 2008 versus 0 -33 -3 -36 100 136 PNAD 2008 Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008-2009.

Nota: As diferenças entre a coluna "harmonização completa" e a soma das demais decorrem de arredondamentos.

Na comparação entre Censos e PNADs, verifica-se que o filtro amostral é o responsável pelas mudanças. Mais especificamente, a eliminação do milésimo mais rico nos Censos derruba a renda média o suficiente para aproximar essa pesquisa das PNADs. Na comparação entre POFs e PNADs, o filtro conceitual é o grande responsável por fazer evaporar a diferença original entre as pesquisas. A diferença original decorre exclusivamente do fato de que as POFs aplicam um conceito de renda mais abrangente.

Em conjunto, os dois resultados ajudam a explicar boa parte das diferenças entre as pesquisas, mas também reforçam a ideia de que as PNADs de fato subestimam o nível de renda no país, para além das limitações que afetam todas as pesquisas domiciliares. No limite, pode-se especular que uma pesquisa com uma amostra como a do Censo e com questionário abrangente como a POF revelaria níveis de renda ainda mais altos. De qualquer modo, grande concordância entre Censos, PNADs e POFs no que diz respeito à taxa de crescimento da renda.

O coeficiente de Gini A Tabela_7 replica para o coeficiente de Gini a análise da Tabela_5. De novo, a harmonização aproxima bastante os resultados, embora não elimine totalmente as discrepâncias entre eles. Originalmente, o nível de desigualdade nos Censos era maior em 2000 e a queda da desigualdade, menor. Depois da harmonização, tanto os níveis quanto o ritmo de queda ficam mais parecidos nas duas pesquisas.

TABELA 7 Coeficiente de Gini da renda domiciliar per capita nos dados originais e harmonizados: comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010  Dados originais   Dados plenamente harmonizados Comparaçã2000 2010 Variação anual (Δ 2000 2010 Variação anual (Δ (x (x Gini)   (x (x Gini) 100) 100) 100) 100) Censo (A) 64,6 60,9 -0,4   61,6 56,9 -0,5 PNAD (B) 59,3 53,4 -0,6   59,3 53,3 -0,6 A/B (%) 109,0 114,0 -   104,0 107,0 - Dados originais   Dados plenamente harmonizados Comparaçã2000 2010 Variação anual  2000 2010 Variação anual (x100) (x100) (ΔGini) (x100) (x100) (ΔGini) POF (C) 61,2 56,0 -0,9   60,7 57,2 -0,6 PNAD (D) 58,7 54,4 -0,7   58,7 54,2 -0,7 C/D (%) 104,0 103,0 -   103,0 106,0 - Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008-2009.

Os efeitos da harmonização sobre as POFs são mais ambíguos. Originalmente, os coeficientes de Gini eram muito próximos, com níveis e ritmo de queda superiores nas POFs. Com a harmonização, o coeficiente de Gini em 2002 fica mais próximo, mas o de 2008 fica mais distante, de modo que a queda da desigualdade passa a ser um pouco mais lenta do que nas PNADs.

A Tabela_8 mostra o efeito de cada filtro sobre as razões entre os coeficientes de Gini registrados nos Censos e PNADs e nas POFs e PNADs. No primeiro caso, o filtro amostral é um pouco mais importante do que o de tratamento, o que reflete o maior peso dos 0,1% mais ricos nos Censos do que nas PNADs. No segundo caso, a harmonização não muda muito a razão entre os coeficientes de Gini, mas o filtro conceitual é o que tem mais peso.

TABELA 8 Decomposição das razões dos coeficientes de Gini da renda domiciliar per capita: comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010  Contribuição de cada filtro (p.p.) Razão entre dados Razão entre dados ComparaçãAmostral Conceitual Tratamento Harmonização harmonizados originais completa Censo 2000 versus -3 -2 - -5 104 109 PNAD 2000 Censo 2010 versus -5 -2 - -7 107 114 PNAD 2010 POF 2002 versus -1 0 -0 -1 103 104 PNAD 2002 POF 2008 versus -1 0 3 2 106 103 PNAD 2008 Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008 Nota: As diferenças entre a coluna "harmonização completa" e a soma das demais decorrem de arredondamentos.

De modo mais geral, é possível chegar a conclusões semelhantes às anteriores: a comparação entre as três bases harmonizadas apresenta resultados bem mais próximos do que os observados originalmente, sem eliminar totalmente as diferenças. Mais uma vez, verifica-se uma leve tendência de subestimação do nível de desigualdade nas PNADs em comparação com as outras duas pesquisas.

Ainda assim, grande convergência quanto ao ritmo de queda da desigualdade nos Censos, PNADs e POFs.

A extrema pobreza Os números relativos à extrema pobreza, apresentados na Tabela_9, confirmam as tendências anteriores: após a harmonização, as porcentagens nas três fontes de dados tornam-se mais próximas, pelo menos entre Censos e PNADs. Originalmente, a principal diferença nesse caso estava nos níveis, não na trajetória de queda da extrema pobreza. Após a harmonização, a diferença nos níveis cai mais ou menos pela metade: de 4,0 e 4,5 p.p. para 2,3 e 2,1 p.p. em 2000 e 2010, respectivamente.

TABELA 9 Incidência da extrema pobreza nos dados originais e harmonizados: comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010  Dados originais   Dados plenamente harmonizados Comparaçã2000 2010 Variação anual  2000 (%) 2010 (%) Variação anual (%) (%) (p.p.) (p.p.) Censo (A) 13,5 8,94,4 -0,5   10,8 5,5 -0,5 PNAD (B) 9,5 4,4 -0,5   8,5 3,4 -0,5 A/B (p.p.) 4,0 4,5 -   2,3 2,1 - Dados originais   Dados plenamente harmonizados Comparaçã2002 2008 Variação anual  2002 (%) 2008 (%) Variaçãoanual (%) (%) (p.p.) (p.p.) POF (C) 8,2 2,3 -1,0   11,5 5,7 -1,0 PNAD (D) 7,9 4,5 -0,6   7,1 3,7 -0,6 C/D (p.p.) 0,3 -2,2 -   4,4 2,0 - Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008-2009.

Nas POFs a situação é distinta. Originalmente, POF e PNAD apresentavam porcentagens bem próximas em 2002, mas a queda até 2008 era mais rápida na primeira. Depois da harmonização, a extrema pobreza continua caindo mais rapidamente nas POFs, mas a partir de patamar mais elevado do que nas PNADs.

A Tabela_10 mostra o efeito de cada filtro sobre as diferenças nas porcentagens de pobreza extrema de cada pesquisa com as PNADs. Na comparação com os Censos, a importância do filtro de tratamento chama a atenção: entre 30% (em 2000) e 43% (em 2010) das diferenças com relação às PNADs decorrem de questões de coleta e tratamento dos dados que são passíveis de harmonização. A explicação remete ao percentual elevado de indivíduos com renda per capita igual a zero nos Censos, em especial em 2010, com relação às PNADs.

TABELA 10 Decomposição das diferenças na incidência de extrema pobreza: comparações entre Censos e PNADs e entre POFs e PNADs Brasil - 2000-2010  Contribuição de cada filtro (p.p.)   Diferença (p.p.) ComparaçãAmostal Conceitual Tratamento Harmonização  Dados Dados completa harmonizados originais Censo 2000 versus -0,6 -1,2 - -1,7   2,3 4,0 PNAD 2000 Censo 2010 versus -0,4 -1,9 - -2,4   2,1 4,5 PNAD 2010 POF 2002 versus -0,4 0,8 3,7 4,1   4,4 0,3 PNAD 2002 POF 2008 versus -0,1 0,8 3,6 4,2   2,0 -2,2 PNAD 2008 Fonte: IBGE. PNADs 1999, 2001, 2002, 2008, 2009 e 2011; Censos Demográficos 2000 e 2010; POFs 2002-2003 e 2008-2009.

Nota: As diferenças entre a coluna "harmonização completa" e a soma das demais decorrem de arredondamentos.

A comparação entre POFs e PNADs revela que praticamente todas as mudanças ocorrem por causa do filtro conceitual. Mais especificamente, a exclusão dos rendimentos não monetários aumenta significativamente a incidência da extrema pobreza. Como as PNADs obviamente não captam esse tipo de rendimentos, pode-se concluir que a concordância entre pesquisas observada nos dados originais em 2002 era mera coincidência.

Em boa medida, os resultados para extrema pobreza corroboram as conclusões das seções anteriores: por um lado, as diferenças mais gritantes diminuem sensivelmente, como na comparação entre censos e PNADs; por outro, a harmonização não promove convergência perfeita entre as pesquisas e, mais um vez, os números das PNADs destoam um pouco das outras duas, indicando percentuais de extrema pobreza um pouco inferiores aos Censos e POFs.

Conclusão Os Censos, as PNADs e as POFs são as três principais fontes de dados sobre distribuição de renda no Brasil, mas, muitas vezes, os resultados obtidos em cada uma delas parecem incompatíveis entre si. O objetivo aqui foi entender essas diferenças, tomando as PNADs como referência.

Para isso, o texto partiu de uma breve caracterização das pesquisas e, em seguida, procurou harmonizar suas principais diferenças, agregando-as em três grandes grupos: diferenças amostrais; diferenças conceituais; e diferenças na coleta e tratamento dos dados. Como em qualquer harmonização ex post, os ajustes propostos são imperfeitos, mas necessários para tornar a comparação mais apropriada.

O filtro amostral é simples, com duas etapas: exclusão dos moradores do Norte rural (exceto Tocantins), para compatibilizar os Censos, as POFs e as PNADs 2004-2011 com as PNADs anteriores; e exclusão do milésimo da população com maior renda domiciliar per capita dos Censos, público que não é captado em amostras menores.

o filtro conceitual é mais problemático, porque não como resolver perfeitamente as discrepâncias entre as pesquisas. Com isso, esse filtro limitou-se a manter nas POFs apenas os rendimentos também captados pelos Censos e pelas PNADs, excluindo, principalmente, rendimentos não monetários e alguns relacionados ao trabalho formal.

O filtro de tratamento também foi apenas parcial. No caso dos indivíduos com rendimentos ignorados, foi utilizado nas PNADs um método de imputação por hot deckparecido com o que o IBGE aplica aos Censos e às POFs. No caso dos domicílios com renda igual a zero, foi empregado modelo de análise de conglomerados nos Censos e nas PNADs para dividi-los entre aqueles com perfil de pobreza extrema e aqueles com perfil não pobre. Em seguida, estes últimos tiveram rendimentos imputados por hot deck.

A etapa seguinte foi a comparação entre dados originais e harmonizados dos Censos, das PNADs e das POFs. A expectativa era de que, caso ocorresse convergência, então as discrepâncias em relação a Censos e às POFs estariam explicadas e seria lícito supor que as PNADs captam bem aquilo que se propõem a captar.

A análise empírica confirma isso em boa medida. Após a harmonização, de modo geral, os resultados dos Censos, das PNADs e das POFs tornaram-se bem mais próximos do que os observados originalmente, sem a harmonização proposta.

Os filtros são particularmente úteis na comparação entre Censos e PNADs, o que era de se esperar, pois são pesquisas mais semelhantes entre si: no que diz respeito aos níveis de renda média, desigualdade e extrema pobreza, nos dados harmonizados as discrepâncias caem em geral pelo menos à metade. Nas três dimensões, também convergência quanto às tendências ao longo do tempo, que eram originalmente próximas e se tornam ainda mais semelhantes.

Os efeitos da harmonização sobre a comparação entre POFs e PNADs são mais ambíguos. Por um lado, as grandes discrepâncias dos dados originais relativas tanto ao nível quanto ao ritmo de crescimento da renda média desaparecem por completo, dando lugar à plena convergência entre pesquisas nos dados harmonizados. Também alguma convergência, em grau bem menor, quanto ao nível e ao ritmo de queda da desigualdade. Por outro lado, a harmonização fez aumentar as diferenças na incidência da pobreza extrema entre POFs e PNADs, que, por pura coincidência, eram mínimas nos dados originais.

Naturalmente, a convergência entre as pesquisas não é perfeita e, mais ainda, as discrepâncias remanescentes seguem mais ou menos o mesmo padrão: em comparação com os Censos e as POFs, as PNADs tendem a "contrair" um pouco a distribuição de renda, superestimando a renda dos mais pobres e subestimando a dos mais ricos.

Nenhuma pesquisa jamais será capaz de retratar com perfeição o que é o "mundo real". O importante é entender os limites de cada pesquisa e quão compatíveis entre si elas são. Nesse sentido, a convergência após a harmonização é encorajadora: o retrato que emerge nos Censos, nas PNADs e nas POFs é relativamente coerente, confirmando que algumas diferenças sistemáticas entre planos amostrais, conceitos e tratamento dos dados são responsáveis por boa parte das discrepâncias observadas nos dados originais.

*O autor agradece os comentários de Rodolfo Hoffmann, Marcelo Medeiros, Fábio Veras Soares e dos dois pareceristas anônimos.

1As versões anteriores deste texto aplicavam um procedimento para manter nos Censos apenas os municípios sorteados nas PNADs, com efeitos pequenos e/ou insignificantes sobre a maior parte dos resultados. O autor agradece os esclarecimentos prestados por um dos pareceristas anônimos.

2Como as entrevistas da POF são conduzidas ao longo de um ano, os 12 meses que constituem o período de referência não são idênticos para todas as famílias.

3A lista de variáveis utilizadas na construção dos rendimentos na POF pode ser obtida com o autor.

4Mais precisamente, no Censo 2000 as variáveis de rendimento passaram por processo de crítica dentro do sistema DIA (Deteccion e Imputación Automática de Errores para Datos Cualitativos), e a imputação foi feita pela técnica de árvores de regressão (IBGE,_2003). No Censo 2010, a crítica e a imputação foram feitas pelo sistema Canceis (Canadian Census Edit and Imputation System) (IBGE, 2012b). Nas POFs 2002 e 2008, a imputação da não resposta para despesas e rendimentos deu-se via hot deck (IBGE,_2004; 2010b). De modo geral, todos esses métodos consistem em atribuir aos casos problemáticos valores observados em doadores com características semelhantes.

5A razão no topo após a harmonização parece mais elevada no gráfico do que esses números sugerem, pois o 1% mais rico que concentra parcela expressiva da renda nacional tem, por definição, pouco destaque visual quando se mostra a distribuição completa. Infelizmente, caso os gráficos fossem sensíveis à distribuição desigual da renda, as diferenças na cauda inferior da distribuição ficariam imperceptíveis.

6O teste de K-S não é adequado quando os dados são provenientes de amostras complexas. Por isso, apenas a estatística é apresentada como referência, sem ênfase na parte inferencial e em testes de significância. O autor agradece a um dos pareceristas anônimos por levantar este ponto.


transferir texto