segunda-feira, 15 de julho de 2024

Análise Econométrica de Dados em Painel - Badi H. Baltagi

BALTAGI, Badi H. Econometric Analysis of Panel Data. 6th ed. Springer Texts in Business and Economics, Springer, 2021.

1 Introdução 1

1.1 Dados em Painel: Alguns Exemplos 1

    1.1.1 Exemplos de Micro-painéis 2

    1.1.2 Exemplos de Macro-painéis 4

    1.1.3 Algumas Referências Básicas 5

1.2 Por que Deveríamos Usar Dados em Painel? Seus Benefícios e Limitações 6

1.3 Nota 12

Referências 12

2 O Modelo de Regressão com Erro de Componente Unidirecional 15

2.1 Introdução 15

2.2 O Modelo de Efeitos Fixos Unidirecionais 16

2.3 O Modelo de Efeitos Aleatórios Unidirecionais 24

2.4 Estimação por Máxima Verossimilhança 28

2.5 Previsão 29

2.6 Exemplos 31

    2.6.1 Exemplo 1: Equação de Investimento 31

    2.6.2 Exemplo 2: Equação de Demanda por Gasolina 33

    2.6.3 Exemplo 3: Produtividade do Capital Público 35

2.7 Aplicações Selecionadas 38

2.8 Nota Computacional 39

2.9 Notas 39

2.10 Problemas 40

Referências 43

3 O Modelo de Regressão com Erro de Componente Bidirecional 47

3.1 Introdução 47

3.2 O Modelo de Efeitos Fixos Bidirecionais 48

    3.2.1 Teste para Efeitos Fixos 49

3.3 O Modelo de Efeitos Aleatórios Bidirecionais 50

    3.3.1 Resultados de Monte Carlo 55

3.4 Estimação por Máxima Verossimilhança 56

3.5 Previsão 59

3.6 Exemplos 60

    3.6.1 Exemplo 1: Equação de Investimento 60

    3.6.2 Exemplo 2: Equação de Demanda por Gasolina 62

    3.6.3 Exemplo 3: Produtividade do Capital Público 64

3.7 Nota Computacional 65

3.8 Notas 66

3.9 Problemas 66

Referências 73

4 Teste de Hipóteses com Dados em Painel 75

4.1 Testes para Poolabilidade 75

4.2 Testes para Efeitos Individuais e de Tempo 81

    4.2.1 O Teste de Breusch–Pagan 81

    4.2.2 Testes de Honda, King e Wu, e o Teste de Multiplicador de Lagrange Padronizado 83

    4.2.3 Teste de Gourieroux, Holly e Monfort 84

    4.2.4 Testes LM Condicionais 85

    4.2.5 Testes F da ANOVA e de Razão de Verossimilhança 85

    4.2.6 Resultados de Monte Carlo 86

    4.2.7 Um Exemplo Ilustrativo 87

4.3 Teste de Especificação de Hausman 89

    4.3.1 Exemplo 1: Equação de Investimento 94

    4.3.2 Exemplo 2: Equação de Demanda por Gasolina 96

    4.3.3 Exemplo 3: Indústrias de Manufatura Canadenses 97

    4.3.4 Exemplo 4: Serras de Madeira no Estado de Washington 98

    4.3.5 Exemplo 5: Prêmio de Casamento 98

    4.3.6 Exemplo 6: União Monetária 98

    4.3.7 Teste de Hausman para o Modelo Bidirecional 99

4.4 Leituras Adicionais 101

4.5 Notas 103

4.6 Problemas 103

Referências 106

5 Heterocedasticidade e Correlação Serial no Modelo de Componente de Erro 109

5.1 Heterocedasticidade 109

    5.1.1 Teste de Homocedasticidade em um Modelo de Componente de Erro 113

5.2 Correlação Serial 115

    5.2.1 O Processo AR(1) 115

    5.2.2 O Processo AR(2) 117

    5.2.3 O Processo AR(4) para Dados Trimestrais 118

    5.2.4 O Processo MA(1) 119

    5.2.5 Painéis Desigualmente Espaçados com Perturbações AR(1) 120

    5.2.6 Previsão 121

    5.2.7 Teste de Correlação Serial e Efeitos Individuais 124

5.3 Regressão em Painel com Autocorrelação Temporal e Heterocedasticidade Seccional Cruzada 136

5.4 Leituras Adicionais 139

5.5 Notas 142

5.6 Problemas 142

Referências 145

6 Regressões Aparentemente Não Relacionadas com Componentes de Erro 149

6.1 O Modelo Unidirecional 149

6.2 O Modelo Bidirecional 150

6.3 Aplicações e Extensões 152

6.4 Problemas 153

Referências 154

7 Equações Simultâneas com Componentes de Erro 157

7.1 Estimação de Equação Única 157

7.2 Exemplo Empírico: Crime na Carolina do Norte 161

7.3 Estimação do Sistema 166

7.4 O Estimador de Hausman e Taylor 170

7.5 Exemplo Empírico: Equação de Rendimentos Usando Dados do PSID 173

7.6 Leituras Adicionais 177

7.7 Notas 179

7.8 Problemas 180

Referências 185

8 Modelos Dinâmicos de Dados em Painel 187

8.1 Introdução 187

8.2 O Estimador de Arellano e Bond 189

    8.2.1 Teste de Restrições de Sobredeterminação e Correlação Serial em Modelos Dinâmicos de Painel 191

    8.2.2 Viés Descendente dos Erros Padrão Assintóticos Estimados 193

    8.2.3 Muitas Condições de Momento e o Trade-Off Viés-Eficiência 194

8.3 O Estimador de Arellano e Bover 194

8.4 As Condições de Momento de Ahn e Schmidt 198

8.5 O Estimador GMM de Sistema de Blundell e Bond 201

8.6 O Estimador de Keane e Runkle 203

8.7 Máxima Verossimilhança de Informação Limitada 205

8.8 Exemplos Empíricos 207

    8.8.1 Exemplo 1: Demanda Dinâmica por Cigarros 207

    8.8.2 Exemplo 2: Democracia e Educação 210

8.9 Aplicações Selecionadas 213

8.10 Leituras Adicionais 216

8.11 Notas 220

8.12 Problemas 221

Referências 225

9 Modelos de Dados em Painel Desbalanceados 229

9.1 Introdução 229

9.2 O Modelo de Componente de Erro Unidirecional Desbalanceado 229

    9.2.1 Métodos ANOVA 232

9.3 Estimadores de Máxima Verossimilhança 234

    9.3.1 Estimadores Quadráticos Não-Viesados de Norma Mínima e Variância Mínima (MINQUE e MIVQUE) 235

    9.3.2 Resultados de Monte Carlo 235

9.4 Exemplo Empírico: Habitação Hedônica 236

9.5 O Modelo de Componente de Erro Bidirecional Desbalanceado 240

    9.5.1 O Modelo de Efeitos Fixos 240

    9.5.2 O Modelo de Efeitos Aleatórios 241

9.6 Teste de Efeitos Individuais e de Tempo Usando Dados de Painel Desbalanceados 243

9.7 O Modelo de Componente de Erro Aninhado Desbalanceado 246

9.7.1 Exemplo Empírico: Produtividade do Capital Público Aninhado por Estados 247

9.8 Notas 251

9.9 Problemas 252

Referências 255

10 Tópicos Especiais 259

10.1 Erro de Medição e Dados em Painel 259

10.2 Painéis Rotativos 263

10.3 Pseudo-Painéis 265

10.4 Estimativas de Curto Prazo versus Longo Prazo em Modelos Pooled 268

10.5 Painéis Heterogêneos 269

10.6 Dados em Painel de Contagem 276

10.7 Notas 282

10.8 Problemas 283

Referências 287

11 Variáveis Dependentes Limitadas e Dados em Painel 291

11.1 Modelos Logit e Probit Fixos e Aleatórios 292

11.2 Estimação por Simulação de Modelos de Variável Dependente Limitada com Dados em Painel 301

11.3 Modelos Dinâmicos de Variável Dependente Limitada com Dados em Painel 303

11.4 Viés de Seleção em Dados em Painel 309

11.5 Modelos de Dados em Painel Censurados e Truncados 314

11.6 Aplicações Empíricas 319

11.7 Exemplo Empírico: Oferta de Trabalho de Enfermeiros 321

11.8 Leituras Adicionais 324

11.9 Notas 326

11.10 Problemas 327

Referências 332

12 Painéis Não Estacionários 337

12.1 Introdução 337

12.2 Testes de Raízes Unitárias em Painéis Assumindo Independência Seccional Cruzada 339

    12.2.1 Teste de Levin, Lin e Chu 340

    12.2.2 Teste de Im, Pesaran e Shin 344

    12.2.3 Teste de Breitung 345

    12.2.4 Combinação de Testes de p-Valor 346

    12.2.5 Teste LM Baseado em Resíduos 348

12.3 Testes de Raízes Unitárias em Painéis Permitindo Dependência Seccional Cruzada 350

12.4 Regressão Espúria em Dados em Painel 354

12.5 Testes de Co-integração em Painéis 357

    12.5.1 Testes DF e ADF Baseados em Resíduos (Testes de Kao) 357

    12.5.2 Teste LM Baseado em Resíduos 358

    12.5.3 Testes de Pedroni 360

    12.5.4 Teste de Co-integração Baseado em Verossimilhança 361

    12.5.5 Propriedades de Amostras Finitas 362

12.6 Estimação e Inferência em Modelos de Co-integração em Painéis 364

12.7 Exemplos Empíricos 368

    12.7.1 Exemplo 1: Paridade do Poder de Compra 368

    12.7.2 Exemplo 2: Spillover Internacional de P&D 371

    12.7.3 Exemplo 3: Despesas de Saúde da OCDE 372

12.8 Leituras Adicionais 374

12.9 Notas 381

12.10 Problemas 382

Referências 385

13 Modelos de Dados em Painel Espaciais 391

13.1 Introdução 391

13.2 Modelo de Regressão com Componente de Erro Espacial 392

13.3 Modelo de Regressão de Dados em Painel com Defasagem Espacial 401

13.4 Previsões Usando Dados em Painel com Correlação de Erro Espacial 408

13.5 Testes de Raiz Unitária em Painéis e Dependência Espacial 410

13.6 Testes de Dependência Seccional Cruzada em Dados em Painel 411

13.7 Nota Computacional 418

13.8 Problemas 418

Referências 421

1 Introdução 1

“A maior disponibilidade de dados em painel de pesquisas domiciliares tem sido um dos desenvolvimentos mais importantes na pesquisa social aplicada nos últimos trinta anos.” Fitzgerald, Gottschalk e Moffitt (1998, p. 252)

1.1 Dados em Painel: Alguns Exemplos

Neste livro, o termo “dados em painel” refere-se à combinação de observações de uma seção transversal de domicílios, países, empresas, etc., ao longo de vários períodos de tempo. Isso pode ser alcançado pesquisando vários domicílios ou indivíduos e acompanhando-os ao longo do tempo. Estes últimos são conhecidos como micro-painéis e são coletados para um grande número de indivíduos N (geralmente na casa das centenas ou milhares) durante um curto período de tempo T (variando de um mínimo de dois anos a um máximo que raramente ultrapassa 10 ou 20). Em contraste, macro-painéis geralmente envolvem vários países ao longo do tempo. Estes podem ter um tamanho moderado de N (variando de 7 países, como para os países do G7, a um conjunto maior de, por exemplo, 20 países da OCDE ou da União Europeia, ou uma mistura de países desenvolvidos e em desenvolvimento, que pode chegar a 100 ou 200). Estes geralmente são observados anualmente durante 20 a 60 anos. Micro- e macro-painéis exigem cuidados econométricos diferentes. Por exemplo, a assintótica para micro-painéis deve ser para grande N e T fixo, enquanto a assintótica para macro-painéis pode ser para grande N e T. Além disso, com uma longa série temporal para macro-painéis, deve-se lidar com questões de não-estacionaridade na série temporal, como raízes unitárias, quebras estruturais e cointegração, veja Cap. 12, enquanto para micro-painéis não se lida com questões de não-estacionaridade, especialmente porque T é curto para cada indivíduo ou domicílio. Além disso, em macro-painéis, deve-se lidar com a dependência entre países. Isso geralmente não é um problema em micro-painéis onde os domicílios são amostrados aleatoriamente e, portanto, não são provavelmente correlacionados. No entanto, o Cap. 13 estuda a dependência espacial em dados em painel como uma maneira simples de modelar externalidades e spillovers entre unidades seccionais transversais.

1.1.1 Exemplos de Micro-painéis

Dois exemplos bem conhecidos de dados de micro-painéis dos EUA são o Estudo de Dinâmica da Renda (PSID) coletado pelo Instituto de Pesquisa Social da Universidade de Michigan (https://psidonline.isr.umich.edu) e os Levantamentos Nacionais Longitudinais (NLS), que são um conjunto de pesquisas patrocinadas pelo Bureau of Labor Statistics (https://www.bls.gov/nls/home.htm).

O PSID começou em 1968 com uma amostra nacionalmente representativa de mais de 18.000 indivíduos vivendo em 5.000 famílias nos Estados Unidos. É a pesquisa de painel domiciliar mais longa do mundo. O foco central dos dados é econômico e demográfico. Informações sobre esses indivíduos e seus descendentes foram coletadas continuamente, incluindo dados sobre emprego, renda, status de pobreza, riqueza, despesas, saúde, casamento, procriação, desenvolvimento infantil, filantropia, educação, assistência pública na forma de alimentação ou habitação, outras questões financeiras (por exemplo, impostos e transferências interdomiciliares), estrutura familiar e medidas demográficas, tempo de trabalho doméstico, habitação e inúmeros outros tópicos. O PSID é dirigido por professores da Universidade de Michigan, e os dados estão disponíveis no site do PSID sem custo para pesquisadores e analistas.

Os NLS, por outro lado, são um conjunto de pesquisas projetadas para coletar informações em vários momentos sobre atividades no mercado de trabalho e outros eventos significativos da vida de vários grupos de homens e mulheres. Estes incluem:

1. O NLSY 97, composto por uma amostra nacionalmente representativa de jovens homens e mulheres que tinham de 12 a 17 anos em 1997.

2. O NLSY 79, composto por uma amostra nacionalmente representativa de jovens homens e mulheres que tinham de 14 a 22 anos em 1979.

3. As crianças e jovens adultos do NLSY 79, que incluem os filhos biológicos nascidos de mulheres no NLSY 79.

A lista de variáveis inclui informações sobre escolaridade e transições de carreira, casamento e fertilidade, investimentos em treinamento, uso de creche e uso de drogas e álcool. Um grande número de estudos utilizou os conjuntos de dados do NLS e do PSID. As aplicações do PSID abrangem uma ampla gama de tópicos, incluindo modelos intertemporais de oferta de trabalho; salários e emprego ao longo do ciclo econômico; desemprego, rotatividade de empregos e mobilidade laboral; consumo, renda e dinâmica de balanço patrimonial; comportamento familiar estendido; pobreza, bem-estar e dinâmica de renda; transmissão intergeracional de status econômico; e antecedentes de eventos econômicos e demográficos.

Painéis também podem ser construídos a partir da Pesquisa de População Atual (CPS), uma pesquisa domiciliar nacional mensal de cerca de 50.000 domicílios conduzida pelo Bureau of Census para o Bureau of Labor Statistics (www.census.gov/cps). O CPS é a principal fonte de informações sobre as características da força de trabalho da população dos EUA. Em comparação com os dados do NLS e do PSID, o CPS contém menos variáveis, abrange um período mais curto e não acompanha os deslocamentos. No entanto, cobre uma amostra muito maior e é representativo de todos os grupos demográficos. O CPS fornece estimativas de emprego, desemprego, rendimentos, horas de trabalho e outros indicadores. Estes estão disponíveis por uma variedade de características demográficas, incluindo idade, sexo, raça, estado civil e nível de escolaridade. Também estão disponíveis por ocupação, indústria e classe de trabalhador.

Outra importante fonte de dados de pesquisas domiciliares para países em desenvolvimento é o Estudo de Medição de Padrões de Vida (LSMS) do Banco Mundial, que foi estabelecido no início dos anos 1980 (www.worldbank.org/LSMS). Desde 1985, o LSMS conduziu pesquisas em cerca de 20 países em desenvolvimento, de Albânia ao Vietnã. Estes tendem a ser amostras pequenas da ordem de 2.000 a 5.000 domicílios. Em alguns países, isso pode ser uma pesquisa única ou múltiplas pesquisas. Em outros países, pode ser um painel de dois a quatro anos. Três tipos de questionários foram conduzidos: um domiciliar, um comunitário e um de preços. Em alguns casos, foi adicionado um questionário de escola ou unidade de saúde. Os dados do LSMS focaram principalmente em documentar regularidades sobre a natureza da pobreza. Pesquisas repetidas, como o LSMS, embora possam não constituir um painel genuíno, podem ser usadas para construir um pseudo-painel, como veremos no Cap. 10.

Embora os painéis dos EUA tenham começado na década de 1960, foi apenas na década de 1980 que os painéis europeus começaram a ser estabelecidos. Em 1989, uma seção especial da European Economic Review publicou artigos usando o Painel Econômico Social Alemão, o estudo sueco de atividades de mercado e não-mercado domésticas, e o painel doméstico holandês Intomart. A primeira onda do Painel Socioeconômico Alemão (GSOEP) foi coletada pelo DIW (Instituto Alemão de Pesquisa Econômica, Berlim) em 1984 e incluiu 5.921 domicílios da Alemanha Ocidental (www.diw.de/soep). Isso incluiu 12.290 respondentes. Variáveis demográficas padrão, bem como salários, renda, pagamentos de benefícios, nível de satisfação com vários aspectos da vida, esperanças e medos, envolvimento político, etc., são coletados. Em 1990, 4.453 respondentes adultos em 2.179 domicílios da Alemanha Oriental foram incluídos no GSOEP devido à unificação alemã. A taxa de atrito foi relativamente baixa no GSOEP. Wagner, Burkhauser e Behringer (1993) relatam que, ao longo de oito ondas do GSOEP, 54,9% dos respondentes do painel original têm registros sem anos ausentes. A Pesquisa de Painel de Domicílios Britânica (BHPS) é uma pesquisa anual de domicílios privados na Grã-Bretanha, coletada pela primeira vez em 1991 pelo Instituto de Pesquisa Social e Econômica da Universidade de Essex (www.iser.essex.ac.uk/ulsc/bhps/). Esta é uma amostra representativa nacional de cerca de 5.500 domicílios e 10.300 indivíduos extraídos de 250 áreas da Grã-Bretanha. Em 1999, amostras adicionais de 1.500 domicílios em cada uma das regiões da Escócia e do País de Gales foram adicionadas à amostra principal, bem como uma amostra de 2.000 domicílios em 2001 da Irlanda do Norte. Os dados coletados incluem características demográficas e domiciliares, organização domiciliar, mercado de trabalho, saúde, educação, habitação, consumo e renda, e valores sociais e políticos. O Estudo de Painel de Mercado e Atividades Não-Mercado Sueco (HUS) foi coletado em 1984, 1986, 1988, 1991, 1993, 1996 e 1998 (https://snd.gu.se/en/catalogue/study/SND0277). Os dados foram coletados sobre cuidados infantis, habitação, trabalho de mercado, renda e riqueza, reforma tributária (1993), disposição para pagar por um bom ambiente (1996), impostos locais, serviços públicos e atividades na economia informal (1998).

O Painel de Domicílios da Comunidade Europeia (ECHP) é projetado e coordenado centralmente pelo Escritório de Estatísticas das Comunidades Europeias (EuroStat) (https://ec.europa.eu/eurostat/web/microdata/european-community-household-panel). O ECHP abrange 8 anos, de 1994 a 2001. Isso envolveu os estados-membros, incluindo Bélgica, Dinamarca, Alemanha, Irlanda, Grécia, Espanha, França, Itália, Luxemburgo, Países Baixos, Áustria, Portugal, Suécia e Reino Unido. O projeto foi lançado para obter informações comparáveis entre os países membros sobre renda, trabalho e emprego, pobreza e exclusão social, habitação, saúde e muitos outros indicadores sociais diversos que indicam as condições de vida dos domicílios e pessoas privadas. Outros estudos de painel incluem: A Pesquisa de Monitoramento Longitudinal Russa (RLMS) coletada em 1992 pelo Centro de População da Carolina na Universidade da Carolina do Norte (https://www.cpc.unc.edu/projects/rlms-hse/index.html). O RLMS é uma pesquisa domiciliar nacionalmente representativa projetada para medir os efeitos das reformas russas sobre o bem-estar econômico. Os dados incluem saúde individual e ingestão dietética, medição de despesas e utilização de serviços, e dados em nível comunitário, incluindo preços específicos de regiões e infraestrutura comunitária. O Estudo de Painel de Trabalho e Renda da Coreia (KLIPS) está disponível desde 1998 (https://www.kli.re.kr/klips). O Painel de Dinâmica de Renda e Trabalho na Austrália (HILDA) é uma pesquisa de painel domiciliar cuja primeira onda foi conduzida pelo Instituto de Pesquisa Econômica e Social Aplicada de Melbourne em 2001 (https://melbourneinstitute.unimelb.edu.au/hilda). A Pesquisa de Vida Familiar da Indonésia (https://www.rand.org/well-being/social-and-behavioral-policy/data/FLS/IFLS.html), cuja amostra é representativa de cerca de 83% da população indonésia e contém mais de 30.000 indivíduos vivendo em 13 das 26 províncias do país. Esta lista de conjuntos de dados em painel não é de forma alguma exaustiva, mas fornece uma boa seleção de conjuntos de dados em painel prontamente acessíveis para pesquisa econômica.

1.1.2 Exemplos de Macro-painéis

Em contraste com as pesquisas de micro-painéis, há vários macro-painéis para países ao longo do tempo, e, portanto, eles devem ser expressos na mesma moeda e em termos reais. Estes incluem (i) The Penn World Table (PWT) disponível em (https://www.rug.nl/ggdc/productivity/pwt/). A versão 9.1 do PWT fornece paridade de poder de compra e contas nacionais convertidas para preços internacionais para 182 países para alguns ou todos os anos de 1950 a 2017. Além disso, a União Europeia ou a OCDE fornecem estimativas detalhadas de poder de compra e produto real para seus países, e o Banco Mundial faz estimativas de preços correntes para a maioria dos países do PWT ao nível do PIB. (ii) O Banco Mundial é uma grande fonte de macro-painéis, incluindo os Indicadores de Desenvolvimento Mundial (WDI) disponíveis em (https://databank.worldbank.org/source/world-development-indicator). (iii) O Fundo Monetário Internacional (http://www.imf.org) fornece várias fontes de dados de macro-painéis. Estes incluem Bases de Dados de Perspectivas Econômicas Mundiais e Estatísticas Financeiras Internacionais, que fornecem dados de séries temporais para crescimento do PIB, inflação, desemprego, saldos de pagamentos, exportações, importações, dívida externa, fluxos de capital, preços de commodities, etc., Dados Estatísticos do FMI, Indicadores Globais Principais e Observatório Global de Habitação. Este último é um site que rastreia desenvolvimentos nos mercados de habitação ao redor do mundo: Estatísticas de Balanço de Pagamentos, Estatísticas de Direção de Comércio, Estatísticas Financeiras Governamentais, entre outros. Esta é uma fonte rica que inclui taxas de câmbio, contas de fundos e os principais indicadores econômicos globais e de países. (iv) As Nações Unidas fornecem uma riqueza de dados de painel macro-country em (https://unstats.un.org/databases.htm). (v) Os dados da Organização para a Cooperação e Desenvolvimento Econômico (OCDE) estão disponíveis em (http://www.oecd.org). (vi) O Banco Central Europeu (BCE) fornece dados sobre os países membros da União Europeia em (http://www.ecb.int). (vii) O World Factbook da Agência Central de Inteligência está disponível na Web em https://www.cia.gov/library/publications/resources/the-world-factbook/index.html.

Essas são apenas algumas das agências que fornecem macro-dados sobre países individuais ao longo do tempo, que podem ser combinados e usados em estudos de painel.

Estudaremos vários tipos de dados em painel encontrados na prática, incluindo painéis desbalanceados no Cap. 9, painéis aninhados na Seção 9.7, painéis desigualmente espaçados na Seção 5.2.5, painéis rotativos na Seção 10.2, pseudo-painéis na Seção 10.3, painéis espaciais no Cap. 13, painéis de contagem na Seção 10.6 e painéis heterogêneos na Seção 10.5.

1.1.3 Algumas Referências Básicas

Praticamente todos os textos de pós-graduação em econometria contêm um capítulo ou uma seção importante sobre a econometria de dados em painel. Leituras recomendadas sobre este assunto incluem o monógrafo da Econometric Society de Hsiao (2003), juntamente com dois capítulos no Handbook of Econometrics: Capítulo 22 por Chamberlain (1984) e capítulo 53 por Arellano e Honoré (2001). Maddala (1993) editou dois volumes coletando alguns dos artigos clássicos sobre o assunto. Esta coleção de leituras foi atualizada com mais dois volumes cobrindo o período de 1992–2002 e editados por Baltagi (2002). Outros livros sobre o assunto incluem Arellano (2003), Wooldridge (2010), e um manual sobre a econometria de dados em painel editado por Mátyás e Sevestre (2008) e mais recentemente por Baltagi (2015). Edições especiais de revistas dedicadas a dados em painel incluem duas edições especiais do Journal of Econometrics. A primeira editada por Baltagi (1995) e uma mais recente por Sarafidis e Wansbeek (2021). Dois volumes de Annales D’Economie et de Statistique editados por Sevestre (1999), e um mais recente nos Annals of Economics and Statistics por Bonhomme e Davezies (2019). Uma edição especial do Oxford Bulletin of Economics and Statistics editada por Banerjee (1999). Três edições especiais de Econometric Reviews. Duas foram editadas por Maasoumi e Heshmati (2000) e a terceira por Baltagi e Maasoumi (2013). Uma edição especial de Advances in Econometrics editada por Baltagi, Fomby e Hill (2000). Duas edições especiais de Empirical Economics. Uma editada por Baltagi (2004) e a segunda por Baltagi e Breitung (2011). Duas edições especiais do Journal of Applied Econometrics. A primeira editada por Baltagi e Pesaran (2007) e a segunda por Bai, Baltagi e Pesaran (2016).

O objetivo deste livro é fornecer uma introdução simples a algumas das questões básicas da análise de dados em painel. É destinado a economistas e cientistas sociais com a formação usual em estatística e econometria. Métodos de dados em painel têm sido usados em ciência política, veja Beck e Katz (1995), em sociologia, finanças e marketing; veja Keane (2015). Embora restringir o foco do livro a tópicos básicos possa não fazer justiça a esta literatura em rápido crescimento, isso é, no entanto, inevitável em vista das limitações de espaço do livro. Tópicos não abordados neste livro incluem modelos de duração e funções de risco (veja Heckman e Singer 1985), e também a literatura sobre função de produção de fronteira usando dados em painel (veja Kumbhakar e Lovell 2000; Koop e Steel 2001), a literatura sobre parâmetros variáveis no tempo, coeficientes aleatórios e modelos Bayesianos, veja Swamy e Tavlas (2001) e Hsiao (2003), e painéis não paramétricos e semi-paramétricos; veja Li e Racine (2007).

1.2 Por que Deveríamos Usar Dados em Painel? Seus Benefícios e Limitações

Hsiao (2003) lista vários benefícios do uso de dados em painel. Estes incluem o seguinte:

(1) Controlar a heterogeneidade individual.

Dados em painel sugerem que indivíduos, empresas, estados ou países são heterogêneos. Estudos de séries temporais e de corte transversal que não controlam essa heterogeneidade correm o risco de obter resultados enviesados, por exemplo, veja Moulton (1986, 1987). Vamos demonstrar isso com um exemplo empírico. Baltagi e Levin (1986) consideram a estimação de dados em painel da demanda de cigarros em 46 estados americanos. O consumo é modelado como uma função do consumo defasado, preço e renda. Essas variáveis variam com os estados e com o tempo. No entanto, há muitas outras variáveis que podem ser invariantes ao estado ou ao tempo que podem afetar o consumo. Vamos chamar essas variáveis de Zi e Wt, respectivamente. Exemplos de Zi são religião e educação. Para a variável religião, pode não ser possível obter a porcentagem da população que é, por exemplo, mórmon em cada estado para cada ano, nem se espera que isso mude muito ao longo do tempo. O mesmo vale para a porcentagem da população que conclui o ensino médio ou uma graduação. Exemplos de Wt incluem publicidade na TV e no rádio. Essa publicidade é nacional e não varia entre os estados. Além disso, algumas dessas variáveis são difíceis de medir ou de obter, de modo que nem todas as variáveis Zi ou Wt estão disponíveis para inclusão na equação de consumo. A omissão dessas variáveis leva a um viés nas estimativas resultantes. Dados em painel são capazes de controlar essas variáveis invariantes ao estado e ao tempo, enquanto um estudo de série temporal ou um estudo de corte transversal não pode. De fato, a partir dos dados, observa-se que Utah tem menos da metade do consumo médio per capita de cigarros nos EUA. Isso ocorre porque é principalmente um estado mórmon, uma religião que proíbe fumar. Controlar Utah em uma regressão de corte transversal pode ser feito com uma variável dummy que tem o efeito de remover a observação desse estado da regressão. Isso não seria o caso para dados em painel, como descobriremos em breve. De fato, com dados em painel, pode-se fazer a diferença entre os dados para se livrar de todas as variáveis do tipo Zi e, assim, controlar efetivamente todas as características específicas do estado. Isso é válido, sejam as Zi observáveis ou não. Alternativamente, a variável dummy para Utah controla todos os efeitos específicos do estado que são distintivos de Utah sem omitir as observações de Utah.

Outro exemplo é dado por Hajivassiliou (1987), que estuda o problema dos pagamentos da dívida externa usando um painel de 79 países em desenvolvimento observados no período de 1970 a 1982. Esses países diferem em termos de sua história colonial, instituições financeiras, afiliações religiosas e regimes políticos. Todas essas variáveis específicas do país afetam as atitudes que esses países têm em relação ao empréstimo e à inadimplência e a forma como são tratados pelos credores. Não considerar essa heterogeneidade dos países causa sérios erros de especificação.

Deaton (1995) dá outro exemplo da economia agrícola. Isso se refere à questão de saber se pequenas fazendas são mais produtivas do que grandes fazendas. Regressões OLS da produtividade por hectare em insumos como terra, trabalho, fertilizantes e educação do agricultor geralmente encontram que o sinal da estimativa do coeficiente da terra é negativo. Esses resultados implicam que pequenas fazendas são mais produtivas. Algumas explicações da teoria econômica argumentam que a maior produção por cabeça é uma resposta ótima à incerteza por pequenos agricultores, ou que o trabalho contratado requer mais supervisão do que o trabalho familiar. Deaton (1995) oferece uma explicação alternativa. Essa regressão sofre de omissão de heterogeneidade não observada; neste caso, "qualidade da terra", e essa variável omitida é sistematicamente correlacionada com a variável explicativa (tamanho da fazenda). De fato, fazendas em áreas marginais de baixa qualidade (semi-deserto) são tipicamente grandes, enquanto fazendas em áreas de terra de alta qualidade são frequentemente pequenas. Deaton argumenta que, embora jardins agreguem mais valor por hectare do que uma estação de ovelhas; isso não implica que estações de ovelhas devem ser organizadas como jardins. Nesse caso, diferenciar pode não resolver a questão de "pequenas fazendas são produtivas", já que o tamanho da fazenda geralmente mudará pouco ou nada ao longo de curtos períodos.

(2) Dados em painel fornecem dados mais informativos, mais variabilidade, menos colinearidade entre as variáveis, mais graus de liberdade e mais eficiência.

Estudos de séries temporais são afetados pela multicolinearidade; por exemplo, no caso da demanda por cigarros acima, há alta colinearidade entre preço e renda na série temporal agregada para os EUA. Isso é menos provável com um painel entre os estados americanos, pois a dimensão de corte transversal adiciona muita variabilidade, adicionando dados mais informativos sobre preço e renda. De fato, a variação nos dados pode ser decomposta em variação entre estados de diferentes tamanhos e características, e variação dentro dos estados. A primeira variação é geralmente maior. Com dados adicionais mais informativos, pode-se produzir estimativas de parâmetros mais confiáveis. Claro, a mesma relação tem que valer para cada estado, ou seja, os dados têm que ser combináveis. Esta é uma suposição testável e uma que abordaremos a seu tempo.

(3) Dados em painel são melhores para estudar a dinâmica de ajuste.

Distribuições transversais que parecem relativamente estáveis escondem uma multitude de mudanças. Períodos de desemprego, rotatividade de empregos, mobilidade residencial e de renda são melhor estudados com painéis. Dados em painel também são bem adequados para estudar a duração de estados econômicos como desemprego e pobreza, e se esses painéis forem longos o suficiente, eles podem esclarecer a velocidade de ajustes às mudanças de políticas econômicas. Por exemplo, na medição do desemprego, dados de corte transversal podem estimar qual proporção da população está desempregada em um determinado momento. Cortes transversais repetidos podem mostrar como essa proporção muda ao longo do tempo. Apenas dados em painel podem estimar qual proporção daqueles que estão desempregados em um período podem permanecer desempregados em outro período. Questões importantes de políticas, como determinar se as experiências das famílias de pobreza, desemprego e dependência de bem-estar são transitórias ou crônicas, necessitam do uso de painéis. Deaton (1995) argumenta que, ao contrário das seções transversais, as pesquisas em painel fornecem dados sobre mudanças para indivíduos ou domicílios. Permite-nos observar como os padrões de vida dos indivíduos mudam durante o processo de desenvolvimento. Permite-nos determinar quem está se beneficiando do desenvolvimento. Também nos permite observar se a pobreza e a privação são transitórias ou de longa duração, a questão da dinâmica da renda. Painéis também são necessários para a estimação de relações intertemporais, modelos de ciclo de vida e intergeracionais. De fato, painéis podem relacionar as experiências e comportamentos do indivíduo em um momento no tempo com outras experiências e comportamentos em outro momento no tempo. Por exemplo, ao avaliar programas de treinamento, um grupo de participantes e não participantes é observado antes e depois da implementação do programa de treinamento. Este é um painel de pelo menos dois períodos de tempo e a base para o estimador de "diferença em diferenças"; veja Cap. 2.

(4) Dados em painel são melhores para identificar e medir efeitos que simplesmente não são detectáveis em dados puramente transversais ou de séries temporais.

Suponha que temos uma seção transversal de mulheres com uma taxa média de participação na força de trabalho anual de 50%. Isso pode ser devido a (a) cada mulher ter 50% de chance de estar na força de trabalho, em qualquer ano dado, ou (b) 50% das mulheres trabalharem o tempo todo e 50% não trabalharem de forma alguma. O caso (a) tem alta rotatividade, enquanto o caso (b) não tem rotatividade. Apenas dados em painel poderiam discriminar entre esses casos. Outro exemplo é a determinação de se a filiação sindical aumenta ou diminui os salários. Isso pode ser melhor respondido ao observar um trabalhador se movendo de empregos sindicalizados para não sindicalizados ou vice-versa. Mantendo as características do indivíduo constantes, estaremos melhor equipados para determinar se a filiação sindical afeta o salário e em quanto. Esta análise se estende à estimação de outros tipos de diferenciais salariais mantendo as características dos indivíduos constantes, por exemplo, a estimação de prêmios salariais pagos em empregos perigosos ou desagradáveis.

Economistas que estudam o nível de satisfação dos trabalhadores enfrentam o problema de ancoragem em um estudo de corte transversal; veja Winkelmann e Winkelmann (1998) no Cap. 11. A pesquisa geralmente faz a pergunta: "quão satisfeito você está com sua vida?" com zero significando completamente insatisfeito e 10 significando completamente satisfeito. O problema é que cada indivíduo ancora sua escala em níveis diferentes, tornando comparações interpessoais de respostas sem sentido. No entanto, em um estudo de painel, onde a métrica usada pelos indivíduos é invariante ao longo do período de observação, pode-se evitar esse problema, pois um estimador de diferença (ou efeitos fixos) fará inferência com base apenas na comparação intrapessoal da satisfação.

(5) Modelos de dados em painel permitem-nos construir e testar modelos comportamentais mais complicados do que dados puramente transversais ou de séries temporais.

Por exemplo, a eficiência técnica é melhor estudada e modelada com painéis (veja Kumbhakar e Lovell 2000, e Koop e Steel 2001).

(6) Dados de micro-painéis coletados sobre indivíduos, empresas e domicílios podem ser medidos com mais precisão do que variáveis semelhantes medidas no nível macro.

Os vieses resultantes da agregação sobre empresas ou indivíduos podem ser reduzidos ou eliminados.

(7) Dados de macro-painéis, por outro lado, têm uma série temporal mais longa e, ao contrário do problema de distribuições não padronizadas típicas dos testes de raízes unitárias na análise de séries temporais; o Cap. 12 mostra que os testes de raízes unitárias em painel têm distribuições assintóticas padronizadas.

Limitações dos dados em painel incluem:

(1) Problemas de desenho e coleta de dados.

Para uma discussão extensa dos problemas que surgem ao projetar pesquisas em painel, bem como questões de coleta e gestão de dados, veja Kasprzyk et al. (1989). Esses problemas incluem problemas de cobertura (contagem incompleta da população de interesse), não-resposta (devido à falta de cooperação do respondente ou por erro do entrevistador), memória (respondente não se lembrando corretamente), frequência de entrevistas, espaçamento das entrevistas, período de referência, uso de delimitação e viés de tempo na amostra [1].

[1]: A delimitação é usada para evitar a transferência de eventos fora do período de memória para dentro do período de memória. O viés de tempo na amostra é observado quando um nível significativamente diferente para uma característica ocorre na primeira entrevista em comparação com entrevistas posteriores, quando se esperaria o mesmo nível.

(2) Distorções de erros de medição.

Erros de medição podem surgir devido a respostas defeituosas causadas por perguntas pouco claras, erros de memória, distorção deliberada de respostas (por exemplo, viés de prestígio), informantes inadequados, e registro incorreto de respostas e efeitos do entrevistador (veja Kalton, Kasprzyk e McMillen 1989). O estudo de validação de Duncan e Hill (1985) sobre o PSID ilustra a importância do problema do erro de medição. Eles comparam as respostas dos funcionários de uma grande empresa com os registros do empregador. Eles encontram pequenos vieses de resposta, exceto para horas de trabalho, que são superestimadas. A relação da variância do erro de medição com a variância verdadeira é encontrada em 15% para rendimentos anuais, 37% para horas de trabalho anuais, e 184% para rendimentos médios por hora. Esses números são para uma memória de um ano, ou seja, 1983 para 1982, e são mais que dobrados com uma memória de dois anos. Brown e Light (1992) investigam a inconsistência nas respostas de tempo de trabalho no PSID e no NLS. Usuários de dados de corte transversal têm pouca escolha a não ser acreditar nos valores relatados de tempo de trabalho (a menos que tenham informações externas), enquanto usuários de dados em painel podem verificar inconsistências nas respostas de tempo de trabalho com o tempo decorrido entre as entrevistas. Por exemplo, um respondente pode afirmar ter três anos de tempo de trabalho em uma entrevista e, um ano depois, afirmar ter seis anos. Isso deve alertar o usuário desse painel para a presença de erro de medição. Brown e Light (1992) mostram que a falha em usar sequências consistentes internamente de tempo de trabalho pode levar a conclusões enganosas sobre o perfil de inclinação de salário-tempo de trabalho. A seção 10.1 trata do erro de medição em dados em painel.

(3) Problemas de seletividade.

Estes incluem:

(a) Auto-seletividade. Pessoas escolhem não trabalhar porque o salário de reserva é maior do que o salário oferecido. Nesse caso, observamos as características dessas pessoas, mas não o salário delas. Como apenas o salário está ausente, a amostra é censurada. No entanto, se não observarmos todos os dados sobre essas pessoas, esta seria uma amostra truncada. Um exemplo de truncamento é o experimento do imposto de renda negativo de New Jersey. Estamos interessados apenas na pobreza, e pessoas com renda superior a 1,5 vezes o nível de pobreza são excluídas da amostra. A inferência dessa amostra truncada introduz viés que não é ajudado por mais dados, devido ao truncamento (veja Hausman e Wise, 1979). O capítulo 11 trata dos problemas de seletividade em dados em painel.

(b) Não-resposta. Isso pode ocorrer na onda inicial do painel devido à recusa em participar, ninguém em casa, unidade de amostra não rastreada e outras razões. A não-resposta de item (ou parcial) ocorre quando uma ou mais perguntas são deixadas sem resposta ou não fornecem uma resposta útil. A não-resposta completa ocorre quando nenhuma informação está disponível do domicílio amostrado. Além da perda de eficiência devido aos dados ausentes, essa não-resposta pode causar sérios problemas de identificação para os parâmetros populacionais. A gravidade do problema é diretamente proporcional à quantidade de não-resposta. As taxas de não-resposta na primeira onda dos painéis europeus variam entre os países, de 10% na Grécia e na Itália, onde a participação é obrigatória, a 52% na Alemanha e 60% em Luxemburgo. A taxa geral de não-resposta é de 28%; veja Peracchi (2002). A taxa de não-resposta comparável para a primeira onda do PSID é de 24%, para o BHPS (26%) e para o GSOEP (38%).

(c) Atrito. Enquanto a não-resposta também ocorre em estudos de corte transversal, é um problema mais sério em painéis porque ondas subsequentes do painel ainda estão sujeitas à não-resposta. Os respondentes podem morrer, mudar-se ou achar que o custo de responder é alto. Veja o Cap. 11 sobre as consequências do atrito em painéis. O grau de atrito varia dependendo do painel estudado; veja Kalton, Kasprzyk e McMillen (1989) para vários exemplos. Em geral, as taxas gerais de atrito aumentam de uma onda para a próxima, mas a taxa de aumento diminui ao longo do tempo. Becketti et al. (1988) estudam a representatividade do PSID 14 anos após o início. Os autores descobrem que apenas 40% dos que estavam originalmente na amostra em 1968 permaneceram na amostra em 1981. No entanto, eles descobrem que, no que diz respeito à dinâmica de entrada e saída, o PSID ainda é representativo. A ameaça mais potencialmente prejudicial ao valor dos dados em painel é a presença de atrito enviesado. Fitzgerald, Gottschalk e Moffitt (1998) relatam que, em 1989, 51% da amostra original havia sofrido atrito. As principais razões foram não-resposta da unidade familiar, morte ou mudança de residência. Os que sofreram atrito foram encontrados com menores rendimentos, menores níveis de educação e menores propensões ao casamento. Apesar da grande quantidade de atrito, Fitzgerald, Gottschalk e Moffitt (1998) relatam que não há evidências fortes de que esse atrito tenha distorcido seriamente a representatividade do PSID até 1989. Na mesma linha de pesquisa, Lillard e Panis (1998) encontram evidências de seletividade significativa no atrito para o PSID. Por exemplo, eles descobrem que indivíduos com menor nível educacional e pessoas mais velhas são mais propensos a desistir. Pessoas casadas são mais propensas a continuar. Essa propensão a participar na pesquisa diminui quanto maior for a duração do respondente na amostra. Apesar disso, os efeitos de ignorar esse atrito seletivo sobre a dinâmica da renda familiar, formação e dissolução do casamento e risco de mortalidade adulta são leves. Na Europa, as taxas de atrito comparáveis (entre a primeira e a segunda onda) variam de 6% na Itália a 24% no Reino Unido. A taxa média de atrito é de cerca de 10%. Para o BHPS, o atrito da primeira para a segunda onda é de 12%. Para o GSOEP, o atrito é de 12,4% para a amostra da Alemanha Ocidental e 8,9% para a amostra da Alemanha Oriental; veja Peracchi (2002). Para combater os efeitos do atrito, painéis rotativos são às vezes usados, onde uma porcentagem fixa dos respondentes é substituída em cada onda para reabastecer a amostra. Mais sobre painéis rotativos e pseudo-painéis no Cap. 10. Uma edição especial do Journal of Human Resources, Spring 1998, é dedicada ao atrito em pesquisas longitudinais.

(4) Dimensão curta da série temporal.

Micro-painéis típicos envolvem dados anuais cobrindo um curto período de tempo para cada indivíduo. Isso significa que argumentos assintóticos dependem crucialmente do número de indivíduos tendendo ao infinito. Aumentar o período de tempo do painel não é isento de custos. De fato, isso aumenta as chances de atrito e aumenta a dificuldade computacional para modelos de dados em painel de variáveis dependentes limitadas (veja Cap. 11).

(5) Dependência transversal.

Macro-painéis sobre países ou regiões com longas séries temporais que não consideram a dependência entre países podem levar a inferências enganosas. O Cap. 12 mostra que vários testes de raízes unitárias em painel sugeridos na literatura assumiram independência transversal. Considerar a dependência transversal acaba por ser importante e afeta a inferência. Testes alternativos de raízes unitárias em painel são sugeridos que consideram essa dependência. O Cap. 13 revisa testes de dependência transversal em painéis.

Dados em painel não são uma panaceia e não resolverão todos os problemas que um estudo de séries temporais ou de corte transversal não pôde resolver. Exemplos são dados no Cap. 12, onde citamos estudos econométricos argumentando que dados em painel fornecerão testes de raízes unitárias mais poderosos do que séries temporais individuais. Isso, por sua vez, deve ajudar a lançar mais luz sobre a questão da paridade do poder de compra (PPP) e da convergência do crescimento. De fato, isso levou a uma enxurrada de aplicações empíricas, junto com alguns céticos que argumentaram que os dados em painel não salvaram a questão da PPP ou da convergência do crescimento; veja Maddala, Wu e Liu (2000) e Banerjee, Marcellino e Osbat (2004, 2005). Coletar dados em painel é bastante caro, e sempre há a questão de com que frequência se deve entrevistar os respondentes. Deaton (1995) argumenta que o desenvolvimento econômico está longe de ser instantâneo, de modo que as mudanças de um ano para o outro são provavelmente muito ruidosas e de curto prazo para serem realmente úteis. Ele conclui que o retorno dos dados em painel é ao longo de longos períodos, cinco anos, dez anos ou ainda mais. Em contraste, para questões de saúde e nutrição, especialmente as de crianças, pode-se argumentar o caso oposto, ou seja, painéis com um período de tempo mais curto são necessários para monitorar a saúde e o desenvolvimento dessas crianças.

Este livro fará o caso de que dados em painel fornecem várias vantagens que valem seu custo. No entanto, como Zvi Griliches argumentou sobre dados econômicos em geral, quanto mais temos, mais exigimos deles. O economista que usa dados em painel ou qualquer dado, deve conhecer suas limitações.

2. O Modelo de Regressão com Erro de Componente Unidirecional

2.1 Introdução

Uma regressão de dados em painel difere de uma regressão regular de séries temporais ou de corte transversal pelo fato de que ela possui um subscrito duplo em suas variáveis, ou seja,

Nenhum comentário:

Postar um comentário