sexta-feira, 7 de junho de 2024

Estatística Bayesiana para Ciências Sociais

KAPLAN, David. Bayesian Statistics for the Social Sciences. 2. ed. New York: The Guilford Press, 2024.

Sumário:

PARTE I - FUNDAMENTOS 

1 • CONCEITOS DE PROBABILIDADE E O TEOREMA DE BAYES 3

1.1 Axiomas Relevantes da Probabilidade / 3

1.1.1 Os Axiomas de Kolmogorov da Probabilidade / 3

1.1.2 Os Axiomas de Rényi da Probabilidade / 4

1.2 Probabilidade Frequentista / 5

1.3 Probabilidade Epistêmica / 6

1.3.1 Coerência e o Livro Holandês / 6

1.3.2 Calibrando Avaliações de Probabilidade Epistêmica / 7

1.4 Teorema de Bayes / 9

1.4.1 O Problema de Monty Hall / 10

1.5 Resumo / 11

2 • ELEMENTOS ESTATÍSTICOS DO TEOREMA DE BAYES 13

2.1 O Teorema de Bayes Revisitado / 13

2.2 Modelos Hierárquicos e Pooling / 15

2.3 A Assunção de Trocabilidade / 16

2.4 A Distribuição a Priori / 18

2.4.1 Priori Não Informativa / 18

2.4.2 Priori de Jeffreys / 19

2.4.3 Priori Fracamente Informativa / 20

2.4.4 Priori Informativa / 21

2.4.5 Um Parêntese: A Regra de Cromwell / 22

2.5 Verossimilhança / 23

2.5.1 A Lei da Verossimilhança / 23

2.6 A Distribuição Posterior / 25

2.7 O Teorema Central do Limite Bayesiano

e a Redução Bayesiana / 27

2.8 Resumo / 29

3 • DISTRIBUIÇÕES DE PROBABILIDADE COMUNS E SUAS PRIORIS 31

3.1 A Distribuição Gaussiana / 32

3.1.1 Média Desconhecida, Variância Conhecida: A Priori Gaussiana / 32

3.1.2 A Distribuição Uniforme como uma Priori Não Informativa / 33

3.1.3 Média Conhecida, Variância Desconhecida:

A Priori Inversa-Gama / 35

3.1.4 Média Conhecida, Variância Desconhecida: A Priori Half-Cauchy / 36

3.1.5 A Priori de Jeffreys para a Distribuição Gaussiana / 37

3.2 A Distribuição Poisson / 38

3.2.1 A Priori Gama / 38

3.2.2 A Priori de Jeffreys para a Distribuição Poisson / 39

3.3 A Distribuição Binomial / 40

3.3.1 A Priori Beta / 40

3.3.2 A Priori de Jeffreys para a Distribuição Binomial / 41

3.4 A Distribuição Multinomial / 42

3.4.1 A Priori Dirichlet / 43

3.4.2 A Priori de Jeffreys para a Distribuição Multinomial / 43

3.5 A Distribuição Inversa-Wishart / 44

3.6 A Priori LKJ para Matrizes de Correlação / 45

3.7 Resumo / 46

4 • OBTENDO E RESUMINDO A DISTRIBUIÇÃO POSTERIOR 47

4.1 Ideias Básicas da Amostragem de Monte Carlo via Cadeia de Markov / 47

4.2 O Algoritmo de Metropolis-Hastings por Caminhada Aleatória / 49

4.3 O Amostrador de Gibbs / 50

4.4 Hamiltonian Monte Carlo / 51

4.4.1 Amostrador Sem Retrocesso (NUTS) / 52

4.5 Diagnósticos de Convergência / 53

4.5.1 Gráficos de Traço / 53

4.5.2 Gráficos de Densidade Posterior / 53

4.5.3 Gráficos de Autocorrelação / 54

4.5.4 Tamanho Efetivo da Amostra / 54

4.5.5 Fator de Redução da Escala Potencial / 55

4.5.6 Possíveis Mensagens de Erro ao Usar HMC/NUTS / 55

4.6 Resumindo a Distribuição Posterior / 56

4.6.1 Estimativas Pontuais da Distribuição Posterior / 56

4.6.2 Resumos Intervalares da Distribuição Posterior / 57

4.7 Introdução ao Stan e Exemplo / 60

4.8 Um Algoritmo Alternativo: Bayes Variacional / 66

4.8.1 Limite Inferior da Evidência (ELBO) / 67

4.8.2 Diagnósticos de Bayes Variacional / 68

4.9 Resumo / 70

PARTE II - CONSTRUÇÃO DE MODELOS BAYESIANOS

5 • MODELOS LINEARES E GENERALIZADOS BAYESIANOS 73

5.1 O Modelo de Regressão Linear Bayesiano / 73

5.1.1 Prioris Não Informativas no Modelo de Regressão Linear / 74

5.2 Modelos Lineares Generalizados Bayesianos / 85

5.2.1 A Função de Ligação / 86

5.3 Regressão Logística Bayesiana / 87

5.4 Regressão Multinomial Bayesiana / 91

5.5 Regressão Poisson Bayesiana / 94

5.6 Regressão Binomial Negativa Bayesiana / 98

5.7 Resumo / 99

6 • AVALIAÇÃO E COMPARAÇÃO DE MODELOS 101

6.1 A Abordagem Clássica para Teste de Hipóteses e Suas

Limitações / 101

6.2 Avaliação de Modelos / 103

6.2.1 Verificação Preditiva a Priori / 104

6.2.2 Verificação Preditiva Posterior / 107

6.3 Comparação de Modelos / 112

6.3.1 Fatores de Bayes / 112

6.3.2 Críticas aos Fatores de Bayes e ao BIC / 116

6.3.3 O Critério de Informação da Deviance (DIC) / 117

6.3.4 Critério de Informação Ampla (WAIC) / 118

6.3.5 Validação Cruzada Deixa-Um-Fora / 119

6.3.6 Uma Comparação entre WAIC e LOO / 121

6.4 Resumo / 123

7 • MODELAGEM MULTINÍVEL BAYESIANA 125

7.1 Revisitando a Trocabilidade / 126

7.2 Análise Bayesiana de Efeitos Aleatórios da Variância / 127

7.3 Modelo de Interceptos como Resultados Bayesianos / 135

7.4 Modelo de Interceptos e Inclinações como Resultados Bayesianos / 137

7.5 Resumo / 141

8 • MODELAGEM DE VARIÁVEIS LATENTES BAYESIANA 143

8.1 Estimação Bayesiana para a CFA / 143

8.1.1 Prioris para Parâmetros do Modelo CFA / 144

8.2 Análise de Classe Latente Bayesiana / 150

8.2.1 O Problema da Troca de Etiquetas e uma Possível Solução / 154

8.2.2 Comparação do VB com o Algoritmo EM / 158

8.3 Resumo / 160

PARTE III - TÓPICOS E MÉTODOS AVANÇADOS

 9 DADOS FALTANTES DE UMA PERSPECTIVA BAYESIANA 165

9.1 Uma Nomenclatura para Dados Faltantes / 165

9.2 Métodos de Exclusão Ad Hoc para Lidar com Dados Faltantes / 166

9.2.1 Exclusão por Lista / 167

9.2.2 Exclusão por Pares / 167

9.3 Métodos de Imputação Simples / 167

9.3.1 Imputação pela Média / 168

9.3.2 Imputação por Regressão / 168

9.3.3 Imputação por Regressão Estocástica / 169

9.3.4 Imputação por Hot Deck / 169

9.3.5 Previsão por Média de Pareamento / 170

9.4 Métodos Bayesianos de Imputação Múltipla / 170

9.4.1 Aumento de Dados / 171

9.4.2 Equações Encadeadas / 172

9.4.3 EM Bootstrap: Um Método Híbrido Bayesiano/Frequentista / 173

9.4.4 Previsão por Média de Pareamento Bayesiano Bootstrap / 175

9.4.5 Contabilizando a Incerteza do Modelo de Imputação / 176

9.5 Resumo / 177

10 SELEÇÃO DE VARIÁVEIS BAYESIANA E PARCIMÔNIA 179

10.1 Introdução / 179

10.2 A Priori Ridge / 181

10.3 A Priori Lasso / 183

10.4 A Priori Horseshoe / 185

10.5 Priori Horseshoe Regularizada / 187

10.6 Comparação dos Métodos de Regularização / 189

10.6.1 Um Parêntese: A Priori Spike-and-Slab / 191

10.7 Resumo / 191


11 INCERTEZA DO MODELO 193

11.1 Introdução / 193

11.2 Elementos da Modelagem Preditiva / 194

11.2.1 Fixando Notação e Conceitos / 195

11.2.2 Funções de Utilidade para Avaliação de Previsões / 195

11.3 Média de Modelos Bayesianos / 196

11.3.1 Especificação Estatística da BMA / 197

11.3.2 Considerações Computacionais / 197

11.3.3 Composição de Modelos via Cadeia de Markov Monte Carlo / 199

11.3.4 Prioris de Parâmetros e Modelos / 200

11.3.5 Avaliando Resultados da BMA: Revisando Regras de Pontuação / 201

11.4 Modelos Verdadeiros, Modelos de Crença, e M-Frameworks / 210

11.4.1 Média de Modelos no M-Closed Framework / 210

11.4.2 Média de Modelos no M-Complete Framework / 211

11.4.3 Média de Modelos no M-Open Framework / 211

11.5 Stacking Bayesiano / 212

11.5.1 Escolha dos Pesos de Stacking / 212

11.6 Resumo / 216

12 CONSIDERAÇÕES FINAIS 217

12.1 Um Fluxo de Trabalho Bayesiano para as Ciências Sociais / 217

12.2 Resumindo a Vantagem Bayesiana / 220

12.2.1 Coerência / 220

12.2.2 Condicionamento em Dados Observados / 220

12.2.3 Quantificação de Evidências / 221

12.2.4 Validade / 221

12.2.5 Flexibilidade em Lidar com Estruturas de Dados Complexas / 222

12.2.6 Quantificação Formal da Incerteza / 222

1 - Conceitos de Probabilidade e o Teorema de Bayes

Neste capítulo, consideramos questões fundamentais em probabilidade que sustentam tanto a inferência estatística frequentista quanto a bayesiana. Primeiro, discutimos os axiomas da probabilidade que sustentam os conceitos de probabilidade tanto frequentistas quanto bayesianos. Em seguida, discutimos a noção frequentista de probabilidade como frequência de longo prazo. Mostramos, então, que a frequência de longo prazo não é a única maneira de conceber a probabilidade, e que a probabilidade pode ser considerada como crença epistêmica. Um conceito chave derivado da probabilidade epistêmica e que requer adesão aos axiomas da probabilidade é a coerência, e descrevemos esse conceito em termos de sistemas de apostas, particularmente o chamado "livro holandês". Os conceitos de probabilidade epistêmica e coerência nos levam à discussão do teorema de Bayes, e então mostramos como esses conceitos se relacionam ao trabalhar o famoso problema de Monty Hall.

1.1 Axiomas de Probabilidade Relevantes

A maioria dos estudantes das ciências sociais foi introduzida aos axiomas da probabilidade estudando as propriedades do lançamento de moedas ou do lançamento de dados. Esses estudos abordam questões como (1) Qual é a probabilidade de que o lançamento de uma moeda justa resulte em cara? e (2) Qual é a probabilidade de que o lançamento de dois dados justos resulte em um valor de 7? Para responder a essas perguntas, é necessário enumerar os possíveis resultados e, em seguida, contar o número de vezes que o evento poderia ocorrer. As probabilidades de interesse são obtidas dividindo o número de vezes que o evento ocorreu pelo número de possíveis resultados, ou seja, a frequência relativa dos eventos. Antes de introduzir o teorema de Bayes, é útil revisar os axiomas da probabilidade que formaram a base da estatística frequentista. Esses axiomas podem ser atribuídos principalmente ao trabalho de Kolmogorov (1956).

1.1.1 Os Axiomas de Probabilidade de Kolmogorov

Considere dois eventos denotados como A e B. Para simplificar as coisas, considere ambos como o lançamento de uma moeda justa. Então, usando a notação padrão para a união ∪ e a interseção ∩ de conjuntos, os seguintes são os axiomas da probabilidade, a saber:

1. p(A) ≥ 0.

2. A probabilidade do espaço amostral é 1,0.

3. Aditividade contável: Se A e B são mutuamente exclusivos, então p(A ou B) ≡ p(A ∪ B) = p(A) + p(B). Ou, mais geralmente,

$p\left( \bigcup_{j=1}^{\infty} A_j \right) = \sum_{j=1}^{\infty} p(A_j) \quad \text{(1.1)}$

Um número de outros axiomas de probabilidade pode ser derivado desses três axiomas básicos. No entanto, esses três axiomas podem ser usados para lidar com o caso relativamente simples do exemplo de lançamento de moedas mencionado acima. Por exemplo, se lançarmos uma moeda justa um número infinito de vezes, esperamos que ela caia com a face "cara" voltada para cima 50% das vezes [1]. Essa probabilidade, e outras semelhantes, satisfazem o primeiro axioma de que as probabilidades devem ser maiores ou iguais a zero. O segundo axioma afirma que, em um número infinito de lançamentos de moedas, a soma de todos os possíveis resultados (neste caso, caras e coroas) é igual a um. De fato, o número de resultados possíveis representa o espaço amostral, e a soma das probabilidades sobre o espaço amostral é um. Finalmente, em relação ao terceiro axioma, assumindo que um resultado impede a ocorrência de outro resultado (por exemplo, a moeda cair com a face "cara" voltada para cima impede a ocorrência de a moeda cair com a face "coroa" voltada para cima), então a probabilidade do evento conjunto p(A ∪ B) é a soma das probabilidades separadas, ou seja, p(A ∪ B) = p(A) + p(B).

[1]: Interessantemente, essa expectativa não se baseia no fato de ter realmente lançado a moeda um número infinito de vezes. Em vez disso, essa expectativa é uma crença prévia e, indiscutivelmente, esse é um exemplo de como o pensamento bayesiano está automaticamente embutido na lógica frequentista.

Podemos desejar adicionar a esses três axiomas um quarto axioma que lida com a noção de eventos independentes. Se dois eventos são independentes, então a ocorrência de um evento não influencia a probabilidade de outro evento. Por exemplo, com duas moedas A e B, a probabilidade de A resultar em "cara" não influencia o resultado de um lançamento de B. Formalmente, definimos independência como p(A e B) ≡ p(A ∩ B) = p(A)p(B). A noção de que eventos independentes permitem que as probabilidades individuais sejam simplesmente o produto delas desempenha um papel crítico na derivação do teorema de Bayes.

1.1.2 Os Axiomas de Probabilidade de Rényi

Note que os axiomas de Kolmogorov não levam em conta como as probabilidades podem ser afetadas pelo condicionamento na dependência de eventos. Uma extensão do sistema de Kolmogorov que considera o condicionamento foi proposta por Alfred Rényi. Como exemplo, considere o caso de observar a presença ou ausência de câncer de pulmão (C) e o comportamento de fumar ou não fumar (S). Podemos argumentar com base em experiências anteriores e pesquisas médicas que C não é independente de S, ou seja, a probabilidade conjunta p(C ∩ S) ≠ p(C)p(S). Para lidar com esse problema, definimos a probabilidade condicional de C "dado" S (ou seja, p(C | S)) como

$p(C \mid S) = \frac{p(C \cap S)}{p(S)} \quad \text{(1.2)}$






Nenhum comentário:

Postar um comentário