Análise Exploratória: um passeio aleatório até a distância de Cook
I — Introdução
No primeiro texto do ano para o blog, busco calcular a distância de Cook dado um modelo de regressão. Não obstante, como de costume, percorro um longo passeio aleatório até efetuar o cálculo e a visualização da distância de Cook. Por ser um textinho simples, não vou subir o código para meu github e deixarei apenas a parte final do código disponível no corpo do texto.
II- Modelo
Vou partir da clássica regressão linear simples para efetivar o exemplo da distância de Cook. Como de praxe, a regressão linear simples pode ser dada da seguinte forma:
Na qual βo representa o intercepto e ε o erro estocástico. Omitindo possíveis problemas de especificação, busco a relação linear entre o Índice de Desenvolvimento Humano Municipal (IDHM) e a Renda per capita Média, isto é, partindo do ponto que IDHM dependente da Renda per capita. O modelo será estimado na forma de cross-section por Mínimos Quadrados Ordinários, com 5565 municípios brasileiros para o ano de 2010. Bem, o objetivo aqui não é inferencial, então, viúvas da econometria, não leve muito a sério o modelo. E, observe, que a renda faz parte do cálculo do IDHM, então, possivelmente terá violação de pressupostos básicos, viúvas da econometria. Ah! Sim, o melhor seria trabalhar com dados em painel. Aqui quero apenas estimar esse simples modelo para extrair os resíduos num primeiro momento e, em segundo plano, para efetivar a visualização da distância de Cook.
A distância de Cook, derivada do trabalho de R. Dennis Cook (1977), por sua vez, busca mesurar a influência de cada observação i em todos os n valores ajustados de Yi, dado a exclusão de uma determinada observação i. E como salienta Bruce & Bruce (2019, p. 164): “[a distância de Cook] define influência como uma combinação de alavancagem e tamanho residual”. Sendo que o ponto de alavancagem representa o grau de influência que dada observação i tem em um modelo. Para uma definição formal da distância de Cook, ver aqui [1] e aqui [2].
III — Dados
Os dados são do Atlas Brasil
Estão disponíveis aqui [3]
Variável Dependente: Índice de Desenvolvimento Humano Municipal. Representando: a média geométrica dos índices das dimensões Renda, Educação e Longevidade, com pesos iguais.
Variável Independente: Renda Per Capita Média. Representando: a razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.
Com 5565 Municípios brasileiros .
Período: apenas o ano de 2010.
IV — Análise Exploratória dos Dados
Como manda a tradição, antes de passar propriamente para meu objetivo, vou fazer rapidamente uma análise exploratória para visualizar os dados do IDHM e da renda. Inicia-se observando a distribuição dos dados com histograma e Q-Q Plot — nos quais indicam visualmente uma possível violação da hipótese de normalidade, principalmente, nos dados referente a renda per capita
Agora, vamos visualizar a distribuição do IDHM e da Renda entre os municípios dos Estados brasileiros. Diga-se de passagem, eu já escrevi um texto no blog apenas sobre os gráficos boxplot, aqui.
Feito essas primeiras visualizações, passo agora propriamente para a visualização da relação entre o IDHM e a Renda Per capita. Como segue no gráfico de dispersão, percebe-se que o ajustamento linear pode não ser a melhor modelagem dado a relação entre as variáveis. Mas antes de entrar nessa questão, vou buscar visualizar melhor tal relação. Observe que, dado o número de observações, há inúmeros pontos sobrepostos — os quais impossibilitam um melhor visualização. Ah! Relaxa, quando for estimar o modelo vou passar logaritmo natural na renda.
Para resolver esse problemas vou utilizar a compartimentação hexagonal, retornando, basicamente, a contagem de observação em cada hexágono do gráfico. Diga-se de passagem, eu também já escrevi um texto aqui no blog falando apenas sobre o gráfico de compartimentação hexagonal aqui. Note que plotando o gráfico de compartimentação hexagonal fica infinitamente mais claro as coordenadas ou regiões nas quais se concentram mais pontos. Conseguindo com isso, observar relações bem importantes, por exemplo, o fato de uma dessas regiões de maior concentração ficar numa coordenada localizada em um renda per capita bem abaixo de R$ 500 e com IDHM perto de 0.6 (com mais de 150 pontos nas proximidades dessa coordenada).
Podemos visualizar também, resolvendo o problemas de observações sobrepostas, com o gráfico de contorno. O qual vai retornar uma captura semelhante ao anterior, porém em forma de contorno (para mais detalhes, ver Bruce & Bruce, 2019, p. 35–37).
Com essa rápida análise exploratória exposta, vou voltar ao problemas do ajustamento linear na próxima secção. Ajustando o modelo e, finalmente, extraindo os resíduos e depois aplicando a distância de Cook.
V- Ajustando
Bem, vamos começar visualizando o ajustamento linear:
Como já mencionado anteriormente, o ajustamento linear parece não ser a melhor modelagem. Pelo menos, considerando todo o conjunto dos dados, com possíveis outliers e pontos influentes ou sem transformação dos dados. Bem, ajusta-se linearmente bem até certo ponto, porém a renda continua aumentando em certos municípios (principalmente, os da região Sul e Sudeste como observado nos boxplots anteriores) sem um aumento proporcional do IDHM (consequentemente, aumentando os resíduos). Ressaltando que é um modelo de regressão linear simples, então, isso não é grande surpresa, pois, por óbvio, é economicamente pobre acreditar que o IDHM pode ser explicado apenas pela renda per capita. Vou usar método Loess a seguir para observar um melhor ajustamento:
Porém, não vou aplicar regressão local (Loess). Vou optar, como mencionado anteriormente, em aplicar logaritmo natural na renda per capita, assim, transformando em um modelo lin-log. No qual representa a variação absoluta de Y dada uma variação percentual de X (ver, Gujarati & Porter, 2011, p. 182–183). Observe o gráfico a seguir:
Assim, podemo finalmente rodar a regressão na forma lin-log:
Na interpretação do modelo lin-log não podemos esquecer de “multiplicar o coeficiente angular estimado por 0.01, ou de dividi-lo por 100. Se você não tiver isso em mente, a interpretação dos resultados de uma aplicação será tremendamente equivocada” (Gujarati & Porter, 2011, p. 182). Assim sendo, podemos constatar que um aumento de 1%, em média, na renda leva a um aumento de cerca de 0.001360225 no IDHM ou, para ficar mais sintético, leva a um aumento de cerca de 0.0014 no IDHM. Com um R² passando a casa dos 0.89 e com um F-statistic e p-valor putamente significativo, seria belo como as obras Dostoiévski, caso não estivesse problemas de especificação!
Bem, vamos dar uma olhada nos resíduos do modelo lin-log. Começando com distribuição dos resíduos e com as predições contra os resíduos:
Bem, vou aplicar o teste Anderson-Darling para verificar a normalidade da distribuição dos resíduos para além do histograma.
Note na lateral esquerda o resultado do teste de Anderson-Darling. Como esperado, o teste rejeita Ho, isto é, rejeita a hipótese de distribuição especificada ou de normalidade dos resíduos (P-valor < 0.05). Da mesma forma, o teste de Kolmogorov-Smirnov retornou um p-valor de 1.696e-07: rejeitando a hipótese de normalidade. Diga-se de passagem, não vou utilizar o teste de Shapiro-Wilk dado a incompatibilidade do tamanho da amostra.
Bem, continuemos visualizando os resíduos, agora, visualizando a hipótese de variância constante (homocedasticidade dos resíduos):
Aqui também podemos fazer um teste para avaliar melhor a homogeneidade da variância para além do gráfico. Com a violação da hipótese de normalidade anterior, vou utilizar o teste de Levene, ou melhor, o teste modificado Brown-Forstythe Levene-type.
Observe que o p-valor retornou incrivelmente igual a 1, assim, indicando que não há evidências para rejeitar a hipótese de igualdade de variâncias. Pois bem, por um lado os resíduos têm homogeneidade da variância; enquanto, por sua vez, não tem normalidade.
VI — Finalmente: Distância de Cook
A seguir, finalmente, calculo a distância de Cook para cada observação. Assim, mapeando os possíveis pontos influentes no modelo lin-log. Diga-se de passagem, caso esteja lendo até aqui, vai ficar decepcionado! Basicamente, o gráfico da distância de Cook retornou apenas uma linha homogênea (de vários pontos sobrepostos), assim, ficando impossível identificar pontos influentes. Principalmente, considerando os valores críticos superiores a 4/n (linha de cor vermelha no gráfico). Com valores críticos superiores a 1 (cor azul), por óbvio, não há pontos influentes. Observe o gráfico a seguir:
Fiquei tão decepcionado que, à guisa de conclusão, vou rodar a regressão sem transformar a renda por logaritmo natural e calcular novamente a distância de Cook, sim, apenas para visualizar se há diferença (do modelo lin-log) ou pontos de influências. Segue os códigos (desde do modelo lin-log até o momento) e o gráfico com o modelo linear simples:
Ainda assim, péssimo para visualizar, não obstante, já é notável o número de pontos influentes — considerando 4/n como corte. Bem, para o primeiro textinho do ano foi decepcionante. Talvez seja os resquícios de álcool no meu organismo!
Referência Bibliográfica
Bruce, P.; A, Bruce. Estatística Prática para Cientista de Dados. Rio de Janeiro: Altas Books, 2019.
Cook, R. D. Detection of Influential Observations in Linear Regression. Technometrics: American Statistical Association, 1977.
Gujarati, D.; Porter, D. Econometria Básica. AMGH Editora, 2011.