A importância do gráfico de compartimentação hexagonal para grande conjunto de dados
I- Introdução
Há tempo que não abordo no blog textos com uma “temática de tutorial” ou com técnicas/ferramentas que podem auxiliar, por exemplo, em uma análise exploratória. Pois bem, analisando um banco de dados encontrei um problema clássico: plotando uma dispersão para verificar a relação entre as variáveis numéricas, dado o grande conjunto de dados que estava trabalhando, os pontos ficavam sobreposto em um nível que não conseguia visualizar nada além de uma nuvem escura. Com esse problema, resolvi escrever esse texto mostrando uma forma simples de solucionar o problema, isto é, mostrando uma melhor forma de visualizar os dados para além do clássico gráfico de dispersão. Dito isso, a seguir vou mostrar o problema com o gráfico de dispersão e uma melhor forma de visualizar com o gráfico de compartimento hexagonal.
II — Dados utilizados no exemplo
Para a explicação e exemplo, vou utilizar o banco de dados do Atlas Brasil:
Dados aqui;
Os dados utilizados contam com o censo de 1991, 2000 e 2010;
Contém os dados para todos os municípios brasileiros;
No exemplo vou utilizar duas variáveis: renda per capita e mortalidade infantil;
Definição de Renda Per Capita: razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. Valores em reais de 01/agosto de 2010.
Definição de Mortalidade Infantil: Número de crianças que não deverão sobreviver ao primeiro ano de vida em cada 1000 crianças nascidas vivas.
III — Vamos aos dados
Como de praxe, vou começar importando e organizando os dados. Depois plotando a relação entre a mortalidade infantil e a renda per capita (como uma relação entre variável dependente e independente em uma dispersão). Começo plotando a relação para cada ano individualmente e depois juntando tudo em um único plote. Segue o código e os gráficos a seguir:
Observe que, apesar dos gráficos de dispersão indicarem um visível relação não-linear e uma queda na mortalidade infantil entre as variáveis plotadas, fica ruim para visualizar os pontos dado o alto número de pontos sobrepostos [Diga-se de passagem, a técnica de “jitter” é bem comum em problemas semelhantes, principalmente, com boxplot].Parafraseado Bruce & Bruce (2019): fica semelhante um nuvem monolítica escura. Com isso, reduzindo até mesmo informações que podem ser extraídas da relação não linear.
IV —Gráfico de Compartimento Hexagonal
Com isso, para visualizar melhor a relação entre as variáveis podemos usar o conhecido gráfico de compartimento hexagonal (GCH). O GCH basicamente vai agrupar os registros em compartimentos hexagonais, sendo que a cor de cada hexágono vai variar dado o número de registros. Esse tipo de gráfico é muito útil e importante principalmente em grandes conjuntos de dados — aqui, apesar de está fazendo o exemplo com um pequeno banco de dados, vai servir como ilustração para conjuntos maiores. Vamos ao exemplo utilizando as dispersão anteriores como plano de fundo, assim, imagino que fique mais claro:
Observe o gráfico de compartimento hexagonal. Semelhante aos anteriores: com o mesmo conjunto de dados indicando a relação entre mortalidade infantil e renda per capita, porém, agora, para uma melhor visualização, registrando nos hexágonos as tonalidades de cor denotando o número de registros em cada compartimento. Note a barra na lateral direita indicando a contagem de observações presentes em cada hexágonos. Com isso, conseguimos ter uma visualização mais limpa da relação entre X e Y ou até mesmo notar a área de maior densidade. Por exemplo, conseguimos, diferente dos plotes de dispersão anteriores, saber que nas áreas com maior tonalidade vermelha chegou a ter mais de 400 pontos sobrepostos, sendo as áreas com maior densidade de pontos. Como mencionei anteriormente, para além do gráfico de dispersão, o CGH pode ser muito útil para grandes conjuntos de dados.
V- Concluindo
Concluindo, apenas como título de curiosidade deixo a seguir a matriz de correlação entre as variáveis anteriores para aqueles que ficaram curiosos em observar a relação:
Referência Bibliográfica
Bruce, P.;Bruce, A. Estatística Prática para Ciência de Dados. Rio de Janeiro: Alta Books, 2019.