Permutação: Covariância e Correlação de Pearson | R

Luiz Paulo Tavares Gonçalves
5 min readMay 15, 2021

I — Introdução

Dando sequência nas duas notas publicadas anteriormente no blog [1] [2], o texto de hoje busca esboçar uma das ferramentas básicas da estatística elementar e, posteriormente, por fim, aplicar o teste de permutação. Partindo das irmãs siamesas: covariância e correlação; com o foco na segunda.

II — Correlação de Pearson

Irmãs siamesas, pois ambas buscam, guardada suas proporções, indicar a relação direcional entre variáveis. Vou partir de uma notação não tão convencional, porém simplificada para o entendimento da matemática da correlação. Seja X uma variável com n observações, a média é a soma de todos os valores das observações dividido pelo número total de observações:

A assim podemos encontrar a covariância entre X e Y como segue:

Elementar: subtrai os valores das instâncias ou observações de x e y com relação as respectivas médias, posteriormente, passa multiplicando e dividindo mantendo o critério de graus de liberdade. Com a covariância encontrada podemos chegar facilmente na correlação de Pearson, basta encontrar os desvios padrão para as variáveis e passar dividindo no denominador como uma forma de “padronização”, assim, a correlação, por sua vez, indica uma relação direcional entre 0 e 1:

Podemos fazer um desenvolvimento completo da correlação como na (3), porém encontrando o numerador e denominador passo a passo:

Observe que a correlação envolve o elementar de matemática: primeiro, encontra as covariâncias para o numerador como mencionado anteriormente; em segundo, aplica-se o mesmo processo no denominador, porém elevando ao quadrado (ah! não esqueça da raiz quadrada e da somatória). Com isso, encontra-se a relação direcional-linear entre as variáveis X e Y. Pronto! Agora gostaria de ressaltar alguns pontos:

Cor = 0, isto é, correlação igual a zero, não implica em independência entre as variáveis. Implica apenas em correlação nula, porém as variáveis podem ser dependentes com relações não lineares.

Como manda o mantra da econometria e análise inferencial: correlação não pressupõe causalidade.

A correlação, assim como a média, é sensível aos outliers, anomalias e pontos discrepantes influentes.

Pressupõe aproximação da distribuição Gaussiana para interpretabilidade não enviesada.

Correlação é diferente de regressão. Em correlação nem sequer é preciso definir variáveis explicativas e dependente.

Dantas (2008, p. 117–120) aponta alguns lemas e demonstrações interessantes relacionado ao coeficiente de correlação de Pearson. Deixo como referência, assim como as referências bibliográficas supracitadas nos dois textos anteriores e, principalmente, Figueiredo Filho & Silva Júnior (2009) para algumas propriedades da correlação de Pearson.

III — Metodologia: Permutação

O teste de permutação que vou aplicar parte do mesmo princípio do texto [3], com a diferença que agora vou adaptar para correlação de Pearson. O passo a passo que vou seguir adaptado:

Calcular a correlação entre os grupos A e B

Combinar as observações dos diferentes grupos em único conjunto de dados

Embaralhar os dados combinados, então, extrair aleatoriamente (sem reposição) uma reamostra de tamanho igual ao do grupo A

Dos dados restantes, extrair aleatoriamente (sem reposição) uma reamostra de tamanho igual ao grupo B

Recalcular a correlação para as reamostras dos grupos A e B. Formando as interações de permutação.

Repetir os passos anteriores de permutação 10 mil vezes

Fonte: adaptado de Bruce & Bruce (2019, p. 92)

IV — Finalmente: mão na massa

Vou novamente rodar 400 observações pseudo-aleatórias com distribuição normal; lembre-se: 400 para X e 400 para Y. Vou manter travado na semente geradora set.seed(123), porém no grupo A de observações vou especificar com média zero. Vamos ao código e posteriormente aos resultados:

V — Resultado

Vamos iniciar observando o teste de correlação. Retornou uma direção direcional positiva, porém, como esperado, fraquíssima. Retornou 0.02 de correlação, com o p-valor passando a casa dos 0,55. Caso o objetivo seja indicar que não há correlação entre as variáveis, esse é um ótimo exemplo! Questão que podemos levantar: será mesmo que não há correlação entre as variáveis ou não passa de um resultado do acaso (por mais que o p-valor indique 0,58)? Eis aqui que vou entrar com a permutação da secção III. Não obstante, vamos visualizar a correlação antes:

Vamos visualizar mais de perto:

Bem, assim como no teste formal, fica explícito nas visualizações a fraca correlação entre os grupos A e B com os dados pseudo-aleatórios. Vou aplicar agora a permutação para os grupos e verificar as correlações encontradas entre os grupos com 10 mil reamostras:

Note que a linha vermelha na vertical indica a correlação de 0.02 encontrada anteriormente. Os valores após a linha vermelha indica as correlações maiores encontradas nas permutações. Retornou 2932 correlações superiores a 0.02, isto é, 29.32% das 10 mil interações da permutações retornaram valores maiores que 0,02. O restante dos 70,68% retornaram correlações menores. Até aqui fica claro que mesmo com 10 mil interações, continua indicando correlação fraca. Aplicando o p-valor encontra-se um p-valor bem acima de 10%. À guisa de conclusão, o acaso retornado pelas interações de permutação não encontraram de fato uma correlação significativamente forte, ou seja, indicando que o teste de correlação clássico anterior está correto em inferir uma correlação fraca e não significante.

Referência Bibliográfica

BRUCE, P; BRUCE, A. Estatística para cientista de dados: 50 conceitos essenciais. Rio de Janeiro: Alta Books, 2019.

DANTAS, C. Probabilidade: um curso introdutório. Ed.USP, 2008.

Figueiredo Filho & Silva Júnior. Desvendando os Mistérios do Coeficiente de Correlação de Pearson (r). Revista Política Hoje, Vol. 18, n. 1, 2009.

--

--

Luiz Paulo Tavares Gonçalves

Graduando em Economia (UEG) & Big Data e Inteligência Artificial (PUC-GO)