Permutação: Covariância e Correlação de Pearson | R
I — Introdução
Dando sequência nas duas notas publicadas anteriormente no blog [1] [2], o texto de hoje busca esboçar uma das ferramentas básicas da estatística elementar e, posteriormente, por fim, aplicar o teste de permutação. Partindo das irmãs siamesas: covariância e correlação; com o foco na segunda.
II — Correlação de Pearson
Irmãs siamesas, pois ambas buscam, guardada suas proporções, indicar a relação direcional entre variáveis. Vou partir de uma notação não tão convencional, porém simplificada para o entendimento da matemática da correlação. Seja X uma variável com n observações, a média é a soma de todos os valores das observações dividido pelo número total de observações:
A assim podemos encontrar a covariância entre X e Y como segue:
Elementar: subtrai os valores das instâncias ou observações de x e y com relação as respectivas médias, posteriormente, passa multiplicando e dividindo mantendo o critério de graus de liberdade. Com a covariância encontrada podemos chegar facilmente na correlação de Pearson, basta encontrar os desvios padrão para as variáveis e passar dividindo no denominador como uma forma de “padronização”, assim, a correlação, por sua vez, indica uma relação direcional entre 0 e 1:
Podemos fazer um desenvolvimento completo da correlação como na (3), porém encontrando o numerador e denominador passo a passo:
Observe que a correlação envolve o elementar de matemática: primeiro, encontra as covariâncias para o numerador como mencionado anteriormente; em segundo, aplica-se o mesmo processo no denominador, porém elevando ao quadrado (ah! não esqueça da raiz quadrada e da somatória). Com isso, encontra-se a relação direcional-linear entre as variáveis X e Y. Pronto! Agora gostaria de ressaltar alguns pontos:
Cor = 0, isto é, correlação igual a zero, não implica em independência entre as variáveis. Implica apenas em correlação nula, porém as variáveis podem ser dependentes com relações não lineares.
Como manda o mantra da econometria e análise inferencial: correlação não pressupõe causalidade.
A correlação, assim como a média, é sensível aos outliers, anomalias e pontos discrepantes influentes.
Pressupõe aproximação da distribuição Gaussiana para interpretabilidade não enviesada.
Correlação é diferente de regressão. Em correlação nem sequer é preciso definir variáveis explicativas e dependente.
Dantas (2008, p. 117–120) aponta alguns lemas e demonstrações interessantes relacionado ao coeficiente de correlação de Pearson. Deixo como referência, assim como as referências bibliográficas supracitadas nos dois textos anteriores e, principalmente, Figueiredo Filho & Silva Júnior (2009) para algumas propriedades da correlação de Pearson.
III — Metodologia: Permutação
O teste de permutação que vou aplicar parte do mesmo princípio do texto [3], com a diferença que agora vou adaptar para correlação de Pearson. O passo a passo que vou seguir adaptado:
Calcular a correlação entre os grupos A e B
Combinar as observações dos diferentes grupos em único conjunto de dados
Embaralhar os dados combinados, então, extrair aleatoriamente (sem reposição) uma reamostra de tamanho igual ao do grupo A
Dos dados restantes, extrair aleatoriamente (sem reposição) uma reamostra de tamanho igual ao grupo B
Recalcular a correlação para as reamostras dos grupos A e B. Formando as interações de permutação.
Repetir os passos anteriores de permutação 10 mil vezes
Fonte: adaptado de Bruce & Bruce (2019, p. 92)
IV — Finalmente: mão na massa
Vou novamente rodar 400 observações pseudo-aleatórias com distribuição normal; lembre-se: 400 para X e 400 para Y. Vou manter travado na semente geradora set.seed(123), porém no grupo A de observações vou especificar com média zero. Vamos ao código e posteriormente aos resultados:
V — Resultado
Vamos iniciar observando o teste de correlação. Retornou uma direção direcional positiva, porém, como esperado, fraquíssima. Retornou 0.02 de correlação, com o p-valor passando a casa dos 0,55. Caso o objetivo seja indicar que não há correlação entre as variáveis, esse é um ótimo exemplo! Questão que podemos levantar: será mesmo que não há correlação entre as variáveis ou não passa de um resultado do acaso (por mais que o p-valor indique 0,58)? Eis aqui que vou entrar com a permutação da secção III. Não obstante, vamos visualizar a correlação antes:
Vamos visualizar mais de perto:
Bem, assim como no teste formal, fica explícito nas visualizações a fraca correlação entre os grupos A e B com os dados pseudo-aleatórios. Vou aplicar agora a permutação para os grupos e verificar as correlações encontradas entre os grupos com 10 mil reamostras:
Note que a linha vermelha na vertical indica a correlação de 0.02 encontrada anteriormente. Os valores após a linha vermelha indica as correlações maiores encontradas nas permutações. Retornou 2932 correlações superiores a 0.02, isto é, 29.32% das 10 mil interações da permutações retornaram valores maiores que 0,02. O restante dos 70,68% retornaram correlações menores. Até aqui fica claro que mesmo com 10 mil interações, continua indicando correlação fraca. Aplicando o p-valor encontra-se um p-valor bem acima de 10%. À guisa de conclusão, o acaso retornado pelas interações de permutação não encontraram de fato uma correlação significativamente forte, ou seja, indicando que o teste de correlação clássico anterior está correto em inferir uma correlação fraca e não significante.
Referência Bibliográfica
BRUCE, P; BRUCE, A. Estatística para cientista de dados: 50 conceitos essenciais. Rio de Janeiro: Alta Books, 2019.
DANTAS, C. Probabilidade: um curso introdutório. Ed.USP, 2008.
Figueiredo Filho & Silva Júnior. Desvendando os Mistérios do Coeficiente de Correlação de Pearson (r). Revista Política Hoje, Vol. 18, n. 1, 2009.