Não-Convergência: a razão entre duas distribuições Gaussianas

Luiz Paulo Tavares Gonçalves
5 min readFeb 28, 2022

I — Resumo

tempo queria publicar esse textinho aqui, porém resolvi fazer uma pausa e publicar primeiro o texto sobre a relação comercial entre Rússia-Brasil[1] — dado o contexto da crise atual. Assim, agora, volto para o presente texto. No qual busco demonstrar a convergência, ou melhor, a não convergência entre a razão entre duas variáveis com distribuições gaussianas. Vou chamar tal fenômeno de teorema da não-convergência — por mais que na literatura não tenha essa nomenclatura.

II — Introdução

Com base na literatura estatística, sabe-se que a razão entre duas variáveis com distribuição normal, até mesmo com a hipótese de independência não violada, não gera como saída um distribuição normal (KEENE, 1995). Isto é, dado Y e X com distribuição gaussiana, Z = Y/X não têm distribuição gaussiana. Não obstante, em alguns casos converge para uma normal.

Dado essa possível não-convergência, vamos testar por simulação a convergência de uma variável Z derivada da divisão entre duas gaussianas. No presente caso, normal padrão, isto é, Y~N(0,1). Pois bem, matematicamente a fdp da distribuição normal segue:

Na qual, como de praxe, com média (μ) e variância (σ²). Por sua vez, a distribuição normal padrão mencionada anteriormente, com média zero e variância igual a 1, a fdp segue:

Assim, vou gerar duas distribuição, uma para Y e outra X, que segue uma distribuição normal padrão; posteriormente, passo dividindo Y por X, gerando a variável Z. Busco Y e X que sigam aproximadamente:

III — Construção da simulação e Análise Exploratória

Após liberado as bibliotecas. Observa-se que da linha 13:25 foi gerado o gráfico da normal padrão visualizado anteriormente. Pois bem, feito essa observação, vamos adiante. Em primeiro, gerou-se duas variáveis (Y, X) com 1000 observações pseudo-aleatórias com semente geradoras distintas que seguem distribuição normal com média zero e desvio igual a 1. Em segundo, aplicou-se o teste de Shapiro-Wilk para testar a hipótese de normalidade de Y e X; nota-se que ambas rejeitaram a hipótese de não-normalidade. Em terceiro, plota-se ambas variáveis em um histogramas evidenciando a distribuição normal de Y e X.

Como pode ser observado nos histogramas:

Antes de partir para a divisão entre Y e X. Vamos explorar a relação bivariada entre as variáveis, em primeiro, buscando observar se as variáveis gerados têm outliers (como visualizado nos histogramas anteriormente, espera-se não encontrar dados discrepantes). A seguir, pode-se visualizar um bagplot que basicamente representa um boxplot para relação bivariada (tenho um texto apenas sobre bagplot, ver aqui [2]).

A região de tonalidade azul escura representam a bag, isto é, possui 50% das observações, cujas coordenadas são definidas pelos valores entre o primeiro e terceiro quartis para cada um dos atributos. A região de tonalidade vermelho (tonalidade próximo de rosa), cercada pelos pontos vermelhos, representa o loop, isto é, a bag expandida três vezes o intervalo entre quartis nas duas dimensões, 1.5 vez em cada sentido. Por sua vez, o ponto central (cor laranja), representa as coordenadas da mediana de seus dois atributos. Assim, como pode ser observado, não há pontos discrepantes fora da bag expandida três vezes o intervalo entre quartis nas duas dimensões, em outras palavras, não encontra-se a presença de outliers.

Feito isso, constatado a rejeição da não normalidade e da presença de outlier, vamos observar a correlação entre Y e X. A seguir pode-se observar a correlação de Pearson entre Y e X:

Como esperado, retornou não apenas uma baixa correlação entre Y e X, como também uma correlação não significativa próxima de zero. Pois bem, agora, vou gerar a variável Z partindo da divisão entre Y e X, posteriormente, aplica-se o teste de Shapiro-Wilk para testar a normalidade de Z:

A distribuição de Z em um histograma:

Como pode ser observado, e como esperado, a variável Z passa longe de uma distribuição gaussiana (normal). P-valor do teste de Shapiro-Wilk tende a zero, rejeitando a hipótese de normalidade.

IV — Convergência ou não convergência da variável Z

Observado a não-normalidade da razão entre Y e X, agora, busca-se replicar o mesmo processo inúmeras vezes e, com isso, computar as médias de Z para observar se as médias convergem para uma distribuição normal. Vou replicar o processo 100 e, depois, 1000 vezes e computar as médias de Z. É um processo levemente intensivo, pois, veja só, no caso de 1000 replicações e tiragens de médias, vai gerar 1000 variáveis Y com distribuição normal e depois 1000 variáveis X com distribuição normal (cada uma com 1000 observações) e, posteriormente, divide-se tais replicações e compila 1000 médias. Por fim, vou plotar a distribuição das médias computadas em um histograma e aplicar o teste de Shapiro-Wilk. Vamos iniciar tal processo com 100 replicações:

Como pode ser observado no histograma anterior, nem sequer as médias de Z convergem para uma distribuição normal. Relaxa! Vou replicar 1000 vezes agora:

Nota-se, uma não-normalidade mais acentuada que anteriormente. Observe no código, leitor, que não usei estrutura de repetição, optei em usar replicate e depois apply . Caso queira testar com mais de 1000 replicações aconselho usar estrutura de repetição com paralelismo. Da mesma forma, vai observar uma não convergência. Concluindo, pode-se observar as médias ao longo das replicações: a média geral fica em 0.9341 e, por sua vez, a mediana tende a zero, retornando 0.0740; por outro lado, explicando tamanha discrepância entre média e mediana, o desvio padrão retorna 73.94 e variância em 5467.32

Referência Bibliográfica

KEENE, O. N. The log transformation is special. Statistics in Medicine, vol. 14, 1995.

PINO, F. A. A questão da não normalidade: uma revisão. Rev. de Economia Agrícola, v. 61, 2014.

--

--

Luiz Paulo Tavares Gonçalves

Graduando em Economia (UEG) & Big Data e Inteligência Artificial (PUC-GO)