Aplicação: convergência para a distribuição Normal via simulação|R

Luiz Paulo Tavares Gonçalves
5 min readJun 11, 2021

I — Resumo

Após um pequeno hiato sem publicar no blog, hoje vou expor um tópico que vai ao encontro com um dos pilares da estatística: o teorema central do limite. Buscando apresentar a convergência para uma distribuição Normal (doravante, Gaussiana). Vou tomar a distribuição exponencial como ponto de partida apenas por conveniência da simplicidade matemática, não obstante, pode-se ampliar para inúmeras tipologias de distribuição. Diga-se de passagem, fugindo da cultura do blog, busco ser menos teórico e mais pragmático na exposição de hoje, portanto, menos rigoroso. Assim, vou partir do pressuposto que o leitor esteja familiarizado com o teorema central do limite e com distribuição de probabilidade.

II —Introdução: Distribuição Exponencial

Partindo de Magalhães & Lima (2002, p. 180), com pequenos ajustes na notação, uma variável aleatória continua X não negativa segue o modelo Exponencial com parâmetro λ > 0 se sua função de densidade de probabilidade atender a seguinte forma:

Na qual pode-se adotar X~Exp(λ) para indicar que X segue distribuição exponencial de parâmetro λ. Assim, podemos modelar, por exemplo, a distribuição do tempo entre eventos ou de falhas. Diferente da distribuição Weibul, o número de eventos por período de tempo, permanece constante ao longo do período considerado em análise (Bruce & Bruce, 2019, p. 77–78). O leitor familiarizado com estatística e probabilidade, imagino eu, percebe o parentesco com a distribuição Gama e com a Poisson; por outro lado, as discrepâncias com a distribuição de Weibul.

Dada a função de densidade de probabilidade exposta anteriormente, podemos encontrar a média da distribuição a partir da função geradora de momentos. Assim, desenvolvendo as integrais da função geradora encontra-se que a média é igual a 1/λ. Representando um ponto importante para as secções seguintes. Apenas como título de curiosidade, podemos representar a função geradora como segue: [futuramente pretendo escrever um texto aqui no blog apenas sobre funções geradoras]:

III — Colocando a mão na massa

Sem mais enrolação, vou começar a colocar a mão na massa. Como de praxe, vou travar a semente geradora em set.seed (123) e vou gerar uma distribuição exponencial com a amostra contendo 3000 números pseudo-aleatórios assumindo λ igual a 0,5. De forma totalmente arbitrária, poderia escolher qualquer λ para efetivar o exemplo e as simulações. Escolhi 0,5 por puro devaneio, digamos! Portanto, assumo média igual a 2.0 (1/0.5 = 2.0). Vou chamar de média teórica para diferenciar da média que vou encontrar na geração da amostra. Vou usar o termo média teórica por grande influência do trabalho de Lou Marvin Caraig publicado no Rpubs, aqui [2]. Segue o código e em sequência pode-se visualizar a densidade da distribuição gerada:

Observe que a linha de cor preta na vertical indica a média teórica e, por sua vez, a linha vermelha indica a média da amostra. A qual, a saber, retornou uma média de 2.031706 (aqui uma única média retirada da amostra de 3000). Por óbvio, a distribuição é assimétrica. Aplicando qualquer teste de normalidade rejeita-se a hipótese de normalidade dos dados. Bem, de acordo com os pressupostos do teorema central do limite, com o aumento das n observações, então, a média amostral converge para uma distribuição normal com média μ e variância σ/n. Com bem lembra o Pedro Cavalcante em seu texto: “médias de amostras com a mesma distribuição convergem à normalidade para qualquer distribuição que X tenha”. Diga-se de passagem, recomendo fortemente o texto do Cavalcante como referência para observar a convergência para além da exponencial, ver aqui [3]. Da mesma forma, recomendo o blog do Cavalcante e do Daniel Coutinho, aqui [4]. Principalmente para aqueles que já extrapolaram o duelo ingênuo entre Python vs R e estão de olho na linguagem Julia.

Fazer um exposição detalhada de todo arcabouço do teorema central do limite foge totalmente do meu escopo, portanto, como mencionado no início, assumo que o leitor conheça tal teorema. Para uma revisão sintética, ver da secção 7.3 a 7.3.2 aqui [5]. Para uma revisão em história da estatística trilhando o desenvolvimento da estatística e a importância do teorema central do limite, ver Memória (2004); e, para uma exposição lúdica, ver Salsburg (2009).

IV — Aproximando, convergindo…

Caso tenha observado no código exposto anteriormente, deixei 3000 contido em m. Essa é justamente o número de simulações que optei em efetivar, ou melhor, o número de médias que vou retirar com base na amostra — na forma de distribuição exponencial gerada anteriormente. Com isso, construindo uma distribuição amostral da média da distribuição exponencial via simulação.

Sim, é visualmente lindo. Note que é bem evidente a convergência das médias em uma normal. Com uma curva visualmente leptocúrtica. Assim como a curva da distribuição deixa evidente, tirando um teste de Shapiro-Wilk retorna um p-valor = 0.1376 , isto é, rejeitando a hipótese de não-normalidade. A média da amostra, agora, está em 1.999466. E 1/λ representado pela linha vertical de cor vermelha.

V — Ampliando a visualização da convergência

Bem, antes de passar para a última secção, vou apresentar um visualização para observar a convergência de acordo com o número de simulações. Esse tópico foi totalmente baseado no trabalho de Lou Marvin Caraig citado anteriormente. Então, aqui, os créditos cabe a ele. Segue o código e o gráfico:

À guisa de conclusão, vamos visualizar a convergência aumentando as simulações, de tiragem de médias.Em primeiro, vou aumentar para 10 mil simulações. A reta preta central representa 1/λ, a média teórica; por sua vez, a trajetória de linha vermelha indo em convergência com a reta central indica a distribuição amostral das médias.

Em segundo, vou rodar uma simulação com apenas 100 médias:

Referência Bibliográfica

BRUCE, P; BRUCE, A. Estatística para cientista de dados: 50 conceitos essenciais. Rio de Janeiro: Alta Books, 2019.

MAGALHÃES, N; LIMA, A. Noções de probabilidade e estatística. São Paulo: Editora da Universidade de São Paulo, 2002.

MEMÓRIA,J.M. Breve História da Estatística.Brasília, DF: Embrapa Informação Tecnológica, 2004.

SALSBURG, D.Uma senhora toma chá: como a estatística revolucionou a ciência no século XX. Rio de Janeiro: Zahar, 2009.

--

--

Luiz Paulo Tavares Gonçalves

Graduando em Economia (UEG) & Big Data e Inteligência Artificial (PUC-GO)