Você está na página 1de 37

Probabilidade,

Distribuições de Probabilidade e
Curva Normal
Licenciatura em Psicologia
Edição 2022-2023
Métodos Estatísticos: Fundamentos
Tópicos
• Probabilidade e Distribuições de Probabilidade
• Curvas normais e distribuições normais
• A distribuição normal padronizada (típica, padrão, estandardizada, reduzida)
• Cálculos com a distribuição normal
• A tabela normal padronizada, z
• Determinação de probabilidades (proporções, áreas) com a curva normal
• Determinação de um valor X, dada uma proporção/probabilidade
• A regra 68―95―99.7 (Usar a curva Normal de modo descritivo)
• Avaliação da normalidade de uma distribuição

J. M. Tomás Silva - FPCEUC 2022-2023 2


Introdução
• No âmbito desta aula, exploraremos alguns aspetos básicos da teoria da
probabilidade e temos dois objetivos em mente para o fazer.
• Primeiro, a familiaridade com algumas das propriedades formais da teoria da
probabilidade ajudar-nos-á a compreender as estatísticas derivadas dela (e.g., as
estatísticas inferenciais). Em geral, aprenderemos que a noção de probabilidade
envolve examinar o rácio do n.º de ocorrências observadas de um qualquer evento
sobre o n.º total de ocorrências possíveis desse evento.
• Segundo, usaremos o conceito de probabilidade em ligação com o tema central da
estatística, inferir as caraterísticas da população com base numa amostra extraída
dela. A ligação partilhada entre amostras e populações é frequentemente descrita
em termos probabilísticos. Quando uma amostra tem origem numa população, a
investigação empírica e a análise estatística podem ser usadas para fazer
inferências acerca das caraterísticas da população.

J. M. Tomás Silva - FPCEUC 2022-2023 3


Elementos da Teoria da
Probabilidade

J. M. Tomás Silva - FPCEUC 2022-2023 4


Probabilidade é a base da inferência estatística,
mas o que é probabilidade?
Perspetiva empírica ou Perspetiva subjetiva ou
Perspetiva Clássica ou personalista de
frequentista de
lógica de probabilidade probabilidade
probabilidade
• A probabilidade de um • Probabilidade, nesta
acontecimento, A, é • A probabilidade do perspetiva, é a medida
dada pelo número de acontecimento A, p(A), é da força da nossa
acontecimentos o número aproximado expectativa (crença
favoráveis a A, nA, pela razão nA/n à medida subjetiva) de que um
dividido pelo número que o número total de acontecimento ocorrerá.
total de acontecimentos observações, n, tende Por ex.: “É pouco
igualmente prováveis, para o infinito. provável que consiga
ns. viver até aos 100 anos.”

J. M. Tomás Silva - FPCEUC 2022-2023 5


Propriedades formais (Axiomas) da
probabilidade
• A cada ponto do espaço experimental podemos atribuir --- 1 (evento certo)
um número designado por probabilidade de Ei tal que:
Evento mais provável
(1) 0  p(Ei)  1


ns
(2) i =1
p( Ei ) = 1
(3) p(s) = 1 --- 0.50

• Por palavras: (1) a probabilidade atribuída a um


acontecimento é um número maior ou igual a 0 e menor
ou igual a 1; (2) a soma das probabilidades relativas ao
espaço experimental é igual a 1; e, (3) a probabilidade Evento mais raro
do acontecimento certo, s, é sempre 1.
--- 0 (evento nulo)

J. M. Tomás Silva - FPCEUC 2022-2023 6


Distribuições de probabilidade

• Genericamente, uma distribuição de probabilidade “é uma função matemática


que faz corresponder uma probabilidade de ocorrência a cada uma das
realizações duma determinada variável aleatória” (Marôco & Bispo, 2003, p.
50).
• Há dois tipos de distribuições de probabilidade frequentemente estudados na
estatística e com interesse para a psicologia (ver slide seguinte)

J. M. Tomás Silva - FPCEUC 2022-2023 7


Distribuições de Probabilidade Discretas e
Contínuas
• Distribuições de probabilidade e função de distribuição de uma variável
aleatória discreta (p. ex., Binomial, Multinomial, Hipergeométrica, Poisson)
• Distribuições de probabilidade e função de distribuição de uma variável
aleatória contínua (p. ex., Normal, Qui-quadrado, t de Student, F de
Snedecor)
• Neste curso, estamos fundamentalmente interessados em variáveis
contínuas. A distribuição normal é mais utilizada na estatística e, talvez, por
isso, a mais importante de todas elas. Por isso merece que lhe dediquemos
esta aula!

J. M. Tomás Silva - FPCEUC 2022-2023 8


Distribuição Normal e Curva Normal

J. M. Tomás Silva - FPCEUC 2022-2023 9


A invenção da curva/distribuição normal

• O matemático Francês Abraham de Moivre, cerca


de 1730, descobriu a curva normal.
• Infelizmente, esta descoberta permaneceu
desconhecida por muitos anos e, outros receberam
o crédito pela sua invenção!

Abraham de Moivre
(1667-1754)

J. M. Tomás Silva - FPCEUC 2022-2023 10


A Redescoberta e Generalização da Curva Normal
Lei dos Erros, Curva dos Erros e Curva Curvas normais/distribuições normais e
Gaussiana ciências humanas
Em 1809, o matemático alemão L. Quetelet (matemático Belga, mostra
como a Lei do Erro se pode generalizar a
Carl Friedrich Gauss, muitos campos do conhecimento, inclusive
desconhecendo a obra de ao exame das características humanas.
Moivre, publicou uma derivação Em 1835 discorreu sobre o conceito do
do novo método dos mínimos “L’Homme Moyen” (Homem médio) que
seria o ideal da natureza, todavia, a
quadrados incorporando uma natureza também comete erros, e, ao falhar
função matemática que o alvo, produz a variabilidade observada
nos traços humanos e nos caracteres
rapidamente seria conhecida físicos.
como a curva do erro do Mais, importante ainda, mostrou que a
astrónomo e, mais tarde como a extensão e a frequência desses “erros da
natureza” frequentemente se conforma à lei
curva Gaussiana ou, finalmente, da frequência do erro – ou seja, à
a distribuição normal. distribuição normal (Cowles, 1989, p. 12).
Carl F. Gauss (1777-1855) A. Quetelet (1796-1874)

J. M. Tomás Silva - FPCEUC 2022-2023 11


A curva normal é algo mais do que uma fórmula
matemática!
• Para os cientistas o seu principal interesse provém dela ser também um
fenómeno natural, uma vez que é frequente encontrar variáveis com
distribuições muito semelhantes à normal, nos mais diversos campos do
conhecimento. Por exemplo:
• Ciências Naturais: Peso, altura, acuidade visual, força.
• Psicologia: Quociente intelectual (QI), Extroversão (E), Raciocínio
espacial (S).

J. M. Tomás Silva - FPCEUC 2022-2023 12


Curva normal – caraterísticas essenciais
• É simétrica, têm um único pico (unimodal) e
apresenta uma forma de sino.
• Tem uma área exatamente igual a 1 (ou a 100%)
abaixo dela.
• Além disso, a área debaixo da curva e acima de
qualquer valor (na abcissa) é a proporção (ou
percentagem) de todas as observações que se
incluem nesse intervalo.
• Todas as distribuições normais têm as
caraterísticas referidas, e, ademais, a curva de
densidade exata para uma distribuição normal
particular é caracterizada (completamente) pela
sua média,  e seu desvio padrão, .

J. M. Tomás Silva - FPCEUC 2022-2023 13


Parametrização da curva normal
• Matematicamente, uma variável aleatória distribui-se segundo um modelo normal, com
parâmetros  e , se a sua função de densidade de probabilidade para qualquer valor de x
vem dada por:

1 − 𝑥−𝜇 2
𝑓 𝑥 = 𝑒 2𝜎2 [1]
𝜎 2𝜋

onde  = 3.1416… e e = 2.718….


• Pode representar-se compactamente tudo o que verbalizamos acima da seguinte forma:
x N(, )
• NB: A fórmula [1] é apresentada apenas para satisfazer o seu conhecimento geral de estatística e não será necessário usá-la
diretamente neste curso.

J. M. Tomás Silva - FPCEUC 2022-2023 14


A Distribuição Normal Reduzida
• No expoente da fórmula anterior podemos reconhecer a fórmula empregue para obter
pontuações típicas (ou estandardizadas, valores z) (ver fórmula [2] abaixo), e portanto
para variáveis tipificadas, ou reduzidas a função de densidade de probabilidade pode ser
simplificada, dado que o desvio padrão é 1 e a média é 0.
• Se uma variável X tem distribuição normal com média  e desvio padrão , (i.e., N(,) )
então a variável reduzida:
[2]

tem, igualmente, distribuição normal (mas, neste caso, os valores dos parâmetros estão
completamente definidos). Nesse caso, representamo-la simplesmente por N (0, 1).
• A distribuição normal reduzida é um caso especial da distribuição normal. É a distribuição
que se obtém quando uma variável aleatória normal tem média zero e desvio-padrão 1.
J. M. Tomás Silva - FPCEUC 2022-2023 15
Distribuição Normal Reduzida

Inserindo [2] na fórmula [1] e simplificando, então teremos a


seguinte representação final:
.2420 .2420
1 𝑧2
− 2 [3]
𝑌= 𝑒
2𝜋

• Substituindo diferentes valores de z em [3], diferentes


valores de Y serão calculados. Quando z = 0, Y = 1/2 =
.3899. Isso decorre de e0 = 1. Portanto a ordenada na
média da curva normal reduzida é dada pelo número
.3899. Para z = +1, Y = .2420, para z = +2, Y = .0540, etc.

• Recorrendo ao cálculo diferencial e integral é possível


obter a área da curva entre as ordenadas na média e
diferentes valores de z. Estes valores também são
comummente obtidos diretamente de tabelas,
calculadoras e de vário tipo de software!

J. M. Tomás Silva - FPCEUC 2022-2023 16


Distribuição Normal:
Cálculo de Probabilidades
• A maior parte do trabalho prático com variáveis aleatórias consiste em
descobrir probabilidades (ou áreas) associadas a determinados valores.
• Isso implica, matematicamente, integrar a função de densidade (v.g.,
fórmulas [1] ou [2]) entre os valores de interesse.
• Para evitar ter de resolver este tipo de operações construíram-se tabelas
específicas (e.g., variável reduzida.)
• Hoje usamos preferencialmente um software ou uma app que faça esse
cálculo automaticamente (como exemplo, considere a figura seguinte)

J. M. Tomás Silva - FPCEUC 2022-2023 17


A Distribuição Normal Padronizada ou Reduzida e
Exemplos de Áreas/Probabilidades

J. M. Tomás Silva - FPCEUC 2022-2023 18


De onde provêm os valores das áreas (percentagens/probabilidades)
registados no gráfico precedente?
Por exemplo:

P(z  +1.14) = 12.71%

P(z  +2.00) = 2.28%

P(z  -3.00) = 0.13%

J. M. Tomás Silva - FPCEUC 2022-2023 19


Tabela da Distribuição Normal Reduzida

J. M. Tomás Silva - FPCEUC 2022-2023 20


As calculadoras, web ou físicas, são
substitutos techy das venerandas
tabelas impressas nos apêndices
dos livros de estatística e facilitam-
nos imenso a vida!
Três exemplos:
• http://vassarstats.net/
(in Utilities --> Statistical Tables Calculator)
• http://davidmlane.com/hyperstat/normal_distribution.html
• O programa SPSS e o Excel são, também, ferramentas
excelentes para obter probabilidades para várias
distribuições estatísticas conhecidas.
• StatCrunch Calculator

J. M. Tomás Silva - FPCEUC 2022-2023 21


Cálculo de probabilidades – Distribuição Normal
(DN)

• Dois tipos de problemas essenciais com a DN:


• Probabilidade de obter um score (ou mais do que um score) numa variável,
assumindo que esta segue uma DN
• Calcular o score (ou mais do que um score), numa variável que segue a DN,
correspondente a uma dada probabilidade.

J. M. Tomás Silva - FPCEUC 2022-2023 22


Exemplo prático:
Determine a probabilidade de obter um score numa variável,
assumindo que esta segue uma DN

• Suponha que a variável X segue uma distribuição N(50, 8). Calcule a


probabilidade de obter um score que quando muito (i.e., no máximo) seja 56?
• No próximo slide encontra uma proposta de resolução do problema.

J. M. Tomás Silva - FPCEUC 2022-2023 23


Resolução
• Trata-se de obter a probabilidade acumulada do valor 56:
• i.e., P(X  56) = ?
• Comece por obter o valor z de X = 56:
• P(z  (56 - 50) / 8) = 0.75
• De seguida usando a tabela, ou uma app: StatCrunch
Calculator, da DN reduzida obtenha a proporção da área
que se encontra (neste caso) à esquerda (i.e., inferior) a z =
0.75.
• Ou seja, P(z  0.75) = 0.7734.
• Donde .77 da área está abaixo de 56 (ou, a probabilidade de
obter um valor inferior ou igual a 56, nas condições dadas, é
de .77) [Pode apresentar o resultado em %; P(X  56) = 77%.

J. M. Tomás Silva - FPCEUC 2022-2023 24


Calcular o score (ou mais do que um score), numa variável
que segue a DN, correspondente a uma dada probabilidade.

• Suponha que a variável X segue uma distribuição N(50, 8). Calcule o valor de
X cuja probabilidade de ser obtido é quando muito (i.e., no máximo) de .1736.
• No próximo slide encontra uma proposta de resolução do problema.

J. M. Tomás Silva - FPCEUC 2022-2023 25


Resolução
• Trata-se de obter o valor de X correspondente à
probabilidade acumulada de .1736.
• Recorrendo ao procedimento de conversão de X
→ z (variável reduzida) e socorrendo-se da tabela
da DN reduzida (e, assumindo, a propriedade de
simetria da curva), comprovará que se trata do
valor z = −0.94.
[Neste caso usamos a
• Agora basta reconverter este valor usando a fórmula: X = zσ + μ ]
média e o desvio-padrão da distribuição: ou seja, [Rearranjo da fórmula
sendo z0.1736 = −0.94, então X = (−0.94*8) + 50 = reduzida, apresentada
42.48 (StatCrunch Calculator). anteriormente].

J. M. Tomás Silva - FPCEUC 2022-2023 26


A regra 68―95―99.7
Usar a curva Normal de modo descritivo
Na distribuição N(, ), aproximadamente:

• 68% das observações estão no intervalo ±1 da média .

• 95% das observações estão no intervalo ±2 de .

• 99.7% das observações estão no intervalo ±3 de .

• Nota: Na verdade os valores exatos são 68.27% (±1 ), 95.45% (±2),
99.73% (±3), respetivamente.
J. M. Tomás Silva - FPCEUC 2022-2023 27
Avaliação da normalidade de uma distribuição de
frequências
• Como podemos julgar, informalmente, se os dados estão distribuídos de modo aproximadamente
normal?
• Diagramas de caule-e-folha e histogramas podem revelar as características distintamente não-
normais de uma distribuição (outliers, assimetria acentuada, lacunas/vazios ou aglomerados em
pontos específicos da distribuição).
• Poderá, ainda, usar a seguinte estratégia: marque os pontos média, média ± 1 desvio padrão,
média ± 2 desvios padrão e média ± 3 desvios padrão no eixo dos X. O que nos dá a escala
natural para a distribuição normal. Compara-se depois a contagem (percentagem) das
observações em cada intervalo com a regra 68―95―99.7.
• NB: Conjuntos de dados pequenos raramente se adaptam à regra 68―95―99.7 de uma forma
perfeita. Isto é verdadeiro mesmo para observações extraídas de uma população maior que tenha
realmente uma distribuição normal!
• Obviamente, métodos estatísticos mais sofisticados devem ser usados para uma avaliação mais
cuidadosa da normalidade de uma distribuição de dados, mas a regra anterior pode ser usada
numa primeira abordagem exploratória dos dados (ver Apêndice).

J. M. Tomás Silva - FPCEUC 2022-2023 28


Apêndice

• Métodos estatísticos avançados para avaliar o pressuposto ou assunção


de normalidade

J. M. Tomás Silva - FPCEUC 2022-2023 29


Introdução
• Segundo Tabachnick e Fidell (2019, p. 68), examinar as variáveis contínuas quanto à
normalidade é uma etapa inicial da maior importância em praticamente qualquer análise
multivariada (idem para as análises univariadas e bivariadas) cujo propósito seja
inferencial.
• Mesmo que a normalidade das variáveis não seja requerida numa dada análise, a solução é
geralmente bem melhor se as variáveis em apreço estão distribuídas normalmente.
• A normalidade da/s variável/variáveis é avaliada quer por métodos estatísticos ou
gráficos.
• Dois componentes da normalidade são a assimetria e o achatamento (vimos isso antes).
Assimetria tem a ver com a simetria da distribuição; uma variável assimétrica é uma
variável cuja média não está no centro da distribuição. Achatamento tem a ver com o
afunilamento/caráter pontiagudo da distribuição; uma distribuição ou é muito pontiaguda
(com caudas curtas e grossas) ou muito achatada/aplanada (com caudas longas e finas).
Comece, portanto, por examinar os coeficientes de assimetria e de achatamento (ou
curtose).

J. M. Tomás Silva - FPCEUC 2022-2023 30


Coeficientes de assimetria e de achatamento
• Quando uma distribuição é normal, os valores de assimetria e de
achatamento são zero.
• Se há assimetria positiva, então há uma pilha de resultados para a esquerda
e a cauda direita é muito longa; com assimetria negativa, há uma pilha de
resultados para a direita e a cauda esquerda é muito longa.
• Valores de achatamento maiores de zero indicam uma distribuição muito
pontiaguda com caudas curtas e grossas, e valores de achatamento inferiores
a zero indicam uma distribuição que é muito achatada (e também com
muitos casos em ambas as caudas). A curtose não normal produz uma
subestimação da variância da variável.
• (ver Fig. Seguinte)

J. M. Tomás Silva - FPCEUC 2022-2023 31


J. M. Tomás Silva - FPCEUC 2022-2023 32
Testes de significância para a assimetria e
curtose
• Os testes de significância quer da assimetria, quer da curtose testam o
valor obtido contra uma hipótese nula de zero.
𝑆𝑘 −0 6
• Assimetria: 𝑧 = , onde 𝑆𝑆𝑘 = .
𝑆𝑆𝑘 𝑁
𝐾−0 24
• Curtose: 𝑧 = , onde 𝑆𝑘 = .
𝑆𝑘 𝑁
• Níveis convencionais mas conservadores (.01 ou .001) dos níveis de
alfa são usados para avaliar a significância e de curtose com amostras
pequenas a moderadas, mas se a amostra é grande , será melhor ver a
forma da distribuição em vez dos testes de inferência formais
(Tabachnick & Fidell, 2019, p. 69).
J. M. Tomás Silva - FPCEUC 2022-2023 33
Técnicas de visualização (gráficos)

• O histograma (com a sobreposição da curva normal) é uma


ferramenta poderosa para examinar o grau de desvio da distribuição
empírica da curva normal; outra alternativa com algum interesse é o
box plot.
• Os Normal P-P plots e os Detrended normal P-P plots são mais duas
ferramentas úteis para examinar o ajustamento da distribuição
empírica à distribuição normal (ver exemplos no slide seguinte.)
• Todos os gráficos referidos podem ser obtidos no módulo Explore do
IBM SPSS.

J. M. Tomás Silva - FPCEUC 2022-2023 34


J. M. Tomás Silva - FPCEUC 2022-2023 35
Outros testes de significância da normalidade
• No módulo Explore do IBM SPSS pode requerer uma tabela denominada
Tests of Normaility.
• No output são-lhe fornecidos os dados de dois tipos de testes de
significância da normalidade – a estatística Kolmogorov-Smirnov (com
correção de significância de Lilliefors) e a estatística Shapiro-Wilk.
• Ambas estatísticas de teste avaliam a normalidade da distribuição de
resultados. Em ambos os casos um resultado estatisticamente não
significativo (isto é, com um valor Sig. [ou valor-p] maior do que .05)
indicando normalidade.
• Sabe-se que o teste Shapiro-Wilk é mais apropriado do que o teste
Kolmogorov-Smirnov, especialmente quando a amostra é pequena;
portanto, interprete preferencialmente o teste Shapiro-Wilk.
J. M. Tomás Silva - FPCEUC 2022-2023 36
Referências
• Cohen, B. H. & Lea, R. B. (2004). Essentials of statistics for the social and behavioral
sciences. Hoboken, NJ: Wiley.
• Bryman, A. & Cramer, D. (2003). Análise de dados em ciências sociais. Introdução às
técnicas utilizando o SPSS para Windows. Porto: Celta.
• Moore, D. (1995). A estatística básica e sua prática. Rio de Janeiro: LTC.
• Marôco, J. & Bispo, R. (2003). Estatística aplicada às ciências sociais e humanas.
Lisboa: Climepsi.
• Tabachnick, B. G., & Fidell, L. S. (2019). Using multivariate statistics (7th ed.). Pearson.
• (recursos online:
• Hyperstat online: http://davidmlane.com/hyperstat/desc_univ.html
• Free Statistics and Forecasting Software: https://www.wessa.net/)

J. M. Tomás Silva - FPCEUC 2022-2023 37

Você também pode gostar