Você está na página 1de 28

ESTATÍSTICA DESCRITIVA

E DISTRIBUIÇÃO NORMAL
Estatística Descritiva
• Organizar, classificar, descrever e
comunicar dados
• Medidas de tendência central ou de
posição
• Média
• Mediana
• Quartil
• Moda
Estatística Descritiva
• Média
• Moda
• Mediana
• Quartis

Box Plot
Estatística Descritiva
• Histograma
Medidas de Dispersão
• Variância

• Desvio Padrão
• A variância não pode ser apresentada com a mesma unidade que
a variável medida (é quadrática).
• Raiz quadrada da variância.
plot e hist
• plot: plota vetores de pontos em um plano cartesiano (x,y)

> x = seq(0, 10, 0.1)


> y = sin(x)
> plot(x,y)
> abline (0,0) #acrescenta uma linha a um plot

• hist: cria um histograma de um vetor

> hist(y)
> hist(barcodes$bar_01)
> hist(log2(barcodes$bar_01))
Exercício
1. Leia o arquivo “barcodes.txt”, que está separado por
tab, com cabeçalho, sinalizando que o nome das linhas
está na 1ª linha do arquivo e que o valor
stringAsFactors é falso, atribua à variável barcodes.
2. Normalize os dados da tabela pra um milhão
3. Calcule média e desvio padrão da quantidade de reads
das amostras 7 e 8.
4. Faça dois boxplots indicando como está a distribuição
dos reads nos barcodes 7 e 8. Refaça os boxplots
utilizando escala Log
5. Faça os histogramas das duas amostras.
Distribuição Normal
1. A curva normal tem a forma de um sino, com caudas
assintóticas ao eixo x.
2. A curva é simétrica em relação à perpendicular que passa
pela média (μ).
3. A média, a mediana e a moda são coincidentes.
4. A curva tem dois pontos de inflexão, que correspondem a
valores de x situados, respectivamente, à distância de um
desvio padrão (σ) acima e abaixo da média
5. A área sob a curva totaliza 1.
6. Aproximadamente 68% (~2/3) dos valores de x situam-se
entre os pontos (μ - σ) e (μ + σ).
7. Aproximadamente 95% dos valores de x estão entre (μ-2σ) e
(μ+2σ).
8. Aproximadamente 99,7% dos valores de x estão entre (μ-3σ)
e (μ+3σ).
Distribuição Normal
• Fórmula

• Em R
x = seq(-6,6,by=0.01)
s = 1
m = 0
y = exp(-((x-m)^2)/(2*s^2))/(s*sqrt(2*pi))

plot(x,y, type = 'l')


abline (v = c(m-s,m+s), col="green")
abline (v = c(m-2*s,m+2*s), col="red")
abline (v = c(m-3*s,m+3*s), col="blue")
Distribuição Normal
• Em R
x = seq(-4,4,by=0.01)
s = 1
m = 0
#y = exp(-((x-m)^2)/(2*s^2))/(s*sqrt(2*pi))
y = dnorm(x, mean = m, sd = s, log = FALSE)

help (dnorm)
dnorm(x, mean = 0, sd = 1) #Densidade - pdf
pnorm(q, mean = 0, sd = 1) #Cumulative - cdf
qnorm(p, mean = 0, sd = 1) #quantil
rnorm(n, mean = 0, sd = 1) #números aleatórios da dist
Distribuição Normal
• Na prática:

• Valores da normal em y, dado x


dnorm(x, mean = 0, sd = 1) #Densidade – pdf

• Área da curva em q
pnorm(q, mean = 0, sd = 1) #Cumulative - cdf

• Valor em x dado área p


qnorm(p, mean = 0, sd = 1) #quantil

• Geração de vetor de números n aleatórios usando uma normal


rnorm(n, mean = 0, sd = 1) #números aleatórios da dist
Distribuição Normal
y = dnorm(x, mean = m, sd = s, log = FALSE)
plot(x,y, type = 'l')

pnorm(m, mean = m, sd = s)
qnorm(0.5, mean = m, sd = s)
v = rnorm(1000, mean = m, sd = s)

hist(v)
par(new = T)
plot(x,y, type = 'l')
Transformar x em z
• X – variável que representa o valor observado
• Z – conversão do valor observável para a normal teórica
(μ = 0; σ = 1)

• Na prática, a fórmula converte valores de distribuições


gaussianas, na distribuição Normal conhecida e tabelada
de média (μ = 0) e desvio padrão (σ = 1).
Exemplo 1
• Um treinador deseja selecionar, dentre os jovens que
estão prestando serviço militar no quartel Q, aqueles com
uma estatura de no mínimo 180 cm, para formar um time
de basquete. Que percentagem é esperada de jogadores
em potencial, sabendo-se que a estatura tem distribuição
normal e, nesses jovens, a média é 175 cm e o desvio
padrão, 6 cm?
Exemplo 1
Resolução sem R:

• Converter x em z
z = (180 – 175)/6 à z = 0,83

• Olhar na tabela a área


correspondente a z - a área
representada é entre 0 e 0,83

• A reposta será:
1 – (0,5+0,2967) = 0,2033 ou 20,33%

Em R:
pnorm(180,mean=175,sd=6,lower.tail = F)

OU

1 - pnorm(180,mean = 175, sd = 6)
Exemplo 2
• No desenvolvimento da mosca-das-frutas, Drosophila melanogaster,
o tempo decorrido entre a ovoposição e a emergência do adulto na
sequência ovo-larva-pupa-adulto, é de 273 horas em medial, com
desvio padrão de 20 horas. Suponha que um geneticista deseje
selecionar 10% da população, correspondendo aos indivíduos que
emergem por primeiro, para desenvolver uma população precoce.
Qual o tempo-limite a partir do qual os indivíduos que nascem não
interessam mais ao pesquisador?

qnorm(0.1, mean = 273, sd = 20)


Exercício

• Livro: OpenIntro Statistics - Third Edition


• Pag: 158 - Ex.: 3.3; 3.5; 3.7; 3.11; 3.13

• Livro: Bioestatística
• Pag.: 187 – Ex.: 10; 11; 12; 13; 14
Distribuição Amostral das Médias
• Amostras grandes, de igual tamanho, retiradas
aleatoriamente de uma população, distribuem-se
segundo uma curva normal, não importando como se
distribuem os dados na população original.
• O erro padrão da média estima a variabilidade entre
médias. Ele leva em consideração o tamanho amostral e
é dado por:

• O erro padrão da média estima a variabilidade entre


amostras, enquanto o desvio padrão mede a variabilidade
em uma população
Significância entre a média da amostra e
a média da população
• Decisão sobre a significância entre a média de uma
amostra (x) e a média da população (μ)

• O R não possui o teste z, mas podemos cria-lo


Exemplo
• Certo investigador mediu a pressão arterial sistólica de
cinco executivos do sexo masculino, na faixa de 40 a 44
anos, escolhidos aleatoriamente, e obteve os valores
135; 143; 149; 128 e 158 mmHg. Nessa população e
nessa faixa etária, a média da pressão arterial sistólica é
129 mmHg e o desvio padrão é 15 mmHg. Infira se a
pressão arterial da amostra é significativamente diferente
da população
Exemplo
• Certo investigador mediu a pressão arterial sistólica de
cinco executivos do sexo masculino, na faixa de 40 a 44
anos, escolhidos aleatoriamente, e obteve os valores
135; 143; 149; 128 e 158 mmHg. Nessa população e
nessa faixa etária, a média da pressão arterial sistólica é
129 mmHg e o desvio padrão é 15 mmHg. Infira se a
pressão arterial da amostra é significativamente diferente
da população

s = c(135, 143, 149, 128, 158)


(mean(s)-129)/(15/sqrt(length(s)))
Exemplo
> s = c(135, 143, 149, 128, 158)
> (mean(s)-129)/(15/sqrt(length(s)))

#### criar a função teste.z


teste.z = function(a, mu, sigma){
zeta = (mean(a) - mu) / (sigma/sqrt(length(a)))
return(zeta)
}
> teste.z(s, 129, 15)
Exercício

• Livro Bioestatística
• 15; 16; 18.

• Livro OpenIntro Statistics - Third Edition


• Pag 217: 4.41 (suponha uma normal);
Teste de Hipótese
• O teste de hipóteses é um procedimento estatístico pelo
qual se rejeita ou não uma hipótese, associando à
conclusão um risco máximo de erro.

• As hipóteses estatísticas sempre comparam dois ou mais


parâmetros. São de dois tipos:
1. Hipótese nula (H0): estabelece a ausência de diferença entre os
parâmetros.

2. Hipótese alternativa (HA ou H1): é a hipótese contraria à hipótese


nula. Geralmente, é a que o pesquisador quer ver confirmada.
Exemplo
• Um pesquisador deseja verificar se o medicamento M
apresenta, como efeito colateral, uma alteração nos
níveis da pressão arterial sistólica (PAS). Seleciona,
então, ao acaso, 60 indivíduos adultos, certificando-se de
que suas pressões arteriais eram normais. A pressão
arterial dessas pessoas é medida novamente após elas
terem ingerido o medicamento e obtém a média de 135
mmHg. A pressão arterial sistólica tem média igual a 128
mmHg, com desvio padrão de 24 mmHg. Com base
nessas informações, pode-se concluir que o
medicamento M altera a pressão arterial dos pacientes
que o ingerem (significância α=0,05)?
Exemplo
• H0: não há alteração nos níveis da pressão arterial
sistólica entre a média da amostra e a média da
população. H0: μA = μ0
• H1: a média da população amostrada (μA) difere da média
da população de referência (μ0). HA: μA≠ μ0
Exemplo
• H0: não há alteração nos níveis da pressão arterial
sistólica entre a média da amostra e a média da
população. H0: μA = μ0
• H1: a média da população amostrada (μA) difere da média
da população de referência (μ0). HA: μA≠ μ0
> (135-128)/(24/sqrt(60))
[1] 2.25924

• Conclusão: como Zcalc > 1,96, o desvio é significativo,


sendo dificilmente explicado pelo acaso. Desta forma,
rejeita-se H0 e conclui-se que o medicamento M causa o
aumento da pressão arterial sistólica.
Exercício

• Livro Bioestatística
• 15; 16; 18.

• Livro OpenIntro Statistics - Third Edition


• Pag 217: 4.41 (suponha uma normal);

Você também pode gostar