Você está na página 1de 57

ESTATSTICA DESCRITIVA ESTATSTICA DESCRITIVA

o conjunto de mtodos para o conjunto de mtodos para


organizao, apresentao e descrio
de dados representativos do de dados representativos do
comportamento de uma varivel, onde
se utilizam tabelas grficos e medidas se utilizam tabelas, grficos e medidas
que resumem a distribuio desta
varivel varivel.
VARIVEL VARIVEL
As variveis so caractersticas que podem
ser observadas ou medidas em cada ser observadas ou medidas em cada
elemento pesquisado (seja por censo ou
amostragem levantamento ou experimento) amostragem, levantamento ou experimento).
Para cada varivel e para cada elemento
pesquisado em um dado momento h um e pesquisado, em um dado momento, h um e
apenas um resultado possvel.
CLASSIFICAO DAS VARIVEIS
CLASSIFICAO DAS VARIVEIS
Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html
POPULAO POPULAO POPULAO POPULAO
A l d t d did i d d A coleo de todas as medidas oriundas de
uma varivel chamada de POPULAO.
As medidas utilizadas para descrever ou p
caracterizar estatisticamente uma
populao so chamadas de p p
PARMETROS, representados por letras
gregas ( , ) g g ( , )
AMOSTRA AMOSTRA
Como em geral as populaes so muito
grandes, se faz necessrio o uso de
amostras para represent-las. Estas so
formadas por uma frao da populao em
estudo.
As estimativas dos parmetros calculados As estimativas dos parmetros calculados
a partir das amostras so chamadas
genericamente de ESTATSTICAS e so genericamente de ESTATSTICAS e so
representadas por letras latinas (x, s ...)
O conjunto de dados que descreve o O conjunto de dados que descreve o
comportamento de uma varivel pode ser comportamento de uma varivel pode ser
ff estudado e representado na forma de estudado e representado na forma de
distribuio de freqncias distribuio de freqncias
DADOS BRUTOS
Intervalo Freqncia
17,9 23,0 16,1 18,1 18,0
17,9 19,4 16,2 19,8 20,5
20,0 23,4 16,8 26,3 18,5
15 17 7
17 19 19
19 21 11 20,0 23,4 16,8 26,3 18,5
18,0 22,6 16,7 18,4 19,2
17,9 20,2 16,2 21,0 18,5
18 9 22 1 17 2 20 1 20 9
19 21 11
21 23 5
23 25 6
25 27 1 18,9 22,1 17,2 20,1 20,9
17,6 25,0 15,7 18,2 23,5
18,5 22,0 15,7 17,5 19,2
25 27 1
27 29 1
18,8 24,0 24,7 18,6 25,0
17,7 20,2 28,0 17,1 21,1
DISTRIBUIO NORMAL
CURVA DE GAUSS OU DE LAPLACE CURVA DE GAUSS OU DE LAPLACE
a distribuio terica de probabilidade de a distribuio terica de probabilidade de
variveis contnuas mais utilizada variveis contnuas mais utilizada variveis contnuas mais utilizada variveis contnuas mais utilizada
IMPORTNCIA
1. Inmeros fenmenos naturais podem ser
representados atravs dela representados atravs dela
2. Vrios mtodos estatsticos se ajustam melhor j
a esta distribuio que as demais. Pode-se
utiliz-la, por exemplo, para calcular a
probabilidade de ocorrncia de uma srie de probabilidade de ocorrncia de uma srie de
eventos naturais
3. Ela a base para a inferncia estatstica
clssica
DISTRIBUIO NORMAL TERICA
PROPRIEDADES PROPRIEDADES
Valores de medidas de tendncia central idnticos Valores de medidas de tendncia central idnticos
MDIA
MODA
MEDIANA
MEDIDAS DE TENDNCIA CENTRAL MEDIDAS DE TENDNCIA CENTRAL
As medidas da tendncia central so
parmetros que permitem que se tenha parmetros que permitem que se tenha
uma primeira idia, um resumo, de como
se distribuem os dados de um experimento se distribuem os dados de um experimento.
Existem trs medidas principais que Existem trs medidas principais que
refletem a tendncia central de uma
distribuio de freqncias:
Mdia
Moda Moda
Mediana
MDIA MDIA
a soma de todos os resultados dividida pelo
nmero total de casos.
N
x
N
i

N
x
1 i

=
=
N
Clculo da Mdia em valores Clculo da Mdia em valores
agrupados em classes g p
N
f x

=
1 i
i i
N
f x
x
=1 i
ou
N

N
ou

=
1 i
i i
p x x
=1 i
Um dos problemas da utilizao da mdia que, por levar em
conta TODOS os valores do conjunto ela pode ser distorcida por conta TODOS os valores do conjunto, ela pode ser distorcida por
valores discrepantes (outliers) que nele existam. importante
ento interpretar corretamente o valor da mdia.
Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html
MODA MODA
o evento ou categoria de eventos que
ocorre com maior freqncia indicando o ocorre com maior freqncia, indicando o
valor ou categoria mais provvel.
Exemplo:
2 4 7 12 23 8 11 4 12 22 7 12 9 10
6
7
Moda Moda
4
5
1
2
3
0
1
12 13 14 15 16 17 18 Mais 12 13 14 15 16 17 18 Mais
Esses valores no precisam ser exatamente iguais Esses valores no precisam ser exatamente iguais Esses valores no precisam ser exatamente iguais Esses valores no precisam ser exatamente iguais
Classe de Freqncia
freqncia Absoluta
0 - 1 0
1 - 2 1 1 2 1
2 - 3 1
3 - 4 2
4 5 2 4 - 5 2
5 - 6 3
6 - 7 2
LL
ii
= 7 = 7
d
1
=4-2=2
7 - 8 4
8 - 9 3
9 -10 2
d
2
=4-3=1
9 10 2
h
d d
d
L m
2 1
1
i 0
+
+ = 66 , 7 1
1 2
2
7 m
0
=
+
+ =
MEDIANA MEDIANA
o valor da varivel a partir do qual metade dos o valor da varivel a partir do qual metade dos
casos se encontra acima dele e metade se encontra
abaixo.
Se o n de observaes for impar, a mediana ser o
valor central da distribuio; se o n for par, a
mediana ser a mdia dos dois valores centrais.
Pouco afetada por eventuais valores discrepantes
existentes no conjunto (que costumam distorcer
substancialmente o valor da mdia).
E l Exemplo
Mantendo o mesmo exemplo anterior,
mas com as notas ordenadas:
1,0 2,0 3,0 3,0 4,0 4,0 5,0 5,0
5 0 5 0 6 0 6 5 7 0 7 0 7 0 7 5 5,0 5,0 6,0 6,5 7,0 7,0 7,0 7,5
8,0 8,0 9,5 9,5
O dcimo valor da varivel : 5,0
O d i i i l 6 0 O dcimo primeiro valor : 6,0
A mediana um valor situado entre 5,0 e 6,0 A mediana um valor situado entre 5,0 e 6,0
Clculo da Mediana em valores Clculo da Mediana em valores
agrupados em classes g p
F
n
md
d
a
i d
h
f
F
2
L m

+ =
md
f
ONDE:
m
d
= mediana
d
L
i
= limite inferior da classe da mediana ( a classe cuja freq.
acumulada supera pela 1a. vez n/2)
F
a
= freqncia acumulada das classes anteriores da mediana
f
md
= freqncia absoluta simples da mediana
h
md
= amplitude da classe da mediana
Exemplo
Classe de Freqncia Freqncia
f i Ab l t A l d
Exemplo
freqncia Absoluta Acumulada
0 - 1 0 0
1 - 2 1 1
2 - 3 1 2
3 - 4 2 4
4 - 5 2 6
f
F
a
4 5 2 6
5 - 6 3 9
6 - 7 2 11
7 8 4 15
f
md
Classe da
mediana
7 - 8 4 15
8 - 9 3 18
9 -10 2 20
md
a
i d
h
f
F
2
n
L m

+ =
L
i
= 6
n
md
md
i d
f
5 6 1
9
2
20
6

h
md
= 7-6 = 1
5 , 6 1
2
2
6 m
d
= + =
h
md
7 6 1
Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html
MEDIDAS DE DISPERSO MEDIDAS DE DISPERSO
So medidas da disperso de um conjunto de
dados em torno da mdia, ou seja, da maior ou
i bilid d d lt d btid menor variabilidade dos resultados obtidos.
Elas permitem identificar at que ponto os
resultados se concentram ou no ao redor da resultados se concentram ou no ao redor da
tendncia central de um conjunto de
observaes observaes.
Existem vrias medidas para avaliar a p
disperso de um conjunto de dados.
As principais so:
1. Amplitude ou Intervalo
2. Varincia
3. Desvio Padro
4 C fi i t d V i 4. Coeficiente de Variao
Amplitude Amplitude
a diferena entre o maior e o menor valor
que foi observado para a varivel, servindo q p ,
para caracterizar a abrangncia do estudo.
Varincia
a soma dos quadrados dos desvios
de cada ponto em torno da mdia
aritmtica. Caracteriza a disperso dos
pontos de uma amostra potencializando
as diferenas.
n
n
x x
n
i
m i

=
=1
2 2
) (
) (
1
2 2

=
=
x x s
n
i
m i
N
1 n
Varincia Populacional ou Varincia Amostral
Exemplo:
Calcular a varincia amostral do conjunto
1, 2, 3, 4, 5
n = 5 x
m
= 3
s
2
= (3-1)
2
+ (3-2)
2
+ (3-3)
2
+ (3-4)
2
+ (3-5)
2
+ (3-1)
2
5 - 1
s
2
= 4 + 1 + 0 + 1 + 4 = 2,5
4
OBS: a unidade da varincia igual a unidade de medida g
das observaes elevada ao quadrado.
Desvio Padro Desvio Padro
O desvio padro a raiz quadrada da
varincia.
Desvio padro
) (
2

Xm Xi
Desvio-padro =
1 n
No exemplo anterior equivale a s = 1,58
A unidade do desvio padro igual a unidade de medida
das observaes.
Coeficiente de Variao
uma medida de disperso relativa que indica a
variabilidade da amostra em relao mdia.
Resultado do desvio padro dividido pela mdia,
transformado em percentual.
s
100 .
m x
s
CV =
m x
No exemplo anterior equivale a CV = 52,6%
Permite comparar a disperso de diferentes distribuies
(com diferentes mdias e desvios padres). ( p )
QUAL DAS DISTRIBUIES TEM MAIOR
DISPERSO DOS DADOS
(HETEROGENEIDADE DA POPULAO)?
SALINIDADE: 32,0 6,4
pH: 8 2 1 64 pH: 8,2 1,64
QUAL DAS DISTRIBUIES TEM MAIOR DISPERSO QUAL DAS DISTRIBUIES TEM MAIOR DISPERSO
DOS DADOS (HETEROGENEIDADE DA POPULAO)?
SALINIDADE: 32 0 6 4 SALINIDADE: 32,0 6,4
CV = 20%
pH: 8 2 1 64 pH: 8,2 1,64
CV = 20%
Re: so iguais
DISTRIBUIO NORMAL
EXPERIMENTAL
PROPRIEDADES DA CURVA
SIMTRICA SIMTRICA
0.4
0.2
0.3
y
0.1
p
-5 -3 -1 1 3 5
0
ASSIMTRICA POSITIVA
ASSIMTRICA A DIREITA
Xm > Md
Quando a diferena entre a mdia e a mediana Quando a diferena entre a mdia e a mediana
positiva (mediana < mdia)
ASSIMTRICA NEGATIVA
ASSIMTRICA A ESQUERDA
Xm < Md
Quando a diferena entre a mdia e a mediana Quando a diferena entre a mdia e a mediana
negativa (mediana > mdia)
MESOCURTICA
LEPTOCURTICA
PLATICURTICA PLATICURTICA
VALORES DE MEDIDAS DE TENDNCIA CENTRAL IDNTICOS
Trs curvas normal com a mesma MDIA Trs curvas normal com a mesma MDIA
5
Trs curvas normal com a mesma MDIA Trs curvas normal com a mesma MDIA
mas com diferentes DESVIOS PADRO mas com diferentes DESVIOS PADRO
10 =
16 =
5 =
16
= 50
Trs curvas normal com o mesmo DESVIO PADRO Trs curvas normal com o mesmo DESVIO PADRO
mas com diferentes MDIAS mas com diferentes MDIAS
5 = 5 =
5 =
20 30 40 = 20 = 30 = 40
Fonte: Alex Pires Nunes em pagina da disciplina AQI3149 Estatstica (CCA)
FUNO DENSIDADE DE PROBABILIDADE FUNO DENSIDADE DE PROBABILIDADE
( )
2
2
2
1

i
X
Y
2
2
2


=
i
e Y
N Di t ib i N l t t l t Na Distribuio Normal a rea total entre a
curva e o eixo das abscissas igual a 1,
iti d id tifi b bilid d d permitindo identificar probabilidades de
eventos
Valores Padronizados e Valores Padronizados e
Distribuio Normal Padro
Para facilitar a obteno de determinadas reas sob Para facilitar a obteno de determinadas reas sob
uma curva normal, pode-se fazer uma transformao
na varivel em estudo, levando-a para uma
distribuio normal com mdia igual a 0 (zero) e
desvio padro igual a 1. Utilizando-se em seguida a
T b l d Di t ib i N l P d Tabela da Distribuio Normal Padro.


=
x
z
z = valor padronizado
x = valor de origem
u = mdia da populao

p p
r = desvio padro da populao
Exemplo p
Suponha que um pesquisador investigando o tempo Suponha que um pesquisador investigando o tempo
que os estudantes levam para resolver um exerccio
por um mtodo de aprendizagem individual tenha por um mtodo de aprendizagem individual tenha
determinado que a mdia da turma de 75
segundos e o desvio padro de 6 s. Qual
percentagem de estudantes levaram menos que 65
segundos para concluir o exerccio?
75 65 x
6
75 65
= z


=
x
z
67 , 1 = z
Usando a Tabela de Distribuio Normal Padro
temos que z = 1,67 equivale uma rea de 0,4525 a
partir da mdia.
P t t t l d l t Portanto, o percentual de alunos com tempo menor
que 65 s igual a:
0,5 - 0,4525 = 0, 0475 ou 4,75%
TESTES DE HIPOTESES TESTES DE HIPOTESES
No tratamento estatstico de um conjunto
de dados deve-se distinguir diferenas g
amostrais decorrentes do acaso
(variabilidade natural) daquelas diferenas (variabilidade natural) daquelas diferenas
induzidas por fatores externos.
TESTES DE HIPOTESES TESTES DE HIPOTESES
HIPTESE DE NULIDADE, denominada H
o
e pressa o conceito de no diferena (ig aldade) expressa o conceito de no diferena (igualdade).
Essa a hiptese que efetivamente testada
Se chega se a concluso de que H deve ser Se chega-se a concluso de que H
o
deve ser
rejeitada, devemos aceitar ento a
HIPTESE ALTERNATIVA ( H ) HIPTESE ALTERNATIVA ( H
1
)
Tipos de Erros
Tipo I = a Ho rejeitada quando ela
deveria ser aceita deveria ser aceita
Tipo II = a Ho aceita quando ela Tipo II = a Ho aceita quando ela
deveria ser rejeitada
Tipos de Erros Tipos de Erros
Fonte: http://www.lncc.br/~biologia/english/downloads/InferenciaEstatistica.pdf
Nvel de Significncia (alpha) Nvel de Significncia (alpha)
Corresponde ao valor de risco aceito para a probabilidade Corresponde ao valor de risco aceito para a probabilidade
de ocorrer um erro tipo I (concluir que as amostras so
diferentes quando na verdade elas so iguais). q g )
Em pesquisa cientfica, normalmente adota-se um nvel de
significncia alpha = 0,05 ou 5%.
I t di t ti ti t i t 5 Isto quer dizer que estatisticamente existe apenas 5
chances em 100 de se rejeitar erroneamente a Ho.
ATENO: Alfa o nvel de significncia utilizado para
calcular o nvel de confiana. Ou seja, um alfa de 0,05 j
indica um nvel de confiana de 95%.)
Intervalo de Confiana para a Intervalo de Confiana para a
proporo da populao p p p p
Intervalo de Confiana Intervalo de Confiana
O intervalo de confiana para um parmetro ou proporo O intervalo de confiana para um parmetro ou proporo
pode ser representado pela seguinte expresso:
S P
P
zS P
P P ) 1 (
Onde:
P = proporo do atributo
z = valor encontrado na tabela de distribuio normal
n
P P
S
P
) 1 .(
=
P proporo do atributo
n = numero de casos
z = valor encontrado na tabela de distribuio normal
padro referente ao nvel de confiana desejado
Para um nvel de confiana de 95% (ou = 0,05) : z = 1,96 ( )
P (1,96)S
P
P + (1,96)S
P
P
P
S P ) 96 , 1 (
Exemplo
Em 400 amostras de sedimentos
estuarinos136 estavam contaminadas por
hidrocarbonetos. Construa um intervalo de
95% de confiana para a verdadeira
proporo de amostras contaminadas. proporo de amostras contaminadas.
Exemplo Exemplo
A proporo de amostras contaminadas p p
P 136/400 0 34 P = 136/400 = 0,34
O erro padro :
n
P P
S
P
) 1 .(
=
0237 , 0
400
) 34 , 0 1 .( 34 , 0
=

=
p
S
Exemplo Exemplo
O Intervalo de Confiana para alpha = 0,05
0464 , 0 0237 , 0 . 96 , 1 = =
p

046 , 0 34 , 0
) 386 , 0 294 , 0 ( < < p P
Uma das formas de se testar a hiptese de uma
pesquisa aplicando-se um teste de
significncia ao conjunto de dados disponveis.
Estes testes auxiliam na verificao da existncia
de evidncias estatisticamente significativas para
se aceitar ou rejeitar as hipteses previamente
b l id (H0 H1) estabelecidas (H0 e H1)
TESTES BICAUDAIS TESTES BICAUDAIS
Utilizam as duas caudas da distribuio Utilizam as duas caudas da distribuio
A rea A rea
sombreada sombreada
/2 /2
A rea A rea
sombreada sombreada
/2 /2 /2 /2 /2 /2
Regio de Regio de
Rejeio Rejeio
Regio de Regio de
Rejeio Rejeio
Regio de Regio de
No Rejeio No Rejeio
= 3.16 = 3.16
X
Esses dois valores so Esses dois valores so
CC
11
CC
22
Esses dois valores so Esses dois valores so
chamados Valores chamados Valores
Crticos Crticos
TESTES UNICAUDAIS TESTES UNICAUDAIS
Utilizam apenas uma das caudas da Utilizam apenas uma das caudas da
distribuio distribuio
A rea A rea
X
= 12 = 12
A rea A rea
sombreada sombreada

A rea A rea
sombreada sombreada

Regio de Regio de
No Rejeio No Rejeio
Regio de Regio de
Rejeio Rejeio
CC
12 12
= 12 = 12
Regio de Regio de
No Rejeio No Rejeio
Regio de Regio de
Rejeio Rejeio
X
CC
Valor Crtico Valor Crtico
Valor Crtico Valor Crtico
CC

Você também pode gostar