Você está na página 1de 57

ESTATSTICA DESCRITIVA

o conjunto de mtodos para organizao, apresentao e descrio de dados representativos do comportamento de uma varivel, onde se utilizam tabelas, tabelas grficos e medidas que resumem a distribuio desta varivel. varivel

VARIVEL
As variveis so caractersticas que podem ser observadas ou medidas em cada elemento pesquisado (seja por censo ou amostragem levantamento ou experimento). amostragem, experimento) Para cada varivel e para cada elemento pesquisado em um dado momento pesquisado, momento, h um e apenas um resultado possvel.

CLASSIFICAO DAS VARIVEIS

CLASSIFICAO DAS VARIVEIS

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.htm

POPULAO
A coleo l d de todas t d as medidas did oriundas i d d de uma varivel chamada de POPULAO. As medidas utilizadas p para descrever ou caracterizar estatisticamente uma populao p p so chamadas de PARMETROS, representados por letras gregas g g ( , )

AMOSTRA
Como em geral as populaes so muito grandes, se faz necessrio o uso de amostras para represent-las. Estas so formadas por uma frao da populao em estudo. As estimativas dos parmetros calculados a partir das amostras so chamadas genericamente de ESTATSTICAS e so representadas por letras latinas (x, s ...)

O conjunto de dados que descreve o comportamento de uma varivel pode ser estudado e representado na forma f de distribuio de freqncias
DADOS BRUTOS 17,9 17,9 20,0 18,0 17,9 18 9 18,9 17,6 18,5 18,8 17,7 23,0 19,4 23,4 22,6 20,2 22 1 22,1 25,0 22,0 24,0 20,2 16,1 16,2 16,8 16,7 16,2 17 2 17,2 15,7 15,7 24,7 28,0 18,1 19,8 26,3 18,4 21,0 20 1 20,1 18,2 17,5 18,6 17,1 18,0 20,5 18,5 19,2 18,5 20 9 20,9 23,5 19,2 25,0 21,1
Intervalo Freqncia

15 17 19 21 23 25 27

17 19 21 23 25 27 29

7 19 11 5 6 1 1

DISTRIBUIO NORMAL
CURVA DE GAUSS OU DE LAPLACE a distribuio terica de probabilidade de variveis contnuas mais utilizada

IMPORTNCIA
1. 2. Inmeros fenmenos naturais podem ser representados atravs dela Vrios mtodos estatsticos se ajustam j melhor a esta distribuio que as demais. Pode-se utiliz-la, por exemplo, para calcular a probabilidade de ocorrncia de uma srie de eventos naturais Ela a base para a inferncia estatstica clssica

3.

DISTRIBUIO NORMAL TERICA

PROPRIEDADES

Valores de medidas de tendncia central idnticos

MDIA MODA MEDIANA

MEDIDAS DE TENDNCIA CENTRAL


As medidas da tendncia central so parmetros que permitem que se tenha uma primeira idia, um resumo, de como se distribuem os dados de um experimento experimento.

Existem trs medidas principais que refletem a tendncia central de uma distribuio de freqncias: Mdia Moda Mediana

MDIA
a soma de todos os resultados dividida pelo nmero total de casos.

x=

xi
i =1

Clculo da Mdia em valores agrupados g p em classes

x ifi x= i =1 N ou x = x i pi
i =1 N

Um dos problemas da utilizao da mdia que, por levar em conta TODOS os valores do conjunto conjunto, ela pode ser distorcida por valores discrepantes (outliers) que nele existam. importante ento interpretar corretamente o valor da mdia.

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html

MODA
o evento ou categoria de eventos que ocorre com maior freqncia freqncia, indicando o valor ou categoria mais provvel.

Exemplo: 2 4 7 12 23 8 11 4 12 22 7 12 9 10

7 6 5 4 3 2 1 0 12 13 14

Moda

15

16

17

18

Mais

Esses valores no precisam ser exatamente iguais

Li= 7

Classe de freqncia 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9 -10 10

Freqncia Absoluta 0 1 1 2 2 3 d1 =4-2=2 2 4 3 d2=4-3=1 2

m0

d1 = Li + h d1 + d 2

m0

2 = 7+ 1 = 7 , 66 2 +1

MEDIANA
o valor da varivel a partir do qual metade dos casos se encontra acima dele e metade se encontra abaixo. Se o n de observaes for impar, a mediana ser o valor central da distribuio; se o n for par, a mediana ser a mdia dos dois valores centrais. Pouco afetada por eventuais valores discrepantes existentes no conjunto (que costumam distorcer substancialmente o valor da mdia).

E Exemplo l
Mantendo o mesmo exemplo anterior, mas com as notas ordenadas: 1,0 2,0 3,0 3,0 4,0 4,0 5,0 5,0 5 0 5,0 5,0 5 0 6,0 6 0 6,5 6 5 7,0 7 0 7,0 7 0 7,0 7 0 7,5 75 8,0 8,0 9,5 9,5 O dcimo valor da varivel : 5,0 O dcimo d i primeiro i i valor l : 6,0 60 A mediana um valor situado entre 5,0 e 6,0

Clculo da Mediana em valores agrupados g p em classes


md
ONDE: md= mediana Li= limite inferior da classe da mediana ( a classe cuja freq. acumulada supera pela 1a. vez n/2) Fa= freqncia acumulada das classes anteriores da mediana fmd= freqncia absoluta simples da mediana hmd= amplitude da classe da mediana

n Fa = Li + 2 h md f md d

Exemplo
Classe de f i freqncia 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9 -10 Freqncia Ab l t Absoluta 0 1 1 2 2 fmd 3 2 4 3 2 Freqncia A Acumulada l d 0 1 2 Fa 4 6 9 11 15 18 20

Classe da mediana
n Fa 2 = Li + h md f md

md

Li= 6

hmd= 7 7-6 6=1

md

20 9 2 =6+ 1 = 6 ,5 2

Fonte: Marcelo Menezes Reis em http://www.inf.ufsc.br/~marcelo/INE5121.html

MEDIDAS DE DISPERSO
So medidas da disperso de um conjunto de dados em torno da mdia, ou seja, da maior ou menor variabilidade i bilid d d dos resultados lt d obtidos. btid Elas permitem identificar at que ponto os resultados se concentram ou no ao redor da tendncia central de um conjunto de observaes. observaes

Existem vrias medidas p para avaliar a disperso de um conjunto de dados. As principais so: 1. 2. 3. 4 4. Amplitude ou Intervalo Varincia Desvio Padro C fi i t d Coeficiente de V Variao i

Amplitude
a diferena entre o maior e o menor valor que foi observado p q para a varivel, , servindo para caracterizar a abrangncia do estudo.

Varincia
a soma dos quadrados dos desvios de cada ponto em torno da mdia aritmtica. Caracteriza a disperso dos pontos de uma amostra potencializando as diferenas.

= ( xi xm ) i =1
2

s = ( xi xm )
2 i =1

N
Varincia Populacional ou

n 1
Varincia Amostral

Exemplo:
Calcular a varincia amostral do conjunto 1, 2, 3, 4, 5 n=5 xm = 3

s2 = (3-1)2 + (3-2)2 + (3-3)2 + (3-4)2 + (3-5)2 + (3-1)2 5-1 s2 = 4 + 1 + 0 + 1 + 4 = 2,5 4

OBS: a unidade da varincia igual g a unidade de medida das observaes elevada ao quadrado.

Desvio Padro
O desvio padro a raiz quadrada da varincia.
Desvio padro = Desvio-padro
2 ( Xi Xm ) n 1

No exemplo anterior equivale a s = 1,58

A unidade do desvio padro igual a unidade de medida das observaes.

Coeficiente de Variao
uma medida de disperso relativa que indica a variabilidade da amostra em relao mdia. Resultado do desvio padro dividido pela mdia, transformado em percentual.

s CV = .100 xm
No exemplo anterior equivale a CV = 52,6%

Permite comparar a disperso de diferentes distribuies (com diferentes mdias e desvios p ( padres). )

QUAL DAS DISTRIBUIES TEM MAIOR DISPERSO DOS DADOS (HETEROGENEIDADE DA POPULAO)?

SALINIDADE: 32,0 6,4 pH: 8 8,2 2 1,64 1 64

QUAL DAS DISTRIBUIES TEM MAIOR DISPERSO DOS DADOS (HETEROGENEIDADE DA POPULAO)?

SALINIDADE: 32 32,0 0 6,4 64 CV = 20% pH: 8 8,2 2 1,64 1 64 CV = 20%


Re: so iguais

DISTRIBUIO NORMAL EXPERIMENTAL

PROPRIEDADES DA CURVA

SIMTRICA
0.4 0.3 0.2 p 0.1 0 -5 -3 -1 1 3 5 y

ASSIMTRICA POSITIVA

Xm > Md

ASSIMTRICA A DIREITA

Quando a diferena entre a mdia e a mediana positiva (mediana < mdia)

ASSIMTRICA NEGATIVA

ASSIMTRICA A ESQUERDA

Xm < Md

Quando a diferena entre a mdia e a mediana negativa (mediana > mdia)

MESOCURTICA LEPTOCURTICA

PLATICURTICA

VALORES DE MEDIDAS DE TENDNCIA CENTRAL IDNTICOS

Trs curvas normal com a mesma MDIA mas com diferentes DESVIOS PADRO
=5

= 10 = 16
= 50

Trs curvas normal com o mesmo DESVIO PADRO mas com diferentes MDIAS
=5 =5 =5

= 20

= 30

= 40

Fonte: Alex Pires Nunes em pagina da disciplina AQI3149 Estatstica (CCA)

FUNO DENSIDADE DE PROBABILIDADE

1 Yi = e 2

( X i )2

2 2

Na Di N Distribuio t ib i N Normal l a rea t total t l entre t a curva e o eixo das abscissas igual a 1, permitindo iti d id identificar tifi probabilidades b bilid d d de eventos

Valores Padronizados e Distribuio Normal Padro


Para facilitar a obteno de determinadas reas sob uma curva normal, pode-se fazer uma transformao na varivel em estudo, levando-a para uma distribuio normal com mdia igual a 0 (zero) e desvio padro igual a 1. Utilizando-se em seguida a T b l d Tabela da Di Distribuio t ib i N Normal lP Padro. d

z=

z = valor padronizado x = valor de origem u = mdia da p populao p r = desvio padro da populao

Exemplo p
Suponha que um pesquisador investigando o tempo que os estudantes levam para resolver um exerccio por um mtodo de aprendizagem individual tenha determinado que a mdia da turma de 75 segundos e o desvio padro de 6 s. Qual percentagem de estudantes levaram menos que 65 segundos para concluir o exerccio?

z=

65 75 z= 6

z = 1,67

Usando a Tabela de Distribuio Normal Padro temos que z = 1,67 equivale uma rea de 0,4525 a partir da mdia.

Portanto, P t t o percentual t l de d alunos l com t tempo menor que 65 s igual a: 0,5 - 0,4525 = 0, 0475 ou 4,75%

TESTES DE HIPOTESES
No tratamento estatstico de um conjunto de dados deve-se distinguir g diferenas amostrais decorrentes do acaso (variabilidade natural) daquelas diferenas induzidas por fatores externos.

TESTES DE HIPOTESES
HIPTESE DE NULIDADE, denominada Ho e pressa o conceito de no diferena (ig expressa (igualdade). aldade) Essa a hiptese que efetivamente testada Se chega-se chega se a concluso de que Ho deve ser rejeitada, devemos aceitar ento a HIPTESE ALTERNATIVA ( H1 )

Tipos de Erros
Tipo I = a Ho rejeitada quando ela deveria ser aceita Tipo II = a Ho aceita quando ela deveria ser rejeitada

Tipos de Erros

Fonte: http://www.lncc.br/~biologia/english/downloads/InferenciaEstatistica.pdf

Nvel de Significncia (alpha)


Corresponde ao valor de risco aceito para a probabilidade de ocorrer um erro tipo I (concluir que as amostras so diferentes q quando na verdade elas so iguais). g ) Em pesquisa cientfica, normalmente adota-se um nvel de significncia alpha = 0,05 ou 5%. Isto I t quer dizer di que estatisticamente t ti ti t existe i t apenas 5 chances em 100 de se rejeitar erroneamente a Ho. ATENO: Alfa o nvel de significncia utilizado para j um alfa de 0,05 calcular o nvel de confiana. Ou seja, indica um nvel de confiana de 95%.)

Intervalo de Confiana para a proporo p p da p populao p

Intervalo de Confiana
O intervalo de confiana para um parmetro ou proporo pode ser representado pela seguinte expresso:

P zS SP

Onde:

P.( (1 P) SP = n

P = proporo do atributo n = numero de casos

z = valor encontrado na tabela de distribuio normal padro referente ao nvel de confiana desejado de 95% ( (ou = 0,05) ) : z = 1,96 Para um nvel de confiana

P (1,96)SP

P (1,96) S

P + (1,96)SP

Exemplo
Em 400 amostras de sedimentos estuarinos136 estavam contaminadas por hidrocarbonetos. Construa um intervalo de 95% de confiana para a verdadeira proporo de amostras contaminadas.

Exemplo
Ap proporo p de amostras contaminadas P = 136/400 = 0 0,34 34 O erro padro :
SP = P.(1 P) n
0,34.(1 0,34) Sp = = 0,0237 400

Exemplo
O Intervalo de Confiana para alpha = 0,05

= 1, 96 . 0 , 0237 = 0 , 0464

0,34 0,046

P(0,294 < p < 0,386)

Uma das formas de se testar a hiptese de uma pesquisa aplicando-se um teste de significncia ao conjunto de dados disponveis. Estes testes auxiliam na verificao da existncia de evidncias estatisticamente significativas para se aceitar ou rejeitar as hipteses previamente estabelecidas b l id (H0 e H1)

TESTES BICAUDAIS Utilizam as duas caudas da distribuio


A rea sombreada /2 A rea sombreada /2

= 3.16 Regio de Rejeio Regio de No Rejeio Regio de Rejeio

C1

Esses dois valores so chamados Valores Crticos

C2

TESTES UNICAUDAIS Utilizam apenas uma das caudas da distribuio

A rea ombreada = 12 Regio de Rejeio C Valor Crtico Valor Crtico Regio de No Rejeio
X

A rea sombreada = 12 Regio de No Rejeio C Regio de Rejeio


X

Você também pode gostar