Você está na página 1de 72

Notas de Aula

Estatística Elementar
10ª Edição

by Mario F. Triola

Tradução: Denis Santos

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 1
Capítulo 3
Estatísticas para Descrição,
Exploração e Comparação de
Dados
3-1 Visão Geral
3-2 Medidas de Centro
3-3 Medidas de Dispersão
3-4 Medidas de Forma da Distribuição
3-5 Análise Exploratória de Dados (EDA)

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 2
Seção 3-1
Visão Geral

Created by Tom Wegleitner, Centreville, Virginia

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 3
Visão Geral
 Estatísticas Descritivas
resume ou descreve as características
importantes de um conjunto de dados
conhecido

 Estatística Inferencial
usa dados amostrais para fazer
inferências (ou generalizações) sobre
uma população
Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.
Slide 4
Seção 3-2
Medidas de Tendência
Central

Created by Tom Wegleitner, Centreville, Virginia

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 5
Ponto Chave

Quando descrevemos, exploramos e


comparamos conjuntos de dados, estas
características são geralmente extremamente
importante: centro, variação, distribuição,
outliers e mudanças ao longo do tempo

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 6
Definição

 Medida de Tendência Central


o valor localizado no centro (meio)
de um conjunto de dados

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 7
Definição

Média Aritmética
(média)

a medida central obtida somando-se todos


os valores e dividindo o total pela
quantidade de valores

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 8
Notação

Σ denota a soma de um conjunto de valores.

x é a variável geralmente usada para representar


os valores individuais dos dados.

n representa a quantidade de valores em uma


amostra.

N representa a quantidade de valores em uma


população.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 9
Notação
x Pronuncia-se ‘x-barra’ e denota a média de um
conjunto de valores amostrais
Σx
x =
n
µ pronuncia-se ‘mi’ e a média de todos os valores em uma
população

Σx
µ =
N
Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.
Slide 10
Definições
 Mediana
é o valor central quando os valores
originais são organizados em ordem
ascendente ou descendente de
magnitude
 ~
geralmente denotada por x (pronuncia-
se ‘x-til’)

Não é afetado por valores extremos


Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.
Slide 11
Encontrando a Mediana

 Se a quantidade de valores é ímpar, a


mediana é o número localizado
exatamente no centro da lista de valores
ordenados.
 Se a quantidade de valores é par, a
mediana é a média dos dois valores
centrais.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 12
5.40 1.10 0.42 0.73 0.48 1.10
0.42 0.48 0.73 1.10 1.10 5.40

(valores ordenados – número par de valores – sem valor


central exato, média de dois números)

0.73 + 1.10
2
MEDIANA=0.915

5.40 1.10 0.42 0.73 0.48 1.10 0.66


0.42 0.48 0.66 0.73 1.10 1.10 5.40
(valores ordenados – número ímpar de valores )

exact middle MEDIANA=0.73


Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.
Slide 13
Definições
 Moda
é o valor que aparece com mais freqüência.
Nem sempre é única.
 Um conjunto de dados pode ser:
Bimodal
Multimodal
Sem Moda

A moda é a única medida de tendência central


que pode ser usada com dados nominais.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 14
Moda - Exemplos

a. 5.40 1.10 0.42 0.73 0.48 1.10 Moda=1.10


b. 27 27 27 55 55 55 88 88 99 Bimodal - 27 e 55

c. 1 2 3 6 7 8 9 10 Sem moda

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 15
Definição

 Ponto Médio

é o valor no meio dos valores máximo e


mínimo dos dados originais.

Valor máximo + valor mínimo


Ponto Médio =
2

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 16
Regra de Arredondamento para
Medidas de Tendência Central

Arredonde os valores com uma casa


decimal a mais que os dados
originais.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 17
Média de uma Distribuição de
Freqüência

Assume que em cada classe, todos


os valores amostrais são iguais ao
ponto médio.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 18
Média de uma Distribuição de
Freqüência

use o ponto médio de cada classe para a


variável x

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 19
Média Ponderada

Em alguns casos, os valores têm grau de


importância diferenciados, sendo então
ponderados de acordo com esta importância.

Σ (w • x)
x =
Σw

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 20
Melhor Medida de Tendência
Central

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 21
Definições

 Simetria
a distribuição de dados é dita simétrica
se a metade esquerda de seu histograma
é aproximadamente uma imagem
especular de seu lado direito.
Caso a distribuição se estende mais
para um lado do que para o outro, ela é
dita assimétrica.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 22
Assimetria

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 23
Recapitulando
Nesta seção nós estudamos:

 Tipos de Medidas de Centro


Média
Mediana
Moda

 Média de uma distribuição de freqüência

 Médias ponderadas

 Melhor Medida de Centro

 Assimetria

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 24
Seção 3-3
Medidas de Dispersão

Created by Tom Wegleitner, Centreville, Virginia

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 25
Ponto Chave

Devido a esta seção introduzir o conceito de


variação, que é crucial em estatística, esta
pode ser considerada uma das seções mais
importante deste livro.

Priorize como interpretar valores de desvio


padrão

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 26
Definição

A amplitude de um conjunto de
dados é a diferença entre os valores
máximo e mínimo.
Amplitude = (valor máximo) – (valor mínimo)

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 27
Definição

O desvio padrão de uma amostra é


uma medida de dispersão dos
valores em relação à média.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 28
Fórmula do Desvio Padrão
Amostral

Σ (x - x) 2

s=
n-1

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 29
Desvio Padrão Amostral
(Fórmula Reduzida)

Σ(x ) - (Σ
nΣ Σx) 2 2

s=
n (n - 1)

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 30
Desvio Padrão -
Propriedades Importantes
 O desvio padrão é uma medida de dispersão
de todos os valores a partir da média.
 O valor do desvio padrão s é usualmente
positivo.
 O valor do desvio padrão s pode aumentar
drasticamente com a inclusão de um ou mais
outliers.

 A unidade do desvio padrão s é a mesma dos


dados originais.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 31
Desvio Padrão Populacional

Σ (x - µ) 2

σ = N
Esta fórmula é semelhante à anterior, porém utiliza
a média e tamanho populacionais no lugar dos
seus valores amostrais.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 32
Definição

 A variância de um conjunto de dados é uma


medida de dispersão igual ao quadrado do desvio
padrão.

 Variância amostral: Quadrado do desvio padrão


amostral s

 Variância populacional: Quadrado do desvio


padrão populacional σ

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 33
Variância - Notação

Desvio padrão ao quadrado

Notação
} s 2
Variância Amostral

σ 2
Variância Populacional

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 34
Regra de Arredondamento para
Medidas de Dispersão

Arredonde os valores com uma


casa decimal a mais que os dados
originais.

Arredonde apenas a resposta final, e não os


valores cálculo intermediário.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 35
Estimação do Desvio Padrão
Regra Empírica da Amplitude
Para estimar o desvio padrão s,
use amplitude
s≈
4

onde amplitude = (valor máximo) – (valor mínimo)

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 36
Estimação do Desvio padrão
Regra Empírica da Amplitude

Para interpretar um valor conhecido do desvio padrão s,


encontre uma estimativa robusta dos valores máximo e
mínimo amostrais “usuais” usando:

Valor Mínimo “usual” = (média) – 2 X (Desvio padrão)

Valor Máximo “usual” = (média) + 2 X (Desvio padrão)

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 37
Definição

Regra Empírica (68-95-99.7)


Para conjuntos de dados com distribuição
aproximadamente normal, a seguinte propriedade é
válida:
 Aproximadamente 68% de todos os valores estão a
1 desvio padrão da média.
 Aproximadamente 95% de todos os valores estão a
2 desvios padrões da média.
 Aproximadamente 99.7% de todos os valores estão
a 3 desvios padrões da média.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 38
Regra Empírica

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 39
Regra Empírica

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 40
Regra Empírica

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 41
Definição

Teorema de Chebyshev
A proporção (ou fração) de qualquer conjunto de
dados que se situa a K desvios padrões da média é
sempre no mínimo 1-1/K2, onde K é qualquer número
inteiro positivo maior que 1.

 Para K = 2, no mínimo 3/4 (ou 75%) de todos os


valores se localizam a 2 desvios padrões da média.
 Para K = 3, no mínimo 8/9 (ou 89%) de todos os
valores se localizam a 3 desvios padrões da média.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 42
Razão para usar n-1 versus
n

No final da Seção 3-3 temos uma


explicação detalhada de por que usa-
se n – 1 ao invés de n.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 43
Definição
O coeficiente de variação (ou CV) de um conjunto
de dados amostrais ou populacionais, expressado
em percentual, descreve o desvio padrão em
relação a média.

amostr população
a
σ
s • 100% CV = • 100%
CV =
x µ

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 44
Recapitulando

Nesta seção nós estudamos:

 Amplitude
 Desvio padrão de uma amostra ou população
 Variância de uma amostra ou população
 Regra empírica da amplitude
 Distribuição empírica
 Teorema de Chebyshev
 Coeficiente de variação (CV)

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 45
Seção 3-4
Medidas de Forma da
Distribuição

Created by Tom Wegleitner, Centreville, Virginia

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 46
Ponto Chave

Esta seção introduz algumas medidas que


podem ser usadas para comparar valores de
diferentes conjuntos de dados, ou compará-
los dentro do mesmo conjunto de dados. A
mais importante destas medidas é o conceito
de escore z.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 47
Definição

 Escore z (ou valor padronizado)


é o número de desvios padrões um
dado valor x está acima ou abaixo da
média

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 48
Medida de Posição Relativa
Escore z

amostra população

x - x z= x - µ
z= s σ
Arredonde z com 2 casas decimais

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 49
Interpretando Escore Z

Sempre que um valor é menor que a média, seu z


escore correspondente é negativo.
Valores usuais : escore z entre –2 e 2
Valores não-usuais: escore z< -2 ou escore z > 2

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 50
Definição

 Q1 (Primeiro Quartil) separa os 25%


inferiores dos valores ordenados dos 75%
superiores.
 Q2 (Segundo Quartil) mesmo que a
mediana; separa os 50% inferiores dos
valores ordenados dos 50% superiores.

 Q1 (Terceiro Quartil) separa os 75%


inferiores dos valores ordenados dos 25%
superiores.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 51
Quartis

Q1, Q2, Q3
Divide os valores ordenados em quatro
partes iguais
25% 25% 25% 25%

(mínimo)
Q1 Q2 Q3 (máximo)

(mediana)

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 52
Percentis

Assim como há três quartis separando


os dados em quatro partes, há também
99 percentis denominados P1, P2, . . .
P99, os quais dividem os dados em 100
grupos.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 53
Como Encontrar o Percentil de
um Dado Valor

Número de valores menores que x


Percentil do valor x = • 100
Número total de valores

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 54
Convertendo o k-ésimo Percentil em
seu Valor Correspondente

Notação

n número total de valores no conjunto de


dados
k
L= •n k percentil usado
100
L localizador que indica a posição de um
valor
Pk k-ésimo percentil

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 55
Convertendo o k-ésimo
Percentil em seu Valor
Correspondente

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 56
Algumas Outras Estatísticas

 Intervalo Interquartílico (ou IIQ):Q3 - Q1


Q3 - Q1
 Intervalo Semi-interquartil :
2
 Midquartile: Q3 + Q1
2
 10 - 90 Percentile amplitude: P90 - P10

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 57
Recapitulando

Nesta seção nós estudamos:

 Escore z
 Escore z e valores não-usuais
 Quartis
 Percentis
 Convertendo um percentil no seu valor
correspondente
 Outras estatísticas

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 58
Seção 3-5
Análise Exploratória de
Dados (AED)

Created by Tom Wegleitner, Centreville, Virginia

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 59
Ponto Chave

Esta seção discute outliers, então


introduz um novo gráfico estatístico
chamado boxplot, o qual é útil para
visualização da distribuição dos dados.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 60
Definição

 Análise Exploratória de Dados (AED)


é o processo de utilizar ferramentas
estatísticas (tais como gráficos,
medidas de centro e medidas de
dispersão) para investigação de
conjuntos de dados com o objetivo de
se compreenderem suas importantes
características

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 61
Definição

 Um outlier é um valor que está


localizado muito afastado de quase todos
os demais valores.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 62
Princípios Importantes

 Um outlier pode ter um efeito dramático


sobre a média.
 Um outlier pode ter um efeito dramático
sobre o desvio padrão.
 Um outlier pode ter um efeito dramático
sobre a escala de um histograma, de modo que
a real natureza de sua distribuição ser
totalmente obscurecida.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 63
Definições

 Para um conjunto de dados, o resumo dos 5


números consiste no valor mínimo; no primeiro
quartil Q1; na mediana (ou segundo quartil Q2); no
terceiro quartil, Q3; e no valor máximo.

 Um boxplot ( ou diagrama de caixa) é um gráfico


de um conjunto de dados que consiste em uma
linha que se estende do valor mínimo ao valor
máximo, e uma caixa com linhas traçadas no
primeiro quartil, Q1, na mediana, e no terceiro
quartil, Q3.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 64
Boxplots

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 65
Boxplots - cont

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 66
Boxplots - cont

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 67
Boxplots - cont

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 68
Boxplots Modificados

Alguns pacotes estatísticos fornecem boxplots


modificados os quais representam outliers com
pontos especiais.

Um valor é um outlier se ele está…


acima de Q3 por uma quantidade maior que 1.5 X IIQ
ou
abaixo de Q1 por uma quantidade menor que 1.5 X IIQ

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 69
Construção de um Boxplot
Modificado

Um boxplot modificado é construído com


estas especificações:
Um símbolo especial (tal como um
asterisco) é usado para identificar os
outliers.
A linha horizontal sólida se estende
apenas até onde o valor mínimo que não é
outlier e até o valor máximo que também
não é outlier.

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 70
Boxplots Modificado - Exemplo

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 71
Recapitulando

Nesta seção nós estudamos:

 Análise Exploratória de Dados

 Efeitos dos outliers

 resumo dos cinco números

 Boxplots e boxplots modificados

Copyright © 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.


Slide 72

Você também pode gostar