Você está na página 1de 48

www.cliqueapostilas.com.

br

Estatística I
Aula 3

Prof.: Patricia Maria Bortolon, D. Sc.


www.cliqueapostilas.com.br

Estatística: Prof. André Carvalhal

Dados quantitativos: medidas numéricas

Propriedades
Numéricas

Tendência Formato
Central Dispersão

Média Amplitude Assimetria


Mediana Variância
Moda Desvio Padrão

Coeficiente de Variação
Quantis
www.cliqueapostilas.com.br

Estatística: Prof. Luis Araujo

Propriedades Numéricas dos Dados

Tendência Central
(Localização)

Variação
(Dispersão)

Forma
www.cliqueapostilas.com.br

Estatística: Prof. Luis Araujo


Notação

Medida Amostra População


Média µ
x
Desvio Padrão S σ
2 2
Variância S σ
Tamanho n N
www.cliqueapostilas.com.br

Medidas de tendência central

• Média Aritmética

x=
soma dos valores de x
=
∑x
número de observações n

– Propriedades da média:
• Centro de gravidade

• Mais informativa no caso de distribuições aproximadamente


simétricas

• A soma dos desvios em relação a média é igual a zero


∑ (x − x) = 0
i

• É influenciada por valores extremos.


www.cliqueapostilas.com.br

Medidas de tendência central

Média Amostral Média Populacional


n

N
x
i =1 i
x
x= µ= i =1 i

n N

x = estatística µ = parâmetro
www.cliqueapostilas.com.br

Exemplo 1
• Se as lâmpadas de uma amostra duram 967, 949, 952, 940 e 922
horas de uso continuado, o que podemos concluir sobre a
duração média das 40.000 lâmpadas do lote?
• Solução:

967 + 949 + 952 + 940 + 922


x= = 946 horas
5
• Supondo que os dados são de uma amostra que represente a
população de lâmpadas podemos estimar que a duração média
das 40.000 lâmpadas é de µ = 946 horas
• Para dados não-negativos, a média não só descreve o meio do
conjunto de dados, mas impõe uma limitação ao seu tamanho.
Se multiplicarmos por n ambos os lados da equação x = ∑n x ,
veremos que ∑ x = n.x e, portanto, que nenhuma parte, ou
subconjunto dos dados, pode exceder n. x .
www.cliqueapostilas.com.br

Exemplo 2
• Se o salário anual médio pago a três jogadores de
basquete nos EUA na temporada 2001-2002 foi de
3.650.000 dólares, pode
– (a) algum deles ter recebido 6.000.000 dólares?
– (b) dois deles terem recebido, cada um, 6.000.000 dólares?
• Solução:
– Como n * x = 3 * 3.650.000 = 10.950.000
– (a) se um deles recebeu seis milhões, restariam 10.950.000 –
6.000.000 = 4.950.000 para os outros dois, de modo que é
possível.
– (b) se dois deles receberam, cada um, seis milhões, isso
necessitaria de 2(6.000.000)=12.000.000 dólares. Como isso
necessitaria mais do que o total pago aos três jogadores, não
teria sido possível.
www.cliqueapostilas.com.br

Exemplo 3
• A editora de um livro precisa de um número para a
quantidade de calorias de uma fatia de pizza de
calabresa grande. Solicitando a um laboratório que
faça o serviço com um calorímetro, ela recebe os
seguintes números para uma fatia de pizza de seis
fornecedores diferentes: 265, 332, 340, 225, 238 e
346.
– (a) calcule a média, que a editora irá utilizar em seu livro
– (b) suponha que, ao calcular a média, a editora cometa o erro de
digitar 832, em vez de 238, em sua calculadora. Qual será o
tamanho do erro no número que ela utilizará em seu livro?
www.cliqueapostilas.com.br

Exemplo 3
• Solução:
– (a) a média correta é
265 + 332 + 340 + 225 + 238 + 346
x=
6
= 291
– (b) a média errada é
265 + 332 + 340 + 225 + 832 + 346
x=
6
= 390
– E o erro será um desastroso 390 – 291 = 99 calorias
www.cliqueapostilas.com.br

Medidas de Tendência Central

• Média Ponderada
– Útil quando as grandezas em jogo não têm a mesma importância

xw =
w1.x1 + w2 .x2 + ... + wn .xn
=
∑ n
w .x
i =1 i i

w1 + w2 + ... + wn ∑ n
w
i =1 i

– xi são as observações da amostra


– wi são os pesos de cada observação
www.cliqueapostilas.com.br

Exemplo 4
• Numa turma de psicologia, há 14 calouros, 25 alunos
de segundo e 16 alunos de terceiro ano. Dado que
num exame os calouros obtiveram a média 76, os
alunos do segundo ano a média 83 e alunos de
terceiro ano a média 89, qual é a grande média pra
toda a classe?
• Solução:

14 ⋅ 76 + 25 ⋅ 83 + 16 ⋅ 89
x= = 82,96
14 + 25 + 16
www.cliqueapostilas.com.br

Medidas de tendência central


• Mediana (Md)
– Em um conjunto de observações ordenadas de forma crescente é o
elemento que ocupa a posição central.
– É o valor do elemento do meio se n é impar, e a média dos dois valores
do meio se n é par.
– Não é afetado por valores extremos.

Dados de produção:
Mês Produção: Dados ordenados:
Jan 210 180
Fev 180 180
Mar 205 185
Abr 195 190
Mai 205 195
Jun 220 198 <== Mediana =(198 + 200) / 2 = 199
Jul 185 200 <==
Ago 190 205
Set 200 205
Out 180 205
Nov 205 210
Dez 198 220

soma = 2.373
média = 197,75
www.cliqueapostilas.com.br

Medidas de tendência central


• Mediana (Md)
– Variável discreta em tabela de frequências

xi fi Total de elementos = 23

2 1 Então o termo central ocupa a posição


5 4 de no. 12

8 10 Como localizar o 12o. elemento?


10 6 R: construindo a frequência acumulada

12 2
www.cliqueapostilas.com.br

Medidas de tendência central


• Mediana (Md)
– Variável discreta em tabela de frequências

xi fi Fi Total de elementos = 23

2 1 1 Então o termo central ocupa a posição


5 4 5 de no. 12

8 10 15 Como localizar o 12o. elemento?


10 6 21 R: construindo a frequência acumulada

12 2 23

O elemento que ocupa a 12a. posição vale


8, então, podemos afirmar que a mediana
vale 8!!
www.cliqueapostilas.com.br

Medidas de tendência central - posição

• Quartis
– Dividem um conjunto de dados dispostos em ordem crescente
em quatro partes com dimensões iguais.

Mínimo 1o. Q 2o. Quartil 3o. Q Máximo


= Mediana

– 25% dos dados são inferiores ao 1o. Q


– 50% dos dados são inferiores ao 2o. Q ou mediana
– 75% dos dados são inferiores ao 3o. Q
www.cliqueapostilas.com.br

Medidas de tendência central - posição

• Decis
– Dividem um conjunto de dados dispostos em ordem crescente
em dez partes com dimensões iguais.
– 10% dos dados são inferiores ao 1o. Decil

• Percentis
– Dividem um conjunto de dados dispostos em ordem crescente
em cem partes com dimensões iguais.
– 1% dos dados são inferiores ao 1o. Percentil
www.cliqueapostilas.com.br

Medidas de tendência central

• Média – valores agrupados


x=
∑ xF i i

n
Amostra:
18 20 20 21 22 24 25 34 41 51
29 30 30 31 31 32 33 40 50 29
37 37 37 37 38 38 38 49 27 36
44 45 45 45 46 47 48 26 36 44
54 54 56 58 62 65 25 35 43 53

Média = 38,32

14

Intervalos 12
das classes Fi xi xiFi
10
18 - 25 6 21,5 129,0
25 - 32 10 28,8 288,0 8

32 - 39 13 35,5 461,5 6
39 - 46 8 42,5 340,0
4
46 - 53 6 49,5 297,0
53 - 60 5 56,5 282,5 2
60 - 67 2 63,5 127,0
0
Total 50 1925,0 21,5 28,8 35,5 42,5 49,5 56,5 63,5

Média = 38,50
www.cliqueapostilas.com.br

Medidas de tendência central

• Moda (Mo)
– É o valor mais frequente (a maior barra do histograma)

Intervalos
das classes Fi xi xiFi
18 - 25 6 21,5 129,0
25 - 32 10 28,8 288,0
32 - 39 13 35,5 461,5 <== Classe Modal
39 - 46 8 42,5 340,0
46 - 53 6 49,5 297,0
53 - 60 5 56,5 282,5
14
60 - 67 2 63,5 127,0
Total 50 1925,0 12

10
Média = 38,50 8

0
21,5 28,8 35,5 42,5 49,5 56,5 63,5
www.cliqueapostilas.com.br

Medidas de tendência central

14
Moda
12
Mediana (627)
10 Média

2 Std. Dev = 114,73


Mean = 658,6
0 N = 100
500,0 550,0 600,0 650,0 700,0 750,0 800,0 850,0 900,0
525,0 575,0 625,0 675,0 725,0 775,0 825,0 875,0 925,0
www.cliqueapostilas.com.br

Estatística: Prof. André Carvalhal

Dados quantitativos: medidas numéricas

Propriedades
Numéricas

Tendência Formato
Central Dispersão

Média Amplitude Assimetria


Mediana Variância
Moda Desvio Padrão

Coeficiente de Variação
Quantis
www.cliqueapostilas.com.br

Estatística: Prof. André Carvalhal

Dados quantitativos: medidas numéricas

Propriedades
Numéricas

Dispersão

Amplitude
Variância

Desvio Padrão

Coeficiente de Variação
www.cliqueapostilas.com.br

Por que avaliar medidas de dispersão?


• Exemplo: um médico observa a variação nos
batimentos cardíacos por minuto de dois pacientes.
Veja os resultados:
– Paciente A: 72 76 74
– Paciente B: 72 91 59

– Os dois pacientes têm média de batimentos iguais a 74 mas a


variação é muito diferente!!
www.cliqueapostilas.com.br

Amplitude
• É a diferença entre o maior e o menor valor
• Mede a dispersão total no conjunto de dados
• Mas tem um problema....

7 8 9 10 11 12 13 7 8 9 10 11 12 13
Balança A Balança B

7 8 9 10 11 12 13
Balança C

Não é apropriada quando há observações extremas


www.cliqueapostilas.com.br

Variância e Desvio Padrão


• A amplitude não descreve como os valores se distribuem em
torno da média, não mostra se há valores extremos...
• ... poderíamos então avaliar os desvios em torno da média

x1 − x , x2 − x , x3 − x ,..., xn − x

• ... mas a soma destes desvios é sempre igual a zero!!


• Como não nos interessa se as diferenças são positivas ou
negativas trabalhamos com os quadrados das diferenças
• Uma alternativa, pouco utilizada, é usar os desvios absolutos,
calculando o Desvio Médio Absoluto
1 n
DMA = ∑i =1 xi − x
n
www.cliqueapostilas.com.br

Variância Amostral
• É a soma das diferenças ao quadrado, em torno da
média aritmética, dividindo-a pelo tamanho da
amostra, menos um:

∑ (x )
n
2
i −x
i =1
S2 =
n −1

• E a variância da população é igual a:

∑ (x )
N
2
i −µ
σ x2 = i =1
N
www.cliqueapostilas.com.br

Desvio Padrão Amostral


• É a raiz quadrada da variância.
• É a medida de dispersão mais utilizada. Está na
mesma unidade dos dados originais.

∑ (x )
n
2
i −x
i =1
S=
n −1
• E desvio padrão da população é igual a:

∑ (x )
N
2
i −µ
σx = i =1
N
www.cliqueapostilas.com.br

Desvio Padrão Amostral


• Para calcular o desvio padrão de uma amostra
devemos:
– Calcular a média da amostra
– Obter a diferença entre cada observação e a média
– Elevar ao quadrado essas diferenças
– Somar os quadrados das diferenças
– Dividir o somatório por (n-1)  você aqui obteve a variância
– Extrair a raiz quadrada do somatório obtido
www.cliqueapostilas.com.br

Exemplo 5
• Calcule o desvio padrão da seguinte amostra:
Amostra
Dados (Xi) : 10 12 14 15 17 18 18 24
n=8 Média = x = 16
(10 − X ) 2 + (12 − X ) 2 + (14 − X ) 2 + L + (24 − X ) 2
S=
n −1

(10 − 16) 2 + (12 − 16) 2 + (14 − 16) 2 + L + (24 − 16) 2


=
8 −1

126 É uma medida da


= = 4.2426 dispersão “média” dos
7
dados em torno de sua
média
www.cliqueapostilas.com.br

Desvio Padrão Amostral


• Organize seus cálculos:

x= =

xi xi − x (xi − x )2

total

∑ (x )
n
2
i −x
σx = i =1
n −1
www.cliqueapostilas.com.br

Desvio Padrão Amostrais


Comparando Desvios - Padrão

Dados A
Média = 15.5
11 12 13 14 15 16 17 18 19 20 21 S = 3.338

Dados B Média = 15.5


11 12 13 14 15 16 17 18 19 20
S = 0.926
21

Dados C Média = 15.5


S = 4.570
11 12 13 14 15 16 17 18 19 20 21
www.cliqueapostilas.com.br

Desvio Padrão Amostrais


Comparando Desvios - Padrão

Pequeno desvio padrão

Grande desvio padrão


www.cliqueapostilas.com.br

Fórmula alternativa
• Fórmula alternativa para o Desvio Padrão Amostral

S=
σ xx
onde σ xx = ∑ x
n 2

(∑
n
x)
i =1 i
2

i =1 i
n −1 n

• Vantagem desse cálculo: não é preciso calcular a


média nem os desvios em relação a média
www.cliqueapostilas.com.br

Entendendo a Variação nos Dados


• Quanto mais espalhados ou dispersos estiverem os
dados, maiores serão a amplitude, a variância e o
desvio padrão
• Quanto mais concentrados, ou homogêneos, forem
os dados, menores serão a variância e o desvio
padrão
• Se as observações forem todas iguais (de forma que
não exista nenhuma variação nos dados), a
amplitude, a variância e o desvio padrão serão todos
iguais a zero
• Nenhuma das medidas de variação pode ser
negativa
www.cliqueapostilas.com.br

Entendendo a Variação nos Dados


• Você é apresentado ao desvio padrão dos retornos
mensais nos últimos três anos de três fundos de
investimentos

– S = 7,71
– S = 17,66
– S = 23,17

– O que você pode dizer sobre a variação dos


retornos?
– Você pode dizer qual o fundo com maior risco?
www.cliqueapostilas.com.br

Aplicações do Desvio Padrão


• São usados nos problemas de inferência que
veremos adiante
• A dispersão, e o desvio padrão, são pequenos se os
dados estão concentrados em torno da média e
grandes se os mesmos são muito dispersos
• O teorema de Tchebichev expressa formalmente
essa idéia...
www.cliqueapostilas.com.br

Teorema de Tchebichev
• Para qualquer conjunto de dados (população ou
amostra) e qualquer constante k maior do que 1, a
proporção dos dados que devem estar a menos de k
desvios-padrão de qualquer um dos dois lados da
média é pelo menos

1
1− 2
k
www.cliqueapostilas.com.br

Exemplo 6
• Você está avaliando a rentabilidade das empresas do setor varejista. A
média da rentabilidade sobre os ativos em 2009 foi de 10% com desvio
padrão de 3%. Faça estimativas para a distribuição dos dados pelo
Teorema de Tchebychev para k igual a 2 e 3.
• Solução:
para k = 2 :
1 3
1- 2
= = 75% ⇒
2 4
10% − 2 ⋅ 3% ≤ pelo menos 75% das rentabilidades ≤ 10% + 2 ⋅ 3%
4% ≤ pelo menos 75% das rentabilidades ≤ 16%
para k = 3 :
1 8
1 - 2 = = 88,9% ⇒
3 9
10% − 3 ⋅ 3% ≤ pelo menos 88,9% das rentabilidades ≤ 10% + 3 ⋅ 3%
1% ≤ pelo menos 88,9% das rentabilidades ≤ 19%
www.cliqueapostilas.com.br

Teorema de Tchebichev
• O problema do Teorema de Tchebichev é que ele diz
apenas “pelo menos qual proporção” dos dados deve
estar entre certos limites. É um limite inferior para a
verdadeira proporção, tem poucas aplicações
práticas.
• Para distribuições em forma de sino podemos fazer as
seguintes afirmações muito mais fortes.

Cerca de 68% dos valores estão a menos de um desvio-padrão da


média, isto é, entre x − σ x e x + σ x
Cerca de 95% dos valores estão a menos de dois desvios-padrão da
média, isto é, entre x − 2σ x e x + 2σ x
Cerca de 99,7% dos valores estão a menos de três desvios-padrão da
média, isto é, entre x − 3σ x e x + 3σ x
www.cliqueapostilas.com.br

Fórmula de conversão para unidades padronizadas

• Em um curso de francês um aluno obteve nota 66


em vocabulário e 80 em gramática.
– 1a. Conclusão: melhor nota em gramática que vocabulário
• E se você agora souber que a média e o desvio
padrão da turma em vocabulário foram,
respectivamente, 51 e 12. Em gramática média e
desvio padrão das notas da turma foram,
respectivamente, 72 e 16. Como sua resposta se
altera?
– Em vocabulário a nota do aluno está (66-51)/12 = 1,25 desvios
padrão acima da média e em gramática (80-72)/16 = 0,50
desvios padrão acima da média da turma.
– Comparado com o resto da turma o aluno está melhor em
vocabulário do que em gramática.
www.cliqueapostilas.com.br

Fórmula de conversão para unidades padronizadas

x−x x−µ
z= ou z=
S σ
• z nos diz quantos desvios-padrão um valor está
acima ou abaixo da média do conjunto de dados ao
qual pertence.
www.cliqueapostilas.com.br

Exemplo 7
• A Sra. Santos pertence a uma faixa etária na qual o
peso médio é de 56kg, com desvio-padrão de 6kg, e
seu marido, o Sr. Santos, pertence a uma faixa etária
na qual o peso médio é de 82kg, com desvio-padrão
de 9kg. Se a Sra. Santos pesa 66kg e o Sr. Santos
pesa 96kg, qual dos dois, relativamente ao peso
médio de sua faixa etária, está com maior excesso
de peso?
www.cliqueapostilas.com.br

Exemplo 7
• Solução:
– O peso do Sr. Santos está 96 – 82 = 14kg acima da média e o
peso da Sra. Santos está “somente” 66 – 56 = 10kg acima da
média, mas em unidades padronizadas obtemos (96-82)/9=1,55
para o Sr. Santos e (66-56)/6=1,66 para a Sra. Santos. Assim,
relativamente ao peso médio de sua faixa etária, a Sra. Santos
está mais acima do peso do que o Sr. Santos.
www.cliqueapostilas.com.br

Coeficiente de Dispersão
• O desvio padrão depende das unidades de medida
• O Coeficiente de Dispersão é uma medida relativa
de variação
• Expresso na forma de percentagem e não em
termos das unidades dos dados específicos
• Permite comparações quando as variáveis têm
unidades de medida diferentes

S σ
V = ⋅100% ou V = ⋅100%
x µ
www.cliqueapostilas.com.br

Coeficiente de Dispersão
• Exemplo: o gerente de um serviço de entregas está
avaliando a compra de uma nova frota de
caminhões. Quando as encomendas são carregadas
nos caminhões, no preparo para entrega, dois
importantes parâmetros são considerados: peso (em
kg) e o volume (em m3) para cada item. Suponha que
numa amostra de 200 encomendas, o peso médio
seja de 26kg com um desvio padrão de 3,9kg, e o
volume médio para cada encomenda seja 8,8m3 com
um desvio padrão de 2,2m3. Como podem as
variações de peso e volume ser comparadas?
www.cliqueapostilas.com.br

Coeficiente de Dispersão
• Solução:
– para o peso o coeficiente de variação
V=3,9/26x100%=15%;
– para o volume V=2,2/8,8x100%=25%.
– logo, em relação à média aritmética, o volume de
uma encomenda é muito mais variável do que seu
peso.
www.cliqueapostilas.com.br

Estatística: Prof. André Carvalhal


Formato
• 1. Descreve como os dados estão distribuídos
• 2. Medida: assimetria

Assimétrica Assimétrica
à esquerda Simétrica à direita
MediaMediana
MediaMediana Moda Media
Media=
= Mediana
Mediana=
= Moda Moda Mediana Media

Negativamente Simétrica Positivamente


Assimétrica Assimétrica
www.cliqueapostilas.com.br

Formato
• Coeficiente de Assimetria de Pearson

3(média − mediana)
SK =
desvio − padrão

MediaMediana
MediaMediana Moda Media
Media=
= Mediana
Mediana=
= Moda Moda Mediana Media

Negativamente Simétrica Positivamente


Assimétrica Assimétrica

Você também pode gostar