Você está na página 1de 55

Estatstica - PUC-Campinas

Rodolfo Valentim
March 12, 2014
e-mail: r.valentim@gmail.com
e-mail: r.valentim@puc-campinas.edu.br
Medidas numricas descritivas - introduo
Como representar um conjunto de dados?
Qual o melhor valor de um conjunto de dados?
Como e quais os tipos de valores deste conjunto de
dados?
Como duas variveis se relacionam?
Medidas numricas descritivas - introduo
Tendncia central corresponde extenso na qual todos
os valores se agrupam em torno de um valor central tpico.
Variao corresponde ao montante de disperso, ou
spread, de valores em relao ao valor central.
Formato corresponde ao padro da distribuio de valores
do valor mais baixo para o mais alto.
Medidas numricas descritivas - tendncia central - mdia
aritmtica
Mdia aritmticaa mdia aritmtica geralmente a
tendncia central mais utilizada. a medida no qual todos
os valores desempenham um papel igual.
A mdia aritmtica serve como ponto de equilbrio em
um conjunto de dados.
Medidas numricas descritivas - tendncia central - mdia
aritmtica
O formato da mdia aritmtica :
Medidas numricas descritivas
A frmula geral :
Medidas numricas descritivas

X representa o valor mdio sobre todos os valores da


amostra.
n representa o nmero de dados da amostra.

a representao matemtica da somatria dos dados.


i o ndice que representa o nmero de dados que esto
sendo somados.
Medidas numricas descritivas
Ex:. Calcule a mdia aritmtica dos seguintes valores:
39, 29, 43, 52, 39, 44, 40, 31, 44 e 35.

X =

n
i =1
X
i
n
. (1)

X =
39 + 29 + 43 + 52 + 39 + 44 + 40 + 31 + 44 + 35
10
(2)

X =
396
10
= 39.6. (3)
Medidas numricas descritivas - mediana
MedianaA mediana o valor do meio de um conjunto
de dados que tenha sido ordenado do menor para o maior.
Metade dos valores menor ou igual mediana, e metade
dos valores maior ou igual ao valor da mediana.
A mediana no afetada por valores extremos, de tal
modo que voc pode utilizar a mediana quando esto
presentes valores extremos.
Medidas numricas descritivas - mediana
Para calcular a mediana para um conjunto de dados, voc
incialmente ordena os valores do menor para o maior e,
depois, utiliza equao abaixo para calcular o valor que
corresponde mediana:
Mediana =
n + 1
2
(4)
valor na ordem de classicao.
Medidas numricas descritivas - mediana
Voc calcula a mediana seguindo duas regras:
Regra 1 se existir uma quantidade mpar de valores no
conjunto de dados, a mediana corresponde ao valor que
est no meio na ordem de classicao.
Regra 2 se existir uma quantidade par de valores no
conjunto de dados, a mediana corresponde mdia entre
os dois valores que esto no meio na ordem da
classicao.
Medidas numricas descritivas - mediana
Ex:. Dados os valores do exemplo anterior:
39, 29, 43, 52, 39, 44, 40, 31, 44 e 35.
Ordene os dados: 29, 31, 35, 39, 39, 40, 43, 44, 44, 52.
Como so dez valores (par), a mediana o valor que
divide ao meio os dados, isto , o quinto mais o sexto valor
da esquerda para direita dividido por dois: mediana
=(39+40)/2 = 39.5.
Medidas numricas descritivas - moda
Moda o valor que aparece com mais frequncia em
um conjunto de dados. Do mesmo modo que a mediana, e
diferentemente da mdia aritmtica, valores extremos no
afetam a moda. De uma forma geral, no existe somente
uma moda, mas podem existir vrias modas (bimodal,
trimodal, etc).
Medidas numricas descritivas
Ex:. Verique se h uma moda nos dados: 29, 31, 35, 39,
39, 40, 43, 44, 44, 52.
Pelo conceito de moda, analisamos quais dados que se
repetem em maior quantidade (maior frequncia).
Podemos vericar que 39 e 44 se repetem duas vezes,
logo a distribuio bimodal.
Medidas numricas descritivas - mdia geomtrica
Mdia geomtricamede a taxa de variao de uma
varivel ao longo do tempo, isso pode ser visto na
expresso a seguir:

X
G
= (X
1
X
2
... X
n
)
1/n
. (5)
Medidas numricas descritivas - mdia geomtrica
Mdia geomtrica da taxa de retornomede o percentual
mdio de retorno de um investimento ao longo do tempo.

R
G
= [(1 + R
1
) (1 + R
2
) ... (1 + R
n
)]
1/n
1. (6)
Onde R
i
taxa de retorno no decorrer do tempo para o
perodo i .
Medidas numricas descritivas - taxa de retorno
Ex:. Considere um investimento de $100.000 que foi
reduzido para um valor de $50.000 ao nal do Ano 1e
depois disso retornou a seu valor original de $100.000 ao
nal do Ano 2. A taxa de retorno desse investimento para
o perodo de 2 anos corresponde a 0, uma vez que o valor
inicial e o valor nal do investimento permaneceram
inalterados. Entretanto, a mdia aritmtica das taxas
anuais de retorno corresponde a:

X =
(0.50) + (1.00)
2
= 0.25%; (7)
uma vez que a taxa de retorno para o Ano 1 :
R
1
=

50.000 100.000
100.000

= 0.50; (8)
Medidas numricas descritivas - taxa de retorno
e a taxa de retorno para o Ano 2 :
R
2
=

100.000 50.000
50.000

= 1.00. (9)
Utilizando a expresso para a taxa de retorno, a mdia
geomtrica da taxa de retorno para os 2 anos :

R
G
= [(1 + R
1
) (1 + R
2
)]
1/2
1; (10)
Medidas numricas descritivas - taxa de retorno
temos:

R
G
= [(1 0.50) (1 + 1.00)]
1/2
1; (11)

R
G
= [(0.50) (2.00)]
1/2
1; (12)

R
G
= [1.00]
1/2
1 = 0. (13)
Portanto, a mdia geomtrica reete, de maneira mais
precisa do que a mdia aritmtica, a variao (zero) no
valor do investimento para o perodo de dois anos.
Medidas numricas descritivas - variao e formato
Alm da tendncia central, todo o conjunto de dados pode
ser caracterizado por sua variao e seu formato.
A variao mede o spread ou disperso dos valores em
um conjunto de dados.
Uma medida simples de variao corresponde amplitude
que a diferena entre o maior valor e o menor valor. A
amplitude pode ser denida como:
Amplitude a medida descritiva numrica mais simples
para a variao em um conjunto de dados.
Medidas numricas descritivas - variao e formato
A amplitude igual ao maior valor de uma amostra menos
o menor valor:
Amplitude = X
maior
X
menor
. (14)
Para determinar a amplitude dos dados nos exerccios
anteriores necessrio orden-los do menor para o maior:
Dados: 29, 31, 35, 39, 39, 40, 43, 44, 44 e 52.
Medidas numricas descritivas - variao e formato
Utilizando o conceito de amplitude, que a diferena entre
o maior valor (X
maior
= 52) e o menor (X
menor
= 29),
temos:
Amplitude = X
maior
X
menor
; (15)
Amplitude = 52 29 = 23; (16)
Indica a maior diferena entre os dados.
Medidas numricas descritivas - quartis
Quartis dividem um conjunto em quatro partes de dados
iguais.
Primeiro Quartil (Q
1
): divide os valores que correspondem
aos 25.0% mais baixos dos 75.0% maiores.
Segundo Quartil (Q
2
): a mediana que divide 50.0% so
menores que a mediana e 50.0% maiores.
Terceiro Quartil (Q
3
): a parcela que corresponde aos
75.0% dos valores mais baixos dos 25.0% que so
maiores que eles.
Medidas numricas descritivas - quartis
Quartis:
Medidas numricas descritivas - quartis
Primeiro Quartil: 25.0% dos valores so menores ou iguais
a Q
1
, o primeiro quartil e 75.0% so maiores ou iguais ao
primeiro quartil.
Q
1
=
n + 1
4
; (17)
valor na ordem de classicao.
Terceiro Quartil: 75.0% dos valores so menores ou iguais
a Q
3
, o terceiro quartil e 75.0% so maiores ou iguais ao
primeiro quartil.
Q
3
=
3(n + 1)
4
; (18)
valor na ordem de classicao.
Medidas numricas descritivas - quartis
Regra 1: se o resultado corresponder a um nmero inteiro,
ento o quartil igual ao valor na ordem de classicao .
Se, por exemplo, o tamanho da amostra for n = 7, o
primeiro quartil igual a (7 +1)/4 segundo valor na ordem
de classicao.
Regra 2: se o resultado for uma metade fracionada
(2.5;4.5; etc), ento o quartil igual mdia entre os
valores correspondentes na ordem de classicao. Se,
por exemplo, o tamanho da amostra for n = 9, o primeiro
quartil igual a (9 + 1)/4 = 2.5 valor na ordem de
classicao, na metade do caminho entre o segundo
valor e o terceiro valor na ordem de classicao.
Medidas numricas descritivas - quartis
Regra 3: se o resultado no for um nmero inteiro ou uma
metade fracionada, voc arredonda o resultado at o
nmero inteiro mais prximo e seleciona o valor na ordem
de classicao corrrespondente. Por exemplo, se o
tamanho da amostra for n = 10, o primeiro quartil igual a
(10 + 1)/4 = 2.75 valor na ordem de classicao.
Arredonde 2.75 para 3 e utilize o terceiro valor na ordem
de classicao.
Medidas numricas descritivas - quartis - exemplo
Exemplo 1:
Amostra: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36.
Amostra ordenada: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49.
Primeiro Quartil: n=11:
Q
1
=
n + 1
4
=
11 + 1
4
= 3; (19)
Terceiro valor da amostra 15.
Medidas numricas descritivas - quartis - exemplo
Segundo Quartil a mediana: 40.
Terceiro Quartil :
Q
3
=
3(n + 1)
4
=
3(11 + 1)
4
= 9. (20)
Terceiro Quartil 43.
Medidas numricas descritivas - amplitude interquartil
A amplitude interquartil (A
Q
) corresponde diferena entre
o terceiro quartil e o primeiro quartil:
A
Q
= Q
3
Q
1
. (21)
A amplitude interquartil mede a disperso nos dados que
esto entre as 50% observaes centrais. Portanto, no
inuenciada por valores extremos.
Medidas numricas descritivas - varincia e desvio padro
A varincia da amostra a soma das diferenas em torno
da mdia aritmtica elevadas ao quadrado, dividida pelo
tamanho da amostra menos 1.

x a mdia dos valores da amostra, x


i
cada um dos
valores da amostra e n o tamanho da amostra.
Medidas numricas descritivas - varincia e desvio padro
O desvio padro da amostra a raiz quadrada da
varincia, ou seja, raiz quadrada da soma das diferenas
em torno da mdia aritmtica elevadas ao quadrado,
dividida pelo tamanho da amostra menos um.
Observao: a varincia e desvio padro de dados
populacionais divide-se as diferenas quadrticas
mdias por n.
Medidas numricas descritivas - Regra Emprica
Na maioria dos conjuntos de dados, uma grande parte dos
valores tende a se concentrar relativamente perto da
mediana.
Em conjunto de dados assimtricos direita, essa
concentrao ocorre esquerda da mediana, ou seja, em
um valor menor do que a mediana.
Em conjuntos de dados assimtricos esquerda, essa
concentrao ocorre direita da mediana.
Em conjuntos de dados simtricos, nos quais a mediana e
a mdia so iguais, os valores tendem a se distribuir em
torno da mediana e da mdia aritmtica, produzindo uma
distribuio no formato de sino (tipo curva Gaussiana).
Medidas numricas descritivas - Regra Emprica
Exemplo de uma distribuio tipo sino:
Medidas numricas descritivas - Regra Emprica
Com as mdias e os desvios:
Medidas numricas descritivas - Regra Emprica
Distribuies assimtricas:
Medidas numricas descritivas - Regra Emprica
68% dos valores esto contidos em 1 .
95% dos valores esto contidos em 2 .
97.7% dos valores esto contidos em 3 .
Medidas numricas descritivas - Regra de Chebyshev
A regra de Chebyshev enuncia que qualquer conjunto de
dados, independentemente do formato, a porcentagem de
valores que esto contidos dentro de distncias
correspondentes a k desvios-padro em relao mdia
aritmtica deve ser pelo menos:
(1
1
k
2
) 100%. (22)
Voc pode utilizar a regra para qualquer valor de k maior
do que 1. Considere k = 2, a regra de Chebyshev declara
que pelo menos [1 (1/2)
2
] 100% = 75% dos valores
devem estar contidos dentro de uma distncia de dois
desvios-padro em relao mdia aritmtica.
Medidas numricas descritivas - Regra de Chebyshev
A regra de Chebyshev bastante geral e se aplica a
qualquer tipo de distribuio.
A regra indica pelo menos qual a porcentagem dos valores
se posiciona dentro de uma determinada distncia em
relao mdia aritmtica.
No entanto, se o conjunto de dados apresentar um formato
simtrico, a regra emprica reetir de modo mais preciso
a maior concentrao dos dados prximos mdia
aritmtica.
Medidas numricas descritivas - Regra de Chebyshev
Uma forma de usar a regra de Chebyshev calcular o
valor mdio de uma distribuio de dados e o desvio
padro.
Depois voc pode apresentar os dados em intervalos para
qualquer distribuio(regra de Chebyshev):
Aproximadamente 68.8% [ ; +].
Aproximadamente 75% [ 2; + 2].
Aproximadamente 88.89% [ 3; + 3].
Coeciente de variao
Coeciente de variao uma medida relativa da variao
que sempre expressa na forma de porcentagem. Sendo
denido como:
CV =

100%. (23)
sempre til quando se comparam dois ou mais conjuntos
de dados que so mensurados em unidades diferentes.
Escores Z
O valor extremo ou outlier, um valor localizado bem
distante da mdia aritimtica. Escores Z so teis no
sentido de indenticar valores extremos. Quanto maior o
escore Z maior a distncia do valor em relao mdia
aritmtica. O escore Z corresponde diferena entre o
valor e a mdia aritmtica dividida pelo desvio padro:
Z =
x

. (24)
Covarincia
A covarincia mede a fora de uma relao linear entre
duas variveis numricas (X e Y):
cov(X, Y) =

n
i =1
(X
i


X)(Y
i


Y)
n 1
. (25)
Obs: um problema que a covarincia apresenta dado um
valor no h como estabelecer limites e a fora da
covarincia.
Correlao
Dizemos que h correlao entre duas variveis X e Y
quando a varivel dependente Y altera seu valor conforme
a a varivel independente X se altera. Quando isso
ocorre, h uma correlao entre as variveis.
O coeciente de correlao mede a fora de uma relao
linear entre duas variveis numricas. O coeciente pode
ser calculado pela expresso a seguir:
Correlao
Exemplos de correlao:
Correlao
Exemplos de correlao:
Correlao
Exemplos de correlao:
Correlao
Regresso Linear
Muitos fenmenos se comportam linearmente ou pode ser
aproximados por uma funo linear.
A relao entre duas variveis pode ser de vrias
maneiras, linear ou no linear so bons exemplos.
Quando se estuda a variao de uma varivel X
independente e Y a varivel dependente.
Um bom exemplo o estudo da variao da massa versus
altura em crianas.
Regresso Linear - anlise do relacionamento entre duas variveis
Stela Adami Vayego - DEST/UFPR 4
!"#$%&'()
*+,-./#& 123#%#23#24# *+,-./#& 3#%#23#24#
5 ! 6
!"#$ &$'($')* ! +,-
!"#$ )$ .)#&"' ! !"#$ ) /"#0)0)
!"#$ &$'($')* ! 1"./20".3$ /" 4)'&)5)
67).388 9"'32*2:).3" ! !'$/75;$ /" 02*<$
Regresso Linear - modelo matemtico
Stela Adami Vayego - DEST/UFPR 5
! #$%&'$ ()*&(+*,-$
Y =
Predito por X, se-
gundo uma funo
Efeito aleatrio +
Parmetros
Regresso
Linear
Simples
! "#$ % & + + =
Regresso Linear - como duas variveis se relacionam?
Stela Adami Vayego - DEST/UFPR 6
!"#$%&' )* #+$*&,'-.*$ )* /01 23
4#56*7*& # &*8'79#5'"*5%# *5%&* 0 * 2
Regresso Linear - como calcular e ?
O clculo de e
Comecemos por :
=

xy

y
n

x
2

x
2
n
. (26)
E para :
=

y
n

x
n
. (27)
A equao na forma geral :
y = +x. (28)
Regresso Linear - exemplo
Peso corporal e Rendimento de carcaa, aos 4 meses de
idade, de 10 cordeiros da raa Hampshire Down.
Stela Adami Vayego - DEST/UFPR 11
!"#$%&'( "#$% &%'(%')* # +#,-./#,0% -# &)'&)1)2 )%$ 3 /#$#$
-# .-)-#2 -# 45 &%'-#.'%$ -) ')1) 6)/($7.'# 8%9,:
!"#$ %$#$ %"#$ "$#$ ""#$ &$#$ &"#$ '$#$
($#$
("#$
!$#$
!"#$
%$#$
%"#$
Peso (Kg)
R
e
n
d
.

C
a
r
c
a

a

(
K
g
)
! y"#12,62$0,81 x
r " 93,15 %
R
2
" 86,77 %
Regresso Linear - exemplo
Peso corporal e Rendimento de carcaa, aos 4 meses de
idade, de 10 cordeiros da raa Hampshire Down.
Stela Adami Vayego - DEST/UFPR 12
!"#$%&' )%&*+,$' & %&'-*.$'
35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0
20,0
25,0
30,0
35,0
40,0
45,0
Peso (Kg)
C
a
r
c
a

a

(
K
g
)
! y
10
"32,74
y
10
"35
Resduo associado ao dcimo
elemento da amostra.