Você está na página 1de 94

PROBEST

Aula 1

Reinaldo Castro Souza, PhD


Alexandre Street

Jos Daniel Hernndez Vsquez, Monitor


Jos Aguinaldo M.Pinho, Auxiliar

2015.1
reinaldo@ele.puc-rio.br ing.jdhernandez@gmail.com
street@ele.puc-rio.br jjampinho@gmail.com

1
Nota Instalao das
Ferramentas de Anlise do Excel

Muitas das tcnicas descritas aqui requerem a prvia


instalao do suplemento (add-in) Ferramentas de
Anlise do Excel. O procedimento de instalao
descrito a seguir:

No menu Ferramentas, selecione Suplementos e na


caixa de dilogo que ser aberta marque a opo
Ferramentas de anlise. Se esta opo no estiver
presente, clique procurar para encontrar o arquivo
correspondente (em geral chamado Analys32.xll) ou
rode novamente o set-up do MS-Office.

reinaldo@ele.puc-rio.br 2
Aula 1

Estatstica Descritiva
Definies bsicas Introduo
Probabilidade
Probabilidade
Espao amostral
Eventos
Propriedades das probabilidades
Probabilidade Condicional
Independncia
Teorema de Bayes

reinaldo@ele.puc-rio.br 3
Estatstica Descritiva

reinaldo@ele.puc-rio.br 4
Pr que serve estatstica?

Porque nos permite entender e lidar com a idia


de variabilidade.
Um exemplo tpico :
Produo de parafusos. Uma fbrica produz
parafusos, que devem ter dimetros dentro de
certas especificaes.
Ao medirmos os dimetros de 100 parafusos
produzidos, selecionados ao acaso, existiro
variaes individuais.
Estas variaes so importantes? At que ponto
as variaes observadas so aceitveis?

reinaldo@ele.puc-rio.br 5
Estatstica

Em geral um nmero em Estatstica no apenas


um nmero! A ele associamos uma medida de
incerteza ou variabilidade.

Populao e Amostra
Populao = coleo de todos os elementos cujas
caractersticas desejamos conhecer. Os elementos (ou
"indivduos") na populao no so necessariamente
pessoas!

Amostra = subconjunto da populao cujas caractersticas


sero medidas. A amostra ser usada para descobrir
caractersticas da populao.

reinaldo@ele.puc-rio.br 6
Exemplos
1) Populao = eleitores na cidade do Rio de Janeiro
Amostra = 650 eleitores escolhidos aleatoriamente (ao acaso)
Caracterstica de interesse: percentual de eleitores que
planejam votar num candidato X nas prximas eleies.

2) Populao = automveis produzidos no Brasil entre 1997 e


2002
Amostra = 10000 carros escolhidos aleatoriamente dentre os
sujeitos a recall das montadoras
Caracterstica de interesse: verificar se o proprietrio do carro
respondeu ao chamado de recall da fbrica

reinaldo@ele.puc-rio.br 7
Exemplos

3) Populao = todos os domiclios com TV na


cidade do Rio de Janeiro
Amostra = 1000 domiclios com TV escolhidos ao
acaso
Caracterstica de interesse = percentual de
audincia de cada emissora de TV num certo dia
da semana no horrio de 18 s 22 horas.
Em resumo: A partir de uma amostra coletamos
informaes que nos permitem aprender alguma
coisa interessante sobre a populao.

reinaldo@ele.puc-rio.br 8
Por que fazer isso?

economicamente eficiente! Os custos


so infinitamente mais baixos que os de
amostrar a populao inteira (censo).

Pode-se provar que, para populaes


muito grandes, uma amostra de cerca de
600 ou 1000 "indivduos" fornece
resultados bastante confiveis sobre as
caractersticas da populao.

reinaldo@ele.puc-rio.br 9
E agora?

Voc coletou uma amostra e, dentro desta


amostra voc coletou dados numricos
(por exemplo, o consumo mdio mensal
em kWh dos domiclios numa certa rea
da cidade). O que fazer com isso?

Existem 2 possibilidades:
Voc pode simplesmente descrever estes dados
numricos atravs de grficos e tabelas. Isto chamado
de estatstica descritiva. A maioria das pesquisas de
mercado faz s isso, que sem dvida, muito
importante.

reinaldo@ele.puc-rio.br 10
E agora?
Voc pode tentar tirar concluses sobre
as caractersticas da populao a partir
dos dados observados na amostra.

Isso se chama estatstica inferencial (ou


simplesmente estatstica!). Para que a
gente consiga fazer isso, necessrio ter
uma noo bastante abrangente de
Probabilidades.

reinaldo@ele.puc-rio.br 11
E agora?

Na verdade, a estatstica descritiva surgiu


muito antes da estatstica inferencial.

Esta ltima depende da especificao de


modelos matemticos baseados numa
noo fundamental, que a de
"probabilidade".

reinaldo@ele.puc-rio.br 12
Estatstica descritiva

Grficos ("A picture is worth one thousand words")


Histograma
Diagramas de Pareto
Grficos de disperso, grficos da varivel ao longo do
tempo, grficos de barras, etc...
Medidas Numricas
Mdia amostral
Mediana amostral
Desvio padro amostral
Varincia amostral
Assimetria e Curtose amostrais
Percentis
Covarincia, Correlao amostrais

reinaldo@ele.puc-rio.br 13
Alguns grficos da evoluo de
variveis ao longo do tempo

reinaldo@ele.puc-rio.br 14
ja
n/
7

12,000
17,000
22,000
27,000
32,000

7,000
ja 9
n/
8
ja 0
n/
8
ja 1
n/
8
ja 2
n/
8
ja 3
n/
8
ja 4
n/
8
ja 5
n/
8
ja 6
n/
8
ja 7
n/
8
ja 8
n/
8
ja 9
n/
9
ja 0
n/
Jan/1979 a Ago/2006

9
ja 1
n/
9
ja 2
n/
9
ja 3
n/
9
ja 4
n/
9
ja 5
n/
9

reinaldo@ele.puc-rio.br
ja 6
n/
9
ja 7
n/
9
ja 8
Consumo Total Energia Eltrica

n/
9
ja 9
n/
0
ja 0
n/
0
ja 1
n/
0
ja 2
n/
0
Consumo de Energia Eltrica - Total Brasil (GWh) - Fonte: Eletrobrs

ja 3
n/
0
ja 4
n/
0
ja 5
n/
06
15
4/
1/
4/ 200

16
20
24
28
32
36
40
44
48
52
56
60
64
68
72
76
80
84
3/ 0
3/ 200
5 0
2/ /200
7
31 /20 0
/
30 8/2 00
/1 0
29 0/2 00
/1 00
27 2/20 0
/ 0
28 2/2 0
/4 00
27 /20 1
/6 0
26 /20 1
25 /8/2 01
/ 0
24 10/ 01
/1 20
0
22 2/20 1
/2 01
23 /20
/4 0
22 /20 2
/ 0
21 6/20 2

Petrleo WTI
20 /8/ 02
/1 20
19 0/2 02
/1 00
17 2/20 2
/2 0
18 /20 2
/4 0
17 /20 3
/ 0
16 6/2 3
0
02/01/1991 a 03/11/2006

15 /8/2 03
/1 00
14 0/2 3
/1 00
12 2/20 3
/2 0
12 /20 3
/ 0
11 4/2 4
/6 00

monica@ele.puc-rio.br
10 /20 4
/8 0
Brent e WTI dados dirios

9/ /20 4
10 0
8/ /20 4
EXEMPLO: Preos de Petrleo

12 0
4
6/ /20
2/ 04
7/ 00 2
4/ 5
Petrleo Brent
6/ 200
6/ 5
5/ 200
8
4/ /20 5
10 0
3/ /2 5
12 00
5
Preos de Petrleo (US$/Barril) - Janeiro de 2000 a Novembro de 2006

1/ /200
2/ 5
2/ 200
4 6
1/ /200
6
31 /20 6
/7 06
29 /2
/9 00
/2 6
00
6
16
EXEMPLO: IPC-FIPE

monica@ele.puc-rio.br 17
EXEMPLO: IPC-FIPE

No grfico anterior exibimos o IPC-FIPE (o ndice de


Preos ao Consumidor da FIPE, um dos mais
importantes ndices de inflao com suas
estimativas quadrissemanais) no perodo entre
01/1995 e 10/2006.

As prvias quadrissemanais servem como


indicadores da inflao do prximo ms medida
pelo IPC-FIPE.

No prximo grfico exibimos os valores (01/2002 a


10/2006) do IPC-FIPE.

reinaldo@ele.puc-rio.br 18
IPC-FIPE - Janeiro de 2002
a 10/2006
Inflao FIPE (% a.m)- 01/2002 a 10/2006

3.0

2.5

2.0

1.5

1.0

0.5

0.0
2

6
02

03

04

05

06
2

6
2

6
l/0

l/0

l/0

l/0

l/0
t/0

t/0

t/0

t/0

t/0
r/0

r/0

r/0

r/0

r/0
n/

n/

n/

n/

n/
ju

ju

ju

ju

ju
-0.5
ou

ou

ou

ou

ou
ab

ab

ab

ab

ab
ja

ja

ja

ja

ja
INFLAO - IPC - FIPE (% a.m.)

reinaldo@ele.puc-rio.br 19
IBOVESPA Dirio Julho de 1994 a
a 06/08/2004

reinaldo@ele.puc-rio.br 20
IBOVESPA Dirio Julho de 1994 a
a 06/08/2004

Parece que a bolsa subiu muito durante


quase todo o Plano Real.

Ser que isso mesmo verdade?

Veja o prximo grfico, em que


comparamos o IBOVESPA em R$ e US$.

reinaldo@ele.puc-rio.br 21
11000.00
14000.00
17000.00
20000.00
23000.00
26000.00

2000.00
5000.00
8000.00
04/07/1994
08/11/1994
17/03/1995
25/07/1995
29/11/1995
a 06/08/2004

11/04/1996
14/08/1996
17/12/1996
30/04/1997
03/09/1997
08/01/1998
19/05/1998

IBOVESPA em Dlares
22/09/1998
01/02/1999
10/06/1999
14/10/1999
21/02/2000
28/06/2000

reinaldo@ele.puc-rio.br
31/10/2000
13/03/2001
18/07/2001
22/11/2001
IBOVESPA em Pontos em Reais e Dlares

04/04/2002
08/08/2002
IBOVESPA em R$
IBOVESPA Dirio Julho de 1994 a

10/12/2002
17/04/2003
25/08/2003
26/12/2003
05/05/2004
22
Grfico de Disperso
(uma varivel versus outra)

reinaldo@ele.puc-rio.br 23
Exemplo - IBOVESPA e Dlar
Ibovespa versus Dlar PTAX -10/12/2002 a 12/06/2003

14,500

14,000

Neste perodo parece fazer sentido


13,500
ajustar uma reta e poderamos
13,000 estipular um modelo que pudesse
prever o IBOVESPA em funo da
12,500 taxa de cmbio
12,000

11,500

11,000

10,500

10,000
y = -3830.7x + 24366
9,500
R2 = 0.8954
9,000
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

reinaldo@ele.puc-rio.br 24
Exemplo - IBOVESPA e Dlar
incorporao de novos dados

Ibovespa versus Dlar PTAX -10/12/2002 a 02/03/2004

26,000

24,000
Claramente, um modelo linear no mais
apropriado quando levamos em considerao os
22,000
novos dados (entre junho de 2003 e maro de
2004) - OU SEJA: O MODELO MUDOU!
20,000

18,000

16,000

y = -10612x + 48010
14,000
R2 = 0.4532

12,000

10,000

8,000
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

reinaldo@ele.puc-rio.br 25
Exemplo - IBOVESPA e Dlar
incorporao de novos dados

Por que o modelo anterior no funciona?

No perodo entre junho de 2003 e maro


de 2004 o dlar permaneceu praticamente
estvel, enquanto o ndice Bovespa subiu
consideravelmente, como podemos
verificar no prximo grfico.

reinaldo@ele.puc-rio.br 26
10
/

11,000
13,000
15,000
17,000
19,000
21,000
23,000
25,000

9,000
25 12/
/ 0
09 12/ 2
/ 0
24 01/ 2
/ 0
08 01/ 3
/ 0
23 02/ 3
/ 0
10 02/ 3
/ 0
25 03/ 3
/ 0
09 03/ 3
/ 0
24 04/ 3
/ 0
09 04/ 3
/ 0
24 05/ 3
/ 0
08 05/ 3
/ 0
23 06/ 3
/ 0
08 06/ 3
/ 0
23 07/ 3
/ 0
07 07/ 3
/ 0
22 08/ 3
/ 0
06 08/ 3
/ 0
21 09/ 3
/ 0
06 09/ 3

reinaldo@ele.puc-rio.br
/ 0
21 10/ 3
/ 0
incorporao de novos dados

05 10/ 3
/ 0
Exemplo - IBOVESPA e Dlar

Junho de 2003
IBOVESPA - 10/12/2002 a 02/03/2004

20 11/ 3
/ 0
05 11/ 3
/ 0
20 12/ 3
/ 0
04 12/ 3
/ 0
19 01/ 3
/ 0
03 01/ 4
/ 0
18 02/ 4
/0 04
2/
04
27
Exemplo - temperaturas
Dados:Temperatura mxima mensal (mdia das
mximas dirias) na estao de Santa Cruz (Rio
de Janeiro) entre Jan/1982 e Dez/1991.

O que fazer com todos estes 120 nmeros?

A coisa mais sensata fazer um grfico da


temperatura versus o ndice de tempo (ms e
ano). Este grfico vai revelar o bvio, isto , que
as temperaturas no vero so mais altas que no
inverno!

reinaldo@ele.puc-rio.br 28
Exemplo - temperaturas

Alm disso, a gente vai perceber que


existe um comportamento sazonal nos
dados, ou seja, dentro de cada ano a
evoluo da temperatura se repete mais
ou menos da mesma maneira.
O grfico tambm nos d uma idia do
quanto a temperatura est variando em
todo o perodo. Por exemplo, pode-se
verificar que a temperatura mxima nestes
10 anos est sempre acima de 22 graus.
reinaldo@ele.puc-rio.br 29
23
25
27
29
31
33
35
37
jan/82
mai/82
set/82
jan/83
mai/83
set/83
jan/84
mai/84
set/84
jan/85
mai/85
set/85
jan/86
mai/86
set/86
jan/87
mai/87
set/87
jan/88
Exemplo - temperaturas

reinaldo@ele.puc-rio.br
mai/88
set/88
jan/89
Temperaturas Mximas - 1982 a 1991

mai/89
set/89
jan/90
mai/90
set/90
jan/91
mai/91
set/91
30
Exemplo - temperaturas

O grfico muito til, mas certamente no


conta toda a informao ....

Por exemplo, qual ser a temperatura mdia de


todos os meses? Dentre os 120 meses, em
quantos a temperatura mdia esteve entre 28 e 33
graus? Qual o percentual de temperaturas entre
22 e 25 graus? Tomando-se os 120 pontos, quais
os valores de temperatura tais que 90% dos
meses tm temperaturas entre estes dois
valores?

reinaldo@ele.puc-rio.br 31
Exemplo - temperaturas

Podemos pensar nestas, e numa infinidade de


outras questes. O fato que um simples grfico
da temperatura versus o tempo no fornece as
respostas de maneira prtica.

O primeiro passo fazer a distribuio de


freqncia dos seus dados. Isto simplesmente
uma medida mais compacta de representao
dos dados. Voc divide as temperaturas em
intervalos (chamados intervalos de classe) e
conta quantas observaes caem em cada
intervalo.

reinaldo@ele.puc-rio.br 32
Exemplo - temperaturas
A escolha do nmero de intervalos arbitrria.

O importante garantir que o nmero de classes


no seja nem muito grande nem muito pequeno.

Se o nmero de classes for muito pequeno, fica


difcil verificar as diferenas entre as classes. Ao
contrrio, se o nmero de classes for muito
grande, existiro muito poucas observaes em
cada classe.

O primeiro passo ordenar os dados pois facilita


a colocao dos dados em cada classe.
reinaldo@ele.puc-rio.br 33
Exemplo - temperaturas
Escolha do nmero de classes num
diagrama de frequncia
Seja n o nmero de intervalos num diagrama de frequncia.
Recomenda-se escolher n entre 5 e 20. Quanto maior o
nmero de observaes, maior o nmero de intervalos.

Geralmente usa-se n igual raiz quadrada do nmero total


de observaes, que neste caso seria aproximadamente 11.
Para facilitar a visualizao em geral usamos intervalos
com o mesmo comprimento. Muitas vezes o primeiro
intervalo descrito como "abaixo de um certo valor" e o
ltimo como "acima de um certo valor".

reinaldo@ele.puc-rio.br 34
Exemplo - temperaturas

Neste exemplo usamos n = 7, por uma questo


puramente prtica, pois este nmero nos permite
encontrar intervalos de classe de comprimento
1.9 em todas as classes, exceto a primeira, e
todas as classes terminam com uma temperatura
que um nmero inteiro e par.

A primeira classe vai de 24 a 26 graus, a segunda


vai de 26.1 a 28 graus e assim sucessivamente. O
diagrama de freqncias encontrado est a
seguir.

reinaldo@ele.puc-rio.br 35
Exemplo - temperaturas

Classe Frequncia Frequncia Relativa Frequncia


Relativa
Acumulada
24-26 graus 7 7/120 = 5.83 % 5.83%
26.1- 28 graus 31 31/120 = 25.83 % 31.66%
28.1-30 graus 26 26/120 = 21.67 % 53.33%
30.1-32 graus 26 26/120 = 21.67 % 75.00%
32.1-34 graus 25 25/120 = 20.83 % 95.83%
34.1-36 graus 3 3/120 = 2.50 % 98.33%
36.1-38 graus 2 2/120 = 1.67 % 100%
Totais 120 100%

reinaldo@ele.puc-rio.br 36
Exemplo temperaturas

O diagrama de frequncias j nos permite


responder a diversas outras questes. Por
exemplo, a grande maioria (69.17%) das
temperaturas mximas est entre 26.1 e 32 graus.
Tambm percebemos que temperaturas mximas
acima de 34.1 graus so incomuns (apenas 5
dentre as 120).

Veja que outras concluses voc consegue obter


a partir deste diagrama.

reinaldo@ele.puc-rio.br 37
Exemplo - temperaturas

A partir de um diagrama de frequncias podemos


facilmente construir um histograma.

Histograma:
Grfico de barras, onde o eixo vertical contm as
frequncias (ou freqncias relativas) e o eixo
horizontal contm os intervalos de classes. Muitas
vezes faz-se a rea de cada barra igual freqncia
relativa de cada classe, de tal forma que a rea total
sob o histograma 1 (100%).

reinaldo@ele.puc-rio.br 38
Histograma produo no Excel

automtica, mas voc precisa ter instalado


antes o suplemento (add-in) de ferramentas de
anlise de dados.

Alis, este suplemento ser muito til para ns,


portanto instale-o.

reinaldo@ele.puc-rio.br 39
Histograma produo no Excel

reinaldo@ele.puc-rio.br 40
Histograma produo no Excel
Clulas contendo os dados

Clulas contendo os limites dos intervalos (no precisam ser


especificados) mas geralmente quando no os especificamos o
Excel gera uns limites meio feios
reinaldo@ele.puc-rio.br 41
Histograma implementao
no Excel em Portugus

reinaldo@ele.puc-rio.br 42
Histograma produo no Excel
Note que este histograma usa intervalos diferentes
dos especificados na tabela de freqncia mostrada
anteriormente Histograma

35

30

25

20
Freqncia

15

10

0
24 26 28 30 32 34 36 38 acima de 38
Intervalo

reinaldo@ele.puc-rio.br 43
Histograma Retorno dirio do
preo do petrleo WTI 01/1991 a
08/2006
Histograma - Log Retornos Petrleo WTI - 1991 a 2006

800

700
A grande maioria dos
600 retornos dirios
500
(variaes dirias)
nesta faixa, mas
Frequency

400
tambm variaes
300 extremas
200

100

10 %
11 %
12 %
13 %
14 %
%

e
3%
2%
0%
9%
8%
7%
6%
5%
4%
3%

10 %
%
%
%
%
%
%
%
%
%
%
%
-1 %
-1 %
-1 %
4%

or
2
.5
.6
.7
.8
.0
.1
.2
.3
.4
.5
.6

.0
.9
.8
.7
.6
.5
1
2
3

0.
1.
2.
2.
3.
4.
5.
6.
7.
8.
9.

M
3.
2.
1.
0.
-9
-8
-7
-6
-6
-5
-4
-3
-2
-1
-0
-1

Bin

reinaldo@ele.puc-rio.br 44
Produo (% potncia mxima)

0.0
10.0
20.0
30.0
50.0
60.0
80.0

40.0
70.0
Jan-81
Mar-82
May-83
Jul-84
Sep-85
Nov-86
Jan-88
Mar-89
May-90
elica mensal

Jul-91
Sep-92
Nov-93
(Icaraizinho - NE).

Jan-95
Mar-96
May-97
Jul-98
Sep-99

reinaldo@ele.puc-rio.br
Nov-00
Jan-02
Mar-03
May-04
Exemplo: Produo da energia

Jul-05
Sep-06
Nov-07
Jan-09
Mar-10
May-11
45

Jul-12
Hitograma
Produo da energia elica mensal (Icaraizinho - NE).

Histograma e Frequncia Acumulada


(Relativa)
Freqncia Relativa (% nm. obs)

10% 100%
9% 90%

Freq. Relativa Acumulada


8% 80%
7% 70%
6% 60%
5% 50%
4% 40%
3% 30%
2% 20%
1% 10%
0% 0%

Bloco (Produo de energia mensal em % Potncia mxima)

reinaldo@ele.puc-rio.br 46
Diagrama de Pareto

Como fazer um diagrama de Pareto?


1) Faa um grfico de barras colocando a freqncia de cada
tipo de evento no eixo vertical, e arranjando os eventos em
ordem decrescente de ocorrncia. Assim, a primeira barra
corresponde ao evento que ocorre com mais freqncia, a
segunda barra diz respeito ao segundo evento mais
freqente, e assim por diante.

2) Crie um eixo vertical no lado direito do seu grfico


contendo as freqncias relativas acumuladas. Faa uma
linha juntando as frequncias relativas acumuladas e a
superponha ao grfico de barras.

reinaldo@ele.puc-rio.br 47
Exemplo Consumo Residencial
Os dados a seguir representam a distribuio de
domiclios residenciais por classe de consumo de
energia eltrica na rea de concesso de uma certa
distribuidora de energia. Os dados referem-se a uma
pesquisa realizada em 2012 com uma amostra de 2100
domiclios.

Consumidores Residenciais
Faixas de consumo nmero de domiclios frequncia relativa
< 80 kWh 170 (170/2100)x100 = 8,1%
80 - 150 kWh 467 (467/2100)x100 = 22,24%
151 - 220 kWh 445 21,19%
221 - 400 kWh 582 27,71%
>400 kWh 436 20,76%
Total 2100
reinaldo@ele.puc-rio.br 48
Exemplo Consumo Residencial
O diagrama de Pareto para estes dados :

Diagrama de Pareto

600

500
Nmero de domiclios

400

300

200

100

0
221 - 400 80 - 150 151 - 220 >400 kWh < 80 kWh
kWh kWh kWh
Faixa de consumo

reinaldo@ele.puc-rio.br 49
0.0
2.0
4.0
6.0
8.0
0.0
2.0
4.0
6.0
8.0

12.0
10.0
12.0

10.0

0.0
2.0
4.0
6.0
8.0
10.0
12.0
Street2014.2 Street2014.2 Street2014.2
Street2014.2 Street2014.2 Street2014.2
Street2014.2 Street2014.2 Street2014.2
Street2014.2 Street2014.2 Street2014.2
Street2014.2 Street2014.2 Street2014.2
Street2014.2 Street2014.2 Street2014.2
Street2014.2 Street2014.2 Street2014.2
Street2014.2 Street2014.2 Street2014.2
Street2014-1 Street2014-1 Street2014-1
Street2014-1 Street2014-1 Street2014-1
Street2014-1 Street2014-1 Street2014-1
Street2013-2 Street2013-2 Street2013-2
Street2013-2 Street2013-2 Street2013-2
Street2013-2 Street2013-2 Street2013-2
Street2013-2 Street2013-2 Street2013-2
Street2013-2 Street2013-2 Street2013-2
Street2013-2 Street2013-2 Street2013-2
Street2013-2 Street2013-2 Street2013-2
Street2013-2 Street2013-2 Street2013-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-2 Reinaldo2014-2 Reinaldo2014-2
Reinaldo2014-1 Reinaldo2014-1 Reinaldo2014-1
Reinaldo2014-1 Reinaldo2014-1 Reinaldo2014-1
Reinaldo2014-1 Reinaldo2014-1 Reinaldo2014-1
Reinaldo2014-1 Reinaldo2014-1 Reinaldo2014-1
Reinaldo2014-1 Reinaldo2014-1 Reinaldo2014-1
Reinaldo2014-1 Reinaldo2014-1 Reinaldo2014-1
P2
P1

Reinaldo2014-1 P3 Reinaldo2014-1 Reinaldo2014-1


Reinaldo2013-2 Reinaldo2013-2 Reinaldo2013-2
Reinaldo2013-2 Reinaldo2013-2 Reinaldo2013-2
Reinaldo2013-2 Reinaldo2013-2 Reinaldo2013-2
Reinaldo2013-2 Reinaldo2013-2 Reinaldo2013-2
Reinaldo2013-2 Reinaldo2013-2 Reinaldo2013-2
Reinaldo2013-2 Reinaldo2013-2 Reinaldo2013-2
Reinaldo2013-2 Reinaldo2013-2 Reinaldo2013-2
Reinaldo2013-2 Reinaldo2013-2 Reinaldo2013-2
Reinaldo2013-1 Reinaldo2013-1 Reinaldo2013-1
Reinaldo2013-1 Reinaldo2013-1 Reinaldo2013-1
Reinaldo2013-1 Reinaldo2013-1 Reinaldo2013-1
Reinaldo2013-1 Reinaldo2013-1 Reinaldo2013-1
Reinaldo2013-1 Reinaldo2013-1 Reinaldo2013-1
Reinaldo2013-1 Reinaldo2013-1 Reinaldo2013-1
Reinaldo2013-1 Reinaldo2013-1 Reinaldo2013-1
Reinaldo2012-2 Reinaldo2012-2 Reinaldo2012-2
Reinaldo2012-2 Reinaldo2012-2 Reinaldo2012-2
Reinaldo2012-2 Reinaldo2012-2 Reinaldo2012-2
Reinaldo2012-2 Reinaldo2012-2 Reinaldo2012-2
Reinaldo2012-2 Reinaldo2012-2 Reinaldo2012-2
Reinaldo2012-2 Reinaldo2012-2 Reinaldo2012-2
Reinaldo2012-2 Reinaldo2012-2 Reinaldo2012-2
Reinaldo2012-2 Reinaldo2012-2 Reinaldo2012-2
Reinaldo2011-2 Reinaldo2011-2 Reinaldo2011-2
Reinaldo2011-2 Reinaldo2011-2 Reinaldo2011-2
Reinaldo2011-2 Reinaldo2011-2 Reinaldo2011-2
Reinaldo2011-2 Reinaldo2011-2 Reinaldo2011-2
Reinaldo2011-2 Reinaldo2011-2 Reinaldo2011-2
Reinaldo2011-2 Reinaldo2011-2 Reinaldo2011-2
Reinaldo2011-2 Reinaldo2011-2 Reinaldo2011-2
Reinaldo2011-1 Reinaldo2011-1 Reinaldo2011-1
Reinaldo2011-1 Reinaldo2011-1 Reinaldo2011-1
Reinaldo2011-1 Reinaldo2011-1 Reinaldo2011-1
Reinaldo2011-1 Reinaldo2011-1 Reinaldo2011-1
Reinaldo2011-1 Reinaldo2011-1 Reinaldo2011-1
Algumas estatsticas

Taxa de aprovao: 82%

Com um pouco mais de informao:

Dado que 1 4 : 53%


Dado que 1 3 : 35%

Dado que 1 6 : 95%


Dado que 1 7 : 97%
Curva de Frequncia
Acumulada
100%
90%
80%
70%
Freq Acumulada

60%
50%
40%
30%
20%
10%
0%
0 1 2 3 4 5 6 7 8 9 10
Mdia antes da P4
Medidas Numricas

A partir de agora suponha que os dados


observados na amostra so x1, x2, ..., xn .
n o tamanho da amostra.
A partir dos x's vamos encontrar nmeros que
resumem as caractersticas da amostra. Vamos
estar interessados em dois tipos principais de
medidas numricas: as que caracterizam a
localizao do centro da amostra e as que
caracterizam a disperso dos dados.

reinaldo@ele.puc-rio.br 53
Medidas Numricas

Medidas de Localizao ou de tendncia


central
dizem onde est o "meio" dos seus dados
exemplo: mdia e mediana amostrais

Medidas de Disperso
dizem o quanto os seus dados esto espalhados
exemplo: desvio padro e varincia amostrais, amplitude
amostral

reinaldo@ele.puc-rio.br 54
Medidas de Tendncia Central

Mdia Amostral
1 n
X Xi
n i 1
No Excel: funo Mdia (....)
Considere agora a amostra x1, x2, ..., xn e suponha que voc
a ordene, de tal forma que x(1) seja o menor elemento da
amostra, x(2) seja o segundo menor elemento, ...., x(n) seja o
maior elemento da amostra. Os valores x(1), x(2), ..., x(n) so
chamados de estatsticas de ordem da amostra. Outras
medidas de tendncia central e de disperso sero
definidas a partir das estatsticas de ordem.

reinaldo@ele.puc-rio.br 55
Produo (% potncia mxima)

0.0
10.0
20.0
30.0
50.0
60.0
80.0

40.0
70.0

Jan-81
Mar-82
May-83
Jul-84
Sep-85
Nov-86
Jan-88
Mar-89
May-90
(Icaraizinho - NE).

Jul-91
Sep-92
Nov-93
Jan-95
Mar-96
May-97
Jul-98
Sep-99

reinaldo@ele.puc-rio.br
Nov-00
Jan-02
Mar-03
May-04
Medidas de Tendncia Central

Jul-05
Sep-06
Nov-07
Mdia Amostral: Produo da energia elica mensal

Jan-09
Mar-10
May-11
Jul-12
56
37.5%
Medidas de Tendncia Central

Mdia Amostral Condicional: Produo da energia elica


mensal (Icaraizinho - NE).
Aug Mdia Aug Feb Mdia Feb
70%
60%
Produo Mdia (% Pot)

50%
56%
40%
30%
20% 22%
10%
0%
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
Anos do Histrico

reinaldo@ele.puc-rio.br 57
Medidas de Tendncia Central
Mediana
definida a partir das estatsticas de ordem.
X n X n
2 1
2
se n, o tamanho da amostra, par
2

m ou
X
n 1 se n, o tamanho da amostra, mpar
2

Por exemplo, se existem 10 observaes na amostra, a


mediana equivale mdia entre x(5) e x(6) . Se a amostra
contm 11 elementos, a mediana x(5) . A mediana amostral
menos influenciada que a mdia por observaes
aberrantes (outliers).

No Excel a funo med(...)


reinaldo@ele.puc-rio.br 58
Medidas de Tendncia Central

Por exemplo, se os seus dados so 1,2,3,4,5, a


mdia amostral : (1+2+3+4+5)/5 = 3 e a mediana
amostral tem o mesmo valor.
Se agora os dados so:
1,2,3,4,45, a mdia amostral :
(1+2+3+4+45)/5 = 11, mas a mediana amostral
continua sendo 3.
Logo, a mdia amostral foi profundamente
influenciada por um nico valor, e o mesmo no
aconteceu com a mediana amostral.

reinaldo@ele.puc-rio.br 59
Medidas de Disperso

As medidas de tendncia central no so as


nicas medidas necessrias para caracterizar
uma amostra (ou populao).

Precisamos tambm saber o quanto as


observaes na amostra esto " espalhadas".

Por exemplo, no grfico a seguir as populaes


tm a mesma mdia, mas certamente a segunda
distribuio tem maior disperso.

reinaldo@ele.puc-rio.br 60
Medidas de Disperso:
Produo da energia elica mensal
(Icaraizinho - NE).
70%

60%
Produo Mdia (% Pot)

50%

40%

30% Aug
Feb
20%
Tem maior
10%
disperso:
0% mais
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 espalhada
Anos do Histrico em torno da
mdia
reinaldo@ele.puc-rio.br 61
Medidas de Disperso

Varincia Amostral
a medida mais comum de disperso . A
varincia amostral, denotada por s2 definida
como:
s2
1 n
X
2
X
n 1
i
i 1

Onde X a mdia amostral.


Note que, por definio, a varincia amostral
sempre no negativa!!!
A unidade de medida da varincia o quadrado
da unidade de medida das observaes, o que
dificulta a sua interpretao.
reinaldo@ele.puc-rio.br 62
Medidas de Disperso

Desvio Padro Amostral


O desvio padro amostral, denotado por s,
definido como a raiz quadrada positiva da
varincia amostral. Pelos comentrios anteriores,
notamos que s expresso nas mesmas unidades
de medida que as observaes na amostra.

1 n
i
2
s s2 X X
n 1 i 1

reinaldo@ele.puc-rio.br 63
Medidas de Disperso: Produo da
energia elica mensal (Icaraizinho -
NE).

Aug Md+Desv Aug Mdia Aug Md-Desv Aug


Feb Md+Desv Feb Mdia Feb Md-Desv Feb
70%
60%
Produo Mdia (% Pot)

4.9%
50%
40%
30%
8.3%
20%
10%
0%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Anos do Histrico

reinaldo@ele.puc-rio.br 64
Medidas de Disperso

Coeficiente de variao amostral


s
CV
X
uma medida adimensional, e serve principalmente
para comparar duas amostras que foram coletadas
em unidades de medida diferentes, por exemplo,
uma em cm e outra em polegadas.
Amplitude Amostral
A X ( n ) X (1) mx mn

reinaldo@ele.puc-rio.br 65
Como obter estatsticas
descritivas no Excel?
Opo 1
Use as funes apropriadas, por exemplo,
mdia(..), med(...), mximo(...), mnimo(...),
desvpad(...), ...
Opo 2
Use a ferramenta estatstica descritiva
dentro das opes de anlise de dados,
como indicado na tela a seguir. Vrias outras
estatsticas, como a curtose (que mede o
peso das caudas(extremos) e a assimetria,
so tambm fornecidas).
reinaldo@ele.puc-rio.br 66
Como obter estatsticas
descritivas no Excel?

reinaldo@ele.puc-rio.br 67
Como obter estatsticas
descritivas no Excel?

Clulas contendo os
dados

Indicador de nome
da varivel na 1a.
posio da coluna
ou linha

Produzir estatsticas
descritivas

reinaldo@ele.puc-rio.br 68
Percentis

O percentil x% o ponto tal que, a


probabilidade de estar abaixo dele x%.

O percentil 50% a MEDIANA de um


conjunto de dados, e qualquer percentil
entre 0 e 100% pode ser encontrado
atravs da funo PERCENTIL do Excel.

reinaldo@ele.puc-rio.br 69
Percentis: no MS Excel

Ordenar o conjunto de dados: {x(i)}i=1,...,n

O percentil de P%, por exemplo, 40% de um


conjunto de dados ordenado {15, 20, 35, 40, 50}
calculado da seguinte forma:
x = (n+1)P/100 = 2.4
k = inteiro[x] = 2
f = fracionrio[x] = 0.4
Percentil(P%) = x(k)+f(x(k+1)-x(k)) = 20 + 0.4x15 = 26

reinaldo@ele.puc-rio.br 70
Quartis

Primeiro Quartil: Q1 o percentil 25%,


ou seja, 25% das observaes esto
abaixo de Q1

Segundo Quartil: Q2 - a mediana

Terceiro Quartil: Q3 o percentil 75%

reinaldo@ele.puc-rio.br 71
Estatsticas Descritivas Retorno
do Petrleo WTI 01/1991 a 08/2006

reinaldo@ele.puc-rio.br 72
Percentis Retorno do Petrleo
WTI 01/1991 a 08/2006

Percentis
5% -3.53%
10% -2.53%
5% dos retornos 25% -1.17%
abaixo de -3.53%
50% 0.07%
75% 1.28%
90% 2.51%
95% 3.45%
90% dos retornos
abaixo de +2.51%

reinaldo@ele.puc-rio.br 73
Percentil:
Produo da energia elica mensal
(Icaraizinho - NE).

Percentil = 50% 45% 40% 35% 30% 25% 20% 15% 10% 5%
Jan 24.9 24.5 23.6 22.3 20.9 20.1 19.1 17.7 16.4 13.8
Feb 18.8 18.5 18.2 17.2 16.7 16.0 15.5 14.4 12.1 11.0
Mar 15.7 14.5 13.7 13.3 12.4 10.5 10.2 9.9 9.5 9.0
Apr 17.5 16.0 14.3 12.0 11.6 10.6 9.8 9.3 9.2 8.0
May 24.1 21.8 18.9 17.7 16.5 15.6 14.6 12.5 11.4 10.9
Jun 30.6 29.4 27.6 27.2 26.9 26.2 25.3 23.5 23.2 21.2
Jul 37.7 37.2 36.8 36.6 36.4 35.9 33.7 30.7 27.7 26.5
Aug 54.6 54.4 53.7 53.4 52.6 51.9 50.6 50.3 49.7 47.7
Sep 62.1 61.9 61.0 60.4 60.1 58.3 56.3 54.3 51.2 49.7
Oct 58.3 57.9 56.3 56.0 55.3 54.3 51.3 50.6 48.7 46.2
Nov 52.3 51.9 51.5 50.4 49.7 48.4 47.5 45.4 44.6 41.0
Dec 39.9 39.5 38.7 37.4 35.2 31.9 31.5 28.0 27.0 21.4
Mdia 36.4 35.6 34.5 33.7 32.8 31.6 30.4 28.9 27.6 25.5

50% 45% 40% 35% 30% 25% 20% 15% 10% 5%


Todos os
meses 35.8 32.1 29.1 27.2 24.9 22.4 18.8 17.1 14.4 11.2

reinaldo@ele.puc-rio.br 74
Percentil:
Produo da energia elica mensal
(Icaraizinho - NE).
Feb Aug
100%
95%
90%
85%
80%
Frequncia Relativa Acumulada

75%
70%
65%
60%
55%
50%
45%
40%
35%
30%
25%
20%
15%
10%
5%
0%
- 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0
Produo de energia (% potncia mxima)

reinaldo@ele.puc-rio.br 75
Anlise dos Retornos do
IBOVESPA
Considere agora os retornos dirios do
IBOVESPA no perodo entre 04 de julho de 1994 e
06/08/2004.

Defina o retorno dirio entre os dias t e t + 1


como:
Pt 1
Rt 1 log
Pt
Onde log denota o logaritmo natural (base e) e Pt
e Pt+1 so, respectivamente, os preos nos dias t e
t + 1.
O retorno definido acima chamado de retorno
geomtrico.
reinaldo@ele.puc-rio.br 76
Histograma dos Retornos
IBOVESPA
Histograma dos retornos dirios do IBOVESPA

500

450

400

350

300
Freqncia

250

200

150

100

50

0
- 7 - 6 - 6 - 5 - 5 - 4 - 4 - 3 - 3 - 2 - 2 - 1 - 1 - 0 0. 0. 1. 1. 2. 2. 3. 3. 4. 4. 5. 5. 6. 6. 7. M
.0 .5 .0 .5 .0 .5 .0 .5 .0 .5 .0 .5 .0 .5 00 50 00 50 00 50 00 50 00 50 00 50 00 50 00 ai
0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% % % % % % % % % % % % % % % % s

Bloco

reinaldo@ele.puc-rio.br 77
Percentis dos Retornos

Percentil Retorno Correspondente


1.0% -6.75%
5.0% -3.90%
10.0% -2.74%
25.0% -1.24%
50.0% 0.13%
75.0% 1.48%
90.0% 2.69%
95.0% 3.66%
99.0% 6.63%
reinaldo@ele.puc-rio.br 78
Anlise dos Retornos do
IBOVESPA
Uso da funo freqncia
Produz a freqncia (nmero de ocorrncias
num determinado intervalo).
Por exemplo, dentre 2501 retornos dirios do
IBOVESPA, a referncia:
FREQNCIA(E$3:E$2503;G7) significa:
Olhe para todos os dados em E$3 a E$2503 (so
os retornos dirios) e conte QUANTOS esto
ABAIXO do valor em G7.
O grfico destas frequncias mostrado na
prxima pgina.

reinaldo@ele.puc-rio.br 79
-
-1

500
1,000
1,500
2,000
2,500
3,000
5.
00
-7 %
.0
0
-6 %
.5
0
-6 %
.0
0
-5 %
.5
0
-5 %
.0
0
-4 %
.5
0
-4 %
IBOVESPA

.0
0
-3 %
.5
0
-3 %
.0
0
-2 %
.5
0
-2 %
.0
0
-1 %
.5
0
-1 %
.0
0
-0 %
.5
0%
0.
00
%
0.
50
%
1.
00
%
1.
50
%
2.
00
%
Anlise dos Retornos do

reinaldo@ele.puc-rio.br
2.
50
%
3.
00
%
3.
Frequncias Acumuladas - Retornos Dirios

50
%
4.
00
%
4.
50
%
5.
00
%
5.
50
%
6.
00
%
6.
50
%
7.
00
%
20
%
30
%
80
Anlise dos Retornos do
IBOVESPA
Se dividirmos cada uma destas freqncias
por 2501 obtemos as freqncias relativas
acumuladas veremos mais tarde que isso
uma aproximao para a funo de
distribuio acumulada.

Veja o prximo grfico.

reinaldo@ele.puc-rio.br 81
-1

0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
55%
60%
65%
70%
75%
80%
85%
90%
95%
100%
5.
00
-7 %
.0
0
-6 %
.5
0
-6 %
.0
0
-5 %
.5
0
-5 %
.0
0
-4 %
.5
0
IBOVESPA

-4 %
.0
0
-3 %
.5
0
-3 %
.0
0
-2 %
.5
0
-2 %
.0
0
-1 %
.5
0
-1 %
.0
0
-0 %
.5
0%
0.
00
%
0.
50
%
1.
00
%
1.
50
%
2.
00
%
2.
50
%
Anlise dos Retornos do

reinaldo@ele.puc-rio.br
3.
00
%
3.
50
%
4.
00
%
Frequncias Relativas Acumuladas - Retornos Dirios

4.
50
%
5.
00
%
5.
50
%
6.
00
%
6.
50
%
7.
00
%
20
%
30
%
82
Assimetria

O coeficiente de assimetria amostral


definido como:
1 n 3 n 3
X i X n X i X
3 n i 1 i 1
3/ 2 3/ 2
1 2 2

n n

i X X i X X
n i 1 i 1

Se o coeficiente zero, seus dados so simtricos em torno da


mdia.
Se o coeficiente positivo (assimetria positiva), existem
valores grandes maiores que a mdia => existe uma cauda
comprida para a direita.
reinaldo@ele.puc-rio.br 83
Assimetria

Em geral, se a
assimetria positiva, a
mdia MAIOR que a
mediana.

Na curva A acima a
assimetria positiva, O oposto ocorre se a
a curva B simtrica assimetria negativa (em
e a curva C tem geral mdia MENOR que a
mediana).
assimetria negativa.

reinaldo@ele.puc-rio.br 84
Assimetria

Dados com assimetria Dados simtricos


positiva

reinaldo@ele.puc-rio.br 85
Curtose

uma medida do achatamento de uma


distribuio de probabilidade.

Como a distribuio Normal tem curtose


igual a 3, usualmente define-se: excesso
de curtose, ou seja, o quanto uma
distribuio de probabilidade tem mais
curtose que a Normal e falta de curtose,
quanto uma distribuio de probabilidade
tem menos curtose que a Normal.
reinaldo@ele.puc-rio.br 86
Curtose.

Distribuies de retornos de ativos


financeiros geralmente tem a cara de
uma Normal, mas com excesso de
curtose!
Ao lado, a curva B
(mesocurtica) a Normal
padro, a curva C (platicurtica)
tem falta de curtose e curva A
(leptocurtica) tem excesso de
curtose.

reinaldo@ele.puc-rio.br 87
Curtose

A distribuio de referncia (Distribuio


Normal) denominada MESOCRTICA (Meso =
Meio, Central, etc.).
Quando a distribuio apresenta uma curva de
freqncia mais fechada (mais aguda em sua
parte superior), ela denominada LEPTOCRTICA
(Lepto = Delgado, Alongado, Magro, etc.)
Quando a distribuio apresenta uma curva de
freqncia mais aberta (mais achatada em sua
parte superior), ela denominada PLATICRTICA
(Plato = Chato, Plano, Largo, etc.).

reinaldo@ele.puc-rio.br 88
Curtose
A frmula do excesso de curtose :

n X i X
n
4

4 i 1
2
3
n 2
Xi X
i 1
Note que, se os seus dados so Normais, esta
medida prxima de zero.
o Se k4 for igual a zero a curva mesocurtica.
o Se k4 for maior que zero a curva platicurtica.
o Se k4 for menor que zero a curva leptocurtica.
reinaldo@ele.puc-rio.br 89
Exerccio1 (para casa)
Tomou-se uma amostra de 60 estudantes que fizeram uma
prova, e, a estatstica descritiva, diagrama de frequncia e
grfico das notas da prova esto a seguir:

ESTATSTICA DESCRITIVA
Mdia 5,4
Erro padro 0,3 Frequncia relativa
Bloco Freqncia acumulada
Mediana 5,6
Moda 3,8 1,2 1 1,67%
Desvio padro 2,6 (1,2 - 2,4] 11 20,00%
Varincia da amostra 7,0
(2,4 - 3,6] 4 26,67%
Curtose -1,2
Assimetria -0,1 (3,6 - 4,8] 9 41,67%
Intervalo 8,4 (4,8 - 6,0] 10 58,33%
Mnimo 1,2
(6,0 - 7,2] 8 71,67%
Mximo 9,6
Soma 325,7 (7,2 - 8,4] 5 80,00%
Contagem 60,0 > 8,4 12 100,00%
reinaldo@ele.puc-rio.br
90
Exerccio1 (para casa)
Histograma

reinaldo@ele.puc-rio.br
91
Exerccio1 (para casa)
Pergunta-se:
a) 80 % dos alunos, tiraram notas menores ou igual a
8,4.
V ( ) ou F ( ).
b) 60 % das notas dos alunos esto entre 1,2 e 8,4.
V ( ) ou F ( ).
c) Os valores da mdia e mediana permitem dizer que a
distribuio simtrica.
V ( ) ou F ( ).
d) Podemos dizer que 20% dos alunos tiraram notas
menores ou igual a 2,4.
V ( ) ou F ( ).

reinaldo@ele.puc-rio.br
92
Exerccio1 (para casa)
e) A assimetria negativa indica que existem mais notas
altas e menos notas baixas.
V ( ) ou F ( ).
f) Podemos dizer que a nota 5,4 a que mais vezes
acontece.
V ( ) ou F ( ).
g) O coeficiente de Variao conforme a estatstica
descritiva igual a 1,296.
V ( ) ou F ( ).
h) Construa o diagrama de Pareto desta amostra,
montando em blocos onforme o diagrama de
frequncia dado (esboce o grfico).

reinaldo@ele.puc-rio.br
93
Exerccio1 (para casa)
i)- Na tabela abaixo, temos o diagrama de frequncia de uma
amostra de 50 elementos onde: os intervalos [Li-1-L1) so
iguais; x i : o ponto mdio de cada classe (intervalo); fi:
frequncia absoluta simples; Fi: frequncia cumulada.
- Preencher os espaos vazios do diagrama de frequncia.

[Li-1-L1) xi fi Fi x if i
[160 180) 850
190
27 2730
9
-260) 1500
50
reinaldo@ele.puc-rio.br
94