Escolar Documentos
Profissional Documentos
Cultura Documentos
Modelagem Computacional
Andreas Kneip
andreas@uft.edu.br 1
Aplicações Estatísticas para
Gestão de TIC
Introdução
2
O que é Estatística
Falaremos de:
Dados
Numéricos ou Categóricos
Nominal, ordinal, intervalo, razão
Amostragem e população
Dados enviesados
3
O que é Estatística
✔ R
https://www.r-project.org/
http://ecologia.ib.usp.br/bie5782/doku.php?id=start
GUI (RStudio, Rcommander)
Siga a ‘aula relâmpago’ para começar no R
Bibliografia
➢ Statistics: a first course (Freund & Perles)
➢ Introduction to Mathematical Sttistics (Hogg et al.)
➢ Introduction to Linear Regression Analysis
(Montgomery et al.)
4
Medidas descritivas
Falaremos de:
Medidas de posição
medidas de tendência central = valor
típico (média, moda, mediana)
quantis / percentis
Medida de assimetria
5
Medidas de Tendência
Central ou de Posição
6
Medidas de tendência central
As medidas de posição (tendência central ou locação) são
valores calculados com o objetivo de representar os
dados de uma forma ainda mais condensada do que
usando uma tabela.
Quando o desejo é representar, por meio de um único
valor, determinado conjunto de informações que variam,
parece razoável escolher um valor central, mesmo que
este valor seja uma abstração. Na prática, essas medidas
estão relacionadas a dados quantitativos.
7
Exemplo
A gerente comercial de uma editora deseja
estudar o preço de venda de um livro de historias
infantis em 2 municípios: A e B.
Para estudar a distribuição de preços, foram
tomados os preços praticados por uma amostra
de 25 lojas do município A e de 20 lojas do
município B.
8
Dados
Município
A B
14,80 12,90 21,30 20,30
18,20 20,90 20,70 19,60
13,60 19,30 20,70 19,20
15,50 14,40 19,90 18,50
12,00 15,10 20,30 18,60
13,70 13,10 21,10 20,30
16,00 15,50 19,60 20,10
17,30 14,30 19,30 19,90
14,40 15,10 20,80 21,00
16,10 15,80 19,70 18,90
26,80 13,00
12,10 14,90
17,00
9
Ramo-e-folhas - Comparação
12 00 10 90 12
13 60 70 10 00 13
14 80 40 40 30 90 14 Município B
Município
15 50 10 50 10 80 15
A
16 00 10 16
17 30 00 17
18 20 18 50 60 90
19 30 19 90 60 30 70 60 20 90
20 90 20 70 70 30 80 30 30 10
21 21 30 10 00
22 22
23 23
24 24
25 25
26 80 26
10
Histograma - Comparação
Histogram a - Município A Histogram a - Município B
0.50 0.5
0.40 0.4
Densidade
Densidade
0.30 0.3
0.20 0.2
0.10 0.1
0.00 0
12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27 12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27
Preço em R$ Preço em R$
Análise Análise
• Distribuição assimétrica de • Distribuição pouco assimétrica;
preços;
• Pequena variabilidade de
• Grande variabilidade; preços;
• Preço típico entre 13 e 16; • Preço típico entre 19 e 21;
• Presença de um valor aberrante. • Não há valores aberrantes.11
Notação
Amostra de n observações da variável X:
x1, x2, ..., xn
x i
x i1
n
Valores aberrantes
Assimetrias
13
Medidas de tendência central
14
Mediana
{
x ; se n é ímpar
( (n+1)
2 )
md ( X )= x n
+x n
( 2) ( 2
+1 ) ; se n é par
2
15
Moda
mo(X) = Observação mais freqüente
0,07
Para 0,06
contínuas = 0,04
0,03
0,02
0,01
0
20000 30000 40000 50000 60000 70000
Salário
mo(X)
16
Exemplo: o número de computadores em 7
escritórios de uma determinada empresa é
n de computadores: 3 6 1 3 4 3 5
Média:
3 6 1 3 4 3 5
X 3,6
7
Mediana: 1 3 3 3 4 5 6
17
Medidas de Tendência Central
Município A
Medida Com Sem Município B
26,80 26,80
18
Percentil ou Quantil
19
Percentis ou quantis
Amostra ordenada
p% menores (100-p)% maiores
observações observações
p
q(p)
i= ( )
100
.n
21
Quartis
Amostra ordenada
25%
menores 50% - observações 25% maiores
observações centrais observações
2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825 2900
24
Box-Plot
O box-plot é uma figura que possibilita visualizar
várias características de um conjunto de dados
como:
• as de tendência central (mediana)
• de posição (primeiro quartil e terceiro quartil)
• de dispersão (intervalo entre quartis)
• de assimetria
• pode identificar os valores considerados como
extremos.
25
Abrir arquivo boxplot
Box-Plot
Caixa que contém 50% das observações
centradas. Parte superior é Q3 e o inferior é Q1.
Mediana Q2 está dentro da caixa.
IQ = Q3 - Q1
Limite Superior = Q3 + 1.5 IQ
Limite Inferior = Q1 - 1.5 IQ
Ponto Extremo ou aberrante (“outlier”) - acima do
L.S. ou abaixo do L.I.
26
Box-plot
27
Abrir arquivo boxplot
Valores aberrantes?
Pontos com comportamento diferente do
observado para a maioria dos dados.
Pontos desajustados.
28
Causas de valores aberrantes
29
O que fazer com valores
aberrantes?
Depende de como foi gerado.
9
10
8
5
7
0
6
6 7 8 9 10
Aval1
15
7
6
10
5
5
4
0
4 5 6 7
Aval1
31
Atenção para distribuições
assimétricas
Valores
aberrantes ou
60
300
50
conseqüência da
40
200
assimetria?
30
100
20
10
0
0
Aval2
32
Medidas de Dispersão
33
Medidas de Dispersão
A distribuidora Mesquita e Freitas faz pedido de livros regularmente
para dois fornecedores (A e B). Os dois fornecedores dizem que
necessitam de 10 dias, em média, para entregar os pedidos.
Atualmente, o diretor de compras da M&F faz pedidos iguais aos dois
fornecedores mas gostaria de aumentar o pedido para um deles. O
histograma do tempo de entrega dos dois fornecedores encontram-se
abaixo:
34
Medidas de dispersão
Características
• simples;
• muito afetada por outliers;
• não considera a distribuição dos dados.
36
Coeficientes baseados em
distâncias a uma medida de
tendência central
x i x
dm(X) i1
n
Município A (amostra completa) dm(X)=2,11
Município A (sem 26,80) dm(X)=1,63
Município B dm(Y)=0,67
38
Variância
n n
x x
2 2 2
i x i nx
var(X) Sn2 i1 i1
n -1 n -1
39
Medidas de dispersão
Variância:
A variância da amostra é a média das diferenças ao
quadrado entre cada uma das observações e a média do
conjunto.
Um dos problemas de usar a variância como medida de
dispersão é o fato de sua unidade não ser a mesma unidade
em que a variável foi medida (os valores dos dados estão
elevados ao quadrado). A solução é extrair a raiz quadrada
positiva da variância, já que, com isso, se volta à unidade
original da variável.
40
Desvio padrão
√
n
∑ ( xi − x̄ ) 2
i=1
dp ( X )=S n =
n-1
22 23 25 27 30 32 35 36 36 37 38 41
R = 41 – 22 = 19 IQ = 36,50– 26 = 10,50
22 23 25 27 30 32 35 36 36 37 38 41
s2
22 31,8 2
23 31,8 2
.... 41 31,8 2
40,15
12 - 1
s s2 40,15 6,33
43
Medidas de Dispersão
Coeficiente variação ( CV ): é uma medida de variabilidade
como uma fração em relação à média, expresso em
porcentagem. Essa medida é útil quando comparamos
variabilidade de dois ou mais grupos de dados expressos em
unidades de medidas diferentes ou quando a magnitude dos
dados são muito díspares.
√
n
∑( i )
x − x̄ 2
i =1
desvio padrão n−1
CV = ×100= ×100
média x̄
44
Medidas de Dispersão
S
Coeficiente de Variação (CV): CV 100%
X
Município A : CV = 20,11%
Município B : CV = 4,10%
Características
• Medida relativa da dispersão;
• Útil para comparar a variabilidade de dados expressos em
unidades distintas;
Útil para comparar a variabilidade de dados que são expressos nas
mesmas unidades, porém apresentam valores muito distintos.
45
Medidas de Dispersão
Um instituto de pesquisa de preços, coletou dados de preços
de uma geladeira e de um liquidificador em cinco lojas na
cidade de SP. Compare os preços dos produtos, qual deles
apresenta maior variação de preços?
41,72
CVgeladeria 100 4,84%
860,6
11,41
CVLiquidificador 100 13,45%
84,8
48
Medidas de Tendência Central
n
x i
Média x i1
n
{
x n +1 ; se n é ímpar
( 2 )
Mediana md ( X )= x
( 2)n
+x
( n 2 + 1) ; se n é par
2
0,06
0,05
0,04
0,03
0,02
0,01
0
20000 30000 40000 50000
Salário
60000 70000
49
Medidas de dispersão
Amplitude: x (n) - x (1)
n
∑ |x i − x̄|
i=1
Desvio médio: dm( X )=
n
n
∑( i )
x − x̄ 2
50
Para pensar...
Suponha que se adicionou 100, a cada um dos valores
de uma amostra. O que é que acontece ao:
a) Desvio padrão
b) Amplitude interquartil
c) Amplitude
d) Média
e) Mediana
51
Coeficiente de
Assimetria
52
Posição relativa
Distribuições
Simétricas
Simétrico
Moda
x Mediana
Média
md(X)
mo(X) 53
Posição relativa
Assimetria positiva
Assimetria positiva
ou à direita
Moda
Média
Mediana
mo(X)
md(X)
x 54
Posição relativa
Assimetria negativa
Assimetria negativa
ou à esquerda
Moda
Média
Mediana
mo(X)
md(X)
x 55
Coeficiente de Assimetria de Pearson
A maioria das distribuições tem um
índice de assimetria entre -3 e 3.
3( x mediana ) Quando P>0, os dados são
P assimétricos à direta. Quando P<0,
s os dados são simétricos à
esquerda. Se P=0, os dados são
simétricos.
x i− x
n
( )
CI = 0 Distribuição Simétrica
CI =
(n−1 ).(n−2 )
∑ s
CI < 0
CI > 0
Distribuição Assimétrica Negativa
Distribuição Assimétrica Positiva
56
No nosso exemplo dos municípios A e B:
Histograma - Comparação
Histogram a - Município A Histogram a - Município B
0.50 0.5
0.40 0.4
Densidade
Densidade
0.30 0.3
0.20 0.2
0.10 0.1
0.00 0
12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27 12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27
Preço em R$ Preço em R$
Análise Análise
• Distribuição assimétrica; • Distribuição pouco assimétrica;
• Grande variabilidade; • Pequena variabilidade;
• Preço típico entre 13 e 16; • Preço típico entre 19 e 21;
• Presença de um valor aberrante. • Não há valores aberrantes.
57
Medidas-Resumo
Medida-resumo A B
Média 15.67 19.99
Mediana 15.10 20.00
Modo 15.50 20.30
Desvio padrão 3.15 0.82
Variância da amostra 9.94 0.67
Assimetria 2.04 -0.24
Intervalo 14.80 2.80
Mínimo 12.00 18.50
Máximo 26.80 21.30
Contagem 25 20
58
Escolhendo uma aplicação
Você foi contratado para trabalhar no
departamento financeiro de uma conhecida
editora de livros cuja matriz fica na Europa. Sua
primeira tarefa é sugerir uma aplicação à
empresa. Você pode aplicar em ações da
Petrobrás ou nas ações do Itaú.
ITSA3.CSV e PETR4.CSV
59
60
Fechamento – PETR4
setembro/2006 a setembro/2016
61
Fechamento – ITSA3
setembro/2006 a setembro/2016
62
Retornos diários (%) – PETR4
setembro/2006 a setembro/2016
63
Retornos diários (%) – ITSA3
setembro/2006 a setembro/2016
64
Comparação dos retornos
65
Comparação dos retornos
PETR4
ITSA3
66