Você está na página 1de 66

Mestrado Profissional em

Modelagem Computacional

Aplicações Estatísticas para Gestão de


TIC

Andreas Kneip
andreas@uft.edu.br 1
Aplicações Estatísticas para
Gestão de TIC
Introdução

Freund & Perles: Chapter 1

2
O que é Estatística
Falaremos de:
 Dados
 Numéricos ou Categóricos
 Nominal, ordinal, intervalo, razão

 Amostragem e população

 Dados enviesados

3
O que é Estatística
✔ R
 https://www.r-project.org/
 http://ecologia.ib.usp.br/bie5782/doku.php?id=start
 GUI (RStudio, Rcommander)
 Siga a ‘aula relâmpago’ para começar no R

 Bibliografia
➢ Statistics: a first course (Freund & Perles)
➢ Introduction to Mathematical Sttistics (Hogg et al.)
➢ Introduction to Linear Regression Analysis
(Montgomery et al.)
4
Medidas descritivas
Falaremos de:
 Medidas de posição
 medidas de tendência central = valor
típico (média, moda, mediana)
 quantis / percentis

 Medidas de dispersão (amplitude,


variância, desvio padrão)

 Medida de assimetria

5
Medidas de Tendência
Central ou de Posição

6
Medidas de tendência central
As medidas de posição (tendência central ou locação) são
valores calculados com o objetivo de representar os
dados de uma forma ainda mais condensada do que
usando uma tabela.
Quando o desejo é representar, por meio de um único
valor, determinado conjunto de informações que variam,
parece razoável escolher um valor central, mesmo que
este valor seja uma abstração. Na prática, essas medidas
estão relacionadas a dados quantitativos.

7
Exemplo
A gerente comercial de uma editora deseja
estudar o preço de venda de um livro de historias
infantis em 2 municípios: A e B.
Para estudar a distribuição de preços, foram
tomados os preços praticados por uma amostra
de 25 lojas do município A e de 20 lojas do
município B.

8
Dados
Município
A B
14,80 12,90 21,30 20,30
18,20 20,90 20,70 19,60
13,60 19,30 20,70 19,20
15,50 14,40 19,90 18,50
12,00 15,10 20,30 18,60
13,70 13,10 21,10 20,30
16,00 15,50 19,60 20,10
17,30 14,30 19,30 19,90
14,40 15,10 20,80 21,00
16,10 15,80 19,70 18,90
26,80 13,00
12,10 14,90
17,00
9
Ramo-e-folhas - Comparação
12 00 10 90 12
13 60 70 10 00 13
14 80 40 40 30 90 14 Município B
Município
15 50 10 50 10 80 15
A
16 00 10 16
17 30 00 17
18 20 18 50 60 90
19 30 19 90 60 30 70 60 20 90
20 90 20 70 70 30 80 30 30 10
21 21 30 10 00
22 22
23 23
24 24
25 25
26 80 26
10
Histograma - Comparação
Histogram a - Município A Histogram a - Município B

0.50 0.5

0.40 0.4
Densidade

Densidade
0.30 0.3

0.20 0.2

0.10 0.1

0.00 0
12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27 12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27

Preço em R$ Preço em R$

Análise Análise
• Distribuição assimétrica de • Distribuição pouco assimétrica;
preços;
• Pequena variabilidade de
• Grande variabilidade; preços;
• Preço típico entre 13 e 16; • Preço típico entre 19 e 21;
• Presença de um valor aberrante. • Não há valores aberrantes.11
Notação
Amostra de n observações da variável X:
x1, x2, ..., xn

Amostra ordenada de n observações da variável X:


x(1)  x(2)  ...  x(n)
Mínimo = x(1)
Máximo = x(n)

Medidas de tendência central


Média Aritmética ou simplesmente média representa o valor
“provável” de uma variável, por isso, é também chamada
de valor esperado ou esperança matemática, quando
calculada para a população.
12
Média Aritmética
n

x i
x i1
n

Valores aberrantes

Assimetrias
13
Medidas de tendência central

Mediana: valor que divide um conjunto de dados ordenados


ao meio. Em outras palavras, é um valor tal que tenha
igual quantidade de valores menores e maiores do que
ele.
Uma característica importante da mediana é que ela não é
afetada por dados extremos, como acontece com a média.

Moda: valor que ocorre com a maior freqüência

14
Mediana

{
x ; se n é ímpar
( (n+1)
2 )
md ( X )= x n
+x n
( 2) ( 2
+1 ) ; se n é par
2

15
Moda
mo(X) = Observação mais freqüente

0,07
Para 0,06

variáveis densidade de frequência


0,05

contínuas = 0,04

0,03

0,02

0,01

0
20000 30000 40000 50000 60000 70000
Salário
mo(X)
16
Exemplo: o número de computadores em 7
escritórios de uma determinada empresa é
n de computadores: 3 6 1 3 4 3 5

Média:
3  6 1  3  4  3  5
X 3,6
7

Mediana: 1 3 3 3 4 5 6

50% Mediana 50%


Moda = 3

17
Medidas de Tendência Central

Município A
Medida Com Sem Município B
26,80 26,80

Média 15,67 15,21 19,90


Mediana 15,10 15,00 20,00
Moda 14,4; 15,1 14,4; 15,1 20,30
e 15,5 e 15,5

18
Percentil ou Quantil

19
Percentis ou quantis
Amostra ordenada
p% menores (100-p)% maiores
observações observações

p
q(p)
i= ( )
100
.n

Quantil ou Percentil de ordem p (0<p<1): é o


valor que divide o conjunto de dados ordenado em
2 partes: uma delas com p% dos menores valores
e a outra com (100-p)% dos maiores valores. 20
Percentis ou quantis
A empresa ABC oferece um emprego com salário de
R$8.100,00 a Evandro. Para avaliar essa oferta, Evandro
compra um jornal onde publica-se os valores dos salários
de sua profissão conforme a tabela a seguir:

Percentil Salário ($) Evandro descobriu, observando a


10% 1500
tabela do jornal, que a empresa ABC
25% 2000
50% 3000 corresponde ao grupo dos 10% das
75% 4500 empresas que melhor remuneram
90% 8000 sua profissão.

21
Quartis
Amostra ordenada
25%
menores 50% - observações 25% maiores
observações centrais observações

q(0,25) md=q(0,50) q(0,75)

q(0,25)= Q1: primeiro quartil


Intervalo Interquartil
q(0,50)= Q2: segundo quartil (mediana)
IQ q(0,75)  q(0,25)
q(0,75)= Q3: terceiro quartil
22
Quartis e Percentis
Quartil: são valores que dividem o conjunto de dados
ordenados em quatro partes iguais. Cada parte
contendo 25% dos dados.

2210 2255 2350 2380 2390 2420 2440 2450 2550 2630 2825 2900

25% 25% 25% 25%


Q1 = 2365 Q2 = 2430 Q3 = 2590
(mediana)

Percentis P25 = Q1 P50 = Mediana P75 = Q3


i 25= (25100 ) 12=3 posição i 50= (50100 ) 12=6 posição i 75= (75100 ) 12=9 posição
2350  2380 2420  2440 2550  2630
2365 2430 2590
2 2 2
23
Percentis & Quartis
Medida Município A Município B
Mínimo 12,00 18,45
Q1 13,70 19,53
Mediana 15,10 20,00
Q3 16,10 20,70
Máximo 26,80 21,30
IQ 2,40 1,25

24
Box-Plot
O box-plot é uma figura que possibilita visualizar
várias características de um conjunto de dados
como:
• as de tendência central (mediana)
• de posição (primeiro quartil e terceiro quartil)
• de dispersão (intervalo entre quartis)
• de assimetria
• pode identificar os valores considerados como
extremos.

25
Abrir arquivo boxplot
Box-Plot
 Caixa que contém 50% das observações
centradas. Parte superior é Q3 e o inferior é Q1.
Mediana Q2 está dentro da caixa.
 IQ = Q3 - Q1
 Limite Superior = Q3 + 1.5 IQ
 Limite Inferior = Q1 - 1.5 IQ
 Ponto Extremo ou aberrante (“outlier”) - acima do
L.S. ou abaixo do L.I.

26
Box-plot

27
Abrir arquivo boxplot
Valores aberrantes?
 Pontos com comportamento diferente do
observado para a maioria dos dados.

 Pontos distantes da massa dos dados.

 Pontos desajustados.

28
Causas de valores aberrantes

 Erros de medida (transcrição/ digitação).


 Unidade amostral não pertence à população
em estudo.
 Ocorrência de evento extraordinário com
explicação científica (variabilidade natural dos
dados).

29
O que fazer com valores
aberrantes?
Depende de como foi gerado.

Retirar da amostra se for fruto de erros de medida,


de transcrição/ digitação ou se a unidade
amostral não pertence à população em estudo.
Considerar na análise se for fruto da variabilidade
natural dos dados; nesse caso adotar técnicas
robustas de análise ou fazer a análise com e
sem o valor.
30
Valores Aberrantes Unidimensionais
Gráfico de caixas
Histograma
15

9
10

8
5

7
0

6
6 7 8 9 10

Aval1
15

7
6
10

5
5

4
0

4 5 6 7

Aval1

31
Atenção para distribuições
assimétricas

Histograma Gráfico de Caixas

Valores
aberrantes ou
60

300
50

conseqüência da
40

200
assimetria?
30

100
20
10

0
0

0 100 200 300 400

Aval2

32
Medidas de Dispersão

33
Medidas de Dispersão
A distribuidora Mesquita e Freitas faz pedido de livros regularmente
para dois fornecedores (A e B). Os dois fornecedores dizem que
necessitam de 10 dias, em média, para entregar os pedidos.
Atualmente, o diretor de compras da M&F faz pedidos iguais aos dois
fornecedores mas gostaria de aumentar o pedido para um deles. O
histograma do tempo de entrega dos dois fornecedores encontram-se
abaixo:

34
Medidas de dispersão

O tempo médio de entrega dos 2 fornecedores parece o


mesmo mas os valores do tempo de entrega do fornecedor B
estão mais dispersos em relação ao tempo médio de entrega
(isto é equivalente a dizer que os tempos de entrega do
fornecedor A estão mais concentrados em relação ao tempo
médio de entrega)
35
Medidas de dispersão
Amplitude:   x (n) - x (1)
Município controle:  = 26,80 - 12,00= 14,80
Município controle sem a maior observação:
 = 20,90 - 12,00= 8,90

Características
• simples;
• muito afetada por outliers;
• não considera a distribuição dos dados.
36
Coeficientes baseados em
distâncias a uma medida de
tendência central

Baixa variabilidade Alta variabilidade


As observações As observações
estão próximas á estão mais distantes
medida de tendência da medida de
central tendência central 37
Desvio médio absoluto
n

x i  x
dm(X)  i1
n
Município A (amostra completa) dm(X)=2,11
Município A (sem 26,80) dm(X)=1,63

Município B dm(Y)=0,67
38
Variância
n n

 x  x
2 2 2
i x i  nx
var(X) Sn2  i1  i1
n -1 n -1

Município A var(X)=S2n= 9,93


Município A (sem 26,80) var(X)= S2n =4,76

Município B var(Y) =0,67

39
Medidas de dispersão
Variância:
 A variância da amostra é a média das diferenças ao
quadrado entre cada uma das observações e a média do
conjunto.
 Um dos problemas de usar a variância como medida de
dispersão é o fato de sua unidade não ser a mesma unidade
em que a variável foi medida (os valores dos dados estão
elevados ao quadrado). A solução é extrair a raiz quadrada
positiva da variância, já que, com isso, se volta à unidade
original da variável.
40
Desvio padrão


n
∑ ( xi − x̄ ) 2

i=1
dp ( X )=S n =
n-1

Município A dp(A) = Sn= 3,15


Município A dp(A) = Sn= 2,18

Município B dp(B) = 0,82


41
Medidas de Dispersão

22 23 25 27 30 32 35 36 36 37 38 41

25% 25% 25% 25%


Q2 = 33,5
(mediana)
Q1 = 26 Q3 = 36,50

R = 41 – 22 = 19 IQ = 36,50– 26 = 10,50

22  31,8  23  31,8  ....  41  31,8


DM  5,36
12
42
Medidas de Dispersão

22 23 25 27 30 32 35 36 36 37 38 41

s2 
 22  31,8  2
  23  31,8  2
 ....   41  31,8  2
40,15
12 - 1

s  s2  40,15 6,33

43
Medidas de Dispersão
Coeficiente variação ( CV ): é uma medida de variabilidade
como uma fração em relação à média, expresso em
porcentagem. Essa medida é útil quando comparamos
variabilidade de dois ou mais grupos de dados expressos em
unidades de medidas diferentes ou quando a magnitude dos
dados são muito díspares.


n
∑( i )
x − x̄ 2

i =1
desvio padrão n−1
CV = ×100= ×100
média x̄

44
Medidas de Dispersão
S
Coeficiente de Variação (CV): CV  100%
X
Município A : CV = 20,11%
Município B : CV = 4,10%

Características
• Medida relativa da dispersão;
• Útil para comparar a variabilidade de dados expressos em
unidades distintas;
Útil para comparar a variabilidade de dados que são expressos nas
mesmas unidades, porém apresentam valores muito distintos.

45
Medidas de Dispersão
Um instituto de pesquisa de preços, coletou dados de preços
de uma geladeira e de um liquidificador em cinco lojas na
cidade de SP. Compare os preços dos produtos, qual deles
apresenta maior variação de preços?

Não podemos comparar o desvio


padrão dos preços da geladeira e do
liquidificador pelo fato dos preços das
geladeiras serem uma ordem de
grandeza maior que do liquidificador.
Para comparar tais produtos devemos
calcular o coeficiente de variação dos
dois produtos.
46
Medidas de Dispersão
Um instituto de pesquisa de preços, coletou dados de preços
de uma geladeira e de um liquidificador em cinco lojas na
cidade de SP. Compare os preços dos produtos, qual deles
apresenta maior variação de preços?

41,72
CVgeladeria  100 4,84%
860,6

11,41
CVLiquidificador  100 13,45%
84,8

Observe que o coeficiente de variação do liquidificador é


superior ao geladeira. Isso significa que a variação
percentual do Liquidificador é maior do que da Geladeira.
47
O que vimos
até agora

48
Medidas de Tendência Central
n

x i
Média x  i1
n

{
x n +1 ; se n é ímpar
( 2 )
Mediana md ( X )= x
( 2)n
+x
( n 2 + 1) ; se n é par
2

Moda mo(X) = Observação mais freqüente


0,07
d en sid ad e d e fr eq uência

0,06

0,05

0,04

0,03

0,02

0,01

0
20000 30000 40000 50000
Salário
60000 70000
49
Medidas de dispersão
 Amplitude:   x (n) - x (1)
n
∑ |x i − x̄|
i=1
 Desvio médio: dm( X )=
n
n
∑( i )
x − x̄ 2

 Variância: var ( X )=S 2n = i=1


n-1
 Desvio-padrão:
dp(X) Sn  var( X )

50
Para pensar...
Suponha que se adicionou 100, a cada um dos valores
de uma amostra. O que é que acontece ao:

a) Desvio padrão
b) Amplitude interquartil
c) Amplitude
d) Média
e) Mediana

51
Coeficiente de
Assimetria

52
Posição relativa
Distribuições
Simétricas
Simétrico

Moda
x Mediana
Média
md(X)
mo(X) 53
Posição relativa
Assimetria positiva
Assimetria positiva
ou à direita

Moda
Média
Mediana
mo(X)
md(X)

x 54
Posição relativa
Assimetria negativa
Assimetria negativa
ou à esquerda

Moda
Média
Mediana

mo(X)
md(X)

x 55
Coeficiente de Assimetria de Pearson
A maioria das distribuições tem um
índice de assimetria entre -3 e 3.
3( x  mediana ) Quando P>0, os dados são
P assimétricos à direta. Quando P<0,
s os dados são simétricos à
esquerda. Se P=0, os dados são
simétricos.

Coeficiente de Assimetria do Excel


O indicador de assimetria do Excel (COEFICIENTE DE INCLINAÇÃO)
é calculado pela fórmula abaixo, quando registramos a função
=DISTORÇÃO():

x i− x
n
( )
CI = 0 Distribuição Simétrica

CI =
(n−1 ).(n−2 )
∑ s
CI < 0
CI > 0
Distribuição Assimétrica Negativa
Distribuição Assimétrica Positiva

56
No nosso exemplo dos municípios A e B:
Histograma - Comparação
Histogram a - Município A Histogram a - Município B

0.50 0.5

0.40 0.4
Densidade

Densidade
0.30 0.3

0.20 0.2

0.10 0.1

0.00 0
12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27 12 --| 13 13 --| 14 14 --| 15 15 --| 16 16 --| 17 17 --| 18 18 --| 19 19 --| 20 20 --| 21 21 --| 22 22 --| 23 23 --| 24 24 --| 25 25 --| 26 26 --| 27

Preço em R$ Preço em R$

Análise Análise
• Distribuição assimétrica; • Distribuição pouco assimétrica;
• Grande variabilidade; • Pequena variabilidade;
• Preço típico entre 13 e 16; • Preço típico entre 19 e 21;
• Presença de um valor aberrante. • Não há valores aberrantes.
57
Medidas-Resumo
Medida-resumo A B
Média 15.67 19.99
Mediana 15.10 20.00
Modo 15.50 20.30
Desvio padrão 3.15 0.82
Variância da amostra 9.94 0.67
Assimetria 2.04 -0.24
Intervalo 14.80 2.80
Mínimo 12.00 18.50
Máximo 26.80 21.30
Contagem 25 20
58
Escolhendo uma aplicação
Você foi contratado para trabalhar no
departamento financeiro de uma conhecida
editora de livros cuja matriz fica na Europa. Sua
primeira tarefa é sugerir uma aplicação à
empresa. Você pode aplicar em ações da
Petrobrás ou nas ações do Itaú.
ITSA3.CSV e PETR4.CSV

59
60
Fechamento – PETR4
setembro/2006 a setembro/2016

61
Fechamento – ITSA3
setembro/2006 a setembro/2016

62
Retornos diários (%) – PETR4
setembro/2006 a setembro/2016

63
Retornos diários (%) – ITSA3
setembro/2006 a setembro/2016

64
Comparação dos retornos

65
Comparação dos retornos

PETR4

ITSA3

66

Você também pode gostar