Você está na página 1de 156

MÉTODOS

QUANTITATIVOS
APLICADOS À
CONTABILIDADE I

LUCAS SCHWARZ, MSC.

Contato: lucasschwarz@usp.br
ESTATÍSTICA DESCRITIVA: MEDIDAS NUMÉRICAS
RESUMINDO CONJUNTOS DE DADOS POR MEIO DE MEDIDAS NUMÉRICAS.
ESTATÍSTICA DESCRITIVA COM MEDIDAS NUMÉRICAS

Medidas
numéricas

Dispersão/
Posição Forma Associação
Variabilidade

Forma da
Média Amplitude Covariância
distribuição

Coeficiente de
Mediana Variância Escores-z
correlação

Teorema de
Moda Desvio padrão
Chebyshev

Detecção de
Percentis e Coeficiente de
outliers e
Quartis variação
boxplots
CONJUNTO DE DADOS: POPULAÇÃO
Aluno Idade Altura Nota final Localização
A 20 170 9,5 Urbano
B 22 175 9,4 Urbano
C 23 174 9,8 Rural
D 21 163 10,00 Urbano
Se uso dados populacionais =
E 26 169 8,9 Rural Parâmetros populacionais
F 22 170 10,00 Urbano
G 30 179 7,4 Urbano
H 41 185 9,2 Urbano
I 21 163 8,7 Rural
J 20 167 4,7 Urbano
CONJUNTO DE DADOS: AMOSTRA

Aluno Idade Altura Nota final Localização


A 20 170 9,5 Urbano
G 30 179 7,4 Urbano Se uso dados amostrais =
C 23 174 9,8 Rural Estatísticas amostrais
I 21 163 8,7 Rural
E 26 169 8,9 Rural

A estatística descritiva é calculada para cada


variável, exceto quando se tratar de medidas de
associação. O que temos aqui está no “formato”
de DATAFRAME.
RESUMIDAMENTE...

Se as medidas calculadas referem-se a


dados de uma população, são chamadas
parâmetros populacionais

Se as medidas calculadas
referem-se para a dados de
uma amostra, são chamadas
estatísticas da amostra
NOTAÇÃO ESTATÍSTICA

 Estatística sobre amostra são representadas por letras latinas


(alfabeto);

 Estatísticas sobre a população são representadas por letras gregas;


MEDIDAS DE POSIÇÃO
MEDIDAS DE POSIÇÃO

 Média
 Mediana
 Moda
 Percentis
 Quartis
MÉDIA

 Medida de posição mais conhecida;

 É uma medida de posição central;

 Usamos duas representações distintas para a média, a depender do


conjunto de dados utilizado: µ (população) e (amostra).
MÉDIA AMOSTRAL (𝑥 ̅)

Soma dos valores das


n observações

𝑥=
∑ 𝑥𝑖
𝑛
Número de observações
na amostra
MÉDIA POPULACIONAL (𝜇)

Soma dos valores das


N observações

𝜇=
∑ 𝑥𝑖
𝑁
Número de observações
da população
MÉDIA AMOSTRAL

 Suponha um conjunto de dados com informações sobre aluguel de


apartamentos;

 Setenta apartamentos foram aleatoriamente amostrados em uma pequena


cidade. Os preços de aluguel para estes apartamentos estão listados em
ordem crescente no próximo slide.

 Arquivo: Apartamentos
MÉDIA AMOSTRAL

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
14
MÉDIA AMOSTRAL

𝑥=
∑ 𝑥𝑖 34.356
= =𝟒𝟗𝟎 ,𝟖𝟎
𝑛 70

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
15

575 575 580 590 600 600 600 600 615 615
MÉDIA PONDERADA

A média amostral aritmética também pode ser apresentada da seguinte forma:

Ou seja, cada observação na amostra recebe um peso de .

A média ponderada considera que cada observação tem um peso que reflete sua
importância relativa.
MÉDIA PONDERADA

Onde é o peso da observação i.

Exemplo:

Média ponderada das notas de n turmas, com o Número de alunos como ponderação.
MÉDIA PONDERADA

Quantidade de alunos Nota () Nota ()

5 8 40
3 5 15
2 7,5 15

=
MÉDIA PONDERADA

A escolha do fator ponderador depende da aplicação.

Em resumo, é o aplicador que definirá o peso que reflita a melhor


importância sobre cada observação da média.

No contexto de finanças: usamos média ponderada para calcular o retorno de


um portfolio ou o WACC (o WACC é uma ferramenta super poderosa de
finanças, com forte aplicabilidade em múltiplos contextos!)
MÉDIA PONDERADA
 O Weighted Average Cost of Capital (WACC) ou Custo Médio Ponderado de
Capital possui várias definições;

 Uma delas é que a taxa representa a remuneração requerida sobre o capital investido
em uma determinada empresa, seja na forma de debt ou de equity;

 “Médio ponderado” visto que nem todos os investidores e credores requerem a


mesma taxa de remuneração;

 A média é ponderada pelo capital investido de cada credor ou investidor.


MÉDIA PONDERADA:

O custo médio ponderado de capital nada mais é do que uma média ponderada baseada na
proporção de equity e dívida.
MÉDIA PONDERADA: RELEVÂNCIA
MÉDIA PONDERADA

Abrindo as demonstrações financeiras da Petrobras e da Coca-Cola...

https://www.investidorpetrobras.com.br/resultados-e-comunicados/c
entral-de-resultados/
(DFP)
https://investors.coca-colacompany.com/ (Form 10-K)
MÉDIA GEOMÉTRICA

É uma medida de posição calculada encontrando-se a enésima raiz do produto de n


valores. Fórmula geral para a média geométrica, denotada como :

Muito utilizada no contexto de finanças. Quando falamos de taxas de crescimento,


a média geométrica tende a ser a medida de posição mais adequada.
MÉDIA GEOMÉTRICA

 Retornos anuais percentuais e fatores de crescimento para um


fundo de investimento ativo. Arquivo: FundoInvestimento
Ano Retorno (%) Fator de crescimento
1 -22,1 0,779
2 28,7 1,287
3 10,9 1,109
4 4,9 1,049
5 15,8 1,158
6 5,5 1,055
7 -37,0 0,630
8 26,5 1,265
9 15,1 1,151
10 2,1 1,021
MÉDIA GEOMÉTRICA

Suponha que queremos calcular quanto R$100 investidos no fundo no início do ano
1 valeriam no final do ano 10.

Saldo do fundo no final do ano 1:

R$100 * (1 – 0,221) = 77,90


R$100 * (0,779) = 77,90
Fator de crescimento = 0,779
MÉDIA GEOMÉTRICA

O saldo do ano 1 então se torna o saldo inicial do ano 2. No ano 2, o retorno foi de 28,7%.

R$77,90 * (1 + 0,287) = 102,2573


Fator de crescimento = 1,287

Ao final do ano 2, o saldo do fundo é:

R$100(0,779)(1,287) = 100,26
MÉDIA GEOMÉTRICA

Podemos generalizar isso para os demais anos. Para os 10 anos, teríamos que o
saldo final do investimento seria de:

R$100(0,779)(1,287)(1,109)(1,049)(1,158)(1,055)(0,630)(1,265)(1,151)(1,021)
=
R$100*(1,334493) = R$133,4493
MÉDIA GEOMÉTRICA

Conclusão: um investimento de R$100 no fundo no início do ano 1 valeria


R$133,4493 no final do ano 10.

Podemos calcular o retorno, com base no produto dos 10 fatores de crescimento


(1,334493), para qualquer quantia investida.

Quanto teria rendido R$3500?


MÉDIA GEOMÉTRICA

Mas, qual foi a porcentagem média


de retorno anual?!
MÉDIA GEOMÉTRICA

Produto dos 10 fatores de crescimento = 1,334493.


n = 10

1,029275 – 1 = 0,029275 = 2,9275%


NA 12C
MÉDIA GEOMÉTRICA

 R$100 * (1,029275)^10 = R$133,4493 ao final de 10 anos.

 Por qual razão não usar a média aritmética?

 Media aritmética é destinada a processos de adição!

 Média geométrica é destinada para processo de multiplicação, como taxas de


crescimento!
APLICAÇÃO PRÁTICA DE MÉDIA GEOMÉTRICA: CAGR

CAGR: Taxa de crescimento anual composto. Métrica amplamente utilizada para


mostras tendências relacionadas à receitas, despesas ou outros indicadores ao
longo do tempo.
APLICAÇÃO PRÁTICA DE MÉDIA GEOMÉTRICA: CAGR
APLICAÇÃO PRÁTICA DE MÉDIA GEOMÉTRICA: CAGR
APLICAÇÃO PRÁTICA DE MÉDIA GEOMÉTRICA: CAGR
APLICAÇÃO PRÁTICA DE MÉDIA GEOMÉTRICA: CAGR
MEDIANA

Também é uma medida de posição central;

Se trata do valor central quando os dados são organizados em ordem crescente (menor valor para
o maior valor);

Quando o número de observações é impar, a mediana é o valor que ocupa a posição central;
Quando o número é par, a mediana é a média dos valores correspondents às duas
observações centrais.
MEDIANA
Para um número ímpar de observações

26 18 27 12 14 27 19 7 observações

12 14 18 19 26 27 27 em ordem crescente

A mediana é o valor intermediário

Mediana = 19

40
MEDIANA

Para um número par de observações

26 18 27 12 14 27 30 19 8 observações

12 14 18 19 26 27 27 30 em ordem crescente

A mediana é a média dos dois valores intermediários

Mediana = (19 + 26)/2 = 22,5


41
MEDIANA
Média do 35º e 36º valores:
Mediana = (475 + 475)/2 = 475

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
42
MEDIANA

Passo a passo:

1) Organizar os dados em ordem crescente


2) Para um número ímpar de observações, a mediana é o valor que
ocupa a posição central; para um número par, a mediana é a média
dos dois valores centrais.
POR QUAL RAZÃO A MEDIANA, AS VEZES, É MAIS RELEVANTE
DO QUE A MÉDIA?

?
SE EXISTEM MUITOS VALORES EXTREMOS, A MEDIANA É MAIS
ADEQUADA DO QUE A MÉDIA

 Em situações com outliers, a mediana tende a ser mais


interessante do que a média!

 Ela é menos sensível a valores extremos.

 Pensem em uma situação de salários. O que faz mais sentido?


Média ou mediana?
ANALISANDO O IMPACTO DE OUTLIERS NA MÉDIA E NA
MEDIANA PARA UMA SÉRIE DE 30 VALORES

 Arquivo: MediavsMediana
MODA

 A moda é o valor que ocorre com maior frequência;

 Se os dados tiverem exatamente duas modas, temos uma variável


bimodal;

 Se os dados tiverem mais de duas modas, temos uma variável


multimodal. A moda, nessas situações, não traz muita informação.
MODA

1, 4, 6, 9, 5, 3, 1, 4, 10, 11, 12 – variável bimodal

1, 1, 1, 3, 4, 5, 6, 10 – variável unimodal
MODA
450 ocorre mais frequentemente (7 vezes)
Moda = 450

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615 51
PERCENTIS

 Um percentil fornece informação sobre como os dados se distribuem


ao longo do intervalo entre o menor valor e o maior valor;

 Muito utilizado em exames de admissão em universidades (Teste


Anpad);
PERCENTIS

 O p-ésimo percentil é um valor tal que pelo menos p por cento das
observações são menores ou iguais a esse valor e pelo menos (100 – p)
por cento das observações são maiores ou iguais a esse valor.

 Observação: diversos procedimentos podem ser usados para calcular


a posição do p-ésimo percentil. Os resultados são semelhantes.
PERCENTIS

Coloque os dados em ordem crescente

Calcule o índice i, a posição do p-ésimo percentil

i = (p/100)n

Se i não é inteiro, arredonde-o para cima


O p-ésimo percentil é o valor na i-esima posição

Se i é um número inteiro, o p-ésimo percentil


é a média dos valores nas posições i e i +1 54
PERCENTIS: NOTA

 Diferentes softwares e linguagens podem


apresentar diferentes percentis;

 Todavia, os resultados devem convergir;

 A grande diferença está em como encontrar a


posição para o cálculo do percentil (o i).
90º PERCENTIL
Arquivo: Percentil
i = (p/100)n = (90/100)70 = 63
Média do 63º e 64º valores:
90º Percentil = (580 + 590)/2 = 585

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570 56

575 575 580 590 600 600 600 600 615 615
90º PERCENTIL
“Pelo menos 90% “Pelo menos 10%
dos itens possuem um dos itens possuem um
valor de 585 ou menos" valor de 585 ou mais"

63/70 = 0,9 ou 90% 7/70 = 0,1 ou 10%

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570 57

575 575 580 590 600 600 600 600 615 615
PERCENTIS

Aproximadamente 99% dos candidatos pontuaram abaixo no


resultado geral e aproximadamente 1% dos candidatos pontuaram
mais alto.
PERCENTIS

Imaginem o seguinte conjunto de dados sobre salários iniciais:

3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325
Posição 1 2 3 4 5 6 7 8 9 10 11 12

Digamos que eu queira calcular o 80º percentil.


PERCENTIS

Pelo método anterior:


i = (80/100)12 = 9,6. Logo, posição 10.

Aproximadamente 80% dos salários estão abaixo do salário de quem recebe 4050

Aproximadamente 20% dos salários estão acima do salário de quem recebe 4050.
PERCENTIS

Caminho entre a posição 10


e a posição subsequente
Como o Excel calcula (de forma mais precisa!): (posição 11)

 Posição: p/100*(n + 1) = (80/100)*(12+1) = 10,4

 Aproximadamente 80% dos salários estão abaixo do salário de quem recebe 4082
 Aproximadamente 20% dos salários estão acima do salário de quem recebe 4082.
E O 50º PERCENTIL?

= 6,5

O 50º PERCENTIL É IGUAL A MEDIANA.


QUARTIS

 Em algumas aplicações pode ser requerido dividir os dados em


quatro partes, cada parte contendo aproximadamente 25% das
observações;

 É qualquer um dos 3 valores que divide o conjunto ordenado


de dados em quatro partes iguais (ou aproximadas).
QUARTIS

 = primeiro quartil, ou 25º percentil


 = segundo quartil, ou 50º percentil
 = terceiro quartil, ou 75º percentil
QUARTIS

25% dos dados 25% dos dados 25% dos dados 25% dos dados

3710 3755 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325
Posição 1 2 3 4 5 6 7 8 9 10 11 12

= 3857,5 = 3905 = = 4025


MEDIANA
TERCEIRO QUARTIL
Terceiro quartil = 75º percentil
i = (p/100)n = (75/100)70 = 52,5 = 53
Terceiro Quartil = 525
425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570 66

575 575 580 590 600 600 600 600 615 615
QUINTIS, DECIS...

 Quintis (20º, 40º, 60º, 80º percentis);

 Decis (10º, 20º, 30º, 40º, 50º, 60º, 70º, 80º, 90º percentis)
FIXANDO

1) Considere uma amostra com os valores 10, 20, 12, 17 e 16.


Calcule a média e a mediana.

2) Considere uma amostra com os valores 10, 20, 21, 17, 16 e 12.
Calcule a média e a mediana.
FIXANDO

3) Considere os seguintes dados e os pesos correspondentes.


Peso ()
3,2 6
2,0 3
2,5 2
5,0 8

a) Calcule a média ponderada


b) Calcule a média amostral dos quatro valores de dados sem ponderar. Note a diferença nos
resultados obtidos pelos dois cálculos.
FIXANDO

4) Considere os seguintes dados:


Período Taxa de retorno (%)
1 -6,0
2 -8,0
3 -4,0
4 2,0
5 5,4

Qual é a taxa de crescimento médio nestes cinco períodos?


FIXANDO

5) Considere uma amostra com os valores 27, 25, 20, 15, 30, 34, 28 e
25. Calcule o 20º, 25º, 65º e 75º percentis.

6) Considere uma amostra com os valores 53, 55, 70, 58, 64, 57, 53,
69, 57, 68 e 53. Calcule a média, a mediana e a moda.
MEDIDAS DE VARIABILIDADE
(DISPERSÃO)
MEDIDAS DE VARIABILIDADE

 Amplitude
 Amplitude Interquartil
 Variância
 Desvio Padrão
 Coeficiente de Variação
AMPLITUDE

 A amplitude de um conjunto de dados é a diferença entre o maior e o


menor valor dos dados;

 É a medida mais simples de variabilidade;

 É muito sensível a existência de valores muito pequenos ou grandes.


AMPLITUDE

Amplitude = maior valor – menor valor


Amplitude= 615 - 425 = 190

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570 75

575 575 580 590 600 600 600 600 615 615
AMPLITUDE INTERQUARTIL

 A amplitude interquartil de um conjunto de dados é a diferença


entre o terceiro quartil e o primeiro quartil

 É a amplitude do intervalor correspondente os 50% dos dados


intermediários

 Elimina o problema de valores extremos nos dados


76
AMPLITUDE INTERQUARTIL
3º Quartil (Q3) = 525
1º Quartil (Q1) = 445
Amplitude Interquartil = Q3 - Q1 = 525 - 445 = 80

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570 77

575 575 580 590 600 600 600 600 615 615
VARIÂNCIA

 Variância é a medida de variabilidade que utiliza todos os dados;

 A variância baseia-se na diferença entre o valor de cada observação


() e a média ( para a amostra, para a população).

78
VARIÂNCIA

A variância corresponde ao desvios em torno da média


elevados ao quadrado
A variância é calculada:

2
𝑠=
∑ (𝑥 ¿ ¿𝑖− 𝑥)
¿
2
2
𝜎=
∑ (𝑥 ¿ ¿𝑖− 𝜇)
¿
2

𝑛− 1 𝑁
Para Amostra Para População
79
VARIÂNCIA

Número de alunos na Tamanho médio da Desvio em torno da Desvio quadrático em


turma () turma () média ( - ) torno da média ( - )²
46 44
54 44
42 44
46 44
32 44

∑ (𝑥 𝑖 − 𝑥 )
A variância e o desvio padrão são dois conceitos que costumam
andar juntos.
DESVIO PADRÃO

 O desvio padrão é a raiz quadrada positiva da variância;

 O desvio padrão é mensurado na mesma unidade de medida dos


dados, tornando sua interpretação mais simples que da variância.

81
DESVIO PADRÃO

O desvio padrão é calculado:

𝑠= √ 𝑠
2
𝜎 =√ 𝜎 2

Para Amostra Para População

Vamos para o arquivo Salários.


82
COEFICIENTE DE VARIAÇÃO

 O coeficiente de variação nos indica o quão grande é o desvio


padrão em relação a média.

 Expressamos em porcentagem.
COEFICIENTE DE VARIAÇÃO

 O coeficiente de variação indica qual é o tamanho do desvio padrão em relação à média;


 É uma estatística útil para compararmos a variabilidade de variáveis que tem desvios padrão e medias
diferentes.
 O coeficiente de variação é calculado:

( 𝑠
𝑥
× 100 % ) ( 𝜎
𝜇
× 100 % )
Para Amostra Para População
84
VARIÂNCIA, DESVIO PADRÃO E COEFICIENTE DE VARIAÇÃO

Variância
𝑠=
∑2
2
(𝑥 ¿ ¿ 𝑖 − 𝑥)
=2.996,16 ¿
𝑛− 1

Desvio Padrão O desvio

𝑠= √ 𝑠 =√ 2996,16=54,74
2 padrão é de
cerca de 11%
da média

Coeficiente de Variação

( 𝑠
𝑥
×100 %= ) (
54,74
490,80 )
×100 %=11,15 % 85
FIXANDO

7) Considere uma amostra com os valores de dados de 10, 20, 12, 17 e 16. Calcule a
amplitude.

8) Considere uma amostra com os valores de dados de 10, 20, 12, 17 e 16. Calcule a
variância e o desvio padrão.

9) Considere uma amostra com os valores de dados de 27, 25, 20, 15, 30, 34, 28 e
25. Calcule a amplitude, a variância e o desvio padrão.
MEDIDAS DE FORMA
MEDIDAS DE FORMA

 Formas de distribuição;
 Escores-z;
 Teorema de Chebyshev;
 Regra Empírica;
 Detecção de pontos fora da curva (outliers).
MEDIDAS DE FORMA

 Já vimos que um histograma fornece uma apresentação gráfico que mostra a forma
de uma distribuição (altura das pessoas por país, por ex.);

 Uma medida numérica importante da forma de uma distribuição é a chamada


assimetria;

 A formula para o cálculo da assimetria de um conjunto de dados é um pouco


complexa. Entretanto, a assimetria pode ser facilmente calculada usando softwares
estatísticos.
MEDIDAS DE FORMA

 A assimetria é calculada como:

( )
𝟑
𝒏 𝒙𝒊 − 𝒙
𝑨𝒔𝒔𝒊𝒎𝒆𝒕𝒓𝒊𝒂=
(𝒏 −𝟏)(𝒏−𝟐)
∑ 𝑺
FORMA DE DISTRIBUIÇÃO: ASSIMETRIA

 Moderadamente inclinado
Assimetria = -0,31
para a esquerda: 0,35
0,30

Frequência Relativa
0,25
 Assimetria é negativa 0,20

 A média tende a ser menor 0,15


0,10
que a mediana.
0,05
0

91
FORMA DE DISTRIBUIÇÃO: ASSIMETRIA

 Moderadamente inclinado para Assimetria = 0,31


0,35
a direita
0,30

Frequência Relativa
0,25

 Assimetria é positiva 0,20


0,15
 A média tende a ser maior 0,10
que a mediana 0,05
0
92
FORMA DE DISTRIBUIÇÃO: ASSIMETRIA

Assimetria = 0
 Simétrico 0,35
0,30

Frequência Relativa
0,25
 Assimetria é zero 0,20
0,15
 Média e mediana são iguais
0,10
0,05
0
93
FORMA DE DISTRIBUIÇÃO: ASSIMETRIA
 Fortemente inclinado para a direita
 Assimetria é positiva (acima de 1,0)
 A média tende a ser maior que a mediana

0,35
Assimetria = 1,25
Frequência Relativa

0,30
0,25
0,20
0,15
0,10
0,05 94

0
FORMA DE DISTRIBUIÇÃO: ASSIMETRIA

 Aluguel de Apartamentos;

 Setenta apartamentos foram aleatoriamente amostrados em uma pequena


cidade universitária;

 Os preços de aluguel para estes apartamentos estão listados em ordem


crescente no próximo slide.
95
FORMA DE DISTRIBUIÇÃO: ASSIMETRIA

425 430 430 435 435 435 435 435 440 440
440 440 440 445 445 445 445 445 450 450
450 450 450 450 450 460 460 460 465 465
465 470 470 472 475 475 475 480 480 480
480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615 96
FORMA DE DISTRIBUIÇÃO:
ASSIMETRIA

0,35 Assimetria = 0,92


0,30
Frequência Relativa

0,25

0,20
0,15

0,10
0,05
0 97
MEDIDAS DE FORMA
ESCORES-Z

O quão um determinado valor em particular está afastado da média?

Muitas vezes estamos interessados na posição relativa dos valores


contidos em um conjunto de dados. As medidas de posição relativa nos
ajudam a saber o quão afastado um valor está da média.

É possível determinar isso com base na média e o desvio padrão.


ESCORES-Z

Os escores-z são muitas vezes denominados como valor


padronizado (z-Score)
Pode ser interpretada como o número de desvios padrão que
está afastado da média
𝒙𝒊 − 𝒙
𝒛𝒊 =
𝑺
= a contagem-z para
= a média da amostra
100

= o desvio padrão da amostra


ESCORES-Z

 Uma observação do escore-z é uma medida da posição relativa da observação de um


conjunto de dados;

 Observações menores que a média da amostra terão um escore-z menor que zero;

 Observações maiores do que a média da amostra terão um escore-z maior que zero;

 Observações iguais à média da amostra terão um escore-z de zero.


101
ESCORE-Z
𝑥𝑖 − 𝑥 425 − 490,80
𝑧𝑖 =
Escore-z do menor valor (425) = =− 1,20
𝑆 54,74
Valores padronizados do aluguel de apartamentos
-1,20 -1,11 -1,11 -1,02 -1,02 -1,02 -1,02 -1,02 -0,93 -0,93
-0,93 -0,93 -0,93 -0,84 -0,84 -0,84 -0,84 -0,84 -0,75 -0,75
-0,75 -0,75 -0,75 -0,75 -0,75 -0,56 -0,56 -0,56 -0,47 -0,47
-0,47 -0,38 -0,38 -0,34 -0,29 -0,29 -0,29 -0,20 -0,20 -0,20
-0,20 -0,11 -0,01 -0,01 -0,01 0,17 0,17 0,17 0,17 0,35
0,35 0,44 0,62 0,62 0,62 0,81 1,06 1,08 1,45 1,45 102

1,54 1,54 1,63 1,81 1,99 1,99 1,99 1,99 2,27 2,27
ESCORES-Z

As observações feitas em dois diferentes conjuntos de dados que


possuem o mesmo escore-z têm a mesma posição relativa
considerando o Número de desvios padrão afastados da média.
TEOREMA DE CHEBYSHEV (PRÓXIMA AULA)

Esse teorema nos permite fazer afirmações sobre a proporção dos valores de
dados que devem estar contidos em um número específico de desvios padrão da
média.

Número de estudantes na turma Desvio em torno da média () Escore z ()


(x_i)
46 2 2/8 = 0,25
54 10 10/8 = 1,25
42 -2 -2 / 8 = -0,25
46 2 2/8 = 0,25
32 -12 -12/8 = -1,50
TEOREMA DE CHEBYSHEV

Pelo menos (1 – 1/z²) dos valores de dados devem estar contidos em z


desvios padrão da média, em que z é qualquer valor maior do que 1.
TEOREMA DE CHEBYSHEV

 Pelo menos 75% dos valores de dados devem estar contidos em z =


2 desvios padrão da média
 Pelo menos 89% dos valores de dados devem estar contidos em z =
3 desvios padrão da média
 Pelo menos 94% dos valores de dados devem estar contidos em z =
4 desvios padrão da média
106
SÓ FORNECE RESULTADOS ÚTEIS SE Z > 1

“Where z equals the number of


standard deviations in which
you are interested. z must be
greater than 1.”

Ou seja, não se aplica a desvios


abaixo de 1, como um z de 0,3
ou 0,7.
TEOREMA DE CHEBYSHEV

 Por exemplo:
 Seja = 1,5 com = 490,80 e = 54,74
 Pelo menos (1 – 1/(1,5)2) = 1 – 0,44 = 0,56 ou 56% dos aluguéis devem estar entre
= 490,80 – 1,5(54,74) = 409
e
= 490,80 + 1,5(54,74) = 573
 Atualmente, 86% dos aluguéis estão entre 409 e 573

108
REGRA EMPÍRICA

 Para dados que têm uma distribuição em forma de sino (Normal):


 68,26% dos valores de uma variável aleatória normal estarão contidos em +/- 1
desvio padrão da média
 95,44% dos valores de uma variável aleatória normal estarão contidos em +/- 2
desvios padrão da média
 99,72% dos valores de uma variável aleatória normal estarão contidos em +/- 3
desvios padrão da média

109
REGRA EMPÍRICA

99,72%
95,44%
68,26%

m
x
m – 3s m – 1s m + 1s m + 3s 110

m – 2s m + 2s
REGRA EMPÍRICA

 Arquivo: Altura.
REGRA EMPÍRICA
REGRA EMPÍRICA
POR QUÊ IMPORTA?

“A normal é considerada a distribuição de probabilidade mais


importante, pois permite modelar uma infinidade de fenômenos
naturais e, além disso, possibilita realizar aproximações para calcular
probabilidades de muitas variáveis aleatórias que têm outras
distribuições.”
EXEMPLO:
1 onça – 29,75ml
16 onças – 473ml

As embalagens de detergente são preenchidas automaticamente em uma linha de


produção. Os volumes de preenchimento frequentemente tem uma distribuição em
forma de sino;

Se a média dos volumes de preenchimento for 16 onças e o desvio padrão 0,25


onça, podemos usar a regra empírica para tirar as seguintes conclusões:
EXEMPLO:

i) Aproximadamente 68% das embalagens preenchidas terão volume de detergente


entre 15,75 e 16,25.

ii) Aproximadamente 95% das embalagens preenchidas terão volume de detergente


entre 15,50 e 16,50.

iii) Aproximadamente 99,7% das embalagens preenchidas terão volume de


detergente entre 15,25 e 16,75.
EXEMPLO:

Quantas embalagens preenchidas terão...

Volume entre 16 e 16,25 onças?


Volume entre 15,50 e 16 onças?
Volume menor do que 15,50 onças?
Volume entre 15,50 e 16,25 onças?
EXEMPLO:

15,25 15,50 15,75 µ = 16 16,25 16,50 16,75


EXEMPLO:

Quantas embalagens preenchidas terão...

Volume entre 16 e 16,25 onças? 34,14%


Volume entre 15,50 e 16 onças? 47,69%
Volume menor do que 15,50 onças? 2,14%
Volume entre 15,50 e 16,25 onças? 81,87%
O PODER DA DISTRIBUIÇÃO NORMAL...

Aprenderemos, mais a frente, sobre como trabalhar com números não


inteiros de z para responder perguntas semelhantes (Unidade II)
DETECÇÃO DE OUTLIERS
DETECÇÃO DE PONTOS FORA DA CURVA

 Um ponto fora da curva (outlier) é uma observação com valores muito


pequenos ou excepcionalmente grandes em um conjunto de dados
 Uma observação com valor com escore-z menor que -3 ou maior que +3 pode ser
considerado um ponto fora da curva
 Este pode ser
 Um valor registrado incorretamente
 Um valor que foi incorretamente incluído no conjunto de dados
 Um valor corretamente registrado que pertence ao conjunto de dados
122
COMO DETECTAR OUTLIERS

Valores “fora do normal”: excepcionalmente grandes ou pequenos;

Devem ser tratados, como em processos de winsorização;

Causas: erro de digitação, observação incorretamente incluída;

Dado correto e que realmente pertence ao conjunto. Subjetividade da decisão…


DETECÇÃO DE PONTOS FORA DA CURVA
Os valores extremos do escore-z são -1,20 e 2,27
Usando como critério para detecção do ponto fora da curva, não existem outliers nesse conjunto de dados.

Valores padronizados do aluguel de apartamentos


-1,20 -1,11 -1,11 -1,02 -1,02 -1,02 -1,02 -1,02 -0,93 -0,93
-0,93 -0,93 -0,93 -0,84 -0,84 -0,84 -0,84 -0,84 -0,75 -0,75
-0,75 -0,75 -0,75 -0,75 -0,75 -0,56 -0,56 -0,56 -0,47 -0,47
-0,47 -0,38 -0,38 -0,34 -0,29 -0,29 -0,29 -0,20 -0,20 -0,20
-0,20 -0,11 -0,01 -0,01 -0,01 0,17 0,17 0,17 0,17 0,35
0,35 0,44 0,62 0,62 0,62 0,81 1,06 1,08 1,45 1,45 124

1,54 1,54 1,63 1,81 1,99 1,99 1,99 1,99 2,27 2,27
FIXANDO

1) Considere uma amostra com os valores de dados 10, 20, 12, 17


e 16. Qual é o escore-z para cada uma das cinco observações?

2) Considere uma amostra com uma média de 500 e um desvio


padrão de 100. Quais são os escores-z para os seguintes valores:
520, 650, 500, 450 e 280?
FIXANDO
3) Suponha que os dados tenham uma distribuição em forma de sino
com uma média de 30 e um desvio padrão de 5. Use a regra empírica
para determinar a porcentagem dos dados dentro de cada uma das
seguintes amplitudes.

a) 20 a 40
b) 15 a 45
c) 25 a 35
ANÁLISE EXPLORATÓRIA DE DADOS
ANÁLISE EXPLORATÓRIA DE DADOS

 Regra dos Cinco Itens


 Desenhos esquemáticos (Box Plots)
REGRA DE CINCO ITENS

 Cinco números utilizados para sintetizar os dados


1. Menor valor
2. Primeiro quartil (Q1)
3. Mediana (Q2)
4. Terceiro quartil (Q3)
5. Maior Valor

129
REGRA DE CINCO ITENS

425 430 430 435 435 435 435 435 440 440
Menor Valor = 425 440 440 440 445 445 445 445 445 450 450
Primeiro Quartil = 445 450 450 450 450 450 460 460 460 465 465
Mediana = 475
Terceiro Quartil = 525 465 470 470 472 475 475 475 480 480 480
Maior Valor = 615 480 485 490 490 490 500 500 500 500 510
510 515 525 525 525 535 549 550 570 570
575 575 580 590 600 600 600 600 615 615
130
DESENHOS ESQUEMÁTICOS (BOX PLOTS)
 O retângulo é delimitado pelo primeiro e terceiro quartil;
 Uma linha vertical é desenhada no retângulo na localização da
mediana (segundo quartil);

375 400 425 450 475 500 525 550 575 600 625

Q1 = 445 Q3 = 525
131

Q2 = 475
DESENHOS ESQUEMÁTICOS (BOX PLOTS)

 Os limites são posicionados usando a amplitude interquartil (IQR)


 Dados além desses limites são considerados outliers
 A posição de cada outlier é indicada pelo símbolo *

132
DESENHOS ESQUEMÁTICOS
(BOX PLOTS)

 O limite inferior é posicionado 1,5(IQR) abaixo de Q1


 Limite Inferior = Q1 - 1,5(IQR) = 475 – 1,5(80) = 355
 O limite superior é posicionado 1,5(IQR) acima de Q3
 Limite Superior = Q3 + 1,5(IQR) = 525 + 1,5(80) = 645

 Não existem outliers (valores abaixo de 355 ou acima de 645) nos dados de
aluguéis de apartamentos
133
DESENHOS ESQUEMÁTICOS
(BOX PLOTS)

Limite Limite
Inferior Superior

375 400 425 450 475 500 525 550 575 600 625

Menor valor Maior valor


dentro do limite= 425 dentro do limite= 615 134
MEDIDAS DE ASSOCIAÇÃO
O USO INADEQUADO DE CORRELAÇÕES É COMPARÁVEL AO
USO INADEQUADO DE GRÁFICOS DE PIZZA
MEDIDAS DE ASSOCIAÇÃO

 Muitas vezes, em um processo de tomada de decisão, estamos


interessados na relação entre duas variáveis;

 Qual seria a relação preliminar, por exemplo, entre Número de


comerciais e vendas? (Arquivo: Vendas)

 Qual seria a relação preliminar, por exemplo, entre qualidade de


atendimento do consumidor e as vendas?
COVARIÂNCIA

 Covariância é uma medida descritiva de associação linear entre


duas variáveis

 Valores positivos indicam um relacionamento positivo

 Valores negativos indicam um relacionamento negativo


138
COVARIÂNCIA

𝑠 𝑥𝑦 =
∑ ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 )
Para Amostra
𝑛 −1
 A covariância é calculada da seguinte forma

𝜎 𝑥𝑦 =
∑ ( 𝑥𝑖 − 𝜇 𝑥 ) ( 𝑦 𝑖 −𝜇 𝑦 ) Para População
𝑁
139
COVARIÂNCIA

Um valor positivo para indica uma associação linear positiva entre x e y; quanto
maior x, maior o y.

Um valor negativo para indica uma associação linear negativa; quanto maior o x,
menor o y.

Um valor para próximo a zero indica que não há associação linear entre x e y.
COVARIÂNCIA

O problema de usar a covariância é que ela mede a intensidade de uma relação linear com base
nas unidades de medida entre x e y;

Imagine uma relação entre altura (x) e peso (y). Eu teria uma covariância bem maior ao utilizar
altura em centímetros ao invés da altura em metros – a intensidade da relação, entretanto, é a
mesma.

Solução?
COEFICIENTE DE CORRELAÇÃO

 Coeficiente de correlação momento-produto de Pearson


 O coeficiente de correlação varia de -1 a +1
 Valores próximos a -1 indicam forte relação linear negativa
 Valores próximos a +1 indicam forte relação linear positiva
 Quanto mais próxima a correlação estiver de zero, mais fraca
será a relação
143
COEFICIENTE DE CORRELAÇÃO

 O coeficiente de correlação é calculado da seguinte forma

𝑠 𝑥𝑦
𝑟 𝑥𝑦 = Para Amostra
Onde é o coeficiente de correlação amostral;
é a covariância amostral;
𝑠𝑥 𝑠𝑦
é o desvio padrão amostral de x;
é o desvio padrão amostral de y. 𝜎 𝑥𝑦
𝜌 𝑥𝑦 = Para População
𝜎𝑥 𝜎 𝑦
144
COEFICIENTE DE CORRELAÇÃO

Mede o grau de correlação entre duas variáveis;

Necessariamente, variáveis na escala intervalar ou de razão/proporção;

O índice varia entre -1 e 1:


i) 1 indica uma correlação perfeita positiva entre as duas variáveis;
ii) -1 indica uma correlação negativa perfeita entre as duas variáveis;
iii) 0 indica que as duas variáveis não são linearmente relacionadas. Entretanto, não podemos descartar a hipótese de
associação não-linear entre as variáveis.
COEFICIENTE DE CORRELAÇÃO

 Correlação é uma medida linear de associação e não


necessariamente de causalidade

 Só porque duas variáveis são altamente correlacionadas, isso não


significa que uma variável causa a outra

146
COEFICIENTE DE CORRELAÇÃO

Regra de bolso:

0,9 (positivo ou negativo) indica uma correlação muito forte;


0,7 a 0,9 (positivo ou negativo) indica uma correlação forte;
0,5 a 0,7 (positivo ou negativo) indica uma correçação moderada;
0,3 a 0,5 (positivo ou negativo) indica uma correlação fraca;
0 a 0,3 (positivo ou negativo) indica uma correlação fraquíssima.
COEFICIENTE DE CORRELAÇÃO

Vamos para o exemplo do arquivo Vendas (relação entre número de comerciais e


vendas);

Semana Número de comerciais Vendas (em centenas)


1 2 50
2 5 57
3 1 41
4 3 54
5 4 54
6 1 38
7 5 63
8 3 48
9 4 59
10 2 46
COVARIÂNCIA E COEFICIENTE DE CORRELAÇÃO

x y

Média Total
Desv. Pad. 149
COEFICIENTE DE CORRELAÇÃO

Vamos para o exemplo do arquivo Vendas (relação entre número de comerciais e


vendas);
Semana Número de comerciais (x) Vendas (y) (𝑥𝑖 − ¯𝑥 ) (𝑦 𝑖 − ¯𝑦 ) (𝑥𝑖 − ¯𝑥 )( 𝑦 𝑖 − 𝑦¯ )
1 2 50 -1 -1 1
2 5 57 2 6 12
3 1 41 -2 -10 20
4 3 54 0 3 0
5 4 54 1 3 3
6 1 38 -2 -13 26
7 5 63 2 12 24
8 3 48 0 -3 0
9 4 59 1 8 8
10 2 46 -1 -5 5

Total = 99
COVARIÂNCIA E COEFICIENTE DE CORRELAÇÃO

Covariância da Amostra

𝑠 𝑥𝑦 =
∑ ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 )
=
99
=11
𝑛 −1 10 − 1
Coeficiente de Correlação da Amostra
𝑠 𝑥𝑦 11
𝑟 𝑥𝑦 = = =0,9305
𝑠 𝑥 𝑠 𝑦 (1,49)(7,93)
151
COMBINANDO VARIÂNCIA, COVARIÂNCIA E DESVIO PADRÃO
NO MUNDO REAL: UM PRÊMIO NOBEL COMO RESULTADO
COMBINANDO VARIÂNCIA, COVARIÂNCIA E DESVIO PADRÃO
NO MUNDO REAL: UM PRÊMIO NOBEL COMO RESULTADO

 A Teoria moderna de Portfólio é a mais importante teoria das Finanças

 A Teoria está fundamentada em como a diversificação pode ser utilizada em carteiras de


investimentos para mitigar riscos

 A carteira ideal seria aquela que apresenta a melhor relação risco x retorno

 Vocês estudarão isso a fundo em futuras disciplinas!


COMBINANDO VARIÂNCIA, COVARIÂNCIA E DESVIO PADRÃO
NO MUNDO REAL: UM PRÊMIO NOBEL COMO RESULTADO
POR ORA, VAMOS DESCOBRIR COMO CALCULAR O RISCO DE
UM PORTFÓLIO VIA MARKOWITZ

 Arquivo em R: Markowitz
FIXANDO

1) Cinco observações feitas de duas variáveis são apresentadas a seguir:

4 6 11 3 16
50 50 40 60 30

a) Como ficaria o diagrama de dispersão?


b) Qual a relação aparente?
c) Qual é a covariância amostral?
d) Qual é o coeficiente de correlação? Qual é a sua interpretação?

Você também pode gostar