Você está na página 1de 165

DRAFT VERSION

HEstatı́stica ClássicaI
no RStudio

Filipe J. Zabala
PUCRS
filipe.zabala@pucrs.br

2020-08-10

“ Meninos, eu vou ditar as regras do bem viver


não basta somente ler, é preciso ponderar
que a lição não faz saber, quem faz sábios é o pensar.”
∼ Bárbara Heliodora, 1862

Sumário

1 Introdução e Notação 4
1.1 Algarismos e Números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Porcentagens, Decimais e Milhares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 O Senhor X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Arredondamento e Truncagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Outros sı́mbolos e expressões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.7 Momentinho Cultural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Estatı́stica Descritiva 10
2.1 Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Variável qualitativa nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 Variável qualitativa ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.3 Variável quantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Variável quantitativa contı́nua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Distribuição de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Dados brutos, Rol e Estatı́sticas de Ordem . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Tabela de frequência univariada discreta . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3 Tabela de frequência univariada contı́nua . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4 Tabela (de frequência) bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Medidas de Posição (ou Localização) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1 Mı́nimo e Máximo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Média (Aritmética Simples) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.3 Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.4 Média (Aritmética) Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.5 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.6 Média Harmônica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.7 Média Quadrática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.8 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1
DRAFT VERSION
2.3.9 Separatrizes (ou Quantis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Medidas de Dispersão (ou Variabilidade) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.3 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.4 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5 Outras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1 Assimetria (ou Obliquidade) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.2 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6 Visualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.1 Gráfico de Setores (Pizza) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.2 Gráfico de Barras e Colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.3 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6.4 Box plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6.5 Gráfico de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.6 Mais opções de visualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 Probabilidade 47
3.1 Teoria dos Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.1 Relações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.2 Conjunto Vazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.3 Cardinal e Conjunto das Partes/Potência . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.4 Operações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.5 Conjuntos Disjuntos e Partição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.3 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.4 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.5 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.6 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.7 Teorema da Probabilidade Total e o Teorema de Bayes . . . . . . . . . . . . . . . . 55
3.3 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Esperança e Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.2 Distribuições de probabilidade especiais . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.3 Distribuição Binomial · B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.4 Distribuição Binomial Negativa · BN (k, p) . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.5 Distribuição Poisson · P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.6 Distribuição Hipergeométrica · H(N, R, n) . . . . . . . . . . . . . . . . . . . . . . . 61
3.4 Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4.1 Esperança e Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4.2 Distribuição Uniforme · U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.3 Distribuição Normal · N (µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.4 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.5 Distribuição Qui-quadrado · χ2 (ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.6 Distribuição t (de Student) · t(ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.4.7 Distribuição F (de Fisher-Snedecor) · F(ν1 , ν2 ) . . . . . . . . . . . . . . . . . . . . 71
3.4.8 Distribuição Exponencial · E(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4 Inferência Estatı́stica Clássica 77


4.1 Universo e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.1.1 N e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.2 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2.1 Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2.2 Cálculo do tamanho da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2.3 Amostragem Aleatória Simples (AAS) . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.2.4 Amostragem Estratificada (AE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Page 2
DRAFT VERSION
4.2.5 Amostragem por Conglomerados (AC) . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2.6 Amostragem Sistemática (AS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2.7 Amostragem por Cotas (ACot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3.1 Proporção ou Percentual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3.2 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.3.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.4 (Estimação por) Intervalo de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.4.1 Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.4.2 Média com σ conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4.3 Média com σ desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.4.4 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.4.5 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5 (Estimação por) Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5.1 Equivalência entre Testes de Hipóteses e Intervalos de Confiança . . . . . . . . . . 88
4.5.2 Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.5.3 Estatı́stica do Teste - Univariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.5.4 Valor-p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.5.5 Valor Crı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.5.6 Estatı́stica do Teste - Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5 Modelos Lineares 101


5.1 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.1.1 ρ, a correlação universal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.1.2 r, (coeficiente de) correlação (amostral) (de Pearson) . . . . . . . . . . . . . . . . . 103
5.1.3 Teste para ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.1.4 ρRP O e rRP O , a correlação na Regressão Pela Origem . . . . . . . . . . . . . . . . 105
5.2 Modelo Linear Univariado ou Regressão Linear Simples . . . . . . . . . . . . . . . . . . . 105
5.2.1 Equação da reta via Mı́nimos Quadrados Ordinários . . . . . . . . . . . . . . . . . 106
5.2.2 Análise de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

6 Modelos Não Lineares 119

7 Números Índice 126


7.1 Índices Relativos ou Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.1.1 de Preço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.1.2 de Quantidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.1.3 de Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2 Índices Agregativos Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.2.1 Índice Agregativo Simples (de Bradstreet) . . . . . . . . . . . . . . . . . . . . . . . 128
7.2.2 Índice Médio Aritmético (de Sauerbeck) . . . . . . . . . . . . . . . . . . . . . . . . 128
7.3 Índices Agregativos Ponderados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3.1 Índice (Ponderado) de Laspeyres ou da época base . . . . . . . . . . . . . . . . . . 129
7.3.2 Índice (Ponderado) de Paasche ou da época atual . . . . . . . . . . . . . . . . . . . 129
7.3.3 Índice (Ponderado) de (Irving) Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 130

A Tabelas 132

B Respostas dos exercı́cios 140

C Uma breve introdução ao R e RStudio 159

D Equação da Reta 162

Page 3
DRAFT VERSION

“ O pensamento estatı́stico será um dia tão necessário para a cidadania


quanto a habilidade de ler e escrever.”
∼ James W. Tankard Jr., 19791

1 Introdução e Notação
á dois motivos para ler este texto: (i) você deseja se tornar um profissional qualificado e entende
H que o ferramental estatı́stico pode auxiliar em suas decisões futuras ou (ii) você foi obrigado. De
toda forma sugere-se a leitura deste e de outros materiais de apoio ao longo do curso2 , praticando através
de exercı́cios de fixação3 . Leia este livro / É uma pesquisa paciente / Cada linha desse texto / No papel ou
virtualmente / Fará você ficar / Ao menos inteligente4 . Este texto consiste em declarações tão verı́dicas
quanto o possı́vel para a linguagem humana usual.
O Método Estatı́stico ou simplesmente Estatı́stica reúne ferramentas teóricas e práticas para analisar
informações quantitativas, medir incertezas e auxiliar na tomada de decisão. É um componente do
Método Cientı́fico, e pode ser dividido conforme o esquema da Figura 1.1.

ESTATÍSTICA

DESCRITIVA INFERENCIAL PREDITIVA

MODELAGEM
CLÁSSICA BAYESIANA
ALGORÍTMICA

Figura 1.1: Uma possı́vel divisão da Estatı́stica

Neste curso serão abordados tópicos de Estatı́stica Descritiva, Probabilidade, Inferência Estatı́stica
sob o prisma da Estatı́stica Clássica (ou Frequentista), Modelos Lineares e Números Índice.

1.1 Algarismos e Números


Um algarismo é um sı́mbolo, enquanto um número expressa uma idéia de quantidade. Números são
representados por algarismos, sendo fundamental distinguir estes elementos.
Se há 20 alunos na sala A outros 30 na sala B, pode-se dizer que, em média, há 20+30
2 = 25 alunos nas
duas salas. Esta é uma informação numérica. Se rotularmos o sexo masculino como 0 e o feminino como
1, fica claro que 0 e 1 estão sendo tratados como algarismos, uma vez que não expressam quantidades.
1 http://www.sciencedirect.com/science/article/pii/0315086079901010
2 Este material foi desenvolvido no R 4.0.2 e RStudio 1.3.1056, disponı́vel em filipezabala.com.
3 pt.khanacademy.org/
4“Compre este disco / É uma pesquisa paciente / Cada volta da agulha / Pelo sulco docemente / Fará você ficar / Mais

feliz e inteligente”. ‘Jingle do Disco’ de Tom Zé, do álbum 1992 The Hips of Tradition.

Page 4
DRAFT VERSION
1.2 Porcentagens, Decimais e Milhares
Neste texto será adotado o padrão americano, que utiliza o sı́mbolo de ponto (.) como separador de
decimais e vı́rgula (,) como separador de milhares. Assim,
1 2.5
= 0.025 = 0.0250 = .025 = 2.5% = .
40 100
Dı́zimas periódicas serão escritas na forma 13 = 0.333... = 0.3̄ ≈ 0.333 ≈ 0.3. O número 32, 960 =
30, 000 + 2, 000 + 960 deve ser lido como ‘trinta e dois mil novecentos e sessenta’.
Esta opção evita muitos problemas, já que muitos softwares estatı́sticos não são compatı́veis com o
padrão brasileiro, que utiliza vı́rgula como separador de decimais e ponto para separar os milhares. Nas
anotações pessoais e listas de exercı́cios poderá ser adotada a notação de preferência do aluno.

1.3 O Senhor X
Quando avalia-se algo de interesse prático, em geral observam-se nomes longos. Considere a variável

X: ‘número de filhos de mulheres atendidas em um hospital público de Porto Alegre em


2019’.

Esta longa descrição tornará maçante qualquer texto que utilize-o muitas vezes, tornando impraticável
a realização de cálculos envolvendo tal caracterı́stica de interesse. É razoável, portanto, associar descrições
longas a sı́mbolos. A letra X é famosa por simbolizar algo genérico, tanto na Ciência quanto na vida
cotidiana. Note que o sı́mbolo utilizado para separar X de sua descrição é ‘ : ’, e não ‘ = ’, como
erroneamente se utiliza em certos casos.
Neste texto será utilizado X (maiúsculo) para representar a caracterı́stica de interesse, e xk (minús-
culo) para representar o k-ésimo valor observado desta caracterı́stica. Assim, enquanto X representa
genericamente o número de filhos de mulheres atendidas em um hospital público de Porto Alegre em
2012, x4 = 2 indica que a quarta mulher avaliada no estudo tem dois filhos.

1.4 Somatório
Pn
A soma de n números x1 , x2 , ..., xn é representada por i=1 xi = x1 + x2 + · · · + xn , e lê-se ‘somatório
de xis i de um até ene’.
Exemplo 1.1. (Número de passos) Suponha que foi anotado o ‘número de passos até a lixeira mais
próxima’ na cidade de Porto Alegre em n = 6 ocasiões, conforme Tabela 1.1.

x1 x2 x3 x4 x5 x6
186 402 191 20 7 124

Tabela 1.1: Número de passos até a lixeira mais próxima na capital gaúcha

Esta tabela indica que na primeira ocasião foram caminhados 186 passos até localizar uma lixeira
(representado por x1 = 186), na segunda foram 402 passos (representado por x2 = 402), e assim suces-
sivamente. Para calcular o total de passos caminhados, pode-se fazer
6
X
xi = x1 + x2 + · · · + x6 = 186 + 402 + 191 + 20 + 7 + 124 = 930 (1)
i=1

Page 5
DRAFT VERSION
> 186+402+191+20+7+124 # R e RStudio s~
ao calculadoras (Ap^
endice C)

[1] 930

> x <- c(186,402,191,20,7,124) # Pode-se criar um vetor e atribuir a x


> sum(x) ao 'sum', apresentada na Equaç~
# Usando a funç~ ao (1)

[1] 930

> sum(x^2) # Soma dos quadrados, representada pela Equaç~


ao (2)

[1] 248506

, P
A letra grega é o sigmaP
maiúsculo, conforme Tabela 1.3. Em muitos casos a simbologia de somatório
é simplificada, utilizando-se , x ou i . A seguir estão alguns exemplos mais avançados5 .
P P

n
X
x2i = x21 + x22 + . . . + x2n (2)
i=1

n
X n
X
(xi − x̄)2 = (x1 − x̄)2 + (x2 − x̄)2 + . . . + (xn − x̄)2 = (xi − µ)2 + (x̄ − µ)2
i=1 i=1
(3)

EXERCÍCIOS

1. Considere o banco de dados disponı́vel no pacote coronavirus6 conforme código abaixo.

> # install.packages('coronavirus', dep=T) # rodar uma vez


> library(coronavirus) # chamando a biblioteca 'coronavirus'
> data(coronavirus) # deixando o banco de dados disponı́vel
> dim(coronavirus) # dimens~
oes do banco de dados (linhas x colunas)

[1] 150720 7

> head(coronavirus) # mostrando o inı́cio do banco de dados

date province country lat long type cases


1 2020-01-22 Afghanistan 33.93911 67.70995 confirmed 0
2 2020-01-23 Afghanistan 33.93911 67.70995 confirmed 0
3 2020-01-24 Afghanistan 33.93911 67.70995 confirmed 0
4 2020-01-25 Afghanistan 33.93911 67.70995 confirmed 0
5 2020-01-26 Afghanistan 33.93911 67.70995 confirmed 0
6 2020-01-27 Afghanistan 33.93911 67.70995 confirmed 0

a) Obtenha a soma de casos (cases) registrados ao longo de todo o perı́odo.


b) Obtenha a soma ao quadrado de casos registrados ao longo de todo o perı́odo.
c) Obtenha a soma de casos registrados ao longo de todo o perı́odo dividido por tipo (type).
d) Considerando a variável X: ‘número de casos registrados’ em n = 150720 linhas do banco de dados, represente
os itens a) e b) utilizando a notação de somatório.

5 Notação
utilizada no cálculo de variâncias, detalhado na Seção 2.4.2.
6 Johns Hopkins University Center for Systems Science and Engineering (JHU CCSE). https://systems.jhu.edu/
research/public-health/ncov

Page 6
DRAFT VERSION
1.5 Arredondamento e Truncagem
Arredondamento 7 e truncagem são métodos para escrever números com precisão delimitada.
Para arredondar um número para a k-ésima casa decimal, basta observar a k+1-ésima casa. Se a k+1-
ésima casa decimal for 0, 1, 2, 3 ou 4, mantém-se a k-ésima casa decimal; se a k+1-ésima casa decimal
for 5, 6, 7, 8 ou 9, soma-se 1 à k-ésima casa decimal. Como exercı́cio, releia a frase anterior substituindo
‘k-ésima’ por ‘primeira’ e ‘k+1-ésima’ por ‘segunda’, aplicando esta regra para o número 153.654321.
Note que deve-se sempre avaliar o número original para realizar o arredondamento. Arredondamentos
são comuns, por exemplo, ao calcularmos um ı́ndice de preço ou um montante de pagamento sobre o
qual incidiu certa taxa de juros.
Para truncar um número para a k-ésima casa decimal, basta eliminar a k+1-ésima casa decimal e suas
subsequentes. Como exercı́cio, releia a frase anterior substituindo ‘k-ésima’ por ‘primeira’ e ‘k+1-ésima’
por ‘segunda’, aplicando esta regra novamente para o número 153.654321. Compare com os valores
arredondados e note que pode-se utilizar números já truncados para continuar a reduzir a precisão sem a
necessidade de conhecer o valor original. Truncagens são comuns, por exemplo, para representar idades
e ao calcular os graus G1 e G2 da PUCRS. Assim, se o cálculo do seu G1 resultar em 6.99999999, o
sistema irá truncar para 6.9, e não arredondar para 7.0.
Exemplo 1.2. (Arredondamento e truncagem)

Decimais Arredondamento Truncagem


6 153.654321 153.654321
5 153.65432 153.65432
4 153.6543 153.6543
3 153.654 153.654
2 153.65 153.65
1 153.7 153.6
0 154 153
−1 150 150
−2 200 100

Tabela 1.2: Arredondamento e truncagem do número 153.654321

> options(digits = 10) # Ajustando para apresentaç~


ao de 10 dı́gitos (padr~
ao: 7)
> for(i in 6:-2){ print(round(153.654321, dig = i)) } # 'digits' casas decimais

[1] 153.654321
[1] 153.65432
[1] 153.6543
[1] 153.654
[1] 153.65
[1] 153.7
[1] 154
[1] 150
[1] 200

> trunc <- function(x, ..., dig = 0) base::trunc(x*10^dig, ...)/10^dig # Aprimorando


> for(i in 6:-2){ print(trunc(153.654321, dig = i)) } # Precis~
ao de i decimais

[1] 153.654321
[1] 153.65432
[1] 153.6543
[1] 153.654
[1] 153.65
[1] 153.6
[1] 153
[1] 150
[1] 100

7 Esta é a regra do arredondamento para o número mais próximo.

Page 7
DRAFT VERSION
> # install.packages('plyr', dep = T) # Utilizando round_any do pacote plyr
> plyr::round_any(153.654321, .01, round) # dig = 2 em round

[1] 153.65

> plyr::round_any(153.654321, .0001, floor) # dig = 4 em trunc

[1] 153.6543

> plyr::round_any(153.654321, 1, round) # dig = 0 em round

[1] 154

> plyr::round_any(153.654321, 100, round) # dig = -2 em round

[1] 200

1.6 Outros sı́mbolos e expressões


· ∼: tem distribuição.
· ≈: aproximadamente.
· #: número de.
· ⊥
⊥: é independente de.
· ±/∓: mais ou menos/menos ou mais.
· ,: fim do Exemplo.
a
· : fim do Teorema.
· ˇ “( : fim do Momentinho Cultural.
· i.e.: id est, expressão em Latim que significa ‘isto é’.
· e.g.: exempli gratia, expressão em Latim que significa ‘por exemplo’.

Maiúscula Minúscula Nome Maiúscula Minúscula Nome


A α Alfa N ν Nü
B β Beta Ξ ξ Csi
Γ γ Gama O o Ômicron
∆ δ Delta Π π, $ Pi
E , ε Épsilon P ρ, % Rô
Z ζ Zeta Σ σ, ς Sigma
H η Eta T τ Tau
Θ θ, ϑ Teta Υ υ Úpsilon
I ι Iota Φ φ, ϕ Fi
K κ, κ Capa X χ Qui
Λ λ Lambda Ψ ψ Psi
M µ Mü Ω ω Ômega

Tabela 1.3: Sim, estamos falando grego.

Page 8
DRAFT VERSION
1.7 Momentinho Cultural
Sabe-se que a atenção do ser humano é limitada. O limiar de atenção – tempo que uma pessoa
consegue ficar focada em determinada tarefa – gira em torno de 40 minutos para tarefas do cotidiano8
e não mais do que 10 ou 15 minutos em sala de aula, pela experiência do autor. Assim, em um esforço
para dar um maior dinamismo às aulas, foi criado o Momentinho Cultural. É uma pausa com tempo
determinado arbitrariamente pelo professor, com a função principal de descontrair o ambiente. Tal
arbitrariedade fornece ao professor autonomia para não realizar o MC, se assim julgar necessário.
‘Momentinho’ sugere uma pausa breve, enquanto ‘Cultural’ tem como objetivo nortear a discussão
livre para assuntos mais elevados. Os temas abordados com maior frequência são Música, Teatro, Cinema
e Atualidades. Note as intervenções intituladas ‘Momentinho Cultural’ ao longo deste material, que se
valem dos benefı́cios da aplicação do método9 :
· relaxa;
· é divertido;
· estimula a comunicação entre os alunos e o professor;
· cria um ambiente para discussão de questões fundamentais que não encontram espaço no currı́culo
formal.
Mas justiça seja feita aos mestres que já se utilizavam desta técnica, que foi transmitida ao autor
pelo grande João Beal Vargas durante suas magnéticas aulas. O professor, maratonista, poeta e gaitero
Chico Silveira costumava aplicar seu MC, o ‘Momento do Chico’. Curiosamente outro sábio professor –
o sempre alegre José Baratojo – nos ensina sobre esta arte, intitulada ‘zunzun’ em seu conto ‘Psicologia
das cores’10 , transcrito abaixo.

Psicologia das cores


Alguns anos atrás recebi uma turma de alunos (47 alunas e 3 alunos) do Curso de Psi-
cologia. Como podem imaginar, a parte da aula mais difı́cil não era referente aos assuntos
da Matemática que eu devia ministrar-lhes, mas sim, fazer com que as alunas conseguissem
parar de conversar.
Em primeiro lugar, entrei num acordo com aquele simpático e educado grupo, acordo esse
que consistia em fazer de tempos em tempos, após a explicação de algum assunto, um mo-
mento que intitulamos de “zunzun”. Desse modo, fomos até o fim do semestre bem entrosados.
Como a turma era numerosa, resolvi, no primeiro trabalho de verificação da aprendizagem,
organizar quatro provas diferentes e, para que pudesse identificá-las de longe, eu as fiz em
papel com cores diferentes: amarelo, verde, rosa e branco.
Os alunos verificaram logo que havia quatro provas diferentes e trataram cada um de
resolver a sua, pois não dava para conferir com a dos seus vizinhos.
No segundo trabalho, eu resolvi fazer somente duas provas diferentes, mas distribuı́ aquelas
provas também em papel com quatro cores diferentes.
Quando eles viram as cores, baixaram a cabeça e começaram a trabalhar, tranquilamente.
No terceiro e último trabalho, eu fiz uma única prova e continuei usando as quatro cores
e o trabalho também foi realizado numa grande tranquilidade.
Ao término do último trabalho, eles perceberam comparando as questões que haviam resol-
vido, que todos tinham a mesma prova e, então, vieram me perguntar: “Professor! Só existia
uma única prova?” Eu lhes respondi afirmativamente.
“Então por que o senhor usou as quatro cores diferentes?”
Aı́ eu lhes disse: Eu usei as quatro cores por três grandes motivos: 1 º) para que vocês
pensassem que eram quatro provas diferentes, o que vocês realmente pensaram; 2 º) para que
vocês, pensando dessa forma, realizassem a prova tranquilamente, sem se preocuparem com
os vizinhos, o que aconteceu também; 3 º) para que os alunos da psicologia vissem a influência
das cores no comportamento humano!
∼ José Baratojo, 2000
8 Dukette and Cornish (2009)
9 Dica:busque por ‘momentinho cultural’ no Google.
10 Baratojo (2000).

Page 9
DRAFT VERSION

“ Fazendo umas médias se faz uma média.”


∼ Filipe J. Zabala, 2015

2 Estatı́stica Descritiva
Estatı́stica Descritiva está diretamente ligada à organização e descrição dos dados. É utili-
A zada para avaliar como as observações se distribuem, onde estão posicionadas e como se apre-
sentam em termos de dispersão e associação. Neste capı́tulo serão introduzidos conceitos e métodos
descritivos, ponto de partida da análise exploratória de dados, passo fundamental para análises estatı́s-
ticas mais avançadas.

2.1 Variáveis
Variável é uma caracterı́stica medida nos universos ou amostras. As variáveis qualitativas ou atributos
avaliam caracterı́sticas não numéricas no conjunto de interesse, como gênereo, time de futebol e nı́vel
de escolaridade. As variáveis quantitativas medem caracterı́sticas numéricas, como número de alunos
prestando atenção ou tempo de uma música em segundos. Podem ser classificadas conforme a Figura
2.1.
Variável
. &
Qualitativa Quantitativa
.& .&
Nominal Ordinal Discreta Contı́nua
character factor integer numeric

Figura 2.1: Uma possı́vel classificação das variáveis

2.1.1 Variável qualitativa nominal


Variáveis qualitativas nominais possuem o menor grau de informação dentre os quatro tipos propostos,
permitindo apenas a avaliação de frequências e ordenações arbitrárias. Aplicam-se em avaliações de
grupos não ordenados, tais como ‘gênero’, ‘religião’, ‘raça’, ‘cor preferida’, ‘bairro onde reside’, ‘time de
futebol do coração’, etc.
Exemplo 2.1. (Time de futebol do coração) Suponha um lugar onde tudo seja tratado de maneira dicotô-
mica11 . Como exercı́cio, no primeiro dia de aula de Estatı́stica as pessoas são questionadas quanto ao
‘time de futebol do coração’ através do voto secreto em uma cédula, onde estão listados os dois times
locais. Não existe informação prévia que obrigue a dispor na listagem qualquer time antes ou depois de
outro. Por este motivo optou-se pela ordenação alfabética – apesar do princı́pio de tumulto –, resultando
na lista
Maragato F.C.
Ximango F.C.
Os mais tradicionalistas gritavam palavras de ordem, preferindo a grafia
Chimango F.C.
Maragato F.C.
,
11 Dicotomia
é o ato de segmentar um conjunto em dois subconjuntos mutuamente excludentes, i.e., um elemento pode
pertencer somente a um dos subconjuntos.

Page 10
DRAFT VERSION
2.1.2 Variável qualitativa ordinal
Variáveis qualitativas ordinais possuem grau de informação maior em relação às nominais pois são
dotadas de uma ordenação prévia, permitindo comparações entre as observações. As variáveis de natureza
ordinal são utilizadas quando avaliam-se medidas tais como ‘colocação em um torneio esportivo’, ‘grau
de escolaridade’, ‘classificação de um restaurante quanto à qualidade da comida’, etc.
Exemplo 2.2. (Colocação no vestibular) A variável ‘colocação geral no vestibular’ é classificada como
qualitativa ordinal pois indica a ordenação do vestibulando em comparação aos demais, mesmo que não
se conheça a nota final de cada candidato.
,
Exemplo 2.3. (Escala de Likert) Quando deseja-se medir o grau de satisfação em relação a algum bem
ou serviço, pode-se utilizar a Escala de Likert de k nı́veis. Se um empresário utilizar k = 4, pode fazer
1: Ruim, 2: Regular, 3: Bom, 4: Ótimo. Se k = 5, pode-se considerar 1: Péssimo, 2: Ruim, 3: Regular,
4: Bom, 5: Ótimo.
A vantagem de utilizar k par é que obriga-se o respondente a se posicionar a favor/contra, acima/abaixo.
,
Exemplo 2.4. (Corrida maluca) Suponha uma corrida disputada em Imaginationland12 , na qual Rubinho
Barrichello tenha chegado na primeira colocação e Ayrton Senna na décima nona. As únicas informa-
ções de que dispomos apontam que i) Barrichello chegou antes de Senna, ii) ninguém chegou antes de
Barrichello, iii) há 17 intermediários e iv) de fato, tudo aconteceu em Imaginationland.
,

2.1.3 Variável quantitativa discreta


Uma variável quantitativa discreta assume apenas valores inteiros, i.e., discretos. Tecnicamente as
variáveis discretas são caracterizadas por conjuntos enumeráveis13 finitos ou infinitos.
Exemplo 2.5. (Número de filhos) Suponha que deseja-se observar o número de filhos de mulheres aten-
didas em um hospital. Para cada mulher entrevistada, o conjunto de possı́veis respostas para a pergunta
‘quantos filhos a senhora tem?’ é F = {0, 1, 2, . . . , k}, onde k é o número máximo de filhos que uma mu-
lher possa ter ao longo de sua vida. O recorde mundial é k = 69, atribuı́do à russa Valentina Vassilyeva.
Este é um conjunto enumerável finito.
,
Exemplo 2.6. (Pontos em um dado lançado k vezes) Suponha k lançamentos de um dado. Em cada
lançamento é anotada a face resultante, somada aos valores obtidos nos k − 1 lançamentos anteriores.
O conjunto de possı́veis resultados deste experimento é S = {k, k + 1, . . . , 6k}. Este é um conjunto
enumerável finito. Como exercı́cio, faça k = 4 e releia a sentença anterior substituindo os valores.
,
Exemplo 2.7. (Consumo de uma engrenagem moto-contı́nua) Suponha uma engrenagem eterna, com
consumo medido em PAB14 . O conjunto do número possı́vel de passos é S = {1, 2, . . .}. Este é um
conjunto enumerável infinito.
/
Exemplo 2.8. (Pilcher’s Squad) Norman Pilcher foi o criador da Drug Squad, e ganhou notoriedade nos
anos 60 por prender artistas como Mick Jagger e John Lennon. O conjunto de artistas que o Sargento
Pilcher poderia prender é A = {a1 , a2 , . . . , ak }, onde k representa o número de artistas disponı́veis para
serem presos. Este é um conjunto enumerável finito.
,
12 http://www.imdb.com/title/tt0995577
13 Um conjunto enumerável é aquele em que se pode listar e contar os elementos.
14 Passos Até a Bufunfa.

Page 11
DRAFT VERSION
2.1.4 Variável quantitativa contı́nua
A classe de variáveis quantitativas contı́nuas é caracterizada por permitir a observação de qualquer
subconjunto dos números reais como resultado, i.e., permite resultados não inteiros. É utilizada para ava-
liar tempo, distâncias, áreas, volumes ou qualquer outra grandeza numérica de caráter não enumerável15 .
Tal como nas variáveis discretas, é possı́vel avaliar relações matemáticas entre os valores observados.
Exemplo 2.9. (Percentual de bulı́micas) Suponha que um grupo de pesquisadores está interessado em
avaliar o ‘percentual de mulheres bulı́micas no Rio Grande do Sul’. Este valor está obrigatoriamente entre
0 e 1 (ou 0% e 100%), podendo ser representado pelo conjunto não enumerável Ω = {b ∈ R : 0 ≤ b ≤ 1}.
,
Exemplo 2.10. (Idade) A variável ‘idade’ é classificada como quantitativa contı́nua por representar uma
noção temporal. Caso haja interesse, pode-se dizer que em certo instante do tempo João apresentou
31.990192013071629871269817323644 anos de idade. Na prática, porém, geralmente as idades são trun-
cadas16 , sendo que João provavelmente afirmaria ter 31 anos de idade mesmo um dia antes do seu
32ºaniversário. Na melhor das situações as idades são observadas com precisão de dias, calculando-se a
idade do indivı́duo pela diferença entre o dia de hoje e o seu dia de nascimento, convertendo o valor para
anos. O conjunto dos possı́veis tempos de vida de um ser humano é dado por Ω = {t ∈ R : 0 < t ≤ T },
onde T é a idade máxima em anos que um ser humano pode atingir. Segundo o Guiness World Records,
T = 122.44931506849315, alcançado pela francesa Jeanne Louise Calment. Ω é dito não enumerável
visto não ser possı́vel contabilizar o seu número de elementos.
,
Exemplo 2.11. (Descendo o nı́vel) Suponha que um grupo de pessoas foi avaliado em relação à variável
‘idade’ medida em anos, considerando-se a hora e minuto do nascimento. É possı́vel transformá-la
na variável ‘idade discreta’ simplesmente truncando os valores observados. Da mesma forma, pode-se
tranformá-la na variável ‘idade ordinal’, classificando-a de acordo com a tabela a seguir.

i Faixa etária Classificação


1 Até 10 anos Criança
2 10 ` 13 Pré-adolescente
3 13 ` 18 Adolescente
4 18 ` 35 Adulto jovem
5 35 ` 45 Adulto
6 45 ` 65 Adulto maduro
7 65 ` 75 Idoso jovem
8 75 + Idoso

Note que se uma pessoa tem 31.990192013071629871269817323644 anos de idade (contı́nua), pode-
se considerar a idade truncada de 31 anos (discreta) e classificá-la como um ‘adulto jovem’ (ordinal).
Porém, dado que uma pessoa é classificada como adulto jovem, é possı́vel apenas afirmar que ela tem
idade entre 18 anos (completos) e 35 anos (incompletos) segundo a classificação proposta.
,
Cada tipo de variável apresenta um nı́vel de informação que deve ser respeitado. É possı́vel ir de um
nı́vel maior de classificação para um nı́vel menor, mas jamais ao contrário. É válido lembrar que perde-se
informação ao descer o nı́vel de classificação da variável. É bastante comum, porém, encontrar trabalhos
utilizando nı́veis de classificação inapropriados, conduzindo a técnicas não adequadas que implicam em
conclusões equivocadas.

EXERCÍCIOS
1. Classifique as variáveis abaixo (qualitativa nominal/ordinal, quantitativa discreta/contı́nua).

a) Número de geladeiras em casa


b) Temperaturas da água da piscina em um dia de verão
c) Número de suicı́dios em uma cidade no decorrer do ano passado
15 Um conjunto não enumerável possui infinitos elementos, sendo impossı́vel listá-los segundo alguma regra.
16 Seção1.5.

Page 12
DRAFT VERSION
d) Concentração de chumbo em uma amostra de água
e) Lista de editoras de livros
f) Grau de satisfação dos clientes que frequentam uma rinha de galo
g) Marcas de amaciantes para roupas
h) Tempo que um paciente sobrevive após determinado diagnóstico
i) Participação de mercado (ou market share, para falar bonito)
j) Classificação em uma corrida de banheiras
k) Tempo final de cada corredor
l) Lista dos nomes das banheiras participantes, tal como “Dick Vigarista” e “Trollface”
m) Distância de Estambul ao Rio de Janeiro

2.2 Distribuição de Frequência


2.2.1 Dados brutos, Rol e Estatı́sticas de Ordem
Quando observa-se alguma variável de interesse, em geral anotam-se os resultados na ordem em que
aparecem. Esta lista de dados não ordenada é conhecida como lista de dados brutos. Quando ordenam-
se estes dados – em ordem crescente ou decrescente – obtém-se um rol, dando origem às estatı́sticas de
ordem. Em uma distribuição de n elementos x1 , x2 , . . ., xn observados sequencialmente, denotam-se os
dados ordenados de forma crescente por x(1) , x(2) , . . ., x(n) e, analogamente, x(n) , x(n−1) , . . ., x(1) para
a ordenação decrescente.
Exemplo 2.12. (Rol) Se ordenarmos os dados da Tabela 1.1 da página 5, obtemos o seguinte rol:

x(1) x(2) x(3) x(4) x(5) x(6)


7 20 124 186 191 402

Tabela 2.1: Rol do número de passos até a lixeira mais próxima na capital gaúcha

O menor número de passos caminhados foi sete, representado por x(1) = 7, e o maior foi quatrocentos
e dois, representado por x(6) = 402.

> (x <- c(186,402,191,20,7,124)) # Criando e apresentando o vetor original de dados brutos

[1] 186 402 191 20 7 124

> sort(x) # Apresentando o rol, ou vetor ordenado. Teste ?order

[1] 7 20 124 186 191 402

> sort(x, decreasing = T) # Ordem decrescente, onde T indica TRUE (padr~


ao: FALSE)

[1] 402 191 186 124 20 7

,
Em um primeiro momento estas definições podem parecer ultrapassadas, mas são de grande impor-
tância na construção de métodos avançados de análise de dados. Como atualmente trabalham-se com
bases de dados em formato eletrônico, em geral é fácil realizar a ordenação de grandes volumes de dados.
É importante ressaltar, porém, que em certos casos é necessário muito poder de processamento para
executar tais ordenações, podendo se tornarem impraticáveis pelo alto custo computacional.

EXERCÍCIOS
1. Considere o conjunto de dados 10, −4, 5, 7, 1, 3, 9.

a) Obtenha o rol.
b) Indique e interprete x(4) .

2. Utilizando a função sort, encontre o rol das Tabelas 2.3 e 2.5.

Page 13
DRAFT VERSION
2.2.2 Tabela de frequência univariada discreta
Listas muito longas, ainda que ordenadas, não costumam ser de fácil compreensão. Assim, a tabela de
frequência univariada discreta é uma boa maneira de consolidar os dados de uma variável que assuma,
como regra-de-bolso, até 10 diferentes valores. Esta tabela deve apresentar pelo menos uma coluna des-
crevendo a variável de interesse e uma coluna com a frequência (da classe), i.e., o número de observações
contempladas em cada categoria. Sugere-se também a apresentação de uma coluna indicando a classe,
denotada por i conforme Tabela 2.2.

i xi fi f ri Fi Fri `i `ri
1 x1 f1 f1 /n F1 = f1 F1 /n `1 = `2 + f1 = n `1 /n = 1
2 x2 f2 f2 /n F2 = F1 + f2 F2 /n `2 = `3 + f2 `2 /n
3 x3 f3 f3 /n F3 = F2 + f3 F3 /n `3 = `4 + f3 `3 /n
.. .. .. .. .. .. .. ..
. . . . . . . .
k−2 xk−2 fk−2 fk−2 /n Fk−2 = Fk−3 + fk−2 Fk−2 /n `k−2 = `k−1 + fk−2 `k−2 /n
k−1 xk−1 fk−1 fk−1 /n Fk−1 = Fk−2 + fk−1 Fk−1 /n `k−1 = `k + fk−1 `k−1 /n
k xk fk fk /n Fk = Fk−1 + fk = n Fk /n = 1 `k = fk `k /n
Total - n 1 - - - -

Tabela 2.2: Tabela de frequência genérica. Faça os exercı́cios propostos que melhora.

Para a classe genérica i são calculadas as seguintes frequências:

· fi : Frequência (simples/absoluta)
· fri : Frequência relativa
· Fi : Frequência acumulada
· Fri : Frequência acumulada relativa
· `i : Frequência acumulada inversa
· `ri : Frequência acumulada inversa relativa.

Exemplo 2.13. (Número de filhos revisitado) Do Exemplo 2.5 observou-se a variável

X: ‘número de filhos de mulheres atendidas em um hospital de Porto Alegre em 2019’.

A Tabela 2.3 apresenta os dados na ordem em que foram observados. Este tipo de apresentação é
bastante completo, mas dificulta a extração de informações relevantes. Como exercı́cio, indique o número
máximo de filhos observados na amostra.

i xi i xi i xi i xi i xi i xi i xi i xi i xi i xi
1 2 11 3 21 2 31 1 41 1 51 2 61 3 71 1 81 0 91 1
2 0 12 2 22 3 32 1 42 1 52 4 62 0 72 3 82 1 92 3
3 1 13 3 23 1 33 1 43 4 53 1 63 2 73 1 83 2 93 3
4 2 14 2 24 2 34 1 44 1 54 3 64 0 74 3 84 2 94 4
5 4 15 1 25 2 35 0 45 1 55 1 65 2 75 3 85 2 95 5
6 2 16 4 26 1 36 2 46 3 56 2 66 2 76 4 86 2 96 1
7 1 17 2 27 4 37 3 47 1 57 0 67 2 77 2 87 2 97 0
8 4 18 0 28 0 38 3 48 1 58 2 68 1 78 1 88 4 98 0
9 2 19 1 29 1 39 1 49 4 59 3 69 2 79 2 89 0 99 3
10 3 20 4 30 6 40 2 50 2 60 3 70 3 80 3 90 2 100 2

Tabela 2.3: Dados brutos de X

A Tabela 2.4 apresenta o número de filhos ordenados, fornecendo ainda algumas frequências que
auxiliam o entendimento da distribuição. Com a apresentação no formato da Tabela 2.4, facilmente se
observa um máximo de 6 filhos na amostra, ao contrário da tabela de dados brutos. Perde-se apenas a
ordem na qual os dados foram observados, o que em geral não é do interesse do pesquisador.

Page 14
DRAFT VERSION
i xi fi fri Fi Fr i `i `ri
1 0 11 11/100 = 0.11 11 11/100 = 0.11 89 + 11 = 100 100/100 = 1
2 1 27 27/100 = 0.27 11 + 27 = 38 38/100 = 0.38 62 + 27 = 89 89/100 = 0.89
3 2 30 30/100 = 0.30 38 + 30 = 68 68/100 = 0.68 32 + 30 = 62 62/100 = 0.62
4 3 19 19/100 = 0.19 68 + 19 = 87 87/100 = 0.87 13 + 19 = 32 32/100 = 0.32
5 4 11 11/100 = 0.11 87 + 11 = 98 98/100 = 0.98 2 + 11 = 13 13/100 = 0.13
6 5 1 1/100 = 0.01 98 + 1 = 99 99/100 = 0.99 1+1=2 2/100 = 0.02
7 6 1 1/100 = 0.01 99 + 1 = 100 100/100 = 1 1 1/100 = 0.01
Total - 100 1 - - - -

Tabela 2.4: Tabela de frequência de X

Note que a coluna i da Tabela 2.3 indica a ordem da mulher entrevistada, enquanto na Tabela 2.4 i
indica a classe. Por exemplo, i = 4 indica a quarta mulher entrevistada, que no caso informou ter x4 = 2
filhos. Na Tabela 2.4, i = 4 indica a quarta classe onde x4 = 3, i.e., a classe das mulheres que possuem
3 filhos.

As únicas colunas que exigem a leitura dos dados brutos são a da variável xi e a da frequência fi ;
as demais são calculadas a partir de fi . A seguir estão alguns exemplos de interpretação das frequências
apresentadas na Tabela 2.4.

· f5 = 11, i.e., 11 mulheres possuem 4 filhos;


· fr5 = 0.11 = 11%, i.e., 11% das mulheres possuem 4 filhos;

· F4 = 87, i.e., 87 mulheres possuem até 3 filhos (ou ‘de zero a 3 filhos’, mas esta alternativa é
menos elegante);
· Fr3 = 0.68 = 68%, i.e., 68% das mulheres possuem até 2 filhos;
· `3 = 62, i.e., 62 mulheres têm pelo menos 2 filhos;

· `r2 = 0.89 = 89%, i.e., 89% das mulheres têm pelo menos 1 filho.

,
Exemplo 2.14. (Número de filhos R-visitado) Exemplo 2.13 utilizando R/RStudio.

> # Lendo o arquivo 'hospital.txt' direto do link


> hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)
> dim(hosp) # Dimens~
ao: 100 linhas por 2 colunas

[1] 100 2

> head(hosp) # Apresenta as 6 primeiras linhas do objeto 'hosp'; teste tail(hosp, 10)

filhos altura
1 2 1.59
2 0 1.58
3 1 1.70
4 2 1.62
5 4 1.67
6 2 1.62

> attach(hosp) # Para deixar as colunas de 'hosp' disponı́veis


> (tab <- table(filhos)) # Frequ^
encia (simples/absoluta)

filhos
0 1 2 3 4 5 6
11 27 30 19 11 1 1

Page 15
DRAFT VERSION
> prop.table(tab) # Frequ^
encia relativa

filhos
0 1 2 3 4 5 6
0.11 0.27 0.30 0.19 0.11 0.01 0.01

> cumsum(tab) # Frequ^


encia acumulada

0 1 2 3 4 5 6
11 38 68 87 98 99 100

> round(cumsum(tab)/length(filhos),2) # Frequ^


encia acumulada relativa

0 1 2 3 4 5 6
0.11 0.38 0.68 0.87 0.98 0.99 1.00

> cumsum(rev(tab)) # Frequ^


encia acumulada inversa

6 5 4 3 2 1 0
1 2 13 32 62 89 100

> round(cumsum(rev(tab))/length(filhos),2) # Frequ^


encia acumulada inversa relativa

6 5 4 3 2 1 0
0.01 0.02 0.13 0.32 0.62 0.89 1.00

EXERCÍCIOS
3. Em uma fábrica retirou-se uma amostra de 50 peças de um lote de certo material e contou-se o número de defeitos
em cada peça, apresentados na tabela a seguir.

i # defeitos fi f ri Fi F ri
1 0 17
2 1 10
3 2
4 3 8
5 4 5
6 5 1
Total - 50

a) Classifique a variável ‘número de defeitos’.


b) Qual a frequência absoluta da classe 3? Interprete.
c) Qual a frequência relativa da classe 3? Interprete.
d) Qual a frequência acumulada da classe 4? Interprete.
e) Qual a frequência acumulada relativa da classe 5? Interprete.
f) Represente os dados utilizando o gráfico que você considerar mais adequado.

4. Em 13 de março de 1883, estavam Émile Durkheim e Max Weber no leito de morte de Karl Marx discutindo a
respeito de propriedade intelectual. Weber, o mais jovem e disposto da turma, com apenas 19 anos, coletou algumas
informações a respeito da Convenção de Paris de 1883, que aconteceria em uma semana. Em suas anotações, estava
o número de unidades monetárias que deveria ser paga anualmente por cada paı́s membro do tratado, dependendo
da classe à qual o paı́s pertencesse17 . O valor da unidade iria variar de acordo com a inflação e outros fatores
econômicos da época corrente. A tabela abaixo apresenta o resultado dos estudos de Weber.

a) Qual a frequência simples da classe VI? Interprete.


b) Qual a frequência relativa da classe I? Interprete.
c) Qual a frequência acumulada da classe II? Interprete.
d) Qual a frequência acumulada relativa da classe III? Interprete.

17 Paris Convention for the Protection of Industrial Property (1883), WIPO Database of Intellectual Property. www.wipo.

int/treaties/en/text.jsp?file_id=288514

Page 16
DRAFT VERSION
Classe Unidades fi fr i Fi Fri
I 25 21
II 20 26
III 15 10
IV 10 9
V 5 32
VI 3 38
VII 1 37
Total - 173

2.2.3 Tabela de frequência univariada contı́nua


Quando uma variável assume mais de 10 diferentes valores, recomenda-se utilizar a tabela de frequência
univariada contı́nua. A diferença para a tabela discreta da Seção 2.2.2 é que na contı́nua distribuem-se
os valores em intervalos de classe, i.e., faixas de valores com certa amplitude. A principal vantagem
desta abordagem é a capacidade de apresentar os dados de maneira enxuta. O contraponto, como em
qualquer resumo de dados, é a perda da informação original.

Amplitude (h) e quantidade (k) de classes

Quando deseja-se apresentar a variável em intervalos de classe, é necessário determinar a amplitude


do intervalo de classe (h) e a quantidade de classes (k) em que serão dispostos os dados. Apresentam-se
a seguir três das principais regras para determinar h e k.
1. Sturges (1926) sugere que a amplitude do intervalo de classe seja calculada por

A max X − min X
hSt = = , (4)
kSt 1 + 3.322 log10 n

onde A é a amplitude (dos dados) descrita na Seção 2.4.1, não devendo ser confundida com h. O
denominador é obtido a partir da expansão binomial, na forma
k−1
X 
k−1
n = = (1 + 1)k−1 = 2k−1 (5)
i=0
i
∴ kSt = d1 + log2 ne ≈ d1 + 3.322 log10 ne , (6)

onde d e indica a função teto, o menor inteiro consecutivo denotado por dxe = min{n ∈ N|n ≥ x}.
Alguns pacotes computacionais atribuem o número de classes aplicando regras que encontrem um valor
‘bonito’ para a divisão. Tais valores são obtidos computando números que sejam 0, 1, 2 ou 5 vezes uma
potência de 10, i.e., a × 10b , a ∈ {0, 1, 2, 5} e b ∈ N ∪ {−1}.
Exemplo 2.15. (Sturges) Se forem observados n = 100 valores com amplitude (dos dados) A = 0.23, a
amplitude da classe sugerida por Sturges é
0.23
hSt = = 0.02875,
1 + log2 100

e a quantidade de classes
kSt = d1 + log2 100e = d7.644e = 8.

Page 17
DRAFT VERSION
> n <- length(altura) # n=100, número de dados a serem tabulados
> A <- diff(range(altura)) # Amplitude (dos dados, n~ao da classe!)
> ceiling(1 + log2(n)) # Pela Equaç~
ao (6), usando log2

[1] 8

> ceiling(1 + 3.322*log10(n)) # Pela Equaç~


ao (6), usando log10

[1] 8

> (kSt <- nclass.Sturges(altura)) ao 'nclass.Sturges'


# Pela funç~

[1] 8

> (hSt <- A/kSt) # Pela Equaç~


ao (4)

[1] 0.02875

> pretty(kSt) # Valores 'bonitos', (a=5, b=0) e (a=1, b=1)

[1] 5 10

,
2. Scott (1979) incorpora s, o desvio padrão amostral18 ao cálculo da amplitude do intervalo, na
forma
3.5s
hSc = 1/3 . (7)
n
O número de classes de Scott pode ser obtido por
   
A maxX − minX
kSc = = . (8)
hSc 3.5sn−1/3
Exemplo 2.16. (Scott) Se forem observados n = 100 valores com desvio padrão amostral s = 0.045268559,
a amplitude da classe sugerida por Scott é
3.5 × 0.045268559
hSc = = 0.034134854.
1001/3
Se A = 0.23, a quantidade de classes é
 
0.23
kSc = = d6.7379811e = 7.
0.034134854

> n <- length(altura) # n=100, número de observaç~


oes a serem tabuladas
> s <- sd(altura) # s=0.045268559, desvio padr~ ao amostral
> A <- diff(range(altura)) # Amplitude (dos dados, n~ao da classe!)
> (hSc <- 3.5*s/n^(1/3)) # Pela Equaç~
ao (7)

[1] 0.03413485378

> ceiling(A/hSc) # k sugerido por Scott, Equaç~


ao (8)

[1] 7

> (kSc <- nclass.scott(altura)) ao 'nclass.scott'


# k obtido pela funç~

[1] 7

> pretty(kSc) # Valores 'bonitos', (a=5, b=0) e (a=1, b=1)

[1] 5 10

18 Seção 2.4.3.

Page 18
DRAFT VERSION
,
3. Freedman-Diaconis (1981) inserem a amplitude interquartı́lica no cálculo da amplitude do intervalo,
na forma
AI
hF D = 2 , (9)
n1/3
onde AI = Q3 − Q1 é a amplitude interquartı́lica, apresentada na Seção 2.6.4. O número de classes
obtido como consequência da aplicação da relação de Freedman-Diaconis é
   
A maxX − minX
kF D = = . (10)
hF D 2 AI n−1/3

Exemplo 2.17. (Freedman-Diaconis) Se forem observados n = 100 valores com amplitude interquartı́lica
de AI = 0.0525, a amplitude da classe sugerida por Freedman-Diaconis é
2 × 0.0525
hF D = = 0.022621564.
1001/3
Se A = 0.23, e a quantidade de classes
 
0.23
kF D = = d10.16729e = 11.
0.022621564

> n <- length(altura) # n=100, número de observaç~


oes a serem tabuladas
> (Q <- quantile(altura, c(1/4,3/4))) # Primeiro e terceiro quartis

25% 75%
1.5975 1.6500

> (AI <- diff(as.numeric(Q))) # Amplitude Interquatı́lica

[1] 0.0525

> (hFD <- 2*AI/n^(1/3)) # Pela Equaç~


ao (9)

[1] 0.02262156425

> A <- diff(range(altura)) # Amplitude (dos dados, n~


ao da classe ou interquartı́lica!)
> ceiling(A/hFD) # k sugerido por Freedman-Diaconis, Equaç~
ao (10)

[1] 11

> (kFD <- nclass.FD(altura)) ao 'nclass.FD'


# Pela funç~

[1] 11

> pretty(kFD) # Valores 'bonitos', (a=1, b=1) e (a=2, b=1)

[1] 10 20

Page 19
DRAFT VERSION
Hyndman (1995)19 argumenta que as regras de Scott e Freedman-Diaconis são tão simples quanto
a regra de Sturges, mas melhor fundamentadas na teoria estatı́stica. Além disso, a regra de Sturges
funciona bem para tamanhos de amostra moderados (n < 200), mas não para valores grandes de n.
Exemplo 2.18. (Comparando os três métodos) Foi realizada uma simulação com tamanhos de amostra
n = 10i , i ∈ {1, 2, . . . , 6}, indicando o número de classes sugerido por cada método.

> NC <- function(x) c(i = i, n = 10^i, # Quantidades simuladas


Sturges = nclass.Sturges(x), # Sturges (1926)
Scott = nclass.scott(x), # Scott (1979)
FD = nclass.FD(x)) # Freedman-Diaconis (1981)
> for(i in 1:6){set.seed(i); print(NC(rnorm(10^i)))} # Pode ser demorado para i>6

i n Sturges Scott FD
1 10 5 2 3
2 100 8 6 7
3 1000 11 19 25
4 10000 15 44 56
5 100000 18 112 145
6 1000000 21 278 360

Exemplo 2.19. (Alturas de mulheres) Seja a variável

Y : ‘altura de mulheres atendidas em um hospital de Porto Alegre em 2019’.

A Tabela 2.5 apresenta os dados brutos. Este tipo de apresentação é bastante completo, mas dificulta
a extração de informações relevantes. Como exercı́cio, indique quantas mulheres têm altura entre 1.70m
e 1.75m a partir desta tabela.

i yi i yi i yi i yi i yi
1 1.59 21 1.63 41 1.58 61 1.70 81 1.64
2 1.58 22 1.64 42 1.66 62 1.65 82 1.60
3 1.70 23 1.64 43 1.59 63 1.51 83 1.68
4 1.62 24 1.62 44 1.67 64 1.66 84 1.65
5 1.67 25 1.66 45 1.62 65 1.52 85 1.65
6 1.62 26 1.61 46 1.55 66 1.60 86 1.64
7 1.69 27 1.61 47 1.64 67 1.62 87 1.55
8 1.60 28 1.60 48 1.62 68 1.68 88 1.66
9 1.61 29 1.61 49 1.65 69 1.65 89 1.59
10 1.58 30 1.64 50 1.66 70 1.61 90 1.66
11 1.64 31 1.59 51 1.64 71 1.56 91 1.69
12 1.72 32 1.60 52 1.57 72 1.65 92 1.61
13 1.74 33 1.62 53 1.65 73 1.62 93 1.58
14 1.63 34 1.53 54 1.69 74 1.63 94 1.73
15 1.64 35 1.58 55 1.65 75 1.57 95 1.56
16 1.63 36 1.60 56 1.62 76 1.62 96 1.59
17 1.59 37 1.61 57 1.68 77 1.54 97 1.65
18 1.64 38 1.67 58 1.60 78 1.64 98 1.63
19 1.59 39 1.68 59 1.68 79 1.66 99 1.70
20 1.65 40 1.56 60 1.59 80 1.56 100 1.60

Tabela 2.5: Dados brutos de Y

Para colocar estes valores em uma tabela de frequência, obteve-se kSt = 8 pela regra de Sturges20 , e
pelo resultado de pretty(8) decidiu-se por 5 classes21 . Como exercı́cio, obtenha kSc e kF D .
19 http://robjhyndman.com/papers/sturges.pdf
20 Exemplo 2.15.
21 A função pretty escolhe valores que sejam 1, 2 ou 5 vezes uma potência de 10.

Page 20
DRAFT VERSION
A Tabela 2.6 apresenta as alturas agrupadas em cinco classes de amplitude 5cm, fornecendo ainda
algumas frequências que auxiliam o entendimento da distribuição. Facilmente observam-se 6 mulheres
com altura entre 1.70m e 1.75m,22 ao contrário da tabela de dados brutos. Note, porém, que não é
possı́vel saber exatamente a altura de cada uma destas 6 mulheres. Isso acontece pois resumo implica em
perda de informação, cabendo ao pesquisador decidir quando e como resumir os dados.

i yi fi fri Fi Fri `i `ri


1 1.50 ` 1.55 4 0.04 4 0.04 96 + 4 = 100 100/100 = 1
2 1.55 ` 1.60 21 0.21 4 + 21 = 25 0.25 75 + 21 = 96 96/100 = 0.96
3 1.60 ` 1.65 41 0.41 25 + 41 = 66 0.66 34 + 41 = 75 75/100 = 0.75
4 1.65 ` 1.70 28 0.28 66 + 28 = 94 0.94 6 + 28 = 34 34/100 = 0.34
5 1.70 ` 1.75 6 0.06 94 + 6 = 100 1 6 6/100 = 0.06
Total - 100 1 - - - -

Tabela 2.6: Tabela de frequência de Y

A seguir estão alguns exemplos de interpretação das frequências apresentadas na Tabela 2.6.

· f5 = 6, i.e., 6 mulheres têm entre 1.70m e 1.75m de altura;


· fr5 = 0.06 = 6%, i.e., 6% das mulheres tem entre 1.70m e 1.75m de altura;
· F4 = 94, i.e., 94 mulheres têm até 1.70m de altura, ou de 1.50m a 1.70m;
· Fr2 = 0.25 = 25%, i.e., 25% das mulheres tem até 1.60m de altura, ou de 1.50m a 1.60m;
· `3 = 75, i.e., 75 mulheres têm pelo menos 1.60m de altura;
· `r4 = 0.34 = 34%, i.e., 34% das mulheres tem pelo menos 1.65m de altura.

Exemplo 2.20. (Alturas de mulheres R-visitado) Exemplo 2.19 utilizando R/RStudio.

> # Lendo o arquivo 'hospital.txt' direto do link


> hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)
> dim(hosp) # Dimens~
ao: 100 linhas por 2 colunas

[1] 100 2

> head(hosp) # Apresenta as 6 primeiras linhas do objeto 'hosp'; teste tail(hosp, 10)

filhos altura
1 2 1.59
2 0 1.58
3 1 1.70
4 2 1.62
5 4 1.67
6 2 1.62

> attach(hosp) # Para deixar as colunas de 'hosp' disponı́veis


> pretty(nclass.Sturges(altura)) # Valores 'bonitos' para o número de classes

[1] 5 10

> hist(altura)$breaks ao 'hist'


# Quebras de valores gerados com a funç~

[1] 1.50 1.55 1.60 1.65 1.70 1.75

22 Note que a simbologia 1.70 ` 1.75 indica a inclusão de 1.70 e a exclusão de 1.75, i.e., este é um intervalo fechado à

esquerda e aberto à direita. Equivale às notações [1.70, 1.75[ (mais moderna) ou [1.70, 1.75) (mais antiga).

Page 21
DRAFT VERSION
> (f <- hist(altura)$counts) # Frequ^
encias das classes

[1] 6 27 43 21 3

> cumsum(f) # Frequ^


encia acumulada

[1] 6 33 76 97 100

> round(cumsum(f)/length(altura),2) # Frequ^


encia acumulada relativa

[1] 0.06 0.33 0.76 0.97 1.00

> cumsum(rev(f)) # Frequ^


encia acumulada inversa

[1] 3 24 67 94 100

> round(cumsum(rev(f))/length(altura),2) # Frequ^


encia acumulada inversa relativa

[1] 0.03 0.24 0.67 0.94 1.00

EXERCÍCIOS
5. Foram medidas as alturas de 100 alunos de certa disciplina, apresentadas na tabela a seguir.

i Altura (cm) fi fri Fi Fri i ri


1 140 ` 150 2
2 150 ` 160 13
3 160 ` 170
4 170 ` 180 47
5 180 à 190 8
Total - 100

a) Classifique a variável ‘altura’.


b) Qual a frequência relativa da classe 3? Interprete.
c) Qual a frequência acumulada da classe 4? Interprete.
d) Qual a frequência acumulada relativa da classe 2? Interprete.
e) Quantos alunos têm pelo menos 1.60m?
f) Represente os dados utilizando o gráfico que você considerar mais adequado.

6. Obtenha os intervalos de classes dos dados da Tabela 2.5:


a) Pela regra de Scott.
b) Pela regra de Freedman-Diaconis.

Page 22
DRAFT VERSION
2.2.4 Tabela (de frequência) bivariada
Em muitas situações práticas há interesse em avaliar a associação de atributos. A tabela (de frequên-
cia) bivariada, tabela de dupla entrada ou tabela de contingência 2 × 2 tem essa finalidade. Generica-
mente utilizam-se as letras X e Y para se referir às variáveis. As simbologias 1 e 0 indicam respectiva-
mente a presença e ausência das caracterı́sticas X e Y .

Y
X
1 0 Total
1 n11 n12 n1·
0 n21 n22 n2·
Total n·1 n·2 n

Tabela 2.7: Tabela bivariada genérica

Razão de Chances (Odds Ratio - OR)

A razão de chances ou razão de possibilidades é uma medida utilizada para avaliar o quanto um
atributo pode influenciar em outro. Pode ser escrita em função de nij conforme Equação (11) ou π̂ij
como indicado na Equação (12).

n11 /n12 n11 n22


OR = = (11)
n21 /n22 n12 n21

π̂11 /π̂12 π̂11 π̂22


OR = = , (12)
π̂21 /π̂22 π̂12 π̂21
nij
onde π̂ij = .
n
Exemplo 2.21. (Odds Ratio) Suponha um estudo da relação entre os atributos X: ‘fumante’ e Y : ‘tem
câncer’, conforme Tabela 4.4.

Y
X
1 0 Total
1 90 10 100
0 70 30 100
Total 160 40 200

Tabela 2.8: X = 1: paciente fumante. Y = 1: paciente desenvolveu câncer.

Pela Equação (11),

90/10 90 × 30
OR = = ≈ 3.86.
70/30 10 × 70

Com este valor estima-se que pacientes que fumam possuem 3.86 vezes a chance (ou 3.86 − 1 = 2.86
vezes mais chance) de desenvolver câncer em relação aos pacientes que não fumam. Refaça o exemplo
invertendo os rótulos 0 e 1.

> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8


> (OR <- (tab.bi[1,1]/tab.bi[1,2])/(tab.bi[2,1]/tab.bi[2,2]) ) # Equaç~
ao (11)

[1] 3.857142857

Page 23
DRAFT VERSION
Risco Relativo (Relative Risk - RR)
Risco Relativo é uma medida baseada em taxas de incidência entre os grupos exposto (X = 1) e não
exposto (X = 0) ao fator de risco em estudo. É obtido pelo quociente entre as estimativas da taxa de
incidência do grupo exposto (γ̂1 ) e da taxa de incidência do grupo não exposto (γ̂0 ) conforme Equação
(13).

γ̂1 n11 /n1·


RR = = (13)
γ̂0 n21 /n2·
Exemplo 2.22. (Risco Relativo) Suponha novamente os dados do Exemplo 2.21. O risco relativo pode ser
calculado pela Equação (13):

90/100
RR = ≈ 1.29
70/100
Com este valor estima-se que o grupo que não usa celular é aprovado em 29% mais casos em compa-
ração ao grupo do Whats e Face.

> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8


> (RR <- (tab.bi[1,1]/sum(tab.bi[1,]))/(tab.bi[2,1]/sum(tab.bi[2,])) ) # Equaç~
ao (13)

[1] 1.285714286

,
Independência
A tabela (de frequência) bivariada permite avaliar a independência entre dois atributos, indicando a
ausência de relação, simbolizada por X ⊥⊥ Y . Se não existe tal relação, é esperado encontrar a mesma
proporção de portadores da caracterı́stica X entre os portadores e não portadores de Y . Assim, se X e
Y são independentes, a proporção de sujeitos que apresentam simultaneamente as caracterı́sticas X e Y
é igual à proporção dos X multiplicada pela proporção dos Y , sob qualquer uma das formas:
 n11 n1·
 =
 n·1

 n




 n11 n·1
 n1· = n


 n1· n·1
n11 =






 n

 n11 = n1·
   n 
·1


n n n
Exemplo 2.23. (Independência 1) Se há 578 sujeitos portadores do atributo X e 216 portadores de Y em
1156 observações, espera-se que existam
n1· n·1 578 × 216
= = 108
n 1156
sujeitos portadores de X e Y se X ⊥
⊥Y.
,
Exemplo 2.24. (Independência 2) Se existem 15% de sujeitos X e 80% de Y , espera-se que existam
 n   n   15   80 
1· ·1
= = 12%
n n 100 100
de sujeitos X e Y se X ⊥
⊥Y.
,
Exemplo 2.25. (Independência 3) Se OR = 1, então X ⊥
⊥Y.
,

Page 24
DRAFT VERSION
2.3 Medidas de Posição (ou Localização)
2.3.1 Mı́nimo e Máximo
O mı́nimo de uma distribuição é o menor valor observado desta distribuição; de forma análoga, o
máximo é o maior valor. São estatı́sticas de ordem, mais especificamente os extremos de um conjunto
de dados ordenado (rol23 ). Para uma distribuição de n elementos são denotadas por min X = x(1) e
max X = x(n) .
Apesar da simplicidade destas medidas, existem considerações teóricas sofisticadas a seu respeito.
Para maiores detalhes, vide Kotz and Nadarajah (2000).
Exemplo 2.26. (Mı́nimo e máximo) Suponha novamente as n = 100 observações da variável Y: ‘altura de
mulheres atendidas em um certo hospital público de Porto Alegre em 2019’, apresentadas na Tabela 2.5.
O mı́nimo e o máximo são denotados, respectivamente, por min Y = y(1) = 1.51 e max Y = y(100) = 1.74.

> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))


> min(altura) # Mı́nimo

[1] 1.51

> max(altura) # Máximo

[1] 1.74

> range(altura) ao 'range' fornece o mı́nimo e o máximo


# A funç~

[1] 1.51 1.74

,
Exemplo 2.27. (Velocidade máxima) Segundo o Código de Trânsito Brasileiro24 , a placa da Figura 2.2
indica que a velocidade máxima da via é de 40 km/h. Isto significa que os condutores não devem ultra-
passar 40 quilômetros horários. Apesar da obviedade, boa parte dos motoristas a lêem como ‘velocidade
mı́nima’.
/

Figura 2.2: Placa de velocidade máxima, usualmente lida como ‘mı́nima’.

23 Seção 2.2.1.
24 Lei 9.503, de 23 de setembro 1997.

Page 25
DRAFT VERSION
2.3.2 Média (Aritmética Simples)
A média (aritmética simples) ou valor esperado é uma das medidas mais importantes da Estatı́stica
devido às suas propriedades e relativa facilidade de cálculo. A média da variável X é simbolizada
genericamente por µ25 quando refere-se à média universal, e por x̄n quando refere-se à média amostral.
Pode-se utilizar a notação x̄n para indicar o tamanho da amostra. Suas expressões no universo a na
amostra são dadas respectivamente pelas equações (14) e (15).
PN
xi
µ = i=1 (14)
N

Pn
i=1 xi
x̄n = (15)
n
Por distribuir a soma dos valores da distribuição pelo número de observações, a média é uma medida
que indica centro de massa, conforme Figura 2.3.

Figura 2.3: Média aritmética simples como centro de massa

Exemplo 2.28. (Média aritmética simples) Suponha novamente os dados do Exemplo 1.1 da página 5. O
número médio de passos até a lixeira mais próxima foi de
P6
xi 186 + 402 + 191 + 20 + 7 + 124 930
x̄6 = i=1 = = = 155.
6 6 6

> x <- c(186,402,191,20,7,124) # Vetor de dados brutos


> mean(x) # Aplica as Equaç~
oes (14) e (15). Veja ?mean

[1] 155

EXERCÍCIOS
1. Calcule o número médio de filhos considerando o conjunto de dados da Tabela 2.3 (pg. 14).

2.3.3 Total

Total é a soma de todos os valores de uma variável. É expresso pelas equações (16) e (17).

N
X
τ= xi (16)
i=1

n
NX
τ̂ = xi = N x̄n , (17)
n i=1
25 Também pode ser representada por µX ou E(X).

Page 26
DRAFT VERSION
onde x̄n é a média amostral, apresentada na Equação (15).
Exemplo 2.29. (Total) Suponha novamente os dados do Exemplo 2.28. Se alguém precisar de uma lixeira
20 vezes na capital gaúcha, estima-se que o número total de passos a serem caminhados é de
20
τ̂ = × 930 = 20 × 155 = 3100.
6

> N <- 20 # Tamanho do universo


> x <- c(186,402,191,20,7,124) # Vetor de dados brutos
> N*mean(x) # Equaç~
ao (17)

[1] 3100

EXERCÍCIOS
2. Considerando novamente o conjunto de dados da Tabela 2.3 (pg. 14), qual a estimativa do total de filhos em um
grupo de 1500 mulheres?

2.3.4 Média (Aritmética) Ponderada


A média (aritmética) ponderada é uma média na qual se atribui peso wi para o i-ésimo valor da
distribuição. Não será feita distinção entre as médias ponderada universal e amostral, anotando-se
genericamente
Pn
wi xi
W = Pi=1n . (18)
i=1 wi

Exemplo 2.30. (Água do chimarrão) Média ponderada é como colocar água quente e fria para regular a
temperatura do mate. Suponha 1 litro de água em uma garrafa térmica, onde coloque-se w1 = 850mL
(85%) de água a x1 = 96 ◦ C e w2 = 150mL (15%) de água a x2 = 30 ◦ C. Desconsiderando variações
externas, essa mistura deve ficar em
850mL × 96 ◦ C + 150mL × 30 ◦ C
W = = 0.85 × 96 ◦ C + 0.15 × 30 ◦ C = 81.6 ◦ C + 4.5 ◦ C = 86.1 ◦ C.
850mL + 150mL

> weighted.mean(c(96,30), c(850,150)) # Facilita uma barbaridade

[1] 86.1

,
Exemplo 2.31. (Cálculo do G1) Suponha que o senhor Z, professor de certa instituição de ensino superior,
avalie os alunos no Grau 1 atribuindo peso 8 para a média das três provas – P1 , P2 e P3 –, peso 2 para
a média dos dois trabalhos de maior nota – denotados por T(3) e T(2) – e peso zero para o trabalho de
menor nota, denotado por T(1) . Assim, o cálculo do Grau 126 é dado por
 
T +T
8 × P1 +P32 +P3 + 2 × (3) 2 (2) + 0 × T(1)
    
P1 + P2 + P3 T(3) + T(2)
G1 = = 0.8 + 0.2 . (19)
8+2+0 3 2
Se as notas de Joãozinho foram P1 = 6, P2 = 5, P3 = 10, T(3) = 8, T(2) = 7 e T(1) = 5,
   
6 + 5 + 10 8+7
G1 = 0.8 + 0.2 = 7.1.
3 2
26 Lembre-se que o sistema da PUCRS trunca os valores. Vide Seção 1.5.

Page 27
DRAFT VERSION
> weighted.mean(c(mean(c(6,5,10)),mean(c(7,8))), c(0.8,0.2)) # Simule com as suas notas

[1] 7.1

> g1 <- function(p1,p2,p3, t1,t2,t3){ # Funç~


oes podem ser personalizadas
mp <- mean(c(p1,p2,p3)) # Média das 3 provas
mt <- (sum(t1,t2,t3) - min(t1,t2,t3))/2 # Média dos 2 trabalhos de maior nota
return(trunc(0.8*mp + 0.2*mt, dig = 1)) # Aplicando a ponderaç~
ao e truncando
}
> g1(6,5,10, 5,7,8) ao 'g1'
# Aplicando a funç~

[1] 7.1

EXERCÍCIOS
3. Suponha os dados do Exemplo 2.31.

a) Refaça os cálculos considerando duas provas e dois trabalhos, P1 , P2 , T1 e T2 (sem desconsiderar qualquer das
notas).
b) Reesceva a função g1 utilizando duas provas e dois trabalhos.
c) Isolar P3 na Equação 19.

2.3.5 Média Geométrica


A média geométrica é utilizada para calcular médias de ı́ndices, bem como em casos em que as
medidas possuam magnitudes numéricas distintas. É definida por
p
G = n Πni=1 xi . (20)

Exemplo 2.32. (Média geométrica) Sejam os ı́ndices LP P


2004,2008 = 139.58% e P2004,2008 = 97.22%. Sua
média geométrica é dada por √
G = 1.3958 × 0.9722 ≈ 116.49%.
Este valor é conhecido como Índice de Preço de Fisher27 .

> sqrt(1.3958*.9722) # 'sqrt': square root

[1] 1.164902039

2.3.6 Média Harmônica

A média harmônica é utilizada para calcular médias de taxas. É definida por


n n
H= 1 1 1 = Pn 1 . (21)
x1 + x2 + ··· + xn i=1 xi

Exemplo 2.33. (Média harmônica) Suponha que um veı́culo viajou uma certa distância a 60 km/h e a
mesma distância novamente a 90 km/h. Sua velocidade média pode ser calculada pela média harmônica
2
H= 1 1 = 72km/h,
60 + 90

i.e., se o veı́culo percorresse toda a distância a 72 km/h, faria o trajeto no mesmo tempo.
27 Seção 7.3.3.

Page 28
DRAFT VERSION
> 2/((1/60)+(1/90)) # Pela Equaç~
ao (21)

[1] 72

> 1/mean(1/c(60,90)) # Alternativa

[1] 72

2.3.7 Média Quadrática

A média quadrática é a média dos valores ao quadrado, utilizada no cálculo das variâncias28 . É
expressa por
Pn
x2
Q2 = i=1 i . (22)
n
O valor quadrático médio é a raiz quadrada da média quadrática, denotado por
p
Q = Q2 . (23)

Exemplo 2.34. (Média quadrática e valor quadrático médio) A média quadrática dos valores 186, 402,
191, 20, 7 e 124 é
P6
x2 1862 + 4022 + 1912 + 202 + 72 + 1242 248506
Q = i=1 i =
2
= = 41417.6̄.
6 6 6
O valor quadrático médio destes valores é

Q= 41417.6̄ ≈ 203.5133.

> x <- c(186,402,191,20,7,124) # Vetor de dados brutos


> (mq <- mean(x^2)) # Eq. (22), compare com mean(x)^2

[1] 41417.66667

> sqrt(mq) # Eq. (23), valor quadrático médio

[1] 203.5133083

EXERCÍCIOS
4. Considere novamente os dados das Tabelas 2.3 e 2.5.

a) Calcule a média quadrática do número de filhos e das alturas.


b) Calcule os respectivos valores quadráticos médios.

2.3.8 Moda
A(s) moda(s) é (são) o(s) valor(es) mais frequente(s) de uma distribuição. Quando existe apenas uma
moda, a distribuição é conhecida como unimodal. Se existirem duas modas, a distribuição é bimodal.
Três modas configuram uma distribuição trimodal, e quatro ou mais modas indicam uma distribuição
multimodal. Distribuições com frequências equivalentes para todos os valores são ditas amodais. Quando
os dados estão agrupados deve-se indicar a classe modal, i.e., a classe de maior frequência. O esforço
computacional para calcular a moda é realizar uma contagem.
28 Seção 2.4.2.

Page 29
DRAFT VERSION
Exemplo 2.35. (Unimodal) A moda do conjunto de dados 4, 7, 1, 3, 3, 9 é M o = 3, pois ele apresenta
frequência 2 enquanto os demais valores têm frequência 1. Esta é uma distribuição unimodal.
,
Exemplo 2.36. (Bimodal) As modas do conjunto de dados 4, 7, 1, 3, 3, 9, 7 são M o0 = 3 e M o00 = 7,
pois ambos têm frequência 2 enquanto os demais valores têm frequência 1. A ordem de apresentação é
indiferente. Esta é uma distribuição bimodal.
,
Exemplo 2.37. (Amodal) O conjunto de dados 4, 7, 1, 3, 9 é dito amodal pois todos os valores têm
frequência 1.
,

Exemplo 2.38. (Moda para dados agrupados) Na Tabela 2.6 da página 21 observa-se que f3 = 41 é a
maior frequência. A classe modal é portanto a terceira, compreendida entre os valores 1.60 e 1.65.
,

EXERCÍCIOS

5. Na Tabela 2.3 foram observados valores modais? Em caso afirmativo, descreva-o(s).

2.3.9 Separatrizes (ou Quantis)


Separatrizes ou quantis 29 são medidas que dividem um conjunto de dados ordenados em k partes
iguais. O método básico consiste em obter um rol dos dados e encontrar (ainda que de forma aproximada)
os valores que repartem a distribuição de acordo com o k desejado. O esforço computacional para calcular
quaisquer separatrizes é, portanto, o de realizar a ordenação dos dados.

Mediana (k = 2)

A mediana é a medida que divide metade dos dados ordenados (rol) à sua esquerda e a outra metade
à sua direita, i.e., é a medida central em termos de ordenação. Sua posição é a média entre a primeira e
última posições, dada por
1+n
P os = (24)
2
Exemplo 2.39. (Mediana para n ı́mpar) Seja o conjunto de dados 10, -4, 11, 12, 1, 5, 15, formado por
n = 7 valores. Quando ordenado obtemos o rol -4, 1, 5, 10, 11, 12, 15. Considerando k = 2, obtém-se a
separatriz M d = 10, pois ela divide o conjunto em duas partes de mesmo tamanho (três valores abaixo
da mediana 10 e três valores acima). Sua posição é dada por P os = 1+7
2 = 4.

> x <- c(10, -4, 11, 12, 1, 5, 15)


> sort(x)

[1] -4 1 5 10 11 12 15

> median(x)

[1] 10

,
Quando o número de observações é par, basta tomar a média dos dois valores centrais do rol.

Exemplo 2.40. (Mediana para n par) Seja o conjunto de dados 15, -4, 11, 12, 1, 5, formado por n = 6
valores. Quando ordenado obtemos o rol -4, 1, 5, 11, 12, 15. Considerando novamente k = 2, obtém-se
a separatriz M d = 5+11
2 = 8, pois ela divide o conjunto em duas partes de mesmo tamanho (três valores
29 Pronuncia-se “quantı́s”.

Page 30
DRAFT VERSION
1+6
abaixo de 8 e três valores acima). Sua posição é dada por P os = 2 = 3.5, i.e., a mediana é um valor
intermediário entre a terceira e quarta posições.

> x <- c(15, -4, 11, 12, 1, 5)


> sort(x)

[1] -4 1 5 11 12 15

> median(x)

[1] 8

Mediana para dados agrupados

Quando os dados estão agrupados pode-se encontrar a classe mediana utilizando a frequência acu-
mulada ou a frequência acumulada relativa.
Exemplo 2.41. (Mediana para dados agrupados) A classe mediana pode ser obtida a partir da Tabela 2.6
(página 21) de duas formas.
· A posição da mediana é P os = 1+1002 = 50.5. Observando a coluna Fi é possı́vel verificar que a
informação de posição 50.5 está na classe 3, que contempla da 26ª à 66ª observação. Logo, a
classe mediana é a terceira, e a mediana está no intervalo 1.60 ` 1.65.
· Observando a coluna F ri percebe-se que o valor central 0.50 = 50% está contemplado na classe 3.
Logo, a classe mediana é a terceira, e a mediana está no intervalo 1.60 ` 1.65.
,

Separatrizes (k > 1)

Pode-se dividir um conjunto de dados em k setores, sendo os principais apresentados na Tabela 2.9.

k Nome Simbologia
2 Mediana Md
3 Tercil T1 , T2
4 Quartil Q1 , Q2 , Q3
10 Decil D1 , D2 , ..., D9
100 Percentil P1 , P2 , ..., P99

Tabela 2.9: Principais separatrizes

Exemplo 2.42. (Separatrizes) Suponha novamente as alturas da Tabela 2.5 da página 20. Pela função
quantile30 pode-se facilmente obter os quantis desejados, bastando ajustar o parâmetro k. Note que a
função retorna as separatrizes expressas em percentis, onde 0% equivale ao mı́nimo e 100% ao máximo.
30 A função quantile apresenta nove métodos para obtenção de separatrizes, portanto recomenda-se a leitura da docu-

mentação para maiores detalhes.

Page 31
DRAFT VERSION
> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))
> options(digits = 3) # Para melhorar a apresentaç~
ao
> quantile(altura, probs = seq(0, 1, 1/2)) # Mediana

0% 50% 100%
1.51 1.62 1.74

> quantile(altura, probs = seq(0, 1, 1/3)) # Tercis

0% 33.3% 66.7% 100%


1.51 1.61 1.65 1.74

> quantile(altura, probs = seq(0, 1, 1/4)) # Quartis

0% 25% 50% 75% 100%


1.51 1.60 1.62 1.65 1.74

> quantile(altura, probs = seq(0, 1, 1/10)) # Decis

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
1.51 1.57 1.59 1.60 1.62 1.62 1.64 1.65 1.66 1.68 1.74

EXERCÍCIOS
6. Interprete os quantis do Exemplo 2.42.

7. Considere as separatrizes apresentadas na Tabela 2.9.

a) Verifique que as separatrizes mediana (Md), segundo quartil (Q2 ) são equivalentes.
b) Existem outras medidas equivalentes às do item (a)? Justifique.
c) Considere algum k diferente dos apresentados e atribua um nome e uma simbologia.
d) Se existem k ‘fatias’, quantas são as separatrizes?

8. Utilizando a função quantile calcule as separatrizes apresentadas na Tabela 2.9 com os dados das Tabelas 2.3 e 2.5.

2.4 Medidas de Dispersão (ou Variabilidade)


2.4.1 Amplitude
A amplitude é a medida de dispersão mais simples de ser calculada, e fornece uma informação rápida
sobre a variabilidade do conjunto de dados. É calculada pela expressão

A = max X − min X. (25)

Exemplo 2.43. (Amplitude com valores positivos) A amplitude do conjunto de dados 186, 402, 191, 20,
7 e 124 é A = 402 − 7 = 395.

> A <- range(c(186,402,191,20,7,124)) ao 'range' retorna o mı́nimo e o máximo


# A funç~
> diff(A) ao 'diff' calcula a diferença
# A funç~

[1] 395

,
Exemplo 2.44. (Amplitude com valores negativos) Para calcular a amplitude do conjunto de dados 186,
402, −191, 20, 7 e 124 é preciso lembrar que na multiplicação “menos com menos dá mais”. Assim,

A = 402 − (−191) = 402 + 191 = 593.

Page 32
DRAFT VERSION
> diff(range(c(186,402,-191,20,7,124))) # Funç~
oes aninhadas ('nested functions')

[1] 593

2.4.2 Variância

A variância é a principal medida de dispersão da Estatı́stica. É uma média quadrática em relação à


média, i.e., avalia o quanto, em média, os dados variam ao quadrado em torno da média31 . A variância
universal pode ser calculada pelas Equações (26) e (27).
PN
2 i=1 (xi − µ)2
σ = (26)
N
PN
2 x2i
σ = i=1
− µ2 (27)
N
Exemplo 2.45. (Variância universal) A variância universal do conjunto de dados 186, 402, 191, 20, 7
e 124 é
Equação (26)
P6
i=1 (xi − 155)2 (186 − 155)2 + (402 − 155)2 + · · · + (124 − 155)2 104356
σ2 = = = = 17392.6̄
6 6 6
Equação (27)

1862 + 4022 + 1912 + 202 + 72 + 1242 248506


σ2 = − 1552 = − 24025 = 17392.6̄
6 6

> (var.p <- var(c(186,402,191,20,7,124))*(5/6)) # Vari^


ancia amostral*(1/fator de correç~
ao)

[1] 17392.67

,
A variância amostral pode ser calculada pelas Equações (28) e (29).
Pn
2 2 (xi − x̄)2
σ̂ = sn = i=1 (28)
n−1
 Pn 2
 
i=1 xi n
σ̂ 2 = s2n = − x̄2 (29)
n n−1
Exemplo 2.46. (Variância amostral) A variância amostral do conjunto de dados 186, 402, 191, 20, 7 e
124 é
Equação (28)
P6
− 155)2
i=1 (xi (186 − 155)2 + (402 − 155)2 + · · · + (124 − 155)2 104356
s26 = = = = 20871.2
6−1 6−1 5
Equação (29)

1862 + 4022 + 1912 + 202 + 72 + 1242


  
6
s26 = − 1552 = 17392.6̄ × 1.2 = 20871.2
6 5

31 Sugestão: leia isso pelo menos três vezes, devagar.

Page 33
DRAFT VERSION
> (var.a <- var(c(186,402,191,20,7,124))) # 'var' calcula a vari^
ancia amostral

[1] 20871.2

Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se
contou o número de passos até a lixeira mais próxima na capital do Rio Grande (do Sul), pode-se dizer
que a variância amostral é 20871.2 passos2 . Dica: não tente interpretar este valor.
,

Note pela Equação (28) que a variância amostral é dividida por n − 1 e não por n. Isto faz com que
a variância amostral seja maior ou igual à variância universal. Intuitivamente pode-se pensar como uma
espécie de penalidade aplicada a esta medida quando observa-se apenas parte do universo (amostra). Da
mesma forma pode-se pensar na variância amostral como o produto entre a variância universal σ 2 e o
fator n/(n − 1), descrito por
 
2 2 n
sn = σ (30)
n−1

2.4.3 Desvio Padrão


O desvio padrão é a raiz quadrada da variância. O motivo de calcular o desvio padrão é que a
sua interpretação é mais intuitiva se comparada à da variância, uma vez que a unidade de medida do
desvio padrão é a mesma da variável X. As fórmulas do desvio padrão universal e amostral são dadas
respectivamente pelas equações32 (31) e (32).

σ = σ2 (31)

p
sn = s2n (32)

Exemplo 2.47. (Desvio padrão universal) Do Exemplo 2.45 sabe-se que a variância universal do conjunto
de dados 186, 402, 191, 20, 7 e 124 é σ 2 = 17392.6̄. Assim, o desvio padrão universal é

σ = 17392.6̄ ≈ 131.88126.

> (dp.p <- sd(c(186,402,191,20,7,124)) * sqrt(5/6)) # s_n * raiz(1/fator de correç~


ao)

[1] 131.8813

> all.equal(dp.p, sqrt(var.p)) # 'dp.p' é igual à raiz quadrada de 'var.p'

[1] TRUE

> all.equal(dp.p^2, var.p) # 'dp.p' ao quadrado é igual a 'var.p'

[1] TRUE

,
Exemplo 2.48. (Desvio padrão amostral) Do Exemplo 2.46 sabe-se que a variância amostral do conjunto
de dados 186, 402, 191, 20, 7 e 124 é s26 = 20871.2. Assim, o desvio padrão amostral é

s6 = 20871.2 ≈ 144.46868.

32 Se você ficou confuso com a notação, escreva σ 2 = V e σ = D (bem como s2 = v e s = d) e repense o problema. Vide

Seções 3.3.1 e 3.4.1 para definições mais gerais.

Page 34
DRAFT VERSION
> (dp.a <- sd(c(186,402,191,20,7,124))) # 'sd' calcula o desvio padr~
ao amostral

[1] 144.4687

> all.equal(dp.a, sqrt(var.a)) # 'dp.a' é igual à raiz quadrada de 'var.a'

[1] TRUE

> all.equal(dp.a^2, var.a) # 'dp.a' ao quadrado é igual a 'var.a'

[1] TRUE

Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se
contou o número de passos até a lixeira mais próxima na capital do Rio Grande (do Sul), pode-se dizer
que o desvio padrão (amostral, claro) é de aproximadamente 144.5 passos. Pode-se pensar neste valor
como uma oscilação média aproximada em torno da média aritmética.
,

2.4.4 Coeficiente de Variação


O coeficiente de variação é uma medida de comparação de variabilidades, uma vez que ajusta o desvio
padrão pela média. É preferı́vel ao desvio padrão por ser um número adimensional, i.e., não possui
unidade de medida, tornando quaisquer conjuntos de dados comparáveis em termos de variabilidade.
É utilizado em diversas áreas da Estatı́stica, mas é popularmente conhecido como medida de risco em
carteiras de ativos.
As fórmulas do coeficiente de variação universal e amostral são dadas respectivamente pelas equações
(33) e (34).
σ
γ= (33)
µ

s
γ̂ = g = (34)

Exemplo 2.49. (Coeficiente de variação) Duas variáveis são obtidas em um certo experimento quı́mico.
A variável X é medida em microgramas e possui média de 0.0045 µg e desvio padrão de 0.0056 µg. A
variável Y é medida em mols e possui média de 3549 mols e desvio padrão de 419 mols. O coeficiente de
variação de X é dado por gX = 0.0056 419
0.0045 ≈ 1.24, e de Y por gY = 3549 ≈ 0.12. Portanto, como 1.24 > 0.12,
conclui-se que o conjunto de dados X varia mais do que Y.

> mx <- 0.0045


> dx <- 0.0056
> round(gx <- dx/mx, 2) # Coeficiente de variaç~
ao de X

[1] 1.24

> my <- 3549


> dy <- 419
> round(gy <- dy/my, 2) # Coeficiente de variaç~
ao de Y

[1] 0.12

Page 35
DRAFT VERSION
2.5 Outras medidas
2.5.1 Assimetria (ou Obliquidade)
Assimetria ou obliquidade é uma medida que avalia a assimetria de uma distribuição de frequência.
Existem diversas definições na literatura, das quais apresentam-se três alternativas.
1
Pn
m3 (xi − x̄n )3
g1 = 3/2 =  nP i=1 (35)
1 n 2 3/2

m2 n i=1 (x i − x̄ n )

3/2 1
Pn
− x̄n )3

n−1 m3 n i=1 (xi
b1 = g1 = 3 =h i3/2 (36)
n s 1
Pn 2
n−1 i=1 (x i − x̄ n )

r
n(n − 1) n2
G1 = g1 = b1 (37)
n−2 (n − 1)(n − 2)

> set.seed(1); x <- rnorm(100) # Gerando 100 valores N(0,1) com semente fixa
> e1071::skewness(x, type = 1) # Definiç~
ao clássica de assimetria, Equaç~
ao (36)

[1] -0.0722319

> e1071::skewness(x, type = 2) # Utilizada no SAS, SPSS e Excel, Equaç~


ao (38)

[1] -0.07333656

> e1071::skewness(x, type = 3) # Padr~


ao do R, utilizada no MINITAB e BMDP, Equaç~
ao (37)

[1] -0.07115113

2.5.2 Curtose
A curtose é uma medida de achatamento de uma distribuição de frequência. Assim como na assime-
tria, das diversas definições de curtose apresentam-se três alternativas.
1
Pn
m4 (xi − x̄n )4
g2 = 2 − 3 =  Pni=1
n
 −3 (38)
m2 1 2 2
n i=1 (xi − x̄n )

2 1
Pn
− x̄n )4

1 m4 n i=1 (xi
b2 = (g2 + 3) 1 − −3= 4 −3= h i2 − 3 (39)
n s 1
Pn 2
n−1 i=1 (xi − x̄n )

[(n + 1)g2 + 6] (n − 1)
G2 = (40)
(n − 2)(n − 3)

> set.seed(1); x <- rnorm(100) # Gerando 100 valores N(0,1) com semente fixa
> e1071::kurtosis(x, type = 1) # Definiç~
ao clássica de curtose, Equaç~
ao (39)

[1] 0.007653206

> e1071::kurtosis(x, type = 2) # Usada no SAS, SPSS e Excel, Equaç~


ao (41)

[1] 0.07053697

> e1071::kurtosis(x, type = 3) # Padr~


ao do R, usada também no MINITAB e BMDP, Eq. (40)

[1] -0.05219909

Page 36
DRAFT VERSION

EXERCÍCIOS
1. Escreva σ 2 em função de s2n .

2. Considere os valores 1,2,3,4.

a) Calcule a média, a mediana e a moda.


b) Calcule a amplitude.
c) Calcule a variância universal pelas Equações (26) e (27).
d) Calcule a variância amostral pelas Equações (28) e (29).
e) Quanto, em percentual, a variância amostral é maior que a universal?
f) Calcule os coeficientes de variação universal e amostral.

3. Considere novamente as variaveis das Tabelas 2.3 e 2.5, dentro do RStudio.

a) Calcule a média, a mediana e a moda das variáveis ‘idade’ e ‘altura’.


b) Calcule as amplitudes.
c) Calcule as variâncias amostrais pela função var.
d) Calcule as variâncias universais pela função obtida no Exercı́cio 1.
e) Quanto, em percentual, as variâncias amostrais são maiores que as respectivas variâncias universais?
f) Calcule os desvios padrão amostrais pela função sd.
g) Calcule os coeficientes de variação universais e amostrais. Qual variávei apresentou maior variação?
h) Calcule a assimetria e curtose do tipo 3 com as funções skewness e kurstosis do pacote e1071.

4. Quanto, em percentual, a variância amostral é maior que a universal em uma amostra de tamanho n = 9?

5. A partir dos Exemplos 2.45 e 2.46 mostre que a varância amostral é 20% maior que a variância universal.

Page 37
DRAFT VERSION
2.6 Visualização
Visualização é o processo de representar informações ou idéias através de diagramas, gráficos e outros
métodos de apresentação visual. De um modo geral, as ferramentas de visualização devem ser claras para
o leitor, devendo-se evitar detalhes desnecessários. Um bom visualizador transmite a informação desejada
de forma clara, precisa e eficiente. Ao apresentar informação de maneira visual deve-se considerar que

· o olho humano não diferencia muitas tonalidades de cor, por isso é interessante trabalhar com
escalas em degradê, diferentes texturas e espessuras de linha
· para apresentar dados categóricos é interessante ordenar as categorias de forma intuitiva para
melhor apresentação
· deve-se evitar o agrupamento de dados contı́nuos em categorias
· é importante manter a notação coerente com o texto.

2.6.1 Gráfico de Setores (Pizza)


Em Inglês é conhecido como pie chart, ou gráfico de torta em tradução livre. Não sei por que mudam
os alimentos de uma lı́ngua para outra, mas em Português é conhecido popularmente como gráfico de
pizza. Para fazer um charme para o chefe, porém, recomenda-se a expressão gráfico de setores. A
idéia é desenhar setores (ou ‘fatias’, se não for para o chefe) proporcionais às frequências das categorias.
Seguindo a etiqueta da apresentação gráfica, recomenda-se a utilização deste tipo de gráfico para, no
máximo, dez categorias. Os gráficos da Figura 2.4 estão apresentados em sentido anti-horário iniciando
em 0o . Este é o padrão da maioria dos pacotes computacionais, mas se necessário pode-se inverter o
sentido e iniciar em qualquer ângulo.

Atendimentos em um guiche Atendimentos em um guiche

90 Seg 37.5% Seg


Ter Ter
Qua Qua
Qui Qui
Sex Sex

62 25.8%
13 5.4%

44 18.3%
31 12.9%

(a) Frequência (da classe) (b) Frequência relativa

Figura 2.4: Gráficos de setores

> atend <- c(90,62,31,44,13) # Número de atendimentos


> colors <- gray(0:4/4) # Cinco tons de cinza
> atend_temp <- round(atend/sum(atend) * 100, 1) # Calculando os percentuais
> atend_rel <- paste0(atend_temp, '%') # Adicionando '%'. Teste '?paste'
> par(mfrow=c(1,2)) # Criando janela gráfica 1x2
> # Frequ^
encia (da classe) e legenda
> e', col=colors, labels=atend, cex=1.6, cex.main=1.7)
pie(atend, main='Atendimentos em um guich^
> legend(.8, .9, c('Seg','Ter','Qua','Qui','Sex'), cex=1.3, fill=colors, box.col='white')
> # Frequ^
encia relativa e legenda
> e', col=colors, labels=atend_rel, cex=1.6, cex.main=1.7)
pie(atend, main='Atendimentos em um guich^
> legend(.8, .9, c('Seg','Ter','Qua','Qui','Sex'), cex=1.3, fill=colors, box.col='white')

Page 38
DRAFT VERSION
2.6.2 Gráfico de Barras e Colunas
O gráfico de barras é usualmente utilizado para apresentar dados classificados em categorias não
ordenadas. Barras retangulares de mesma largura são dispostas sobre as categorias com altura propor-
cional às frequências ou outra medida associada com as categorias. Podem ser dispostas na horizontal
ou vertical; quando agrupadas desta última forma, chama-se gráfico de colunas. É um gráfico bastante
versátil, pois permite representar a informação de diversas maneiras, conforme Figura 2.5.

Custos pessoais Custos pessoais

800
internet
moradia

600
e. eletrica

Custo (R$)
400
aliment.
educacao

200

0 200 400 600 800 0

Custo (R$) educacao aliment. e. eletrica moradia internet

(a) Barra (b) Colunas

Placebo vs trat. Placebo vs tratamento


40

Nenhuma melhora
Nenhuma melhora Alguma melhora
25

Alguma melhora Plena melhora


Plena melhora
30

20
Frequencia

Frequencia

15
20

10
10

5
0

Placebo Tratamento Placebo Tratamento

(c) Colunas empilhadas (d) Colunas lado a lado

Figura 2.5: Gráficos de barras e colunas

> custos <- c(640, 760, 75, 100, 850) # Custos pessoais
> names(custos) <- c('alimentacao','educacao','e. eletrica','internet','moradia') # Nomeando
> barplot(custos, xlab='Custo (R$)', main='Custos pessoais', col= gray(0:4/4), cex.main=1.6, horiz=T)
> barplot(custos, ylab='Custo (R$)', main='Custos pessoais', col= gray(0:4/4), las=1, cex.main=1.6)
> trat <- table(Arthritis$Improved, Arthritis$Treatment) # Utilizando base de dados 'Arthritis'
> rownames(trat) <- c('Nenhuma melhora','Alguma melhora','Plena melhora') # Nome das linhas
> colnames(trat) <- c('Placebo','Tratamento') # Nome das colunas
> barplot(trat,main='Placebo vs trat.', ylab='Frequencia', col=c('black','grey','white'), cex.main=1.6)
> legend(1.5, 40, rownames(trat), cex=1, fill=colors[c(1,3,5)], box.col='white')
> barplot(trat, main='Placebo vs tratamento', ylab='Frequencia', col=c('black', 'grey','white'),
cex.main = 1.6, beside = T)
> legend(5, 28, rownames(trat), cex=1, fill=colors[c(1,3,5)], box.col='white')

Page 39
DRAFT VERSION
2.6.3 Histograma
O histograma é um gráfico de barras sem espaçamento utilizado para representar distribuições de
frequência de variáveis contı́nuas. Apresenta-se a variável dividida em classes no eixo horizontal (x) e a
frequência de cada classe no eixo vertical (y). Os pacotes computacionais em geral definem o número de
classes pela regra de Sturges33 . É uma ferramenta básica de análise exploratória de dados para avaliar a
dispersão e forma dos dados, detectar valores atı́picos e sugerir modelos e transformações para análises
mais avançadas.
40

20
30

15
Frequency

Frequency
20

10
10

5
0

1.50 1.55 1.60 1.65 1.70 1.75 1.50 1.55 1.60 1.65 1.70

Altura (m) Altura (m)

(a) Amplitude de classes de Sturges (padrão do R) (b) Amplitude de classes de Freedman-Diaconis

9
8
6

6
Density

3
2
0

0
1.50 1.55 1.60 1.65 1.70 1.75
1.50 1.55 1.60 1.65 1.70 1.75
Altura (m) Altura (m)

(c) Ajustando densidade normal (d) Utilizando a biblioteca ggplot2

Figura 2.6: Histogramas

> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))


> hist(altura, prob=F, right=F, breaks = 'sturges', main = '', xlab='Altura (m)', col='grey')
> hist(altura, prob=F, right=F, breaks = 'fd', main = '', xlab='Altura (m)', col='grey')
> hist(altura, prob=T, right = F, main = '', xlab='Altura (m)', col='grey', ylim = c(0,9))
> curve(dnorm(x, mean=mean(altura), sd=sd(altura)), col='blue', lwd=2, add=T) # Ajustando normal
> ggplot2::qplot(altura, geom = 'histogram', xlab = 'Altura (m)') # install.packages('ggplot2', dep=T)

33 Seção 2.2.3.

Page 40
DRAFT VERSION
2.6.4 Box plot
O box plot ou diagrama em caixa é um gráfico em formato retangular limitado pelo primeiro e terceiro
quartis, onde a linha central é a mediana34 . A distância entre os quartis é a amplitude interquartı́lica,
definida por AI = Q3 − Q1 e contempla 50% dos dados centrais. Pontos que ultrapassam 1.5 vez a
amplitude interquartı́lica acima (abaixo) de Q3 (Q1 ) são chamados outliers.

Numero de filhos Variável W


6 Máximo

8
5

4 6
Numero de filhos

y
Q3
4

2 Mediana

2
1 Q1

0 Mínimo 0

A B C
(n=50) (n=300) (n=150)
x

(a) Boxplot (b) Proporcional ao tamanho do grupo

Pontuacao em um teste Pontuacao em um teste

25
F

20
E

Outliers

15 D
Pontos

Pontos

C
10

B
5

A B C D E F 0 5 10 15 20 25

(c) Vertical (d) Horizontal

Figura 2.7: Box plots

> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))


> boxplot(filhos, main='Numero de filhos', ylab='Numero de filhos', las=1, cex.main=1.6)
> set.seed(1); y <- c(rpois(50, lambda=1.5), rnorm(300,4), (1:150)/17)
> x <- factor(c(rep('A',50), rep('B',300), rep('C',150) ))
> bp <- boxplot(y ~ x, varwidth = TRUE, las = T, main='Variável W', cex.main=1.6)
> mtext(paste('(n=', bp$n, ')', sep = ''), at = seq_along(bp$n), line =2, side = 1)
> boxplot(count ~ spray, data = InsectSprays, col = 'lightgray', main = 'Pontuacao em um teste',
ylab = 'Pontos', xlab = 'Grupo', las = 1, cex.main = 1.6)
> boxplot(count ~ spray, data = InsectSprays, col = 'lightgray', main = 'Pontuacao em um teste',
ylab = 'Pontos', xlab = 'Grupo', las = 1, cex.main = 1.6, horizontal = T)

34 Seção 2.3.9.

Page 41
DRAFT VERSION
2.6.5 Gráfico de Dispersão
O gráfico de dispersão apresenta a relação entre duas variáveis contı́nuas. O gráfico da Figura 2.8a
sugere que o rendimento dos carros avaliados cai conforme aumenta sua massa, o que é bastante intuitivo.
Na Figura 2.8b está um exemplo de matriz de dispersão, que consiste em um mosaico com gráficos de
dispersão de duas ou mais variáveis apresentadas simultaneamente. Note que o gráfico da Figura 2.8a
está replicado na primeira linha, última coluna da matriz. Seu inverso (Massa vs Rendimento) está na
última linha, primeira coluna. É uma ferramenta útil no ajuste dos modelos apresentados no Capı́tulo 5.

Rendimento (km/L) vs Massa (kg) Matriz de dispersao


1000 4000 7000 1000 2000

14
14

8 10
Rendimento

6
12

7000
Rendimento (km/L)

4000
Cilindrada
10

1000

5.0
8

4.0
Vel.Transmissão

3.0
6
2000

Massa
1000

1000 1500 2000 2500


6 8 10 14 3.0 4.0 5.0

Massa do carro

(a) Gráfico de dispersão (b) Matriz de dispersão

Figura 2.8: Gráfico de dispersão

> attach(mtcars) # install.packages('mtcars', dep=T)


> Rendimento <- 0.42515199183708*mpg
> Massa <- 0.453592*wt*1000
> Cilindrada <- 16.387064*disp
> Vel.Transmiss~
ao <- drat
> plot(Massa, Rendimento,
main="Rendimento (km/L) vs Massa (kg)",
xlab="Massa do carro",
ylab="Rendimento (km/L)", pch = 19, las = 1, cex.main = 1.6)
> pairs(~ Rendimento + Cilindrada + Vel.Transmiss~
ao + Massa, data = mtcars,
main = 'Matriz de dispersao', cex.main = 1.6)

2.6.6 Mais opções de visualização


· https://plot.ly/r/

· https://www.r-graph-gallery.com/

· https://github.com/d3/d3/wiki/Gallery

· http://kateto.net/network-visualization

· https://www.shinyapps.org/apps/RGraphCompendium/index.php

· http://r-statistics.co/Top50-Ggplot2-Visualizations-MasterList-R-Code.html

EXERCÍCIOS
1. Leia o artigo disponı́vel em http://flowingdata.com/2017/01/24/one-dataset-visualized-25-ways/.

2. Acesse o link http://archive.ics.uci.edu/ml/datasets.php e escolha um conjunto de dados.

Page 42
DRAFT VERSION
a) Descreva brevemente o conjunto de dados selecionado.
b) Crie visualizações para o conjunto escolhido, destacando pontos que considere relevante.
c) Envie os códigos e links para o professor.

EXERCÍCIOS EXTRAS
1. (Adaptado de Pagano (2004)) Em uma investigação dos fatores de risco para doenças cardiovasculares, os nı́veis de
cotinina (produto metabólico da nicotina) foram registrados para um grupo de fumantes (F) e um grupo de não
fumantes (NF) em nanogramas por mililitro (ng/mL)35 . As distribuições de frequência estão na tabela abaixo

Nı́vel de cotinina (ng/mL) fF f rF fN F f rN F


0 ` 14 78 3300
14 ` 50 133 72
50 ` 100 142 23
100 ` 150 206 15
150 ` 200 197 7
200 ` 250 220 8
250 ` 300 151 9
300 + 412 11
Total 1539 3445

Complete a tabela acima e responda:


a) Qual o percentual de fumantes com nı́vel de cotinina até 14 ng/mL? E entre os não fumantes, qual é este percen-
tual?
b) Qual percentual de fumantes que possuem 100 ng/mL ou mais de cotinina?
c) Entre os não fumantes, qual o percentual de pessoas que tem entre 100 e 250 ng/mL de cotinina?
d) Qual o intervalo modal entre os fumantes? E entre os não fumantes? Interprete.
e) A mediana do nı́vel de cotinina está em qual intervalo para os fumantes? E para os não fumantes? Interprete.
f) Represente os dados utilizando o gráfico que você considerar mais adequado.

2. (Adaptado de Pagano (2004)) Questões para revisar os conceitos estudados:


a) O que são estatı́sticas descritivas?
b) Como os dados ordinais diferem dos nominais? Dê três exemplos de cada tipo.
c) Quais as vantagens e desvantagens de se transformar medidas contı́nuas em intervalos de classe?
d) Ao se construir uma tabela, quando é vantajoso usar frequências relativas em vez de absolutas?
e) O que são quartis de um conjunto de dados?
f) O que são média e mediana? Sob quais condições é preferı́vel usar cada uma?

3. Em 2009, a Pesquisa de Informações Básicas Municipais do IBGE divulgou os seguintes resultados para o número
de municı́pios por faixa de população para a região Sul do Brasil.

População # municı́pios Prefeitos (♂) Prefeitas (♀)


Até 5 000 421 397 24
De 5 001 a 10 000 291 268 23
De 10 001 a 20 000 229 222 7
De 20 001 a 50 000 144 134 10
De 50 001 a 100 000 57 54 3
De 100 001 a 500 000 43 40 3
Mais de 500 000 3 3 -
Total 1188 1118 70

Com base nesta informação, complete com V (verdadeiro) ou F (falso), corrigindo o que estiver errado:
( ) A região Sul possui 1188 municı́pios.
( ) Mais de 90% dos municı́pios possuem prefeitos do sexo masculino.
( ) Menos de 8% dos municı́pios com até 10 mil habitantes são administrados por mulheres.
( ) Entre municı́pios com prefeitos do sexo masculino, aproximadamente 4% deles possuem mais de 100 mil habi-
tantes.
( ) A mediana da população dos municı́pios está entre 20001 e 50000 habitantes.
( ) Aproximadamente 34% dos municı́pios administrados por mulheres possuem até 5 mil habitantes.

35 Um nanograma é um bilionésimo de grama. 1g = 109 ng, 1ng = 10−9 g.

Page 43
DRAFT VERSION
4. Você está dirigindo em uma rodovia e observa que ultrapassa o mesmo número de automóveis que ultrapassam
você. Qual medida de tendência central melhor representa a velocidade que você está dirigindo, média ou mediana?
Explique o seu raciocı́nio.

5. Foram observadas as quantidades de fotocópias feitas por dois setores de uma empresa no segundo semestre de 2018,
apresentadas na tabela abaixo.

Mês jan fev mar abr mai jun


Setor X 30 15 15 10 39 35
Setor Y 120 160 15 130 145 300

P6 P6 P6 P6
Sabendo que i=1 xi = 144, i=1 x2i = 4196, i=1 yi = 870, i=1 yi2 = 168150, calcule:
a) A média, mediana e moda do número de cópias de cada setor.
b) A amplitude, a variância e o desvio padrão amostrais do número de cópias de cada setor.
c) Em qual dos setores o número de cópias variou mais? Por quê?
d) Represente os dados utilizando o gráfico que você considerar mais adequado.

6. Você não sabe a nota da primeira prova (P1 ) de três avaliações realizadas no semestre passado. Sabendo que a
média das notas das três avaliações foi P̄ = 7.5 e que P2 = 5 e P3 = 9, qual a nota da avaliação que você perdeu?

7. Para aprimorar seu chimarrão, você decidiu medir a temperatura da água que estava utilizando durante as duas
últimas semanas. As temperaturas (em graus Celsius) observadas foram as seguintes:

Semana 1: 72.4 84.9 57.5 61.0 87.9 78.1 73.0


Semana 2: 76.3 80.0 74.1 67.0 83.2 83.0 58.0

a) Calcule a média e mediana da temperatura da água nos 14 dias.


b) Repita o item (a) para semana 1 e para semana 2 separadamente. Parece haver diferença na temperatura de uma
semana para outra?
c) Uma embalagem de erva mate aponta a temperatura 75 graus Celsius como ideal, sendo considerado bom o
chimarrão com água entre 65 e 85 graus. Acima deste intervalo o mate está quente demais (pelando) e abaixo é
considerado frio. Com essa informação, monte uma tabela de frequência para observar quantas vezes nessas duas
semanas o chimarrão ficou frio, bom ou muito quente para as semanas 1, 2 e durante os 14 dias.
d) A frequência em que o chimarrão estava na temperatura ideal foi diferente nas duas semanas? Comente os resul-
tados, explicando as diferenças de uma semana para outra.

8. (Adaptado de Anderson et al. (2007)) Milhões de norte-americanos levantam de manhã e realizam seu trabalho em
escritórios residenciais, comunicando-se com a empresa por meios eletrônicos. Coletou-se uma amostra da idade de
20 indivı́duos que trabalham em casa. As idades foram as seguintes:

18 54 20 46 25 48 53 27 26 37
40 36 42 25 27 33 28 40 45 25

a) Calcule a média, mediana e moda.


b) Calcule e interprete o primeiro quartil.
c) Se a idade mediana do universo de todos os adultos é 35.5 anos, comente se as pessoas que trabalham em casa
tendem a ser mais jovens ou mais velhas que a população de todos os adultos.

9. (Adaptado de Anderson et al. (2007)) Em um teste automobilı́stico de quilometragem e consumo de gasolina, 13


automóveis foram testados na estrada, em um percurso de 482.8 quilômetros, em condições de dirigibilidade tanto na
cidade quanto na rodovia. Os dados apresentados a seguir foram registrados para o desempenho obtido em termos
de quilômetros por galão americano (US liquid gallon), equivalente a 3.78 litros.

Cidade (X): 26.07 26.81 25.58 23.17 21.24 24.62


27.03 25.74 25.91 24.62 24.46 24.62 25.74
Rodovia (Y ): 30.57 32.18 28.96 29.93 30.89 27.35
27.35 28.96 30.57 33.95 31.22 28.96 28.96

P13 P13 P13 P13


Dados i=1 xi = 325.61, i=1 x2i = 8184.513, i=1 yi = 389.85, i=1 yi2 = 11732.66,
a) Calcule a média, mediana e a moda.
b) Faça uma investigação sobre a possibilidade de diferença de consumo de combustı́vel quando de dirige na cidade
e na rodovia.

Page 44
DRAFT VERSION
10. (Adaptado de Pagano (2004)) Um estudo foi conduzido comparando mulheres adolescentes que sofriam de bulimia
com mulheres adolescentes normais com composição corporal e nı́veis de atividade fı́sica similares. Abaixo estão as
medidas de consumo calórico, registrados em calorias por quilograma, para amostras de adolescentes de cada grupo.

Bulı́micas: 15.9 18.9 25.1 16.0 19.6 16.5 21.5 25.6 17.0 17.6 18.1 18.9
Saudáveis: 20.7 30.6 22.4 33.2 24.5 33.7 37.1 36.6 26.3 37.4 40.8 37.4

a) Obtenha e interprete o consumo calórico mediano, tanto para adolescentes bulı́micas quanto para saudáveis.
b) Calcule a média de cada grupo.
c) Qual grupo tem maior variabilidade nas medidas? Justifique.

11. O Mini-Exame do Estado Mental (MEEM) é provavelmente um dos instrumentos mais utilizados mundialmente,
possuindo versões em diversas lı́nguas e paı́ses, validado inclusive para a população brasileira. Fornece informações
sobre diferentes parâmetros cognitivos, contendo questões agrupadas em sete categorias, cada uma delas planejada
com o objetivo de avaliar funções cognitivas especificas como a orientação temporal (5 pontos), orientação espacial
(5 pontos), registro de três palavras (3 pontos), atenção e cálculo (5 pontos), recordação das três palavras (3 pontos),
linguagem (8 pontos) e capacidade construtiva visual (1 ponto). O escore do MEEM pode variar de um mı́nimo de
0 ponto, indicando o maior grau de comprometimento cognitivo dos indivı́duos, até um total máximo de 30 pontos,
que corresponde à melhor capacidade cognitiva. Desta forma a pontuação é a soma dos pontos de cada categoria,
podendo assumir os valores 0, 1, . . . , 30, de onde calculam-se medidas como média e variância para avaliação dos
pacientes.
Foram avaliados dois grupos de 8 pacientes cada em relação ao MEEM, conforme a tabela abaixo.

i 1 2 3 4 5 6 7 8
MEEM G1 (xi ) 12 19 12 17 18 12 10 11
MEEM G2 (yi ) 30 22 27 21 19 18 19 21

P8 P8 P8 P8
Se i=1 xi = 111, i=1 x2i = 1627, i=1 yi = 177, i=1 yi2 = 4041, pede-se:
a) Classifique a variável MEEM.
b) A média, a mediana e a(s) moda(s) do MEEM de cada grupo.
c) A amplitude do MEEM de cada grupo.
d) A variância e o desvio padrão universais do MEEM de cada grupo.
e) A variância e o desvio padrão amostrais do MEEM de cada grupo.
f) Em qual dos grupos o MEEM variou mais? Justifique.

12. (Adaptado de Magalhães and Lima (2002)) O Conselho Regional de Odontologia recomenda visitas periódicas ao
dentista e, para orientar sua campanha de divulgação, realizou uma pesquisa com 100 crianças. O número médio
de visitas no último ano foi 0.5. A mediana e a moda do número de visitas foram iguais a zero. Com base nestes
dados, responda V para verdadeiro, F para falso (corrigindo o que estiver errado) e NSA para sentenças que não se
pode afirmar através das informações fornecidas.
( ) Pelo menos 50 crianças não visitaram o dentista neste ano.
( ) Alguma criança fez mais de três visitas no último ano.
( ) Metade das crianças já foi ao dentista pelo menos uma vez.
( ) Uma criança pode ter ido ao dentista 80 vezes no ano.

Questões de Concursos

13. (Prova 1 TRF 2005) Assinale a alternativa correta:


Considere a seguinte distribuição das frequências absolutas dos salários mensais, em reais, referentes a 200 trabalha-
dores de uma indústria.

i Classes de Salários fi
1 400 ` 500 50
2 500 ` 600 70
3 600 ` 700 40
4 700 ` 800 30
5 800 ` 900 10
Total -

Sobre essa distribuição de salários é correto afirmar que:


(a) O salário modal encontra-se na classe de R$ 800 até R$ 900.
(b) O salário mediano encontra-se na classe de R$ 600 até R$ 700.

Page 45
DRAFT VERSION
(c) O salário modal encontra-se na classe de R$ 600 até R$ 700.
(d) O salário modal encontra-se na classe de R$ 700 até R$ 800.
(e) O salário mediano encontra-se na classe de R$ 500 até R$ 600.

14. (Exame Fundação Médica do Rio Grande do Sul - 2010) Considere uma amostra de 250 pessoas que sofreram
acidentes ofı́dicos36 . O resumo dos dados está nas tabelas abaixo. Para cada questão (1 e 2) existe somente uma
alternativa correta.

Idade # pessoas
6`8 1
8 ` 10 2
10 ` 12 7
12 ` 14 14
14 ` 16 31
16 ` 18 44
18 ` 20 72
20 ` 22 61
22 ` 24 18
Total 250
Moda: 19
Média: 17.8
Mediana: 18
Primeiro quartil: 16
Segundo quartil: 20
Desvio padrão: 3

Questão 1) A frequência relativa de pessoas com idade maior ou igual a 12 anos e menor que 18 anos que sofreram
acidentes ofı́dicos é igual a:
(a) 35.6%
(b) 38.4%
(c) 39.6%
(d) 58.8%
(e) 64.4%

Questão 2) Analise as alternativas abaixo:


I) Metade das pessoas da amostra apresentou idade menor ou igual a 18 anos.
II) Metade das pessoas da amostra apresentou idade entre 16 e 20 anos.
III) O coeficiente de variação foi de aproximadamente 16.8%.
Assinale a melhor opção de resposta.
(a) I (b) II (c) III (d) I e II (e) I, II e III

15. (CESGRANRIO - 2010 - Petrobrás/Administrador) Uma loja de conveniência localizada em um posto de combustı́vel
realizou um levantamento sobre o valor das compras realizadas pelos seus clientes. Para tal tomou uma amostra
aleatória de 21 compras, que apresentou o seguinte resultado:

i Valor i Valor i Valor


1 R$ 19.40 8 R$ 22.00 15 R$ 18.00
2 R$ 14.00 9 R$ 34.00 16 R$ 29.00
3 R$ 18.30 10 R$ 15.50 17 R$ 34.00
4 R$ 27.20 11 R$ 28.50 18 R$ 15.50
5 R$ 8.70 12 R$ 34.00 19 R$ 13.40
6 R$ 10.30 13 R$ 10.80 20 R$ 17.00
7 R$ 7.20 14 R$ 15.50 21 R$ 19.00

A mediana dessa série de observações é:


(a) 15.5 (b) 18.0 (c) 18.3 (d) 28.5 (e) 34.0

36 Picada de cobra.

Page 46
DRAFT VERSION

“ La théorie des probabilités n’est au fond,


que le bon sens réduit au calcul.”37
∼ Pierre-Simon Laplace, 1814

3 Probabilidade
“ ó sei que nada sei”, reagiu Sócrates ao pronunciamento do Oráculo de Delfos, que o apontara
S como o mais sábio de todos os homens 38
. No texto de Sheakspeare, Hamlet diz a seu colega de
Wittenberg: “There are more things in heaven and earth, Horatio, than are dreamt of in your philo-
sophy.”39 Em linha com estes pensadores, o autor considera razoável formalizar uma maneira de lidar
com as incertezas da vida, ainda que de forma idealizada.
Pense em quantas coisas você tem certeza absoluta. Absoluta. Ab-so-lu-ta. Pense agora que você
deve tomar uma decisão. Pode ser algo simples, como escolher entre um café ou uma água no avião. Por
mais banal que isso possa parecer, uma decisão deve ser tomada, mesmo que você resolva não aceitar
qualquer das sugestões da aeromoça. A pior coisa que pode acontecer é o café estar frio ou fora do ponto,
a água estar quente ou com um gosto ruim ou, caso tenha optado por não beber nada, você ficar com
sono ou sede. Porém, pode-se decidir por algo mais emocionante. Digamos que você é o responsável
por decidir entre o pedido de falência ou da continuidade da empresa da qual você faz parte do corpo
diretivo. Bem mais emocionante do que conversar com a aeromoça, mas idêntico em termos de método:
considerações foram feitas (seu paladar/sua estratégia de negócios), observações foram realizadas (o
cheirinho do café/análise de informações contábeis e de mercado) e uma decisão foi tomada (café, água
ou no, ¡gracias señorita! /falência ou continuidade da empresa).
Para auxiliar em decisões maiores como o exemplo descrito acima, utiliza-se o conceito de probabi-
lidade, definido neste texto como o grau de incerteza quantificado. Pode-se quantificar a incerteza de
diversas formas40 , e neste texto serão abordadas as probabilidades axiomática e frequentista. A pro-
babilidade axiomática é aquela da qual partimos por consenso, enquanto a probabilidade frequentista é
considerada o limite para o qual tende a frequência relativa da Equação (41) (página 52) sob certas
condições de regularidade.
Exemplo 3.1. (Probabilidade axiomática) Assume-se que uma moeda seja equilibrada, com probabilidade
50% de face cara ou coroa.
,

Exemplo 3.2. (Probabilidade frequentista) Uma moeda é lançada 100 vezes aproximadamente sob as
mesma condições e observa-se a frequência de faces cara e coroa. Se ao final dos n = 100 lançamentos
observarmos 54 caras e 100 − 54 = 46 coroas, calcula-se que há 54/100 = 54% de probabilidade de face
cara e 46/100 = 46% de coroa.
,

A seguir será feita uma breve revisão da Teoria dos Conjuntos, base para a compreensão do formalismo
da Teoria da Probabilidade.

3.1 Teoria dos Conjuntos


Um conjunto é uma coleção de elementos, sem repetição e não ordenada. Um subconjunto é uma
coleção de elementos que pertencem a um determinado conjunto. Formalmente não existe definição para
conjunto, subconjunto, elemento e pertinência, pois estas são consideradas noções primitivas 41 .
37“A teoria das probabilidades é, basicamente, o senso comum reduzido ao cálculo.”
38 Stokes (1997).
39 Hamlet Ato 1, cena 5, 159–167.
40 Para mais detalhes sobre os tipos de probabilidade, vide Feller (1968); de Finetti (1974); James (2010).
41 Iezzi and Murakami (1977).

Page 47
DRAFT VERSION
Exemplo 3.3. (Conjunto, subconjunto e elemento) Suponha o conjunto T formado pelos alunos que par-
ticipam da seleção de truco da universidade. Pode-se anotar

T = {Aaron, Beatriz, Carlos, Denivaldo, Evelino, F abiane} = {A♂ , B♀ , C♂ , D♂ , E♂ , F♀ }.

Cada aluno jogador da seleção de truco é elemento de T . Pode-se dividir o conjunto T em dois subcon-
juntos,
T♂ = {A♂ , C♂ , D♂ , E♂ }
e
T♀ = {B♀ , F♀ }.
Os guris são elementos de T♂ e as gurias elementos de T♀ .
,

3.1.1 Relações
Seja A um conjunto e a um elemento de A. a ∈ A simboliza que a pertence ao conjunto A. Se
um elemento b não pertence ao conjunto A, anota-se b ∈/ A. Diz-se que um conjunto A está contido
em outro conjunto B se todos os elementos pertencentes ao conjunto A também estiverem contidos em
B, simbolizado pelas relações A ⊂ B ou B ⊃ A. Estas relações também podem ser lidas como A é
subconjunto de B.
Exemplo 3.4. (Relações entre elementos e conjuntos) Suponha os conjuntos T , T♂ e T♀ definidos no
Exemplo 3.3.

Conjunto-conjunto Elemento-conjunto

T♂ ⊂ T Aaron ∈ T
T♂ ⊂ T Aaron ∈ T♂
T♀ ⊂ T Aaron ∈/ T♀
T 6⊂ T♂ F abiane ∈ T
T 6⊂ T♀ F abiane ∈
/ T♂
T♀ 6⊂ T♂ F abiane ∈ T♀

3.1.2 Conjunto Vazio


Conjunto vazio 42 é um conjunto sem elementos. Sua definição pode parecer um pouco estranha em
um primeiro momento, mas é de grande importância na Teoria de Conjuntos. Intuitivamente pode-se
pensar que alguns resultados são impossı́veis em certos experimentos, gerando a necessidade prática de
tal definição. É denotado por {} ou ∅, e não deve ser confundido com a letra grega φ. Por definição o
conjunto vazio é subconjunto de qualquer conjunto.
Exemplo 3.5. (Conjunto vazio) O conjunto dos possı́veis resultados de um lançamento de um dado é
Ω = {1, 2, 3, 4, 5, 6}. Como é impossı́vel obter um valor negativo como resultado, o conjunto em que se
obtém um valor negativo pode ser definido pelo conjunto vazio, i.e., Ω− = ∅.
,

3.1.3 Cardinal e Conjunto das Partes/Potência


O cardinal de um conjunto indica seu número de elementos. O cardinal do conjunto A é denotado por
|A|, onde |A| ∈ N. O conjunto das partes ou conjunto potência de um conjunto A é o conjunto contendo
todos os subconjuntos de A, denotado por P (A). Por definição o conjunto vazio ∅ é subconjunto de
P (A). O cardinal do conjunto das partes é dado por |P (A)| = 2|A| .
42 Há algum tempo era também referenciado como conjunto nulo, mas este termo atualmente designa uma definição

formal em Teoria da Medida, onde um conjunto nulo é tal que µ(φ) = 0.

Page 48
DRAFT VERSION
Exemplo 3.6. (Cardinal e conjunto das partes) Seja o conjunto A = {−9, 0, 5}. Sabe-se que

|A| = 3,

|P (A)| = 23 = 8
e
P (A) = {∅, {−9} , {0} , {5} , {−9, 0} , {−9, 5} , {0, 5} , {−9, 0, 5}} .

> A <- c(-9,0,5)


> length(A)

[1] 3

> (ps <- rje::powerSet(A))

[[1]]
numeric(0)

[[2]]
[1] -9

[[3]]
[1] 0

[[4]]
[1] -9 0

[[5]]
[1] 5

[[6]]
[1] -9 5

[[7]]
[1] 0 5

[[8]]
[1] -9 0 5

> length(ps)

[1] 8

3.1.4 Operações
As operações com conjuntos são fundamentais na Teoria da Probabilidade. Deve-se diferenciar ope-
rações entre conjuntos e operações entre números. União (∪), intersecção (∩) e complementar (Ac ) são
operações entre conjuntos. Adição (+), subtração (−) e multiplicação (×) são operações realizadas com
números. As operações com conjuntos possuem associação com as operações numéricas, detalhadas a
seguir.

União ∪

A operação de união é representada pelo sı́mbolo ∪. Indica que o novo conjunto gerado deve considerar
todos os elementos dos conjuntos envolvidos na operação de união. Caso existam elementos iguais, eles
não devem ser repetidos. O diagrama de Venn 43 da Figura 3.1a representa graficamente esta operação.
Equivale em Português à palavra ‘ou’ e em Matemática à operação numérica de adição (+).
43 O diagrama de Venn é uma representação gráfica de conjuntos através de cı́rculos ou outras formas.

Page 49
DRAFT VERSION
Exemplo 3.7. (União) Suponha os conjuntos T , T♂ e T♀ definidos no Exemplo 3.3.
T♂ ∪ T♀ = T,
T♂ ∪ T = T,
T♀ ∪ T = T.
,
Intersecção ∩
A operação intersecção é representada pelo sı́mbolo ∩. Indica que o novo conjunto gerado deve
considerar apenas os elementos que sejam comuns aos conjuntos envolvidos na operação de intersecção.
O diagrama de Venn da Figura 3.1b representa graficamente esta operação. Equivale em Português à
palavra ‘e’ e em Matemática à operação numérica de multiplicação (×).
Exemplo 3.8. (Intersecção de conjuntos disjuntos) Suponha os conjuntos T , T♂ e T♀ definidos no Exem-
plo 3.3.
T♂ ∩ T♀ = {} = ∅,
T♂ ∩ T = T♂ ,
T♀ ∩ T = T♀ .
Pode-se visualizar estes conjuntos na Figura 3.1d, com k = 2.
,
Exemplo 3.9. (Equivalências da união) Retomando o Exemplo 2.1 da página 10, suponha que 32 torce-
dores do Maragato F.C. e 25 do Ximango F.C. estejam em uma sala de aula. Seja M o conjunto dos
torcedores do Maragato F.C. e X o conjunto dos torcedores do Ximango F.C., denotados por
M = {m1 , m2 , . . . , m32 }
e
X = {x1 , x2 , . . . , x25 }.
A união destes conjuntos é
M ∪ X = {m1 , m2 , . . . , m32 , x1 , x2 , . . . , x25 }.
Logo, existem |M ∪ X| = |M | + |X| − |M ∩ X| = 32 + 25 − 0 = 57 torcedores do Maragato F.C. ou do
Ximango F.C. na sala de aula.
,
Exemplo 3.10. (Leitores de mais de um jornal) Suponha que existam 20 leitores de Diário Brotense (D),
30 leitores de Meia Noite (M) e 6 leitores de Diário Brotense e de Meia Noite, denotados por
D = {d1 , d2 , . . . , d20 }
e
M = {m1 , m2 , . . . , m30 }.
A união D ∪ M possui |D ∪ M | = |D| + |M | − |D ∩ M | = 20 + 30 − 6 = 44 elementos, visto que 6 deles
estão simultaneamente em D e M . Visualize este exemplo na Figura 3.1a.
,
Exemplo 3.11. (Intersecção de conjuntos não disjuntos) Do Exemplo 3.10, a intersecção D ∩ M possui
6 elementos. Visualize este exemplo na Figura 3.1b.
,
Complementar
O complementar do conjunto A indica que o novo conjunto gerado deve considerar os elementos que
não pertencem a A, também chamados de não A ou ¬A. É representado pelas simbologias Ac e Ā. Neste
texto será adotada a notação Ac para não colidir com a média amostral, também anotada pelo sı́mbolo
de barra Ā. O diagrama de Venn da Figura 3.1d representa graficamente esta operação. Equivale em
Português à palavra ‘não’ e em Matemática à operação numérica de subtração (−).
Exemplo 3.12. (Complementar) Do Exemplo 2.1, M = X c e X = M c .
,

Page 50
DRAFT VERSION

(a) A união B, ou A ∪ B (b) A intersecção B, ou A ∩ B

(c) Complementar de A, não A, ¬A ou Ac (d) Partição

Figura 3.1: Operações com conjuntos

3.1.5 Conjuntos Disjuntos e Partição


Conjuntos disjuntos são aqueles cuja intersecção é o conjunto vazio, ou seja, não se sobrepõem. Uma
partição é uma quebra de um conjunto em subconjuntos disjuntos.
Exemplo 3.13. (Conjunto disjunto e partição) Do Exemplo 3.9, não existem pessoas que torçam para
o Maragato F.C. e para o Ximango F.C. simultaneamente. Os Maragatos e Ximangos formam uma
possı́vel partição do Rio Grande do Sul.
,

3.2 Definições
3.2.1 Experimento Aleatório
Um experimento aleatório é um processo no qual não se conhece o especı́fico resultado, mas se conhece
o conjunto dos possı́veis resultados. Um experimento aleatório pode ser medir alturas de mulheres, contar
o dinheiro que entra por dia em um supermercado ou simplesmente lançar um dado. É considerado
aleatório pois se desconhece o especı́fico resultado em cada realização, ainda que sejam conhecidos todos
os possı́veis resultados.

3.2.2 Espaço Amostral


O espaço amostral é o conjunto de todos os possı́veis resultados de um experimento aleatório, simbo-
lizado por Ω.
Exemplo 3.14. (Espaço amostral finito) No caso do experimento aleatório ‘lançar um dado’, o espaço
amostral é definido por
Ω = {1, 2, 3, 4, 5, 6} .
,

Page 51
DRAFT VERSION
Exemplo 3.15. (Espaço amostral infinito) No Exemplo 2.9 da página 12, o espaço amostral é definido
pelo conjunto não enumerável Ω = {b ∈ R : 0 ≤ b ≤ 1}.
,

3.2.3 Evento
Em Probabilidade, um evento é um subconjunto do espaço amostral. Não confundir com eventos não-
probabilı́sticos como o Planeta Altlântida ou o show de aniversário da Rádio Farroupilha no anfiteatro
Pôr-do-Sol.
Exemplo 3.16. (Evento finito) Do Exemplo 3.14 pode-se estar interessado apenas nos resultados pares do
lançamento. Assim, o evento ‘face par’ pode ser descrito como E = {2, 4, 6} . Note que E ⊂ Ω.
,
Exemplo 3.17. (Evento infinito) Do Exemplo 3.15 pode-se estar interessado apenas nos locais onde exista
um percentual de bulı́micas superior a 8.4%. Assim, o evento ‘percentual de bulı́micas superior a 8.4%’
pode ser descrito como E = {b ∈ R : 0.084 < b ≤ 1}. Note que E ⊂ Ω.
,

3.2.4 Probabilidade
Atribui-se a probabilidade do evento A como
m
P r(A) = (41)
n
onde

· m é o número de casos favoráveis para o evento A


· n é o número total de casos

A probabilidade frequentista é o limite da Equação (41) quando n → ∞.


Exemplo 3.18. (Cálculo de probabilidade) Suponha que um dado seja lançado 150 vezes (a pessoa tem
uma vida fantástica, a ponto de ter tempo livre para fazer essa experiência), e observa-se a distribuição
dos lançamentos apresentada na Tabela 3.1.

Face 1 2 3 4 5 6 Total
Frequência 18 24 34 26 27 21 150

Tabela 3.1: Resultado de 150 lançamentos de um dado, feitos por um desocupado.

Assim, o espaço amostral é Ω = {1, 2, 3, 4, 5, 6} e podem-se calcular algumas probabilidades tais como
24
P r(F ace 2) = P r({2}) = = 0.16 = 16%,
150
24 + 26 + 21
P r(F ace par) = P r(F ace 2 ou f ace 4 ou f ace 6) = P r({2}∪{4}∪{6}) = ≈ 0.4733 = 47.33%,
150
71
P r(F ace ı́mpar) = 1 − P r(F ace par) = 1 − ≈ 0.5267 = 52.67%,
150
P r(F ace 2 e f ace 4 e f ace 6) = P r({2} ∩ {4} ∩ {6}) = P r(∅) = 0.

Page 52
DRAFT VERSION
> m <- c(18,24,34,26,27,21)
> n <- sum(m)
> (p2 <- m[2]/n)

[1] 0.16

> (ppar <- sum(m[c(2,4,6)])/n)

[1] 0.4733333

> (pimpar <- 1-ppar)

[1] 0.5266667

3.2.5 Propriedades
Propriedades fundamentais (Axiomas de Kolmogorov)

· P1
0 ≤ P r(A) ≤ 1 (42)

· P2
P r(Ω) = 1 (43)

· P3 Se A1 , A2 , ..., Ak são conjuntos disjuntos44 , então

P r(A1 ∪ A2 ∪ . . . ∪ Ak ) = P r(A1 ) + P r(A2 ) + . . . + P r(Ak ) (44)

Propriedades secundárias

Das propriedades fundamentais resultam outras, apresentadas sem demonstração:

· P4
P r(A) = 1 − P r(Ac ) (45)

· P5
P r(∅) = 0 (46)

· P6
P r(A ∪ B) = P r(A) + P r(B) − P r(A ∩ B) (47)

· P7
c
P r([A ∪ B] ) = P r(Ac ∩ B c ) (48)

· P8
c
P r([A ∩ B] ) = P r(Ac ∪ B c ) (49)

EXERCÍCIOS
1. Demonstre as propriedades P4 a P8.

44 Seção 3.1.5.

Page 53
DRAFT VERSION
3.2.6 Probabilidade Condicional
Probabilidade condicional é a probabilidade do evento A após observada a ocorrência de um evento
B. A probabilidade de A dado B é

P r(A ∩ B)
P r(A|B) = , P r(B) 6= 0 (50)
P r(B)
Analogamente
P r(A ∩ B)
P r(B|A) = , P r(A) 6= 0
P r(A)
Exemplo 3.19. (Probabilidade condicional) Um dado equilibrado é lançado, e deseja-se observar o evento
A: ‘face 2’. A pessoa que lançou o dado também dá uma informação B: ‘a face é par’. Assim,
1
P r(B) = ,
2
1
P r(A ∩ B) = ,
6
1/6 1
P r(A|B) = = ,
1/2 3
1 2
P r(Ac |B) = 1 − = .
3 3
,
As propriedades acima resultam na regra do produto, ou a probabilidade do evento intersecção:

P r(A ∩ B) = P r(A) · P r(B|A) = P r(B) · P r(A|B) (51)

De forma generalizada,

P r(A1 ∩A2 ∩. . .∩Ak ) = P r(A1 )P r(A2 |A1 )P r(A2 |A1 ∩A2 ) . . . P r(Ak |A1 ∩A2 ∩. . .∩Ak−1 ) = P r(B)·P r(A|B)
(52)
Quando ocorre
P r(A) · P r(B)
P r(A|B) = = P r(A) (53)
P r(B)
é dito que A e B são independentes (A ⊥⊥ B), uma vez que a observação de B não altera a opinião
sobre A. Os eventos são independentes dois a dois se A ⊥ ⊥ B c , Ac ⊥
⊥ B, então A ⊥ ⊥ B e Ac ⊥⊥ B c . As
propriedades de probabilidade continuam valendo, permitindo que façamos

P r(A|B) = 1 − P r(Ac |B) (54)


e
P r(A ∩ B|C)
= P r(A|B ∩ C) (55)
P r(B|C)

EXERCÍCIOS
2. Refaça o Exemplo 3.19 considerando a informação C: ‘a face é ı́mpar’. Calcule:

a) P r(C)
b) P r(A ∩ C)
c) P r(A | C)
d) P r(Ac | C)

Page 54
DRAFT VERSION

Figura 3.2: Partição de tamanho k = 5.

3.2.7 Teorema da Probabilidade Total e o Teorema de Bayes


Considere uma partição conforme digrama de Venn da Figura P5 3.2.
A1 , . . . , A5 formam uma distribuição de probabilidade, i.e., i=1 P r(Ai ) = 1. Pela Figura 3.2,
B = ∪5i=1 (Ai ∩ B) (56)
Teorema 3.1. (Teorema da Probabilidade Total) Seja uma sequência enumerável de eventos aleatórios
A1 , A2 , . . . , Ak , formando uma partição de Ω. Como as intersecções Ai ∩ B são mutuamente excludentes,
então de (44)
k
X
P r(B) = P r(Ai ∩ B) (57)
i=1

Aplicando (51), podemos escrever


X
P r(B) = P r(Ai ) · P r(B|Ai ) (58)
i
a
De (50) pode-se calcular a probabilidade de Ai dada a ocorrência de B por

P r(Ai ∩ B)
P r(Ai |B) = (59)
P r(B)
Aplicando (57) e (51),
P r(Ai ) · P r(B|Ai )
P r(Ai |B) = P (60)
j P r(Aj ) · P r(B|Aj )

Este é o Teorema de Bayes, útil quando conhecemos as probabilidades condicionais de B dado Ai , mas
não diretamente a probabilidade de B. Conhecida também como Regra de Bayes ou ainda a probabilidade
da causa dada a consequência.
Exemplo 3.20. (Teorema de Bayes) Suponha uma caixa com três moedas, duas honestas45 e uma com
duas faces cara. A probabilidade condicional de a moeda sorteada ter sido aquela com duas caras pode
ser calculada. Para isso pode-se definir A1 : ‘a moeda retirada é honesta’, A2 : ‘a moeda retirada tem
duas caras’ e B : ‘o resultado final é cara’ e aplicar a regra de Bayes, resultando em
1
P r(A2 ) · P r(B|A2 ) 3 ×1 1
P r(A2 |B) = = 2 1 1 = .
P r(A1 ) · P r(B|A1 ) + P r(A2 ) · P r(B|A2 ) 3 × 2 + 3 ×1 2
,

3.3 Variáveis Aleatórias Discretas


Uma variável aleatória (v.a.) é uma transformação (função) de Ω em Rn . Isto significa que os
resultados dos experimentos aleatórios serão transformados em números. Suponha uma variável aleatória
X. RX é o conjunto de todos os possı́veis valores de X, denominado contradomı́nio. Ele pode ser
considerado um espaço amostral numérico obtido a partir de Ω. Uma variável aleatória discreta é aquela
cujo conjunto RX é finito ou infinito enumerável.
45 Termo técnico indicando que cada moeda possui uma face cara e outra face coroa, ambas com probabilidade 1
2
de
ocorrência.

Page 55
DRAFT VERSION
Exemplo 3.21. (Variável aleatória discreta) Suponha o lançamento de dois dados. O espaço amostral
deste experimento aleatório é Ω = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (6, 6)}, e |Ω| = 36. Suponha
que haja interesse na variável aleatória ‘soma dos pontos’, denotada por X. O conjunto dos possı́veis
valores de X é RX = {2, 3, . . . , 12} e |RX | = 11.
,
Seja X uma variável aleatória discreta, onde para cada ponto de RX associa-se uma (função de)
probabilidade ou distribuição de probabilidade p(xi ) = P r(X = xi ), satisfazendo p(xi ) ≥ 0 para todo i e
P|RX |
i=1 p(xi ) = 1.

Exemplo 3.22. (Probabilidade com v.a. discreta) Suponha dois lançamentos consecutivos de uma moeda
equilibrada. O espaço amostral é Ω = {HH, HT, T H, T T }, onde H representa resultado ‘cara’ e T
‘coroa’. Se estivermos interessados na variável aleatória X: ‘número de caras’, o conjunto de interesse
passa a ser RX = {0, 1, 2}, onde o elemento 0 do conjunto RX equivale ao evento {T T }, 1 ao evento
{T H, HT } e 2 a {HH}. As probabilidades, por sua vez, são
1 1 1
× = ,
p(0) = P r(X = 0) = P r({T T }) =
2 2 4
   
1 1 1 1 2 1
p(1) = P r(X = 1) = P r({T H, HT }) = × + × = = ,
2 2 2 2 4 2
1 1 1
p(2) = P r(X = 2) = P r({HH}) = × = .
2 2 4
1 2 1
Note que P r(X = 0) + P r(X = 1) + P r(X = 2) = + + = 1.
4 4 4
,

EXERCÍCIOS
1. Do Exemplo 3.21, obtenha p(x), x ∈ 2, 3, . . . , 12.

2. Refaça o Exemplo 3.22 para três lançamentos.

3.3.1 Esperança e Variância


Esperança

A esperança 46 de uma variável aleatória discreta X é dada por


X
E [X] = x · p(x). (61)
x

A esperança de uma função g(X) é dada por


X
E [g(X)] = g(x) · p(x). (62)
x

Exemplo 3.23. (Esperança de v.a. discretas X e X 2 ) Do Exemplo 3.22 pode-se calcular


1 2 1
E(X) = 0 × + 1 × + 2 × = 1.
4 4 4
Este resultado era esperado dada a simetria47 . A esperança de g(X) = X 2 é dada por
1 2 1 3
E(X 2 ) = 02 × + 12 × + 22 × = = 1.5.
4 4 4 2
,
46 Esta é uma noção genérica da média aritmética simples, descrita na Seção 2.3.2.
47 A distribuição é simétrica em torno de zero se P r(X ≥ x) = P r(X ≤ −x), x ∈ R.

Page 56
DRAFT VERSION
Variância

A variância 48 de uma variável aleatória discreta X é dada por


2 2
V (X) = E([X − E(X)] ) = E(X 2 ) − [E(X)] . (63)
O desvio padrão de uma variável aleatória discreta X é dado por
p
D(X) = V (X). (64)
Exemplo 3.24. (Variância e desvio padrão de uma v.a. discreta) Do Exemplo 3.23 pode-se calcular
3 1
V (X) = − 12 = = 0.5
2 2
e

D(X) = 0.5 ≈ 0.7071.
,

3.3.2 Distribuições de probabilidade especiais


Uma distribuição de probabilidade é uma função que descreve probabilidades. Considerando a abor-
dagem de de Finetti (1974), página 222, uma (funcão) distribuição (acumulada) F (x) éP crescente de 0
(quando x → −∞) a 1 (quando x → +∞). Uma distribuição R com massas concentradas ( x p(x) = 1) é
discreta. Uma distribuição sem massas concentradas ( x f (x)dx = 1) é contı́nua.
Algumas formas especiais são generalizações de certos tipos de problema, levando a soluções pa-
dronizadas. Uma vez identificada a classe do problema, informações chamadas parâmetros tornam a
distribuição de probabilidade completamente definida.

Exemplo 3.25. (Parâmetros) Na Equação (41) (pg. 52) está apresentada uma distribuição de probabili-
dade bastante simples. Basta saber os parâmetros ‘número de casos favoráveis para A’ e ‘número total
de casos’ para calcular as probabilidades de interesse, conforme ilustrado no Exemplo 3.18.
,

48 Esta é a definição de variância universal, descrita na Seção 2.4.2.

Page 57
DRAFT VERSION
3.3.3 Distribuição Binomial · B(n, p)
Considere um único lançamento de uma moeda que resulta em cara (H) ou coroa (T ). Seja P r({H}) =
p e P r({T }) = 1 − p. Este é um experimento ou ensaio de Bernoulli. Suponha agora n lançamentos
independentes da mesma moeda. Este é um experimento binomial. Seja X o número de faces cara
resultantes nos n lançamentos independentes. X é uma variável aleatória (com distribuição) (de pro-
babilidades) binomial de parâmetros n e p, denotado por X ∼ B(n, p). A distribuição binomial é dada
por  
n x
p(x) = P r(X = x) = p (1 − p)n−x , (65)
x
onde n ∈ N, p ∈ [0, 1], x ∈ {0, . . . , n} e
   
n n n!
= = Cnx = (66)
x n−x x! (n − x)!
A esperança e variância são dadas por
E(X) = np (67)
V (X) = np(1 − p) (68)
Exemplo 3.26. (Binomial) Suponha n = 12 lançamentos de uma moeda com p = 0.7. Assim,
X ∼ B(12, 0.7),
 
12
p(x) = P r(X = x) = 0.7x 0.312−x ,
x
E(X) = 12 × 0.7 = 8.4,
V (X) = 12 × 0.7 × 0.3 = 2.52.,

> barplot(dbinom(0:12, 12, 0.7), main = 'B(12,0.7)', names.arg = 0:12)

B(12,0.7)
0.20
0.15
0.10
0.05
0.00

0 1 2 3 4 5 6 7 8 9 10 11 12

Page 58
DRAFT VERSION
3.3.4 Distribuição Binomial Negativa · BN (k, p)
Considere novamente o lançamento de uma moeda que resulta em cara (H, sucesso) ou coroa (T ,
fracasso) onde P r({H}) = p e P r({T }) = 1 − p. Seja X o número de lançamentos (ensaios de Bernoulli)
realizados até atingir a k-ésima cara (k-ésimo sucesso). X é uma variável aleatória (com distribuição)
(de probabilidades) binomial negativa de parâmetros k e p, denotada por X ∼ BN (k, p), onde
k ∈ {1, 2, . . .}, 0 ≤ p ≤ 1, x ∈ {k, k + 1, . . .}
e definida por  
x−1 k
p(x) = P r(X = x) = p (1 − p)x−k , (69)
k−1
onde  
x−1 x−1 (x − 1)!
= Ck−1 = (70)
k−1 (k − 1)!(x − k)!
A esperança e variância são dadas por
E(X) = k/p (71)
V (X) = k(1 − p)/p2 . (72)
Exemplo 3.27. (Binomial negativa) Uma moeda com p = 0.7 é lançada até a obtenção de k = 4 caras.
X ∼ BN (4, 0.7),
 
x−1
p(x) = P r(X = x) = 0.74 0.3x−4 ,
3
E(X) = 4/0.7 = 40/7 ≈ 5.714286,
V (X) = 4 × (1 − 0.7)/0.72 = 20/49 ≈ 2.44898.,

> barplot(dnbinom(0:10, 4, 0.7), main = 'BN(4,0.7)', names.arg = 4:14)

BN(4,0.7)
0.25
0.20
0.15
0.10
0.05
0.00

4 5 6 7 8 9 10 11 12 13 14

Page 59
DRAFT VERSION
3.3.5 Distribuição Poisson · P(λ)
Poisson (1837) abordou a distribuição que leva seu nome considerando o limite de uma sequência de
distribuições binominais conforme Equação (65), no qual n tende ao infinito e p tende a zero enquanto
np permanece finito igual a λ.
Considere um pedágio onde passam em média λ veı́culos por minuto. A v.a. discreta X: ‘número de
veı́culos por minuto’ tem distribuição Poisson de parâmetro λ, denotada por X ∼ P(λ), onde λ > 0 e
x ∈ {0, 1, 2, . . .}. A distribuição de Poisson é dada por
e−λ λx
p(x) = P r(X = x) = (73)
x!
onde o número de Euler 49 tem valor aproximado e ≈ 2.71828182845905. A esperança e variância são
dadas por
E(X) = λ (74)

V (X) = λ (75)
Exemplo 3.28. (Poisson) Considere um pedágio onde passam em média λ = 2 veı́culos por minuto.
Assim,
X ∼ P(2),
e−2 2x
p(x) = P r(X = x) = ,
x!
E(X) = 2,
V (X) = 2.,

> barplot(dpois(0:10, 2), main = 'P(2)', names.arg = 0:10)

P(2)
0.25
0.20
0.15
0.10
0.05
0.00

0 1 2 3 4 5 6 7 8 9 10

49 Na literatura também pode ser conhecido como número de Napier, constante neperiana, entre outras formas.

Page 60
DRAFT VERSION
3.3.6 Distribuição Hipergeométrica · H(N, R, n)
Suponha uma urna com N bolinhas das quais R são marcadas com um ×, de onde retira-se uma
amostra de n bolinhas. Seja X o número de bolinhas marcadas com × das n sorteadas. X tem distribuição
hipergeométrica, denotada por
X ∼ H(N, R, n)
onde N ∈ {1, 2, . . .}, R ∈ {1, 2, . . . , N }, n ∈ {1, 2, . . . , N }. Sua função (massa) de probabilidade é
definida por
R N −R
 
x n−x
p(x) = P r(X = x) = N
 (76)
n
A esperança e variância são dadas por
R
E(X) = n (77)
N

R N −RN −n
V (X) = n (78)
N N N −1
Exemplo 3.29. (Hipergeométrica) Suponha uma urna com N = 15 bolinhas, R = 10 marcadas com um
× de onde se retira uma amostra de n = 7 bolinhas.

> barplot(dhyper(0:7, 10, 5, 7), main = 'H(15,10,7)', names.arg = 0:7)

H(15,10,7)
0.3
0.2
0.1
0.0

0 1 2 3 4 5 6 7

Page 61
DRAFT VERSION
3.4 Variáveis Aleatórias Contı́nuas
Uma variável aleatória é dita contı́nua quando assume qualquer valor em um intervalo ou coleção de
intervalos.

Exemplo 3.30. (Variável aleatória contı́nua) Do Exemplo 2.10 (pg. 12), Ω = {t ∈ R : 0 < t ≤ T }. Supo-
nha que esteja-se interessado em avaliar T : ‘idade de adultos entre 18 e 35 anos’. Pode-se representar
RT = {t ∈ R : 18 ≤ t ≤ 35}, sendo T uma variável aleatória contı́nua visto que |RT | = +∞.
,
Seja X uma variável aleatória contı́nua. Como não é possı́vel listar todos os elementos de RX , a
notação p(xi ) perde o sentido, visto que p(xi ) é zero para todo i. Assim, para tratar do cálculo de
probabilidades com variáveis aleatórias contı́nuas, será utilizado f (x) no lugar de p(xi ). Assim, para
cada ponto de RX associa-se uma (função) densidade (de probabilidade) (fdp) f (x), satisfazendo

f (x) ≥ 0, ∀ x (79)
Z
f (x) dx = 1 (80)
x
Z b
P r(a ≤ X ≤ b) = f (x) dx (81)
a

A fda, (função de) distribuição (acumulada) F de uma v.a. contı́nua, é definida como
Z x
F (x) = P r(X ≤ x) = f (t) dt (82)
−∞

Note que f (x) = F 0 (x), P r(X = x) = 0 e P r(X ≤ x) = P r(X < x).


Exemplo 3.31. (fda) Suponha a v.a. X: ‘altura de pessoas da PUCRS’ com fdp
46875 2
f (x) = − (x − 3.36x + 2.36), x ∈ [1.00, 2.36] .
19652
Por (82), a função distribuição acumulada de X é

F (x) = P r(X ≤ x)
46875 x 2
Z
= − (t − 3.36t + 2.36) dt
19652 1
 x
46875 t3 3.36t2

= − − + 2.36t
19652 3 2 1
 3   3 
46875 x 2 1
= − − 1.68x + 2.36x − − 1.68 × 12 + 2.36 × 1
19652 3 3
 3 
46875 x 76
F (x) = − − 1.68x2 + 2.36x −
19652 3 75

,
Exemplo 3.32. (Probabilidade com v.a. contı́nua) Suponha novamente a v.a. do Exemplo 3.31. Aplicando
(81),
Z 1.72
46875
P r(1.45 ≤ X ≤ 1.72) = − (x2 −3.36x+2.36) dx = F (1.72)−F (1.45) ≈ 0.5441−0.2560 = 0.2881.
19652 1.45

Page 62
DRAFT VERSION

EXERCÍCIOS
1. Que propriedade está sendo verificada no código abaixo? O que ela indica?

> f <- function(x) (-46875/19652)*(x^2-3.36*x+2.36)


> integrate(f,1,2.36)

1 with absolute error < 1.1e-14

2. Escreva uma função em R que represente F (x) no Exemplo 3.31.

3.4.1 Esperança e Variância


Esperança

A esperança de uma variável aleatória contı́nua X é dada por


Z
E(X) = x · f (x) dx (83)
x

A esperança de uma função g(X) é dada por


Z
E(g(X)) = g(x) · f (x) dx (84)
x

Exemplo 3.33. (Esperança de v.a. contı́nuas X e X 2 ) Do Exemplo 3.32 pode-se calcular


Z 2.36
46875
E(X) = − x (x2 − 3.36x + 2.36) dx = 1.68.
19652 1.00

Este resultado era esperado dada a simetria da distribuição (parabólica). Note que (1.00+2.36)/2 = 1.68.
A esperança de g(X) = X 2 é dada por
Z 2.36
46875
E(X 2 ) = − x2 (x2 − 3.36x + 2.36) dx = 2.91488.
19652 1.00

Variância

A variância 50 de uma variável aleatória contı́nua X é dada por


2 2
V (X) = E([X − E(X)] ) = E(X 2 ) − [E(X)] .

O desvio padrão de uma variável aleatória discreta X é dado por


p
D(X) = V (X).

Exemplo 3.34. (Variância e desvio padrão de uma v.a. contı́nua) Do Exemplo 3.33 pode-se calcular

V (X) = 2.91488 − 1.682 = 0.09248

e

D(X) = 0.09248 ≈ 0.30411.
,
50 Esta é a definição de variância universal, descrita na Seção 2.4.2.

Page 63
DRAFT VERSION
3.4.2 Distribuição Uniforme · U(a, b)
A distribuição uniforme no intervalo [a, b] tem sua (função) densidade (de probabilidade) definida
por
1
f (x) = (85)
b−a
Função distribuição acumulada
x−a
F (x) = P r(X < x) = (86)
b−a
Esperança
a+b
E(X) = (87)
2
Variância
(b − a)2
V (X) = (88)
12

EXERCÍCIOS
3. Demonstre as Equações (86) a (88) considerando as identidades (89) e (90).

a2 − b2 = (a − b)(a + b) (89)

a3 − b3 = (a − b)(a2 + ab + b2 ) (90)

3.4.3 Distribuição Normal · N (µ, σ 2 )


A distribuição normal ou gaussiana 51 é uma distribuição probabilı́stica que modela variáveis ale-
atórias contı́nuas e aproximações de variáveis aleatórias discretas52 . É especificada ao definirem-se os
parâmetros média e variância. Não existe padrão na literatura quanto à notação, portanto neste material
será adotada a simbologia X ∼ N (µ, σ 2 ), indicando que a variável aleatória X possui (ou é aproximada
pela) distribuição normal com média µ e variância σ 2 .53 Sua função densidade é dada por
1 1 x−µ 2
f (x|µ, σ) = √ e− 2 ( σ ) . (91)
2πσ
A normal é uma curva simétrica em forma de sino centrada na média, conferindo alta probabilidade
de ocorrência de resultados em torno da média e baixa probabilidade nas caudas. A área sob a curva é
calculada a partir da Equação (91) e indica a probabilidade associada a certo intervalo de X. As áreas
são medidas em função de unidades de desvio padrão em relação à média, conforme Figura 3.3.
A distribuição normal padrão é um caso especial da distribuição normal, na qual a média é zero e a
variância é 1, indicado por Z ∼ N (0, 1). Esta distribuição é tabelada54 , e sua densidade é dada por
1 1 2
f (z|0, 1) = φ(z) = √ e− 2 z (92)

Sua função distribuição (acumulada) é representada por
Z z
1 1 2
F (z|0, 1) = Φ(z) = P r(Z < z) = √ e− 2 t dt (93)
−∞ 2π
51 Em homenagem ao seu criador, o matemático e fı́sico alemão Carl Friedrich Gauss.
52 O Teorema Central do Limite é o resultado teórico que permite o uso da normal em diversos casos práticos, apresentado
na Seção 3.4.4. Para maiores detalhes sugere-se James (2010) e Feller (1968).
53 Note que serão indicadas sempre média e variância, e não média e desvio padrão. Assim, X ∼ N (14, 4) equivale a

X ∼ N (14, 22 ), e indica que a v.a. X tem média 14 e variância 4 (ou desvio padrão 2).
54 Página 132.

Page 64
DRAFT VERSION
68.3%

95.4%

99.7%

−3 −2 −1 0 1 2 3
Desvio padrão

Figura 3.3: Probabilidades em função do desvio padrão em relação à média

Exemplo 3.35. (Probabilidades em uma normal padrão) Suponha Z ∼ N (0, 1). Utilizando-se a tabela de
normal padrão da página 132, podem-se calcular algumas probabilidades relativas à Z, tais como

P r(Z < 1) = Φ(1) = P r(Z ≤ 1.00) ≈ 0.8413 = 84.13%,

P r(Z > 1) = P r(Z ≥ 1.00) = 1 − P r(Z ≤ 1.00) = 1 − 0.8413 ≈ 0.1587 = 15.87%,


P r(Z = 1.00) = 0,
P r(Z < 0.00) = Φ(0) = 0.5000 = 50%,
P r(−1.92 < Z < 0.33) = P r(Z < 0.33) − P r(Z < −1.92) = 0.6293 − 0.0274 ≈ 0.6019 = 60.19%.

> pnorm(1, mean = 0, sd = 1)

[1] 0.8413447

> 1-pnorm(1)

[1] 0.1586553

> pnorm(1, lower.tail = F)

[1] 0.1586553

> pnorm(0)

[1] 0.5

> pnorm(0.33)-pnorm(-1.92)

[1] 0.6018711

,
Estas probabilidades foram calculadas utilizando a tabela de normal padrão da página 132. Basta
procurar o quantil55 de interesse, por exemplo −1.92, na linha −1.9 coluna 2, onde encontra-se a proba-
bilidade associada 0.0274, i.e., a probabilidade de Z ser menor que −1.92.
Exemplo 3.36. (Quantis em uma normal padrão) Sabendo que Z ∼ N (0, 1), é possı́vel encontrar z
sabendo-se a probabilidade associada.

P r(Z < z) = 0.8413 ⇒ z ≈ 1.00,


55 Nome técnico para os valores de z apresentados nos Exemplos 3.35 e 3.36.

Page 65
DRAFT VERSION
P r(Z < z) = 0.1587 ⇒ z ≈ −1.00,
P r(Z < z) = 0.5000 ⇒ z = 0.00,
P r(Z < z) = 0.0274 ⇒ z ≈ −1.92,
P r(−z < Z < z) = 0.9500 ⇒ z ≈ 1.96.

> qnorm(0.8413)

[1] 0.9998151

> qnorm(0.1587)

[1] -0.9998151

> qnorm(.5)

[1] 0

> qnorm(0.0274)

[1] -1.920459

> qnorm(0.025)

[1] -1.959964

> qnorm(0.975)

[1] 1.959964

Padronização / Normalização

Para encontrar os valores de z do Exemplo 3.36, deve-se consultar a tabela de normal padrão de dentro
para fora, i.e., procurar o valor mais próximo da probabilidade fornecida (e.g. 0.0274) dentro da tabela
e seguir para as bordas, onde na linha estão os valores do inteiro (−1) e da primeira decimal (9), e na
coluna o valor da segunda decimal (2), resultando no quantil z = −1.92.
Uma boa notı́cia é que pode-se recorrer à tabela de normal padrão para calcular probabilidades em
uma normal com qualquer média ou variância. A única relação a ser utilizada é
x−µ
z= ⇔ x = µ + zσ (94)
σ
apresentada no exemplo a seguir.
Exemplo 3.37. (Probabilidades em uma normal qualquer) Suponha que a variável aleatória X: ‘altura
das pessoas da PUCRS’ tenha distribuição normal com média 1.68m e desvio padrão 0.12m. Assim,
X ∼ N (1.68, 0.12). Podem-se calcular algumas probabilidades, tais como
 
X −µ 1.80 − 1.68
P r(X < 1.80) = P r < = P r(Z < 1.00) ≈ 0.8413 = 84.13%,
σ 0.12
 
1.80 − 1.68
P r(X > 1.80) = 1 − P r Z < = 1 − P r(Z < 1.00) = 1 − 0.8413 ≈ 0.1587 = 15.87%,
0.12
P r(X = 1.68) = P r(Z = 0.00) = P r(Y = y) = P r(Ξ = ξ) = 0,
 
1.68 − 1.68
P r(X < 1.68) = P r Z < = P r(Z < 0.00) = 0.5000 = 50%,
0.12
 
1.45 − 1.68 1.72 − 1.68
P r(1.45 < X < 1.72) = P r <Z< = P r(Z < 0.33)−P r(Z < −1.92) ≈ 0.6029.
0.12 0.12

Page 66
DRAFT VERSION
> mu <- 1.68
> sigma <- 0.12
> pnorm(1.8, mean = mu, sd = sigma)

[1] 0.8413447

> 1-pnorm(1.8, mu, sigma)

[1] 0.1586553

> pnorm(1.8, mu, sigma, lower.tail = F)

[1] 0.1586553

> pnorm(1.68, mu, sigma)

[1] 0.5

> pnorm(0, mu, sigma)

[1] 7.793537e-45

> pnorm(1.72)-pnorm(1.45)

[1] 0.03081304

3.4.4 Teorema Central do Limite


O Teorema Central do Limite (TCL) é um dos principais resultados da Probabilidade. Ele mostra que,
sob certas condições razoavelmente alcançadas na prática, a soma ou média de uma sequência de variáveis
aleatórias independentes e identicamente distribuı́das (iid )56 têm distribuição aproximadamente normal.
Este resultado facilita a resolução de problemas, uma vez que a normal é tabulada em praticamente todos
os textos que envolvam Estatı́stica.
Teorema 3.2. (Teorema Central do Limite de Lindeberg-Lévy) Seja X1 , X2 , . . . , Xn uma sequência de
variáveis aleatórias iid com E(Xi ) = µ e V (Xi ) = σ 2 . Considerando S = X1 + X2 + . . . + Xn , M = S/n
e se n −→ ∞, então
S − nµ M −µ D
Z= √ = √ −→ N (0, 1). (95)
σ n σ/ n
a
A correção de continuidade ocorre quando soma-se 0.5 no numerador de (95). James (2010) sugere
o uso da expressão ‘Teorema Central do Limite’ no lugar de ‘Teorema do Limite Central’, pois central
é o teorema, não o limite. A origem da expressão é atribuı́da a Pólya, ao se referir a ‘der zentrale
Grenzwertsatz ’, i.e., o ‘central’ refere-se ao ‘teorema do limite’.
Exemplo 3.38. (Aproximação da binomial pela normal) Se considerarmos n = 420 lançamentos de uma
moeda com p = 0.5, temos uma B(420, 0.5). A probabilidade de obtermos até 200 caras pode ser aproxi-
mada pelo pelo TCL.
 
200 − 420 × 0.5
P r(X ≤ 200) ≈ P r Z < √ = Φ(−0.9759) ≈ 0.164557
420 × 0.5 × 0.5
Utilizando a correção de continuidade,
 
200 + 0.5 − 420 × 0.5
P r(X ≤ 200) ≈ P r Z < √ = Φ(−0.9271) ≈ 0.176936
420 × 0.5 × 0.5
56 Variáveis que apresentam mesma distribuição de probabilidade, inclusive com os mesmos parâmetros. Por exemplo,

imagine 12 lançamentos de uma moeda com p = 0.7 e 1 − p = 0.3. Cada lançamento é um ensaio de Bernoulli com
probabilidade de sucesso e fracasso iguais a 0.7 e 0.3, respectivamente.

Page 67
DRAFT VERSION
Com um computador é possı́vel calcular a probabilidade exata, perceba a proximidade dos resultados.
     
420 420 420
P r(X ≤ 200) = + + ... + 0.5420 = 0.1769429
0 1 200

> n <- 420


> p <- 0.5
> S <- 200
> mS <- n*p # 210
> sS <- sqrt(n*p*(1-p)) # 10.24695
> # Aproximaç~
ao da binomial pela normal SEM correç~
ao de continuidade
> (z <- (S-mS)/sS)

[1] -0.9759001

> pnorm(z)

[1] 0.164557

> # Aproximaç~
ao da binomial pela normal COM correç~
ao de continuidade
> (zc <- (S+0.5-mS)/sS)

[1] -0.9271051

> pnorm(zc)

[1] 0.176936

> # Probabilidade exata


> pbinom(S,n,p)

[1] 0.1769429

EXERCÍCIOS

4. Refaça o Exemplo 3.38 com p = 0.7.

5. Escreva uma função que apresente os resultados do Exemplo 3.38 em função dos parâmetros n, p e S.

Page 68
DRAFT VERSION
3.4.5 Distribuição Qui-quadrado · χ2 (ν)
A distribuição qui-quadrado, representada por χ2 é uma distribuição cuja obtenção foi motivada em
problemas envolvendo tabelas de frequência. Se X1 , X2 , . . . , Xν , com Xi ∼ N (0, 1) ∀ i ∈ {1, 2, . . . , ν},
então

Xi2 ∼ χ2ν (96)
i=1

onde ν representa o parâmetro dos graus de liberdade57 . A distribuição qui-quadrado é tabelada, exibindo
as probabilidades mais utilizadas na prática para diversos graus de liberdade. A Figura 3.4 apresenta os
nomogramas para a distribuição qui-quadrado sugeridos por Boyd (1965) e Smith (1972).

(a) Nomograma de Boyd (1965) (b) Nomograma de Smith (1972)

Figura 3.4: Nomogramas da distribuição χ2

57 Os graus de liberdade estão sendo tratados de forma discreta, mas podem ser utilizados de maneira contı́nua.

Page 69
DRAFT VERSION
3.4.6 Distribuição t (de Student) · t(ν)
t ou tν é a distribuição de probabilidades da estatı́stica
Z
T =p (97)
χ2 /ν

onde Z é uma normal padrão e χ2 é uma qui-quadrado com ν graus de liberdade. O parâmetro ν indica
o número de valores que podem variar no cálculo de uma estatı́stica.

Exemplo 3.39. (Graus de liberdade) Suponha uma disciplina em que haja três provas valendo entre 0 e
10 pontos, todas de mesmo peso. A condição de aprovação é que a média seja igual ou superior a 7,
i.e., P1 + P2 + P3 ≥ 21. Se um aluno tem P1 = 5 e P2 = 7, ele obrigatoriamente deve obter pelo menos
21 − (5 + 7) = 9 pontos na P3 para conseguir a aprovação. Este é um problema com 3 − 1 = 2 graus de
liberdade.
,

Momentinho Cultural 3.1. (t de Lüroth) A distribuição t foi obtida por dois estatı́sticos em momentos
diferentes, movidos por problemas distintos. Lüroth derivou a distribuição t em um trabalho de 1876,
conectando a teoria clássica de erros com um resultado bayesiano58 . Já ‘Student’ (pseudônimo de William
Gosset) encontrou uma relação equivalente à de Lüroth enquanto estudava estimativas para a média
populacional em 1908. Atribui-se o desconhecimento de Gosset ao fato de o primeiro trabalho ter sido
publicado em uma revista de Astronomia. Até hoje a distribuição é conhecida popularmente como ‘t de
Student’.
ˇ “(
Tabela t
A tabela t exibe as probabilidades mais utilizadas na prática (.10 = 10%, .05 = 5%, .025 = 2.5% e
.01 = 1%) para diversos graus de liberdade. À medida que ν → ∞, verifica-se que t(ν) converge para
N (0, 1).

(a) Exemplo de tabela t (b) Gráfico de t

Figura 3.5: Uma tabela t

Exemplo 3.40. (Usando a tabela t) Da Figura 3.5a, P r(T > 2.353) = 0.05 para ν = 3. Porém, quando é
necessário avaliar uma probabilidade para valores não tabelados, pode-se encontrar intervalos tais como
0.025 < P r(T > 2.917) < 0.05 para ν = 3.
,
Nomogramas são estruturas gráficas que permitem rapidamente medir intervalos de probabilidades e
quantis da distribuição. Foram criados para fornecer resultados com precisão suficiente para decisões em
problemas aplicados. O princı́pio é bastante simples, bastando traçar uma linha conectando os valores
disponı́veis. Os demais valores ficam claros ao traçar a linha. Na Figura 3.6b há uma t com ν = 7 e
quantil t7 = 4, resultando em 0.1% < P r(T > 4) < 0.5% e P r(−4 < T < 4) = 99.5%. Experimente
resolver os exercı́cios deste livro através dos nomogramas, e encontre o que você melhor se adapta.

58 Pfanzagl and Sheynin (1996).

Page 70
DRAFT VERSION

(a) Nomograma de James-Levy (1956) (b) Nomograma de Stammberger (1967)

Figura 3.6: Nomogramas da distribuição t

3.4.7 Distribuição F (de Fisher-Snedecor) · F(ν1 , ν2 )


A distribuição F (de Fisher-Snedecor) é a distribuição da estatı́stica

χ21 /ν1
F = (98)
χ22 /ν2

onde χ21 é uma distribuição qui-quadrado com ν1 graus de liberdade e χ22 é uma distribuição qui-quadrado
com ν2 graus de liberdade. Está tabelada nas páginas 136 a 139.

3.4.8 Distribuição Exponencial · E(λ)


Considere novamente o pedágio descrito na Seção 3.3.6, onde passam em média λ veı́culos por minuto.
Pode-se inverter a leitura, colocando o tempo entre cada carro como a nova variável de interesse. Assim,
neste pedágio passa 1 carro a cada λ1 minutos. A variável aleatória contı́nua X: ‘tempo entre veı́culos’
tem distribuição exponencial de parâmetro λ, denotada por

X ∼ E(λ),

onde λ > 0 e x > 0. A função densidade exponencial é dada por

f (x) = λe−λx (99)

onde e é o número de Euler 59 de valor aproximado e ≈ 2.71828182845905. A função distribuição acumu-


lada é dada por
F (x) = P r(X ≤ x) = 1 − e−λx (100)
A esperança e variância são dadas por
1
E(X) = = λ−1 (101)
λ
1
V (X) = 2 = λ−2 (102)
λ
59 Na literatura também pode ser conhecido como número de Napier, constante neperiana, entre outras formas.

Page 71
DRAFT VERSION
Exemplo 3.41. (Exponencial) Considere um pedágio onde passam em média λ = 2 veı́culos por minuto.
Assim,
X ∼ E(2),
f (x) = 2e−2x ,
1
E(X) = = 0.5,
2
1
V (X) = 2 = 0.25,
2

D(X) = 0.25 = 0.5.
,

EXERCÍCIOS EXTRAS
1. Considere o experimento aleatório “observar o gênero de uma ninhada de cachorros com 3 filhotes”. Descreva o
espaço amostral.

2. Uma Universidade tem 10 mil alunos, dos quais 4 mil são considerados esportistas. Temos, ainda, que 500 alunos são
do curso de biologia diurno, 700 são da biologia noturno, 100 são esportistas e da biologia diurno, 200 são esportistas
e da biologia noturno. Um aluno é escolhido ao acaso. Calcule a probabilidade de este aluno:

a) Ser esportista.
b) Ser esportista e aluno da biologia noturno.
c) Não ser da biologia.
d) Ser esportista ou aluno da biologia.
e) Não ser esportista nem aluno da biologia.

3. Foi feito um levantamento e constatou-se que das um milhão e quatrocentas mil pessoas de Porto Alegre, 150 mil
leem Zero Hora (ZH), 120 mil leem Correio do Povo (CP) e 20 mil leem Zero Hora e Correio do Povo.

a) Se escolhermos uma pessoa ao acaso, qual a probabilidade de ela ler Zero Hora?
b) Se escolhermos uma pessoa ao acaso, qual a probabilidade de ela ler Zero Hora ou Correio do Povo?
c) Qual a probabilidade de uma pessoa não ler qualquer destes jornais?

4. Uma floricultura possui 120 arranjos de flores sempre em exposição. Destes arranjos, 30 possuem lı́rios, 50 possuem
rosas, e 40 possuem gérberas. 8 arranjos de flores são feitos com lı́rios e rosas, 10 têm lı́rios e gérberas, 15 gérberas e
rosas. 3 arranjos possuem os três tipos de flores. Você não sabia o que comprar de aniversário para sua mãe, então
decidiu entrar na floricultura e escolher ao acaso qualquer um destes arranjos.

a) Qual a probabilidade de você escolher um arranjo apenas com lı́rios?


b) Qual a probabilidade de o arranjo escolhido ter apenas um tipo de flor?
c) Qual a probabilidade deste arranjo possuir exatamente dois tipos de flores?

Dica: monte o Diagrama de Venn da maior para a menor intersecção (de dentro para fora).

5. Foi feito um levantamento sobre os usuários de cartão de crédito no Brasil, e concluiu-se que 55% utiliza a bandeira
Visa, 30% utiliza a MasterCard e 20% utiliza Visa e MasterCard.

a) Qual a probabilidade de uma pessoa utilizar Visa ou MasterCard?


b) Qual a probabilidade de uma pessoa não utilizar nenhum desses cartões?

6. A tabela a seguir apresenta a informações de alunos de uma universidade quanto às variáveis perı́odo, sexo, e opinião
sobre reforma agrária.

Perı́odo Sexo A favor da reforma Contra a reforma Sem opinião


Diurno Feminino 2 8 2
Diurno Masculino 8 9 8
Noturno Feminino 4 8 2
Noturno Masculino 12 10 1

Determine a probabilidade de escolhermos:

a) Uma pessoa do sexo masculino.


b) Uma pessoa do sexo masculino e sem opinião sobre a reforma agrária.
c) Uma mulher contra a reforma agrária.
d) Um estudante do perı́odo noturno que seja a favor da reforma agrária.

Page 72
DRAFT VERSION
Comédia Romance Policial Total
Homens 136 2 248 386
Mulheres 102 195 62 359
Total 238 197 310 745

e) Uma mulher sem opinião sobre a reforma agrária.

7. As preferências de homens e mulheres por estilo de filme alugados estão apresentadas na tabela a seguir.
Calcule a probabilidade de:

a) Uma mulher alugar um filme policial.


b) O filme alugado ser comédia.
c) Um homem alugar um romance.
d) O filme ser policial, dado que foi alugado por um homem.
e) O filme ter sido alugado por um homem, dado que é policial.

8. “Please, die Ana (. . . )/And you’re my obsession/I love you to the bones” escreve Daniel Johns, vocalista da banda
australiana Silverchair, sobre sua batalha contra anorexia nervosa. Anorexia nervosa é uma disfunção alimentar
caracterizada por uma dieta hipocalórica e estresse fı́sico. Estima-se que 1% (0.01) da população mundial apresente
o quadro de anorexia (A), 5% (0.05) apresente o quadro de bulimia (B) – outro tipo comum de disfunção alimentar
– e 0.5% (0.005) de anorexia e bulimia (A ∩ B).

a) Qual a probabilidade de uma pessoa apresentar anorexia ou bulimia?


b) Qual a probabilidade de uma pessoa não apresentar nenhum destes quadros?
c) Em uma população de 1000 pessoas, em quantas delas espera-se observar apenas o quadro de bulimia?

9. A doença de Alzheimer é uma doença degenerativa, e foi descrita pela primeira vez em 1906 pelo psiquiatra alemão
Alois Alzeheimer. Abaixo estão dados60 a respeito do sexo e idade de pacientes diagnosticados com esta severa
doença no estado do Rio Grande do Sul.

Idade M F Total
Até 69 anos 6000 9000 15000
De 70 a 74 anos 16800 25200 42000
De 75 a 79 anos 25200 37800 63000
De 80 a 84 anos 27600 41400 69000
De 85 a 89 anos 24000 56000 80000
Acima de 90 anos 20700 48300 69000
Total 120300 217700 338000

Se uma pessoa é diagnosticada com Alzheimer no Rio Grande do Sul,

a) Qual a probabilidade de ser do sexo feminino?


b) Qual a probabilidade de ter menos de 69 anos?
c) Qual a probabilidade de ter entre 75 e 84 anos e ser do sexo masculino?
d) Sabendo que no Rio Grande do Sul há em torno de 10 milhões de pessoas, qual a probabilidade aproximada de
escolhermos uma pessoa com Alzheimer ao acaso que tenha mais de 80 anos do sexo masculino ou uma pessoa
entre 75 e 89 anos do sexo feminino?

10. Investidores do sexo masculino e feminino foram entrevistados quanto ao tipo dos seus investimentos: poupança,
bolsa de valores e mercado imobiliário. Os dados desta entrevista estão na tabela abaixo.

Investimento M F
Poupança (PO) 350 370
Bolsa de valores (BV) 140 60
Mercado imobiliário (MI) 70 10

Se sortearmos uma pessoa aleatoriamente,

a) Qual a probabilidade de ser um homem?


b) Qual a probabilidade de ser um investidor de poupança?
c) Qual a probabilidade de ser do sexo feminino e investir na bolsa de valores?
d) Qual a probabilidade ser um investidor da bolsa de valores ou do mercado imobiliário?

11. Alunos da universidade A e B foram entrevistados a respeito de suas inclinações a respeito de três correntes de
pensamento que influenciaram a psicologia moderna. Os dados desta entrevista estão na tabela abaixo.
60 Adaptado de Bermejo-Pareja F, Benito-León J, Vega S, Medrano MJ, Román GC (Janeiro de 2008).

Page 73
DRAFT VERSION
Corrente de pensamento A B Total
Psicodinâmica (P) 35 28 63
Comportamentista (C) 12 9 21
Humanista (H) 8 8 16
Total 55 45 100

Determine a probabilidade de escolhermos:

a) Uma pessoa da universidade A.


b) Uma pessoa da universidade A dado ser adepta da corrente de pensamento da Psicodinâmica.
c) Uma pessoa com inclinação para a teoria Psicodinâmica.
d) Uma pessoa da universidade B com inclinação para a teoria Comportamentista.
e) Uma pessoa com inclinação para as teorias Comportamentista ou Humanista.

12. Uma fábrica possui três máquinas, A B e C. A máquina A produz 1% de itens defeituosos, a máquina B 2% e C
3%. Se um item defeituoso é encontrado em um processo em que a máquina A é responsável por 50% da produção,
seguida de B com 30% e C com 20%,

a) Qual a probabilidade de que o item tenha sido produzido pela máquina A?


b) Repita o item anterior para as máquinas B e C.

13. Considere o lançamento de três moedas equilibradas.

a) Descreva o espaço amostral Ω.


b) Determine o contradomı́nio RX da variável aleatória X: ‘número de caras’.
c) Obtenha p(0), p(1), p(2) e p(3).
d) Encontre E(X), E(X 2 ), V (X) e D(X).

14. Refaça o Exercı́cio 13 com P r({C}) = 0.7.

15. Refaça o Exercı́cio 13 com P r({C}) = p. Qual a distribuição de X?

16. Sabe-se que uma máquina produz itens independentemente, dos quais 1% são defeituosos. Se em um lote são
fabricados 20 itens, responda:

a) Qual a distribuição da variável X: ‘número de itens defeituosos’ ?


b) Qual o valor esperado do número de itens defeituosos neste lote?
c) Qual o desvio padrão do número de itens defeituosos neste lote?
d) Qual a probabilidade de que sejam produzidos 6 itens defeituosos?
e) Qual a probabilidade de haver pelo menos um item defeituoso neste lote?

17. Por uma porteira passam em média 4 carretas61 por dia.

a) Qual a distribuição da variável X: ‘número de carretas por dia’ ?


b) Obtenha E(X), V (X) e D(X).
c) Qual a probabilidade de passar ao menos uma carreta neste intervalo?

18. Seja uma v.a. contı́nua X com fdp f (x) = c(x3 − 3.36x + 2.36), x ∈ [1, 2] .

a) Encontre c. R
b) Mostre que 12 f (x)d(x) = 1.
c) Obtenha F (x) = P r(X < x).
d) Calcule P r(1.4 < X < 1.7).
e) Encontre E(X), E(X 2 ), V (X) e D(X).

19. Seja uma v.a. contı́nua X com fdp f (x) = c [ln(x) − 2x + 10], x ∈ ]0, 1] .

a) Encontre c.
b) Obtenha F (x) = P r(X < x).
c) Calcule P r(X > 0.2).
d) Encontre E(X), E(X 2 ), V (X) e D(X).
R
Dica 1: x f (x)d(x) = 1.
R
Dica 2: ln(x)d(x) = xln(x) − x.

xk+1 xk+1
xk ln(x)d(x) =
R
Dica 3: ln(x) − .
k+1 (k + 1)2

20. Seja X uma v.a. contı́nua tal que X ∼ χ212 . A partir da tabela de qui-quadrado da página 134, obtenha:

a) P r(X > 4.40).


b) P r(X < 4.40).
c) A melhor aproximação ou intervalo para P r(X > 5).
61 https://www.youtube.com/watch?v=6I7jJ3IPPzo

Page 74
DRAFT VERSION
d) A melhor aproximação ou intervalo para P r(X < 10).

21. Seja T uma v.a. contı́nua tal que T ∼ t5 . A partir da Tabela t da página 101, obtenha:

a) P r(T > 0.727).


b) P r(T < 4.032).
c) t, se P r(T > t) = 0.025.
d) A melhor aproximação ou intervalo para P r(T > 5).
e) O que você percebe quando ν → ∞?

22. Seja F uma v.a. contı́nua tal que F ∼ F (10, 6). A partir das Tabelas das páginas 136 a 139, obtenha:

a) P r(F > 2.461).


b) f , se P r(F < f ) = 0.975.

23. Considere os dados do Exercı́cio 17 e a variável Y : ‘Tempo entre as carretas que cruzam a porteira’.

a) Qual a distribuição de Y ?
b) Determine f (y) e F (y).
c) Calcule E(Y ) e D(Y ). Interprete.
d) Calcule P r(Y < 1). Interprete.

24. Suponha que a idade de pessoas depressivas que cometeram suicı́dio (X) siga uma distribuição normal de média 22
anos e desvio padrão de 3 anos, anotado por X ∼ N (22, 3).

a) Qual a probabilidade de uma pessoa depressiva de mais de 30 anos cometer suicı́dio?


b) Qual a probabilidade de uma pessoa depressiva entre 20 e 30 anos cometer suicı́dio?
c) Qual a probabilidade de uma pessoa depressiva menor de idade cometer suicı́dio?
d) Se P r(X < x) = 0.1038, qual o valor de x?
e) Interprete o valor de x no contexto do problema.

25. A idade de pessoas que pedem financiamentos de automóveis (X) segue uma distribuição normal com média 27 anos
e desvio padrão 4 anos, denotada por X ∼ N (27, 4).

a) Em um grupo de pessoas que pedem financiamento, qual a probabilidade de uma pessoa ter mais de 33 anos?
b) Neste mesmo grupo, qual a probabilidade de uma pessoa ter idade entre 32 e 40 anos?
c) Se P r(X < x) = 0.6217, qual o valor de x?
d) Interprete o valor de x no contexto do problema.

26. A duração da carga de uma máquina de fotocópias pode ser modelada como normal de média 15 000 e desvio padrão
2 000, anotada por X ∼ N (15000, 2000). Qual a probabilidade de a carga durar:

a) Menos de 16 000 cópias?


b) Mais de 13 000 cópias?
c) Entre 12 000 e 14 000 cópias?

27. As geladeiras produzidas por uma fábrica possuem um determinado tempo de vida até o primeiro estrago. Estudos
apontam que este tempo segue distribuição normal com média 1.45 ano e desvio padrão igual a 0.15 ano.

a) A fábrica oferece garantia de 1 ano. Qual a probabilidade de uma geladeira estragar neste perı́odo?
b) Qual a probabilidade de uma geladeira estragar fora da garantia?
c) Qual a probabilidade de uma geladeira falhar entre o primeiro e o segundo ano de uso?
d) Qual a probabilidade de uma geladeira durar mais de 2 anos sem apresentar falhas?
e) Se a fábrica produziu 80 mil geladeiras, quantas pessoas devem acionar a garantia?

28. O atendimento dos caixas de um determinado banco fica sobrecarregado entre o primeiro e o décimo dia do mês.
Neste perı́odo, o tempo de espera do caixa convencional (X) tem distribuição normal com média de 23 minutos e
desvio padrão de 4 minutos. Para o caixa prioritário (Y ), este tempo distribui-se com média de 15 minutos e desvio
padrão igual a 3.

a) No caixa convencional, qual a probabilidade de você esperar mais de 20 minutos para ser atendido? E no caixa
prioritário?
b) Você leva em torno de meia hora para ler o caderno de esportes do jornal. Qual a probabilidade de você terminar
a leitura enquanto espera na fila do caixa? Faça as contas para ambos os caixas e compare.
c) Uma vovó de 90 anos chegou no banco. Qual a probabilidade de ela esperar entre 20 e 25 minutos para ser
atendida?
d) Há uma grande placa indicando que o tempo de espera máximo é de 12 minutos para os clientes preferenciais e
18 minutos para os demais clientes. Com que frequência as pessoas esperam mais do que este tempo para serem
atendidas?
e) Você foi chamado para corrigir este tempo máximo. A orientação é que apenas 10% dos clientes sejam atendidos
em um tempo maior que o indicado. Qual deveria ser o novo tempo para o caixa preferencial? E para o caixa
convencional?

29. Em um concurso estão inscritas 1000 pessoas para 150 vagas. As notas das provas seguiram distribuição normal
com média 6.2 e desvio padrão igual a 1, anotado por X ∼ N (6.2, 1).

Page 75
DRAFT VERSION
a) Selecionando ao acaso um candidato, qual a probabilidade de ele ter tirado menos que 5 na prova?
b) Qual a probabilidade de um candidato ter notas entre 5 e 6?
c) Aproximadamente quantas pessoas tiraram notas entre 5 e 6?
d) Qual a nota mı́nima para obter a aprovação?

30. O lucro lı́quido de uma loja (X) segue uma distribuição normal com média 15 000 reais e desvio padrão de 5 000
reais, denotado por X ∼ N (15000, 5000).

a) Qual a probabilidade de o lucro lı́quido ser maior que 20 mil reais?


b) Qual a probabilidade de o lucro lı́quido estar entre 13 mil e 22 mil reais?
c) Qual a probabilidade de a loja dar prejuı́zo, i.e., o lucro lı́quido ficar abaixo de zero?

Questões de Concursos

31. (CESGRANRIO - 2010 - Petrobrás/Administrador) Em um posto de combustı́veis entram, por hora, cerca de 300
clientes. Destes, 210 vão colocar combustı́vel, 130 vão completar o óleo lubrificante e 120 vão calibrar os pneus.
Sabe-se, ainda, que 70 colocam combustı́vel e completam o óleo; 80 colocam combustı́vel e calibram os pneus e 50
colocam combustı́vel, completam o óleo e calibram os pneus. Considerando que os 300 clientes entram no posto
de combustı́veis para executar uma ou mais das atividades acima mencionadas, qual a probabilidade de um cliente
entrar no posto para completar o óleo e calibrar os pneus?

a) 0.10
b) 0.20
c) 0.25
d) 0.40
e) 0.45

32. (FMP-RS 2011 - TCE-RS - Auditor Público Externo/Administração) Dois professores corrigem a prova de redação
de um concurso público. O professor A corrige o dobro de provas do que o professor B. Sabe-se que 60% das provas
corrigidas pelo professor A tiveram nota superior a 7, enquanto apenas 20% das provas corrigidas pelo professor B
tiveram nota superior a 7. Se um candidato teve conceito não superior a 7, a probabilidade de sua prova ter sido
corrigida pelo professor A é:

a) 0.85571
b) 0.75000
c) 0.33333
d) 0.50000
e) 0.25000

33. (FEPESE - 2010 - SEFAZ-SC - Auditor Fiscal da Receita Estadual) Sejam dois eventos, A e B, mutuamente
exclusivos. A probabilidade de ocorrência de A vale 0.2. A probabilidade de ocorrência de B vale 0.4. Quanto vale
a probabilidade de ocorrência do evento A união B?

a) 0.08
b) 0.40
c) 0.48
d) 0.52
e) 0.60

Page 76
DRAFT VERSION

“ The Statistician is the Wizard


who makes ‘scientific’ statements about invisible states and quantities.
However, contrary to the real wishes (or witches),
he attaches uncertainties to his statements.”
∼ Carlos A. de Bragança Pereira, 1990

4 Inferência Estatı́stica Clássica


iência é uma corrente filosófica que estuda universos através do Método Cientı́fico (M C 2 ).
C Tal método norteia a criação de hipóteses e etapas replicáveis para obter informações 62
e ordenar
tais hipóteses. Cientista é, portanto, qualquer indivı́duo que formule hipóteses e descreva seu método de
captura de informação de forma mı́nima, possibilitando a validação por qualquer interessado. Quanto
mais simples for a metodologia, maior será o número esperado de interessados validando a teoria por si
próprios.
Inferência Estatı́stica é um ramo importante do Método Cientı́fico, que embasa a tomada de decisão.
Pelo paradigma clássico, ampliam-se as conclusões para conjuntos maiores a partir de conjuntos menores.
Conjuntos maiores são usualmente denominados universos, e conjuntos menores são amostras. Em geral
supõe-se o interese em algum estado ou quantidade universal desconhecido, geralmente denominado θ.
Para reduzir a ignorância sobre θ, observa-se uma amostra de tamanho n ∈ N.
Exemplo 4.1. (Tornando θ visı́vel) Você pega uma moeda pela primeira vez e se pergunta: “Esta moeda
é equilibrada?” Isto ocorre quando a probabilidade de face cara é de 50%. Simbolicamente, θ = 0.5.
,
Exemplo 4.2. (Observando amostras) Para atualizar a opinião sobre θ, a probabilidade de face cara do
Exemplo 4.1, podem-se observar amostras. Se lanço a moeda n = 25 vezes sob certas condições de
estabilidade e observo m = 11 caras,
11
θ̂ = = 0.44
25
A partir deste resultado você apostaria que a moeda é equilabrada (θ = 0.5) ou não equilibrada (θ 6= 0.5)?
Qual a distância máxima você admite de θ̂ para 0.5, de forma a aceitar θ = 0.5? Você altera sua decisão
para n = 100?
,
As questões colocadas nos Exemplos 4.1 e 4.2 são estudadas por duas grandes escolas de Inferência
Estatı́stica: Clássica e Bayesiana. Ambas possuem metodologias para captura de informação a respeito
de θ, mas divergem sobre alguns princı́pios. Dentre as principais divergências está o princı́pio da veros-
similhança, violado por clássicos, defendido pelos bayesianos. Tal princı́pio afirma que se dois decisores
possuem o mesmo grau de conhecimento e a mesma informação sobre θ, ambos devem decidir exatamente
da mesma forma a respeito de θ.
Exemplo 4.3. (Princı́pio da Verossimilhança 1) Considere uma sucessão de lançamentos de uma moeda,
independentes e condicionados por θ, a probabilidade de sair ‘cara’. Suponha que seja obtido o resultado

x = {H, T, H, H, T, T, H, T, T, T },
63
onde H: ‘cara’ e T : ‘coroa’ . Este resultado poderia ser obtido de diversos processos experimentais ou
regras de parada, como
62 Segundo Gosh (1988), informação é aquilo que muda a sua opinião sobre θ. Nas palavras do professor Basu, página

314: “Information is what information does. It changes opinion. Only a Bayesian knows how to characterize his/her
prior opinion on θPas a prior distribution q(θ). This prior opinion is changed, by the data x, to the posterior opinion
q ∗ (θ) = q(θ)L(θ)/ q(θ)L(θ).”
63 Do Inglês Head (cara) e Tail (coroa).

Page 77
DRAFT VERSION
· realizar 10 lançamentos, fixados a priori
· lançar a moeda até aparecerem 6 ‘coroas’
· lançar a moeda até aparecerem 3 ‘coroas’ consecutivas
· lançar a moeda até o jogador ficar saturado, tendo a saturação ocorrido no 10º lançamento
6
Em qualquer caso a (função de) verossimilhança é proporcional a θ4 (1 − θ) , i.e., a amostra informa
quatro sucessos (caras) e seis fracassos (coroas). Assim, adotando-se o princı́pio da verossimilhança, toda
a informação que x pode fornecer sobre θ encontra-se nesta expressão. Saber qual dos quatro processos
experimentais foi utilizado (cada um com um espaço amostral diferente) ou saber qual foi a regra de
parada adotada nada tem a acrescentar. Note que a possibilidade de o experimentador parar por seu
arbı́trio ao considerar o resultado x satisfatório, em nada altera a opinião sobre θ.
,

Apesar de mais ampla e intuitiva, a Inferência Bayesiana não se aplica de forma tão imediata devido
a limitações de software e pela necessidade de operações matemáticas mais sofisticadas como otimização
e integração de funções. Assim, será feito uso de métodos da HInferência ClássicaI, largamente aplicados.
Para maiores informações sobre métodos bayesianos, vide Paulino et al. (2018), Gelman et al. (2003) e
DeGroot and Schervish (2002). Para uma visão mais teórica, sugere-se de Finetti (1974).

EXERCÍCIOS
1. Realize o experimento do Exemplo 4.2 e estime θ.

4.1 Universo e Amostra


Universo ou população é o conjunto de todas as entidades (pessoas, animais, objetos) portadoras das
caracterı́sticas de interesse, mas raramente observado em sua plenitude. Amostra é um subconjunto do
universo, obtido a partir de algum método de seleção64 . As medidas avaliadas nos universos são parâ-
metros, simbolizados por letras gregas. As medidas avaliadas na amostra são estatı́sticas, simbolizadas
por letras do nosso alfabeto ou pelo parâmetro correspondente com o sı́mbolo ˆ (chapéu).

Média Variância Desvio Proporção Correlação Coeficiente


Padrão
√ (Percentual) Angular
θ Parâmetro (Universo) µ σ2 σ = σ√2 π ρ β1
θ̂ Estatı́stica (Amostra) x̄ = µ̂ s2 = σ̂ 2 s = σ̂ = s2 p = π̂ r = ρ̂ β̂1

Tabela 4.1: Alguns parâmetros e estatı́sticas

4.1.1 N en
N usualmente expressa o tamanho do universo em estudo, podendo ser considerado infinito. n é a
representação usual do tamanho da amostra. Na prática usualmente observam-se tamanhos de amostra
muito inferiores aos dos universos, simbolizado por n << N .
Exemplo 4.4. (n e N ) Se for realizada uma pesquisa com o intuito de avaliar o percentual de alunos
que apreciam música clássica, pode-se dizer que serão entrevistados n de um total de N alunos, onde
n << N . Como exercı́cio, releia a frase anterior trocando n por 50 e N por 30 mil.
,
64 Seção 4.2.

Page 78
DRAFT VERSION

Figura 4.1: Relação entre universo e amostra

4.2 Amostragem
Amostragem é o processo de obtenção de uma amostra. Inicia com o plano amostral, uma avaliação
que leva em conta as medidas a serem avaliadas e os recursos disponı́veis. Da mesma forma que os
laboratórios retiram amostras de sangue para exames de saúde, cozinheiros experimentam parte da
comida para provar os temperos, fábricas realizam testes destrutivos em parte da sua produção para
avaliar a qualidade do que está sendo produzido e pessoas se informam sobre temas relevantes (ou
relvantes) em suas vidas.
Os métodos de seleção podem ser classificados conforme a Tabela 4.2. Procedimentos probabilı́sticos
são em geral mais bem aceitos academicamente, ainda que na prática nem sempre possam ser execu-
tados. Quando isso ocorre, optam-se por processos não probabilı́sticos. Existem diversos métodos de
amostragem, sendo os principais brevemente descritos nas Seções 4.2.3 a 4.2.7.

Procedimento de Seleção
Critério
probabilı́stico não probabilı́stico
objetivo amostras probabilı́sticas amostras criteriosas
subjetivo amostras quase-aleatórias amostras intencionais

Tabela 4.2: Procedimentos amostrais segundo Bolfarine et al. (2005)

4.2.1 Conceitos
A seguir estão apresentados conceitos fundamentais da amostragem, seguindo a estrutura de Bolfarine
et al. (2005)65 . Para maiores detalhes veja filipezabala.com/ei.

Unidade Elementar

A unidade elementar, unidade populacional ou simplesmente elemento é a entidade portadora das


informações que pretende-se coletar. Pode ser um objeto, animal ou pessoa. Em certos casos existe mais
de uma maneira de definir a unidade elementar, onde se faz necessário o entendimento dos especialistas
envolvidos. A unidade elementar é uma das definições mais importantes do campo cientı́fico, pois é base
de toda a construção das hipóteses de pesquisa.
Exemplo 4.5. (Pesquisa eleitoral I) Em uma pesquisa eleitoral, classifica-se o eleitor como unidade ele-
mentar. Essa foi fácil.
,
Exemplo 4.6. (Quiz I) Em uma pesquisa com lı́quidos, o que pode ser a unidade elementar?
O
66
Exemplo 4.7. (Quiz II) Defina ‘Indústria do dano moral’ e identifique as unidades elementares envol-
vidas na definição proposta.
O

Unidade Amostral
65 Pr^
emio Jabuti 2006.
66 Püschel (2010) e Meyerhof Salama (2011).

Page 79
DRAFT VERSION
A unidade amostral é uma composição de uma ou mais unidades elementares. É também uma
definição bastante importante, pois é preciso diferenciá-la da unidade elementar para proceder com a
definição e teste das hipóteses de pesquisa.
Exemplo 4.8. (Pesquisa eleitoral II) Em uma pesquisa eleitoral na rua, o eleitor é também unidade
amostral. Caso as entrevistas sejam feitas de casa em casa, o domicı́lio passa a ser unidade amostral,
i.e., um conjunto de unidades elementares (eleitores).
,

Universo U

Universo ou população é o conjunto que reúne toda a informação disponı́vel sobre θ. Usualmente
possui tamanho N elevado, até mesmo infinito, mas em alguns casos pode ser relativamente pequeno.
Faz parte das definições fundamentais do Método Cientı́fico, pois formaliza o escopo das hipóteses de
pesquisa, a captura de informações e as conclusões sobre θ. É denotado por

U = {1, 2, . . . , N }.

Exemplo 4.9. (Pesquisa eleitoral III) EEm 2018 o universo de eleitores do municı́pio de Porto Alegre
compreendia 1,100,163 eleitores67 , i.e., N = 1100103. Formalmente

U = {1, 2, . . . , 1 100 163}.

Sistema de referências

Em relação às informações de um estudo, deve-se fazer inicialmente uma avaliação das bases de dados
já disponı́veis para então proceder com a avaliação da viabilidade de um levantamento de dados mais
especı́fico. Este levantamento envolve se montar um plano amostral, contratar, treinar e manter pessoas
para a coleta, criar os protocolos de resposta bem como gerar e analisar os bancos de dados. Caso decida-
se realizar tal levantamento, serão necessárias listas relacionando as unidades populacionais e amostrais.
Na falta de tais listas, utilizam-se sistemas de referências, que são fontes que descrevem o universo a ser
investigado. Podem ser informações razoavelmente atualizadas, como mapas, censos ou listas reunidas.

4.2.2 Cálculo do tamanho da amostra


O cálculo do tamanho de amostra é baseado em uma série de premissas assumidas pelo pesquisador.
Os valores sugeridos pelos diversos métodos de cálculo de tamanho de amostra devem ser considerados
apenas como uma referência, dada a arbitrariedade das medidas utilizadas em sua obtenção. Tempo
e custo são dois limitantes que devem ser considerados a priori, podendo se sobrepor aos cálculos de
tamanho de amostra.

Exemplo 4.10. (Tamanho da amostra aproximado) Em uma pesquisa eleitoral deseja-se calcular o tama-
nho de amostra aproximado para que a margem de erro seja de ε = 2% com confiança de 1 − α = 95%.
Sabe-se da Equação (106) da página 85 que
r
p(1 − p)
ε=z (103)
n
Isolando n temos
z 2 p(1 − p)
n= (104)
ε2
Sabe-se que z = Φ(0.975) = 1.96 ≈ 2, e que p(1 − p) atinge seu máximo quando p = 12 . Assim,
1
22 × 2 × (1 − 12 ) 1
n≈ = 2 (105)
ε2 ε
67 Fonte: http://www.tse.jus.br/eleicoes/estatisticas/estatisticas-eleitorais

Page 80
DRAFT VERSION
Logo, um IC para a proporção com α = 5% para uma margem de erro de ε = 2% pode ser calculado
com um tamanho de amostra de aproximadamente
1
n≈ = 2500
0.022

> qnorm(0.975)

[1] 1.959964

> n <- function(e) {1/e^2} # Equaç~


ao (90)
> n(0.02)

[1] 2500

EXERCÍCIOS

2. Considerando o Exemplo 4.10, calcule:

a) O tamanho da amostra para uma margem de erro de 1%.


b) O tamanho da amostra para uma margem de erro de 1% e p = 0.65.
c) O tamanho da amostra para uma margem de erro de 1 % e 2%, com confiança de 1 − α = 90%.
d) Escreva uma função que generalize o problema para qualquer nı́vel de confiança, qualquer margem de erro e
qualquer valor de p. Verifique nos itens anteriores.

4.2.3 Amostragem Aleatória Simples (AAS)


Amostragem Aleatória Simples (AAS) é o método mais básico de seleção de amostras, sendo referência
para todos os demais planos amostrais. A partir de uma lista completa da população seleciona-se cada
unidade amostral com igual probabilidade, de tal forma que a cada sorteio os elementos tenham a mesma
chance de serem escolhidos.
Caso a unidade sorteada seja retirada da população e seja realizado um novo sorteio, é dito que
procedeu-se com uma AAS restrita ou sem reposição, indicado por AASs.

Exemplo 4.11. (AASs) De uma urna com x bolas brancas e y bolas pretas sorteia-se uma ao acaso, com
probabilidade 1/(x + y). A bolinha sorteada é retirada da urna e realiza-se um novo sorteio, agora com
probabilidade 1/(x + y − 1). Este é um processo de AAS sem reposição. Faça a árvore de decisão para
três etapas de sorteio com x = 5 e y = 4.

,
Exemplo 4.12. (Mega-Sena da Caixa Econômica Federal) No R pode-se sortear uma amostra sem repo-
sição para tentar a sorte no jogo da Caixa Econômica Federal.

> sort(sample(1:60, size = 6, replace = F)) # Apostando na Mega-Sena da CEF

[1] 5 20 23 28 38 51

> set.seed(1); sort(sample(1:60, size = 6, replace = F)) # Semente pseudo-aleatória fixa

[1] 1 4 23 34 39 57

,
Caso a unidade sorteada tenha a chance de participar novamente da amostra, o procedimento é cha-
mado AAS irrestrita ou com reposição, indicado por AASc. Note que sortear n bolinhas simultaneamente
equivale a fazer n retiradas com reposição.

Page 81
DRAFT VERSION
Exemplo 4.13. (AASc) De uma urna com x bolas brancas e y bolas pretas sorteia-se uma ao acaso, com
probabilidade 1/(x + y). A bolinha sorteada é recolocada na urna e realiza-se um novo sorteio, novamente
com probabilidade 1/(x + y). Este é um processo de AAS com reposição. Se forem necessárias três
bolinhas, é equivalente realizar este procedimento três vezes ou retirar n = 3 bolinhas de uma só vez.
Faça x = 5 e y = 4. ,
Exemplo 4.14. (Urna sem reposição) É esquisito repor a bolinha observada, mas facilita uma barbaridade
para calcular as probabilidades de sorteio das bolinhas X e Y .

> x <- 5; y <-4


> rbinom(1,1,x/(x+y)) # Pr(X=1) = 5/9, Pr(X=0) = 4/9. Pr(Y=y)?

[1] 0

4.2.4 Amostragem Estratificada (AE)


Um estrato é um subconjunto da população onde controlam-se caracterı́sticas relevantes no estudo,
como sexo, idade e escolaridade. Possui similaridade intra grupo e distinção entre grupos. Este procedi-
mento torna os estratos homogêneos em relação às caracterı́sticas controladas. Na amostragem estratifi-
cada a população é dividida em k estratos e aplica-se a AAS para selecionar uma amostra de tamanho
ni , i ∈ {1, 2, . . . , k} de cada estrato.
Exemplo 4.15. (Amostragem estratificada) Suponha que uma grife esteja interessada em abrir uma filial
dentro da PUCRS. É interessante para os investidores avaliarem “o vestuário dos frequentadores da
PUCRS”. Assim, os prédios poderiam ser considerados estratos em relação aos estilos de vestimenta
utilizados na universidade.
,

4.2.5 Amostragem por Conglomerados (AC)


Conglomerados são subconjuntos da população, distintos entre si em relação às caracterı́sticas de
interesse. Em oposição aos estratos, possuem similaridade entre grupos e grande heterogeneidade intra
grupos. Podem ser residências, famı́lias, quarteirões, bairros ou clubinhos de futebol. Tal procedimento
amostral é adequado quando é factı́vel dividir a população em pequenas subpopulações homogêneas,
deniominadas conglomerados. Primeiramente definem-se k conglomerados, dos quais alguns são selecio-
nados segundo uma AAS. Todos os elementos dos conglomerados selecionados são observados. Em geral,
é um plano amostral menos eficiente68 que a AAS ou AE, porém mais econômico.
Exemplo 4.16. (Amostragem por conglomerados) Suponha que uma grife continue interessada em abrir
uma filial dentro da PUCRS. Para avaliar ‘o vestuário dos frequentadores da PUCRS’ foram sorteados,
dentre 17 conglomerados pré-definidos, os grupos ‘restaurante B’, ‘restaurante G’ e ‘ponto de ônibus’,
todos avalidos de segunda a sexta entre 11:30 e 12:30. Todas as pessoas dos grupos sorteados são entre-
vistadas.
,

4.2.6 Amostragem Sistemática (AS)


A sistematização da observação de amostras teve seu inı́cio na indústria. Ao invés de fazer um
plano amostral complexo, pode-se simplesmente coletar as informações com um método sistemático pré-
determinado. Tal método é facilitado pelo próprio processo industrial, baseado em uma sequências de
peças dispostas em esteiras. Dependendo da acuracidade desejada, escolhe-se a frequência de observações
a serem avaliadas. Baixas frequências de observação reduzem os tamanhos amostrais, enquanto altas
frequências levam a um maior volume de dados. Após definida a frequência “observar uma unidade
amostral a cada k”, basta sortear um número inteiro entre 1 e k para dar inı́cio ao sorteio. Para listar o
número das peças a serem observadas é interessante calcular os termos de uma Progressão Aritmética.
68 Eficiência é uma medida relativa à variância dos estimadores. Para maiores detalhes, vide Bolfarine et al. (2005).

Page 82
DRAFT VERSION
Exemplo 4.17. (Amostragem sistemática) Uma indústria deseja avaliar a adequação de certo componente
à especificação. Para isso decide realizar um procedimento sistemático na esteira das peças candidatas
a serem aferidas. A frequência escolhida é de observar uma a cada k = 15 peças, até ser atingido um
tamanho de amostra de n = 40. Foi então sorteado um número entre 1 e 15, resultando em 9. Assim, a
primeira peça a ser avaliada é a de número 9, seguindo a sequência

(9, 9 + 15, 9 + 2 × 15, . . . , 9 + 11 × 15) = (9, 24, 39, . . . , 174).

4.2.7 Amostragem por Cotas (ACot)


Amostragem por cotas é um tipo de amostragem não probabilı́stica largamente utilizada na prática
devido à sua simplicidade de planejamento e execução. O procedimento básico é manter na amostra a
mesma proporção de pessoas com caracterı́sticas controláveis da população.

EXERCÍCIOS

3. Se desejássemos avaliar a variável ‘maneira de se vestir’, considerando a PUCRS como a população de interesse, qual
técnica de amostragem você utilizaria para retirar uma amostra? Por quê?

4. Em uma pesquisa eleitoral para o governo do estado do Rio Grande do Sul decide-se entrevistar 1000 pessoas.
Preencha a tabela abaixo com a distribuição de homens e mulheres nas respectivas faixas etárias, considerando a
Tabela tab1_6_23.xls disponı́vel no link
ftp://ftp.ibge.gov.br/Contagem_da_Populacao/Contagem_da_Populacao_2007/populacao.zip

Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou mais
M
F

4.3 Estimação Pontual


Estimação é o processo de inferir69 a respeito de estados ou quantidades universais desconhecidos
com base no conhecimento sobre o universo e observações amostrais. A abordagem Clássica possui três
tipos de estimação: Pontual (ou por ponto), Intervalo de Confiança (IC) e Teste de Hipóteses (TH).
A estimação pontual utiliza uma estatı́stica como estimativa pontual de um certo parâmetro, i.e., se
apropria de um único valor amostral (ponto) para estimar θ. A sı́mbologia genérica θ̂ – teta chapéu –
indica que parâmetro θ está sendo estimado. Na Tabela 4.1, estão apresentadas as principais estimativas
e parâmetros utilizados ao longo do texto.

4.3.1 Proporção ou Percentual


Proporção ou percentual é a frequênca relativa da caracterı́stica de interesse. A estimativa pontual
da proporção universal π é a própria proporção amostral, dada por
# casos com a caracterı́stica de interesse
p = π̂ = .
# casos total

Exemplo 4.18. (Estimativa pontual da proporção) Suponha que deseja-se calcular a estimativa pontual
para a ‘proporção de fumantes da PUCRS’, denotada por π. Em uma amostra de n = 125 frequentadores
da universidade, observaram-se 25 fumantes. A estimativa pontual de π é dada por
25
p = π̂ = ≈ 0.2 = 20%.
125
,
69 Estimar, opinar, palpitar, tentar adivinhar.

Page 83
DRAFT VERSION
4.3.2 Média
A estimativa pontual da média populacional µ é a própria média amostral, dada por
Pn
xi
x̄ = x̄n = µ̂ = i=1 .
n
Exemplo 4.19. (Estimativa pontual da média) Suponha que haja interesse em estudar a média de altura
da população de Porto Alegre, desconhecida e denotada pelo parâmetro µ. Um levantamento com 1.4
milhão de porto-alegrenses é impraticável, mas é possı́vel observar uma amostra da altura de 60 alunos
de certa disciplina da PUCRS. A altura média da turma foi x̄60 = 1.67. Pode-se dizer que uma possı́vel
estimativa pontual da altura média das pessoas de Porto Alegre é µ̂ = 1.67.
,

4.3.3 Variância e Desvio Padrão


A estimativa pontual da variância populacional σ 2 é dada por
Pn  Pn
(xi − x̄)2 2
 
i=1 xi n
s2 = σ̂ 2 = i=1 = − x̄2 .
n−1 n n−1

A estimativa por ponto do desvio padrão é calculada por



s = σ̂ = s2 .

Exemplo 4.20. (Estimativa pontual da variância e do desvio padrão) Suponha novamente as informações
do Exemplo 4.19. A estimativa pontual da variância amostral
√ é s2 = σ̂ 2 = 0.0105. Para calcular a
estimativa pontual do desvio padrão, basta fazer s = σ̂ = 0.0105 ≈ 0.1025
,

4.4 (Estimação por) Intervalo de Confiança


Suponha que seu amigo estime que ficará pronto para ir ao sushi às 19 horas, 37 minutos e 22
segundos. É difı́cil de acreditar na estimativa do amigo devido à sua extrema precisão. Isso ocorre com
qualquer estimativa pontual, portanto uma sugestão para aumentar a confiança é fornecer um intervalo
de horário, no estilo “estarei pronto entre 19h e 20h”. Neste contexto é introduzida a noção de intervalo
de confiança (IC), um método formal para construir intervalos com confiança pré-estabelecida para os
parâmetros de interesse. No exemplo do sushi, o parâmetro desconhecido θ é o horário em que o amigo
ficará pronto.

Estrutura básica dos Intervalos e Limites de Confiança

Intervalos de Confiança

IC [Par^
ametro, Confiança] = [Limite Inferior, Limite Superior]

Limites Superiores de Confiança

LSC [Par^
ametro, Confiança] = ]−∞, Limite Superior]

Limites Inferiores de Confiança

LIC [Par^
ametro, Confiança] = [Limite Inferior, +∞[

ametro: quantidade de interesse para a qual deseja-se calcular um intervalo ou limite de confiança,
Par^
denotado genericamente por θ;
Confiança: confiança desejada, denotada por 1 − α.
Estimativa pontual: estimativa por ponto do parâmetro de interesse.
Margem de erro: medida de variabilidade que depende da confiança desejada.
Limite inferior: valor que limita o IC e o LIC à esquerda.
Limite superior: valor que limita o IC e o LSC à direita.

Page 84
DRAFT VERSION
Para medidas de posição usualmente o limite superior é calculado por

Estimativa Pontual + Margem de Erro,

e de forma análoga para o limite inferior. No caso das medidas de dispersão como variância e desvio
padrão universais (σ 2 e σ), os limites são obtidos através de quocientes envolvendo medidas da amostra
com valores de referência obtidos da distribuição qui-quadrado na forma
Estimativa Pontual
2.87
Exemplo 4.21. (Intervalo de Confiança) IC(π, 95%) = [0.14, 0.23] é uma estimativa por intervalo de
confiança de que a proporção (percentual) universal π esteja entre 14% e 23% com confiança 95%. Pelo
prisma clássico, isto significa que para cada 100 levantamentos realizados com o mesmo tamanho de
amostra, são esperados 95 intervalos de confiança contendo π e 5 não contendo.
,
Exemplo 4.22. (Limite Inferior de Confiança) LIC(µ, 90%) = [3.7, +∞[ é uma estimativa por limite
inferior de confiança de que a média universal µ seja de pelo menos 3.7 com confiança 90%. Pelo prisma
clássico, isto significa que para cada 100 levantamentos realizados com o mesmo tamanho de amostra,
são esperados 90 limites inferiores de confiança contendo µ e 10 não contendo.
,

EXERCÍCIOS
5. Interprete os seguintes intervalos e limites de confiança.

a) LSC(µ, 99%) = ]−∞, −1.2]


b) IC(π, 82%) = [1/7, 3/7]
c) IC(µ, 90%) = [1/7, 3/7]
d) LIC(σ 2 , 95%) = [16, +∞[
e) LSC(σ, 95%) = ]−∞, 7]
f) IC(σ, 95%) = [4, 7]

4.4.1 Proporção
O IC para a proporção populacional π é dado pela expressão
r " r r #
p(1 − p) p(1 − p) p(1 − p)
IC [π, 1 − α] = p ∓ z = p−z ,p + z (106)
n n n

onde 1 − α é a confiança do intervalo, p é a proporção amostral, n é o tamanho da amostra e z = z α2 é


o quantil da distribuição normal padrão que acumula α2 de probabilidade.
Exemplo 4.23. (IC para π) Suponha novamente o Exemplo 4.18, onde deseja-se calcular o IC para a
proporção de fumantes da PUCRS. Sabe-se que π̂ = p = 25/125 = 0.2, n = 125 e z = 1.96. O IC de
1 − α = 95% é
r
25 0.2 (1 − 0.2)
IC [π, 95%] = ∓ 1.96 = 0.2 ∓ 0.07 = [0.13, 0.27] = [13%, 27%] .
125 125
A margem de erro é de aproximadamente 0.07 = 7%, Note a diferença de precisão entre a tabela,
consultando a probabilidade 0.0250 correspondente a z = −1.96, e o valor calculado com a função qnorm.

Page 85
DRAFT VERSION
> n <- 125
> p <- 25/n
> z <- abs(qnorm(0.025)) # |-1.959964|
> (e <- z*sqrt(p*(1-p)/n)) # Margem de erro

[1] 0.0701218

> (LIpi <- p - e) # Limite Inferior

[1] 0.1298782

> (LSpi <- p + e) # Limite Superior

[1] 0.2701218

4.4.2 Média com σ conhecido


Um leitor atento pode estar se questionando a respeito do σ conhecido, visto que para calcular o
desvio padrão universal σ necessita-se da média universal µ, também desconhecida. Porém, como forma
de construção da teoria, é didaticamente apropriado apresentar primeiramente o cálculo do IC para a
média universal µ supondo o desvio padrão σ conhecido. Outros motivos para abordar este tópico desta
maneira são que i) desvios padrão são geralmente estáveis, e pode-se ter calculado estimativas de σ em
estudos similares e ii) o tamanho da amostra é tão grande que é praticamente equivalente calcular o IC
com σ conhecido ou desconhecido70 .
O IC para a média universal com σ conhecido é dado pela expressão
 
σ σ σ
IC [µ, 1 − α] = x̄ ∓ z √ = x̄ − z √ , x̄ + z √ , (107)
n n n
onde 1 − α é a confiança do intervalo, x̄ é a média amostral, σ é o desvio padrão universal magicamente
conhecido, n é o tamanho da amostra e z = z α2 é o quantil da distribuição normal padrão que acumula
α
2 de probabilidade.

Exemplo 4.24. (IC para µ com σ conhecido) Utilizando as 10 primeiras observações da Tabela 2.5 (pg.
20), suponha que X: ‘altura de mulheres atendidas em um certo hospital público de Porto Alegre durante o
inverno 2012’ tenha distribuição normal com média µ desconhecida e desvio padrão universal conhecido
σ = 0.05, denotado por X ∼ N (µ, 0.052 ). A média da amostra é x̄10 = 1.63 e z = 1.96. O IC de
1 − α = 95% é
0.05
IC [µ, 95%] = 1.63 ∓ 1.96 √ ≈ 1.63 ∓ 0.03 ≈ [1.60, 1.66] .
10
A margem de erro é de aproximadamente 0.03.

> n <- 10
> m <- 1.63
> sigma <- 0.05 # 'sigma' universal
> z <- abs(qnorm(0.025)) # |-1.959964|
> (e <- z*s/sqrt(n)) # Margem de erro

[1] 0.02805723

> (LImusig <- m - e) # Limite Inferior

[1] 1.601943

> (LSmusig <- m + e) # Limite Superior

[1] 1.658057

70 Seção 4.4.3.

Page 86
DRAFT VERSION
,

4.4.3 Média com σ desconhecido


Este é o caso mais realista, no qual estima-se o desvio padrão universal σ através do desvio padrão
amostral s. O IC para a média universal com σ desconhecido é dado pela expressão
 
s s s
IC [µ, 1 − α] = x̄ ∓ t √ = x̄ − t √ , x̄ + t √ , (108)
n n n

onde 1 − α é a confiança do intervalo, x̄ é a média amostral, s é o desvio padrão amostral, n é o tamanho


da amostra e t = tn−1, α2 é o quantil da distribuição t com n − 1 graus de liberdade que acumula 1 − α2
de probabilidade. Note a troca de σ por s, implicando na penalidade de utilizar t no lugar de z.
Exemplo 4.25. (IC para µ com σ desconhecido) Novamente utilizando as 10 primeiras observações da
Tabela 2.5, suponha agora que X: ‘altura de mulheres atendidas em um certo hospital público de Porto
Alegre durante o inverno 2012’ tenha distribuição normal com média µ e desvio padrão universal σ
desconhecidos, denotado por X ∼ N (µ, σ). A média e o desvio padrão amostrais são, respectivamente
x̄10 = 1.63 e s = 0.05. t = t10−1, 5% = t9,2.5% = 2.262 O IC de 1 − α = 95% é
2

0.05
IC [µ, 95%] = 1.63 ∓ 2.262 √ = 1.63 ∓ 0.04 ≈ [1.59, 1.67] .
10
A margem de erro é de aproximadamente 0.04, maior que a margem de erro 0.03 quando assume-se σ
conhecido.
> n <- 10
> m <- 1.63
> s <- 0.05 # 's' amostral
> t <- abs(qt(0.025, n-1)) # |-2.2621572|
> (e <- t*s/sqrt(n)) # Margem de erro

[1] 0.03576785

> (LImus <- m - e) # Limite Inferior

[1] 1.594232

> (LSmus <- m + e) # Limite Superior

[1] 1.665768

4.4.4 Variância
O IC para a variância universal σ 2 é dado por
" #
 2  (n − 1)s2 (n − 1)s2
IC σ , 1 − α = ,
χ2α χ21− α
2 2

onde 1 − α é a confiança do intervalo, s2 é a variância amostral, n é o tamanho da amostra, χ2α é o


2
quantil da distribuição χ2 com ν = n − 1 graus de liberdade que acumula α2 de probabilidade e χ21− α é
2
o quantil da distribuição χ2 com ν = n − 1 graus de liberdade que acumula 1 − α2 de probabilidade.
Exemplo 4.26. (IC para σ 2 ) Novamente utilizando as 10 primeiras observações da Tabela 2.5, sabe-se que
a variância amostral é s2 = 0.052 = 0.0025 e ν = 10 − 1 = 9. Pela Tabela da página 134, χ20.025 = 19.02
e χ20.975 = 2.70. O IC de 1 − α = 95% para σ 2 é
 
 2  (10 − 1) × 0.0025 (10 − 1) × 0.0025
IC σ , 95% = , ≈ [0.0012, 0.0083] .
19.02 2.70

Page 87
DRAFT VERSION
> n <- 10
> s <- 0.05 # 's' amostral
> chi025 <- qchisq(0.975, n-1) # 19.022768
> chi975 <- qchisq(0.025, n-1) # 2.7003895
> (LIsig2 <- (n-1)*s^2/chi025) # Limite Inferior

[1] 0.001182793

> (LIsig2 <- (n-1)*s^2/chi975) # Limite Superior

[1] 0.008332131

4.4.5 Desvio Padrão


Análogo ao IC para a variância universal, o IC para o desvio padrão universal σ é dado por
"s s #
(n − 1)s2 (n − 1)s2
IC [σ, 1 − α] = ,
χ2α χ21− α
2 2

onde 1 − α é a confiança do intervalo, s é a variância amostral, n é o tamanho da amostra, χ2α é o


2
2
quantil da distribuição χ2 com ν = n − 1 graus de liberdade que acumula α2 de probabilidade e χ21− α é
2
o quantil da distribuição χ2 com ν = n − 1 graus de liberdade que acumula 1 − α2 de probabilidade.
Exemplo 4.27. (IC para σ) Novamente utilizando as 10 primeiras observações da Tabela 2.5, sabe-se que
a variância amostral é s2 = 0.052 = 0.0025 e ν = 10 − 1 = 9. Pela Tabela da página 134, χ20.025 = 19.02
e χ20.975 = 2.70. O IC de 1 − α = 95% para σ é
"r r #
(10 − 1) × 0.0025 (10 − 1) × 0.0025 h√ √ i
IC [σ, 95%] = , = 0.0012, 0.0083 ≈ [0.0344, 0.0913] .
19.02 2.70

> n <- 10
> s <- 0.05 # 's' amostral
> chi025 <- qchisq(0.975, n-1) # 19.022768
> chi975 <- qchisq(0.025, n-1) # 2.7003895
> (LIsig <- sqrt((n-1)*s^2/chi025)) # Limite Inferior

[1] 0.03439176

> (LIsig <- sqrt((n-1)*s^2/chi975)) # Limite Superior

[1] 0.09128051

4.5 (Estimação por) Teste de Hipóteses


Os testes de hipóteses são procedimentos utilizados para atribuir um grau de credibilidade às hi-
póteses em estudos cientı́ficos. Pelo paradigma clássico, a medida padrão de credibilidade é conhecida
popularmente por p-value ou valor-p. Os teste de hipóteses possuem as mesmas caracterı́sticas e propri-
edades dos respectivos intervalos de confiança. Desta forma, apresenta-se um breve exemplo abordando
a equivalência entre os TH e os IC para a proporção universal π.

4.5.1 Equivalência entre Testes de Hipóteses e Intervalos de Confiança


Exemplo 4.28. (TH ≡ IC) Suponha uma moeda com probabilidade de face cara P r(H) = π. Em princı́pio
não sabemos o valor de π, e pode ser interessante considerar duas configurações:

Page 88
DRAFT VERSION
· π = 0.5, i.e., a moeda é equilibrada (não viesada/não viciada/honesta)
· π 6= 0.5, i.e., ela é desequilibrada (viesada/viciada/desonesta)
As hipóteses podem ser escritas na forma

H0 : π = 0.5
H1 : π 6= 0.5
Sob H0 , i.e., supondo H0 verdadeira,
r
0.5 (1 − 0.5) 0.98
IC [π, 95%] = 0.5 ∓ 1.96 = 0.5 ∓ √ .
n n
Assim, ao realizar n = 100 lançamentos e observar uma frequência de caras no intervalo
0.98
IC [π, 95%] = 0.5 ∓ √ = [0.402, 0.598] ,
100
pode-se considerar a moeda equilibrada com 95% de confiança. Caso a frequência seja inferior a 40.2%
ou superior a 59.8%, há indı́cios de que a moeda é desequilibrada, também com 95% de confiança. Pela
terminologia dos testes de hipóteses, não se rejeita H0 com α = 5%. Se n = 25,
0.98
IC [π, 95%] = 0.5 ∓ √ = [0.304, 0.696] ,
25
obtém-se um intervalo maior, i.e., menos preciso para a mesma confiança de 95%. Como exercı́cio, use
a função ic para definir outros valores para n e teste em uma moeda.

> ic <- function(n){


cat('[', 0.5-.98/sqrt(n), ',', 0.5+.98/sqrt(n), ']')
}
> ic(100)

[ 0.402 , 0.598 ]

> ic(25)

[ 0.304 , 0.696 ]

,
Exemplo 4.29. (Esta moeda é equilibrada?) Você pega uma moeda qualquer e decide testar se ela é
equilibrada ou não. Pode-se definir que ela é equilibrada se a proporção de n lançamentos ficar próxima
de 50%. Como você definiria “próxima”?
,

4.5.2 Hipóteses
Os testes de hipóteses são dicotômicos, i.e., estrutura-se o problema em duas hipóteses concorrentes.
Isso significa que o aplicador tem o papel de dividir o problema em dois conjuntos disjuntos que englobem
todas as possibilidades de ação. As hipóteses são chamadas de hipótese nula (H0 ) e hipótese alternativa
(H1 ou Ha ). De maneira genérica são escritas na forma

H0 :
H1 :
Hipóteses descritas de maneira literal são conhecidas como hipóteses de pesquisa, enquanto as descritas
em formato matemático são chamadas hipóteses estatı́sticas. Elas devem ser equivalentes, mas sua
denominação pode ser adequada conforme o momento da pesquisa. Ao definir os objetivos e apresentar
os resultados é mais apropriado fazer uso de termos literais. Porém, durante a execução da análise –
passo intermediário entre a definição dos objetivos e a divulgação dos resultados – é mais adequado
utilizar hipóteses estatı́sticas, pela necessidade de detalhamento matemático nesta etapa.

Page 89
DRAFT VERSION
Exemplo 4.30. (Definindo as hipóteses sobre a moeda) Retomando o Exemplo 4.29, podemos definir
respectivamente as hipóteses do pesquisador e estatı́stica como
 
H0 : a moeda é equilibrada H0 : π = 0.5
≡ .
H1 : a moeda não é equilibrada H1 : π 6= 0.5
,

Hipótese Nula H0

A hipótese nula é a hipótese a ser testada, definda pelo parâmetro genérico θ0 . A expressão nula faz
referência aos planejamentos de experimentos, quando não há diferença entre os tratamentos. Se isso
ocorre, os parâmetros populacionais são considerados iguais, i.e., o efeito dos tratamentos seria nulo ou
sem diferença significativa. Por este motivo H0 é geralmente associada ao não-efeito, i.e., a contraposição
da teoria testada. Utiliza-se a expressão “sob H0 ” para indicar a utilização do valor θ0 na realização dos
cálculos. A hipótese de igualdade H0 : θ = θ0 é conhecida por hipótese precisa, ou sharp hypothesis.

Regra da Hipótese Nula

A igualdade sempre está em H0 .

  
H0 : θ = θ 0 H0 : θ ≥ θ0 H0 : θ ≤ θ0
ou ou
H1 : θ 6= θ0 H1 : θ < θ0 H1 : θ > θ0

Hipótese Alternativa H1

A hipótese alternativa é a hipótese concorrente da hipótese nula. Por não conter a igualdade é geralmente
associada à diferença entre tratamentos, sendo comumente relacionada à teoria que deseja-se testar. Por
este motivo é conhecida também como hipótese de pesquisa. Ela pode ser bilateral (H1 : θ 6= θ0 ),
unilateral inferior (H1 : θ < θ0 ) ou superior (H1 : θ > θ0 ). Na Figura 4.2 estão apresentadas as regiões
de rejeição e de aceitação para hipóteses uni e bilaterais. Sua escolha deve considerar a estrutura do
problema, podendo haver mais de um modo de apresentar as hipóteses.

H1 H0 H1

(a) Hipótese bilateral (H1 : θ 6= θ0 )

H1 H0 H0 H1

(b) Hipótese unilateral inferior (H1 : θ < θ0 ) (c) Hipótese unilateral superior (H1 : θ > θ0 )

Figura 4.2: Tipos de hipóteses alternativas e suas regiões de rejeição

Page 90
DRAFT VERSION
Exemplo 4.31. (Hipótese bilateral) A hipótese alternativa H1 : π 6= 0.5 é dita bilateral, conforme Figura
4.2a. É o complementar da hipótese precisa H0 : π = 0.5.
,

EXERCÍCIOS
6. (Adaptado de Magalhães and Lima (2002)) Para cada item abaixo, indique as hipóteses de pesquisa e estatı́sticas
que estão sendo testadas.

a) A companhia de transporte afirma que, em média, o intervalo entre sucessivos ônibus de uma determinada linha é
de 15 minutos. Uma associação de usuários de transportes coletivos acha que a pontualidade é muito importante,
e deseja testar a afirmação da companhia.
b) Os amortecedores de automóveis que circulam em cidades duram pelo menos 100 mil quilômetros em média,
segundo a informação de algumas oficinas especializadas. O proprietário de uma locadora de veı́culos deseja
testar esta afirmação.
c) Um veterinário afirma ter obtido um ganho médio diário de pelo menos 3 litros de leite por vaca com uma nova
composição de ração. Um pecuarista acredita que o ganho não é tão grande assim.
d) Algumas garrafas de cerveja declaram em seus rótulos conter 600mL. Os órgãos de fiscalização desejam avaliar
se uma fábrica deve ou não ser autuada por engarrafar cervejas com uma quantidade menor que o indicado no
rótulo.
e) O dado de um cassino parece estar viciado, saindo o valor 1 com uma frequência muito grande.
f) Um fabricante afirma que a sua vacina previne pelo menos 80% dos casos de uma doença. Um grupo de médicos
desconfia que a vacina não é tão eficiente assim.

4.5.3 Estatı́stica do Teste - Univariada


Para medir a distância probabilı́stica entre os valores observados na amostra e o valor teórico θ0 ,
utiliza-se a estatı́stica do teste. Ela é calculada a partir das informações da amostra e do próprio θ0 , sendo
que cada parâmetro testado possui sua respectiva estatı́stica de teste. Quando devidamente calculado,
este valor é associado a uma distribuição de probabilidades conhecida.

Proporção

Sob H0 : π = π0 ,
!
p − π0 √ p − π0
zteste = p = n p ∼ N (0, 1). (109)
π0 (1 − π0 )/n π0 (1 − π0 )

Exemplo 4.32. (Lançando a moeda) Suponha n = 100 lançamentos e 40 caras observadas. Pode-se medir
40
a distância do teórico H0 : π = 0.5 para o observado p = 100 = 0.4 através da estatı́stica do teste
!
√ 0.4 − 0.5
zteste = 100 p = −2,
0.5(1 − 0.5)

ou seja, estima-se que 0.4 está dois desvios-padrão abaixo de 0.5. Avalie este resultado observando a
Figura 3.3 da página 65. Compare com o Exemplo 4.28. O que você conclui?

> theta <- 0.5


> x <- 40
> n <- 100
> p <- x/n
> (zt <- sqrt(n)*(p-theta)/sqrt(theta*(1-theta)))

[1] -2

Page 91
DRAFT VERSION
Média com σ conhecido

Sob H0 : µ = µ0 ,

 
x̄ − µ0 x̄ − µ0
zteste = √ = n ∼ N (0, 1). (110)
σ/ n σ

Exemplo 4.33. (σ) Suponha σ = 0.3185. Se quisermos comparar a média teórica H0 : µ = 2.027 com
uma média obtida a partir de n = 5 observações x̄5 = 2.115, pode-se utilizar a estatı́stica do teste

 
2.115 − 2.027
zteste = 5 ≈ 0.618.
0.3185
Avalie este resultado observando a Figura 3.3 da página 65. O que você conclui?

> sigma <- 0.3185


> theta <- 2.027
> n <- 5
> x_bar <- 2.115
> (zt <- sqrt(n)*(x_bar-theta)/(sigma))

[1] 0.6178147

Média com σ desconhecido

Sob H0 : µ = µ0 ,

 
x̄ − µ0 x̄ − µ0
tteste = √ = n ∼ tn−1 . (111)
s/ n s

Exemplo 4.34. (s) Suponha s = 0.3185. Se quisermos comparar a média teórica H0 : µ = 2.027 com
uma média obtida a partir de n = 5 observações x̄5 = 2.115, pode-se utilizar a estatı́stica do teste

 
2.115 − 2.027
tteste = 5 ≈ 0.618.
0.3185
Avalie este resultado observando a linha de 5 − 1 = 4 graus de liberdade na tabela da distribuição t na
página 133 ou pelo nomograma da Figura 3.6b na página 71. O que você conclui?

> s <- 0.3185


> theta <- 2.027
> n <- 5
> x_bar <- 2.115
> (tt <- sqrt(n)*(x_bar-theta)/s)

[1] 0.6178147

Variância

Sob H0 : σ 2 = σ02 ,

(n − 1)s2
χ2teste = ∼ χ2n−1 . (112)
σ02

Exemplo 4.35. (Avaliando σ) Suponha um desvio padrão s = 0.32, obtido de uma amostra de tamanho
n = 16. Pode-se comparar este valor observado com o teórico H0 : σ = 0.25 através da estatı́stica

(16 − 1) × 0.322
χ2teste = = 24.576.
0.252

Page 92
DRAFT VERSION
Compare com a linha ν = 16 − 1 = 15 da tabela de qui-quadrado da página 134. O que você conclui?

> s <- 0.32


> theta <- 0.25
> n <- 16
> (ct <- (n-1)*s^2/theta^2 )

[1] 24.576

4.5.4 Valor-p (p-value)


Note que nos Exemplos 4.32 a 4.35 mediu-se a distância (padronizada) entre valores amostrais e os
valores teóricos. Para mensurar se estas distâncias sugerem um descolamento da hipótese nula H0 , pode-
se utilizar uma medida que indique a evidência em favor de H0 . Esta medida é obtida comparando-se a
estatı́stica de teste com a distribuição teórica apropriada.
Pela abordagem clássica, a medida usual é o valor-p, popularmente conhecido por p-value. Ele indica
a probabilidade de se obter um valor mais extremo do que a estatı́stica de teste (distância padronizada)
obtida. Formalmente é a probabilidade do erro do tipo I71 , conforme Tabela 4.3. Este é o valor da
probabilidade de errar ao rejeitar H0 , i.e., decidir por H1 quando H0 é verdadeira.

H0
Decisão
Verdadeira Falsa
Rejeita H0 Erro do Tipo I OK
Aceita (Não rejeita) H0 OK Erro do Tipo II

Tabela 4.3: Possibilidades ao decidir por uma hipótese

Exemplo 4.36. (Medindo o equilı́brio da moeda) Suponha novamente o Exemplo 4.36. O valor-p pode ser
obtido por
valor − p = 2 × P r(Z < −2) ≈ 0.0455.
Se 0.0455 = 4.55%, ou a probabilidade de errar ao rejeitar H0 , for considerada baixa pelo pesquisador,
ele pode decidir pela rejeição; caso a considere alta, deve decidir pela aceitação (não rejeição) de H0 ,
optando por H1 .

> theta <- 0.5


> x <- 40
> n <- 100
> p <- x/n
> zt <- sqrt(n)*(p-theta)/sqrt(theta*(1-theta))
> (p_value <- 2*pnorm(-abs(zt))) # Multiplica-se por 2 pelo teste ser bilateral

[1] 0.04550026

,
Exemplo 4.37. (Princı́pio da Verossimilhança 2) Suponha que deseja-se testar a hipótese H0 : θ ≤ 1/2
contra H0 : θ > 1/2. São contemplados dois processos experimentais:

· E1 : lançar a moeda n = 12 vezes;


· E2 : lançar a moeda até que apareçam k = 3 ‘caras’

Admita que o resultado observado nas duas experiências foi x = 9 ‘coroas’ (portanto 3 ‘caras’),
que é uma particular realização da variável aleatória X, que designa o número total de ‘coroas’ dos
71 Também conhecida por nı́vel descritivo amostral ou simplesmente p. Esta última alternativa, apesar de mais concisa,

foi evitada para não haver conflito com a simbologia utilizada para a proporção amostral, já denotada por p.

Page 93
DRAFT VERSION
experimentos E1 e E2 . Para um clássico o nı́vel crı́tico (ou valor-p, a probabilidade de obter X ≥ 9) da
hipótese H0 : θ = 1/2 difere nos dois casos.
No caso E1 , X tem distribuição binomial – X ∼ B (12, θ) – cujo nı́vel crı́tico é

     12    12    12    12


1 12 1 12 1 12 1 12 1
Pr X ≥ 9 θ = = + + + ≈ 0.0730.
2 9 2 10 2 11 2 12 2

No caso E2 , X tem distribuição binomial negativa – X ∼ BN (3, 1 − θ) – que tem nı́vel crı́tico

     12    13    14


1 11 1 12 1 13 1
Pr X ≥ 9 θ = = + + + · · · ≈ 0.0327.
2 9 2 10 2 11 2

Logo, se for adotado um limiar de significância de 5%, H0 é rejeitada no caso E2 e não rejeitada em
E1 . Assumindo o princı́pio da verossimilhança, as conclusões devem ser idênticas nos dois casos. Em
3
ambos a (função de) verossimilhança é proporcional a θ9 (1 − θ) . De fato, as verossimilhanças em E1 e
E2 são
 
12 9 3 3 3
L1 (θ| x = 9) = θ (1 − θ) = 220 θ9 (1 − θ) ∝ θ9 (1 − θ)
9

 
11 9 3 3 3
L2 (θ| x = 9) = θ (1 − θ) = 55 θ9 (1 − θ) ∝ θ9 (1 − θ)
9
,

4.5.5 Valor Crı́tico


O valor crı́tico é o quantil da distribuição que delimita as regiões de rejeição e aceitação. Nas
distribuições normal e t são chamados genericamente zcrı́tico e tcrı́tico .
Exemplo 4.38. (Valor crı́tico) Suponha α = 5% para diferentes testes de hipóteses conforme Figura 4.3.
Para a distribuição t assumiu-se gl = 4.
,

Page 94
DRAFT VERSION

N (0, 1) t4
5% 95% 5% 95%

−1.64 −2.13
(a) Normal, H1 : θ < θ0 , α = 5%, zcrı́tico = −1.64 (b) t, gl = 4, H1 : θ < θ0 , α = 5%, tcrı́tico = −2.132

N (0, 1) t4
95% 5% 95% 5%

1.64 2.13
(c) Normal, H1 : θ > θ0 , α = 5%, zcrı́tico = 1.64 (d) t, gl = 4, H1 : θ > θ0 , α = 5%, tcrı́tico = 2.132

N (0, 1) t4
2.5% 95% 2.5% 2.5% 95% 2.5%

−1.96 1.96 −2.78 2.78


(e) Normal, H1 : θ 6= θ0 , α = 5%, |zcrı́tico | = 1.96 (f) t, gl = 4, H1 : θ > θ0 , α = 5%, |tcrı́tico | = 2.776

Figura 4.3: Alguns exemplos de valores crı́ticos

Teste Qui-quadrado (de Pearson) de aderência

H0 : No universo representado por uma amostra, há diferença entre as frequências esperadas e obser-
vadas?

k
X (Oi − Ei )2
χ2 = ∼ χ2k−1 (113)
i=1
Ei

Com a correção de Yates:

k
X (|Oi − Ei | − 0.5)2
χ2Y ates = ∼ χ2k−1 (114)
i=1
Ei

Exemplo 4.39 (Adaptado de Sheskin (2004)). (Teste qui-quadrado de aderência) Um dado é lançado 120
vezes, a fim de determinar se é ou não é equilibrado (viesado). O valor 1 aparece 20 vezes, o valor 2
aparece 14 vezes, o valor 3 aparece 18 vezes, o valor 4 aparece 17 vezes, o valor de 5 aparece 22 vezes, e
o valor 6 aparece 29 vezes. Os valores observados sugerem que o dado é equilibrado?

Face (i) 1 2 3 4 5 6
Oi 20 14 18 17 22 29
Ei 20 20 20 20 20 20

Tabela 4.4: Valores observados e esperados

Page 95
DRAFT VERSION
> o <- c(20,14,18,17,22,29) # Observados
> p <- rep(1/6,6) # Distribuiç~
ao uniforme (dado equilibriado)
> e <- 120*p # Valores esperados se o dado for equilibrado
> k <- length(o) # Número de categorias
> qui <- sum((o-e)^2/e) # Equaç~
ao (60)
> 1-pchisq(qui,k-1) # p-value

[1] 0.2439246

> chisq.test(o) ao 'chisq.test'


# Pela funç~

Chi-squared test for given probabilities

data: o
X-squared = 6.7, df = 5, p-value = 0.2439

4.5.6 Estatı́stica do Teste - Bivariada


Em muitos casos práticos é necessária a comparação entre valores obtidos de dois universos distintos.
Para isso existem procedimentos chamados bivariados.
Proporção
Sob H0 : π1 = π2 ,
p1 − p2
zteste = s   ∼ N (0, 1), (115)
1 1
p̄(1 − p̄) +
n1 n2

onde n1 e n2 são os tamanhos das amostras retiradas de dois universos, X1 e X2 representam o


X1 X2 X1 + X2
número de observações pertencentes aos universos 1 e 2, p1 = , p2 = e p̄ = .
n1 n2 n1 + n2
Exemplo 4.40. (Duas moedas) Suponha duas moedas rotuladas 1 e 2. Se observarmos 7 caras em n1 = 35
lançamentos da moeda 1 e 7 caras em n2 = 100 lançamentos da moeda 2, pode-se obter p1 = 7/35 = 0.2,
p2 = 7/100 = 0.07 e p̄ = (7 + 7)/(35 + 100) = 14/135 ≈ 0.1037. Para comparar a proporção de caras das
moedas, representada por H0 : π1 = π2 , pode-se utilizar a estatı́stica
0.2 − 0.07
zteste = s    ≈ 2.17.
14 14 1 1
1− +
135 135 35 100

> x1 <- 7
> n1 <- 35
> x2 <- 7
> n2 <- 100
> p1 <- x1/n1
> p2 <- x2/n2
> ph <- (x1+x2)/(n1+n2)
> (zt <- (p1-p2)/sqrt(ph*(1-ph)*(1/n1+1/n2)))

[1] 2.171139

> (p_value <- 2*pnorm(-abs(zt)))

[1] 0.02992069

Page 96
DRAFT VERSION
Média com σ12 e σ22 conhecidas
Sob H0 : µ1 − µ2 = ∆0 ,
(x̄1 − x̄2 ) − ∆0
zteste = s ∼ N (0, 1), (116)
σ12 σ22
+
n1 n2
onde n1 e n2 são os tamanhos das amostras retiradas de dois universos, x̄1 e x̄2 representam as médias
amostrais das populações 1 e 2, e σ12 e σ22 são as respectivas variâncias populacionais.
Média com σ12 e σ22 desconhecidas
Sob H0 : µ1 − µ2 = ∆0 ,
(x̄1 − x̄2 ) − ∆0
Tteste = s   ∼ tn1 +n2 −2 , (117)
1 1
s2p +
n1 n2

(n1 − 1)s21 + (n2 − 1)s22


s2p = , (118)
n1 + n2 − 2
onde n1 e n2 são os tamanhos das amostras retiradas de dois universos e x̄1 e x̄2 representam as
médias amostrais das populações 1 e 2.
Exemplo 4.41. (Teste t) Faça ?t.test.

> t.test(1:10, y = c(7:20)) # P = .00001855, diferença significativa

Welch Two Sample t-test

data: 1:10 and c(7:20)


t = -5.4349, df = 21.982, p-value = 1.855e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-11.052802 -4.947198
sample estimates:
mean of x mean of y
5.5 13.5

> t.test(1:10, y = c(7:20, 200)) # P = .1245, sem diferença significativa

Welch Two Sample t-test

data: 1:10 and c(7:20, 200)


t = -1.6329, df = 14.165, p-value = 0.1245
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-47.242900 6.376233
sample estimates:
mean of x mean of y
5.50000 25.93333

,
Variâncias
Sob H0 : σ12 = σ22 ,
s21 /σ12 s21
Fteste = = ∼ Fn1 −1,n2 −1 , (119)
s22 /σ22 s22
onde n1 e n2 são os tamanhos das amostras retiradas de dois universos e s21 e s22 representam as
variâncias amostrais das populações 1 e 2.

Page 97
DRAFT VERSION
Exemplo 4.42. (Teste de variâncias) Faça ?var.test.

> set.seed(2); x <- rnorm(50, mean = 0, sd = 2)


> set.seed(3); y <- rnorm(30, mean = 1, sd = 1)
> var.test(x, y) # x e y t^
em a mesma vari^
ancia?

F test to compare two variances

data: x and y
F = 7.7713, num df = 49, denom df = 29, p-value = 1.048e-07
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
3.904505 14.621142
sample estimates:
ratio of variances
7.771348

Teste Qui-quadrado (de Pearson) para tabelas r × c

H0 : No universo representado por uma amostra em uma tabela de contingência, há diferença entre
as frequências esperadas e observadas nas células?

r X c
X (Oij − Eij )2
χ2 = ∼ χ2(r−1)(c−1) (120)
i=1 j=1
Eij

Com a correção de Yates:

r X c
X (|Oij − Eij | − 0.5)2
χ2 = ∼ χ2(r−1)(c−1) (121)
i=1 j=1
Eij

> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8


> chisq.test(tab.bi) # Teste qui-quadrado de Pearson

Pearson's Chi-squared test with Yates' continuity correction

data: tab.bi
X-squared = 11.281, df = 1, p-value = 0.0007829

Teste Exato de Fisher para tabelas r × c

Seguindo o padrão da Tabela 2.7, calcula-se a probabilidade exata por

n·1 ! n·2 ! n1· ! n2· !


P = (122)
n! n11 ! n12 ! n21 ! n22 !

Page 98
DRAFT VERSION
> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8
> fisher.test(tab.bi) # Teste exato de Fisher

Fisher's Exact Test for Count Data

data: tab.bi
p-value = 0.0006504
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
1.684537 9.405984
sample estimates:
odds ratio
3.831525

EXERCÍCIOS EXTRAS
1. O instituto de pesquisa OPINAS avaliou o cenário eleitoral em certa região do Brasil em uma amostra de 500
eleitores, constatando que o candidato A tem 45% das intenções de votos enquanto seu concorrente, o candidato B,
tem 37%.

a) Construa o intervalo de confiança 95% para a proporção de votos do candidato A.


b) Construa o intervalo de confiança 95% para a proporção de votos do candidato B.
c) As margens de erro são iguais?

2. Um grande conglomerado, com centenas de empresas, quer entender melhor sobre o processo de separação do lixo
em suas unidades. Para isso, selecionou 100 empresas do conglomerado e verificou que 82 delas faziam a separação
do lixo.

a) Qual a estimativa por ponto da proporção de empresas do conglomerado que separam o lixo?
b) Construa um intervalo de confiança de 95% para a proporção de empresas do conglomerado que separam o lixo.

3. A pesquisa de intenção de votos do Datafolha com 3281 eleitores nos dias 14 e 15 de outubro apontou 47% de
intenção de votos para a candidata Dilma Rousseff.

a) Encontre os intervalos de 84% e 95% de confiança para a verdadeira proporção de votos da candidata.
b) Quais as margens de erro dos intervalos de confiança do item anterior?

4. Em uma amostra aleatória de 85 rolamentos de automóveis de certa fábrica, 10 apresentaram defeitos de fabricação.

a) Forneça a estimativa por ponto da verdadeira proporção de rolamentos defeituosos na fábrica.


b) Construa um intervalo de 91% de confiança para a verdadeira proporção de rolamentos defeituosos na fábrica.

5. Em uma turma de Estatı́stica Básica com N = 57, 23 alunos tiraram nota igual ou superior a 7 na P1, de um total
n = 41 que realizaram a prova.

a) Qual a estimativa por ponto da proporção de pessoas que tiraram pelo menos a média na P1?
b) Sabendo que há 57 pessoas matriculadas e supondo que todas elas tivessem feito a prova, quantas pessoas
espera-se que tirassem pelo menos 7 na P1?
c) Faça um intervalo de confiança de 85% para proporção de pessoas que tiraram pelo menos a média na P1.

6. Um artigo do jornal Materials Engineering (1989, Vol. II, No. 4, pp. 275–281) descreve o resultado de testes de
tensão em 22 ligas U-700. A carga de rompimento foi medida em megapascais (MPa), e a amostra apresentou média
de 13.71 MPa e desvio padrão de 3.55 MPa.

a) Quais são as estimativas por ponto da média e variância populacionais?


b) Construa um intervalo de 98% de confiança para a verdadeira média populacional.
c) Obtenha um IC para σ 2 e outro para σ com confiança 95%.

7. Em uma amostra de 5 empresas brasileiras de importação de rolamentos, constatou-se que elas gastaram R$65,000,000.00
(sessenta e cinco milhões de reais) em compra de rolamentos da China.

a) Qual a estimativa por ponto do gasto médio das importações de rolamentos de empresas do ramo no Brasil?
b) Sabendo que o desvio padrão amostral de R$1,500,000.00, encontre um intervalo de 90% de confiança para o
gasto médio das importações de rolamentos de empresas do ramo no Brasil.

8. Um artigo de 1993 do Transactions of the American Fisheries Society apresentou o resultado de um estudo na
investigação da contaminação por mercúrio na região da Flórida (EUA). Uma amostra de 53 peixes foi observada,
de onde se calculou uma concentração média de mercúrio no tecido muscular de 0.5250 ppm e um desvio padrão de
0.3486 ppm. Encontre o intervalo de confiança de 95% para a média de mercúrio no tecido muscular dos peixes da
Flórida, sabendo que t52,0.025 ≈ 2.007.

Page 99
DRAFT VERSION
9. Para uma população normal com variância conhecida, responda:
σ
a) Qual o nı́vel de confiança para o intervalo x ± 2.14 √ ?
n
b) Quais os valores de z que levam a um intervalo de 94% de confiança?

10. (Adaptado de Anderson et al. (2007)) Uma rádio do estado anunciou que 90% dos hotéis da Serra Gaúcha estariam
lotados no final de semana do dia dos pais. A estação aconselhou os ouvintes a fazerem reserva antecipada para
se hospedar na Serra nestes dias. No sábado à noite uma amostra de 58 hotéis revelou que 49 diziam “sem vagas”.
Qual é a sua reação à afirmação da rádio, depois de ver a evidência da amostra? Use 5% de nı́vel de significância.

11. (Adaptado de Magalhães and Lima (2002)) Uma variável aleatória tem distribuição normal com desvio padrão igual
a 12. Estamos testando se a média é igual ou diferente de 20. Para isso coletamos uma amostra de tamanho 100,
obtendo uma média amostral de 17.4.

a) Formule as hipóteses.
b) Obtenha a região crı́tica e dê a conclusão para os seguintes nı́veis de significância: 1%, 5% e 10%.
c) Construa um intervalo com 95% de confiança para a média. Interprete.

12. (Adaptado de Pagano (2004)) A distribuição da pressão sanguı́nea diastólica na população de mulheres diabéticas
segue distribuição Normal com média desconhecida. Os médicos desejam saber se esta média é a mesma da população
de mulheres sem diabetes, que é 74.4 mmHg.

a) Construa as hipóteses.
b) Uma amostra de 10 mulheres diabéticas foi selecionada. A amostra apresentou média x̄10 = 84 mmHg e desvio
padrão s10 = 9.1 mmHg. Faça o teste bilateral para testar as hipóteses do item (a), com 5% de nı́vel de
significância.
c) Calcule o valor p do teste.
d) A conclusão teria sido a mesma se tivéssemos escolhido um nı́vel de significância de 1%?
e) Construa um intervalo com 90% de confiança e outro com 95%. Compare. O que acontece quando aumentamos
a confiança do intervalo?

13. (Adaptado de Anderson et al. (2007)) Na Western University, a média histórica da pontuação nos exames para
obtenção de bolsas de estudo é 900. Uma amostra de tamanho n = 200 foi observada, de onde se calculou x̄ = 935.
Presume-se ainda que o desvio padrão da população é conhecido e igual a σ = 180.

a) O vice-reitor deseja avaliar se a média histórica se modificou. Estabeleça as hipóteses.


b) Construa o intervalo de confiança de 95% sob H0 para testar as hipóteses estabelecidas no item (a). Qual a sua
conclusão?

14. Uma empresa que fornece serviços de digitação (antiga datilografia) afirma que seus digitadores cometem, em média,
não mais do que 3 erros de digitação por página. Uma amostra aleatória de 25 páginas digitadas pela empresa foi
selecionada, e neste grupo foi contabilizado um total de 80 erros e um desvio padrão de 0.4 erro por página.

a) Quais as estimativas por ponto da média e do desvio padrão populacionais?


b) Defina as hipóteses.
c) Utilizando nı́vel de significância de 5%, você aceita ou rejeita a hipótese apresentada pela empresa? Apresente o
desenvolvimento, a decisão estatı́stica (DE) e a conclusão experimental (CE).
d) Se um livro possui 150 páginas, qual o total de erros de digitação estimado?

15. Uma fábrica que embala certo produto afirma que o conteúdo de suas embalagens contém em média 500g. Um
consumidor com bastante tempo livre resolveu fazer o teste, comprando 25 embalagens do produto e pesando-as. A
média dos pesos (massas, para ser fisicamente mais preciso) foi de 492g, e o desvio padrão de 30g.

a) Se o objetivo do órgão fiscalizador é decidir se a fábrica deve ou não ser multada, quais as hipóteses mais
adequadas neste caso?
b) Utilizando nı́vel de significância de 5%, a fábrica deve ser multada? Apresente o desenvolvimento, a distribuição
utilizada, a estatı́stica do teste e o valor crı́tico.

16. A fábrica de automóveis WMB afirma que seus carros têm um rendimento médio de 10.4 km/L. Uma locadora,
especializada em modelos da WMB observou uma amostra de 25 carros, obtendo uma média de 9.8 km/L e um
desvio padrão de 2.3 lm/L. Com α = 5% pode-se aceitar que os carros apresentam rendimento médio igual ao
declarado pela fábrica?

Page 100
DRAFT VERSION

“ Se queres conhecer o passado, examina o presente que é o resultado;


se queres conhecer o futuro, examina o presente que é a causa.”
∼ Confúcio

5 Modelos Lineares
5.1 Correlação
Correlação é uma medida do (grau de) alinhamento entre duas v.a. quantitativas.
Intuitivamente pode-se considerar as nuvens de pontos cruzando x e y, apresentadas sem os eixos na
Figura 5.172 . Note que os alinhamentos perfeitos apresentam correlação +1 (ascendente) e −1 (descen-
dente). À medida que a nuvem de pontos fica menos linear, a correlação vai para zero.

Figura 5.1: Alguns exemplos de relacionamento entre duas variáveis quantitativas e suas correlações

5.1.1 ρ, a correlação universal


A correlação universal de duas v.a. X e Y é definida por
cov(X, Y )
ρ = cor(X, Y ) = , (123)
D(X)D(Y )
onde

cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] (124)

é a covariância entre X e Y , D(X) e D(Y ) são respectivamente os desvios padrão73 de X e Y e

−1 ≤ ρ ≤ +1 (125)

0 ≤ |ρ| ≤ +1. (126)


72 https://commons.wikimedia.org/wiki/File:Correlation_examples.png
73 Seções 2.4.3, 3.3.1 e 3.4.1.

Page 101
DRAFT VERSION
Se |ρ| = +1, então existe uma relação linear da forma Y = β0 + β1 X. Se ρ = +1, β1 > 0; se ρ = −1,
β1 < 0. Se X é independente de Y , então ρ = 0, mas o contrário não é necessariamente verdadeiro74 .
No senso comum, ‘correlação’ possui uma ampla gama de significados. Até mesmo na Estatı́stica existe
uma pequena confusão entre as diferentes terminologias. O termo também se refere à correlação amostral,
geralmente calculada através da(o) (coeficiente de) correlação (amostral) (de Pearson), descrita(o) na
Seção 5.1.2. Nesta seção aborda-se ainda a correlação no caso da Regressão Pela Origem (RPO), denotada
por rRP O .
Exemplo 5.1. (Dados bivariados) Considere a idéia de estimar o número de garrafas de bebida a serem
geladas dependendo da temperatura máxima do dia. Seja X: ‘temperatura máxima do dia em ◦ C’ e Y :
‘número de garrafas de bebida consumidas’, observadas conforme Tabela 5.1.

i xi yi i xi yi i xi yi
1 29.5 145 11 28.5 183 21 40.9 233
2 31.3 170 12 28.0 158 22 28.6 169
3 34.7 167 13 36.7 181 23 36.1 192
4 40.4 244 14 31.5 123 24 27.1 106
5 28.4 159 15 38.1 223 25 29.5 170
6 40.3 195 16 33.5 176 26 31.6 167
7 41.1 225 17 37.2 196 27 25.2 133
8 36.2 206 18 41.9 238 28 31.5 138
9 35.7 200 19 31.5 184 29 39.8 199
10 26.1 134 20 38.2 213 30 30.8 172

Tabela 5.1: Temperatura máxima do dia (X, em ◦ C) e Consumo de bebida (Y , em # garrafas)

Um gráfico de dispersão75 pode ajudar a explorar o comportamento da temperatura e garrafas consu-


midas. O RStudio pode ajudar.
240
220
200
180
gar

160
140
120

25 30 35 40

temp

Figura 5.2: Dispersão de X e Y

74 Sob certas condições de regularidade – e.g. normalidade – a recı́proca é verdadeira.


75 Seção 2.6.5.

Page 102
DRAFT VERSION
> # Lendo o arquivo 'drinks.txt' direto do link
> dr <- read.table('http://www.filipezabala.com/data/drinks.txt', head=T)
> plot(dr)
> summary(dr)

temp gar
Min. :25.20 Min. :106.0
1st Qu.:29.50 1st Qu.:161.0
Median :32.55 Median :178.5
Mean :33.66 Mean :180.0
3rd Qu.:37.88 3rd Qu.:199.8
Max. :41.90 Max. :244.0

5.1.2 r, (coeficiente de) correlação (amostral) (de Pearson)


O coeficiente de correlação (amostral) (de Pearson), denotado por r, pode ser obtido por qualquer
uma das equações a seguir:
n   
1 X xi − x̄ yi − ȳ
r = (127)
n i=1 sx sy

P
(xi − x̄)(yi − ȳ)
r = pP P (128)
(xi − x̄)2 (yi − ȳ)2

P P P
n xi yi − xi yi
r = p , (129)
x2i − ( xi )2 ][n yi2 − ( yi )2 ]
P P P P
[n
onde
n n
1X 1X
x̄ = xi , s2x = (xi − x̄)2 ,
n i=1 n i=1
n n
1X 1X
ȳ = yi , s2y = (yi − ȳ)2 .
n i=1 n i=1
Note pela Equação (127) que r é uma média dos produtos dos pares ordenados (xi , yi ) padronizados,
com i ∈ {1, 2, . . . , n}. Se os pares de produto positivo predominarem, r será positivo. Se os pares de
produto negativo predominarem, r será negativo. Esta estrutura é chamada de momento-produto. A
Equação (128) remete à definição (123), enquanto a Equação (129) é útil para a realização dos cálculos.
Exemplo 5.2. (Correlação de Pearson) Considere novamente os dados do Exemplo 5.1.
O grau de alinhamento das variáveis pode ser estimado pelo coeficiente de correlação de Pearson,
bastando calcular X X
x = 1009.9, x2 = 34729.55,
X X
y = 5399, y 2 = 1006663,
X
xy = 186087.7, n = 30

e substituir na Equação (129), resultando em

30 × 186087.7 − 1009.9 × 5399


r = p
[30 × 34729.55 − (1009.9)2 ][30 × 1006663 − (5399)2 ]
130180.9
= √
21988.49 × 1050689
r ≈ 0.85647063.

Page 103
DRAFT VERSION
> # Lendo o arquivo 'drinks.txt' direto do link
> attach(read.table('http://www.filipezabala.com/data/drinks.txt', head=T))
> cor(temp,gar) ao 'cor'
# Pela funç~

[1] 0.8564706

5.1.3 Teste para ρ


Da mesma forma que foram realizados testes de hipótese para a média (H0 : µ = µ0 ) e proporção
(H0 : π = π0 ), usualmente testa-se a significância de outros parâmetros universais, tal como a correlação
(H0 : ρ = ρ0 ). O teste básico é comparar ρ com zero, que indica ausência completa de alinhamento entre
as variáveis. Assim, testa-se H0 : ρ = 0 (não há correlação) vs H1 : ρ 6= 0 (há correlação), denotado por

H0 : ρ = 0
.
H1 : ρ 6= 0

Se considerarmos o modelo completo na forma β0 na forma Y = β0 + β1 X, então sob H0

r
(n − 2)
T =r ∼ tn−2 . (130)
1 − r2
Exemplo 5.3. (Verificando o alinhamento no modelo completo) Considere novamente as informações
apresentadas no Exemplo 5.2. Pode-se testar

H0 : ρ = 0
H1 : ρ 6= 0

considerando o modelo completo Y = β0 + β1 X, implicando em T ∼ t30−2 ≡ t28 e que sob H0 resulta em


r
(30 − 2)
T = 0.8564706 ≈ 8.780.
1 − 0.85647062

> n <- 30
> r <- cor(temp,gar)
> (Tt <- r*sqrt((n-2)/(1-r^2)))

[1] 8.779647

> (p_value <- 2*pt(-abs(Tt),n-2))

[1] 1.568402e-09

> cor.test(temp,gar) # Funç~


ao que realiza o teste de hipótese

Pearson's product-moment correlation

data: temp and gar


t = 8.7796, df = 28, p-value = 1.568e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7176348 0.9298311
sample estimates:
cor
0.8564706

Page 104
DRAFT VERSION
5.1.4 ρRP O e rRP O , a correlação na Regressão Pela Origem
Existe um caso especial de cálculo de correlação chamado Regressão Pela Origem (RPO) – descrito
detalhadamente na Seção 5.2.1 – que pode ser omitido em uma primeira leitura. Nestes casos pode-se
calcular rRP O através da expressão

sP
ŷi2
rRP O = . (131)
yi2
P

Exemplo 5.4. (Correlação na RPO) Considere as informações do Exemplo 5.2. Pode-se calcular

997094.2 √
r
rRP O = = 0.9904945 ≈ 0.9952359.
1006663
P 2
Para detalhes do cálculo de ŷi vide Exemplo 5.10.
,

Teste para ρRP O

No caso do modelo RPO ou ‘sem intercepto’, no qual β0 = 0, na forma Y = β1 X + ε, as hipóteses são



H0 : ρRP O = 0
.
H1 : ρRP O 6= 0
Sob H0 , a estatı́stica do teste é

s
(n − 1)
TRP O = rRP O 2 ∼ tn−1 . (132)
1 − rRP O

Exemplo 5.5. (Verificando o alinhamento no modelo RPO) Considere as informações do Exemplo 5.4.
Pode-se testar
No caso do modelo RPO na forma Y = β1 X ocorre TRP O ∼ t30−1 ≡ t29 , que sob H0 resulta em
r
(30 − 1)
TRP O = 0.9952359 ≈ 54.972.
1 − 0.99523592

> n <- 30
> r_rpo <- 0.9952359
> (T_rpo <- r_rpo*sqrt((n-1)/(1-r_rpo^2)))

[1] 54.97149

> (p_value <- 2*pt(-abs(T_rpo),n-1))

[1] 7.072562e-31

5.2 Modelo Linear Univariado ou Regressão Linear Simples


Modelo linear univariado ou regressão linear simples é um conjunto de métodos utilizado para ajustar
uma reta76 a uma nuvem de pontos observada. Esta nuvem de pontos é formada por pares ordenados
(xi , yi ). A aplicabilidade é imediata, pois consegue-se uma regra entre uma variável independente (usu-
almente denotada por X) e uma variável dependente (usualmente Y ). A qualidade do ajuste depende
do grau de alinhamento entre X e Y . Conforme apresentado na Seção 5.1, sabe-se que se |ρ| = +1,
então existem constantes β0 e β1 tal que Y = β0 + β1 X. Na prática, porém, é bastante improvável
76 Veja o Apêndice D para maiores detalhes.

Page 105
DRAFT VERSION
encontrarmos variáveis com alinhameto perfeito. Por este motivo considera-se o caso geral |ρ| < +1,
descrito na forma

Y = β0 + β1 X + ε. (133)

Na linguagem usual denota-se β0 por coeficiente linear, termo independente ou intercepto. β1 é conhecido
como coeficiente angular. O termo de erro ε aparece devido ao fato de os pontos não se alinharem
perfeitamente. Assim supõe-se que os erros se distribuam normalmente com média zero e variância σε2 ,
i.e.,

ε ∼ N (0, σε2 ). (134)

A Figura 5.3 ilustra os casos de alinhamento perfeito (ε = 0) e com ruı́do (ε ∼ N (0, σε2 )), indicado pelas
linhas verticais. A distribuição de Y condicionada em X é Y |X = x ∼ N (β0 + β1 x, σε2 ).

(a) ε = 0 (b) ε ∼ N (0, σ 2 )

Figura 5.3: Alinhamento perfeito (Y = β0 + β1 X) e alinhamento com ruı́do normal (Y = β0 + β1 X + ε)

5.2.1 Equação da reta via Mı́nimos Quadrados Ordinários


A Equação (133) refere-se ao modelo universal, i.e., construı́do com todos os N pares ordenados do
universo. Na maioria dos casos práticos, entretanto, trabalha-se com amostras, tornando-se necessário
estimar os valores de β̂0 e β̂1 . O método dos Mı́nimos Quadrados (Ordinários) é utilizado para calcular
estas estimativas. O princı́pio do método é minimizar a soma de quadrado dos erros, i.e.,
n
X
minimizar ε2i . (135)
i=1

Basicamente utiliza-se εi = yi − β0 − β1 xi na Equação (135) e deriva-se em relação a β0 e β1 , fazendo


cada uma das derivadas parciais igual a zero77 .
As estimativas por mı́nimos quadrados para o modelo Y = β0 + β1 X + ε são dadas por
P P P
n xi yi − xi yi
β̂1 = P 2 P (136)
n xi − ( xi ) 2
e

β̂0 = ȳ − β̂1 x̄. (137)


77 Para maiores detalhes, veja Morettin and Bussab (2008) e DeGroot and Schervish (2002).

Page 106
DRAFT VERSION
Exemplo 5.6. (Equação da reta por MQO para Y = β0 + β1 X + ε) A partir das Equações (136), (137)
e das informações do Exemplo 5.2, pode-se calcular
30 × 186087.7 − 1009.9 × 5399 130180.9
β̂1 = 2
= ≈ 5.9204
30 × 34729.55 − (1009.9) 21988.49
e
5399 1009.9
β̂0 = − 5.9204 × ≈ −19.3341.
30 30
Assim, se estiver previsto 39 ◦ C para amanhã, espera-se o consumo de

ŷ = −19.3341 + 5.9204 × 39 = 211.5619 ≈ 212


garrafas de bebida em volta da piscina.
,

> summary(lm(gar ~ temp)) # Facilita duas barbaridades

Call:
lm(formula = gar ~ temp)

Residuals:
Min 1Q Median 3Q Max
-44.159 -8.965 3.582 10.810 33.602

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -19.3341 22.9437 -0.843 0.407
temp 5.9204 0.6743 8.780 1.57e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.26 on 28 degrees of freedom


Multiple R-squared: 0.7335, Adjusted R-squared: 0.724
F-statistic: 77.08 on 1 and 28 DF, p-value: 1.568e-09

Regressão Pela Origem (RPO)

Existem casos em que há razões teóricas para supor Y = 0 quando x = 0. Nestas situações cabe
definir uma Regressão Pela Origem 78 (RPO), i.e., assume-se a priori que β0 = 0. A estimativa por
mı́nimos quadrados para o modelo Y = β1 X + ε é dada por
P
xi yi
β̂1 = P 2 . (138)
xi

Exemplo 5.7. (Churras) Todas as pessoas que possuem 0 ou 1 no segundo dı́gito da carteira de identidade
sabem que para um bom churrasco deve-se comprar meio quilo de carne por pessoa. Assim, pode-se definir
o modelo
Y = 0.5x,
onde x é o número de participantes e Y é a quantidade de carne a ser adquirida. Note que Y = 0 quando
x = 0, i.e., quando não há pessoas para o churras, o ideal é não comprar carne.
,
Exemplo 5.8. (Equação da reta por MQO para Y = β1 X+ε) A partir da Equação (138) e das informações
do Exemplo 5.2, pode-se calcular
186087.7
β̂1 = ≈ 5.358195.
34729.55
Assim, se estiver previsto 39 ◦ C para amanhã, espera-se o consumo de
78 Para mais detalhes sobre esta classe de modelos sugere-se a leitura de Eisenhauer (2003).

Page 107
DRAFT VERSION
ŷ = 5.358195 × 39 = 208.9696 ≈ 209
garrafas de bebida em volta da piscina. Note que Y = 0 quando x = 0, tal como no caso do Exemplo 5.7.

> summary(lm(gar ~ temp - 1)) # -1 indica o modelo sem intercepto

Call:
lm(formula = gar ~ temp - 1)

Residuals:
Min 1Q Median 3Q Max
-45.783 -11.262 3.533 12.008 30.291

Coefficients:
Estimate Std. Error t value Pr(>|t|)
temp 5.35819 0.09747 54.97 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.16 on 29 degrees of freedom


Multiple R-squared: 0.9905, Adjusted R-squared: 0.9902
F-statistic: 3022 on 1 and 29 DF, p-value: < 2.2e-16

5.2.2 Análise de diagnóstico


A análise de diagnóstico consiste na avaliação da qualidade dos modelos ajustados de acordo com
determinadas métricas. A rigor não é recomendado tirar conclusões de um modelo sem antes avaliar sua
qualidade, tal como apresentado nos Exemplos 5.6 e 5.8. A sequência de testes e avaliações sugeridas a
seguir não esgotam as possibilidades de diagnóstico, mas podem ser consideradas como avaliações básicas
para qualquer modelo linear.

Teste para β1

O teste para β1 é fundamental na análise de diagnóstico. É com ele que decide-se a respeito da
presença ou ausência de relação linear entre X e Y . Particularmente no caso da regressão linear simples,
os testes para β1 e ρ79 são equivalentes. As hipóteses do teste para β1 são

H0 : β1 = β1∗

.
H1 : β1 6= β1∗
No caso do modelo completo Y = β0 + β1 X + ε, sob H0

β̂1 − β1∗
T1 = ∼ tn−2 , (139)
ep(β̂1 )

onde
s sP
n
σ̂ 2 (y − ŷi )2 /(n − 2)
ep(β̂1 ) = = Pni
i=1
2
. (140)
Sxx i=1 (xi − x̄)

Apesar do uso do valor genérico β1∗ , é usual testar H0 : β1 = 0 (não há correlação, ou X não explica
Y linearmente) vs H1 : β1 6= 0 (há correlação, ou X explica Y linearmente), tal como no teste para
ρ. A medida ep(β̂1 ) é o erro padrão de β̂1 , que depende das distâncias entre os valores observados yi e
os valores estimados pelo modelo, denotados por ŷi . Os valores estimados pelo modelo são obtidos por
ŷi = β̂0 + βˆ1 xi .
79 Seção 5.1.4

Page 108
DRAFT VERSION
Exemplo 5.9. (Teste para β1 em Y = β0 + β1 X + ε) Considere as informações dos Exemplos 5.2, 5.3 e
5.6. Pode-se testar H0 : β1 = 0 vs H1 : β1 6= 0 calculando-se inicialmente ŷi = β̂0 + βˆ1 xi por

ŷ1 = −19.3341 + 5.9204 × 29.5 = 155.3180


ŷ2 = −19.3341 + 5.9204 × 31.3 = 165.9748
..
.

ŷ30 = −19.3341 + 5.9204 × 30.8 = 163.0146.

Assim,
30
X
(yi − ŷi )2 = (145 − 155.3180)2 + (170 − 165.9748)2 + . . . + (172 − 163.0146)2 = 9332.152
i=1

e
30  2  2
X
2 1009.9 1009.9
(xi − x̄) = 29.5 − + . . . + 30.8 − = 732.9497.
i=1
30 30

Pela Equação (140) o erro padrão de β̂1 é dado por


r
9332.152/(30 − 2)
ep(β̂1 ) = ≈ 0.6743336,
732.9497
que sob H0 resulta em
5.9204 − 0
T1 = ≈ 8.780.
0.6743336
Pela linha ν = 30 − 2 = 28 da Tabela t (pg. 133) sabe-se que P r(T > 8.780) < 0.0005 = P r(T >
3.674), i.e., p = 2P r(T > 8.780) < 2 × 0.0005 = 0.001. Pelo nomograma da Figura 3.6b (pg. 71)
verifica-se uma considerável significância, onde p < 1 − 0.999999 = 0.000001. O p calculado via software
resulta em p = 7.842031 × 10−10 = 0.0000000007842031.
,
Note a equivalência entre os testes para ρ (Exemplo 5.3) e β1 (Exemplo 5.9). No caso da RPO
Y = β1 X + ε, sob H0

β̂1 − β1∗
T1 = ∼ tn−1 , (141)
ep(β̂1 )
onde
s sP
n 2
σ̂ 2 i − ŷi ) /(n
i=1 (yP − 1)
ep(β̂1 ) = = n 2 . (142)
Sxx i=1 xi

Exemplo 5.10. (Teste para β1 em Y = β1 X + ε) Considere as informações dos Exemplos 5.2, 5.4 e 5.5.
Pode-se testar H0 : β1 = 0 vs H1 : β1 6= 0 calculando-se inicialmente ŷi = βˆ1 xi por

ŷ1 = 5.358195 × 29.5 = 158.0668


ŷ2 = 5.358195 × 31.3 = 167.7115
..
.

ŷ30 = 5.358195 × 30.8 = 165.0324.

Assim,
30
X
(yi − ŷi )2 = (145 − 158.0668)2 + (170 − 167.7115)2 + . . . + (172 − 165.0324)2 = 9568.823.
i=1

Page 109
DRAFT VERSION
Pela Equação (142), o erro padrão de β̂1 é dado por
r
9568.823/(30 − 1)
ep(β̂1 ) = ≈ 0.09747218,
34729.55
que sob H0 resulta em
5.358195 − 0
T1 = ≈ 54.972.
0.09747218
Pela linha ν = 30 − 1 = 29 da Tabela t (pg. 133) sabe-se que P r(T > 54.972) < 0.0005 = P r(T >
3.674), i.e., p = 2P r(T > 54.972) < 2 × 0.0005 = 0.001. Pelo nomograma da Figura 3.6b (pg. 71)
verifica-se uma considerável significância, onde p < 1 − 0.999999 = 0.000001. O p calculado via software
resulta em p = 0.0000000.
,

Teste para β0

As hipóteses para o teste do intercepto β0 são

H0 : β0 = β0∗

.
H1 : β0 6= β0∗
Sob H0 ,

β̂0 − β0∗
T0 = ∼ tn−2 , (143)
ep(β̂0 )

onde
s  s Pn
x̄2 2 1 x̄2
  
1 i=1 (yi − ŷi )
ep(β̂0 ) = σ̂ 2 + = + Pn 2
. (144)
n Sxx n−2 n i=1 (xi − x̄)

A medida ep(β̂0 ) é o erro padrão de β̂0 . Novamente o padrão é testar H0 : β0 = 0. Caso o teste não
indique a rejeição de H0 , basta utilizar a RPO e recalcular β̂1 conforme Equação (138).
Exemplo 5.11. (Teste para β0 ) Considere novamente as informações dos Exemplos 5.2, ??, 5.3, 5.6 e
5.9. Pode-se testar H0 : β0 = 0 vs H1 : β0 6= 0 calculando
s
(1009.9/30)2
 
9332.152 1
ep(β̂0 ) = + ≈ 22.94372,
30 − 2 30 732.9497
que sob H0 resulta em
−19.3341 − 0
≈ −0.843.
T0 =
22.94372
Pela linha ν = 30 − 2 = 28 da Tabela t (pg. 133) sabe-se que 0.10 < P r(T > 0.843) < 0.25, i.e.,
0.20 < p < 0.50. O nomograma da Figura 3.6b (pg. 71) indica p > 0.05. O p calculado via software
resulta em p = 0.4065509.
,

Page 110
DRAFT VERSION
Análise dos resı́duos

Resı́duo é a diferença entre o valor observado (yi ) e o valor estimado por um modelo (ŷi ), a partir
de uma amostra. Quanto menor esta diferença, melhor será o ajuste do modelo aos dados, podendo-se
obter resı́duo zero no caso particular em que todos os pontos estão sobre a curva (Figura 5.3a).
Como existe a suposição ε ∼ N (0, σε2 ) no universo, espera-se que os resı́duos tenham distribuição
aproximadamente normal com média zero. Para validar o modelo, porotanto, procede-se com testes do
hipótese para avaliar H0 : a distribuição é normal e H0 : µε = 0. Existem diversos testes de normalidade
na literatura, sem haver um teste ótimo em relação aos demais. A linguagem R oferece por padrão o
teste de normalidade de Shapiro-Wilk através da função stats::shapiro.test.
Além dos testes utiliza-se usualmente o qq-plot, que indica graficamente o quão próximos os resı́duos
estão de uma normal teórica. A Figura 5.4 apresenta gráficos de qq-plot para diferentes distribuições de
probabilidade. Na Figura 5.4a é possı́vel notar um ajuste bastante adequado aos dados simulados a partir
de uma distribuição normal teórica. Na Figura 5.4b estão os dados simulados de uma distribuição t, cujas
caudas pesadas aparecem descoladas da reta nos extremos. A distribuição de Poisson, apresentada na
Figura 5.4c, é uma distribuição discreta e fica nitidamente mal ajustada à reta teórica. O último exemplo
(Figura 5.4d) é de uma distribuição qui-quadrado, com assimetria explı́cita no gráfico.

(a) Normal (b) t

(c) Poisson (d) Qui-quadrado

Figura 5.4: QQ-plot para diferentes distribuições

Page 111
DRAFT VERSION
Exemplo 5.12. (Resı́duos) Dos Exemplos 5.6 e 5.8 podem-se ajustar qq-plots como na Figura 5.5.

(a) RPO, Y = 5.3582x (b) Completo, Y = −19.3341 + 5.9204x

Figura 5.5: QQ-plots

> # Teste de resı́duos do modelo RPO


> fit0 <- lm(gar ~ temp-1)
> shapiro.test(fit0$residuals)

Shapiro-Wilk normality test

data: fit0£residuals
W = 0.9498, p-value = 0.167

> # Teste de resı́duos do modelo completo


> fit <- lm(gar ~ temp)
> shapiro.test(fit$residuals)

Shapiro-Wilk normality test

data: fit£residuals
W = 0.95569, p-value = 0.2394

,
Coeficiente de Determinação r2
O coeficiente de determinação é uma medida de avaliação da qualidade do ajuste de um modelo. O
princı́pio é comparar a Soma de Quadrado dos Resı́duos do modelo ajustado (SQRmodelo ) com a Soma
de Quadrado dos Resı́duos do modelo nulo (SQRmodelo nulo ) através da expressão
(yi − ŷ)2
P
2 SQRmodelo
r =1− =1− P . (145)
SQRmodelo nulo (yi − ȳ)2
O modelo nulo é um modelo de referência, geralmente ȳ. Usualmente define-se r2 como a proporção
da variação de Y que é explicada ajustando-se um particular modelo que depende de X. No caso da
regressão linear simples, o coeficiente de determinação é dado pelo quadrado do coeficiente de correlação
de Pearson, sendo simplesmente r2 .
Uma caracterı́stica importante é que a magnitude de r2 depende da amplitude de variação do X,
conforme Figura 5.6a. Anscombe (1973) sugeriu quatro conjuntos de dados com mesma média de X e Y,
porém com comportamentos bem diferentes, conforme Figura 5.6b. A conclusão de Anscombe é que um
r2 alto não assegura uma relação válida, portanto deve-se sempre avaliar o r2 juntamente com o gráfico
de dispersão.

Page 112
DRAFT VERSION

12

12
10

10
y1

y2
8

8
6

6
4

4
5 10 15 5 10 15

x1 x2

12

12
10

10
y3

y4
8

8
6

6
4

4
5 10 15 5 10 15

x3 x4

(a) r2 para diferentes amplitudes de X (b) Conjuntos de dados de Anscombe

Figura 5.6: Dispersão de X e Y

> summary(anscombe[,1:4]) # Medidas de posiç~


ao para x

x1 x2 x3 x4
Min. : 4.0 Min. : 4.0 Min. : 4.0 Min. : 8
1st Qu.: 6.5 1st Qu.: 6.5 1st Qu.: 6.5 1st Qu.: 8
Median : 9.0 Median : 9.0 Median : 9.0 Median : 8
Mean : 9.0 Mean : 9.0 Mean : 9.0 Mean : 9
3rd Qu.:11.5 3rd Qu.:11.5 3rd Qu.:11.5 3rd Qu.: 8
Max. :14.0 Max. :14.0 Max. :14.0 Max. :19

> summary(anscombe[,5:8]) # Medidas de posiç~


ao para y

y1 y2 y3 y4
Min. : 4.260 Min. :3.100 Min. : 5.39 Min. : 5.250
1st Qu.: 6.315 1st Qu.:6.695 1st Qu.: 6.25 1st Qu.: 6.170
Median : 7.580 Median :8.140 Median : 7.11 Median : 7.040
Mean : 7.501 Mean :7.501 Mean : 7.50 Mean : 7.501
3rd Qu.: 8.570 3rd Qu.:8.950 3rd Qu.: 7.98 3rd Qu.: 8.190
Max. :10.840 Max. :9.260 Max. :12.74 Max. :12.500

> sqrt((colMeans(anscombe^2)-(colMeans(anscombe))^2)*11/10) # Desvios padr~


ao

x1 x2 x3 x4 y1 y2 y3 y4
3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579

> cor(anscombe[,c('x1','y1')])[1,2]^2 # Coeficiente de determinaç~


ao de (x1,y1)

[1] 0.6665425

> cor(anscombe[,c('x2','y2')])[1,2]^2 # Coeficiente de determinaç~


ao de (x2,y2)

[1] 0.666242

> cor(anscombe[,c('x3','y3')])[1,2]^2 # Coeficiente de determinaç~


ao de (x3,y3)

[1] 0.666324

> cor(anscombe[,c('x4','y4')])[1,2]^2 # Coeficiente de determinaç~


ao de (x4,y4)

[1] 0.6667073

Page 113
DRAFT VERSION
Exemplo 5.13. (Coeficiente de determinação do modelo completo) Primeiramente calcula-se a SQRmodelo nulo
por
30   2   2
X
2 5399 5399
(yi − ȳ) = 145 − + . . . + 172 − = 35022.97.
i=1
30 30
Do Exemplo 5.9 sabe-se que
30
X
(yi − ŷi )2 = 9332.152,
i=1

permitindo que se obtenha


9332.152
r2 = 1 − ≈ 0.7335419.
35022.97
Note que do Exemplo 5.2 pode-se calcular diretamente r2 = 0.85647062 ≈ 0.7335419. Com a linguagem
R pode-se utilizar a função stats::cor.

> cor(temp,gar)^2

[1] 0.7335419

EXERCÍCIOS
1. Um corretor-cientista percebeu um alinhamento razoável entre a metragem quadrada (x) dos imóveis que vende e o
preço de imóveis (y) em localizações próximas, e ajustou um modelo linear entre x e y com base em 8 apartamentos
do seu portfolio. Encontrou a equação

f (x) = y = 2192.04x − 14401.57.

a) O corretor calculou uma correlação de 0.9586. Faça o teste de hipóteses apropriado com α = 0.05 e interprete o
coeficiente de correlação.
b) Interprete o coeficiente angular no contexto do problema.
c) Se um cliente deste corretor pedisse R$150, 000.00 por um apartamento de 55m2 , você acharia que o preço está
adequado? Justifique.

2. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista
selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular
(Y), resultando na reta de regressão
y = −0.4x + 55

a) Se a correlação de Pearson foi igual a −0.837, teste H0 : ρ = 0 com α = 5%.


b) Considerando a reta fornecida, estime a massa muscular média de mulheres com 60 anos.
c) Interprete o coeficiente angular no contexto do problema.

Page 114
DRAFT VERSION
3. Considere as notas de 10 alunos em duas provas de certa disciplina, apresentadas na tabela abaixo.

P1 (x) 2.0 3.2 4.0 4.0 5.0 5.6 7.0 8.3 9.3 10.0
P2 (y) 3.0 5.0 6.0 5.0 7.0 8.0 7.0 8.0 8.0 9.6

(a) Modelo com intercepto (b) Modelo sem intercepto

a) Calcule e teste a significância da correlação amostral com α = 1%.


b) Compare os valores Multiple R-Squared com a correlação calculada no item anterior. O que você observa?
c) A partir da análise de diagnóstico apresentada, escolha o melhor regressão e escreva na forma y = β̂0 + β̂1 x.
Justifique sua escolha.
d) Compare os testes para a correlação amostral e para β̂1 dos dois modelos. O que você observa?
e) Utilizando o modelo escolhido, calcule quanto espera-se que um aluno tire na P2 sendo que sua P 1 = 5.6.

Page 115
DRAFT VERSION
4. Seu Macedo desconfia que a venda diária de picolés da sua budega está linearmente relacionada com a temperatura
máxima do dia. Para isso ajustou dois modelos lineares a partir de 9 pares de observações, apresentados a seguir.

(a) Modelo com intercepto (b) Modelo sem intercepto

a) Teste a significância da correlação amostral com α = 5%.


b) A partir da análise de diagnóstico apresentada, escolha o melhor regressão e escreva na forma y = β̂0 + β̂1 x.
Justifique sua escolha.
c) Compare os testes para a correlação amostral e para β̂1 . O que você observa?
d) Utilizando o modelo escolhido, quantos picolés seu Macedo estima vender quando observar uma temperatura
máxima de 22 graus Celsius?
e) Se seu Macedo vendeu 340 picolés em um dia, qual a temperatura máxima esperada para aquele dia?

Page 116
DRAFT VERSION
5. Durante os eventos esportivos disponibilizam-se locais abertos para o público assistir aos jogos. O número de pessoas
que comparecem a estes locais (y) parece estar relacionado com a quantidade de chuva (x) observada no dia dos
jogos. Para avaliar esta relação, observou-se a precipitação e o público presente durante 7 dias em um certo local de
eventos.

(a) Modelo com intercepto (b) Modelo sem intercepto

a) Qual a sua decisão sobre H0 : ρ = 0 vs H1 : ρ 6= 0? Argumente.


b) Sugira um modelo, indicando-o na forma y = β̂0 + β̂1 x. Justifique indicando os testes de hipóteses utilizados,
juntamente com seus p-values (coluna Pr(>|t|)) e comparação dos qq-plots.
c) Interprete o coeficiente angular β̂1 no contexto do problema.
d) Se a previsão do tempo indica 12 mm de chuva, qual o público estimado para este dia utilizando o modelo
escolhido no item (b)?

Page 117
DRAFT VERSION
6. Um estudo apontou a nota média em certa disciplina (y) de 10 alunos em função do número de horas mensais de
estudo (x).

(a) Modelo com intercepto (b) Modelo sem intercepto

a) Qual a sua decisão sobre H0 : ρ = 0 vs H1 : ρ 6= 0? Argumente.


b) Sugira um modelo, indicando-o na forma y = β̂0 + β̂1 x. Justifique indicando os testes de hipóteses utilizados,
juntamente com seus p-values (coluna Pr(>|t|)).
c) Interprete o coeficiente angular β̂1 no contexto do problema.
d) Se uma pessoa estuda 15 horas por mês, qual sua nota média esperada nesta disciplina? Utilize o modelo escolhido
no item (b).

Page 118
DRAFT VERSION

“ Talvez meu verso não diga tudo que eu quero dizer,


mas é com poucas palavras que muitos vão entender.”
∼ Gaúcho da Fronteira, 1981

6 Modelos Não Lineares


Modelos não lineares podem assumir formas funcionais quaisquer, contendo polinômios, logarı́tmos,
raı́zes, etc.

> # Lendo dados


> x <- read.table('http://www.filipezabala.com/data/drinks.txt', head=T)
> attach(x)
> # Descritivas
> summary(x)

temp gar
Min. :25.20 Min. :106.0
1st Qu.:29.50 1st Qu.:161.0
Median :32.55 Median :178.5
Mean :33.66 Mean :180.0
3rd Qu.:37.88 3rd Qu.:199.8
Max. :41.90 Max. :244.0

> # Correlaç~
ao
> cor.test(temp,gar)

Pearson's product-moment correlation

data: temp and gar


t = 8.7796, df = 28, p-value = 1.568e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7176348 0.9298311
sample estimates:
cor
0.8564706

> # Diagnostico
> d <- function(modelo){
print(summary(modelo))
par(mfrow=c(2,2));plot(modelo, which = 1:4)
print(shapiro.test(modelo$residuals))
print(paste0('AIC = ', AIC(modelo)))
}
>

Page 119
DRAFT VERSION
> # linear
> fit <- lm(gar ~ temp)
> d(fit)

Call:
lm(formula = gar ~ temp)

Residuals:
Min 1Q Median 3Q Max
-44.159 -8.965 3.582 10.810 33.602

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -19.3341 22.9437 -0.843 0.407
temp 5.9204 0.6743 8.780 1.57e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.26 on 28 degrees of freedom


Multiple R-squared: 0.7335, Adjusted R-squared: 0.724
F-statistic: 77.08 on 1 and 28 DF, p-value: 1.568e-09

Shapiro-Wilk normality test

data: modelo$residuals
W = 0.95569, p-value = 0.2394

[1] "AIC = 263.337017768869"

Residuals vs Fitted Normal Q−Q


40

Standardized residuals

11 11
20

1
Residuals

0
−2 −1
−40

24
24
14
14

140 160 180 200 220 −2 −1 0 1 2

Fitted values Theoretical Quantiles

Scale−Location Cook's distance


Standardized residuals

14
1.5

24
0.20

24 11
Cook's distance
1.0

11
14
0.10
0.5

0.00
0.0

140 160 180 200 220 0 5 10 15 20 25 30

Fitted values Obs. number

Page 120
DRAFT VERSION
> # quadratico incompleto
> fit2 <- lm(gar ~ I(temp^2))
> d(fit2)

Call:
lm(formula = gar ~ I(temp^2))

Residuals:
Min 1Q Median 3Q Max
-42.503 -8.452 3.270 10.608 33.237

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 78.736614 11.864893 6.636 3.36e-07 ***
I(temp^2) 0.087444 0.009844 8.883 1.23e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.1 on 28 degrees of freedom


Multiple R-squared: 0.7381, Adjusted R-squared: 0.7288
F-statistic: 78.91 on 1 and 28 DF, p-value: 1.228e-09

Shapiro-Wilk normality test

data: modelo$residuals
W = 0.95545, p-value = 0.236

[1] "AIC = 262.818478712006"

Residuals vs Fitted Normal Q−Q


40

Standardized residuals

11 11
20

1
Residuals

0
−2 −1
−40

24
14 24
14

140 160 180 200 220 −2 −1 0 1 2

Fitted values Theoretical Quantiles

Scale−Location Cook's distance


Standardized residuals

1.5

14 24
24
0.20

11
Cook's distance
1.0

11
14
0.10
0.5

0.00
0.0

140 160 180 200 220 0 5 10 15 20 25 30

Fitted values Obs. number

Page 121
DRAFT VERSION
> # cubico incompleto
> fit3 <- lm(gar ~ I(temp^3))
> d(fit3)

Call:
lm(formula = gar ~ I(temp^3))

Residuals:
Min 1Q Median 3Q Max
-41.137 -9.121 2.378 11.678 32.558

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.113e+02 8.413e+00 13.234 1.43e-13 ***
I(temp^3) 1.689e-03 1.904e-04 8.872 1.26e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.12 on 28 degrees of freedom


Multiple R-squared: 0.7376, Adjusted R-squared: 0.7283
F-statistic: 78.72 on 1 and 28 DF, p-value: 1.26e-09

Shapiro-Wilk normality test

data: modelo$residuals
W = 0.9566, p-value = 0.253

[1] "AIC = 262.873279706026"

Residuals vs Fitted Normal Q−Q


40

Standardized residuals

11 11
20

1
Residuals

0
−1
−40

−2

24 14
14 24

140 160 180 200 220 −2 −1 0 1 2

Fitted values Theoretical Quantiles

Scale−Location Cook's distance


1.5
Standardized residuals

24 14 24
0.20

11
Cook's distance
1.0

6
11
0.10
0.5

0.00
0.0

140 160 180 200 220 0 5 10 15 20 25 30

Fitted values Obs. number

Page 122
DRAFT VERSION
> # logaritmico
> fit4 <- lm(gar ~ log(temp))
> d(fit4)

Call:
lm(formula = gar ~ log(temp))

Residuals:
Min 1Q Median 3Q Max
-46.062 -9.816 4.887 12.512 33.590

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -508.37 80.49 -6.316 7.86e-07 ***
log(temp) 196.36 22.94 8.559 2.65e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.6 on 28 degrees of freedom


Multiple R-squared: 0.7235, Adjusted R-squared: 0.7136
F-statistic: 73.26 on 1 and 28 DF, p-value: 2.651e-09

Shapiro-Wilk normality test

data: modelo$residuals
W = 0.95523, p-value = 0.2329

[1] "AIC = 264.448373488171"

Residuals vs Fitted Normal Q−Q


40

Standardized residuals

11 11
20

1
Residuals

0
−2 −1
−40

24
24
14
14

140 160 180 200 220 −2 −1 0 1 2

Fitted values Theoretical Quantiles

Scale−Location Cook's distance


0.20
Standardized residuals

14
1.5

24
24 11
Cook's distance

11 14
1.0

0.10
0.5

0.00
0.0

140 160 180 200 220 0 5 10 15 20 25 30

Fitted values Obs. number

Page 123
DRAFT VERSION
> # Graficos
> par(mfrow=c(1,1))
> plot(temp, gar)
> abline(a = fit$coefficients[1], b = fit$coefficients[2],col = 'red')
> lines(sort(temp), fitted(fit2)[order(temp)], col='blue', type='l')
> lines(sort(temp), fitted(fit3)[order(temp)], col='green', type='l')
> lines(sort(temp), fitted(fit4)[order(temp)], col='black', type='l')
240
220
200
180
gar

160
140
120

25 30 35 40

temp

> # prediç~
ao
> newdata = data.frame(temp=39)
> predict(fit, newdata, interval='predict')

fit lwr upr


1 211.5619 172.8394 250.2845

> predict(fit2, newdata, interval='predict')

fit lwr upr


1 211.7394 173.3466 250.1322

> predict(fit3, newdata, interval='predict')

fit lwr upr


1 211.5443 173.1245 249.9641

> predict(fit4, newdata, interval='predict')

fit lwr upr


1 210.9992 171.5684 250.43

Page 124
DRAFT VERSION
> # erro padrao do residuo - residual standard error / root mean squared error (RMSE)
> aov(gar~temp)

Call:
aov(formula = gar ~ temp)

Terms:
temp Residuals
Sum of Squares 25690.815 9332.152
Deg. of Freedom 1 28

Residual standard error: 18.25626


Estimated effects may be unbalanced

> sqrt(sum(residuals(fit)^2) / df.residual(fit))

[1] 18.25626

> d(fit)

Call:
lm(formula = gar ~ temp)

Residuals:
Min 1Q Median 3Q Max
-44.159 -8.965 3.582 10.810 33.602

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -19.3341 22.9437 -0.843 0.407
temp 5.9204 0.6743 8.780 1.57e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.26 on 28 degrees of freedom


Multiple R-squared: 0.7335, Adjusted R-squared: 0.724
F-statistic: 77.08 on 1 and 28 DF, p-value: 1.568e-09

Shapiro-Wilk normality test

data: modelo$residuals
W = 0.95569, p-value = 0.2394

[1] "AIC = 263.337017768869"

Page 125
DRAFT VERSION

“ Alguém que acredite em crescimento infinito


em um planeta finito
é louco ou economista.”
∼ David Frederick Attenborough

7 Números Índice
m número ı́ndice é uma medida de variação percentual média. É obtido através de um quociente
U expresso em percentual. Números ı́ndices indicam, portanto, variações de preços, quantidades e
valores80 de produtos ou cestas no tempo ou espaço.
Exemplo 7.1. (Variação temporal e espacial) Suponha que o preço de um certo livro tenha variado con-
forme a Tabela 7.1.

Ano
Cidade
2014 2015
A R$ 20.00 R$ 22.00
B R$ 19.70 R$ 22.10
C R$ 21.00 R$ 25.50

Tabela 7.1: Variação temporal e espacial do preço de um livro

Variação temporal. Na cidade A, o ı́ndice de preço de 2015 em relação a 2014 é de

pA
2015 22.00
pA
2014,2015 = = = 110%,
pA
2014 20.00

i.e., o preço deste livro em 2015 é 110% − 100% = 10% superior ao seu preço em 2014 na cidade A.
Como exercı́cio, calcule e interprete a variação de 2014 para 2015 nas demais cidades.

Variação espacial. Em 2014, o ı́ndice de preço da cidade B em relação à cidade A é de

p2014 19.70
p2014
A,B =
B
2014 = = 98.5%,
pA 20.00

i.e., o preço deste livro na cidade B foi 100% − 98.5% = 1.5% inferior àquele praticado na cidade A em
2014. Como exercı́cio, calcule e interprete a variação entre as cidades B e C em relação à cidade A em
2014 e 2015.
,
Na abordagem temporal do Exemplo 7.1, o preço em 2014 é escolhido como base de referência,
também chamado de base de comparação ou ano-base. O ano de 2015 – cujo preço está sendo comparado
com a base de referência – é chamado de ano atual, não necessariamente o ano corrente.

80 valor = preço × quantidade.

Page 126
DRAFT VERSION
7.1 Índices Relativos ou Simples
Os ı́ndices relativos ou simples comparam preços, quantidades e valores de apenas um produto em
dois momentos distintos do tempo.

7.1.1 de Preço

pt
p0,t = (146)
p0

7.1.2 de Quantidade

qt
q0,t = (147)
q0

7.1.3 de Valor

vt pt qt
v0,t = = (148)
v0 p0 q0

Preço unitário (reais) Quantidade comprada


Produto
2008 (p0 ) 2009 (p1 ) 2010 (p2 ) 2008 (q0 ) 2009 (q1 ) 2010 (q2 )
Pão 1.20 1.26 1.30 300 330 360
Leite 1.70 1.80 2.00 150 150 180
Ovos 3.10 3.27 3.40 60 90 120
Carne 7.00 8.00 9.00 150 120 90

Tabela 7.2: Exemplo de uma cesta de produtos

Exemplo 7.2. (Índices relativos) Considere a cesta de produtos apresentada pela Tabela 7.2. O ı́ndice
relativo de preço da carne, de 2009 para 2010, é de
9.00
pcarne
2009,2010 = = 112.5%,
8.00
indicando um aumento de 112.5% − 100% = 12.5% no preço deste produto de 2009 para 2010. O ı́ndice
relativo de quantidade da carne de 2009 para 2010 é de

carne 90
q2009,2010 = = 75%,
120
indicando uma redução de 100% − 75% = 25% na quantidade de carne comprada de 2009 para 2010. O
ı́ndice relativo de valor da carne de 2009 para 2010 é de

carne 9.00 × 90
v2009,2010 = ≈ 84.38%,
8.00 × 120
indicando uma redução de 100% − 84.38% ≈ 15.62% no valor da carne de 2009 para 2010.
,

EXERCÍCIOS
1. Utilizando 2008 como ano-base e utilizando os produtos da Tabela 7.2, calcule:

a) O ı́ndice relativo de preço.


b) O ı́ndice relativo de quantidade.
c) O ı́ndice relativo de valor.

Page 127
DRAFT VERSION
7.2 Índices Agregativos Simples
Um ı́ndice é dito agregativo quando somam-se os preços, quantidades ou valores em uma cesta de
produtos.

7.2.1 Índice Agregativo Simples (de Bradstreet)


De preço
P i
p
P
I0,t = P it ,
p0
onde pit é o preço do i-ésimo bem na época atual e pi0 é o preço do i-ésimo bem na época base.
De quantidade
P i
Q q
I0,t = P it ,
q0
onde qti é a quantidade do i-ésimo bem na época atual e q0i é a quantidade do i-ésimo bem na época base.
De valor
P i
v
I0,t = P it ,
V
v0
onde vti = pit qti é o valor do i-ésimo bem na época atual e v0i = pi0 q0i é o valor do i-ésimo bem na época
base.
Exemplo 7.3. (Índices agregativos simples) Suponha novamente a cesta de produtos da Tabela 7.2. O
ı́ndice agregativo de preço da cesta, de 2009 para 2010, é dado por
P 1.30 + 2.00 + 3.40 + 9.00
I2009,2010 = ≈ 109.56%,
1.26 + 1.80 + 3.27 + 8.00
indicando um aumento de 109.56% − 100% ≈ 9.56% no preço da cesta de produtos. O ı́ndice agregativo
de quantidade da cesta, de 2009 para 2010, é dado por
Q 360 + 180 + 120 + 90
I2009,2010 = ≈ 108.70%,
330 + 150 + 90 + 120
indicando um aumento de 108.70% − 100% ≈ 8.70% na quantidade da cesta de produtos. O ı́ndice
agregativo de valor da cesta, de 2009 para 2010, é dado por
V 1.30 × 360 + 2.00 × 180 + 3.40 × 120 + 9.00 × 90
I2009,2010 = ≈ 105.46%,
1.26 × 330 + 1.80 × 150 + 3.27 × 90 + 8.00 × 120
indicando um aumento de 105.46% − 100% ≈ 5.46% no valor da cesta de produtos.

7.2.2 Índice Médio Aritmético (de Sauerbeck)


De preço

pi0,t
P
P̄0,t = ,
n
onde pi0,t é o ı́ndice relativo simples de preço do i-ésimo produto e n é o número de itens.
De quantidade
P i
q0,t
Q̄0,t = ,
n
i
onde q0,t é o ı́ndice relativo simples de quantidade do i-ésimo produto e n é o número de itens.
De valor
P i
v0,t
V̄0,t = ,
n
i
onde v0,t = pi0,t q0,t
i
é o ı́ndice relativo simples de valor do i-ésimo produto e n é o número de itens.

Page 128
DRAFT VERSION
Exemplo 7.4. (Índices médios aritméticos) Suponha novamente os produtos da cesta apresentada na
Tabela 7.2. O ı́ndice médio aritmético de preço da cesta, de 2009 para 2010, é dado por
1.30 2.00 3.40 9.00
1.26 + 1.80 + 3.27 + 8.00
P̄2009,2010 = ≈ 107.69%,
4
indicando um aumento de 107.69% − 100% ≈ 7.69% no ı́ndice médio de preço da cesta de produtos. O
ı́ndice médio aritmético de quantidade da cesta, de 2009 para 2010, é dado por
360 180 120 90
330 + 150 + 90 + 120
Q̄2009,2010 = ≈ 109.36%,
4
indicando um aumento de 109.36% − 100% ≈ 9.36% no ı́ndice médio de quantidade da cesta de produtos.
O ı́ndice médio aritmético de valor da cesta, de 2009 para 2010, é dado por
1.30×360 2.00×180 3.40×120 9.00×90
1.26×330 + 1.80×150 + 3.27×90 + 8.00×120
V̄2009,2010 = ≈ 117.22%,
4
indicando um aumento de 117.22% − 100% ≈ 17.22% no ı́ndice médio de valor da cesta de produtos.

7.3 Índices Agregativos Ponderados


7.3.1 Índice (Ponderado) de Laspeyres ou da época base
De preço
O ı́ndice de preço de Laspeyres calcula o ı́ndice de preços ponderando-os pelas quantidades no ano-
base.
P i i
pt q0
LP 0,t =
pi0 q0i
P

De quantidade
O ı́ndice de quantidade de Laspeyres calcula o ı́ndice de quantidades ponderando-as pelos preços no
ano-base.
P i i
Q qp
L0,t = P it 0i
q0 p0
Exemplo 7.5. Suponha novamente a cesta de produtos da Tabela 6.2. O ı́ndice (ponderado) de preço de
Laspeyres, de 2009 para 2010, é dado por
1.30 × 330 + 2.00 × 150 + 3.40 × 90 + 9.00 × 120
LP
2009,2010 = = 109.01%.
1.26 × 330 + 1.80 × 150 + 3.27 × 90 + 8.00 × 120
O ı́ndice (ponderado) de quantidade de Laspeyres, de 2009 para 2010, é dado por
360 × 1.26 + 180 × 1.80 + 120 × 3.27 + 90 × 8.00
LQ
2009,2010 = = 97.42%.
330 × 1.26 + 150 × 1.80 + 90 × 3.27 + 120 × 8.00

7.3.2 Índice (Ponderado) de Paasche ou da época atual


De preço
O ı́ndice de preço de Paasche calcula o ı́ndice de preços ponderando-os pelas quantidades no ano
atual.
P i i
pq
P
P0,t = P it ti
p0 qt
De quantidade
O ı́ndice de quantidade de Paasche calcula o ı́ndice de quantidades ponderando-as pelos preços no
ano atual.
P i i
Q qp
P0,t = P it ti
q0 pt

Page 129
DRAFT VERSION
Exemplo 7.6. Suponha novamente a cesta de produtos da Tabela 6.2. O ı́ndice (ponderado) de preço de
Paasche, de 2009 para 2010, é dado por

P 1.30 × 360 + 2.00 × 180 + 3.40 × 120 + 9.00 × 90


P2009,2010 = = 108.25%.
1.26 × 360 + 1.80 × 180 + 3.27 × 120 + 8.00 × 90
O ı́ndice (ponderado) de quantidade de Paasche, de 2009 para 2010, é dado por

Q 360 × 1.30 + 180 × 2.00 + 120 × 3.40 + 90 × 9.00


P2009,2010 = = 96.74%.
330 × 1.30 + 150 × 2.00 + 90 × 3.40 + 120 × 9.00

7.3.3 Índice (Ponderado) de (Irving) Fisher


Também conhecido como ı́ndice de preço ideal, o ı́ndice (ponderado) de Fisher é a média geométrica
entre os respectivos ı́ndices de Laspeyres e Paasche.
De preço
q
P
F0,t = LP P
0,t P0,t

De quantidade
q
Q
F0,t = LQ Q
0,t P0,t

Exemplo 7.7. Novamente utilizando os dados da cesta de produtos da Tabela 6.2, calcula-se o ı́ndice
(ponderado) de preço de Fisher, de 2009 para 2010, por
P

F2009,2010 = 1.0901 × 1.0825 = 108.63%.

O ı́ndice (ponderado) de quantidade de Fisher, de 2009 para 2010, é dado por


Q

F2009,2010 = 0.9742 × 0.9674 = 97.08%.

EXERCÍCIOS EXTRAS
1. A ceia de natal é um momento importante para as famı́lias cristãs. É geralmente composta de certos produtos
tı́picos, como aves, frutas secas e doces. Abaixo estão os preços de alguns dos principais produtos que compõem a
ceia natalina, bem como suas variações de preço e quantidade ao longo de três anos.

Preço unitário (reais) Quantidade comprada


Produto
2007 (p0 ) 2008 (p1 ) 2009 (p2 ) 2007 (q0 ) 2008 (q1 ) 2009 (q2 )
Peru 44.98 48.31 56.17 2 2 1
Nozes 9.32 10.45 12.33 0.5 0.7 0.9
Cereja 8.11 9.50 11.12 0.1 0.2 0.2

Tabela 7.3: Cesta de produtos natalinos

Calcule:
a) O ı́ndice relativo de preços da cereja em 2009 com base em 2007.
b) O ı́ndice agregativo simples de quantidade da cesta de produtos da tabela acima em 2008, com base em 2007.
c) O ı́ndice relativo de valor da cereja em 2009, com base em 2007.
d) O ı́ndice ponderado de Fisher de quantidade da cesta de produtos da tabela acima em 2008, com base em 2007.

Page 130
DRAFT VERSION
2. Considere os preços e quantidades apresentados na tabela abaixo.

Preço unitário (reais) Quantidade comprada


Produto
2008 (p0 ) 2009 (p1 ) 2010 (p2 ) 2008 (q0 ) 2009 (q1 ) 2010 (q2 )
Ambrosia 1.75 1.89 2.90 11 11 13
Erva mate gold 7.03 7.58 8.20 2 3 3
Mumu 1.28 1.99 2.70 7 8 10

Tabela 7.4: Cesta de produtos gaudérios

a) O ı́ndice relativo de preço do Mumu em 2009, com base em 2008.


b) O ı́ndice agregativo simples de quantidade da cesta de produtos da tabela acima em 2010, com base em 2008.
c) O ı́ndice ponderado de Paasche de preço da cesta de produtos da tabela acima em 2010, com base em 2009.
d) O ı́ndice ponderado de Fisher de preço da cesta de produtos da tabela acima em 2010, com base em 2009.

Page 131
DRAFT VERSION
A Tabelas
Tabela normal padrão N (0, 1)

Page 132
DRAFT VERSION
Tabela t

Page 133
DRAFT VERSION
Tabela Qui-quadrado χ2

Page 134
DRAFT VERSION
Tabela F de Fisher-Snedecor 10%

Page 135
DRAFT VERSION
Tabela F de Fisher-Snedecor 5%

Page 136
DRAFT VERSION
Tabela F de Fisher-Snedecor 2.5%

Page 137
DRAFT VERSION
Tabela F de Fisher-Snedecor 1%

Page 138
DRAFT VERSION
Tabela F de Fisher-Snedecor 0.5%

Page 139
DRAFT VERSION
B Respostas dos exercı́cios
Capı́tulo 1 - Introdução
Seção 1.4

1. (pg. 6) Obs.: Os dados podem variar dependendo da atualização dos dados do pacote.

> sum(coronavirus$cases) # 1a

[1] 28602365

> sum(coronavirus$cases^2) # 1b

[1] 541174070111

> by(coronavirus$cases, coronavirus$type, sum) # 1c

coronavirus$type: confirmed
[1] 17591968
---------------------------------------------------------------------------------------------
coronavirus$type: death
[1] 679439
---------------------------------------------------------------------------------------------
coronavirus$type: recovered
[1] 10330958

P150720 P150720
d) i=1 xi = 28602365. i=1 x2i = 541174070111.

Capı́tulo 2 - Estatı́stica Descritiva


Seção 2.1

1. (pg. 12)

a) Quantitativa discreta
b) Quantitativa contı́nua
c) Quantitativa discreta
d) Quantitativa contı́nua
e) Qualitativa nominal
f) Qualitativa ordinal
g) Qualitativa nominal
h) Quantitativa contı́nua
i) Quantitativa contı́nua
j) Qualitativa ordinal
k) Quantitativa contı́nua
l) Qualitativa nominal
m) Quantitativa contı́nua

Seção 2.2

1. (pg. 13)

a) −4, 1, 3, 5, 7, 9, 10
b) x(4) = 5. O quarto valor da ordenação é 5.

2. (pg. 13)

> hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)


> sort(hosp$filhos)

[1] 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[61] 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5 6

> sort(hosp$altura)

[1] 1.51 1.52 1.53 1.54 1.55 1.55 1.56 1.56 1.56 1.56 1.57 1.57 1.58 1.58 1.58 1.58 1.58 1.59 1.59 1.59 1.59 1.59 1.
[25] 1.59 1.60 1.60 1.60 1.60 1.60 1.60 1.60 1.60 1.61 1.61 1.61 1.61 1.61 1.61 1.61 1.62 1.62 1.62 1.62 1.62 1.62 1.
[49] 1.62 1.62 1.63 1.63 1.63 1.63 1.63 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.65 1.65 1.65 1.65 1.
[73] 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 1.66 1.66 1.66 1.67 1.67 1.67 1.68 1.68 1.68 1.68 1.68 1.69 1.69 1.69 1.
[97] 1.70 1.72 1.73 1.74

Page 140
DRAFT VERSION
3. (pg. 16)

a) Quantitativa discreta.
b) f3 = 9. 9 peças possuem 2 defeitos.
c) fr3 = 9/50 = 0.18. 18% das peças possuem 2 defeitos.
d) F4 = 44. 44 peças têm até 3 defeitos.
e) Fr5 = 49/50 = 0.98. 98% das peças tem até 4 defeitos.
f)

> barplot(c(17,10,9,8,5,1), xlab = 'Número de defeitos', ylab = 'Frequ^


encia', names.arg = 0:5)

4. (pg. 16)

a) fV I = 38. 38 paı́ses devem pagar 3 unidades monetárias.


b) frI = 21/173 ≈ 0.1214. 12.14% dos paı́ses devem pagar 25 unidades monetárias.
c) FII = 47. 47 paı́ses devem pagar 20 ou 25 unidades monetárias.
d) FrIII = 57/173 ≈ 0.3295. 32.95% dos paı́ses devem pagar 15, 20 ou 25 unidades monetárias.

5. (pg. 22)

a) Quantitativa contı́nua.
b) fr3 = 30/100 = 0.3. 30% dos alunos tem altura entre 1.60m (inclusive) e 1.70m (exclusive).
c) F4 = 92. 92 alunos têm altura até 1.80m (exclusive).
d) Fr2 = 15/100 = 0.15. 15% dos alunos tem altura até 1.60m.
e) `3 = 30 + 47 + 8 = 85.
f)

> labs <- c('140 |- 150','150 |- 160','160 |- 170','170 |- 180','180 |-| 190')
> barplot(c(2,15,30,47,8), main = 'Altura', ylab = 'Frequ^
encia', names.arg = labs, las = 2, space = 0)

Altura

40

30
Frequência

20

10

0
140 |− 150

150 |− 160

160 |− 170

170 |− 180

180 |−| 190

6. (pg. 22)

a) Vide Exemplo 2.16.


b) Vide Exemplo 2.17.

Page 141
DRAFT VERSION
Seção 2.3

0 × 11 + 1 × 27 + 2 × 30 + 3 × 19 + 4 × 11 + 5 × 1 + 6 × 1
1. Da Tabela 2.4 (pg. 15), x̄ = = 1.99.
100
2. 1.99 × 1500 = 2985
   
P1 + P2 T1 + T2
3. G1 = 0.8 + 0.2
2 2

4. > hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)


> (mqf <- mean(hosp$filhos^2))

[1] 5.55

> sqrt(mqf)

[1] 2.355844

> (mqa <- mean(hosp$altura^2))

[1] 2.644279

> sqrt(mqa)

[1] 1.626124

5. Pela Tabela 2.4 (pg. 15) 2 é o número de filhos que ocorreu com maior frequência, portanto é a moda.

6. Mediana (P50%): 50% das altura são de até 1.62m e 50% estão acima deste valor.
Tercil 1 (P33.3%): 1/3 (≈ 33.3%) das altura são de até 1.61m e 2/3 (≈ 66.7%) estão acima deste valor.

7. a)
b) Sim, basta verificar, por exemplo, que M d = Q2 = D5 = P50 .
c) Exemplos: k = 7 septil. k = 8 octil.
d) k − 1

8. > hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)


> # filhos
> quantile(hosp$filhos, probs = seq(0,1,1/3)) # Tercis

0% 33.33333% 66.66667% 100%


0 1 2 6

> quantile(hosp$filhos, probs = seq(0,1,1/100)) # Demais medidas

0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.89 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.0
25% 26% 27% 28% 29% 30% 31% 32% 33% 34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47% 48
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.62 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.0
50% 51% 52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63% 64% 65% 66% 67% 68% 69% 70% 71% 72% 73
2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.32 3.00 3.00 3.00 3.00 3.0
75% 76% 77% 78% 79% 80% 81% 82% 83% 84% 85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95% 96% 97% 98
3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.13 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.0
100%
6.00

> # altura
> quantile(hosp$altura, probs = seq(0,1,1/3)) # Tercis

0% 33.33333% 66.66667% 100%


1.51 1.61 1.65 1.74

> quantile(hosp$altura, probs = seq(0,1,1/100)) # Demais medidas

Page 142
DRAFT VERSION
0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16%
1.5100 1.5199 1.5298 1.5397 1.5496 1.5500 1.5594 1.5600 1.5600 1.5600 1.5690 1.5700 1.5788 1.5800 1.5800 1.5800 1.5800
17% 18% 19% 20% 21% 22% 23% 24% 25% 26% 27% 28% 29% 30% 31% 32% 33%
1.5883 1.5900 1.5900 1.5900 1.5900 1.5900 1.5900 1.5900 1.5975 1.6000 1.6000 1.6000 1.6000 1.6000 1.6000 1.6000 1.6067
34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47% 48% 49% 50%
1.6100 1.6100 1.6100 1.6100 1.6100 1.6100 1.6160 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6250
51% 52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63% 64% 65% 66% 67%
1.6300 1.6300 1.6300 1.6300 1.6345 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6434 1.6500
68% 69% 70% 71% 72% 73% 74% 75% 76% 77% 78% 79% 80% 81% 82% 83% 84%
1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6524 1.6600 1.6600 1.6600 1.6600 1.6600 1.6600 1.6617 1.6700
85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95% 96% 97% 98% 99% 100%
1.6700 1.6714 1.6800 1.6800 1.6800 1.6800 1.6809 1.6900 1.6900 1.6906 1.7000 1.7000 1.7006 1.7202 1.7301 1.7400

Seções 2.4 e 2.5


 
n−1
1. σ 2 = s2
n
P4 P4
2. x=1 x = 10, x=1 x2 = 30.

a) x̄ = 2.5, M d = 2.5, amodal.


b) A=4−1=3
c) σ 2 = 5/4 = 1.25
d) s2 = 5/3 ≈ 1.6667
e) 1/3 ≈ 33.33%

3. > hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)


> # filhos
> f <- hosp$filhos
> mean(f) # média

[1] 1.99

> median(f) # mediana

[1] 2

> names(which.max(table(f))) # moda

[1] "2"

> diff(range(f)) # amplitude

[1] 6

> var(f) # vari^


ancia amostral

[1] 1.60596

> var(f)*((length(f)-1)/length(f)) # vari^


ancia universal

[1] 1.5899

> cat((length(f)/(length(f)-1)-1)*100,'%') # percentual

1.010101 %

> sd(f) # desvio padr~


ao

[1] 1.267265

> sd(f)/mean(f) # coeficiente de variaç~


ao

[1] 0.6368164

> e1071::skewness(f, type = 3) # assimetria

[1] 0.431264

> e1071::kurtosis(f, type = 3) # curtose

Page 143
DRAFT VERSION
[1] -0.136933

> # altura
> a <- hosp$altura
> mean(a) # média

[1] 1.6255

> median(a) # mediana

[1] 1.625

> names(which.max(table(a))) # moda

[1] "1.64"

> diff(range(a)) # amplitude

[1] 0.23

> var(a) # vari^


ancia amostral

[1] 0.002049242

> var(a)*((length(a)-1)/length(f)) # vari^


ancia universal

[1] 0.00202875

> cat((length(a)/(length(a)-1)-1)*100,'%') # percentual

1.010101 %

> sd(a) # desvio padr~


ao

[1] 0.04526856

> sd(a)/mean(a) # coeficiente de variaç~


ao

[1] 0.02784901

> e1071::skewness(a, type = 3) # assimetria

[1] -0.0488405

> e1071::kurtosis(a, type = 3) # curtose

[1] -0.09699975
 
9
4. − 1 × 100% = 12.5%
9−1
> cat((9/(9-1)-1)*100,'%')

12.5 %
 
6
5. − 1 × 100% = 20%
6−1
> cat((6/(6-1)-1)*100,'%')

20 %

Seção 2.6

1. -

2. -

EXERCÍCIOS EXTRAS

1. a) 5.07%, 95.79%.

Page 144
DRAFT VERSION
b) 1186/1539 ≈ 77.06%.
c) 30/3445 ≈ 0.87%.
d) Fumantes: 300+, pois fF = 412. A categoria de nı́vel de cotinina com maior representatividade entre os fumantes
é 300+. Não fumantes: 0 ` 14, pois fN F = 3300. A categoria de nı́vel de cotinina com maior representatividade
entre os não fumantes é 0 ` 14.
e) A mediana do fumantes está na sexta classe, 200 ` 250, pois F5 ≈ 49.44% e F6 ≈ 63.83%. A mediana do não
fumantes está na primeira classe, 0 ` 14, pois F1 ≈ 95.79%.
> f <- c(78,133,142,206,197,220,141,412)
> cumsum(f)/sum(f)
[1] 0.05101373 0.13799869 0.23086985 0.36559843 0.49444081 0.63832570 0.73054284 1.00000000
> nf <- c(3300,72,23,15,7,8,9,11)
> cumsum(nf)/sum(nf)
[1] 0.9579100 0.9788099 0.9854862 0.9898403 0.9918723 0.9941945 0.9968070 1.0000000
f) > labs <- c('0 |- 14','14 |- 50','50 |- 100','100 |- 150','150 |- 200','200 |-| 250','250 |-| 300','300 +')
> par(mfrow=c(1,2))
> barplot(c(78,133,142,206,197,220,141,412), main = 'Fumantes', ylab = 'Frequ^encia',
names.arg = labs, las = 2, space = 0)
> barplot(c(3300,72,23,15,7,8,9,11), main = 'N~ao fumantes', ylab = 'Frequ^
encia',
names.arg = labs, las = 2, space = 0)

Fumantes Não fumantes

400
3000

2500
300

2000
Frequência

Frequência

200
1500

1000
100

500

0 0
0 |− 14
14 |− 50
50 |− 100
100 |− 150
150 |− 200
200 |−| 250
250 |−| 300
300 +

0 |− 14
14 |− 50
50 |− 100
100 |− 150
150 |− 200
200 |−| 250
250 |−| 300
300 +

2. a) São medidas-resumo, que auxiliam a avaliação de conjuntos de dados.


b) Dados ordinais possuem informação de ordenação, ao contrário dos dados nominais que são grupos não ordenados.
c) Vantagens: simplifica a interpretação pelo agrupamento em classes. Desvantagens: perda de informação, maior
complexidade nos cálculos de medidas descritivas.
d) Quando deseja-se ter a noção do quanto aquela classe está sendo representada em relação ao total.
e) São medidas que dividem um conjunto de dados em quatro partes iguais, cada uma contendo 25% (ou 1/4) dos
dados.
f) São medidas de tendência central. Média: para dados quantitativos. Mediana: para dados qualitativos ordinais.

3. V V V V F V

4. Mediana, pois a descrição do exercı́cio é exatamente a definição desta medida.

Page 145
DRAFT VERSION
Nı́vel de cotinina (ng/mL) fF fr F fN F frN F
0 ` 14 78 0.0507 3300 0.9579
14 ` 50 133 0.0864 72 0.0209
50 ` 100 142 0.0923 23 0.0067
100 ` 150 206 0.1339 15 0.0044
150 ` 200 197 0.1280 7 0.0020
200 ` 250 220 0.1429 8 0.0023
250 ` 300 151 0.0981 9 0.0026
300 + 412 0.2677 11 0.0032
Total 1539 1.0000 3445 1.0000

5. Itens a) e b) na tabela abaixo.

X Y
Média 24 145
Mediana 22.5 137.5
Amplitude 29 285
Variância 148 8400
Desvio padrão 12.1655 91.6515
Coeficiente de variação 0.507 0.632

c) No setor Y, pois 0.632 > 0.507.

6. P1 = 7.5 × 3 − (5 + 9) = 8.5.

7. Itens a) e b) na tabela abaixo.

Média 14 dias 74.03


Mediana 14 dias 75.20
Média semana 1 73.54
Mediana semana 1 73.00
Média semana 2 74.51
Mediana semana 2 76.30

c) O chimarrão ficou bom em 71.4% das vezes, conforme tabela abaixo.

Semana 1 Semana 2 14 dias


Chimarrão
f f rr f fr f fr
Frio 2 28.6% 1 14.3% 3 21.4%
Bom 4 57.1% 6 85.7% 10 71.4%
Pelando 1 14.3% 0 0.0% 1 7.1%

d) Primeira semana: chimarrão ficou bom 57.1% das vezes. Segunda semana: 85.7% das vezes.

8. Itens a), b) e c) desenvolvidos no código abaixo.

> id <- c(18,54,20,46,25,48,53,27,26,37,40,36,42,25,27,33,28,40,45,25)


> mean(id) # média

[1] 34.75

> median(id) # mediana

[1] 34.5

> names(which.max(table(id))) # moda

[1] "25"

> quantile(id, probs = seq(0,1,1/4))

0% 25% 50% 75% 100%


18.00 25.75 34.50 42.75 54.00

Page 146
DRAFT VERSION
c) 25% das pessoas que trabalham em casa tem 25.75 anos ou menos. 75% das pessoas que trabalham em casa tem
mais de 25.75 anos.
d) Como a mediana encontrada no conjunto de idades de pessoas que trabalham em casa é 34.5 anos, muito próximo
da mediana da população (35 anos), não há indı́cios que pessoas que trabalham em casa sejam mais jovens ou mais
velhas. (Não testamos isto, estamos apenas investigando!)

9. a)

Cidade Rodovia
Média 25.05 29.99
Mediana 25.58 29.93
Moda 24.62 28.96

b) -

10. a) Metade das meninas bulı́micas têm consumo calórico até 18.50, enquanto a outra metade têm consumo calórico
superior a este valor. Metade das meninas saudáveis têm consumo calórico até 33.45, enquanto a outra metade
têm consumo calórico superior a este valor.
b) Média bulı́micas: 19.23. Média saudáveis: 31.73.
c) O grupo das saudáveis, pois 0.21 > 0.17.

Bulı́micas Saudáveis
Média 19.23 31.73
Mediana 18.50 33.45
Desvio padrão 3.28 6.72
Coeficiente de variação 0.17 0.21

11. a) Quantitativa discreta. Itens b), c), d), e), f), soluções na tabela.

MEEM G1 MEEM G2
Média 13.88 22.13
Mediana 12.00 21.00
Moda 12.00 21 e 19
Amplitude 9.00 12.00
Variância populacional 10.86 15.61
Desvio padrão populacional 3.30 3.95
Variância amostral 12.41 17.84
Desvio padrão amostral 3.52 4.22
Coeficiente de variação 0.25 0.19

12. V, NSA, F (pois há crianças que não foram, pois moda e mediana iguais a zero), F.

13. E

14. A e C

15. B

Capı́tulo 3 - Probabilidade
Seção 3.2

1. P4. Pode-se escrever Ω = A ∪ Ac , e de (43) pode-se fazer P r(Ω)a= P r(A ∪ Ac ) = 1. Como A e Ac são disjuntos,
por (44) temos P r(A) + P r(Ac ) = 1, logo P r(A) = 1 − P r(Ac ).

P5. Pode-se escrever Ω = Ω ∪ ∅, e de (43) pode-se


a fazer P r(Ω) = P r(Ω ∪ ∅) = 1. Como Ω e ∅ são disjuntos, por (44)
temos P r(Ω) + P r(∅) = 1, logo P r(∅) = 0.

P6.

P7.

P8.

2. a) P r(C) = 1/2
b) P r(A ∩ C) = 0
c) P r(A|C) = 0

Page 147
DRAFT VERSION
1/2
d) P r(Ac |C) = =1
1/2

Seção 3.3

1. p(2) = p(12) = 1/36


p(3) = p(11) = 2/36
p(4) = p(10) = 3/36
p(5) = p(9) = 4/36
p(6) = p(8) = 5/36
p(7)
P12 = 6/36
x=2 p(x) = 1.

2. p(0) = p(3) = 1/8


p(1)
P3 = p(2) = 3/8
x=0 p(x) = 1.

Seção 3.4

1. A integral de uma função densidade de probablidade deve integrar 1, conforme (80).

2. > Fx <- function(x){


(-46875/19652)*(x^3/3 - 1.68*x^2 + 2.36*x - 76/75)
}
> Fx(1.72)

[1] 0.5440668

> Fx(1.45)

[1] 0.2559973

Rx x
1 1 x−a a
3. (86) F (x) = a b−a dt = b−a
[t] = b−a
.
a

b
x2 b2 −a2 b2 −a2
h i
Rb x 1 (b−a)(b+a) a+b a
(87) E(X) = a b−a dx = b−a 2
= 2(b−a)
. Por (89) 2(b−a)
= 2(b−a)
, logo E(X) = 2
.
a

(88) Por definição, V (X) = E(X 2 ) − [E(X)]2 .


h 3i b
R x2 b3 −a3 b3 −a3 (b−a)(b2 +ab+a2 ) a2 +ab+b2
E(X 2 ) = ab b−a dx = b−a1 x
3
= 3(b−a) . Por (90), 3(b−a)
= 3(b−a)
= 3
. Aplicando a
a
a2 +ab+b2 a2 +2ab+b2 a2 −2ab+b2 (b−a)2 a
definição, V (X) = 3
− 4
= 12
= 12
.

4. B(420, 0.7).  
200 − 420 × 0.7
P r(X ≤ 200) ≈ P r Z < √ = Φ(−10.00907) ≈ 6.952944 × 10−24
420 × 0.7 × 0.3
Utilizando a correção de continuidade,
 
200 + 0.5 − 420 × 0.7
P r(X ≤ 200) ≈ P r Z < √ = Φ(−9.955826) ≈ 1.189192 × 10−23
420 × 0.7 × 0.3

A probabilidade exata é 1.032943 × 10−21 .

5. > tcl <- function(n,p,S){


mS <- n*p
sS <- sqrt(n*p*(1-p))
# Aproximaç~
ao da binomial pela normal SEM correç~
ao de continuidade
z <- (S-mS)/sS
pz <- pnorm(z)
# Aproximaç~
ao da binomial pela normal COM correç~
ao de continuidade
zc <- (S+0.5-mS)/sS
pzc <- pnorm(zc)
# Probabilidade exata
pex <- pbinom(S,n,p)
return(list(media = mS, dp = sS, zTeste = z, pSem = pz,
zTesteCor = zc, pCom = pzc, pExata = pex))
}
> tcl(420, 0.7, 200)

Page 148
DRAFT VERSION
$media
[1] 294

$dp
[1] 9.391486

$zTeste
[1] -10.00907

$pSem
[1] 6.952944e-24

$zTesteCor
[1] -9.955826

$pCom
[1] 1.189192e-23

$pExata
[1] 1.032943e-21

EXERCÍCIOS EXTRAS

1. Ω = {M M M, M M F, M F M, F M M, M F F, F M F, F F M, F F F }. Brinde: |Ω| = 8.
4000
2. a) 10000
= 25 = 0.40
200 1
b) 10000
= 50 = 0.02
5100+3700
c) 10000
= 22
25
= 0.88
10000−5100 40
d) 10000
= 100 = 0.49
5100 51
e) 10000
= 100 = 0.51
150000 3
3. a) 1400000
= 28 ≈ 0.1071
130000+100000 23
b) 1400000
= 140 ≈ 0.1643
1150000 23
c) 1400000
= 28 ≈ 0.8214
15
4. a) 120
= 18 = 0.125
15+30+18
b) 120
= 21
40
= 0.525
7+12+5 1
c) 120
= 5
= 0.2

5. a) P r(V ∪ M ) = P r(V ) + P r(M ) − P r(V ∩ M ) = 0.55 + 0.30 − 0.2 = 0.65.


b) P r([V ∪ M ]c ) = 1 − 0.65 = 0.35.
25+23
6. a) 74
= 24
37
= 0.648
9
b) 74
= 0.1216
8+8 8
c) 74
= 37 = 0.216
4+12 8
d) 74
= 37 = 0.216
2+2 2
e) 74
= 37 = 0.054
62
7. a) 745
≈ 0.0832
238
b) 745
≈ 0.3195
2
c) 745
≈ 0.0027
248 124
d) 386
= 193
≈ 0.6425
248 4
e) 310
= 5
= 0.8

8. a) P r(A ∪ B) = P r(A) + P r(B) − P r(A ∩ B) = 0.01 + 0.05 − 0.005 = 0.055


b) P r([A ∪ B]c ) = 1 − P r(A ∪ B) = 1 − 0.055 = 0.945
c) 1000 × [P r(B) − P r(A ∩ B)] = 1000 × [0.05 − 0.005] = 45 pessoas
217700 2177
9. a) 338000
= 3380
≈ 0.6441
15000 15
b) 338000
= 338
≈ 0.0444

Page 149
DRAFT VERSION
25200+27600
c) 338000
= 132
845
≈ 0.1562
27600+24000+20700+37800+41400+56000
d) 10000000
= 0.02075
560 14
10. a) 1000
= 25
= 0.56
720 18
b) 1000
= 25
= 0.72
60 3
c) 1000
= 50
= 0.06
200+80 7
d) 1000
= 25
= 0.28
55
11. a) 100
= 0.55
35 5
b) 63
= 9
≈ 0.56
63
c) 100
= 0.63
9
d) 100
= 0.09
21+16
e) 100
= 0.37

12. D : Item defeituoso


P r(A) = 0.5 P r(D|A) = 0.01
P r(B) = 0.3 P r(D|B) = 0.02
P r(C) = 0.2 P r(D|C) = 0.03

a)

P r(A)P r(D|A)
P r(A|D) =
P r(A)P r(D|A) + P r(B)P r(D|B) + P r(C)P r(D|C)
0.5 × 0.01
=
0.5 × 0.01 + 0.3 × 0.02 + 0.2 × 0.03
5
=
17
≈ 0.294117647
b)

0.3 × 0.02 6
P r(B|D) = = ≈ 0.352941176
0.017 17

 
5 6 6
P r(C|D) = 1 − + = ≈ 0.352941176
17 17 17
1
13. P r({C}) = P r({K}) =
2
a) Ω = {CCC, CCK, CKC, KCC, CKK, KCK, KKC, KKK}
b) RX = {0, 1, 2, 3}
 3
1 1 1 1 1
c) p(0) = P r(X = 0) = P r({KKK}) = × × = = = 0.125
2 2 2 2 8
 3  3  3
1 1 1 3
p(1) = P r(X = 1) = P r({CKK, KCK, KKC}) = + + = = 0.375
2 2 2 8
 3
1 3
p(2) = P r(X = 2) = P r({CCK, CKC, KCC}) = 3 = = 0.375
 2 8
1 3 3 1
p(3) = P r(X = 3) = P r({CCC}) = 1 − + + = = 0.125
8 8 8 8
1 3 3 1
d) E(X) = 0 × + 1 × + 2 × + 3 × = 1.5 (Por simetria)
8 8 8 8
1 3 3 1
E(X 2 ) = 02 × + 12 × + 22 × + 32 × = 3
8 8 8 8
V (X) = E(X 2 ) − [E(X)]2 = 3 − 1.52 = 0.75

D(X) = 0.75 ≈ 0.866025403

14. P r({C}) = 0.7, P r({K}) = 0.3


a) Ω = {CCC, CCK, CKC, KCC, CKK, KCK, KKC, KKK}
b) RX = {0, 1, 2, 3}
c) p(0) = P r(X = 0) = P r({KKK}) = 0.33 = 0.027
p(1) = P r(X = 1) = P r({CKK, KCK, KKC}) = 3 × 0.7 × 0.32 = 0.189
p(2) = P r(X = 2) = P r({CCK, CKC, KCC}) = 3 × 0.72 × 0.3 = 0.441
p(3) = P r(X = 3) = P r({CCC}) = 1 − (0.027 + 0.189 + 0.441) = 0.343

Page 150
DRAFT VERSION
d) E(X) = 0 × 0.027 + 1 × 0.189 + 2 × 0.441 + 3 × 0.343 = 2.1
E(X 2 ) = 02 × 0.027 + 12 × 0.189 + 22 × 0.441 + 32 × 0.343 = 5.04
V (X) = 5.04 − 2.12 = 0.63

D(X) = 0.63 ≈ 0.793725393

15. P r({C}) = p, P r({K}) = 1 − p


a) Ω = {CCC, CCK, CKC, KCC, CKK, KCK, KKC, KKK}
b) RX = {0, 1, 2, 3}
c) p(0) = P r(X = 0) = P r({KKK}) = (1 − p)3
p(1) = P r(X = 1) = P r({CKK, KCK, KKC}) = 3p(1 − p)2
p(2) = P r(X = 2) = P r({CCK, CKC, KCC}) = 3p2 (1 − p)
p(3) = P r(X = 3) = P r({CCC}) = p3
d) E(X) = 0 × (1 − p)3 + 1 × 3p(1 − p)2 + 2 × 3p2 (1 − p) + 3 × p3 = 3p
E(X 2 ) = 02 × (1 − p)3 + 12 × 3p(1 − p)2 + 22 × 3p2 (1 − p) + 32 × p3 = 3p(1 + 2p)
2
p + 2p)] − [3p] = 3p(1 − p)
V (X) = [3p(1
D(X) = 3p(1 − p)

16. p = 1% = 0.01, n = 20

X ∼ B(20, 0.01), p(x) = n 0.01x 0.9920−x



a) x
b) E(X) = 20 × 0.01 = 0.2
c) V (X) = 20 × 0.01 × 0.99 = 0.198

d) D(X) = 0.198 ≈ 0.4449719092
p(6) = P r(X = 6) = 20 0.016 0.9920−6 ≈ 3.3672588 × 10−8

e) 6
f) P r(X ≥ 1) = 1 − P r(X = 0) = 1 − 20 0.010 0.9920 = 1 − 0.81790694 ≈ 0.18209306

0

17. λ = 4

a) X ∼ P(4)

b) E(X) = 4, V (X) = 4, D(X) = 4 = 2.
e−4 40
c) P r(X ≥ 1) = 1 − P r(X = 0) = 1 − ≈ 0.981684361
0!
18. f (x) = c(x3 − 3.36x + 2.36), x ∈ [1, 2]
100
a) c = ≈ 0.9345794
107
b)

2 100 2
x4 3.36x2
Z 
100
(x3 − 3.36x + 2.36) dx = − + 2.36x
1 107 107 4 2 1
 4   4 
100 2 2 1
= − 1.68 × 2 + 2.36 × 2 − − 1.68 × 12 + 2.36 × 1
107 4 4
= 1

c)
Z x 100
F (x) = P r(X < x) = (t3 − 3.36t + 2.36) dt
1 107
x
100 t4 3.36t2

= − + 2.36t
107 4 2 1
 4   4 
100 x 2 1
= − 1.68x + 2.36x − − 1.68 × 12 + 2.36 × 1
107 4 4
100 x4
 
F (x) = − 1.68x2 + 2.36x − 0.93
107 4

d) P r(1.4 < X < 1.7) = F (1.7) − F (1.4) = 0.294228972 − 0.038878504 ≈ 0.255350467

Page 151
DRAFT VERSION
e)

100
Z 2
E(X) = x(x3 − 3.36x + 2.36) dx
107 1
100
Z 2
= (x4 − 3.36x2 + 2.36x) dx
107 1
2
x5 3.36x3 2.36x2

100
= − +
107 5 3 2 1
 5   5 
100 2 1
= − 1.12 × 23 + 1.18 × 22 − − 1.12 × 13 + 1.18 × 12
107 5 5
100
= [2.16 − 0.26]
107

190
E(X) = ≈ 1.775700935
107

100
Z 2
E(X 2 ) = x2 (x3 − 3.36x + 2.36) dx
107 1
100
Z 2
= (x5 − 3.36x3 + 2.36x2 ) dx
107 1
2
x6 3.36x4 2.36x3

100
= − +
107 6 4 3 1
 6
2.36 × 23
  6
2.36 × 13

100 2 4 1
= − 0.84 × 2 + − − 0.84 × 14 +
107 6 3 6 3
100 
E(X 2 )

= 3.52 − 0.113 ≈ 3.183800623
107

V (X) = 3.183800623 − (1.775700935)2 = 0.030686813


D(X) = 0.030686813 ≈ 0.175176522

19. f (x) = c [ln(x) − 2x + 10], x ∈ ]0, 1]


a)
Z 1
c [ln(x) − 2x + 10] dx = 1 ∴
0
1
2x2

c xln(x) − x − + 10x ∴
2 0
c (1ln(1) − 1 − 12 + 10 × 1) − (0ln(0) − 0 − 02 + 10 × 0) = 1
 

1
8c = 1 ∴ c = ∴ c = 0.125
8
b)
Z x1
F (x) = P r(X < x) = [ln(t) − 2t + 10] dt
08
x
2t2
 
1
= tln(t) − t − + 10t
8 2 0
1
F (x) = [x(9 + ln(x) − x)]
8
c)

P r(X > 0.2) = 1 − P r(X < 0.2)


= 1 − F (0.2)
1
= 1 − [0.2(9 + ln(0.2) − 0.2)]
8
1
= 1 − × 1.438112418
8
= 1 − 0.179764052
≈ 0.820235947

Page 152
DRAFT VERSION
d)

1
Z 1
E(X) = x [ln(x) − 2x + 10] dx
8 0
1
Z 1
xln(x) − 2x2 + 10x dx

=
8 0
1
2x3 10x2
 
1 1 2 1
= x ln(x) − x2 − +
8 2 4 3 2 0
12 2 × 13 10 × 12
 
1 1
= × 12 × ln(1) − − +
8 2 4 3 2
1 49
= ×
8 12
49
E(X) = = 0.510416
96

1
Z 1
E(X 2 ) = x2 [ln(x) − 2x + 10] dx
8 0
1
Z 1
x2 ln(x) − 2x3 + 10x2 dx

=
8 0
1
2x4 10x3
 
1 1 3 1
= x ln(x) − x3 − +
8 3 9 4 3 0
13 14 10 × 13
 
1 1 × ln(1)
= − − +
8 3 9 2 3
1 49
= ×
8 18
49
E(X 2 ) = = 0.34027
144

 2
49 49 245
V (X) = − =
144 96 3072

r
245
D(X) = ≈ 0.282405035
3072

20. X ∼ χ212
a) P r(X > 4.40) = 0.975
b) P r(X < 4.40) = 1 − 0.975 = 0.025
c) P r(X > 5.23) < P r(X > 5.00) < P r(X > 4.40) ∴ 0.950 < P r(X > 5) < 0.975
d) 1 − P r(X > 5.23) < P r(X < 10) < 1 − P r(X > 11.34) ∴ 0.025 < P r(X < 10) < 0.500

21. T ∼ t5
a) P r(T > 0.727) = 0.25
b) P r(T < 4.032) = 1 − P r(T > 4.032) = 1 − 0.005 = 0.995
c) t = 2.571
d) P r(X > 5.893) < P r(X > 5.000) < P r(X > 4.773) ∴ 0.0010 < P r(X > 5) < 0.0025
ν→∞
e) tν −→ N (0, 1)

22. F ∼ F (10, 6)
a) P r(F > 2.461) = 0.1
b) f = 4.072

23. X: ‘número de carretas por dia’, X ∼ P(4)


a) Y : ‘tempo (em dias) entre carretas’, Y ∼ E(4)
b) f (y) = 4e−4y
F (y) = 1 − e−4y

Page 153
DRAFT VERSION
1
c) E(Y ) = = 0.25.
4
Espera-serum tempo de 0.25 dia = 6 horas entre as carretas.
1
D(Y ) = = 0.25.
42
O tempo entre carretas varia, em média, 0.25 dia = 6 horas em torno da média.
d) P r(Y < 1) = F (1) = 1 − e−4×1 ≈ 0.981684361.
A probabilidade de que o tempo entre as carretas seja inferior a um dia é de aproximadamente 0.9817.

P r(X > 30) = P r Z > 30−22



24. a) 3
= P r(Z > 2.67) = 0.0038
P r(20 < X < 30) = P r 20−22 Z < 30−22

b) 3
< 3
= P r(−0.67 < Z < 2.67) = 0.9962 − 0.2514 = 0.7448
18−22

c) P r(X < 18) = P r Z > 3 = P r(Z < −1.33) = 0.0918
d) x = 22 − 1.26 × 3 = 18.22
e) Pessoas depressivas com até 18.22 anos têm probabilidade 0.1038 de cometer suicı́dio.

P r(X > 33) = P r Z > 33−27



25. a) 4
= P r(Z > 1.50) = 0.0668
P r(32 < X < 40) = P r 32−27 Z < 40−27

b) 4
< 4
= P r(1.25 < Z < 3.25) = 0.9994 − 0.8944 = 0.1050
c) x = 27 + 0.31 × 4 = 28.24
d) Pessoas de até 28.24 anos têm probabilidade de 0.6217 de pedir financiamento de automóveis.

P r(X < 16000) = P r Z < 16000−15000



26. a) 2000
= P r(Z < 0.50) = 0.6915
P r(X > 13000) = P r Z > 13000−15000

b) 2000
= P r(Z > −1.00) = 0.8413
P r(12000 < X < 14000) = P r 12000−15000 < Z < 14000−15000

c) 2000 2000
= P r(−1.50 < Z < −0.50) = 0.3085 −
0.0668 = 0.2417

27. a) 0.0013 b) 0.9987 c) 0.9986 d) 0.0001 e) 104

28. a) Convencional 0.7734, prioritário 0.0478.


b) Convencional 0.0401, prioritário 0.0000.
c) 0.0474
d) Convencional 28 minutos, prioritário 19 minutos.
e) Sabe-se pela tabela normal que aproximadamente P r(Z < 0.9) = 1.28. x = 23 + 1.28 × 4 = 28.12. y =
15 + 1.28 × 3 = 18.84.

29. a) 0.1151 b) 0.3056 c) 306 d) 6.2 + 1 × 1.04 = 7.24

30. a) 0.1587 b) 0.5746 c) 0.0013

31. B

32. D

33. E

Capı́tulo 4 - Inferência Estatı́stica Clássica


Seção 4.1

2. Solução abaixo, note a diferença dos valores do exemplo devido ao aumento de precisão.
> n <- function(e, conf = 0.95, p = 1/2){
alfa <- 1-conf
z <- qnorm(1-alfa/2)
return(round(z^2*p*(1-p)/e^2))
}
> n(.02) # comparando com o valor aproximado do exemplo
[1] 2401
> n(.01) # item a)
[1] 9604
> n(.01, p = 0.65) # item b)
[1] 8739
> n(.01, conf = 0.9) # item c)
[1] 6764
> n(.02, conf = 0.9) # item c)

Page 154
DRAFT VERSION
[1] 1691

Seção 4.2

3. Se considerarmos que os prédios são estratos, i.e., relativamente homogêneos em relação à variável ‘maneira de se
vestir’, a Amostragem Estratificada seria uma boa opção.
4. Considerando a Tabela tab1_6_23.xls, temos a seguinte tabela de totais:

Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou mais Total


M 269851 261472 679481 799937 358515 2369256
F 260745 252800 685828 812956 441210 2453539
Total 530596 514272 1365309 1612893 799725 4822795

Calculando percentualmente, temos a tabela abaixo. Para saber o total de entrevistados em cada situação, basta
multiplicar 1000 pelo percentual da célula correspondente.

Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou mais Total


M 0.0560 0.0542 0.1409 0.1659 0.0743 0.4913
F 0.0541 0.0524 0.1422 0.1686 0.0915 0.5088
Total 0.1101 0.1066 0.2831 0.3345 0.1658 1.0000

> h <- c(269851 , 261472 , 679481 , 799937 , 358515)


> m <- c(260745 , 252800 , 685828 , 812956 , 441210)
> tab <- rbind(h,m)
> (tab.prop <- round(prop.table(tab),4))
[,1] [,2] [,3] [,4] [,5]
h 0.0560 0.0542 0.1409 0.1659 0.0743
m 0.0541 0.0524 0.1422 0.1686 0.0915
> rowSums(tab.prop)
h m
0.4913 0.5088
> colSums(tab.prop)
[1] 0.1101 0.1066 0.2831 0.3345 0.1658

Seção 4.4

5. a) O limite superior de confiança 99% para a média é de −1.2.


b) O intervalo de confiança de 82% para a proporção está entre 1/7 e 3/7.
c) O intervalo de confiança de 90% para a média está entre 1/7 e 3/7.
d) O limite inferior de confiança 95% para a variância é de 16.
e) O limite superior de confiança 95% para a o desvio padrão é de 7.
f) O intervalo de confiança de 95% para o desvio padrão está entre 4 e 7.

Seção 4.5

6. a) 
H0 : o intervalo de tempo entre os ônibus é, em média, igual a 15 minutos
H1 : o intervalo de tempo entre os ônibus é, em média, diferente de 15 minutos

H0 : µ = 15
H1 : µ 6= 15
b) 
H0 : a duração média dos amortecedores é maior ou igual a 100 mil km
H1 : a duração média dos amortecedores é menor que 100 mil km

H0 : µ ≥ 100000
H1 : µ < 100000
c) 
H0 : o ganho médio diário com a nova composição é de pelo menos 3 litros de leite
H1 : o ganho médio diário com a nova composição é inferior a 3 litros de leite

H0 : µ ≥ 3
H1 : µ < 3

Page 155
DRAFT VERSION
d) 
H0 : as garrafas de cerveja contêm pelo menos 600mL, em média
H1 : as garrafas de cerveja contêm menos de 600mL, em média

H0 : µ ≥ 600
H1 : µ < 600
e) 
H0 : a face 1 ocorre com frequência equivalente às demais faces
H1 : a face 1 ocorre com frequência diferente das demais faces

H0 : π = 1/6
H1 : π 6= 1/6
f) 
H0 : a vacina previne pelo menos 80% dos casos de doença
H1 : a vacina previne menos de 80% dos casos de doença

H0 : π ≥ 80%
H1 : π < 80%

Exercı́cios extras
r
0.45 × 0.55
1. a) IC(πA , 95%) = 0.45 ∓ 1.96 ≈ 0.45 ∓ 0.0436 = [0.4064, 0.4936]
500
r
0.37 × 0.63
b) IC(πB , 95%) = 0.37 ∓ 1.96 ≈ 0.37 ∓ 0.0423 = [0.3277, 0.4123]
500
c) Não, pois εA ≈ 0.0436 e εB ≈ 0.0423.
82
2. a) π̂ = 100 = 0.82
b) IC(π, 95%) = 0.82 ∓ 0.0753 = [0.7447, 0.8953]
r
0.47 × 0.53
3. a) IC(π, 84%) = 0.47 ∓ 1.41 ≈ 0.47 ∓ 0.0123 = [0.4577, 0.4823]
r 3281
0.47 × 0.53
IC(π, 95%) = 0.47 ∓ 1.96 ≈ 0.47 ∓ 0.0171 = [0.4529, 0.4871]
3281
b) ε84% ≈ 0.0123, ε95% ≈ 0.0171.

10
4. a) π̂ = ≈ 0.1176
85 s
10 10

10 85
× 1− 85
b) IC(π, 91%) = ∓ 1.70 ≈ 0.1176 ∓ 0.0594 = [0.0582, 0.1771]
85 85
23
5. a) π̂ = 41
≈ 0.5610
b) 57 × 23
41
≈ 32
s
23 23

23 41
× 1− 41
c) IC(π, 85%) = ∓ 1.44 ≈ 0.5610 ∓ 0.1116 = [0.4494, 0.6726]
41 41

6. a) µ̂ = 13.71, σ̂ 2 = 3.552 = 12.6025


3.55
b) IC(µ, 98%) = 13.71 ∓ 2.518 × √ ≈ 13.71 ∓ 1.91 = [11.80, 15.62]
22
7. a) µ̂ = 13, 000, 000 = 13M M
b) IC(µ, 90%) = 13M M ∓ 1.4M M = [11.6M M, 14.4M M ]
0.3486
8. IC(µ, 95%) = 0.5250 ∓ 2.007 × √ ≈ 0.5250 ∓ 0.0961 = [0.4289, 0.6211]
53
9. a) 1 − α = 96.76%
b) z = ±1.88
r
0.9 × 0.1
10. Sob H0 , IC(π, 95%) = 0.9 ∓ 1.96 ≈ 0.9 ∓ 0.0772 = [0.8228, 0.9772], onde π é a verdadeira proporção de
58
hotéis ocupados. A informação da rádio pode estar correta pois π̂ = 49/58 ≈ 0.8448 pertence ao intervalo calculado.
De forma equivalente, não rejeita-se H0 : π = 0.9.
11. a) Hipótese de pesquisa 
H0 : a média é igual a 20
H1 : a média é diferente de 20

Hipótese estatı́stica 
H0 : µ = 20
H1 : µ 6= 20

Page 156
DRAFT VERSION
17.4−20
b) zcalc = √ = −2.17
12/ 100
Região crı́tica bilateral a 1%: (−∞, −2.58) ∪ (2.58, +∞). Não rejeita H0 .
Região crı́tica bilateral a 5%: (−∞, −1.96) ∪ (1.96, +∞). Rejeita H0 .
Região crı́tica bilateral a 10%: (−∞, −1.64) ∪ (1.64, +∞). Rejeita H0 .
c) IC(µ, 95%) = 17.4 ± 1.96 × √12 = [15.05, 19.75].
100
Com 95% de confiança estima-se que a média esteja entre 15.05 e 19.75.
12. a) Hipótese de pesquisa

H0 : a pressão diastólica média de mulheres com diabetes é igual a 74.4 mmHg
H1 : a pressão diastólica média de mulheres com diabetes é diferente de 74.4 mmHg

Hipótese estatı́stica 
H0 : µ = 74.4
H1 : µ 6= 74.4
84−74.4
b) tcalc = √ = 3.34
9.1/ 10
Região crı́tica bilateral 5%: (−∞, −2.262) ∪ (2.262, +∞).
DE: Rejeita H0 pois tcalc ∈ (−∞, −2.262) ∪ (2.262, +∞).
CE: Há evidências de que a pressão distólica seja maior nas mulheres diabéticas do que em mulheres não diabéticas
c) valor − p = 2 × P r(T > 3.34) = 2 × 0.0043300861 ≈ 0.0087.
d) Sim, pois p = 0.0087 < 0.01.
9.1
e) IC(µ, 90%) = 84 ± 1.833 × √ = [78.73, 89.27]
10
9.1
IC(µ, 95%) = 84 ± 2.262 × √ = [77.49, 90.51]
10
Aumentar a confiança implica em aumentar a amplitude do intervalo, i.e., reduzir a precisão da estimativa por
intervalo.
13. a) Hipótese de pesquisa 
H0 : a média de pontuação não se modificou
H1 : a média de pontuação se modificou

Hipótese estatı́stica 
H0 : µ = 900
H1 : µ 6= 900

b) Sob H0 , IC(µ, 95%) = 900 ± 1.96 √180 ≈ 900 ∓ 24.95 = [875.05, 924.95]. Rejeita-se, com α = 5% de significância
200
(ou 1 − α = 95% de confiança), que a média histórica das notas tenha aumentado pois x̄ = 935 não pertence ao
intervalo calculado.
14. a) µ̂ = 3.2, σ̂ = 0.4.
b) H0 : os digitadores cometem não mais de 3 erros por página. H0 : µ ≤ 3 vs H1 : µ > 3.
3.2−3
c) tcalc = √ = 2.5 > tcritico = 1.711.
0.4/ 25
DE: Rejeita-se H0 com nı́vel de significância de 5%.
CE: O teste sugere que os digitadores cometem, em média, mais de 3 erros por página.
d) 3.2 × 150 = 480
15. a) H0 : a fábrica embala os produtos com conteúdo médio de pelo menos 500g. H0 : µ ≥ 500 vs H1 : µ < 500.
492−500
b) tcalc = √ = −1.33 > tcritico = −1.711. Não rejeita H0 . A fábrica não deve ser multada.
30/ 25

16. Hipótese de pesquisa



H0 : o rendimento médio dos carros é de 10.4 km/L
H1 : o rendimento médio dos carros é diferente de 10.4 km/L

Hipótese estatı́stica 
H0 : µ = 10.4
H1 : µ 6= 10.4
9.8−10.4
tcalc = √ ≈ −0.276 ∈ (−2.064, +2.064). Não rejeita H0 . Os carros podem ter o rendimento declarado pela
2.3/ 25
fábrica.

Page 157
DRAFT VERSION
Capı́tulo 5 - Modelos Lineares
Exercı́cios extras
q
8−2
1. a) T = 0.9586 1−0.9586 2 = 8.246 > tcrı́tico = 2.447, p = 0.0002, rejeita-se H0 . O grau de associação linear entre a

metragem quadrada e o preço é 0.9586.


b) Para cada aumento de 1 m2 no imóvel espera-se um aumento de R$ 2192.04 no preço do imóvel.
c) ŷ = 2192.04 × 55 − 14401.57 = 106, 160.63. O preço parece estar bem acima do mercado.
q
18−2
2. a) T = −0.837 1−(−0.837) 2 = −6.118 < tcrı́tico = −2.120, p = 0.0000, rejeita-se H0 . O grau de associação linear

entre a idade e a massa corporal é −0.837.


b) ŷ = −1.027 × 60 + 148.218 = 86.60kg.
c) Para cada aumento de 1 ano de idade, espera-se uma redução de −1.027 unidade na massa corporal.
3. a) r = 0.9063, gl = 10 − 2 = 8, t = 6.065 > tcrı́tico = 3.355, p = 0.000301. Rejeita-se H0 : ρ = 0.

b) r = 0.8213 = 0.9063.
c) Em ambos os modelos P r(> |t|) < 0.01 para todos os coeficientes estimados. Em relação aos coeficientes de
determinação, r12 = 0.8213 < 0.9592 = r22 . Em relação aos resı́duos, os do modelo com intercepto está mais
bem ajustado à distribuição normal. À luz destas informações, escolho o modelo com intercepto, na forma
ŷ = 2.8812 + 0.6470x.
d) Eles fornecem a mesma estatı́stica de teste t = 6.065, indicando ser equivalente testar H0 : ρ = 0 e H0 : β1 = 0
no modelo com intercepto.
e) p̂2 = 2.8812 + 0.6470 × 5.6 = 6.5

4. a) r = 0.9110 = 0.9544, gl = 9 − 2 = 7, t = 8.462, P r< |t| = 6.357 × 10−05 < 0.05. Rejeita-se H0 : ρ = 0.
b) Em ambos os modelos P r(> |t|) < 0.05 para todos os coeficientes estimados. Em relação aos coeficientes de
determinação, r12 = 0.9110 < 0.9855 = r22 . Em relação aos resı́duos, os do modelo com intercepto está mais
bem ajustado à distribuição normal. À luz destas informações, escolho o modelo com intercepto, na forma
ŷ = −141.563 + 14.378x.
c) Eles fornecem a mesma estatı́stica de teste t = 8.462, indicando ser equivalente testar H0 : ρ = 0 e H0 : β1 = 0
no modelo com intercepto.
d) ŷ = −141.563 + 14.378 × 22 = 175.006 ≈ 175 picolés.
e) x̂ = 340+141.563
14.378
≈ 33.5 graus Celsius.
5. a) Pela equivalência entre o teste de β1 do modelo completo e o teste para ρ, sabe-se que o p-value é igual a
0.001490 < 0.05. Logo, rejeita-se H0 : ρ = 0.
b) Escolho o modelo completo pois i) todos os coeficientes são significantes, ou seja, p-values menores que 0.05 para
os testes H0 : β0 = 0 e H0 : β1 = 0, ii) seu qq-plot sugere um bom ajuste dos resı́duos à distribuição normal, iii)
o r2 = 0.8879 e iv) o coeficiente β̂1 = −1296 é negativo, coerente com o comportamento dos dados observados.
c) Para cada milı́metro adicional de chuva, espera-se uma redução de 1296 pessoas presentes no evento.
d) ŷ = 20432 − 1296 × 12 = 4880.
6. a) Pela equivalência entre o teste de β1 do modelo completo e o teste para ρ, sabe-se que o p-value é igual a
7.85 × 10−6 < 0.05. Logo, rejeita-se H0 : ρ = 0.
b) Escolho o modelo incompleto pois i) o coeficiente β̂1 é significante, ou seja, seu p-value é 2.05 × 10−11 < 0.05 para
o teste H0 : β1 = 0. O mesmo não ocorre no modelo completo, onde aceita-se H0 : β0 = 0 (p-value 0.145 > 0.05),
sugerindo o modelo incompleto, ii) seu qq-plot sugere um bom ajuste dos resı́duos à distribuição normal e iii)
r2 = 0.9943.
c) Para cada aumento de 1 hora de estudo mensal, espera-se um aumento de 0.42983 pontos na nota média de certa
disciplina.
d) ŷ = 0.42983 × 15 ≈ 6.45.

Capı́tulo 6 - Números Índices


Seção 6.1

1. Aguardando sugestões.

Exercı́cios extras

1. a) pcereja
2007,2009 = 137.11%
Q
b) I2007,2008 = 111.54%
cereja
c) v2007,2009 = 274.23%
Q
d) F2007,2008 = 102.88%
2. mumu
a) p2008,2009 = 155.47%
Q
b) I2007,2008 = 130.00%
P
c) P2009,2010 = 118.00%
P
d) F2009,2010 = 118.00%

Page 158
DRAFT VERSION
C Uma breve introdução ao R e RStudio
R é uma linguagem e ambiente de programação para cálculos estatı́sticos e visualização. Foi de-
senvolvido no departamento de Estatı́stica da Universidade de Auckland, e seu código está disponı́vel
sob a licença GNU81 GPL82 . Atualmente a R Foundation está sediada na Universidade de Economia
e Negócios de Viena, Áustria. Foi influenciado por linguagens como S e Scheme seguindo o conceito
minimalista orientado a objeto, que especifica um pequeno núcleo padrão acompanhado de pacotes para
a extensão da linguagem.
RStudio é um ambiente de desenvolvimento integrado ao R. Possibilita a criação de apresentações e
relatórios automáticos em diversos formatos como pdf, html e docx, mesclando as linguagens R, LATEX,
markdown, C++, Python, SQL e D3. Está disponı́vel nas edições Desktop e Server, reunindo as funcio-
nalidades do R de forma parcimoniosa.

Instalando e acessando R e RStudio


Para instalar o R83 , acesse cran.rstudio.com e escolha o seu sistema operacional. No Linux, siga
as instruções de instalação via terminal de acordo com a sua distribuição; no Mac OS X, use a extensão
pkg; no Windows, acesse http://cran.rstudio.com/bin/windows/base.

Figura C.1: Página de download do R para diferentes sistemas operacionais.

Para instalar o RStudio84 , acesse www.rstudio.com/products/rstudio/download e escolha o insta-


lador85 de acordo com seu sistema operacional conforme Figura C.2.

Figura C.2: Página de download do RStudio para diferentes sistemas operacionais.

Caso você não tenha disponibilidade para realizar as instalações sugeridas, pode-se ainda acessar o
R remotamente através de algum compilador online.
• http://rextester.com/l/r_online_compiler
• ideone.com (No botão inferior esquerdo, altere de ‘Java’ para ‘R’)
81 GNU is Not Unix.
82 A Licença Pública Geral GNU é um tipo de licença utilizada para software livre, que garante aos usuários finais
(indivı́duos, organizações ou empresas) a liberdade de usar, estudar, compartilhar e modificar o software.
83 www.r-project.org
84 www.rstudio.com
85 Para a versão beta, acesse https://www.rstudio.com/products/rstudio/download/preview/.

Page 159
DRAFT VERSION
A primeira sessão de R/RStudio
Considera-se que o leitor acessou com sucesso o R/RStudio, conforme detalhamento anterior. Abra o
R/RStudio e crie um novo script através do menu File ; New File ; R Script. Salve este documento
com o nome teste.R em uma pasta apropriada. Este script é um documento de texto onde será escrito o
código R. Note que o RStudio utiliza cores para destacar os diferentes objetos (números, texto, funções),
auxiliando a visualização do código. Para rodar o código que está escrito no documento criado, clique na
linha ou selecione o bloco desejado e tecle Command+Enter (Mac) ou Ctrl+Enter (Windows e Linux).
O R funciona como uma calculadora. Experimente realizar algumas operações simples para começar.
Linhas de código são desconsideradas a partir do sı́mbolo #, que indica um comentário.

> 2+4*3 # Operaç~


oes algébricas básicas, mantendo as propriedades matemáticas

[1] 14

> (2+4)*3 # Note a nova prioridade obtida com os par^


enteses

[1] 18

> 2^3 # Pot^


encias s~
ao indicadas por ^ ou ** (Após digitar ^ d^
e um espaço no teclado)

[1] 8

> 1:10 # O sı́mbolo : indica uma sequ^


encia, que pode ser crescente...

[1] 1 2 3 4 5 6 7 8 9 10

> 10:1 # ... ou decresecente

[1] 10 9 8 7 6 5 4 3 2 1

> -(10:1) # Note a diferença do negativo com

[1] -10 -9 -8 -7 -6 -5 -4 -3 -2 -1

> -10:1 # ... e sem par^


enteses

[1] -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1

> x <- 2 # O sı́mbolo <- (seta para esquerda) indica uma atribuiç~
ao
> x # Digitar o objeto criado apresenta seu conteúdo

[1] 2

> (y = 4) # Apresenta o resultado quando colocado entre par^


enteses

[1] 4

> # = é similar a <-, porém menos versátil. Prefira seta, pois funciona sempre
> (3 -> z) # A atribuiç~
ao com seta pode, ainda, ser feita no sentido oposto

[1] 3

> x+y*z # Pode-se operar com os valores atribuı́dos

[1] 14

Page 160
DRAFT VERSION
> (v <- c(2,0,1,2,4,2)) # Um vetor é facilmente criado com 'c' (concatenar)

[1] 2 0 1 2 4 2

> 2*v # Operaç~


oes s~
ao facilmente realizadas com vetores

[1] 4 0 2 4 8 4

> v^2 # Cada valor ao quadrado. Compare 'sum(v^2)' e '(sum(v))^2'

[1] 4 0 1 4 16 4

> v[3] ao do vetor 'v'


# Apresenta a terceira posiç~

[1] 1

> v[-3] # Apresenta o vetor 'v', exceto a terceira posiç~


ao

[1] 2 0 2 4 2

> v[c(3,5)] oes do vetor 'v'


# Apresenta a terceira e quinta posiç~

[1] 1 4

> length(v) # Indica o tamanho do vetor 'v', teste ?length

[1] 6

> MASS::fractions(cos(c(0,30,45,60)*pi/180)) # Fraç~


oes

[1] 1 226974/262087 2378/3363 1/2

> letters[1:20] # letras minúsculas

[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s" "t"

> noquote(LETTERS) # letras maiúsculas sem aspas

[1] A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

> substr('abcdef', 2, 4) # apresenta da segunda até a quarta posiç~


ao

[1] "bcd"

> x <- c('Chimarrao', 'Gaita', 'Bah')


> strsplit(x, 'a') # retira a letra 'a'

[[1]]
[1] "Chim" "rr" "o"

[[2]]
[1] "G" "it"

[[3]]
[1] "B" "h"

> tolower(x) # minúsculas

[1] "chimarrao" "gaita" "bah"

> toupper(x) # maiúsculas

[1] "CHIMARRAO" "GAITA" "BAH"

Page 161
DRAFT VERSION
D Equação da Reta
A equação da reta é uma relação matemática utilizada para descrever uma reta no plano cartesiano 86 .
Pode ser apresentada de formas distintas, sendo que na Seção 5.2 é utilizada a notação da reta reduzida,
fazendo a0 = β1 e b0 = β0 .

Tipo Equação
Geral ax + by + c = 0
x y
Segmentária + =1
−c/a −c/b
a c
Reduzida y = − x − ⇒ y = a0 x + b0
b b

Exemplo D.1. (Equação reduzida) Considere a reta que passa pelos pontos A = (0, −3) e B = (1.5, 0).

Uma maneira de descobrir a equação reduzida é substituir os pontos A e B em y = a0 x + b0 :

Ponto A −3 = a0 × 0 + b0 ⇒ b0 = −3
3
Ponto B + b0 0 = a0 × 1.5 + (−3) ⇒ a0 = =2
1.5

Assim, a equação reduzida da reta é y = 2x − 3, onde o coeficiente angular é a0 = 2 e o intercepto


(constante ou coeficiente linear) é b0 = −3. Para cada aumento de 1 unidade em x, y aumenta 2 unidades.
,
Exemplo D.2. (Equação segmentária) Do Exemplo D.1, pode-se obter a equação segmentária da reta a
partir da forma reduzida.
2 1 3 x y x y
y = 2x − 3 ⇔ 2x − y = 3 ⇔ x− y = ⇔ + =1 ⇔ + = 1.
3 3 3 3/2 3/ − 1 1.5 −3

Assim, −c/a = 1.5 e −c/b = −3. Note que xB = 1.5 e yA = −3.


,
Exemplo D.3. (Equação geral) Do Exemplo D.1, pode-se obter a equação geral da reta a partir da forma
reduzida.
y = 2x − 3 ⇔ 2x − y − 3 = 0.
2 −3
Assim, a = 2, b = −1 e c = −3. Note que a0 = − = 2 e b0 = − = −3.
−1 −1
,
86 Sistema de coordenadas formado por duas retas reais perpendiculares – i.e., que formam um ângulo de 90o – utilizado
para especificar pontos a partir de um par de coordenadas numéricas na forma (x, y).

Page 162
DRAFT VERSION
Referências
Anderson, D., Sweeney, D., Williams, T., and de Castro Paiva, L. (2007). Estatı́stica aplicada à Admi-
nistração e Economia. Cengage Learning.
Anscombe, F. (1973). Graphs in statistical analysis. The American Statistician, 27(1):17–21.

Baratojo, J. (2000). Fatos, contos e piadas da sala de aula (pp. 56–57).


Beckman, O. R. and Costa Neto, P. L. (1980). Análise Estatı́stica da Decisão. Editora Edgard Blücher
LTDA.
Beers, M. and Fletcher, A. (2004). Manual Merck de Informação Médica: Saúde para a famı́lia segunda
edição. Merck Manual os Medical Information Home Edition. Simon & Schuster.
Bernardo, J. M. and Smith, A. F. (2009). Bayesian Theory, volume 405. John Wiley & Sons.
Berthouex, P. and Brown, L. (2002). Statistics for environmental engineers. CRC.
Blackwell, D., Pereira, C., and Borges, W. (1974). Estatı́stica Básica. McGraw-Hill do Brasil.

Bolfarine, H., de Oliveira Bussab, W., and de Estatı́stica, A. B. (2005). Elementos de amostragem.
Edgard Blücher.
Breslow, N. E. and Day, N. E. (1980). Statistical Methods in Cancer Research. Volume 1—The Analysis
of Case-Control Studies. IARC Scientific Publications, Lyon, France.

Breslow, N. E. and Day, N. E. (1987). Statistical Methods in Cancer Research. Volume 2—The Design
and Analysis of Cohort Studies. IARC Scientific Publications, Lyon, France.
Callegari-Jacques, S. (2003). Bioestatı́stica. Princı́pios e Aplicações. Porto Alegre, ArtMed.
Chow, S.-C., Shao, J., and Wang, H. (2007). Sample size calculations in clinical research, volume 20.
Chapman & Hall/CRC.

de Finetti, B. (1974). Theory of probability: A critical introductory treatment - Vol. 1. John Wiley &
Sons Ltd., Chichester.
DeGroot, M. and Schervish, M. (2002). Probabilty and Statistics. Addison Wesley, Boston, MA, Pennsyl-
vania.

Diewert, W. and Nakamura, A. (1993). Essays in index number theory. North-Holland.


Dukette, D. and Cornish, D. (2009). The essential 20: Twenty components of an excellent health care
team (pp. 72–73).
Eisenhauer, J. (2003). Regression through the origin. Teaching Statistics, 25(3):76–80.

Feller, W. (1968). An Introduction to Probabilty Theory and Its Applications. John Wiley & Sons, Inc.,
New York, third edition.
Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B. (2003). Bayesian data analysis. Chapman &
Hall/CRC.

Gosh, J. (1988). Statistical information and likelihood: A collection of critical essays by dr. d. basu.
Lecture Notes in Statistics, 45.
Hohenwarter, M., Borcherds, M., and Ancsin, E. (2014). GeoGebra 5.0.42.0-3d. http://www.geogebra.
org.
Huff, D. and Geis, I. (1954). How to lie with statistics.

Hyndman, R. J. and Khandakar, Y. (2008). Automatic time series forecasting: the forecast package for
R. Journal of Statistical Software, 26(3):1–22.

Page 163
DRAFT VERSION
Iezzi, G. and Murakami, C. (1977). Fundamentos de Matemática Elementar 1: Conjuntos, funções. SP
Editora Atual.
Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8):e124.
James, B. (2010). Probabilidade: Um curso em nı́vel intermediário, coleção euclides. Rio de Janeiro.
IMPA, 3ª Edição.
Koertge, N. (2008). New dictionary of scientific biography. Charles Scribner’s Sons/Thomson Gale
Detroit, MI.
Kotz, S. and Nadarajah, S. (2000). Extreme value distributions. World Scientific.

Kotz, S., Read, C., Balakrishnan, N., and Vidakovic, B. (2005). Encyclopedia of statistical sciences, 16
volume set.
Leisch, F. (2002). Sweave: Dynamic generation of statistical reports using literate data analysis. In
Härdle, W. and Rönz, B., editors, Compstat 2002 — Proceedings in Computational Statistics, pages
575–580. Physica Verlag, Heidelberg. ISBN 3-7908-1517-9.

Likert, R. (1932). A technique for the measurement of attitudes. Archives of psychology.


Magalhães, M. and Lima, A. (2002). Noções de probabilidade e estatı́stica.
McCullagh, P. and Nelder, J. A. (1989). Generalized linear models (monographs on statistics and applied
probability 37). Chapman Hall, London.

Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., and Leisch, F. (2017). e1071: Misc Functions
of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R package
version 1.6-8.
Meyerhof Salama, B. (2011). Dano moral no brasil. Série Pensando o Direito, (37).

Morettin, P. and Bussab, W. (2008). Estatı́stica básica. Saraiva.


Mullard, A. (2011). Reliability of ‘new drug target’ claims called into question. Nature Reviews Drug
Discovery, 10(9):643–644.
Pagano, M. (2004). Princı́pios de bioestatı́stica. Pioneira Thomson Learning.

Paulino, C., Turkman, M., and Murteira, B. (2018). Estatı́stica Bayesiana. Fundação Calouste Gulben-
kian, Lisboa, 2nd edition.
Pfanzagl, J. and Sheynin, O. (1996). Studies in the history of probability and statistics xliv - a forerunner
of the t-distribution. Biometrika, pages 891–898.
Püschel, F. (2010). Dano moral. Projeto Pensando o Direito, (37).

R Core Team (2017). R: A Language and Environment for Statistical Computing. R Foundation for
Statistical Computing, Vienna, Austria.
Salkind, N. (2007). Encyclopedia of measurement and statistics. Sage Publications, Inc., Thousand Oaks.
Scheinerman, E. (2003). Matemática Discreta - Uma Introdução. Thomson.

Scrucca, L. (2004). qcc: an r package for quality control charting and statistical process control. R News,
4/1:11–17.
Silver, N. (2012). The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t. Penguin
Press.

Stokes, M. (1997). Plato: Apology of Socrates. Aris & Phillips.


Sturges, H. A. (1926). The choice of a class interval. Journal of the American Statistical Association,
21(153):65–66.

Page 164
DRAFT VERSION
Triola, M. (1999). Introdução à estatistica. 7ª edição. Rio de Janeiro: Livros Técnicos e Cientı́ficos
Editora.
Tufte, E. (2007). The Visual Display of Quantitative Information. Graphics Press LLC.
Weisberg, S. (2005). Applied linear regression, volume 528. John Wiley & Sons.

Wickham, H. (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.
Yule, G. and Kendall, M. (1948). Introdução à Teoria da Estatı́stica. Instituto Brasileiro de Geografia e
Estatı́stica.

Page 165

Você também pode gostar