Ecnrs

DRAFT VERSION
HEstatı́stica ClássicaI
no RStudio
Filipe J. Zabala
PUCRS
filipe.zabala@pucrs.br
2020-08-10
“ Meninos, eu vou ditar as regras do bem viver

não basta somente ler, é preciso ponderar
que a lição não faz saber, quem faz sábios é o pensar.”
∼ Bárbara Heliodora, 1862
Sumário
1 Introdução e Notação 4
1.1 Algarismos e Números . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Porcentagens, Decimais e Milhares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 O Senhor X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Arredondamento e Truncagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Outros sı́mbolos e expressões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.7 Momentinho Cultural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Estatı́stica Descritiva 10
2.1 Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1 Variável qualitativa nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2 Variável qualitativa ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.3 Variável quantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.4 Variável quantitativa contı́nua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Distribuição de Frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Dados brutos, Rol e Estatı́sticas de Ordem . . . . . . . . . . . . . . . . . . . . . . 13
2.2.2 Tabela de frequência univariada discreta . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3 Tabela de frequência univariada contı́nua . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.4 Tabela (de frequência) bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Medidas de Posição (ou Localização) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1 Mı́nimo e Máximo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Média (Aritmética Simples) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.3 Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.4 Média (Aritmética) Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.5 Média Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.6 Média Harmônica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.7 Média Quadrática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.8 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1
DRAFT VERSION
2.3.9 Separatrizes (ou Quantis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Medidas de Dispersão (ou Variabilidade) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.3 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.4 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5 Outras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.1 Assimetria (ou Obliquidade) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5.2 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.6 Visualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.1 Gráfico de Setores (Pizza) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6.2 Gráfico de Barras e Colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.6.3 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6.4 Box plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6.5 Gráfico de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.6 Mais opções de visualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3 Probabilidade 47
3.1 Teoria dos Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.1 Relações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.2 Conjunto Vazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.3 Cardinal e Conjunto das Partes/Potência . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.4 Operações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1.5 Conjuntos Disjuntos e Partição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.1 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.3 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.4 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.5 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.6 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.7 Teorema da Probabilidade Total e o Teorema de Bayes . . . . . . . . . . . . . . . . 55
3.3 Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3.1 Esperança e Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.2 Distribuições de probabilidade especiais . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.3 Distribuição Binomial · B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3.4 Distribuição Binomial Negativa · BN (k, p) . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.5 Distribuição Poisson · P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.6 Distribuição Hipergeométrica · H(N, R, n) . . . . . . . . . . . . . . . . . . . . . . . 61
3.4 Variáveis Aleatórias Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4.1 Esperança e Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.4.2 Distribuição Uniforme · U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.3 Distribuição Normal · N (µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.4 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.5 Distribuição Qui-quadrado · χ2 (ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.6 Distribuição t (de Student) · t(ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.4.7 Distribuição F (de Fisher-Snedecor) · F(ν1 , ν2 ) . . . . . . . . . . . . . . . . . . . . 71
3.4.8 Distribuição Exponencial · E(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4 Inferência Estatı́stica Clássica 77

4.1 Universo e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.1.1 N e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.2 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2.1 Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2.2 Cálculo do tamanho da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.2.3 Amostragem Aleatória Simples (AAS) . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.2.4 Amostragem Estratificada (AE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Page 2
DRAFT VERSION
4.2.5 Amostragem por Conglomerados (AC) . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2.6 Amostragem Sistemática (AS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2.7 Amostragem por Cotas (ACot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3.1 Proporção ou Percentual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.3.2 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.3.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.4 (Estimação por) Intervalo de Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.4.1 Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.4.2 Média com σ conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.4.3 Média com σ desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.4.4 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.4.5 Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5 (Estimação por) Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5.1 Equivalência entre Testes de Hipóteses e Intervalos de Confiança . . . . . . . . . . 88
4.5.2 Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.5.3 Estatı́stica do Teste - Univariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.5.4 Valor-p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.5.5 Valor Crı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.5.6 Estatı́stica do Teste - Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5 Modelos Lineares 101

5.1 Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.1.1 ρ, a correlação universal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.1.2 r, (coeficiente de) correlação (amostral) (de Pearson) . . . . . . . . . . . . . . . . . 103
5.1.3 Teste para ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.1.4 ρRP O e rRP O , a correlação na Regressão Pela Origem . . . . . . . . . . . . . . . . 105
5.2 Modelo Linear Univariado ou Regressão Linear Simples . . . . . . . . . . . . . . . . . . . 105
5.2.1 Equação da reta via Mı́nimos Quadrados Ordinários . . . . . . . . . . . . . . . . . 106
5.2.2 Análise de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6 Modelos Não Lineares 119
7 Números Índice 126

7.1 Índices Relativos ou Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.1.1 de Preço . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.1.2 de Quantidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.1.3 de Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.2 Índices Agregativos Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.2.1 Índice Agregativo Simples (de Bradstreet) . . . . . . . . . . . . . . . . . . . . . . . 128
7.2.2 Índice Médio Aritmético (de Sauerbeck) . . . . . . . . . . . . . . . . . . . . . . . . 128
7.3 Índices Agregativos Ponderados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3.1 Índice (Ponderado) de Laspeyres ou da época base . . . . . . . . . . . . . . . . . . 129
7.3.2 Índice (Ponderado) de Paasche ou da época atual . . . . . . . . . . . . . . . . . . . 129
7.3.3 Índice (Ponderado) de (Irving) Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 130
A Tabelas 132
B Respostas dos exercı́cios 140
C Uma breve introdução ao R e RStudio 159
D Equação da Reta 162
Page 3
DRAFT VERSION
“ O pensamento estatı́stico será um dia tão necessário para a cidadania

quanto a habilidade de ler e escrever.”
∼ James W. Tankard Jr., 19791
1 Introdução e Notação
á dois motivos para ler este texto: (i) você deseja se tornar um profissional qualificado e entende
H que o ferramental estatı́stico pode auxiliar em suas decisões futuras ou (ii) você foi obrigado. De
toda forma sugere-se a leitura deste e de outros materiais de apoio ao longo do curso2 , praticando através
de exercı́cios de fixação3 . Leia este livro / É uma pesquisa paciente / Cada linha desse texto / No papel ou
virtualmente / Fará você ficar / Ao menos inteligente4 . Este texto consiste em declarações tão verı́dicas
quanto o possı́vel para a linguagem humana usual.
O Método Estatı́stico ou simplesmente Estatı́stica reúne ferramentas teóricas e práticas para analisar
informações quantitativas, medir incertezas e auxiliar na tomada de decisão. É um componente do
Método Cientı́fico, e pode ser dividido conforme o esquema da Figura 1.1.
ESTATÍSTICA
DESCRITIVA INFERENCIAL PREDITIVA
MODELAGEM
CLÁSSICA BAYESIANA
ALGORÍTMICA
Figura 1.1: Uma possı́vel divisão da Estatı́stica
Neste curso serão abordados tópicos de Estatı́stica Descritiva, Probabilidade, Inferência Estatı́stica
sob o prisma da Estatı́stica Clássica (ou Frequentista), Modelos Lineares e Números Índice.
1.1 Algarismos e Números

Um algarismo é um sı́mbolo, enquanto um número expressa uma idéia de quantidade. Números são
representados por algarismos, sendo fundamental distinguir estes elementos.
Se há 20 alunos na sala A outros 30 na sala B, pode-se dizer que, em média, há 20+30
2 = 25 alunos nas
duas salas. Esta é uma informação numérica. Se rotularmos o sexo masculino como 0 e o feminino como
1, fica claro que 0 e 1 estão sendo tratados como algarismos, uma vez que não expressam quantidades.
1 http://www.sciencedirect.com/science/article/pii/0315086079901010
2 Este material foi desenvolvido no R 4.0.2 e RStudio 1.3.1056, disponı́vel em filipezabala.com.
3 pt.khanacademy.org/
4“Compre este disco / É uma pesquisa paciente / Cada volta da agulha / Pelo sulco docemente / Fará você ficar / Mais
feliz e inteligente”. ‘Jingle do Disco’ de Tom Zé, do álbum 1992 The Hips of Tradition.
Page 4
DRAFT VERSION
1.2 Porcentagens, Decimais e Milhares
Neste texto será adotado o padrão americano, que utiliza o sı́mbolo de ponto (.) como separador de
decimais e vı́rgula (,) como separador de milhares. Assim,
1 2.5
= 0.025 = 0.0250 = .025 = 2.5% = .
40 100
Dı́zimas periódicas serão escritas na forma 13 = 0.333... = 0.3̄ ≈ 0.333 ≈ 0.3. O número 32, 960 =
30, 000 + 2, 000 + 960 deve ser lido como ‘trinta e dois mil novecentos e sessenta’.
Esta opção evita muitos problemas, já que muitos softwares estatı́sticos não são compatı́veis com o
padrão brasileiro, que utiliza vı́rgula como separador de decimais e ponto para separar os milhares. Nas
anotações pessoais e listas de exercı́cios poderá ser adotada a notação de preferência do aluno.
1.3 O Senhor X
Quando avalia-se algo de interesse prático, em geral observam-se nomes longos. Considere a variável
X: ‘número de filhos de mulheres atendidas em um hospital público de Porto Alegre em

2019’.
Esta longa descrição tornará maçante qualquer texto que utilize-o muitas vezes, tornando impraticável
a realização de cálculos envolvendo tal caracterı́stica de interesse. É razoável, portanto, associar descrições
longas a sı́mbolos. A letra X é famosa por simbolizar algo genérico, tanto na Ciência quanto na vida
cotidiana. Note que o sı́mbolo utilizado para separar X de sua descrição é ‘ : ’, e não ‘ = ’, como
erroneamente se utiliza em certos casos.
Neste texto será utilizado X (maiúsculo) para representar a caracterı́stica de interesse, e xk (minús-
culo) para representar o k-ésimo valor observado desta caracterı́stica. Assim, enquanto X representa
genericamente o número de filhos de mulheres atendidas em um hospital público de Porto Alegre em
2012, x4 = 2 indica que a quarta mulher avaliada no estudo tem dois filhos.
1.4 Somatório
Pn
A soma de n números x1 , x2 , ..., xn é representada por i=1 xi = x1 + x2 + · · · + xn , e lê-se ‘somatório
de xis i de um até ene’.
Exemplo 1.1. (Número de passos) Suponha que foi anotado o ‘número de passos até a lixeira mais
próxima’ na cidade de Porto Alegre em n = 6 ocasiões, conforme Tabela 1.1.
x1 x2 x3 x4 x5 x6
186 402 191 20 7 124
Tabela 1.1: Número de passos até a lixeira mais próxima na capital gaúcha
Esta tabela indica que na primeira ocasião foram caminhados 186 passos até localizar uma lixeira
(representado por x1 = 186), na segunda foram 402 passos (representado por x2 = 402), e assim suces-
sivamente. Para calcular o total de passos caminhados, pode-se fazer
6
X
xi = x1 + x2 + · · · + x6 = 186 + 402 + 191 + 20 + 7 + 124 = 930 (1)
i=1
Page 5
DRAFT VERSION
> 186+402+191+20+7+124 # R e RStudio s~
ao calculadoras (Ap^
endice C)
[1] 930
> x <- c(186,402,191,20,7,124) # Pode-se criar um vetor e atribuir a x

> sum(x) ao 'sum', apresentada na Equaç~
# Usando a funç~ ao (1)
[1] 930
> sum(x^2) # Soma dos quadrados, representada pela Equaç~

ao (2)
[1] 248506
, P
A letra grega é o sigmaP
maiúsculo, conforme Tabela 1.3. Em muitos casos a simbologia de somatório
é simplificada, utilizando-se , x ou i . A seguir estão alguns exemplos mais avançados5 .
P P
n
X
x2i = x21 + x22 + . . . + x2n (2)
i=1
n
X n
X
(xi − x̄)2 = (x1 − x̄)2 + (x2 − x̄)2 + . . . + (xn − x̄)2 = (xi − µ)2 + (x̄ − µ)2
i=1 i=1
(3)
EXERCÍCIOS
1. Considere o banco de dados disponı́vel no pacote coronavirus6 conforme código abaixo.
> # install.packages('coronavirus', dep=T) # rodar uma vez

> library(coronavirus) # chamando a biblioteca 'coronavirus'
> data(coronavirus) # deixando o banco de dados disponı́vel
> dim(coronavirus) # dimens~
oes do banco de dados (linhas x colunas)
[1] 150720 7
> head(coronavirus) # mostrando o inı́cio do banco de dados
date province country lat long type cases

1 2020-01-22 Afghanistan 33.93911 67.70995 confirmed 0
a) Obtenha a soma de casos (cases) registrados ao longo de todo o perı́odo.

b) Obtenha a soma ao quadrado de casos registrados ao longo de todo o perı́odo.
c) Obtenha a soma de casos registrados ao longo de todo o perı́odo dividido por tipo (type).
d) Considerando a variável X: ‘número de casos registrados’ em n = 150720 linhas do banco de dados, represente
os itens a) e b) utilizando a notação de somatório.
5 Notação
utilizada no cálculo de variâncias, detalhado na Seção 2.4.2.
6 Johns Hopkins University Center for Systems Science and Engineering (JHU CCSE). https://systems.jhu.edu/
research/public-health/ncov
Page 6
DRAFT VERSION
1.5 Arredondamento e Truncagem
Arredondamento 7 e truncagem são métodos para escrever números com precisão delimitada.
Para arredondar um número para a k-ésima casa decimal, basta observar a k+1-ésima casa. Se a k+1-
ésima casa decimal for 0, 1, 2, 3 ou 4, mantém-se a k-ésima casa decimal; se a k+1-ésima casa decimal
for 5, 6, 7, 8 ou 9, soma-se 1 à k-ésima casa decimal. Como exercı́cio, releia a frase anterior substituindo
‘k-ésima’ por ‘primeira’ e ‘k+1-ésima’ por ‘segunda’, aplicando esta regra para o número 153.654321.
Note que deve-se sempre avaliar o número original para realizar o arredondamento. Arredondamentos
são comuns, por exemplo, ao calcularmos um ı́ndice de preço ou um montante de pagamento sobre o
qual incidiu certa taxa de juros.
Para truncar um número para a k-ésima casa decimal, basta eliminar a k+1-ésima casa decimal e suas
subsequentes. Como exercı́cio, releia a frase anterior substituindo ‘k-ésima’ por ‘primeira’ e ‘k+1-ésima’
por ‘segunda’, aplicando esta regra novamente para o número 153.654321. Compare com os valores
arredondados e note que pode-se utilizar números já truncados para continuar a reduzir a precisão sem a
necessidade de conhecer o valor original. Truncagens são comuns, por exemplo, para representar idades
e ao calcular os graus G1 e G2 da PUCRS. Assim, se o cálculo do seu G1 resultar em 6.99999999, o
sistema irá truncar para 6.9, e não arredondar para 7.0.
Exemplo 1.2. (Arredondamento e truncagem)
Decimais Arredondamento Truncagem

6 153.654321 153.654321
5 153.65432 153.65432
4 153.6543 153.6543
3 153.654 153.654
2 153.65 153.65
1 153.7 153.6
0 154 153
−1 150 150
−2 200 100
Tabela 1.2: Arredondamento e truncagem do número 153.654321
> options(digits = 10) # Ajustando para apresentaç~

ao de 10 dı́gitos (padr~
ao: 7)
> for(i in 6:-2){ print(round(153.654321, dig = i)) } # 'digits' casas decimais
[1] 153.654321
[1] 153.65432
[1] 153.6543
[1] 153.654
[1] 153.65
[1] 153.7
[1] 154
[1] 150
[1] 200
> trunc <- function(x, ..., dig = 0) base::trunc(x*10^dig, ...)/10^dig # Aprimorando

> for(i in 6:-2){ print(trunc(153.654321, dig = i)) } # Precis~
ao de i decimais
[1] 153.654321
[1] 153.65432
[1] 153.6543
[1] 153.654
[1] 153.65
[1] 153.6
[1] 153
[1] 150
[1] 100
7 Esta é a regra do arredondamento para o número mais próximo.
Page 7
DRAFT VERSION
> # install.packages('plyr', dep = T) # Utilizando round_any do pacote plyr
> plyr::round_any(153.654321, .01, round) # dig = 2 em round
[1] 153.65
> plyr::round_any(153.654321, .0001, floor) # dig = 4 em trunc
[1] 153.6543
> plyr::round_any(153.654321, 1, round) # dig = 0 em round
[1] 154
> plyr::round_any(153.654321, 100, round) # dig = -2 em round
[1] 200
1.6 Outros sı́mbolos e expressões

· ∼: tem distribuição.
· ≈: aproximadamente.
· #: número de.
· ⊥
⊥: é independente de.
· ±/∓: mais ou menos/menos ou mais.
· ,: fim do Exemplo.
a
· : fim do Teorema.
· ˇ “( : fim do Momentinho Cultural.
· i.e.: id est, expressão em Latim que significa ‘isto é’.
· e.g.: exempli gratia, expressão em Latim que significa ‘por exemplo’.
Maiúscula Minúscula Nome Maiúscula Minúscula Nome

A α Alfa N ν Nü
B β Beta Ξ ξ Csi
Γ γ Gama O o Ômicron
∆ δ Delta Π π, $ Pi
E , ε Épsilon P ρ, % Rô
Z ζ Zeta Σ σ, ς Sigma
H η Eta T τ Tau
Θ θ, ϑ Teta Υ υ Úpsilon
I ι Iota Φ φ, ϕ Fi
K κ, κ Capa X χ Qui
Λ λ Lambda Ψ ψ Psi
M µ Mü Ω ω Ômega
Tabela 1.3: Sim, estamos falando grego.
Page 8
DRAFT VERSION
1.7 Momentinho Cultural
Sabe-se que a atenção do ser humano é limitada. O limiar de atenção – tempo que uma pessoa
consegue ficar focada em determinada tarefa – gira em torno de 40 minutos para tarefas do cotidiano8
e não mais do que 10 ou 15 minutos em sala de aula, pela experiência do autor. Assim, em um esforço
para dar um maior dinamismo às aulas, foi criado o Momentinho Cultural. É uma pausa com tempo
determinado arbitrariamente pelo professor, com a função principal de descontrair o ambiente. Tal
arbitrariedade fornece ao professor autonomia para não realizar o MC, se assim julgar necessário.
‘Momentinho’ sugere uma pausa breve, enquanto ‘Cultural’ tem como objetivo nortear a discussão
livre para assuntos mais elevados. Os temas abordados com maior frequência são Música, Teatro, Cinema
e Atualidades. Note as intervenções intituladas ‘Momentinho Cultural’ ao longo deste material, que se
valem dos benefı́cios da aplicação do método9 :
· relaxa;
· é divertido;
· estimula a comunicação entre os alunos e o professor;
· cria um ambiente para discussão de questões fundamentais que não encontram espaço no currı́culo
formal.
Mas justiça seja feita aos mestres que já se utilizavam desta técnica, que foi transmitida ao autor
pelo grande João Beal Vargas durante suas magnéticas aulas. O professor, maratonista, poeta e gaitero
Chico Silveira costumava aplicar seu MC, o ‘Momento do Chico’. Curiosamente outro sábio professor –
o sempre alegre José Baratojo – nos ensina sobre esta arte, intitulada ‘zunzun’ em seu conto ‘Psicologia
das cores’10 , transcrito abaixo.
Psicologia das cores

Alguns anos atrás recebi uma turma de alunos (47 alunas e 3 alunos) do Curso de Psi-
cologia. Como podem imaginar, a parte da aula mais difı́cil não era referente aos assuntos
da Matemática que eu devia ministrar-lhes, mas sim, fazer com que as alunas conseguissem
parar de conversar.
Em primeiro lugar, entrei num acordo com aquele simpático e educado grupo, acordo esse
que consistia em fazer de tempos em tempos, após a explicação de algum assunto, um mo-
mento que intitulamos de “zunzun”. Desse modo, fomos até o fim do semestre bem entrosados.
Como a turma era numerosa, resolvi, no primeiro trabalho de verificação da aprendizagem,
organizar quatro provas diferentes e, para que pudesse identificá-las de longe, eu as fiz em
papel com cores diferentes: amarelo, verde, rosa e branco.
Os alunos verificaram logo que havia quatro provas diferentes e trataram cada um de
resolver a sua, pois não dava para conferir com a dos seus vizinhos.
No segundo trabalho, eu resolvi fazer somente duas provas diferentes, mas distribuı́ aquelas
provas também em papel com quatro cores diferentes.
Quando eles viram as cores, baixaram a cabeça e começaram a trabalhar, tranquilamente.
No terceiro e último trabalho, eu fiz uma única prova e continuei usando as quatro cores
e o trabalho também foi realizado numa grande tranquilidade.
Ao término do último trabalho, eles perceberam comparando as questões que haviam resol-
vido, que todos tinham a mesma prova e, então, vieram me perguntar: “Professor! Só existia
uma única prova?” Eu lhes respondi afirmativamente.
“Então por que o senhor usou as quatro cores diferentes?”
Aı́ eu lhes disse: Eu usei as quatro cores por três grandes motivos: 1 º) para que vocês
pensassem que eram quatro provas diferentes, o que vocês realmente pensaram; 2 º) para que
vocês, pensando dessa forma, realizassem a prova tranquilamente, sem se preocuparem com
os vizinhos, o que aconteceu também; 3 º) para que os alunos da psicologia vissem a influência
das cores no comportamento humano!
∼ José Baratojo, 2000
8 Dukette and Cornish (2009)
9 Dica:busque por ‘momentinho cultural’ no Google.
10 Baratojo (2000).
Page 9
DRAFT VERSION
“ Fazendo umas médias se faz uma média.”

∼ Filipe J. Zabala, 2015
2 Estatı́stica Descritiva
Estatı́stica Descritiva está diretamente ligada à organização e descrição dos dados. É utili-
A zada para avaliar como as observações se distribuem, onde estão posicionadas e como se apre-
sentam em termos de dispersão e associação. Neste capı́tulo serão introduzidos conceitos e métodos
descritivos, ponto de partida da análise exploratória de dados, passo fundamental para análises estatı́s-
ticas mais avançadas.
2.1 Variáveis
Variável é uma caracterı́stica medida nos universos ou amostras. As variáveis qualitativas ou atributos
avaliam caracterı́sticas não numéricas no conjunto de interesse, como gênereo, time de futebol e nı́vel
de escolaridade. As variáveis quantitativas medem caracterı́sticas numéricas, como número de alunos
prestando atenção ou tempo de uma música em segundos. Podem ser classificadas conforme a Figura
2.1.
Variável
. &
Qualitativa Quantitativa
.& .&
Nominal Ordinal Discreta Contı́nua
character factor integer numeric
Figura 2.1: Uma possı́vel classificação das variáveis
2.1.1 Variável qualitativa nominal

Variáveis qualitativas nominais possuem o menor grau de informação dentre os quatro tipos propostos,
permitindo apenas a avaliação de frequências e ordenações arbitrárias. Aplicam-se em avaliações de
grupos não ordenados, tais como ‘gênero’, ‘religião’, ‘raça’, ‘cor preferida’, ‘bairro onde reside’, ‘time de
futebol do coração’, etc.
Exemplo 2.1. (Time de futebol do coração) Suponha um lugar onde tudo seja tratado de maneira dicotô-
mica11 . Como exercı́cio, no primeiro dia de aula de Estatı́stica as pessoas são questionadas quanto ao
‘time de futebol do coração’ através do voto secreto em uma cédula, onde estão listados os dois times
locais. Não existe informação prévia que obrigue a dispor na listagem qualquer time antes ou depois de
outro. Por este motivo optou-se pela ordenação alfabética – apesar do princı́pio de tumulto –, resultando
na lista
Maragato F.C.
Ximango F.C.
Os mais tradicionalistas gritavam palavras de ordem, preferindo a grafia
Chimango F.C.
Maragato F.C.
,
11 Dicotomia
é o ato de segmentar um conjunto em dois subconjuntos mutuamente excludentes, i.e., um elemento pode
pertencer somente a um dos subconjuntos.
Page 10
DRAFT VERSION
2.1.2 Variável qualitativa ordinal
Variáveis qualitativas ordinais possuem grau de informação maior em relação às nominais pois são
dotadas de uma ordenação prévia, permitindo comparações entre as observações. As variáveis de natureza
ordinal são utilizadas quando avaliam-se medidas tais como ‘colocação em um torneio esportivo’, ‘grau
de escolaridade’, ‘classificação de um restaurante quanto à qualidade da comida’, etc.
Exemplo 2.2. (Colocação no vestibular) A variável ‘colocação geral no vestibular’ é classificada como
qualitativa ordinal pois indica a ordenação do vestibulando em comparação aos demais, mesmo que não
se conheça a nota final de cada candidato.
,
Exemplo 2.3. (Escala de Likert) Quando deseja-se medir o grau de satisfação em relação a algum bem
ou serviço, pode-se utilizar a Escala de Likert de k nı́veis. Se um empresário utilizar k = 4, pode fazer
1: Ruim, 2: Regular, 3: Bom, 4: Ótimo. Se k = 5, pode-se considerar 1: Péssimo, 2: Ruim, 3: Regular,
4: Bom, 5: Ótimo.
A vantagem de utilizar k par é que obriga-se o respondente a se posicionar a favor/contra, acima/abaixo.
,
Exemplo 2.4. (Corrida maluca) Suponha uma corrida disputada em Imaginationland12 , na qual Rubinho
Barrichello tenha chegado na primeira colocação e Ayrton Senna na décima nona. As únicas informa-
ções de que dispomos apontam que i) Barrichello chegou antes de Senna, ii) ninguém chegou antes de
Barrichello, iii) há 17 intermediários e iv) de fato, tudo aconteceu em Imaginationland.
,
2.1.3 Variável quantitativa discreta

Uma variável quantitativa discreta assume apenas valores inteiros, i.e., discretos. Tecnicamente as
variáveis discretas são caracterizadas por conjuntos enumeráveis13 finitos ou infinitos.
Exemplo 2.5. (Número de filhos) Suponha que deseja-se observar o número de filhos de mulheres aten-
didas em um hospital. Para cada mulher entrevistada, o conjunto de possı́veis respostas para a pergunta
‘quantos filhos a senhora tem?’ é F = {0, 1, 2, . . . , k}, onde k é o número máximo de filhos que uma mu-
lher possa ter ao longo de sua vida. O recorde mundial é k = 69, atribuı́do à russa Valentina Vassilyeva.
Este é um conjunto enumerável finito.
,
Exemplo 2.6. (Pontos em um dado lançado k vezes) Suponha k lançamentos de um dado. Em cada
lançamento é anotada a face resultante, somada aos valores obtidos nos k − 1 lançamentos anteriores.
O conjunto de possı́veis resultados deste experimento é S = {k, k + 1, . . . , 6k}. Este é um conjunto
enumerável finito. Como exercı́cio, faça k = 4 e releia a sentença anterior substituindo os valores.
,
Exemplo 2.7. (Consumo de uma engrenagem moto-contı́nua) Suponha uma engrenagem eterna, com
consumo medido em PAB14 . O conjunto do número possı́vel de passos é S = {1, 2, . . .}. Este é um
conjunto enumerável infinito.
/
Exemplo 2.8. (Pilcher’s Squad) Norman Pilcher foi o criador da Drug Squad, e ganhou notoriedade nos
anos 60 por prender artistas como Mick Jagger e John Lennon. O conjunto de artistas que o Sargento
Pilcher poderia prender é A = {a1 , a2 , . . . , ak }, onde k representa o número de artistas disponı́veis para
serem presos. Este é um conjunto enumerável finito.
,
12 http://www.imdb.com/title/tt0995577
13 Um conjunto enumerável é aquele em que se pode listar e contar os elementos.
14 Passos Até a Bufunfa.
Page 11
DRAFT VERSION
2.1.4 Variável quantitativa contı́nua
A classe de variáveis quantitativas contı́nuas é caracterizada por permitir a observação de qualquer
subconjunto dos números reais como resultado, i.e., permite resultados não inteiros. É utilizada para ava-
liar tempo, distâncias, áreas, volumes ou qualquer outra grandeza numérica de caráter não enumerável15 .
Tal como nas variáveis discretas, é possı́vel avaliar relações matemáticas entre os valores observados.
Exemplo 2.9. (Percentual de bulı́micas) Suponha que um grupo de pesquisadores está interessado em
avaliar o ‘percentual de mulheres bulı́micas no Rio Grande do Sul’. Este valor está obrigatoriamente entre
0 e 1 (ou 0% e 100%), podendo ser representado pelo conjunto não enumerável Ω = {b ∈ R : 0 ≤ b ≤ 1}.
,
Exemplo 2.10. (Idade) A variável ‘idade’ é classificada como quantitativa contı́nua por representar uma
noção temporal. Caso haja interesse, pode-se dizer que em certo instante do tempo João apresentou
31.990192013071629871269817323644 anos de idade. Na prática, porém, geralmente as idades são trun-
cadas16 , sendo que João provavelmente afirmaria ter 31 anos de idade mesmo um dia antes do seu
32ºaniversário. Na melhor das situações as idades são observadas com precisão de dias, calculando-se a
idade do indivı́duo pela diferença entre o dia de hoje e o seu dia de nascimento, convertendo o valor para
anos. O conjunto dos possı́veis tempos de vida de um ser humano é dado por Ω = {t ∈ R : 0 < t ≤ T },
onde T é a idade máxima em anos que um ser humano pode atingir. Segundo o Guiness World Records,
T = 122.44931506849315, alcançado pela francesa Jeanne Louise Calment. Ω é dito não enumerável
visto não ser possı́vel contabilizar o seu número de elementos.
,
Exemplo 2.11. (Descendo o nı́vel) Suponha que um grupo de pessoas foi avaliado em relação à variável
‘idade’ medida em anos, considerando-se a hora e minuto do nascimento. É possı́vel transformá-la
na variável ‘idade discreta’ simplesmente truncando os valores observados. Da mesma forma, pode-se
tranformá-la na variável ‘idade ordinal’, classificando-a de acordo com a tabela a seguir.
i Faixa etária Classificação

1 Até 10 anos Criança
2 10 ` 13 Pré-adolescente
3 13 ` 18 Adolescente
4 18 ` 35 Adulto jovem
5 35 ` 45 Adulto
6 45 ` 65 Adulto maduro
7 65 ` 75 Idoso jovem
8 75 + Idoso
Note que se uma pessoa tem 31.990192013071629871269817323644 anos de idade (contı́nua), pode-
se considerar a idade truncada de 31 anos (discreta) e classificá-la como um ‘adulto jovem’ (ordinal).
Porém, dado que uma pessoa é classificada como adulto jovem, é possı́vel apenas afirmar que ela tem
idade entre 18 anos (completos) e 35 anos (incompletos) segundo a classificação proposta.
,
Cada tipo de variável apresenta um nı́vel de informação que deve ser respeitado. É possı́vel ir de um
nı́vel maior de classificação para um nı́vel menor, mas jamais ao contrário. É válido lembrar que perde-se
informação ao descer o nı́vel de classificação da variável. É bastante comum, porém, encontrar trabalhos
utilizando nı́veis de classificação inapropriados, conduzindo a técnicas não adequadas que implicam em
conclusões equivocadas.
EXERCÍCIOS
1. Classifique as variáveis abaixo (qualitativa nominal/ordinal, quantitativa discreta/contı́nua).
a) Número de geladeiras em casa

b) Temperaturas da água da piscina em um dia de verão
c) Número de suicı́dios em uma cidade no decorrer do ano passado
15 Um conjunto não enumerável possui infinitos elementos, sendo impossı́vel listá-los segundo alguma regra.
16 Seção1.5.
Page 12
DRAFT VERSION
d) Concentração de chumbo em uma amostra de água
e) Lista de editoras de livros
f) Grau de satisfação dos clientes que frequentam uma rinha de galo
g) Marcas de amaciantes para roupas
h) Tempo que um paciente sobrevive após determinado diagnóstico
i) Participação de mercado (ou market share, para falar bonito)
j) Classificação em uma corrida de banheiras
k) Tempo final de cada corredor
l) Lista dos nomes das banheiras participantes, tal como “Dick Vigarista” e “Trollface”
m) Distância de Estambul ao Rio de Janeiro
2.2 Distribuição de Frequência

2.2.1 Dados brutos, Rol e Estatı́sticas de Ordem
Quando observa-se alguma variável de interesse, em geral anotam-se os resultados na ordem em que
aparecem. Esta lista de dados não ordenada é conhecida como lista de dados brutos. Quando ordenam-
se estes dados – em ordem crescente ou decrescente – obtém-se um rol, dando origem às estatı́sticas de
ordem. Em uma distribuição de n elementos x1 , x2 , . . ., xn observados sequencialmente, denotam-se os
dados ordenados de forma crescente por x(1) , x(2) , . . ., x(n) e, analogamente, x(n) , x(n−1) , . . ., x(1) para
a ordenação decrescente.
Exemplo 2.12. (Rol) Se ordenarmos os dados da Tabela 1.1 da página 5, obtemos o seguinte rol:
x(1) x(2) x(3) x(4) x(5) x(6)

7 20 124 186 191 402
Tabela 2.1: Rol do número de passos até a lixeira mais próxima na capital gaúcha
O menor número de passos caminhados foi sete, representado por x(1) = 7, e o maior foi quatrocentos
e dois, representado por x(6) = 402.
> (x <- c(186,402,191,20,7,124)) # Criando e apresentando o vetor original de dados brutos
[1] 186 402 191 20 7 124
> sort(x) # Apresentando o rol, ou vetor ordenado. Teste ?order
[1] 7 20 124 186 191 402
> sort(x, decreasing = T) # Ordem decrescente, onde T indica TRUE (padr~

ao: FALSE)
[1] 402 191 186 124 20 7
,
Em um primeiro momento estas definições podem parecer ultrapassadas, mas são de grande impor-
tância na construção de métodos avançados de análise de dados. Como atualmente trabalham-se com
bases de dados em formato eletrônico, em geral é fácil realizar a ordenação de grandes volumes de dados.
É importante ressaltar, porém, que em certos casos é necessário muito poder de processamento para
executar tais ordenações, podendo se tornarem impraticáveis pelo alto custo computacional.
EXERCÍCIOS
1. Considere o conjunto de dados 10, −4, 5, 7, 1, 3, 9.
a) Obtenha o rol.
b) Indique e interprete x(4) .
2. Utilizando a função sort, encontre o rol das Tabelas 2.3 e 2.5.
Page 13
DRAFT VERSION
2.2.2 Tabela de frequência univariada discreta
Listas muito longas, ainda que ordenadas, não costumam ser de fácil compreensão. Assim, a tabela de
frequência univariada discreta é uma boa maneira de consolidar os dados de uma variável que assuma,
como regra-de-bolso, até 10 diferentes valores. Esta tabela deve apresentar pelo menos uma coluna des-
crevendo a variável de interesse e uma coluna com a frequência (da classe), i.e., o número de observações
contempladas em cada categoria. Sugere-se também a apresentação de uma coluna indicando a classe,
denotada por i conforme Tabela 2.2.
i xi fi f ri Fi Fri ì `ri
1 x1 f1 f1 /n F1 = f1 F1 /n `1 = `2 + f1 = n `1 /n = 1
2 x2 f2 f2 /n F2 = F1 + f2 F2 /n `2 = `3 + f2 `2 /n
3 x3 f3 f3 /n F3 = F2 + f3 F3 /n `3 = `4 + f3 `3 /n
.. .. .. .. .. .. .. ..
. . . . . . . .
k−2 xk−2 fk−2 fk−2 /n Fk−2 = Fk−3 + fk−2 Fk−2 /n `k−2 = `k−1 + fk−2 `k−2 /n
k−1 xk−1 fk−1 fk−1 /n Fk−1 = Fk−2 + fk−1 Fk−1 /n `k−1 = `k + fk−1 `k−1 /n
k xk fk fk /n Fk = Fk−1 + fk = n Fk /n = 1 `k = fk `k /n
Total - n 1 - - - -
Tabela 2.2: Tabela de frequência genérica. Faça os exercı́cios propostos que melhora.
Para a classe genérica i são calculadas as seguintes frequências:
· fi : Frequência (simples/absoluta)
· fri : Frequência relativa
· Fi : Frequência acumulada
· Fri : Frequência acumulada relativa
· ì : Frequência acumulada inversa
· `ri : Frequência acumulada inversa relativa.
Exemplo 2.13. (Número de filhos revisitado) Do Exemplo 2.5 observou-se a variável
X: ‘número de filhos de mulheres atendidas em um hospital de Porto Alegre em 2019’.
A Tabela 2.3 apresenta os dados na ordem em que foram observados. Este tipo de apresentação é
bastante completo, mas dificulta a extração de informações relevantes. Como exercı́cio, indique o número
máximo de filhos observados na amostra.
i xi i xi i xi i xi i xi i xi i xi i xi i xi i xi
1 2 11 3 21 2 31 1 41 1 51 2 61 3 71 1 81 0 91 1
2 0 12 2 22 3 32 1 42 1 52 4 62 0 72 3 82 1 92 3
3 1 13 3 23 1 33 1 43 4 53 1 63 2 73 1 83 2 93 3
4 2 14 2 24 2 34 1 44 1 54 3 64 0 74 3 84 2 94 4
5 4 15 1 25 2 35 0 45 1 55 1 65 2 75 3 85 2 95 5
6 2 16 4 26 1 36 2 46 3 56 2 66 2 76 4 86 2 96 1
7 1 17 2 27 4 37 3 47 1 57 0 67 2 77 2 87 2 97 0
8 4 18 0 28 0 38 3 48 1 58 2 68 1 78 1 88 4 98 0
9 2 19 1 29 1 39 1 49 4 59 3 69 2 79 2 89 0 99 3
10 3 20 4 30 6 40 2 50 2 60 3 70 3 80 3 90 2 100 2
Tabela 2.3: Dados brutos de X
A Tabela 2.4 apresenta o número de filhos ordenados, fornecendo ainda algumas frequências que
auxiliam o entendimento da distribuição. Com a apresentação no formato da Tabela 2.4, facilmente se
observa um máximo de 6 filhos na amostra, ao contrário da tabela de dados brutos. Perde-se apenas a
ordem na qual os dados foram observados, o que em geral não é do interesse do pesquisador.
Page 14
DRAFT VERSION
i xi fi fri Fi Fr i ì `ri
1 0 11 11/100 = 0.11 11 11/100 = 0.11 89 + 11 = 100 100/100 = 1
2 1 27 27/100 = 0.27 11 + 27 = 38 38/100 = 0.38 62 + 27 = 89 89/100 = 0.89
3 2 30 30/100 = 0.30 38 + 30 = 68 68/100 = 0.68 32 + 30 = 62 62/100 = 0.62
4 3 19 19/100 = 0.19 68 + 19 = 87 87/100 = 0.87 13 + 19 = 32 32/100 = 0.32
5 4 11 11/100 = 0.11 87 + 11 = 98 98/100 = 0.98 2 + 11 = 13 13/100 = 0.13
6 5 1 1/100 = 0.01 98 + 1 = 99 99/100 = 0.99 1+1=2 2/100 = 0.02
7 6 1 1/100 = 0.01 99 + 1 = 100 100/100 = 1 1 1/100 = 0.01
Total - 100 1 - - - -
Tabela 2.4: Tabela de frequência de X
Note que a coluna i da Tabela 2.3 indica a ordem da mulher entrevistada, enquanto na Tabela 2.4 i
indica a classe. Por exemplo, i = 4 indica a quarta mulher entrevistada, que no caso informou ter x4 = 2
filhos. Na Tabela 2.4, i = 4 indica a quarta classe onde x4 = 3, i.e., a classe das mulheres que possuem
3 filhos.
As únicas colunas que exigem a leitura dos dados brutos são a da variável xi e a da frequência fi ;
as demais são calculadas a partir de fi . A seguir estão alguns exemplos de interpretação das frequências
apresentadas na Tabela 2.4.
· f5 = 11, i.e., 11 mulheres possuem 4 filhos;

· fr5 = 0.11 = 11%, i.e., 11% das mulheres possuem 4 filhos;
· F4 = 87, i.e., 87 mulheres possuem até 3 filhos (ou ‘de zero a 3 filhos’, mas esta alternativa é
menos elegante);
· Fr3 = 0.68 = 68%, i.e., 68% das mulheres possuem até 2 filhos;
· `3 = 62, i.e., 62 mulheres têm pelo menos 2 filhos;
· `r2 = 0.89 = 89%, i.e., 89% das mulheres têm pelo menos 1 filho.
,
Exemplo 2.14. (Número de filhos R-visitado) Exemplo 2.13 utilizando R/RStudio.
> # Lendo o arquivo 'hospital.txt' direto do link

> hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)
> dim(hosp) # Dimens~
ao: 100 linhas por 2 colunas
[1] 100 2
> head(hosp) # Apresenta as 6 primeiras linhas do objeto 'hosp'; teste tail(hosp, 10)
filhos altura
1 2 1.59
2 0 1.58
3 1 1.70
4 2 1.62
5 4 1.67
6 2 1.62
> attach(hosp) # Para deixar as colunas de 'hosp' disponı́veis

> (tab <- table(filhos)) # Frequ^
encia (simples/absoluta)
filhos
0 1 2 3 4 5 6
11 27 30 19 11 1 1
Page 15
DRAFT VERSION
> prop.table(tab) # Frequ^
encia relativa
filhos
0 1 2 3 4 5 6
0.11 0.27 0.30 0.19 0.11 0.01 0.01
> cumsum(tab) # Frequ^

encia acumulada
0 1 2 3 4 5 6
11 38 68 87 98 99 100
> round(cumsum(tab)/length(filhos),2) # Frequ^

encia acumulada relativa
0 1 2 3 4 5 6
0.11 0.38 0.68 0.87 0.98 0.99 1.00
> cumsum(rev(tab)) # Frequ^

encia acumulada inversa
6 5 4 3 2 1 0
1 2 13 32 62 89 100
> round(cumsum(rev(tab))/length(filhos),2) # Frequ^

encia acumulada inversa relativa
6 5 4 3 2 1 0
0.01 0.02 0.13 0.32 0.62 0.89 1.00
EXERCÍCIOS
3. Em uma fábrica retirou-se uma amostra de 50 peças de um lote de certo material e contou-se o número de defeitos
em cada peça, apresentados na tabela a seguir.
i # defeitos fi f ri Fi F ri
1 0 17
2 1 10
3 2
4 3 8
5 4 5
6 5 1
Total - 50
a) Classifique a variável ‘número de defeitos’.

b) Qual a frequência absoluta da classe 3? Interprete.
c) Qual a frequência relativa da classe 3? Interprete.
d) Qual a frequência acumulada da classe 4? Interprete.
e) Qual a frequência acumulada relativa da classe 5? Interprete.
f) Represente os dados utilizando o gráfico que você considerar mais adequado.
4. Em 13 de março de 1883, estavam Émile Durkheim e Max Weber no leito de morte de Karl Marx discutindo a
respeito de propriedade intelectual. Weber, o mais jovem e disposto da turma, com apenas 19 anos, coletou algumas
informações a respeito da Convenção de Paris de 1883, que aconteceria em uma semana. Em suas anotações, estava
o número de unidades monetárias que deveria ser paga anualmente por cada paı́s membro do tratado, dependendo
da classe à qual o paı́s pertencesse17 . O valor da unidade iria variar de acordo com a inflação e outros fatores
econômicos da época corrente. A tabela abaixo apresenta o resultado dos estudos de Weber.
a) Qual a frequência simples da classe VI? Interprete.

b) Qual a frequência relativa da classe I? Interprete.
c) Qual a frequência acumulada da classe II? Interprete.
d) Qual a frequência acumulada relativa da classe III? Interprete.
17 Paris Convention for the Protection of Industrial Property (1883), WIPO Database of Intellectual Property. www.wipo.
int/treaties/en/text.jsp?file_id=288514
Page 16
DRAFT VERSION
Classe Unidades fi fr i Fi Fri
I 25 21
II 20 26
III 15 10
IV 10 9
V 5 32
VI 3 38
VII 1 37
Total - 173
2.2.3 Tabela de frequência univariada contı́nua

Quando uma variável assume mais de 10 diferentes valores, recomenda-se utilizar a tabela de frequência
univariada contı́nua. A diferença para a tabela discreta da Seção 2.2.2 é que na contı́nua distribuem-se
os valores em intervalos de classe, i.e., faixas de valores com certa amplitude. A principal vantagem
desta abordagem é a capacidade de apresentar os dados de maneira enxuta. O contraponto, como em
qualquer resumo de dados, é a perda da informação original.
Amplitude (h) e quantidade (k) de classes
Quando deseja-se apresentar a variável em intervalos de classe, é necessário determinar a amplitude

do intervalo de classe (h) e a quantidade de classes (k) em que serão dispostos os dados. Apresentam-se
a seguir três das principais regras para determinar h e k.
1. Sturges (1926) sugere que a amplitude do intervalo de classe seja calculada por
A max X − min X
hSt = = , (4)
kSt 1 + 3.322 log10 n
onde A é a amplitude (dos dados) descrita na Seção 2.4.1, não devendo ser confundida com h. O
denominador é obtido a partir da expansão binomial, na forma
k−1
X
k−1
n = = (1 + 1)k−1 = 2k−1 (5)
i=0
i
∴ kSt = d1 + log2 ne ≈ d1 + 3.322 log10 ne , (6)
onde d e indica a função teto, o menor inteiro consecutivo denotado por dxe = min{n ∈ N|n ≥ x}.
Alguns pacotes computacionais atribuem o número de classes aplicando regras que encontrem um valor
‘bonito’ para a divisão. Tais valores são obtidos computando números que sejam 0, 1, 2 ou 5 vezes uma
potência de 10, i.e., a × 10b , a ∈ {0, 1, 2, 5} e b ∈ N ∪ {−1}.
Exemplo 2.15. (Sturges) Se forem observados n = 100 valores com amplitude (dos dados) A = 0.23, a
amplitude da classe sugerida por Sturges é
0.23
hSt = = 0.02875,
1 + log2 100
e a quantidade de classes
kSt = d1 + log2 100e = d7.644e = 8.
Page 17
DRAFT VERSION
> n <- length(altura) # n=100, número de dados a serem tabulados
> A <- diff(range(altura)) # Amplitude (dos dados, n~ao da classe!)
> ceiling(1 + log2(n)) # Pela Equaç~
ao (6), usando log2
[1] 8
> ceiling(1 + 3.322*log10(n)) # Pela Equaç~

ao (6), usando log10
[1] 8
> (kSt <- nclass.Sturges(altura)) ao 'nclass.Sturges'

# Pela funç~
[1] 8
> (hSt <- A/kSt) # Pela Equaç~

ao (4)
[1] 0.02875
> pretty(kSt) # Valores 'bonitos', (a=5, b=0) e (a=1, b=1)
[1] 5 10
,
2. Scott (1979) incorpora s, o desvio padrão amostral18 ao cálculo da amplitude do intervalo, na
forma
3.5s
hSc = 1/3 . (7)
n
O número de classes de Scott pode ser obtido por

A maxX − minX
kSc = = . (8)
hSc 3.5sn−1/3
Exemplo 2.16. (Scott) Se forem observados n = 100 valores com desvio padrão amostral s = 0.045268559,
a amplitude da classe sugerida por Scott é
3.5 × 0.045268559
hSc = = 0.034134854.
1001/3
Se A = 0.23, a quantidade de classes é

0.23
kSc = = d6.7379811e = 7.
0.034134854
> n <- length(altura) # n=100, número de observaç~

oes a serem tabuladas
> s <- sd(altura) # s=0.045268559, desvio padr~ ao amostral
> A <- diff(range(altura)) # Amplitude (dos dados, n~ao da classe!)
> (hSc <- 3.5*s/n^(1/3)) # Pela Equaç~
ao (7)
[1] 0.03413485378
> ceiling(A/hSc) # k sugerido por Scott, Equaç~

ao (8)
[1] 7
> (kSc <- nclass.scott(altura)) ao 'nclass.scott'

# k obtido pela funç~
[1] 7
> pretty(kSc) # Valores 'bonitos', (a=5, b=0) e (a=1, b=1)
[1] 5 10
18 Seção 2.4.3.
Page 18
DRAFT VERSION
,
3. Freedman-Diaconis (1981) inserem a amplitude interquartı́lica no cálculo da amplitude do intervalo,
na forma
AI
hF D = 2 , (9)
n1/3
onde AI = Q3 − Q1 é a amplitude interquartı́lica, apresentada na Seção 2.6.4. O número de classes
obtido como consequência da aplicação da relação de Freedman-Diaconis é

A maxX − minX
kF D = = . (10)
hF D 2 AI n−1/3
Exemplo 2.17. (Freedman-Diaconis) Se forem observados n = 100 valores com amplitude interquartı́lica
de AI = 0.0525, a amplitude da classe sugerida por Freedman-Diaconis é
2 × 0.0525
hF D = = 0.022621564.
1001/3
Se A = 0.23, e a quantidade de classes

0.23
kF D = = d10.16729e = 11.
0.022621564
> n <- length(altura) # n=100, número de observaç~

oes a serem tabuladas
> (Q <- quantile(altura, c(1/4,3/4))) # Primeiro e terceiro quartis
25% 75%
1.5975 1.6500
> (AI <- diff(as.numeric(Q))) # Amplitude Interquatı́lica
[1] 0.0525
> (hFD <- 2*AI/n^(1/3)) # Pela Equaç~

ao (9)
[1] 0.02262156425
> A <- diff(range(altura)) # Amplitude (dos dados, n~

ao da classe ou interquartı́lica!)
> ceiling(A/hFD) # k sugerido por Freedman-Diaconis, Equaç~
ao (10)
[1] 11
> (kFD <- nclass.FD(altura)) ao 'nclass.FD'

# Pela funç~
[1] 11
> pretty(kFD) # Valores 'bonitos', (a=1, b=1) e (a=2, b=1)
[1] 10 20
Page 19
DRAFT VERSION
Hyndman (1995)19 argumenta que as regras de Scott e Freedman-Diaconis são tão simples quanto
a regra de Sturges, mas melhor fundamentadas na teoria estatı́stica. Além disso, a regra de Sturges
funciona bem para tamanhos de amostra moderados (n < 200), mas não para valores grandes de n.
Exemplo 2.18. (Comparando os três métodos) Foi realizada uma simulação com tamanhos de amostra
n = 10i , i ∈ {1, 2, . . . , 6}, indicando o número de classes sugerido por cada método.
> NC <- function(x) c(i = i, n = 10î, # Quantidades simuladas

Sturges = nclass.Sturges(x), # Sturges (1926)
Scott = nclass.scott(x), # Scott (1979)
FD = nclass.FD(x)) # Freedman-Diaconis (1981)
> for(i in 1:6){set.seed(i); print(NC(rnorm(10î)))} # Pode ser demorado para i>6
i n Sturges Scott FD
1 10 5 2 3
2 100 8 6 7
3 1000 11 19 25
4 10000 15 44 56
5 100000 18 112 145
6 1000000 21 278 360
Exemplo 2.19. (Alturas de mulheres) Seja a variável
Y : ‘altura de mulheres atendidas em um hospital de Porto Alegre em 2019’.
A Tabela 2.5 apresenta os dados brutos. Este tipo de apresentação é bastante completo, mas dificulta
a extração de informações relevantes. Como exercı́cio, indique quantas mulheres têm altura entre 1.70m
e 1.75m a partir desta tabela.
i yi i yi i yi i yi i yi
1 1.59 21 1.63 41 1.58 61 1.70 81 1.64
2 1.58 22 1.64 42 1.66 62 1.65 82 1.60
3 1.70 23 1.64 43 1.59 63 1.51 83 1.68
4 1.62 24 1.62 44 1.67 64 1.66 84 1.65
5 1.67 25 1.66 45 1.62 65 1.52 85 1.65
6 1.62 26 1.61 46 1.55 66 1.60 86 1.64
7 1.69 27 1.61 47 1.64 67 1.62 87 1.55
8 1.60 28 1.60 48 1.62 68 1.68 88 1.66
9 1.61 29 1.61 49 1.65 69 1.65 89 1.59
10 1.58 30 1.64 50 1.66 70 1.61 90 1.66
11 1.64 31 1.59 51 1.64 71 1.56 91 1.69
12 1.72 32 1.60 52 1.57 72 1.65 92 1.61
13 1.74 33 1.62 53 1.65 73 1.62 93 1.58
14 1.63 34 1.53 54 1.69 74 1.63 94 1.73
15 1.64 35 1.58 55 1.65 75 1.57 95 1.56
16 1.63 36 1.60 56 1.62 76 1.62 96 1.59
17 1.59 37 1.61 57 1.68 77 1.54 97 1.65
18 1.64 38 1.67 58 1.60 78 1.64 98 1.63
19 1.59 39 1.68 59 1.68 79 1.66 99 1.70
20 1.65 40 1.56 60 1.59 80 1.56 100 1.60
Tabela 2.5: Dados brutos de Y
Para colocar estes valores em uma tabela de frequência, obteve-se kSt = 8 pela regra de Sturges20 , e
pelo resultado de pretty(8) decidiu-se por 5 classes21 . Como exercı́cio, obtenha kSc e kF D .
19 http://robjhyndman.com/papers/sturges.pdf
20 Exemplo 2.15.
21 A função pretty escolhe valores que sejam 1, 2 ou 5 vezes uma potência de 10.
Page 20
DRAFT VERSION
A Tabela 2.6 apresenta as alturas agrupadas em cinco classes de amplitude 5cm, fornecendo ainda
algumas frequências que auxiliam o entendimento da distribuição. Facilmente observam-se 6 mulheres
com altura entre 1.70m e 1.75m,22 ao contrário da tabela de dados brutos. Note, porém, que não é
possı́vel saber exatamente a altura de cada uma destas 6 mulheres. Isso acontece pois resumo implica em
perda de informação, cabendo ao pesquisador decidir quando e como resumir os dados.
i yi fi fri Fi Fri ì `ri

1 1.50 ` 1.55 4 0.04 4 0.04 96 + 4 = 100 100/100 = 1
2 1.55 ` 1.60 21 0.21 4 + 21 = 25 0.25 75 + 21 = 96 96/100 = 0.96
3 1.60 ` 1.65 41 0.41 25 + 41 = 66 0.66 34 + 41 = 75 75/100 = 0.75
4 1.65 ` 1.70 28 0.28 66 + 28 = 94 0.94 6 + 28 = 34 34/100 = 0.34
5 1.70 ` 1.75 6 0.06 94 + 6 = 100 1 6 6/100 = 0.06
Total - 100 1 - - - -
Tabela 2.6: Tabela de frequência de Y
A seguir estão alguns exemplos de interpretação das frequências apresentadas na Tabela 2.6.
· f5 = 6, i.e., 6 mulheres têm entre 1.70m e 1.75m de altura;

· fr5 = 0.06 = 6%, i.e., 6% das mulheres tem entre 1.70m e 1.75m de altura;
· F4 = 94, i.e., 94 mulheres têm até 1.70m de altura, ou de 1.50m a 1.70m;
· Fr2 = 0.25 = 25%, i.e., 25% das mulheres tem até 1.60m de altura, ou de 1.50m a 1.60m;
· `3 = 75, i.e., 75 mulheres têm pelo menos 1.60m de altura;
· `r4 = 0.34 = 34%, i.e., 34% das mulheres tem pelo menos 1.65m de altura.
Exemplo 2.20. (Alturas de mulheres R-visitado) Exemplo 2.19 utilizando R/RStudio.
> # Lendo o arquivo 'hospital.txt' direto do link

> dim(hosp) # Dimens~
ao: 100 linhas por 2 colunas
[1] 100 2
> head(hosp) # Apresenta as 6 primeiras linhas do objeto 'hosp'; teste tail(hosp, 10)
filhos altura
1 2 1.59
2 0 1.58
3 1 1.70
4 2 1.62
5 4 1.67
6 2 1.62
> attach(hosp) # Para deixar as colunas de 'hosp' disponı́veis

> pretty(nclass.Sturges(altura)) # Valores 'bonitos' para o número de classes
[1] 5 10
> hist(altura)$breaks ao 'hist'

# Quebras de valores gerados com a funç~
[1] 1.50 1.55 1.60 1.65 1.70 1.75
22 Note que a simbologia 1.70 ` 1.75 indica a inclusão de 1.70 e a exclusão de 1.75, i.e., este é um intervalo fechado à
esquerda e aberto à direita. Equivale às notações [1.70, 1.75[ (mais moderna) ou [1.70, 1.75) (mais antiga).
Page 21
DRAFT VERSION
> (f <- hist(altura)$counts) # Frequ^
encias das classes
[1] 6 27 43 21 3
> cumsum(f) # Frequ^

encia acumulada
[1] 6 33 76 97 100
> round(cumsum(f)/length(altura),2) # Frequ^

encia acumulada relativa
[1] 0.06 0.33 0.76 0.97 1.00
> cumsum(rev(f)) # Frequ^

encia acumulada inversa
[1] 3 24 67 94 100
> round(cumsum(rev(f))/length(altura),2) # Frequ^

encia acumulada inversa relativa
[1] 0.03 0.24 0.67 0.94 1.00
EXERCÍCIOS
5. Foram medidas as alturas de 100 alunos de certa disciplina, apresentadas na tabela a seguir.
i Altura (cm) fi fri Fi Fri i ri

1 140 ` 150 2
2 150 ` 160 13
3 160 ` 170
4 170 ` 180 47
5 180 à 190 8
Total - 100
a) Classifique a variável ‘altura’.

b) Qual a frequência relativa da classe 3? Interprete.
c) Qual a frequência acumulada da classe 4? Interprete.
d) Qual a frequência acumulada relativa da classe 2? Interprete.
e) Quantos alunos têm pelo menos 1.60m?
6. Obtenha os intervalos de classes dos dados da Tabela 2.5:

a) Pela regra de Scott.
b) Pela regra de Freedman-Diaconis.
Page 22
DRAFT VERSION
2.2.4 Tabela (de frequência) bivariada
Em muitas situações práticas há interesse em avaliar a associação de atributos. A tabela (de frequên-
cia) bivariada, tabela de dupla entrada ou tabela de contingência 2 × 2 tem essa finalidade. Generica-
mente utilizam-se as letras X e Y para se referir às variáveis. As simbologias 1 e 0 indicam respectiva-
mente a presença e ausência das caracterı́sticas X e Y .
Y
X
1 0 Total
1 n11 n12 n1·
0 n21 n22 n2·
Total n·1 n·2 n
Tabela 2.7: Tabela bivariada genérica
Razão de Chances (Odds Ratio - OR)
A razão de chances ou razão de possibilidades é uma medida utilizada para avaliar o quanto um
atributo pode influenciar em outro. Pode ser escrita em função de nij conforme Equação (11) ou π̂ij
como indicado na Equação (12).
n11 /n12 n11 n22

OR = = (11)
n21 /n22 n12 n21
π̂11 /π̂12 π̂11 π̂22

OR = = , (12)
π̂21 /π̂22 π̂12 π̂21
nij
onde π̂ij = .
n
Exemplo 2.21. (Odds Ratio) Suponha um estudo da relação entre os atributos X: ‘fumante’ e Y : ‘tem
câncer’, conforme Tabela 4.4.
Y
X
1 0 Total
1 90 10 100
0 70 30 100
Total 160 40 200
Tabela 2.8: X = 1: paciente fumante. Y = 1: paciente desenvolveu câncer.
Pela Equação (11),
90/10 90 × 30
OR = = ≈ 3.86.
70/30 10 × 70
Com este valor estima-se que pacientes que fumam possuem 3.86 vezes a chance (ou 3.86 − 1 = 2.86
vezes mais chance) de desenvolver câncer em relação aos pacientes que não fumam. Refaça o exemplo
invertendo os rótulos 0 e 1.
> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8

> (OR <- (tab.bi[1,1]/tab.bi[1,2])/(tab.bi[2,1]/tab.bi[2,2]) ) # Equaç~
ao (11)
[1] 3.857142857
Page 23
DRAFT VERSION
Risco Relativo (Relative Risk - RR)
Risco Relativo é uma medida baseada em taxas de incidência entre os grupos exposto (X = 1) e não
exposto (X = 0) ao fator de risco em estudo. É obtido pelo quociente entre as estimativas da taxa de
incidência do grupo exposto (γ̂1 ) e da taxa de incidência do grupo não exposto (γ̂0 ) conforme Equação
(13).
γ̂1 n11 /n1·

RR = = (13)
γ̂0 n21 /n2·
Exemplo 2.22. (Risco Relativo) Suponha novamente os dados do Exemplo 2.21. O risco relativo pode ser
calculado pela Equação (13):
90/100
RR = ≈ 1.29
70/100
Com este valor estima-se que o grupo que não usa celular é aprovado em 29% mais casos em compa-
ração ao grupo do Whats e Face.

> (RR <- (tab.bi[1,1]/sum(tab.bi[1,]))/(tab.bi[2,1]/sum(tab.bi[2,])) ) # Equaç~
ao (13)
[1] 1.285714286
,
Independência
A tabela (de frequência) bivariada permite avaliar a independência entre dois atributos, indicando a
ausência de relação, simbolizada por X ⊥⊥ Y . Se não existe tal relação, é esperado encontrar a mesma
proporção de portadores da caracterı́stica X entre os portadores e não portadores de Y . Assim, se X e
Y são independentes, a proporção de sujeitos que apresentam simultaneamente as caracterı́sticas X e Y
é igual à proporção dos X multiplicada pela proporção dos Y , sob qualquer uma das formas:
 n11 n1·
 =
 n·1

 n




 n11 n·1
 n1· = n



 n1· n·1
n11 =






 n

 n11 = n1·
 n
·1


n n n
Exemplo 2.23. (Independência 1) Se há 578 sujeitos portadores do atributo X e 216 portadores de Y em
1156 observações, espera-se que existam
n1· n·1 578 × 216
= = 108
n 1156
sujeitos portadores de X e Y se X ⊥
⊥Y.
,
Exemplo 2.24. (Independência 2) Se existem 15% de sujeitos X e 80% de Y , espera-se que existam
n n 15 80
1· ·1
= = 12%
n n 100 100
de sujeitos X e Y se X ⊥
⊥Y.
,
Exemplo 2.25. (Independência 3) Se OR = 1, então X ⊥
⊥Y.
,
Page 24
DRAFT VERSION
2.3 Medidas de Posição (ou Localização)
2.3.1 Mı́nimo e Máximo
O mı́nimo de uma distribuição é o menor valor observado desta distribuição; de forma análoga, o
máximo é o maior valor. São estatı́sticas de ordem, mais especificamente os extremos de um conjunto
de dados ordenado (rol23 ). Para uma distribuição de n elementos são denotadas por min X = x(1) e
max X = x(n) .
Apesar da simplicidade destas medidas, existem considerações teóricas sofisticadas a seu respeito.
Para maiores detalhes, vide Kotz and Nadarajah (2000).
Exemplo 2.26. (Mı́nimo e máximo) Suponha novamente as n = 100 observações da variável Y: ‘altura de
mulheres atendidas em um certo hospital público de Porto Alegre em 2019’, apresentadas na Tabela 2.5.
O mı́nimo e o máximo são denotados, respectivamente, por min Y = y(1) = 1.51 e max Y = y(100) = 1.74.
> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))

> min(altura) # Mı́nimo
[1] 1.51
> max(altura) # Máximo
[1] 1.74
> range(altura) ao 'range' fornece o mı́nimo e o máximo

# A funç~
[1] 1.51 1.74
,
Exemplo 2.27. (Velocidade máxima) Segundo o Código de Trânsito Brasileiro24 , a placa da Figura 2.2
indica que a velocidade máxima da via é de 40 km/h. Isto significa que os condutores não devem ultra-
passar 40 quilômetros horários. Apesar da obviedade, boa parte dos motoristas a lêem como ‘velocidade
mı́nima’.
/
Figura 2.2: Placa de velocidade máxima, usualmente lida como ‘mı́nima’.
23 Seção 2.2.1.
24 Lei 9.503, de 23 de setembro 1997.
Page 25
DRAFT VERSION
2.3.2 Média (Aritmética Simples)
A média (aritmética simples) ou valor esperado é uma das medidas mais importantes da Estatı́stica
devido às suas propriedades e relativa facilidade de cálculo. A média da variável X é simbolizada
genericamente por µ25 quando refere-se à média universal, e por x̄n quando refere-se à média amostral.
Pode-se utilizar a notação x̄n para indicar o tamanho da amostra. Suas expressões no universo a na
amostra são dadas respectivamente pelas equações (14) e (15).
PN
xi
µ = i=1 (14)
N
Pn
i=1 xi
x̄n = (15)
n
Por distribuir a soma dos valores da distribuição pelo número de observações, a média é uma medida
que indica centro de massa, conforme Figura 2.3.
Figura 2.3: Média aritmética simples como centro de massa
Exemplo 2.28. (Média aritmética simples) Suponha novamente os dados do Exemplo 1.1 da página 5. O
número médio de passos até a lixeira mais próxima foi de
P6
xi 186 + 402 + 191 + 20 + 7 + 124 930
x̄6 = i=1 = = = 155.
6 6 6
> x <- c(186,402,191,20,7,124) # Vetor de dados brutos

> mean(x) # Aplica as Equaç~
oes (14) e (15). Veja ?mean
[1] 155
EXERCÍCIOS
1. Calcule o número médio de filhos considerando o conjunto de dados da Tabela 2.3 (pg. 14).
2.3.3 Total
Total é a soma de todos os valores de uma variável. É expresso pelas equações (16) e (17).
N
X
τ= xi (16)
i=1
n
NX
τ̂ = xi = N x̄n , (17)
n i=1
25 Também pode ser representada por µX ou E(X).
Page 26
DRAFT VERSION
onde x̄n é a média amostral, apresentada na Equação (15).
Exemplo 2.29. (Total) Suponha novamente os dados do Exemplo 2.28. Se alguém precisar de uma lixeira
20 vezes na capital gaúcha, estima-se que o número total de passos a serem caminhados é de
20
τ̂ = × 930 = 20 × 155 = 3100.
6
> N <- 20 # Tamanho do universo

> N*mean(x) # Equaç~
ao (17)
[1] 3100
EXERCÍCIOS
2. Considerando novamente o conjunto de dados da Tabela 2.3 (pg. 14), qual a estimativa do total de filhos em um
grupo de 1500 mulheres?
2.3.4 Média (Aritmética) Ponderada

A média (aritmética) ponderada é uma média na qual se atribui peso wi para o i-ésimo valor da
distribuição. Não será feita distinção entre as médias ponderada universal e amostral, anotando-se
genericamente
Pn
wi xi
W = Pi=1n . (18)
i=1 wi
Exemplo 2.30. (Água do chimarrão) Média ponderada é como colocar água quente e fria para regular a
temperatura do mate. Suponha 1 litro de água em uma garrafa térmica, onde coloque-se w1 = 850mL
(85%) de água a x1 = 96 ◦ C e w2 = 150mL (15%) de água a x2 = 30 ◦ C. Desconsiderando variações
externas, essa mistura deve ficar em
850mL × 96 ◦ C + 150mL × 30 ◦ C
W = = 0.85 × 96 ◦ C + 0.15 × 30 ◦ C = 81.6 ◦ C + 4.5 ◦ C = 86.1 ◦ C.
850mL + 150mL
> weighted.mean(c(96,30), c(850,150)) # Facilita uma barbaridade
[1] 86.1
,
Exemplo 2.31. (Cálculo do G1) Suponha que o senhor Z, professor de certa instituição de ensino superior,
avalie os alunos no Grau 1 atribuindo peso 8 para a média das três provas – P1 , P2 e P3 –, peso 2 para
a média dos dois trabalhos de maior nota – denotados por T(3) e T(2) – e peso zero para o trabalho de
menor nota, denotado por T(1) . Assim, o cálculo do Grau 126 é dado por

T +T
8 × P1 +P32 +P3 + 2 × (3) 2 (2) + 0 × T(1)

P1 + P2 + P3 T(3) + T(2)
G1 = = 0.8 + 0.2 . (19)
8+2+0 3 2
Se as notas de Joãozinho foram P1 = 6, P2 = 5, P3 = 10, T(3) = 8, T(2) = 7 e T(1) = 5,

6 + 5 + 10 8+7
G1 = 0.8 + 0.2 = 7.1.
3 2
26 Lembre-se que o sistema da PUCRS trunca os valores. Vide Seção 1.5.
Page 27
DRAFT VERSION
> weighted.mean(c(mean(c(6,5,10)),mean(c(7,8))), c(0.8,0.2)) # Simule com as suas notas
[1] 7.1
> g1 <- function(p1,p2,p3, t1,t2,t3){ # Funç~

oes podem ser personalizadas
mp <- mean(c(p1,p2,p3)) # Média das 3 provas
mt <- (sum(t1,t2,t3) - min(t1,t2,t3))/2 # Média dos 2 trabalhos de maior nota
return(trunc(0.8*mp + 0.2*mt, dig = 1)) # Aplicando a ponderaç~
ao e truncando
}
> g1(6,5,10, 5,7,8) ao 'g1'
# Aplicando a funç~
[1] 7.1
EXERCÍCIOS
3. Suponha os dados do Exemplo 2.31.
a) Refaça os cálculos considerando duas provas e dois trabalhos, P1 , P2 , T1 e T2 (sem desconsiderar qualquer das
notas).
b) Reesceva a função g1 utilizando duas provas e dois trabalhos.
c) Isolar P3 na Equação 19.
2.3.5 Média Geométrica

A média geométrica é utilizada para calcular médias de ı́ndices, bem como em casos em que as
medidas possuam magnitudes numéricas distintas. É definida por
p
G = n Πni=1 xi . (20)
Exemplo 2.32. (Média geométrica) Sejam os ı́ndices LP P

2004,2008 = 139.58% e P2004,2008 = 97.22%. Sua
média geométrica é dada por √
G = 1.3958 × 0.9722 ≈ 116.49%.
Este valor é conhecido como Índice de Preço de Fisher27 .
> sqrt(1.3958*.9722) # 'sqrt': square root
[1] 1.164902039
2.3.6 Média Harmônica
A média harmônica é utilizada para calcular médias de taxas. É definida por

n n
H= 1 1 1 = Pn 1 . (21)
x1 + x2 + ··· + xn i=1 xi
Exemplo 2.33. (Média harmônica) Suponha que um veı́culo viajou uma certa distância a 60 km/h e a
mesma distância novamente a 90 km/h. Sua velocidade média pode ser calculada pela média harmônica
2
H= 1 1 = 72km/h,
60 + 90
i.e., se o veı́culo percorresse toda a distância a 72 km/h, faria o trajeto no mesmo tempo.
27 Seção 7.3.3.
Page 28
DRAFT VERSION
> 2/((1/60)+(1/90)) # Pela Equaç~
ao (21)
[1] 72
> 1/mean(1/c(60,90)) # Alternativa
[1] 72
2.3.7 Média Quadrática
A média quadrática é a média dos valores ao quadrado, utilizada no cálculo das variâncias28 . É
expressa por
Pn
x2
Q2 = i=1 i . (22)
n
O valor quadrático médio é a raiz quadrada da média quadrática, denotado por
p
Q = Q2 . (23)
Exemplo 2.34. (Média quadrática e valor quadrático médio) A média quadrática dos valores 186, 402,
191, 20, 7 e 124 é
P6
x2 1862 + 4022 + 1912 + 202 + 72 + 1242 248506
Q = i=1 i =
2
= = 41417.6̄.
6 6 6
O valor quadrático médio destes valores é
√
Q= 41417.6̄ ≈ 203.5133.

> (mq <- mean(x^2)) # Eq. (22), compare com mean(x)^2
[1] 41417.66667
> sqrt(mq) # Eq. (23), valor quadrático médio
[1] 203.5133083
EXERCÍCIOS
4. Considere novamente os dados das Tabelas 2.3 e 2.5.
a) Calcule a média quadrática do número de filhos e das alturas.

b) Calcule os respectivos valores quadráticos médios.
2.3.8 Moda
A(s) moda(s) é (são) o(s) valor(es) mais frequente(s) de uma distribuição. Quando existe apenas uma
moda, a distribuição é conhecida como unimodal. Se existirem duas modas, a distribuição é bimodal.
Três modas configuram uma distribuição trimodal, e quatro ou mais modas indicam uma distribuição
multimodal. Distribuições com frequências equivalentes para todos os valores são ditas amodais. Quando
os dados estão agrupados deve-se indicar a classe modal, i.e., a classe de maior frequência. O esforço
computacional para calcular a moda é realizar uma contagem.
28 Seção 2.4.2.
Page 29
DRAFT VERSION
Exemplo 2.35. (Unimodal) A moda do conjunto de dados 4, 7, 1, 3, 3, 9 é M o = 3, pois ele apresenta
frequência 2 enquanto os demais valores têm frequência 1. Esta é uma distribuição unimodal.
,
Exemplo 2.36. (Bimodal) As modas do conjunto de dados 4, 7, 1, 3, 3, 9, 7 são M o0 = 3 e M o00 = 7,
pois ambos têm frequência 2 enquanto os demais valores têm frequência 1. A ordem de apresentação é
indiferente. Esta é uma distribuição bimodal.
,
Exemplo 2.37. (Amodal) O conjunto de dados 4, 7, 1, 3, 9 é dito amodal pois todos os valores têm
frequência 1.
,
Exemplo 2.38. (Moda para dados agrupados) Na Tabela 2.6 da página 21 observa-se que f3 = 41 é a
maior frequência. A classe modal é portanto a terceira, compreendida entre os valores 1.60 e 1.65.
,
EXERCÍCIOS
5. Na Tabela 2.3 foram observados valores modais? Em caso afirmativo, descreva-o(s).
2.3.9 Separatrizes (ou Quantis)

Separatrizes ou quantis 29 são medidas que dividem um conjunto de dados ordenados em k partes
iguais. O método básico consiste em obter um rol dos dados e encontrar (ainda que de forma aproximada)
os valores que repartem a distribuição de acordo com o k desejado. O esforço computacional para calcular
quaisquer separatrizes é, portanto, o de realizar a ordenação dos dados.
Mediana (k = 2)
A mediana é a medida que divide metade dos dados ordenados (rol) à sua esquerda e a outra metade
à sua direita, i.e., é a medida central em termos de ordenação. Sua posição é a média entre a primeira e
última posições, dada por
1+n
P os = (24)
2
Exemplo 2.39. (Mediana para n ı́mpar) Seja o conjunto de dados 10, -4, 11, 12, 1, 5, 15, formado por
n = 7 valores. Quando ordenado obtemos o rol -4, 1, 5, 10, 11, 12, 15. Considerando k = 2, obtém-se a
separatriz M d = 10, pois ela divide o conjunto em duas partes de mesmo tamanho (três valores abaixo
da mediana 10 e três valores acima). Sua posição é dada por P os = 1+7
2 = 4.
> x <- c(10, -4, 11, 12, 1, 5, 15)

> sort(x)
[1] -4 1 5 10 11 12 15
> median(x)
[1] 10
,
Quando o número de observações é par, basta tomar a média dos dois valores centrais do rol.
Exemplo 2.40. (Mediana para n par) Seja o conjunto de dados 15, -4, 11, 12, 1, 5, formado por n = 6
valores. Quando ordenado obtemos o rol -4, 1, 5, 11, 12, 15. Considerando novamente k = 2, obtém-se
a separatriz M d = 5+11
2 = 8, pois ela divide o conjunto em duas partes de mesmo tamanho (três valores
29 Pronuncia-se “quantı́s”.
Page 30
DRAFT VERSION
1+6
abaixo de 8 e três valores acima). Sua posição é dada por P os = 2 = 3.5, i.e., a mediana é um valor
intermediário entre a terceira e quarta posições.
> x <- c(15, -4, 11, 12, 1, 5)

> sort(x)
[1] -4 1 5 11 12 15
> median(x)
[1] 8
Mediana para dados agrupados
Quando os dados estão agrupados pode-se encontrar a classe mediana utilizando a frequência acu-
mulada ou a frequência acumulada relativa.
Exemplo 2.41. (Mediana para dados agrupados) A classe mediana pode ser obtida a partir da Tabela 2.6
(página 21) de duas formas.
· A posição da mediana é P os = 1+1002 = 50.5. Observando a coluna Fi é possı́vel verificar que a
informação de posição 50.5 está na classe 3, que contempla da 26ª à 66ª observação. Logo, a
classe mediana é a terceira, e a mediana está no intervalo 1.60 ` 1.65.
· Observando a coluna F ri percebe-se que o valor central 0.50 = 50% está contemplado na classe 3.
Logo, a classe mediana é a terceira, e a mediana está no intervalo 1.60 ` 1.65.
,
Separatrizes (k > 1)
Pode-se dividir um conjunto de dados em k setores, sendo os principais apresentados na Tabela 2.9.
k Nome Simbologia
2 Mediana Md
3 Tercil T1 , T2
4 Quartil Q1 , Q2 , Q3
10 Decil D1 , D2 , ..., D9
100 Percentil P1 , P2 , ..., P99
Tabela 2.9: Principais separatrizes
Exemplo 2.42. (Separatrizes) Suponha novamente as alturas da Tabela 2.5 da página 20. Pela função
quantile30 pode-se facilmente obter os quantis desejados, bastando ajustar o parâmetro k. Note que a
função retorna as separatrizes expressas em percentis, onde 0% equivale ao mı́nimo e 100% ao máximo.
30 A função quantile apresenta nove métodos para obtenção de separatrizes, portanto recomenda-se a leitura da docu-
mentação para maiores detalhes.
Page 31
DRAFT VERSION
> options(digits = 3) # Para melhorar a apresentaç~
ao
> quantile(altura, probs = seq(0, 1, 1/2)) # Mediana
0% 50% 100%
1.51 1.62 1.74
> quantile(altura, probs = seq(0, 1, 1/3)) # Tercis
0% 33.3% 66.7% 100%

1.51 1.61 1.65 1.74
> quantile(altura, probs = seq(0, 1, 1/4)) # Quartis
0% 25% 50% 75% 100%

1.51 1.60 1.62 1.65 1.74
> quantile(altura, probs = seq(0, 1, 1/10)) # Decis
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
1.51 1.57 1.59 1.60 1.62 1.62 1.64 1.65 1.66 1.68 1.74
EXERCÍCIOS
6. Interprete os quantis do Exemplo 2.42.
7. Considere as separatrizes apresentadas na Tabela 2.9.
a) Verifique que as separatrizes mediana (Md), segundo quartil (Q2 ) são equivalentes.
b) Existem outras medidas equivalentes às do item (a)? Justifique.
c) Considere algum k diferente dos apresentados e atribua um nome e uma simbologia.
d) Se existem k ‘fatias’, quantas são as separatrizes?
8. Utilizando a função quantile calcule as separatrizes apresentadas na Tabela 2.9 com os dados das Tabelas 2.3 e 2.5.
2.4 Medidas de Dispersão (ou Variabilidade)

2.4.1 Amplitude
A amplitude é a medida de dispersão mais simples de ser calculada, e fornece uma informação rápida
sobre a variabilidade do conjunto de dados. É calculada pela expressão
A = max X − min X. (25)
Exemplo 2.43. (Amplitude com valores positivos) A amplitude do conjunto de dados 186, 402, 191, 20,
7 e 124 é A = 402 − 7 = 395.
> A <- range(c(186,402,191,20,7,124)) ao 'range' retorna o mı́nimo e o máximo

# A funç~
> diff(A) ao 'diff' calcula a diferença
# A funç~
[1] 395
,
Exemplo 2.44. (Amplitude com valores negativos) Para calcular a amplitude do conjunto de dados 186,
402, −191, 20, 7 e 124 é preciso lembrar que na multiplicação “menos com menos dá mais”. Assim,
A = 402 − (−191) = 402 + 191 = 593.
Page 32
DRAFT VERSION
> diff(range(c(186,402,-191,20,7,124))) # Funç~
oes aninhadas ('nested functions')
[1] 593
2.4.2 Variância
A variância é a principal medida de dispersão da Estatı́stica. É uma média quadrática em relação à

média, i.e., avalia o quanto, em média, os dados variam ao quadrado em torno da média31 . A variância
universal pode ser calculada pelas Equações (26) e (27).
PN
2 i=1 (xi − µ)2
σ = (26)
N
PN
2 x2i
σ = i=1
− µ2 (27)
N
Exemplo 2.45. (Variância universal) A variância universal do conjunto de dados 186, 402, 191, 20, 7
e 124 é
Equação (26)
P6
i=1 (xi − 155)2 (186 − 155)2 + (402 − 155)2 + · · · + (124 − 155)2 104356
σ2 = = = = 17392.6̄
6 6 6
Equação (27)
1862 + 4022 + 1912 + 202 + 72 + 1242 248506

σ2 = − 1552 = − 24025 = 17392.6̄
6 6
> (var.p <- var(c(186,402,191,20,7,124))*(5/6)) # Vari^

ancia amostral*(1/fator de correç~
ao)
[1] 17392.67
,
A variância amostral pode ser calculada pelas Equações (28) e (29).
Pn
2 2 (xi − x̄)2
σ̂ = sn = i=1 (28)
n−1
Pn 2

i=1 xi n
σ̂ 2 = s2n = − x̄2 (29)
n n−1
Exemplo 2.46. (Variância amostral) A variância amostral do conjunto de dados 186, 402, 191, 20, 7 e
124 é
Equação (28)
P6
− 155)2
i=1 (xi (186 − 155)2 + (402 − 155)2 + · · · + (124 − 155)2 104356
s26 = = = = 20871.2
6−1 6−1 5
Equação (29)
1862 + 4022 + 1912 + 202 + 72 + 1242

6
s26 = − 1552 = 17392.6̄ × 1.2 = 20871.2
6 5
31 Sugestão: leia isso pelo menos três vezes, devagar.
Page 33
DRAFT VERSION
> (var.a <- var(c(186,402,191,20,7,124))) # 'var' calcula a vari^
ancia amostral
[1] 20871.2
Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se
contou o número de passos até a lixeira mais próxima na capital do Rio Grande (do Sul), pode-se dizer
que a variância amostral é 20871.2 passos2 . Dica: não tente interpretar este valor.
,
Note pela Equação (28) que a variância amostral é dividida por n − 1 e não por n. Isto faz com que
a variância amostral seja maior ou igual à variância universal. Intuitivamente pode-se pensar como uma
espécie de penalidade aplicada a esta medida quando observa-se apenas parte do universo (amostra). Da
mesma forma pode-se pensar na variância amostral como o produto entre a variância universal σ 2 e o
fator n/(n − 1), descrito por

2 2 n
sn = σ (30)
n−1
2.4.3 Desvio Padrão

O desvio padrão é a raiz quadrada da variância. O motivo de calcular o desvio padrão é que a
sua interpretação é mais intuitiva se comparada à da variância, uma vez que a unidade de medida do
desvio padrão é a mesma da variável X. As fórmulas do desvio padrão universal e amostral são dadas
respectivamente pelas equações32 (31) e (32).
√
σ = σ2 (31)
p
sn = s2n (32)
Exemplo 2.47. (Desvio padrão universal) Do Exemplo 2.45 sabe-se que a variância universal do conjunto
de dados 186, 402, 191, 20, 7 e 124 é σ 2 = 17392.6̄. Assim, o desvio padrão universal é
√
σ = 17392.6̄ ≈ 131.88126.
> (dp.p <- sd(c(186,402,191,20,7,124)) * sqrt(5/6)) # s_n * raiz(1/fator de correç~

ao)
[1] 131.8813
> all.equal(dp.p, sqrt(var.p)) # 'dp.p' é igual à raiz quadrada de 'var.p'
[1] TRUE
> all.equal(dp.p^2, var.p) # 'dp.p' ao quadrado é igual a 'var.p'
[1] TRUE
,
Exemplo 2.48. (Desvio padrão amostral) Do Exemplo 2.46 sabe-se que a variância amostral do conjunto
de dados 186, 402, 191, 20, 7 e 124 é s26 = 20871.2. Assim, o desvio padrão amostral é
√
s6 = 20871.2 ≈ 144.46868.
32 Se você ficou confuso com a notação, escreva σ 2 = V e σ = D (bem como s2 = v e s = d) e repense o problema. Vide
Seções 3.3.1 e 3.4.1 para definições mais gerais.
Page 34
DRAFT VERSION
> (dp.a <- sd(c(186,402,191,20,7,124))) # 'sd' calcula o desvio padr~
ao amostral
[1] 144.4687
> all.equal(dp.a, sqrt(var.a)) # 'dp.a' é igual à raiz quadrada de 'var.a'
[1] TRUE
> all.equal(dp.a^2, var.a) # 'dp.a' ao quadrado é igual a 'var.a'
[1] TRUE
Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que se
contou o número de passos até a lixeira mais próxima na capital do Rio Grande (do Sul), pode-se dizer
que o desvio padrão (amostral, claro) é de aproximadamente 144.5 passos. Pode-se pensar neste valor
como uma oscilação média aproximada em torno da média aritmética.
,
2.4.4 Coeficiente de Variação

O coeficiente de variação é uma medida de comparação de variabilidades, uma vez que ajusta o desvio
padrão pela média. É preferı́vel ao desvio padrão por ser um número adimensional, i.e., não possui
unidade de medida, tornando quaisquer conjuntos de dados comparáveis em termos de variabilidade.
É utilizado em diversas áreas da Estatı́stica, mas é popularmente conhecido como medida de risco em
carteiras de ativos.
As fórmulas do coeficiente de variação universal e amostral são dadas respectivamente pelas equações
(33) e (34).
σ
γ= (33)
µ
s
γ̂ = g = (34)
x̄
Exemplo 2.49. (Coeficiente de variação) Duas variáveis são obtidas em um certo experimento quı́mico.
A variável X é medida em microgramas e possui média de 0.0045 µg e desvio padrão de 0.0056 µg. A
variável Y é medida em mols e possui média de 3549 mols e desvio padrão de 419 mols. O coeficiente de
variação de X é dado por gX = 0.0056 419
0.0045 ≈ 1.24, e de Y por gY = 3549 ≈ 0.12. Portanto, como 1.24 > 0.12,
conclui-se que o conjunto de dados X varia mais do que Y.
> mx <- 0.0045

> dx <- 0.0056
> round(gx <- dx/mx, 2) # Coeficiente de variaç~
ao de X
[1] 1.24
> my <- 3549

> dy <- 419
> round(gy <- dy/my, 2) # Coeficiente de variaç~
ao de Y
[1] 0.12
Page 35
DRAFT VERSION
2.5 Outras medidas
2.5.1 Assimetria (ou Obliquidade)
Assimetria ou obliquidade é uma medida que avalia a assimetria de uma distribuição de frequência.
Existem diversas definições na literatura, das quais apresentam-se três alternativas.
1
Pn
m3 (xi − x̄n )3
g1 = 3/2 = nP i=1 (35)
1 n 2 3/2

m2 n i=1 (x i − x̄ n )
3/2 1
Pn
− x̄n )3

n−1 m3 n i=1 (xi
b1 = g1 = 3 =h i3/2 (36)
n s 1
Pn 2
n−1 i=1 (x i − x̄ n )
r
n(n − 1) n2
G1 = g1 = b1 (37)
n−2 (n − 1)(n − 2)
> set.seed(1); x <- rnorm(100) # Gerando 100 valores N(0,1) com semente fixa
> e1071::skewness(x, type = 1) # Definiç~
ao clássica de assimetria, Equaç~
ao (36)
[1] -0.0722319
> e1071::skewness(x, type = 2) # Utilizada no SAS, SPSS e Excel, Equaç~

ao (38)
[1] -0.07333656
> e1071::skewness(x, type = 3) # Padr~

ao do R, utilizada no MINITAB e BMDP, Equaç~
ao (37)
[1] -0.07115113
2.5.2 Curtose
A curtose é uma medida de achatamento de uma distribuição de frequência. Assim como na assime-
tria, das diversas definições de curtose apresentam-se três alternativas.
1
Pn
m4 (xi − x̄n )4
g2 = 2 − 3 = Pni=1
n
−3 (38)
m2 1 2 2
n i=1 (xi − x̄n )
2 1
Pn
− x̄n )4

1 m4 n i=1 (xi
b2 = (g2 + 3) 1 − −3= 4 −3= h i2 − 3 (39)
n s 1
Pn 2
n−1 i=1 (xi − x̄n )
[(n + 1)g2 + 6] (n − 1)
G2 = (40)
(n − 2)(n − 3)
> set.seed(1); x <- rnorm(100) # Gerando 100 valores N(0,1) com semente fixa
> e1071::kurtosis(x, type = 1) # Definiç~
ao clássica de curtose, Equaç~
ao (39)
[1] 0.007653206
> e1071::kurtosis(x, type = 2) # Usada no SAS, SPSS e Excel, Equaç~

ao (41)
[1] 0.07053697
> e1071::kurtosis(x, type = 3) # Padr~

ao do R, usada também no MINITAB e BMDP, Eq. (40)
[1] -0.05219909
Page 36
DRAFT VERSION
EXERCÍCIOS
1. Escreva σ 2 em função de s2n .
2. Considere os valores 1,2,3,4.
a) Calcule a média, a mediana e a moda.

b) Calcule a amplitude.
c) Calcule a variância universal pelas Equações (26) e (27).
d) Calcule a variância amostral pelas Equações (28) e (29).
e) Quanto, em percentual, a variância amostral é maior que a universal?
f) Calcule os coeficientes de variação universal e amostral.
3. Considere novamente as variaveis das Tabelas 2.3 e 2.5, dentro do RStudio.
a) Calcule a média, a mediana e a moda das variáveis ‘idade’ e ‘altura’.

b) Calcule as amplitudes.
c) Calcule as variâncias amostrais pela função var.
d) Calcule as variâncias universais pela função obtida no Exercı́cio 1.
e) Quanto, em percentual, as variâncias amostrais são maiores que as respectivas variâncias universais?
f) Calcule os desvios padrão amostrais pela função sd.
g) Calcule os coeficientes de variação universais e amostrais. Qual variávei apresentou maior variação?
h) Calcule a assimetria e curtose do tipo 3 com as funções skewness e kurstosis do pacote e1071.
4. Quanto, em percentual, a variância amostral é maior que a universal em uma amostra de tamanho n = 9?
5. A partir dos Exemplos 2.45 e 2.46 mostre que a varância amostral é 20% maior que a variância universal.
Page 37
DRAFT VERSION
2.6 Visualização
Visualização é o processo de representar informações ou idéias através de diagramas, gráficos e outros
métodos de apresentação visual. De um modo geral, as ferramentas de visualização devem ser claras para
o leitor, devendo-se evitar detalhes desnecessários. Um bom visualizador transmite a informação desejada
de forma clara, precisa e eficiente. Ao apresentar informação de maneira visual deve-se considerar que
· o olho humano não diferencia muitas tonalidades de cor, por isso é interessante trabalhar com
escalas em degradê, diferentes texturas e espessuras de linha
· para apresentar dados categóricos é interessante ordenar as categorias de forma intuitiva para
melhor apresentação
· deve-se evitar o agrupamento de dados contı́nuos em categorias
· é importante manter a notação coerente com o texto.
2.6.1 Gráfico de Setores (Pizza)

Em Inglês é conhecido como pie chart, ou gráfico de torta em tradução livre. Não sei por que mudam
os alimentos de uma lı́ngua para outra, mas em Português é conhecido popularmente como gráfico de
pizza. Para fazer um charme para o chefe, porém, recomenda-se a expressão gráfico de setores. A
idéia é desenhar setores (ou ‘fatias’, se não for para o chefe) proporcionais às frequências das categorias.
Seguindo a etiqueta da apresentação gráfica, recomenda-se a utilização deste tipo de gráfico para, no
máximo, dez categorias. Os gráficos da Figura 2.4 estão apresentados em sentido anti-horário iniciando
em 0o . Este é o padrão da maioria dos pacotes computacionais, mas se necessário pode-se inverter o
sentido e iniciar em qualquer ângulo.
Atendimentos em um guiche Atendimentos em um guiche
90 Seg 37.5% Seg

Ter Ter
Qua Qua
Qui Qui
Sex Sex
62 25.8%
13 5.4%
44 18.3%
31 12.9%
(a) Frequência (da classe) (b) Frequência relativa
Figura 2.4: Gráficos de setores
> atend <- c(90,62,31,44,13) # Número de atendimentos

> colors <- gray(0:4/4) # Cinco tons de cinza
> atend_temp <- round(atend/sum(atend) * 100, 1) # Calculando os percentuais
> atend_rel <- paste0(atend_temp, '%') # Adicionando '%'. Teste '?paste'
> par(mfrow=c(1,2)) # Criando janela gráfica 1x2
> # Frequ^
encia (da classe) e legenda
> e', col=colors, labels=atend, cex=1.6, cex.main=1.7)
pie(atend, main='Atendimentos em um guich^
> legend(.8, .9, c('Seg','Ter','Qua','Qui','Sex'), cex=1.3, fill=colors, box.col='white')
> # Frequ^
encia relativa e legenda
> e', col=colors, labels=atend_rel, cex=1.6, cex.main=1.7)
pie(atend, main='Atendimentos em um guich^
> legend(.8, .9, c('Seg','Ter','Qua','Qui','Sex'), cex=1.3, fill=colors, box.col='white')
Page 38
DRAFT VERSION
2.6.2 Gráfico de Barras e Colunas
O gráfico de barras é usualmente utilizado para apresentar dados classificados em categorias não
ordenadas. Barras retangulares de mesma largura são dispostas sobre as categorias com altura propor-
cional às frequências ou outra medida associada com as categorias. Podem ser dispostas na horizontal
ou vertical; quando agrupadas desta última forma, chama-se gráfico de colunas. É um gráfico bastante
versátil, pois permite representar a informação de diversas maneiras, conforme Figura 2.5.
Custos pessoais Custos pessoais
800
internet
moradia
600
e. eletrica
Custo (R$)
400
aliment.
educacao
200
0 200 400 600 800 0
Custo (R$) educacao aliment. e. eletrica moradia internet
(a) Barra (b) Colunas
Placebo vs trat. Placebo vs tratamento

40
Nenhuma melhora
Nenhuma melhora Alguma melhora
25
Alguma melhora Plena melhora

Plena melhora
30
20
Frequencia
Frequencia
15
20
10
10
5
0
Placebo Tratamento Placebo Tratamento
(c) Colunas empilhadas (d) Colunas lado a lado
Figura 2.5: Gráficos de barras e colunas
> custos <- c(640, 760, 75, 100, 850) # Custos pessoais
> names(custos) <- c('alimentacao','educacao','e. eletrica','internet','moradia') # Nomeando
> barplot(custos, xlab='Custo (R$)', main='Custos pessoais', col= gray(0:4/4), cex.main=1.6, horiz=T)
> barplot(custos, ylab='Custo (R$)', main='Custos pessoais', col= gray(0:4/4), las=1, cex.main=1.6)
> trat <- table(Arthritis$Improved, Arthritis$Treatment) # Utilizando base de dados 'Arthritis'
> rownames(trat) <- c('Nenhuma melhora','Alguma melhora','Plena melhora') # Nome das linhas
> colnames(trat) <- c('Placebo','Tratamento') # Nome das colunas
> barplot(trat,main='Placebo vs trat.', ylab='Frequencia', col=c('black','grey','white'), cex.main=1.6)
> legend(1.5, 40, rownames(trat), cex=1, fill=colors[c(1,3,5)], box.col='white')
> barplot(trat, main='Placebo vs tratamento', ylab='Frequencia', col=c('black', 'grey','white'),
cex.main = 1.6, beside = T)
> legend(5, 28, rownames(trat), cex=1, fill=colors[c(1,3,5)], box.col='white')
Page 39
DRAFT VERSION
2.6.3 Histograma
O histograma é um gráfico de barras sem espaçamento utilizado para representar distribuições de
frequência de variáveis contı́nuas. Apresenta-se a variável dividida em classes no eixo horizontal (x) e a
frequência de cada classe no eixo vertical (y). Os pacotes computacionais em geral definem o número de
classes pela regra de Sturges33 . É uma ferramenta básica de análise exploratória de dados para avaliar a
dispersão e forma dos dados, detectar valores atı́picos e sugerir modelos e transformações para análises
mais avançadas.
40
20
30
15
Frequency
Frequency
20
10
10
5
0
1.50 1.55 1.60 1.65 1.70 1.75 1.50 1.55 1.60 1.65 1.70
Altura (m) Altura (m)
(a) Amplitude de classes de Sturges (padrão do R) (b) Amplitude de classes de Freedman-Diaconis
9
8
6
6
Density
3
2
0
0
1.50 1.55 1.60 1.65 1.70 1.75
1.50 1.55 1.60 1.65 1.70 1.75
Altura (m) Altura (m)
(c) Ajustando densidade normal (d) Utilizando a biblioteca ggplot2
Figura 2.6: Histogramas

> hist(altura, prob=F, right=F, breaks = 'sturges', main = '', xlab='Altura (m)', col='grey')
> hist(altura, prob=F, right=F, breaks = 'fd', main = '', xlab='Altura (m)', col='grey')
> hist(altura, prob=T, right = F, main = '', xlab='Altura (m)', col='grey', ylim = c(0,9))
> curve(dnorm(x, mean=mean(altura), sd=sd(altura)), col='blue', lwd=2, add=T) # Ajustando normal
> ggplot2::qplot(altura, geom = 'histogram', xlab = 'Altura (m)') # install.packages('ggplot2', dep=T)
33 Seção 2.2.3.
Page 40
DRAFT VERSION
2.6.4 Box plot
O box plot ou diagrama em caixa é um gráfico em formato retangular limitado pelo primeiro e terceiro
quartis, onde a linha central é a mediana34 . A distância entre os quartis é a amplitude interquartı́lica,
definida por AI = Q3 − Q1 e contempla 50% dos dados centrais. Pontos que ultrapassam 1.5 vez a
amplitude interquartı́lica acima (abaixo) de Q3 (Q1 ) são chamados outliers.
Numero de filhos Variável W

6 Máximo
8
5
4 6
Numero de filhos
y
Q3
4
2 Mediana
2
1 Q1
0 Mínimo 0
A B C
(n=50) (n=300) (n=150)
x
(a) Boxplot (b) Proporcional ao tamanho do grupo
Pontuacao em um teste Pontuacao em um teste
25
F
20
E
Outliers
15 D
Pontos
Pontos
C
10
B
5
A B C D E F 0 5 10 15 20 25
(c) Vertical (d) Horizontal
Figura 2.7: Box plots

> boxplot(filhos, main='Numero de filhos', ylab='Numero de filhos', las=1, cex.main=1.6)
> set.seed(1); y <- c(rpois(50, lambda=1.5), rnorm(300,4), (1:150)/17)
> x <- factor(c(rep('A',50), rep('B',300), rep('C',150) ))
> bp <- boxplot(y ~ x, varwidth = TRUE, las = T, main='Variável W', cex.main=1.6)
> mtext(paste('(n=', bp$n, ')', sep = ''), at = seq_along(bp$n), line =2, side = 1)
> boxplot(count ~ spray, data = InsectSprays, col = 'lightgray', main = 'Pontuacao em um teste',
ylab = 'Pontos', xlab = 'Grupo', las = 1, cex.main = 1.6)
> boxplot(count ~ spray, data = InsectSprays, col = 'lightgray', main = 'Pontuacao em um teste',
ylab = 'Pontos', xlab = 'Grupo', las = 1, cex.main = 1.6, horizontal = T)
34 Seção 2.3.9.
Page 41
DRAFT VERSION
2.6.5 Gráfico de Dispersão
O gráfico de dispersão apresenta a relação entre duas variáveis contı́nuas. O gráfico da Figura 2.8a
sugere que o rendimento dos carros avaliados cai conforme aumenta sua massa, o que é bastante intuitivo.
Na Figura 2.8b está um exemplo de matriz de dispersão, que consiste em um mosaico com gráficos de
dispersão de duas ou mais variáveis apresentadas simultaneamente. Note que o gráfico da Figura 2.8a
está replicado na primeira linha, última coluna da matriz. Seu inverso (Massa vs Rendimento) está na
última linha, primeira coluna. É uma ferramenta útil no ajuste dos modelos apresentados no Capı́tulo 5.
Rendimento (km/L) vs Massa (kg) Matriz de dispersao

1000 4000 7000 1000 2000
14
14
8 10
Rendimento
6
12
7000
Rendimento (km/L)
4000
Cilindrada
10
1000
5.0
8
4.0
Vel.Transmissão
3.0
6
2000
Massa
1000
1000 1500 2000 2500

6 8 10 14 3.0 4.0 5.0
Massa do carro
(a) Gráfico de dispersão (b) Matriz de dispersão
Figura 2.8: Gráfico de dispersão
> attach(mtcars) # install.packages('mtcars', dep=T)

> Rendimento <- 0.42515199183708*mpg
> Massa <- 0.453592*wt*1000
> Cilindrada <- 16.387064*disp
> Vel.Transmiss~
ao <- drat
> plot(Massa, Rendimento,
main="Rendimento (km/L) vs Massa (kg)",
xlab="Massa do carro",
ylab="Rendimento (km/L)", pch = 19, las = 1, cex.main = 1.6)
> pairs(~ Rendimento + Cilindrada + Vel.Transmiss~
ao + Massa, data = mtcars,
main = 'Matriz de dispersao', cex.main = 1.6)
2.6.6 Mais opções de visualização

· https://plot.ly/r/
· https://www.r-graph-gallery.com/
· https://github.com/d3/d3/wiki/Gallery
· http://kateto.net/network-visualization
· https://www.shinyapps.org/apps/RGraphCompendium/index.php
· http://r-statistics.co/Top50-Ggplot2-Visualizations-MasterList-R-Code.html
EXERCÍCIOS
1. Leia o artigo disponı́vel em http://flowingdata.com/2017/01/24/one-dataset-visualized-25-ways/.
2. Acesse o link http://archive.ics.uci.edu/ml/datasets.php e escolha um conjunto de dados.
Page 42
DRAFT VERSION
a) Descreva brevemente o conjunto de dados selecionado.
b) Crie visualizações para o conjunto escolhido, destacando pontos que considere relevante.
c) Envie os códigos e links para o professor.
EXERCÍCIOS EXTRAS
1. (Adaptado de Pagano (2004)) Em uma investigação dos fatores de risco para doenças cardiovasculares, os nı́veis de
cotinina (produto metabólico da nicotina) foram registrados para um grupo de fumantes (F) e um grupo de não
fumantes (NF) em nanogramas por mililitro (ng/mL)35 . As distribuições de frequência estão na tabela abaixo
Nı́vel de cotinina (ng/mL) fF f rF fN F f rN F

0 ` 14 78 3300
14 ` 50 133 72
50 ` 100 142 23
100 ` 150 206 15
150 ` 200 197 7
200 ` 250 220 8
250 ` 300 151 9
300 + 412 11
Total 1539 3445
Complete a tabela acima e responda:

a) Qual o percentual de fumantes com nı́vel de cotinina até 14 ng/mL? E entre os não fumantes, qual é este percen-
tual?
b) Qual percentual de fumantes que possuem 100 ng/mL ou mais de cotinina?
c) Entre os não fumantes, qual o percentual de pessoas que tem entre 100 e 250 ng/mL de cotinina?
d) Qual o intervalo modal entre os fumantes? E entre os não fumantes? Interprete.
e) A mediana do nı́vel de cotinina está em qual intervalo para os fumantes? E para os não fumantes? Interprete.
2. (Adaptado de Pagano (2004)) Questões para revisar os conceitos estudados:

a) O que são estatı́sticas descritivas?
b) Como os dados ordinais diferem dos nominais? Dê três exemplos de cada tipo.
c) Quais as vantagens e desvantagens de se transformar medidas contı́nuas em intervalos de classe?
d) Ao se construir uma tabela, quando é vantajoso usar frequências relativas em vez de absolutas?
e) O que são quartis de um conjunto de dados?
f) O que são média e mediana? Sob quais condições é preferı́vel usar cada uma?
3. Em 2009, a Pesquisa de Informações Básicas Municipais do IBGE divulgou os seguintes resultados para o número
de municı́pios por faixa de população para a região Sul do Brasil.
População # municı́pios Prefeitos (♂) Prefeitas (♀)

Até 5 000 421 397 24
De 5 001 a 10 000 291 268 23
De 10 001 a 20 000 229 222 7
De 20 001 a 50 000 144 134 10
De 50 001 a 100 000 57 54 3
De 100 001 a 500 000 43 40 3
Mais de 500 000 3 3 -
Total 1188 1118 70
Com base nesta informação, complete com V (verdadeiro) ou F (falso), corrigindo o que estiver errado:
( ) A região Sul possui 1188 municı́pios.
( ) Mais de 90% dos municı́pios possuem prefeitos do sexo masculino.
( ) Menos de 8% dos municı́pios com até 10 mil habitantes são administrados por mulheres.
( ) Entre municı́pios com prefeitos do sexo masculino, aproximadamente 4% deles possuem mais de 100 mil habi-
tantes.
( ) A mediana da população dos municı́pios está entre 20001 e 50000 habitantes.
( ) Aproximadamente 34% dos municı́pios administrados por mulheres possuem até 5 mil habitantes.
35 Um nanograma é um bilionésimo de grama. 1g = 109 ng, 1ng = 10−9 g.
Page 43
DRAFT VERSION
4. Você está dirigindo em uma rodovia e observa que ultrapassa o mesmo número de automóveis que ultrapassam
você. Qual medida de tendência central melhor representa a velocidade que você está dirigindo, média ou mediana?
Explique o seu raciocı́nio.
5. Foram observadas as quantidades de fotocópias feitas por dois setores de uma empresa no segundo semestre de 2018,
apresentadas na tabela abaixo.
Mês jan fev mar abr mai jun

Setor X 30 15 15 10 39 35
Setor Y 120 160 15 130 145 300
P6 P6 P6 P6
Sabendo que i=1 xi = 144, i=1 x2i = 4196, i=1 yi = 870, i=1 yi2 = 168150, calcule:
a) A média, mediana e moda do número de cópias de cada setor.
b) A amplitude, a variância e o desvio padrão amostrais do número de cópias de cada setor.
c) Em qual dos setores o número de cópias variou mais? Por quê?
d) Represente os dados utilizando o gráfico que você considerar mais adequado.
6. Você não sabe a nota da primeira prova (P1 ) de três avaliações realizadas no semestre passado. Sabendo que a
média das notas das três avaliações foi P̄ = 7.5 e que P2 = 5 e P3 = 9, qual a nota da avaliação que você perdeu?
7. Para aprimorar seu chimarrão, você decidiu medir a temperatura da água que estava utilizando durante as duas
últimas semanas. As temperaturas (em graus Celsius) observadas foram as seguintes:
Semana 1: 72.4 84.9 57.5 61.0 87.9 78.1 73.0

Semana 2: 76.3 80.0 74.1 67.0 83.2 83.0 58.0
a) Calcule a média e mediana da temperatura da água nos 14 dias.

b) Repita o item (a) para semana 1 e para semana 2 separadamente. Parece haver diferença na temperatura de uma
semana para outra?
c) Uma embalagem de erva mate aponta a temperatura 75 graus Celsius como ideal, sendo considerado bom o
chimarrão com água entre 65 e 85 graus. Acima deste intervalo o mate está quente demais (pelando) e abaixo é
considerado frio. Com essa informação, monte uma tabela de frequência para observar quantas vezes nessas duas
semanas o chimarrão ficou frio, bom ou muito quente para as semanas 1, 2 e durante os 14 dias.
d) A frequência em que o chimarrão estava na temperatura ideal foi diferente nas duas semanas? Comente os resul-
tados, explicando as diferenças de uma semana para outra.
8. (Adaptado de Anderson et al. (2007)) Milhões de norte-americanos levantam de manhã e realizam seu trabalho em
escritórios residenciais, comunicando-se com a empresa por meios eletrônicos. Coletou-se uma amostra da idade de
20 indivı́duos que trabalham em casa. As idades foram as seguintes:
18 54 20 46 25 48 53 27 26 37
40 36 42 25 27 33 28 40 45 25
a) Calcule a média, mediana e moda.

b) Calcule e interprete o primeiro quartil.
c) Se a idade mediana do universo de todos os adultos é 35.5 anos, comente se as pessoas que trabalham em casa
tendem a ser mais jovens ou mais velhas que a população de todos os adultos.
9. (Adaptado de Anderson et al. (2007)) Em um teste automobilı́stico de quilometragem e consumo de gasolina, 13

automóveis foram testados na estrada, em um percurso de 482.8 quilômetros, em condições de dirigibilidade tanto na
cidade quanto na rodovia. Os dados apresentados a seguir foram registrados para o desempenho obtido em termos
de quilômetros por galão americano (US liquid gallon), equivalente a 3.78 litros.
Cidade (X): 26.07 26.81 25.58 23.17 21.24 24.62

27.03 25.74 25.91 24.62 24.46 24.62 25.74
Rodovia (Y ): 30.57 32.18 28.96 29.93 30.89 27.35
27.35 28.96 30.57 33.95 31.22 28.96 28.96
P13 P13 P13 P13

Dados i=1 xi = 325.61, i=1 x2i = 8184.513, i=1 yi = 389.85, i=1 yi2 = 11732.66,
a) Calcule a média, mediana e a moda.
b) Faça uma investigação sobre a possibilidade de diferença de consumo de combustı́vel quando de dirige na cidade
e na rodovia.
Page 44
DRAFT VERSION
10. (Adaptado de Pagano (2004)) Um estudo foi conduzido comparando mulheres adolescentes que sofriam de bulimia
com mulheres adolescentes normais com composição corporal e nı́veis de atividade fı́sica similares. Abaixo estão as
medidas de consumo calórico, registrados em calorias por quilograma, para amostras de adolescentes de cada grupo.
Bulı́micas: 15.9 18.9 25.1 16.0 19.6 16.5 21.5 25.6 17.0 17.6 18.1 18.9
Saudáveis: 20.7 30.6 22.4 33.2 24.5 33.7 37.1 36.6 26.3 37.4 40.8 37.4
a) Obtenha e interprete o consumo calórico mediano, tanto para adolescentes bulı́micas quanto para saudáveis.
b) Calcule a média de cada grupo.
c) Qual grupo tem maior variabilidade nas medidas? Justifique.
11. O Mini-Exame do Estado Mental (MEEM) é provavelmente um dos instrumentos mais utilizados mundialmente,
possuindo versões em diversas lı́nguas e paı́ses, validado inclusive para a população brasileira. Fornece informações
sobre diferentes parâmetros cognitivos, contendo questões agrupadas em sete categorias, cada uma delas planejada
com o objetivo de avaliar funções cognitivas especificas como a orientação temporal (5 pontos), orientação espacial
(5 pontos), registro de três palavras (3 pontos), atenção e cálculo (5 pontos), recordação das três palavras (3 pontos),
linguagem (8 pontos) e capacidade construtiva visual (1 ponto). O escore do MEEM pode variar de um mı́nimo de
0 ponto, indicando o maior grau de comprometimento cognitivo dos indivı́duos, até um total máximo de 30 pontos,
que corresponde à melhor capacidade cognitiva. Desta forma a pontuação é a soma dos pontos de cada categoria,
podendo assumir os valores 0, 1, . . . , 30, de onde calculam-se medidas como média e variância para avaliação dos
pacientes.
Foram avaliados dois grupos de 8 pacientes cada em relação ao MEEM, conforme a tabela abaixo.
i 1 2 3 4 5 6 7 8
MEEM G1 (xi ) 12 19 12 17 18 12 10 11
MEEM G2 (yi ) 30 22 27 21 19 18 19 21
P8 P8 P8 P8
Se i=1 xi = 111, i=1 x2i = 1627, i=1 yi = 177, i=1 yi2 = 4041, pede-se:
a) Classifique a variável MEEM.
b) A média, a mediana e a(s) moda(s) do MEEM de cada grupo.
c) A amplitude do MEEM de cada grupo.
d) A variância e o desvio padrão universais do MEEM de cada grupo.
e) A variância e o desvio padrão amostrais do MEEM de cada grupo.
f) Em qual dos grupos o MEEM variou mais? Justifique.
12. (Adaptado de Magalhães and Lima (2002)) O Conselho Regional de Odontologia recomenda visitas periódicas ao
dentista e, para orientar sua campanha de divulgação, realizou uma pesquisa com 100 crianças. O número médio
de visitas no último ano foi 0.5. A mediana e a moda do número de visitas foram iguais a zero. Com base nestes
dados, responda V para verdadeiro, F para falso (corrigindo o que estiver errado) e NSA para sentenças que não se
pode afirmar através das informações fornecidas.
( ) Pelo menos 50 crianças não visitaram o dentista neste ano.
( ) Alguma criança fez mais de três visitas no último ano.
( ) Metade das crianças já foi ao dentista pelo menos uma vez.
( ) Uma criança pode ter ido ao dentista 80 vezes no ano.
Questões de Concursos
13. (Prova 1 TRF 2005) Assinale a alternativa correta:

Considere a seguinte distribuição das frequências absolutas dos salários mensais, em reais, referentes a 200 trabalha-
dores de uma indústria.
i Classes de Salários fi
1 400 ` 500 50
2 500 ` 600 70
3 600 ` 700 40
4 700 ` 800 30
5 800 ` 900 10
Total -
Sobre essa distribuição de salários é correto afirmar que:

(a) O salário modal encontra-se na classe de R$ 800 até R$ 900.
(b) O salário mediano encontra-se na classe de R$ 600 até R$ 700.
Page 45
DRAFT VERSION
(c) O salário modal encontra-se na classe de R$ 600 até R$ 700.
(d) O salário modal encontra-se na classe de R$ 700 até R$ 800.
(e) O salário mediano encontra-se na classe de R$ 500 até R$ 600.
14. (Exame Fundação Médica do Rio Grande do Sul - 2010) Considere uma amostra de 250 pessoas que sofreram
acidentes ofı́dicos36 . O resumo dos dados está nas tabelas abaixo. Para cada questão (1 e 2) existe somente uma
alternativa correta.
Idade # pessoas
6`8 1
8 ` 10 2
10 ` 12 7
12 ` 14 14
14 ` 16 31
16 ` 18 44
18 ` 20 72
20 ` 22 61
22 ` 24 18
Total 250
Moda: 19
Média: 17.8
Mediana: 18
Primeiro quartil: 16
Segundo quartil: 20
Desvio padrão: 3
Questão 1) A frequência relativa de pessoas com idade maior ou igual a 12 anos e menor que 18 anos que sofreram
acidentes ofı́dicos é igual a:
(a) 35.6%
(b) 38.4%
(c) 39.6%
(d) 58.8%
(e) 64.4%
Questão 2) Analise as alternativas abaixo:

I) Metade das pessoas da amostra apresentou idade menor ou igual a 18 anos.
II) Metade das pessoas da amostra apresentou idade entre 16 e 20 anos.
III) O coeficiente de variação foi de aproximadamente 16.8%.
Assinale a melhor opção de resposta.
(a) I (b) II (c) III (d) I e II (e) I, II e III
15. (CESGRANRIO - 2010 - Petrobrás/Administrador) Uma loja de conveniência localizada em um posto de combustı́vel
realizou um levantamento sobre o valor das compras realizadas pelos seus clientes. Para tal tomou uma amostra
aleatória de 21 compras, que apresentou o seguinte resultado:
i Valor i Valor i Valor

1 R$ 19.40 8 R$ 22.00 15 R$ 18.00
2 R$ 14.00 9 R$ 34.00 16 R$ 29.00
3 R$ 18.30 10 R$ 15.50 17 R$ 34.00
4 R$ 27.20 11 R$ 28.50 18 R$ 15.50
5 R$ 8.70 12 R$ 34.00 19 R$ 13.40
6 R$ 10.30 13 R$ 10.80 20 R$ 17.00
7 R$ 7.20 14 R$ 15.50 21 R$ 19.00
A mediana dessa série de observações é:

(a) 15.5 (b) 18.0 (c) 18.3 (d) 28.5 (e) 34.0
36 Picada de cobra.
Page 46
DRAFT VERSION
“ La théorie des probabilités n’est au fond,

que le bon sens réduit au calcul.”37
∼ Pierre-Simon Laplace, 1814
3 Probabilidade
“ ó sei que nada sei”, reagiu Sócrates ao pronunciamento do Oráculo de Delfos, que o apontara
S como o mais sábio de todos os homens 38
. No texto de Sheakspeare, Hamlet diz a seu colega de
Wittenberg: “There are more things in heaven and earth, Horatio, than are dreamt of in your philo-
sophy.”39 Em linha com estes pensadores, o autor considera razoável formalizar uma maneira de lidar
com as incertezas da vida, ainda que de forma idealizada.
Pense em quantas coisas você tem certeza absoluta. Absoluta. Ab-so-lu-ta. Pense agora que você
deve tomar uma decisão. Pode ser algo simples, como escolher entre um café ou uma água no avião. Por
mais banal que isso possa parecer, uma decisão deve ser tomada, mesmo que você resolva não aceitar
qualquer das sugestões da aeromoça. A pior coisa que pode acontecer é o café estar frio ou fora do ponto,
a água estar quente ou com um gosto ruim ou, caso tenha optado por não beber nada, você ficar com
sono ou sede. Porém, pode-se decidir por algo mais emocionante. Digamos que você é o responsável
por decidir entre o pedido de falência ou da continuidade da empresa da qual você faz parte do corpo
diretivo. Bem mais emocionante do que conversar com a aeromoça, mas idêntico em termos de método:
considerações foram feitas (seu paladar/sua estratégia de negócios), observações foram realizadas (o
cheirinho do café/análise de informações contábeis e de mercado) e uma decisão foi tomada (café, água
ou no, ¡gracias señorita! /falência ou continuidade da empresa).
Para auxiliar em decisões maiores como o exemplo descrito acima, utiliza-se o conceito de probabi-
lidade, definido neste texto como o grau de incerteza quantificado. Pode-se quantificar a incerteza de
diversas formas40 , e neste texto serão abordadas as probabilidades axiomática e frequentista. A pro-
babilidade axiomática é aquela da qual partimos por consenso, enquanto a probabilidade frequentista é
considerada o limite para o qual tende a frequência relativa da Equação (41) (página 52) sob certas
condições de regularidade.
Exemplo 3.1. (Probabilidade axiomática) Assume-se que uma moeda seja equilibrada, com probabilidade
50% de face cara ou coroa.
,
Exemplo 3.2. (Probabilidade frequentista) Uma moeda é lançada 100 vezes aproximadamente sob as
mesma condições e observa-se a frequência de faces cara e coroa. Se ao final dos n = 100 lançamentos
observarmos 54 caras e 100 − 54 = 46 coroas, calcula-se que há 54/100 = 54% de probabilidade de face
cara e 46/100 = 46% de coroa.
,
A seguir será feita uma breve revisão da Teoria dos Conjuntos, base para a compreensão do formalismo
da Teoria da Probabilidade.
3.1 Teoria dos Conjuntos

Um conjunto é uma coleção de elementos, sem repetição e não ordenada. Um subconjunto é uma
coleção de elementos que pertencem a um determinado conjunto. Formalmente não existe definição para
conjunto, subconjunto, elemento e pertinência, pois estas são consideradas noções primitivas 41 .
37“A teoria das probabilidades é, basicamente, o senso comum reduzido ao cálculo.”
38 Stokes (1997).
39 Hamlet Ato 1, cena 5, 159–167.
40 Para mais detalhes sobre os tipos de probabilidade, vide Feller (1968); de Finetti (1974); James (2010).
41 Iezzi and Murakami (1977).
Page 47
DRAFT VERSION
Exemplo 3.3. (Conjunto, subconjunto e elemento) Suponha o conjunto T formado pelos alunos que par-
ticipam da seleção de truco da universidade. Pode-se anotar
T = {Aaron, Beatriz, Carlos, Denivaldo, Evelino, F abiane} = {A♂ , B♀ , C♂ , D♂ , E♂ , F♀ }.
Cada aluno jogador da seleção de truco é elemento de T . Pode-se dividir o conjunto T em dois subcon-
juntos,
T♂ = {A♂ , C♂ , D♂ , E♂ }
e
T♀ = {B♀ , F♀ }.
Os guris são elementos de T♂ e as gurias elementos de T♀ .
,
3.1.1 Relações
Seja A um conjunto e a um elemento de A. a ∈ A simboliza que a pertence ao conjunto A. Se
um elemento b não pertence ao conjunto A, anota-se b ∈/ A. Diz-se que um conjunto A está contido
em outro conjunto B se todos os elementos pertencentes ao conjunto A também estiverem contidos em
B, simbolizado pelas relações A ⊂ B ou B ⊃ A. Estas relações também podem ser lidas como A é
subconjunto de B.
Exemplo 3.4. (Relações entre elementos e conjuntos) Suponha os conjuntos T , T♂ e T♀ definidos no
Exemplo 3.3.
Conjunto-conjunto Elemento-conjunto
T♂ ⊂ T Aaron ∈ T
T♂ ⊂ T Aaron ∈ T♂
T♀ ⊂ T Aaron ∈/ T♀
T 6⊂ T♂ F abiane ∈ T
T 6⊂ T♀ F abiane ∈
/ T♂
T♀ 6⊂ T♂ F abiane ∈ T♀
3.1.2 Conjunto Vazio

Conjunto vazio 42 é um conjunto sem elementos. Sua definição pode parecer um pouco estranha em
um primeiro momento, mas é de grande importância na Teoria de Conjuntos. Intuitivamente pode-se
pensar que alguns resultados são impossı́veis em certos experimentos, gerando a necessidade prática de
tal definição. É denotado por {} ou ∅, e não deve ser confundido com a letra grega φ. Por definição o
conjunto vazio é subconjunto de qualquer conjunto.
Exemplo 3.5. (Conjunto vazio) O conjunto dos possı́veis resultados de um lançamento de um dado é
Ω = {1, 2, 3, 4, 5, 6}. Como é impossı́vel obter um valor negativo como resultado, o conjunto em que se
obtém um valor negativo pode ser definido pelo conjunto vazio, i.e., Ω− = ∅.
,
3.1.3 Cardinal e Conjunto das Partes/Potência

O cardinal de um conjunto indica seu número de elementos. O cardinal do conjunto A é denotado por
|A|, onde |A| ∈ N. O conjunto das partes ou conjunto potência de um conjunto A é o conjunto contendo
todos os subconjuntos de A, denotado por P (A). Por definição o conjunto vazio ∅ é subconjunto de
P (A). O cardinal do conjunto das partes é dado por |P (A)| = 2|A| .
42 Há algum tempo era também referenciado como conjunto nulo, mas este termo atualmente designa uma definição
formal em Teoria da Medida, onde um conjunto nulo é tal que µ(φ) = 0.
Page 48
DRAFT VERSION
Exemplo 3.6. (Cardinal e conjunto das partes) Seja o conjunto A = {−9, 0, 5}. Sabe-se que
|A| = 3,
|P (A)| = 23 = 8
e
P (A) = {∅, {−9} , {0} , {5} , {−9, 0} , {−9, 5} , {0, 5} , {−9, 0, 5}} .
> A <- c(-9,0,5)

> length(A)
[1] 3
> (ps <- rje::powerSet(A))
[[1]]
numeric(0)
[[2]]
[1] -9
[[3]]
[1] 0
[[4]]
[1] -9 0
[[5]]
[1] 5
[[6]]
[1] -9 5
[[7]]
[1] 0 5
[[8]]
[1] -9 0 5
> length(ps)
[1] 8
3.1.4 Operações
As operações com conjuntos são fundamentais na Teoria da Probabilidade. Deve-se diferenciar ope-
rações entre conjuntos e operações entre números. União (∪), intersecção (∩) e complementar (Ac ) são
operações entre conjuntos. Adição (+), subtração (−) e multiplicação (×) são operações realizadas com
números. As operações com conjuntos possuem associação com as operações numéricas, detalhadas a
seguir.
União ∪
A operação de união é representada pelo sı́mbolo ∪. Indica que o novo conjunto gerado deve considerar
todos os elementos dos conjuntos envolvidos na operação de união. Caso existam elementos iguais, eles
não devem ser repetidos. O diagrama de Venn 43 da Figura 3.1a representa graficamente esta operação.
Equivale em Português à palavra ‘ou’ e em Matemática à operação numérica de adição (+).
43 O diagrama de Venn é uma representação gráfica de conjuntos através de cı́rculos ou outras formas.
Page 49
DRAFT VERSION
Exemplo 3.7. (União) Suponha os conjuntos T , T♂ e T♀ definidos no Exemplo 3.3.
T♂ ∪ T♀ = T,
T♂ ∪ T = T,
T♀ ∪ T = T.
,
Intersecção ∩
A operação intersecção é representada pelo sı́mbolo ∩. Indica que o novo conjunto gerado deve
considerar apenas os elementos que sejam comuns aos conjuntos envolvidos na operação de intersecção.
O diagrama de Venn da Figura 3.1b representa graficamente esta operação. Equivale em Português à
palavra ‘e’ e em Matemática à operação numérica de multiplicação (×).
Exemplo 3.8. (Intersecção de conjuntos disjuntos) Suponha os conjuntos T , T♂ e T♀ definidos no Exem-
plo 3.3.
T♂ ∩ T♀ = {} = ∅,
T♂ ∩ T = T♂ ,
T♀ ∩ T = T♀ .
Pode-se visualizar estes conjuntos na Figura 3.1d, com k = 2.
,
Exemplo 3.9. (Equivalências da união) Retomando o Exemplo 2.1 da página 10, suponha que 32 torce-
dores do Maragato F.C. e 25 do Ximango F.C. estejam em uma sala de aula. Seja M o conjunto dos
torcedores do Maragato F.C. e X o conjunto dos torcedores do Ximango F.C., denotados por
M = {m1 , m2 , . . . , m32 }
e
X = {x1 , x2 , . . . , x25 }.
A união destes conjuntos é
M ∪ X = {m1 , m2 , . . . , m32 , x1 , x2 , . . . , x25 }.
Logo, existem |M ∪ X| = |M | + |X| − |M ∩ X| = 32 + 25 − 0 = 57 torcedores do Maragato F.C. ou do
Ximango F.C. na sala de aula.
,
Exemplo 3.10. (Leitores de mais de um jornal) Suponha que existam 20 leitores de Diário Brotense (D),
30 leitores de Meia Noite (M) e 6 leitores de Diário Brotense e de Meia Noite, denotados por
D = {d1 , d2 , . . . , d20 }
e
M = {m1 , m2 , . . . , m30 }.
A união D ∪ M possui |D ∪ M | = |D| + |M | − |D ∩ M | = 20 + 30 − 6 = 44 elementos, visto que 6 deles
estão simultaneamente em D e M . Visualize este exemplo na Figura 3.1a.
,
Exemplo 3.11. (Intersecção de conjuntos não disjuntos) Do Exemplo 3.10, a intersecção D ∩ M possui
6 elementos. Visualize este exemplo na Figura 3.1b.
,
Complementar
O complementar do conjunto A indica que o novo conjunto gerado deve considerar os elementos que
não pertencem a A, também chamados de não A ou ¬A. É representado pelas simbologias Ac e Ā. Neste
texto será adotada a notação Ac para não colidir com a média amostral, também anotada pelo sı́mbolo
de barra Ā. O diagrama de Venn da Figura 3.1d representa graficamente esta operação. Equivale em
Português à palavra ‘não’ e em Matemática à operação numérica de subtração (−).
Exemplo 3.12. (Complementar) Do Exemplo 2.1, M = X c e X = M c .
,
Page 50
DRAFT VERSION
(a) A união B, ou A ∪ B (b) A intersecção B, ou A ∩ B
(c) Complementar de A, não A, ¬A ou Ac (d) Partição
Figura 3.1: Operações com conjuntos
3.1.5 Conjuntos Disjuntos e Partição

Conjuntos disjuntos são aqueles cuja intersecção é o conjunto vazio, ou seja, não se sobrepõem. Uma
partição é uma quebra de um conjunto em subconjuntos disjuntos.
Exemplo 3.13. (Conjunto disjunto e partição) Do Exemplo 3.9, não existem pessoas que torçam para
o Maragato F.C. e para o Ximango F.C. simultaneamente. Os Maragatos e Ximangos formam uma
possı́vel partição do Rio Grande do Sul.
,
3.2 Definições
3.2.1 Experimento Aleatório
Um experimento aleatório é um processo no qual não se conhece o especı́fico resultado, mas se conhece
o conjunto dos possı́veis resultados. Um experimento aleatório pode ser medir alturas de mulheres, contar
o dinheiro que entra por dia em um supermercado ou simplesmente lançar um dado. É considerado
aleatório pois se desconhece o especı́fico resultado em cada realização, ainda que sejam conhecidos todos
os possı́veis resultados.
3.2.2 Espaço Amostral

O espaço amostral é o conjunto de todos os possı́veis resultados de um experimento aleatório, simbo-
lizado por Ω.
Exemplo 3.14. (Espaço amostral finito) No caso do experimento aleatório ‘lançar um dado’, o espaço
amostral é definido por
Ω = {1, 2, 3, 4, 5, 6} .
,
Page 51
DRAFT VERSION
Exemplo 3.15. (Espaço amostral infinito) No Exemplo 2.9 da página 12, o espaço amostral é definido
pelo conjunto não enumerável Ω = {b ∈ R : 0 ≤ b ≤ 1}.
,
3.2.3 Evento
Em Probabilidade, um evento é um subconjunto do espaço amostral. Não confundir com eventos não-
probabilı́sticos como o Planeta Altlântida ou o show de aniversário da Rádio Farroupilha no anfiteatro
Pôr-do-Sol.
Exemplo 3.16. (Evento finito) Do Exemplo 3.14 pode-se estar interessado apenas nos resultados pares do
lançamento. Assim, o evento ‘face par’ pode ser descrito como E = {2, 4, 6} . Note que E ⊂ Ω.
,
Exemplo 3.17. (Evento infinito) Do Exemplo 3.15 pode-se estar interessado apenas nos locais onde exista
um percentual de bulı́micas superior a 8.4%. Assim, o evento ‘percentual de bulı́micas superior a 8.4%’
pode ser descrito como E = {b ∈ R : 0.084 < b ≤ 1}. Note que E ⊂ Ω.
,
3.2.4 Probabilidade
Atribui-se a probabilidade do evento A como
m
P r(A) = (41)
n
onde
· m é o número de casos favoráveis para o evento A

· n é o número total de casos
A probabilidade frequentista é o limite da Equação (41) quando n → ∞.

Exemplo 3.18. (Cálculo de probabilidade) Suponha que um dado seja lançado 150 vezes (a pessoa tem
uma vida fantástica, a ponto de ter tempo livre para fazer essa experiência), e observa-se a distribuição
dos lançamentos apresentada na Tabela 3.1.
Face 1 2 3 4 5 6 Total
Frequência 18 24 34 26 27 21 150
Tabela 3.1: Resultado de 150 lançamentos de um dado, feitos por um desocupado.
Assim, o espaço amostral é Ω = {1, 2, 3, 4, 5, 6} e podem-se calcular algumas probabilidades tais como
24
P r(F ace 2) = P r({2}) = = 0.16 = 16%,
150
24 + 26 + 21
P r(F ace par) = P r(F ace 2 ou f ace 4 ou f ace 6) = P r({2}∪{4}∪{6}) = ≈ 0.4733 = 47.33%,
150
71
P r(F ace ı́mpar) = 1 − P r(F ace par) = 1 − ≈ 0.5267 = 52.67%,
150
P r(F ace 2 e f ace 4 e f ace 6) = P r({2} ∩ {4} ∩ {6}) = P r(∅) = 0.
Page 52
DRAFT VERSION
> m <- c(18,24,34,26,27,21)
> n <- sum(m)
> (p2 <- m[2]/n)
[1] 0.16
> (ppar <- sum(m[c(2,4,6)])/n)
[1] 0.4733333
> (pimpar <- 1-ppar)
[1] 0.5266667
3.2.5 Propriedades
Propriedades fundamentais (Axiomas de Kolmogorov)
· P1
0 ≤ P r(A) ≤ 1 (42)
· P2
P r(Ω) = 1 (43)
· P3 Se A1 , A2 , ..., Ak são conjuntos disjuntos44 , então
P r(A1 ∪ A2 ∪ . . . ∪ Ak ) = P r(A1 ) + P r(A2 ) + . . . + P r(Ak ) (44)
Propriedades secundárias
Das propriedades fundamentais resultam outras, apresentadas sem demonstração:
· P4
P r(A) = 1 − P r(Ac ) (45)
· P5
P r(∅) = 0 (46)
· P6
P r(A ∪ B) = P r(A) + P r(B) − P r(A ∩ B) (47)
· P7
c
P r([A ∪ B] ) = P r(Ac ∩ B c ) (48)
· P8
c
P r([A ∩ B] ) = P r(Ac ∪ B c ) (49)
EXERCÍCIOS
1. Demonstre as propriedades P4 a P8.
44 Seção 3.1.5.
Page 53
DRAFT VERSION
3.2.6 Probabilidade Condicional
Probabilidade condicional é a probabilidade do evento A após observada a ocorrência de um evento
B. A probabilidade de A dado B é
P r(A ∩ B)
P r(A|B) = , P r(B) 6= 0 (50)
P r(B)
Analogamente
P r(A ∩ B)
P r(B|A) = , P r(A) 6= 0
P r(A)
Exemplo 3.19. (Probabilidade condicional) Um dado equilibrado é lançado, e deseja-se observar o evento
A: ‘face 2’. A pessoa que lançou o dado também dá uma informação B: ‘a face é par’. Assim,
1
P r(B) = ,
2
1
P r(A ∩ B) = ,
6
1/6 1
P r(A|B) = = ,
1/2 3
1 2
P r(Ac |B) = 1 − = .
3 3
,
As propriedades acima resultam na regra do produto, ou a probabilidade do evento intersecção:
P r(A ∩ B) = P r(A) · P r(B|A) = P r(B) · P r(A|B) (51)
De forma generalizada,
P r(A1 ∩A2 ∩. . .∩Ak ) = P r(A1 )P r(A2 |A1 )P r(A2 |A1 ∩A2 ) . . . P r(Ak |A1 ∩A2 ∩. . .∩Ak−1 ) = P r(B)·P r(A|B)
(52)
Quando ocorre
P r(A) · P r(B)
P r(A|B) = = P r(A) (53)
P r(B)
é dito que A e B são independentes (A ⊥⊥ B), uma vez que a observação de B não altera a opinião
sobre A. Os eventos são independentes dois a dois se A ⊥ ⊥ B c , Ac ⊥
⊥ B, então A ⊥ ⊥ B e Ac ⊥⊥ B c . As
propriedades de probabilidade continuam valendo, permitindo que façamos
P r(A|B) = 1 − P r(Ac |B) (54)

e
P r(A ∩ B|C)
= P r(A|B ∩ C) (55)
P r(B|C)
EXERCÍCIOS
2. Refaça o Exemplo 3.19 considerando a informação C: ‘a face é ı́mpar’. Calcule:
a) P r(C)
b) P r(A ∩ C)
c) P r(A | C)
d) P r(Ac | C)
Page 54
DRAFT VERSION
Figura 3.2: Partição de tamanho k = 5.
3.2.7 Teorema da Probabilidade Total e o Teorema de Bayes

Considere uma partição conforme digrama de Venn da Figura P5 3.2.
A1 , . . . , A5 formam uma distribuição de probabilidade, i.e., i=1 P r(Ai ) = 1. Pela Figura 3.2,
B = ∪5i=1 (Ai ∩ B) (56)
Teorema 3.1. (Teorema da Probabilidade Total) Seja uma sequência enumerável de eventos aleatórios
A1 , A2 , . . . , Ak , formando uma partição de Ω. Como as intersecções Ai ∩ B são mutuamente excludentes,
então de (44)
k
X
P r(B) = P r(Ai ∩ B) (57)
i=1
Aplicando (51), podemos escrever

X
P r(B) = P r(Ai ) · P r(B|Ai ) (58)
i
a
De (50) pode-se calcular a probabilidade de Ai dada a ocorrência de B por
P r(Ai ∩ B)
P r(Ai |B) = (59)
P r(B)
Aplicando (57) e (51),
P r(Ai ) · P r(B|Ai )
P r(Ai |B) = P (60)
j P r(Aj ) · P r(B|Aj )
Este é o Teorema de Bayes, útil quando conhecemos as probabilidades condicionais de B dado Ai , mas
não diretamente a probabilidade de B. Conhecida também como Regra de Bayes ou ainda a probabilidade
da causa dada a consequência.
Exemplo 3.20. (Teorema de Bayes) Suponha uma caixa com três moedas, duas honestas45 e uma com
duas faces cara. A probabilidade condicional de a moeda sorteada ter sido aquela com duas caras pode
ser calculada. Para isso pode-se definir A1 : ‘a moeda retirada é honesta’, A2 : ‘a moeda retirada tem
duas caras’ e B : ‘o resultado final é cara’ e aplicar a regra de Bayes, resultando em
1
P r(A2 ) · P r(B|A2 ) 3 ×1 1
P r(A2 |B) = = 2 1 1 = .
P r(A1 ) · P r(B|A1 ) + P r(A2 ) · P r(B|A2 ) 3 × 2 + 3 ×1 2
,
3.3 Variáveis Aleatórias Discretas

Uma variável aleatória (v.a.) é uma transformação (função) de Ω em Rn . Isto significa que os
resultados dos experimentos aleatórios serão transformados em números. Suponha uma variável aleatória
X. RX é o conjunto de todos os possı́veis valores de X, denominado contradomı́nio. Ele pode ser
considerado um espaço amostral numérico obtido a partir de Ω. Uma variável aleatória discreta é aquela
cujo conjunto RX é finito ou infinito enumerável.
45 Termo técnico indicando que cada moeda possui uma face cara e outra face coroa, ambas com probabilidade 1
2
de
ocorrência.
Page 55
DRAFT VERSION
Exemplo 3.21. (Variável aleatória discreta) Suponha o lançamento de dois dados. O espaço amostral
deste experimento aleatório é Ω = {(1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (6, 6)}, e |Ω| = 36. Suponha
que haja interesse na variável aleatória ‘soma dos pontos’, denotada por X. O conjunto dos possı́veis
valores de X é RX = {2, 3, . . . , 12} e |RX | = 11.
,
Seja X uma variável aleatória discreta, onde para cada ponto de RX associa-se uma (função de)
probabilidade ou distribuição de probabilidade p(xi ) = P r(X = xi ), satisfazendo p(xi ) ≥ 0 para todo i e
P|RX |
i=1 p(xi ) = 1.
Exemplo 3.22. (Probabilidade com v.a. discreta) Suponha dois lançamentos consecutivos de uma moeda
equilibrada. O espaço amostral é Ω = {HH, HT, T H, T T }, onde H representa resultado ‘cara’ e T
‘coroa’. Se estivermos interessados na variável aleatória X: ‘número de caras’, o conjunto de interesse
passa a ser RX = {0, 1, 2}, onde o elemento 0 do conjunto RX equivale ao evento {T T }, 1 ao evento
{T H, HT } e 2 a {HH}. As probabilidades, por sua vez, são
1 1 1
× = ,
p(0) = P r(X = 0) = P r({T T }) =
2 2 4

1 1 1 1 2 1
p(1) = P r(X = 1) = P r({T H, HT }) = × + × = = ,
2 2 2 2 4 2
1 1 1
p(2) = P r(X = 2) = P r({HH}) = × = .
2 2 4
1 2 1
Note que P r(X = 0) + P r(X = 1) + P r(X = 2) = + + = 1.
4 4 4
,
EXERCÍCIOS
1. Do Exemplo 3.21, obtenha p(x), x ∈ 2, 3, . . . , 12.
2. Refaça o Exemplo 3.22 para três lançamentos.
3.3.1 Esperança e Variância

Esperança
A esperança 46 de uma variável aleatória discreta X é dada por

X
E [X] = x · p(x). (61)
x
A esperança de uma função g(X) é dada por

X
E [g(X)] = g(x) · p(x). (62)
x
Exemplo 3.23. (Esperança de v.a. discretas X e X 2 ) Do Exemplo 3.22 pode-se calcular

1 2 1
E(X) = 0 × + 1 × + 2 × = 1.
4 4 4
Este resultado era esperado dada a simetria47 . A esperança de g(X) = X 2 é dada por
1 2 1 3
E(X 2 ) = 02 × + 12 × + 22 × = = 1.5.
4 4 4 2
,
46 Esta é uma noção genérica da média aritmética simples, descrita na Seção 2.3.2.
47 A distribuição é simétrica em torno de zero se P r(X ≥ x) = P r(X ≤ −x), x ∈ R.
Page 56
DRAFT VERSION
Variância
A variância 48 de uma variável aleatória discreta X é dada por

2 2
V (X) = E([X − E(X)] ) = E(X 2 ) − [E(X)] . (63)
O desvio padrão de uma variável aleatória discreta X é dado por
p
D(X) = V (X). (64)
Exemplo 3.24. (Variância e desvio padrão de uma v.a. discreta) Do Exemplo 3.23 pode-se calcular
3 1
V (X) = − 12 = = 0.5
2 2
e
√
D(X) = 0.5 ≈ 0.7071.
,
3.3.2 Distribuições de probabilidade especiais

Uma distribuição de probabilidade é uma função que descreve probabilidades. Considerando a abor-
dagem de de Finetti (1974), página 222, uma (funcão) distribuição (acumulada) F (x) éP crescente de 0
(quando x → −∞) a 1 (quando x → +∞). Uma distribuição R com massas concentradas ( x p(x) = 1) é
discreta. Uma distribuição sem massas concentradas ( x f (x)dx = 1) é contı́nua.
Algumas formas especiais são generalizações de certos tipos de problema, levando a soluções pa-
dronizadas. Uma vez identificada a classe do problema, informações chamadas parâmetros tornam a
distribuição de probabilidade completamente definida.
Exemplo 3.25. (Parâmetros) Na Equação (41) (pg. 52) está apresentada uma distribuição de probabili-
dade bastante simples. Basta saber os parâmetros ‘número de casos favoráveis para A’ e ‘número total
de casos’ para calcular as probabilidades de interesse, conforme ilustrado no Exemplo 3.18.
,
48 Esta é a definição de variância universal, descrita na Seção 2.4.2.
Page 57
DRAFT VERSION
3.3.3 Distribuição Binomial · B(n, p)
Considere um único lançamento de uma moeda que resulta em cara (H) ou coroa (T ). Seja P r({H}) =
p e P r({T }) = 1 − p. Este é um experimento ou ensaio de Bernoulli. Suponha agora n lançamentos
independentes da mesma moeda. Este é um experimento binomial. Seja X o número de faces cara
resultantes nos n lançamentos independentes. X é uma variável aleatória (com distribuição) (de pro-
babilidades) binomial de parâmetros n e p, denotado por X ∼ B(n, p). A distribuição binomial é dada
por
n x
p(x) = P r(X = x) = p (1 − p)n−x , (65)
x
onde n ∈ N, p ∈ [0, 1], x ∈ {0, . . . , n} e

n n n!
= = Cnx = (66)
x n−x x! (n − x)!
A esperança e variância são dadas por
E(X) = np (67)
V (X) = np(1 − p) (68)
Exemplo 3.26. (Binomial) Suponha n = 12 lançamentos de uma moeda com p = 0.7. Assim,
X ∼ B(12, 0.7),

12
p(x) = P r(X = x) = 0.7x 0.312−x ,
x
E(X) = 12 × 0.7 = 8.4,
V (X) = 12 × 0.7 × 0.3 = 2.52.,
> barplot(dbinom(0:12, 12, 0.7), main = 'B(12,0.7)', names.arg = 0:12)
B(12,0.7)
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12
Page 58
DRAFT VERSION
3.3.4 Distribuição Binomial Negativa · BN (k, p)
Considere novamente o lançamento de uma moeda que resulta em cara (H, sucesso) ou coroa (T ,
fracasso) onde P r({H}) = p e P r({T }) = 1 − p. Seja X o número de lançamentos (ensaios de Bernoulli)
realizados até atingir a k-ésima cara (k-ésimo sucesso). X é uma variável aleatória (com distribuição)
(de probabilidades) binomial negativa de parâmetros k e p, denotada por X ∼ BN (k, p), onde
k ∈ {1, 2, . . .}, 0 ≤ p ≤ 1, x ∈ {k, k + 1, . . .}
e definida por
x−1 k
p(x) = P r(X = x) = p (1 − p)x−k , (69)
k−1
onde
x−1 x−1 (x − 1)!
= Ck−1 = (70)
k−1 (k − 1)!(x − k)!
E(X) = k/p (71)
V (X) = k(1 − p)/p2 . (72)
Exemplo 3.27. (Binomial negativa) Uma moeda com p = 0.7 é lançada até a obtenção de k = 4 caras.
X ∼ BN (4, 0.7),

x−1
p(x) = P r(X = x) = 0.74 0.3x−4 ,
3
E(X) = 4/0.7 = 40/7 ≈ 5.714286,
V (X) = 4 × (1 − 0.7)/0.72 = 20/49 ≈ 2.44898.,
> barplot(dnbinom(0:10, 4, 0.7), main = 'BN(4,0.7)', names.arg = 4:14)
BN(4,0.7)
0.25
0.20
0.15
0.10
0.05
0.00
4 5 6 7 8 9 10 11 12 13 14
Page 59
DRAFT VERSION
3.3.5 Distribuição Poisson · P(λ)
Poisson (1837) abordou a distribuição que leva seu nome considerando o limite de uma sequência de
distribuições binominais conforme Equação (65), no qual n tende ao infinito e p tende a zero enquanto
np permanece finito igual a λ.
Considere um pedágio onde passam em média λ veı́culos por minuto. A v.a. discreta X: ‘número de
veı́culos por minuto’ tem distribuição Poisson de parâmetro λ, denotada por X ∼ P(λ), onde λ > 0 e
x ∈ {0, 1, 2, . . .}. A distribuição de Poisson é dada por
e−λ λx
p(x) = P r(X = x) = (73)
x!
onde o número de Euler 49 tem valor aproximado e ≈ 2.71828182845905. A esperança e variância são
dadas por
E(X) = λ (74)
V (X) = λ (75)
Exemplo 3.28. (Poisson) Considere um pedágio onde passam em média λ = 2 veı́culos por minuto.
Assim,
X ∼ P(2),
e−2 2x
p(x) = P r(X = x) = ,
x!
E(X) = 2,
V (X) = 2.,
> barplot(dpois(0:10, 2), main = 'P(2)', names.arg = 0:10)
P(2)
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10
49 Na literatura também pode ser conhecido como número de Napier, constante neperiana, entre outras formas.
Page 60
DRAFT VERSION
3.3.6 Distribuição Hipergeométrica · H(N, R, n)
Suponha uma urna com N bolinhas das quais R são marcadas com um ×, de onde retira-se uma
amostra de n bolinhas. Seja X o número de bolinhas marcadas com × das n sorteadas. X tem distribuição
hipergeométrica, denotada por
X ∼ H(N, R, n)
onde N ∈ {1, 2, . . .}, R ∈ {1, 2, . . . , N }, n ∈ {1, 2, . . . , N }. Sua função (massa) de probabilidade é
definida por
R N −R

x n−x
p(x) = P r(X = x) = N
(76)
n
R
E(X) = n (77)
N
R N −RN −n
V (X) = n (78)
N N N −1
Exemplo 3.29. (Hipergeométrica) Suponha uma urna com N = 15 bolinhas, R = 10 marcadas com um
× de onde se retira uma amostra de n = 7 bolinhas.
> barplot(dhyper(0:7, 10, 5, 7), main = 'H(15,10,7)', names.arg = 0:7)
H(15,10,7)
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6 7
Page 61
DRAFT VERSION
3.4 Variáveis Aleatórias Contı́nuas
Uma variável aleatória é dita contı́nua quando assume qualquer valor em um intervalo ou coleção de
intervalos.
Exemplo 3.30. (Variável aleatória contı́nua) Do Exemplo 2.10 (pg. 12), Ω = {t ∈ R : 0 < t ≤ T }. Supo-
nha que esteja-se interessado em avaliar T : ‘idade de adultos entre 18 e 35 anos’. Pode-se representar
RT = {t ∈ R : 18 ≤ t ≤ 35}, sendo T uma variável aleatória contı́nua visto que |RT | = +∞.
,
Seja X uma variável aleatória contı́nua. Como não é possı́vel listar todos os elementos de RX , a
notação p(xi ) perde o sentido, visto que p(xi ) é zero para todo i. Assim, para tratar do cálculo de
probabilidades com variáveis aleatórias contı́nuas, será utilizado f (x) no lugar de p(xi ). Assim, para
cada ponto de RX associa-se uma (função) densidade (de probabilidade) (fdp) f (x), satisfazendo
f (x) ≥ 0, ∀ x (79)
Z
f (x) dx = 1 (80)
x
Z b
P r(a ≤ X ≤ b) = f (x) dx (81)
a
A fda, (função de) distribuição (acumulada) F de uma v.a. contı́nua, é definida como
Z x
F (x) = P r(X ≤ x) = f (t) dt (82)
−∞
Note que f (x) = F 0 (x), P r(X = x) = 0 e P r(X ≤ x) = P r(X < x).

Exemplo 3.31. (fda) Suponha a v.a. X: ‘altura de pessoas da PUCRS’ com fdp
46875 2
f (x) = − (x − 3.36x + 2.36), x ∈ [1.00, 2.36] .
19652
Por (82), a função distribuição acumulada de X é
F (x) = P r(X ≤ x)
46875 x 2
Z
= − (t − 3.36t + 2.36) dt
19652 1
x
46875 t3 3.36t2

= − − + 2.36t
19652 3 2 1
3 3
46875 x 2 1
= − − 1.68x + 2.36x − − 1.68 × 12 + 2.36 × 1
19652 3 3
3
46875 x 76
F (x) = − − 1.68x2 + 2.36x −
19652 3 75
,
Exemplo 3.32. (Probabilidade com v.a. contı́nua) Suponha novamente a v.a. do Exemplo 3.31. Aplicando
(81),
Z 1.72
46875
P r(1.45 ≤ X ≤ 1.72) = − (x2 −3.36x+2.36) dx = F (1.72)−F (1.45) ≈ 0.5441−0.2560 = 0.2881.
19652 1.45
Page 62
DRAFT VERSION
EXERCÍCIOS
1. Que propriedade está sendo verificada no código abaixo? O que ela indica?
> f <- function(x) (-46875/19652)*(x^2-3.36*x+2.36)

> integrate(f,1,2.36)
1 with absolute error < 1.1e-14
2. Escreva uma função em R que represente F (x) no Exemplo 3.31.
3.4.1 Esperança e Variância

Esperança
A esperança de uma variável aleatória contı́nua X é dada por

Z
E(X) = x · f (x) dx (83)
x
A esperança de uma função g(X) é dada por

Z
E(g(X)) = g(x) · f (x) dx (84)
x
Exemplo 3.33. (Esperança de v.a. contı́nuas X e X 2 ) Do Exemplo 3.32 pode-se calcular

Z 2.36
46875
E(X) = − x (x2 − 3.36x + 2.36) dx = 1.68.
19652 1.00
Este resultado era esperado dada a simetria da distribuição (parabólica). Note que (1.00+2.36)/2 = 1.68.
A esperança de g(X) = X 2 é dada por
Z 2.36
46875
E(X 2 ) = − x2 (x2 − 3.36x + 2.36) dx = 2.91488.
19652 1.00
Variância
A variância 50 de uma variável aleatória contı́nua X é dada por

2 2
V (X) = E([X − E(X)] ) = E(X 2 ) − [E(X)] .
O desvio padrão de uma variável aleatória discreta X é dado por

p
D(X) = V (X).
Exemplo 3.34. (Variância e desvio padrão de uma v.a. contı́nua) Do Exemplo 3.33 pode-se calcular
V (X) = 2.91488 − 1.682 = 0.09248
e
√
D(X) = 0.09248 ≈ 0.30411.
,
50 Esta é a definição de variância universal, descrita na Seção 2.4.2.
Page 63
DRAFT VERSION
3.4.2 Distribuição Uniforme · U(a, b)
A distribuição uniforme no intervalo [a, b] tem sua (função) densidade (de probabilidade) definida
por
1
f (x) = (85)
b−a
Função distribuição acumulada
x−a
F (x) = P r(X < x) = (86)
b−a
Esperança
a+b
E(X) = (87)
2
Variância
(b − a)2
V (X) = (88)
12
EXERCÍCIOS
3. Demonstre as Equações (86) a (88) considerando as identidades (89) e (90).
a2 − b2 = (a − b)(a + b) (89)
a3 − b3 = (a − b)(a2 + ab + b2 ) (90)
3.4.3 Distribuição Normal · N (µ, σ 2 )

A distribuição normal ou gaussiana 51 é uma distribuição probabilı́stica que modela variáveis ale-
atórias contı́nuas e aproximações de variáveis aleatórias discretas52 . É especificada ao definirem-se os
parâmetros média e variância. Não existe padrão na literatura quanto à notação, portanto neste material
será adotada a simbologia X ∼ N (µ, σ 2 ), indicando que a variável aleatória X possui (ou é aproximada
pela) distribuição normal com média µ e variância σ 2 .53 Sua função densidade é dada por
1 1 x−µ 2
f (x|µ, σ) = √ e− 2 ( σ ) . (91)
2πσ
A normal é uma curva simétrica em forma de sino centrada na média, conferindo alta probabilidade
de ocorrência de resultados em torno da média e baixa probabilidade nas caudas. A área sob a curva é
calculada a partir da Equação (91) e indica a probabilidade associada a certo intervalo de X. As áreas
são medidas em função de unidades de desvio padrão em relação à média, conforme Figura 3.3.
A distribuição normal padrão é um caso especial da distribuição normal, na qual a média é zero e a
variância é 1, indicado por Z ∼ N (0, 1). Esta distribuição é tabelada54 , e sua densidade é dada por
1 1 2
f (z|0, 1) = φ(z) = √ e− 2 z (92)
2π
Sua função distribuição (acumulada) é representada por
Z z
1 1 2
F (z|0, 1) = Φ(z) = P r(Z < z) = √ e− 2 t dt (93)
−∞ 2π
51 Em homenagem ao seu criador, o matemático e fı́sico alemão Carl Friedrich Gauss.
52 O Teorema Central do Limite é o resultado teórico que permite o uso da normal em diversos casos práticos, apresentado
na Seção 3.4.4. Para maiores detalhes sugere-se James (2010) e Feller (1968).
53 Note que serão indicadas sempre média e variância, e não média e desvio padrão. Assim, X ∼ N (14, 4) equivale a
X ∼ N (14, 22 ), e indica que a v.a. X tem média 14 e variância 4 (ou desvio padrão 2).
54 Página 132.
Page 64
DRAFT VERSION
68.3%
95.4%
99.7%
−3 −2 −1 0 1 2 3
Desvio padrão
Figura 3.3: Probabilidades em função do desvio padrão em relação à média
Exemplo 3.35. (Probabilidades em uma normal padrão) Suponha Z ∼ N (0, 1). Utilizando-se a tabela de
normal padrão da página 132, podem-se calcular algumas probabilidades relativas à Z, tais como
P r(Z < 1) = Φ(1) = P r(Z ≤ 1.00) ≈ 0.8413 = 84.13%,
P r(Z > 1) = P r(Z ≥ 1.00) = 1 − P r(Z ≤ 1.00) = 1 − 0.8413 ≈ 0.1587 = 15.87%,

P r(Z = 1.00) = 0,
P r(Z < 0.00) = Φ(0) = 0.5000 = 50%,
P r(−1.92 < Z < 0.33) = P r(Z < 0.33) − P r(Z < −1.92) = 0.6293 − 0.0274 ≈ 0.6019 = 60.19%.
> pnorm(1, mean = 0, sd = 1)
[1] 0.8413447
> 1-pnorm(1)
[1] 0.1586553
> pnorm(1, lower.tail = F)
[1] 0.1586553
> pnorm(0)
[1] 0.5
> pnorm(0.33)-pnorm(-1.92)
[1] 0.6018711
,
Estas probabilidades foram calculadas utilizando a tabela de normal padrão da página 132. Basta
procurar o quantil55 de interesse, por exemplo −1.92, na linha −1.9 coluna 2, onde encontra-se a proba-
bilidade associada 0.0274, i.e., a probabilidade de Z ser menor que −1.92.
Exemplo 3.36. (Quantis em uma normal padrão) Sabendo que Z ∼ N (0, 1), é possı́vel encontrar z
sabendo-se a probabilidade associada.
P r(Z < z) = 0.8413 ⇒ z ≈ 1.00,

55 Nome técnico para os valores de z apresentados nos Exemplos 3.35 e 3.36.
Page 65
DRAFT VERSION
P r(Z < z) = 0.1587 ⇒ z ≈ −1.00,
P r(Z < z) = 0.5000 ⇒ z = 0.00,
P r(Z < z) = 0.0274 ⇒ z ≈ −1.92,
P r(−z < Z < z) = 0.9500 ⇒ z ≈ 1.96.
> qnorm(0.8413)
[1] 0.9998151
> qnorm(0.1587)
[1] -0.9998151
> qnorm(.5)
[1] 0
> qnorm(0.0274)
[1] -1.920459
> qnorm(0.025)
[1] -1.959964
> qnorm(0.975)
[1] 1.959964
Padronização / Normalização
Para encontrar os valores de z do Exemplo 3.36, deve-se consultar a tabela de normal padrão de dentro
para fora, i.e., procurar o valor mais próximo da probabilidade fornecida (e.g. 0.0274) dentro da tabela
e seguir para as bordas, onde na linha estão os valores do inteiro (−1) e da primeira decimal (9), e na
coluna o valor da segunda decimal (2), resultando no quantil z = −1.92.
Uma boa notı́cia é que pode-se recorrer à tabela de normal padrão para calcular probabilidades em
uma normal com qualquer média ou variância. A única relação a ser utilizada é
x−µ
z= ⇔ x = µ + zσ (94)
σ
apresentada no exemplo a seguir.
Exemplo 3.37. (Probabilidades em uma normal qualquer) Suponha que a variável aleatória X: ‘altura
das pessoas da PUCRS’ tenha distribuição normal com média 1.68m e desvio padrão 0.12m. Assim,
X ∼ N (1.68, 0.12). Podem-se calcular algumas probabilidades, tais como

X −µ 1.80 − 1.68
P r(X < 1.80) = P r < = P r(Z < 1.00) ≈ 0.8413 = 84.13%,
σ 0.12

1.80 − 1.68
P r(X > 1.80) = 1 − P r Z < = 1 − P r(Z < 1.00) = 1 − 0.8413 ≈ 0.1587 = 15.87%,
0.12
P r(X = 1.68) = P r(Z = 0.00) = P r(Y = y) = P r(Ξ = ξ) = 0,

1.68 − 1.68
P r(X < 1.68) = P r Z < = P r(Z < 0.00) = 0.5000 = 50%,
0.12

1.45 − 1.68 1.72 − 1.68
P r(1.45 < X < 1.72) = P r <Z< = P r(Z < 0.33)−P r(Z < −1.92) ≈ 0.6029.
0.12 0.12
Page 66
DRAFT VERSION
> mu <- 1.68
> sigma <- 0.12
> pnorm(1.8, mean = mu, sd = sigma)
[1] 0.8413447
> 1-pnorm(1.8, mu, sigma)
[1] 0.1586553
> pnorm(1.8, mu, sigma, lower.tail = F)
[1] 0.1586553
> pnorm(1.68, mu, sigma)
[1] 0.5
> pnorm(0, mu, sigma)
[1] 7.793537e-45
> pnorm(1.72)-pnorm(1.45)
[1] 0.03081304
3.4.4 Teorema Central do Limite

O Teorema Central do Limite (TCL) é um dos principais resultados da Probabilidade. Ele mostra que,
sob certas condições razoavelmente alcançadas na prática, a soma ou média de uma sequência de variáveis
aleatórias independentes e identicamente distribuı́das (iid )56 têm distribuição aproximadamente normal.
Este resultado facilita a resolução de problemas, uma vez que a normal é tabulada em praticamente todos
os textos que envolvam Estatı́stica.
Teorema 3.2. (Teorema Central do Limite de Lindeberg-Lévy) Seja X1 , X2 , . . . , Xn uma sequência de
variáveis aleatórias iid com E(Xi ) = µ e V (Xi ) = σ 2 . Considerando S = X1 + X2 + . . . + Xn , M = S/n
e se n −→ ∞, então
S − nµ M −µ D
Z= √ = √ −→ N (0, 1). (95)
σ n σ/ n
a
A correção de continuidade ocorre quando soma-se 0.5 no numerador de (95). James (2010) sugere
o uso da expressão ‘Teorema Central do Limite’ no lugar de ‘Teorema do Limite Central’, pois central
é o teorema, não o limite. A origem da expressão é atribuı́da a Pólya, ao se referir a ‘der zentrale
Grenzwertsatz ’, i.e., o ‘central’ refere-se ao ‘teorema do limite’.
Exemplo 3.38. (Aproximação da binomial pela normal) Se considerarmos n = 420 lançamentos de uma
moeda com p = 0.5, temos uma B(420, 0.5). A probabilidade de obtermos até 200 caras pode ser aproxi-
mada pelo pelo TCL.

200 − 420 × 0.5
P r(X ≤ 200) ≈ P r Z < √ = Φ(−0.9759) ≈ 0.164557
420 × 0.5 × 0.5
Utilizando a correção de continuidade,

200 + 0.5 − 420 × 0.5
P r(X ≤ 200) ≈ P r Z < √ = Φ(−0.9271) ≈ 0.176936
420 × 0.5 × 0.5
56 Variáveis que apresentam mesma distribuição de probabilidade, inclusive com os mesmos parâmetros. Por exemplo,
imagine 12 lançamentos de uma moeda com p = 0.7 e 1 − p = 0.3. Cada lançamento é um ensaio de Bernoulli com
probabilidade de sucesso e fracasso iguais a 0.7 e 0.3, respectivamente.
Page 67
DRAFT VERSION
Com um computador é possı́vel calcular a probabilidade exata, perceba a proximidade dos resultados.

420 420 420
P r(X ≤ 200) = + + ... + 0.5420 = 0.1769429
0 1 200
> n <- 420

> p <- 0.5
> S <- 200
> mS <- n*p # 210
> sS <- sqrt(n*p*(1-p)) # 10.24695
> # Aproximaç~
ao da binomial pela normal SEM correç~
ao de continuidade
> (z <- (S-mS)/sS)
[1] -0.9759001
> pnorm(z)
[1] 0.164557
> # Aproximaç~
ao da binomial pela normal COM correç~
ao de continuidade
> (zc <- (S+0.5-mS)/sS)
[1] -0.9271051
> pnorm(zc)
[1] 0.176936
> # Probabilidade exata

> pbinom(S,n,p)
[1] 0.1769429
EXERCÍCIOS
4. Refaça o Exemplo 3.38 com p = 0.7.
5. Escreva uma função que apresente os resultados do Exemplo 3.38 em função dos parâmetros n, p e S.
Page 68
DRAFT VERSION
3.4.5 Distribuição Qui-quadrado · χ2 (ν)
A distribuição qui-quadrado, representada por χ2 é uma distribuição cuja obtenção foi motivada em
problemas envolvendo tabelas de frequência. Se X1 , X2 , . . . , Xν , com Xi ∼ N (0, 1) ∀ i ∈ {1, 2, . . . , ν},
então
Xν
Xi2 ∼ χ2ν (96)
i=1
onde ν representa o parâmetro dos graus de liberdade57 . A distribuição qui-quadrado é tabelada, exibindo
as probabilidades mais utilizadas na prática para diversos graus de liberdade. A Figura 3.4 apresenta os
nomogramas para a distribuição qui-quadrado sugeridos por Boyd (1965) e Smith (1972).
(a) Nomograma de Boyd (1965) (b) Nomograma de Smith (1972)
Figura 3.4: Nomogramas da distribuição χ2
57 Os graus de liberdade estão sendo tratados de forma discreta, mas podem ser utilizados de maneira contı́nua.
Page 69
DRAFT VERSION
3.4.6 Distribuição t (de Student) · t(ν)
t ou tν é a distribuição de probabilidades da estatı́stica
Z
T =p (97)
χ2 /ν
onde Z é uma normal padrão e χ2 é uma qui-quadrado com ν graus de liberdade. O parâmetro ν indica
o número de valores que podem variar no cálculo de uma estatı́stica.
Exemplo 3.39. (Graus de liberdade) Suponha uma disciplina em que haja três provas valendo entre 0 e
10 pontos, todas de mesmo peso. A condição de aprovação é que a média seja igual ou superior a 7,
i.e., P1 + P2 + P3 ≥ 21. Se um aluno tem P1 = 5 e P2 = 7, ele obrigatoriamente deve obter pelo menos
21 − (5 + 7) = 9 pontos na P3 para conseguir a aprovação. Este é um problema com 3 − 1 = 2 graus de
liberdade.
,
Momentinho Cultural 3.1. (t de Lüroth) A distribuição t foi obtida por dois estatı́sticos em momentos
diferentes, movidos por problemas distintos. Lüroth derivou a distribuição t em um trabalho de 1876,
conectando a teoria clássica de erros com um resultado bayesiano58 . Já ‘Student’ (pseudônimo de William
Gosset) encontrou uma relação equivalente à de Lüroth enquanto estudava estimativas para a média
populacional em 1908. Atribui-se o desconhecimento de Gosset ao fato de o primeiro trabalho ter sido
publicado em uma revista de Astronomia. Até hoje a distribuição é conhecida popularmente como ‘t de
Student’.
ˇ “(
Tabela t
A tabela t exibe as probabilidades mais utilizadas na prática (.10 = 10%, .05 = 5%, .025 = 2.5% e
.01 = 1%) para diversos graus de liberdade. À medida que ν → ∞, verifica-se que t(ν) converge para
N (0, 1).
(a) Exemplo de tabela t (b) Gráfico de t
Figura 3.5: Uma tabela t
Exemplo 3.40. (Usando a tabela t) Da Figura 3.5a, P r(T > 2.353) = 0.05 para ν = 3. Porém, quando é
necessário avaliar uma probabilidade para valores não tabelados, pode-se encontrar intervalos tais como
0.025 2.917) < 0.05 para ν = 3.
,
Nomogramas são estruturas gráficas que permitem rapidamente medir intervalos de probabilidades e
quantis da distribuição. Foram criados para fornecer resultados com precisão suficiente para decisões em
problemas aplicados. O princı́pio é bastante simples, bastando traçar uma linha conectando os valores
disponı́veis. Os demais valores ficam claros ao traçar a linha. Na Figura 3.6b há uma t com ν = 7 e
quantil t7 = 4, resultando em 0.1% 4) < 0.5% e P r(−4 < T < 4) = 99.5%. Experimente
resolver os exercı́cios deste livro através dos nomogramas, e encontre o que você melhor se adapta.
58 Pfanzagl and Sheynin (1996).
Page 70
DRAFT VERSION
(a) Nomograma de James-Levy (1956) (b) Nomograma de Stammberger (1967)
Figura 3.6: Nomogramas da distribuição t
3.4.7 Distribuição F (de Fisher-Snedecor) · F(ν1 , ν2 )

A distribuição F (de Fisher-Snedecor) é a distribuição da estatı́stica
χ21 /ν1
F = (98)
χ22 /ν2
onde χ21 é uma distribuição qui-quadrado com ν1 graus de liberdade e χ22 é uma distribuição qui-quadrado
com ν2 graus de liberdade. Está tabelada nas páginas 136 a 139.
3.4.8 Distribuição Exponencial · E(λ)

Considere novamente o pedágio descrito na Seção 3.3.6, onde passam em média λ veı́culos por minuto.
Pode-se inverter a leitura, colocando o tempo entre cada carro como a nova variável de interesse. Assim,
neste pedágio passa 1 carro a cada λ1 minutos. A variável aleatória contı́nua X: ‘tempo entre veı́culos’
tem distribuição exponencial de parâmetro λ, denotada por
X ∼ E(λ),
onde λ > 0 e x > 0. A função densidade exponencial é dada por
f (x) = λe−λx (99)
onde e é o número de Euler 59 de valor aproximado e ≈ 2.71828182845905. A função distribuição acumu-

lada é dada por
F (x) = P r(X ≤ x) = 1 − e−λx (100)
1
E(X) = = λ−1 (101)
λ
1
V (X) = 2 = λ−2 (102)
λ
59 Na literatura também pode ser conhecido como número de Napier, constante neperiana, entre outras formas.
Page 71
DRAFT VERSION
Exemplo 3.41. (Exponencial) Considere um pedágio onde passam em média λ = 2 veı́culos por minuto.
Assim,
X ∼ E(2),
f (x) = 2e−2x ,
1
E(X) = = 0.5,
2
1
V (X) = 2 = 0.25,
2
√
D(X) = 0.25 = 0.5.
,
EXERCÍCIOS EXTRAS
1. Considere o experimento aleatório “observar o gênero de uma ninhada de cachorros com 3 filhotes”. Descreva o
espaço amostral.
2. Uma Universidade tem 10 mil alunos, dos quais 4 mil são considerados esportistas. Temos, ainda, que 500 alunos são
do curso de biologia diurno, 700 são da biologia noturno, 100 são esportistas e da biologia diurno, 200 são esportistas
e da biologia noturno. Um aluno é escolhido ao acaso. Calcule a probabilidade de este aluno:
a) Ser esportista.
b) Ser esportista e aluno da biologia noturno.
c) Não ser da biologia.
d) Ser esportista ou aluno da biologia.
e) Não ser esportista nem aluno da biologia.
3. Foi feito um levantamento e constatou-se que das um milhão e quatrocentas mil pessoas de Porto Alegre, 150 mil
leem Zero Hora (ZH), 120 mil leem Correio do Povo (CP) e 20 mil leem Zero Hora e Correio do Povo.
a) Se escolhermos uma pessoa ao acaso, qual a probabilidade de ela ler Zero Hora?
b) Se escolhermos uma pessoa ao acaso, qual a probabilidade de ela ler Zero Hora ou Correio do Povo?
c) Qual a probabilidade de uma pessoa não ler qualquer destes jornais?
4. Uma floricultura possui 120 arranjos de flores sempre em exposição. Destes arranjos, 30 possuem lı́rios, 50 possuem
rosas, e 40 possuem gérberas. 8 arranjos de flores são feitos com lı́rios e rosas, 10 têm lı́rios e gérberas, 15 gérberas e
rosas. 3 arranjos possuem os três tipos de flores. Você não sabia o que comprar de aniversário para sua mãe, então
decidiu entrar na floricultura e escolher ao acaso qualquer um destes arranjos.
a) Qual a probabilidade de você escolher um arranjo apenas com lı́rios?

b) Qual a probabilidade de o arranjo escolhido ter apenas um tipo de flor?
c) Qual a probabilidade deste arranjo possuir exatamente dois tipos de flores?
Dica: monte o Diagrama de Venn da maior para a menor intersecção (de dentro para fora).
5. Foi feito um levantamento sobre os usuários de cartão de crédito no Brasil, e concluiu-se que 55% utiliza a bandeira
Visa, 30% utiliza a MasterCard e 20% utiliza Visa e MasterCard.
a) Qual a probabilidade de uma pessoa utilizar Visa ou MasterCard?

b) Qual a probabilidade de uma pessoa não utilizar nenhum desses cartões?
6. A tabela a seguir apresenta a informações de alunos de uma universidade quanto às variáveis perı́odo, sexo, e opinião
sobre reforma agrária.
Perı́odo Sexo A favor da reforma Contra a reforma Sem opinião

Diurno Feminino 2 8 2
Diurno Masculino 8 9 8
Noturno Feminino 4 8 2
Noturno Masculino 12 10 1
Determine a probabilidade de escolhermos:
a) Uma pessoa do sexo masculino.

b) Uma pessoa do sexo masculino e sem opinião sobre a reforma agrária.
c) Uma mulher contra a reforma agrária.
d) Um estudante do perı́odo noturno que seja a favor da reforma agrária.
Page 72
DRAFT VERSION
Comédia Romance Policial Total
Homens 136 2 248 386
Mulheres 102 195 62 359
Total 238 197 310 745
e) Uma mulher sem opinião sobre a reforma agrária.
7. As preferências de homens e mulheres por estilo de filme alugados estão apresentadas na tabela a seguir.
Calcule a probabilidade de:
a) Uma mulher alugar um filme policial.

b) O filme alugado ser comédia.
c) Um homem alugar um romance.
d) O filme ser policial, dado que foi alugado por um homem.
e) O filme ter sido alugado por um homem, dado que é policial.
8. “Please, die Ana (. . . )/And you’re my obsession/I love you to the bones” escreve Daniel Johns, vocalista da banda
australiana Silverchair, sobre sua batalha contra anorexia nervosa. Anorexia nervosa é uma disfunção alimentar
caracterizada por uma dieta hipocalórica e estresse fı́sico. Estima-se que 1% (0.01) da população mundial apresente
o quadro de anorexia (A), 5% (0.05) apresente o quadro de bulimia (B) – outro tipo comum de disfunção alimentar
– e 0.5% (0.005) de anorexia e bulimia (A ∩ B).
a) Qual a probabilidade de uma pessoa apresentar anorexia ou bulimia?

b) Qual a probabilidade de uma pessoa não apresentar nenhum destes quadros?
c) Em uma população de 1000 pessoas, em quantas delas espera-se observar apenas o quadro de bulimia?
9. A doença de Alzheimer é uma doença degenerativa, e foi descrita pela primeira vez em 1906 pelo psiquiatra alemão
Alois Alzeheimer. Abaixo estão dados60 a respeito do sexo e idade de pacientes diagnosticados com esta severa
doença no estado do Rio Grande do Sul.
Idade M F Total
Até 69 anos 6000 9000 15000
De 70 a 74 anos 16800 25200 42000
De 75 a 79 anos 25200 37800 63000
De 80 a 84 anos 27600 41400 69000
De 85 a 89 anos 24000 56000 80000
Acima de 90 anos 20700 48300 69000
Total 120300 217700 338000
Se uma pessoa é diagnosticada com Alzheimer no Rio Grande do Sul,
a) Qual a probabilidade de ser do sexo feminino?

b) Qual a probabilidade de ter menos de 69 anos?
c) Qual a probabilidade de ter entre 75 e 84 anos e ser do sexo masculino?
d) Sabendo que no Rio Grande do Sul há em torno de 10 milhões de pessoas, qual a probabilidade aproximada de
escolhermos uma pessoa com Alzheimer ao acaso que tenha mais de 80 anos do sexo masculino ou uma pessoa
entre 75 e 89 anos do sexo feminino?
10. Investidores do sexo masculino e feminino foram entrevistados quanto ao tipo dos seus investimentos: poupança,
bolsa de valores e mercado imobiliário. Os dados desta entrevista estão na tabela abaixo.
Investimento M F
Poupança (PO) 350 370
Bolsa de valores (BV) 140 60
Mercado imobiliário (MI) 70 10
Se sortearmos uma pessoa aleatoriamente,
a) Qual a probabilidade de ser um homem?

b) Qual a probabilidade de ser um investidor de poupança?
c) Qual a probabilidade de ser do sexo feminino e investir na bolsa de valores?
d) Qual a probabilidade ser um investidor da bolsa de valores ou do mercado imobiliário?
11. Alunos da universidade A e B foram entrevistados a respeito de suas inclinações a respeito de três correntes de
pensamento que influenciaram a psicologia moderna. Os dados desta entrevista estão na tabela abaixo.
60 Adaptado de Bermejo-Pareja F, Benito-León J, Vega S, Medrano MJ, Román GC (Janeiro de 2008).
Page 73
DRAFT VERSION
Corrente de pensamento A B Total
Psicodinâmica (P) 35 28 63
Comportamentista (C) 12 9 21
Humanista (H) 8 8 16
Total 55 45 100
Determine a probabilidade de escolhermos:
a) Uma pessoa da universidade A.

b) Uma pessoa da universidade A dado ser adepta da corrente de pensamento da Psicodinâmica.
c) Uma pessoa com inclinação para a teoria Psicodinâmica.
d) Uma pessoa da universidade B com inclinação para a teoria Comportamentista.
e) Uma pessoa com inclinação para as teorias Comportamentista ou Humanista.
12. Uma fábrica possui três máquinas, A B e C. A máquina A produz 1% de itens defeituosos, a máquina B 2% e C
3%. Se um item defeituoso é encontrado em um processo em que a máquina A é responsável por 50% da produção,
seguida de B com 30% e C com 20%,
a) Qual a probabilidade de que o item tenha sido produzido pela máquina A?

b) Repita o item anterior para as máquinas B e C.
13. Considere o lançamento de três moedas equilibradas.
a) Descreva o espaço amostral Ω.

b) Determine o contradomı́nio RX da variável aleatória X: ‘número de caras’.
c) Obtenha p(0), p(1), p(2) e p(3).
d) Encontre E(X), E(X 2 ), V (X) e D(X).
14. Refaça o Exercı́cio 13 com P r({C}) = 0.7.
15. Refaça o Exercı́cio 13 com P r({C}) = p. Qual a distribuição de X?
16. Sabe-se que uma máquina produz itens independentemente, dos quais 1% são defeituosos. Se em um lote são
fabricados 20 itens, responda:
a) Qual a distribuição da variável X: ‘número de itens defeituosos’ ?

b) Qual o valor esperado do número de itens defeituosos neste lote?
c) Qual o desvio padrão do número de itens defeituosos neste lote?
d) Qual a probabilidade de que sejam produzidos 6 itens defeituosos?
e) Qual a probabilidade de haver pelo menos um item defeituoso neste lote?
17. Por uma porteira passam em média 4 carretas61 por dia.
a) Qual a distribuição da variável X: ‘número de carretas por dia’ ?

b) Obtenha E(X), V (X) e D(X).
c) Qual a probabilidade de passar ao menos uma carreta neste intervalo?
18. Seja uma v.a. contı́nua X com fdp f (x) = c(x3 − 3.36x + 2.36), x ∈ [1, 2] .
a) Encontre c. R
b) Mostre que 12 f (x)d(x) = 1.
c) Obtenha F (x) = P r(X < x).
d) Calcule P r(1.4 < X < 1.7).
e) Encontre E(X), E(X 2 ), V (X) e D(X).
19. Seja uma v.a. contı́nua X com fdp f (x) = c [ln(x) − 2x + 10], x ∈ ]0, 1] .
a) Encontre c.
b) Obtenha F (x) = P r(X < x).
c) Calcule P r(X > 0.2).
d) Encontre E(X), E(X 2 ), V (X) e D(X).
R
Dica 1: x f (x)d(x) = 1.
R
Dica 2: ln(x)d(x) = xln(x) − x.
xk+1 xk+1
xk ln(x)d(x) =
R
Dica 3: ln(x) − .
k+1 (k + 1)2
20. Seja X uma v.a. contı́nua tal que X ∼ χ212 . A partir da tabela de qui-quadrado da página 134, obtenha:
a) P r(X > 4.40).

b) P r(X < 4.40).
c) A melhor aproximação ou intervalo para P r(X > 5).
61 https://www.youtube.com/watch?v=6I7jJ3IPPzo
Page 74
DRAFT VERSION
d) A melhor aproximação ou intervalo para P r(X < 10).
21. Seja T uma v.a. contı́nua tal que T ∼ t5 . A partir da Tabela t da página 101, obtenha:
a) P r(T > 0.727).

b) P r(T < 4.032).
c) t, se P r(T > t) = 0.025.
d) A melhor aproximação ou intervalo para P r(T > 5).
e) O que você percebe quando ν → ∞?
22. Seja F uma v.a. contı́nua tal que F ∼ F (10, 6). A partir das Tabelas das páginas 136 a 139, obtenha:
a) P r(F > 2.461).

b) f , se P r(F < f ) = 0.975.
23. Considere os dados do Exercı́cio 17 e a variável Y : ‘Tempo entre as carretas que cruzam a porteira’.
a) Qual a distribuição de Y ?
b) Determine f (y) e F (y).
c) Calcule E(Y ) e D(Y ). Interprete.
d) Calcule P r(Y < 1). Interprete.
24. Suponha que a idade de pessoas depressivas que cometeram suicı́dio (X) siga uma distribuição normal de média 22
anos e desvio padrão de 3 anos, anotado por X ∼ N (22, 3).
a) Qual a probabilidade de uma pessoa depressiva de mais de 30 anos cometer suicı́dio?

b) Qual a probabilidade de uma pessoa depressiva entre 20 e 30 anos cometer suicı́dio?
c) Qual a probabilidade de uma pessoa depressiva menor de idade cometer suicı́dio?
d) Se P r(X < x) = 0.1038, qual o valor de x?
e) Interprete o valor de x no contexto do problema.
25. A idade de pessoas que pedem financiamentos de automóveis (X) segue uma distribuição normal com média 27 anos
e desvio padrão 4 anos, denotada por X ∼ N (27, 4).
a) Em um grupo de pessoas que pedem financiamento, qual a probabilidade de uma pessoa ter mais de 33 anos?
b) Neste mesmo grupo, qual a probabilidade de uma pessoa ter idade entre 32 e 40 anos?
c) Se P r(X < x) = 0.6217, qual o valor de x?
d) Interprete o valor de x no contexto do problema.
26. A duração da carga de uma máquina de fotocópias pode ser modelada como normal de média 15 000 e desvio padrão
2 000, anotada por X ∼ N (15000, 2000). Qual a probabilidade de a carga durar:
a) Menos de 16 000 cópias?

b) Mais de 13 000 cópias?
c) Entre 12 000 e 14 000 cópias?
27. As geladeiras produzidas por uma fábrica possuem um determinado tempo de vida até o primeiro estrago. Estudos
apontam que este tempo segue distribuição normal com média 1.45 ano e desvio padrão igual a 0.15 ano.
a) A fábrica oferece garantia de 1 ano. Qual a probabilidade de uma geladeira estragar neste perı́odo?
b) Qual a probabilidade de uma geladeira estragar fora da garantia?
c) Qual a probabilidade de uma geladeira falhar entre o primeiro e o segundo ano de uso?
d) Qual a probabilidade de uma geladeira durar mais de 2 anos sem apresentar falhas?
e) Se a fábrica produziu 80 mil geladeiras, quantas pessoas devem acionar a garantia?
28. O atendimento dos caixas de um determinado banco fica sobrecarregado entre o primeiro e o décimo dia do mês.
Neste perı́odo, o tempo de espera do caixa convencional (X) tem distribuição normal com média de 23 minutos e
desvio padrão de 4 minutos. Para o caixa prioritário (Y ), este tempo distribui-se com média de 15 minutos e desvio
padrão igual a 3.
a) No caixa convencional, qual a probabilidade de você esperar mais de 20 minutos para ser atendido? E no caixa
prioritário?
b) Você leva em torno de meia hora para ler o caderno de esportes do jornal. Qual a probabilidade de você terminar
a leitura enquanto espera na fila do caixa? Faça as contas para ambos os caixas e compare.
c) Uma vovó de 90 anos chegou no banco. Qual a probabilidade de ela esperar entre 20 e 25 minutos para ser
atendida?
d) Há uma grande placa indicando que o tempo de espera máximo é de 12 minutos para os clientes preferenciais e
18 minutos para os demais clientes. Com que frequência as pessoas esperam mais do que este tempo para serem
atendidas?
e) Você foi chamado para corrigir este tempo máximo. A orientação é que apenas 10% dos clientes sejam atendidos
em um tempo maior que o indicado. Qual deveria ser o novo tempo para o caixa preferencial? E para o caixa
convencional?
29. Em um concurso estão inscritas 1000 pessoas para 150 vagas. As notas das provas seguiram distribuição normal
com média 6.2 e desvio padrão igual a 1, anotado por X ∼ N (6.2, 1).
Page 75
DRAFT VERSION
a) Selecionando ao acaso um candidato, qual a probabilidade de ele ter tirado menos que 5 na prova?
b) Qual a probabilidade de um candidato ter notas entre 5 e 6?
c) Aproximadamente quantas pessoas tiraram notas entre 5 e 6?
d) Qual a nota mı́nima para obter a aprovação?
30. O lucro lı́quido de uma loja (X) segue uma distribuição normal com média 15 000 reais e desvio padrão de 5 000
reais, denotado por X ∼ N (15000, 5000).
a) Qual a probabilidade de o lucro lı́quido ser maior que 20 mil reais?

b) Qual a probabilidade de o lucro lı́quido estar entre 13 mil e 22 mil reais?
c) Qual a probabilidade de a loja dar prejuı́zo, i.e., o lucro lı́quido ficar abaixo de zero?
Questões de Concursos
31. (CESGRANRIO - 2010 - Petrobrás/Administrador) Em um posto de combustı́veis entram, por hora, cerca de 300
clientes. Destes, 210 vão colocar combustı́vel, 130 vão completar o óleo lubrificante e 120 vão calibrar os pneus.
Sabe-se, ainda, que 70 colocam combustı́vel e completam o óleo; 80 colocam combustı́vel e calibram os pneus e 50
colocam combustı́vel, completam o óleo e calibram os pneus. Considerando que os 300 clientes entram no posto
de combustı́veis para executar uma ou mais das atividades acima mencionadas, qual a probabilidade de um cliente
entrar no posto para completar o óleo e calibrar os pneus?
a) 0.10
b) 0.20
c) 0.25
d) 0.40
e) 0.45
32. (FMP-RS 2011 - TCE-RS - Auditor Público Externo/Administração) Dois professores corrigem a prova de redação
de um concurso público. O professor A corrige o dobro de provas do que o professor B. Sabe-se que 60% das provas
corrigidas pelo professor A tiveram nota superior a 7, enquanto apenas 20% das provas corrigidas pelo professor B
tiveram nota superior a 7. Se um candidato teve conceito não superior a 7, a probabilidade de sua prova ter sido
corrigida pelo professor A é:
a) 0.85571
b) 0.75000
c) 0.33333
d) 0.50000
e) 0.25000
33. (FEPESE - 2010 - SEFAZ-SC - Auditor Fiscal da Receita Estadual) Sejam dois eventos, A e B, mutuamente
exclusivos. A probabilidade de ocorrência de A vale 0.2. A probabilidade de ocorrência de B vale 0.4. Quanto vale
a probabilidade de ocorrência do evento A união B?
a) 0.08
b) 0.40
c) 0.48
d) 0.52
e) 0.60
Page 76
DRAFT VERSION
“ The Statistician is the Wizard

who makes ‘scientific’ statements about invisible states and quantities.
However, contrary to the real wishes (or witches),
he attaches uncertainties to his statements.”
∼ Carlos A. de Bragança Pereira, 1990
4 Inferência Estatı́stica Clássica

iência é uma corrente filosófica que estuda universos através do Método Cientı́fico (M C 2 ).
C Tal método norteia a criação de hipóteses e etapas replicáveis para obter informações 62
e ordenar
tais hipóteses. Cientista é, portanto, qualquer indivı́duo que formule hipóteses e descreva seu método de
captura de informação de forma mı́nima, possibilitando a validação por qualquer interessado. Quanto
mais simples for a metodologia, maior será o número esperado de interessados validando a teoria por si
próprios.
Inferência Estatı́stica é um ramo importante do Método Cientı́fico, que embasa a tomada de decisão.
Pelo paradigma clássico, ampliam-se as conclusões para conjuntos maiores a partir de conjuntos menores.
Conjuntos maiores são usualmente denominados universos, e conjuntos menores são amostras. Em geral
supõe-se o interese em algum estado ou quantidade universal desconhecido, geralmente denominado θ.
Para reduzir a ignorância sobre θ, observa-se uma amostra de tamanho n ∈ N.
Exemplo 4.1. (Tornando θ visı́vel) Você pega uma moeda pela primeira vez e se pergunta: “Esta moeda
é equilibrada?” Isto ocorre quando a probabilidade de face cara é de 50%. Simbolicamente, θ = 0.5.
,
Exemplo 4.2. (Observando amostras) Para atualizar a opinião sobre θ, a probabilidade de face cara do
Exemplo 4.1, podem-se observar amostras. Se lanço a moeda n = 25 vezes sob certas condições de
estabilidade e observo m = 11 caras,
11
θ̂ = = 0.44
25
A partir deste resultado você apostaria que a moeda é equilabrada (θ = 0.5) ou não equilibrada (θ 6= 0.5)?
Qual a distância máxima você admite de θ̂ para 0.5, de forma a aceitar θ = 0.5? Você altera sua decisão
para n = 100?
,
As questões colocadas nos Exemplos 4.1 e 4.2 são estudadas por duas grandes escolas de Inferência
Estatı́stica: Clássica e Bayesiana. Ambas possuem metodologias para captura de informação a respeito
de θ, mas divergem sobre alguns princı́pios. Dentre as principais divergências está o princı́pio da veros-
similhança, violado por clássicos, defendido pelos bayesianos. Tal princı́pio afirma que se dois decisores
possuem o mesmo grau de conhecimento e a mesma informação sobre θ, ambos devem decidir exatamente
da mesma forma a respeito de θ.
Exemplo 4.3. (Princı́pio da Verossimilhança 1) Considere uma sucessão de lançamentos de uma moeda,
independentes e condicionados por θ, a probabilidade de sair ‘cara’. Suponha que seja obtido o resultado
x = {H, T, H, H, T, T, H, T, T, T },
63
onde H: ‘cara’ e T : ‘coroa’ . Este resultado poderia ser obtido de diversos processos experimentais ou
regras de parada, como
62 Segundo Gosh (1988), informação é aquilo que muda a sua opinião sobre θ. Nas palavras do professor Basu, página
314: “Information is what information does. It changes opinion. Only a Bayesian knows how to characterize his/her
prior opinion on θPas a prior distribution q(θ). This prior opinion is changed, by the data x, to the posterior opinion
q ∗ (θ) = q(θ)L(θ)/ q(θ)L(θ).”
63 Do Inglês Head (cara) e Tail (coroa).
Page 77
DRAFT VERSION
· realizar 10 lançamentos, fixados a priori
· lançar a moeda até aparecerem 6 ‘coroas’
· lançar a moeda até aparecerem 3 ‘coroas’ consecutivas
· lançar a moeda até o jogador ficar saturado, tendo a saturação ocorrido no 10º lançamento
6
Em qualquer caso a (função de) verossimilhança é proporcional a θ4 (1 − θ) , i.e., a amostra informa
quatro sucessos (caras) e seis fracassos (coroas). Assim, adotando-se o princı́pio da verossimilhança, toda
a informação que x pode fornecer sobre θ encontra-se nesta expressão. Saber qual dos quatro processos
experimentais foi utilizado (cada um com um espaço amostral diferente) ou saber qual foi a regra de
parada adotada nada tem a acrescentar. Note que a possibilidade de o experimentador parar por seu
arbı́trio ao considerar o resultado x satisfatório, em nada altera a opinião sobre θ.
,
Apesar de mais ampla e intuitiva, a Inferência Bayesiana não se aplica de forma tão imediata devido
a limitações de software e pela necessidade de operações matemáticas mais sofisticadas como otimização
e integração de funções. Assim, será feito uso de métodos da HInferência ClássicaI, largamente aplicados.
Para maiores informações sobre métodos bayesianos, vide Paulino et al. (2018), Gelman et al. (2003) e
DeGroot and Schervish (2002). Para uma visão mais teórica, sugere-se de Finetti (1974).
EXERCÍCIOS
1. Realize o experimento do Exemplo 4.2 e estime θ.
4.1 Universo e Amostra

Universo ou população é o conjunto de todas as entidades (pessoas, animais, objetos) portadoras das
caracterı́sticas de interesse, mas raramente observado em sua plenitude. Amostra é um subconjunto do
universo, obtido a partir de algum método de seleção64 . As medidas avaliadas nos universos são parâ-
metros, simbolizados por letras gregas. As medidas avaliadas na amostra são estatı́sticas, simbolizadas
por letras do nosso alfabeto ou pelo parâmetro correspondente com o sı́mbolo ˆ (chapéu).
Média Variância Desvio Proporção Correlação Coeficiente

Padrão
√ (Percentual) Angular
θ Parâmetro (Universo) µ σ2 σ = σ√2 π ρ β1
θ̂ Estatı́stica (Amostra) x̄ = µ̂ s2 = σ̂ 2 s = σ̂ = s2 p = π̂ r = ρ̂ β̂1
Tabela 4.1: Alguns parâmetros e estatı́sticas
4.1.1 N en
N usualmente expressa o tamanho do universo em estudo, podendo ser considerado infinito. n é a
representação usual do tamanho da amostra. Na prática usualmente observam-se tamanhos de amostra
muito inferiores aos dos universos, simbolizado por n << N .
Exemplo 4.4. (n e N ) Se for realizada uma pesquisa com o intuito de avaliar o percentual de alunos
que apreciam música clássica, pode-se dizer que serão entrevistados n de um total de N alunos, onde
n << N . Como exercı́cio, releia a frase anterior trocando n por 50 e N por 30 mil.
,
64 Seção 4.2.
Page 78
DRAFT VERSION
Figura 4.1: Relação entre universo e amostra
4.2 Amostragem
Amostragem é o processo de obtenção de uma amostra. Inicia com o plano amostral, uma avaliação
que leva em conta as medidas a serem avaliadas e os recursos disponı́veis. Da mesma forma que os
laboratórios retiram amostras de sangue para exames de saúde, cozinheiros experimentam parte da
comida para provar os temperos, fábricas realizam testes destrutivos em parte da sua produção para
avaliar a qualidade do que está sendo produzido e pessoas se informam sobre temas relevantes (ou
relvantes) em suas vidas.
Os métodos de seleção podem ser classificados conforme a Tabela 4.2. Procedimentos probabilı́sticos
são em geral mais bem aceitos academicamente, ainda que na prática nem sempre possam ser execu-
tados. Quando isso ocorre, optam-se por processos não probabilı́sticos. Existem diversos métodos de
amostragem, sendo os principais brevemente descritos nas Seções 4.2.3 a 4.2.7.
Procedimento de Seleção
Critério
probabilı́stico não probabilı́stico
objetivo amostras probabilı́sticas amostras criteriosas
subjetivo amostras quase-aleatórias amostras intencionais
Tabela 4.2: Procedimentos amostrais segundo Bolfarine et al. (2005)
4.2.1 Conceitos
A seguir estão apresentados conceitos fundamentais da amostragem, seguindo a estrutura de Bolfarine
et al. (2005)65 . Para maiores detalhes veja filipezabala.com/ei.
Unidade Elementar
A unidade elementar, unidade populacional ou simplesmente elemento é a entidade portadora das

informações que pretende-se coletar. Pode ser um objeto, animal ou pessoa. Em certos casos existe mais
de uma maneira de definir a unidade elementar, onde se faz necessário o entendimento dos especialistas
envolvidos. A unidade elementar é uma das definições mais importantes do campo cientı́fico, pois é base
de toda a construção das hipóteses de pesquisa.
Exemplo 4.5. (Pesquisa eleitoral I) Em uma pesquisa eleitoral, classifica-se o eleitor como unidade ele-
mentar. Essa foi fácil.
,
Exemplo 4.6. (Quiz I) Em uma pesquisa com lı́quidos, o que pode ser a unidade elementar?
O
66
Exemplo 4.7. (Quiz II) Defina ‘Indústria do dano moral’ e identifique as unidades elementares envol-
vidas na definição proposta.
O
Unidade Amostral
65 Pr^
emio Jabuti 2006.
66 Püschel (2010) e Meyerhof Salama (2011).
Page 79
DRAFT VERSION
A unidade amostral é uma composição de uma ou mais unidades elementares. É também uma
definição bastante importante, pois é preciso diferenciá-la da unidade elementar para proceder com a
definição e teste das hipóteses de pesquisa.
Exemplo 4.8. (Pesquisa eleitoral II) Em uma pesquisa eleitoral na rua, o eleitor é também unidade
amostral. Caso as entrevistas sejam feitas de casa em casa, o domicı́lio passa a ser unidade amostral,
i.e., um conjunto de unidades elementares (eleitores).
,
Universo U
Universo ou população é o conjunto que reúne toda a informação disponı́vel sobre θ. Usualmente
possui tamanho N elevado, até mesmo infinito, mas em alguns casos pode ser relativamente pequeno.
Faz parte das definições fundamentais do Método Cientı́fico, pois formaliza o escopo das hipóteses de
pesquisa, a captura de informações e as conclusões sobre θ. É denotado por
U = {1, 2, . . . , N }.
Exemplo 4.9. (Pesquisa eleitoral III) EEm 2018 o universo de eleitores do municı́pio de Porto Alegre
compreendia 1,100,163 eleitores67 , i.e., N = 1100103. Formalmente
U = {1, 2, . . . , 1 100 163}.
Sistema de referências
Em relação às informações de um estudo, deve-se fazer inicialmente uma avaliação das bases de dados
já disponı́veis para então proceder com a avaliação da viabilidade de um levantamento de dados mais
especı́fico. Este levantamento envolve se montar um plano amostral, contratar, treinar e manter pessoas
para a coleta, criar os protocolos de resposta bem como gerar e analisar os bancos de dados. Caso decida-
se realizar tal levantamento, serão necessárias listas relacionando as unidades populacionais e amostrais.
Na falta de tais listas, utilizam-se sistemas de referências, que são fontes que descrevem o universo a ser
investigado. Podem ser informações razoavelmente atualizadas, como mapas, censos ou listas reunidas.
4.2.2 Cálculo do tamanho da amostra

O cálculo do tamanho de amostra é baseado em uma série de premissas assumidas pelo pesquisador.
Os valores sugeridos pelos diversos métodos de cálculo de tamanho de amostra devem ser considerados
apenas como uma referência, dada a arbitrariedade das medidas utilizadas em sua obtenção. Tempo
e custo são dois limitantes que devem ser considerados a priori, podendo se sobrepor aos cálculos de
tamanho de amostra.
Exemplo 4.10. (Tamanho da amostra aproximado) Em uma pesquisa eleitoral deseja-se calcular o tama-
nho de amostra aproximado para que a margem de erro seja de ε = 2% com confiança de 1 − α = 95%.
Sabe-se da Equação (106) da página 85 que
r
p(1 − p)
ε=z (103)
n
Isolando n temos
z 2 p(1 − p)
n= (104)
ε2
Sabe-se que z = Φ(0.975) = 1.96 ≈ 2, e que p(1 − p) atinge seu máximo quando p = 12 . Assim,
1
22 × 2 × (1 − 12 ) 1
n≈ = 2 (105)
ε2 ε
67 Fonte: http://www.tse.jus.br/eleicoes/estatisticas/estatisticas-eleitorais
Page 80
DRAFT VERSION
Logo, um IC para a proporção com α = 5% para uma margem de erro de ε = 2% pode ser calculado
com um tamanho de amostra de aproximadamente
1
n≈ = 2500
0.022
> qnorm(0.975)
[1] 1.959964
> n <- function(e) {1/e^2} # Equaç~

ao (90)
> n(0.02)
[1] 2500
EXERCÍCIOS
2. Considerando o Exemplo 4.10, calcule:
a) O tamanho da amostra para uma margem de erro de 1%.

b) O tamanho da amostra para uma margem de erro de 1% e p = 0.65.
c) O tamanho da amostra para uma margem de erro de 1 % e 2%, com confiança de 1 − α = 90%.
d) Escreva uma função que generalize o problema para qualquer nı́vel de confiança, qualquer margem de erro e
qualquer valor de p. Verifique nos itens anteriores.
4.2.3 Amostragem Aleatória Simples (AAS)

Amostragem Aleatória Simples (AAS) é o método mais básico de seleção de amostras, sendo referência
para todos os demais planos amostrais. A partir de uma lista completa da população seleciona-se cada
unidade amostral com igual probabilidade, de tal forma que a cada sorteio os elementos tenham a mesma
chance de serem escolhidos.
Caso a unidade sorteada seja retirada da população e seja realizado um novo sorteio, é dito que
procedeu-se com uma AAS restrita ou sem reposição, indicado por AASs.
Exemplo 4.11. (AASs) De uma urna com x bolas brancas e y bolas pretas sorteia-se uma ao acaso, com
probabilidade 1/(x + y). A bolinha sorteada é retirada da urna e realiza-se um novo sorteio, agora com
probabilidade 1/(x + y − 1). Este é um processo de AAS sem reposição. Faça a árvore de decisão para
três etapas de sorteio com x = 5 e y = 4.
,
Exemplo 4.12. (Mega-Sena da Caixa Econômica Federal) No R pode-se sortear uma amostra sem repo-
sição para tentar a sorte no jogo da Caixa Econômica Federal.
> sort(sample(1:60, size = 6, replace = F)) # Apostando na Mega-Sena da CEF
[1] 5 20 23 28 38 51
> set.seed(1); sort(sample(1:60, size = 6, replace = F)) # Semente pseudo-aleatória fixa
[1] 1 4 23 34 39 57
,
Caso a unidade sorteada tenha a chance de participar novamente da amostra, o procedimento é cha-
mado AAS irrestrita ou com reposição, indicado por AASc. Note que sortear n bolinhas simultaneamente
equivale a fazer n retiradas com reposição.
Page 81
DRAFT VERSION
Exemplo 4.13. (AASc) De uma urna com x bolas brancas e y bolas pretas sorteia-se uma ao acaso, com
probabilidade 1/(x + y). A bolinha sorteada é recolocada na urna e realiza-se um novo sorteio, novamente
com probabilidade 1/(x + y). Este é um processo de AAS com reposição. Se forem necessárias três
bolinhas, é equivalente realizar este procedimento três vezes ou retirar n = 3 bolinhas de uma só vez.
Faça x = 5 e y = 4. ,
Exemplo 4.14. (Urna sem reposição) É esquisito repor a bolinha observada, mas facilita uma barbaridade
para calcular as probabilidades de sorteio das bolinhas X e Y .
> x <- 5; y <-4

> rbinom(1,1,x/(x+y)) # Pr(X=1) = 5/9, Pr(X=0) = 4/9. Pr(Y=y)?
[1] 0
4.2.4 Amostragem Estratificada (AE)

Um estrato é um subconjunto da população onde controlam-se caracterı́sticas relevantes no estudo,
como sexo, idade e escolaridade. Possui similaridade intra grupo e distinção entre grupos. Este procedi-
mento torna os estratos homogêneos em relação às caracterı́sticas controladas. Na amostragem estratifi-
cada a população é dividida em k estratos e aplica-se a AAS para selecionar uma amostra de tamanho
ni , i ∈ {1, 2, . . . , k} de cada estrato.
Exemplo 4.15. (Amostragem estratificada) Suponha que uma grife esteja interessada em abrir uma filial
dentro da PUCRS. É interessante para os investidores avaliarem “o vestuário dos frequentadores da
PUCRS”. Assim, os prédios poderiam ser considerados estratos em relação aos estilos de vestimenta
utilizados na universidade.
,
4.2.5 Amostragem por Conglomerados (AC)

Conglomerados são subconjuntos da população, distintos entre si em relação às caracterı́sticas de
interesse. Em oposição aos estratos, possuem similaridade entre grupos e grande heterogeneidade intra
grupos. Podem ser residências, famı́lias, quarteirões, bairros ou clubinhos de futebol. Tal procedimento
amostral é adequado quando é factı́vel dividir a população em pequenas subpopulações homogêneas,
deniominadas conglomerados. Primeiramente definem-se k conglomerados, dos quais alguns são selecio-
nados segundo uma AAS. Todos os elementos dos conglomerados selecionados são observados. Em geral,
é um plano amostral menos eficiente68 que a AAS ou AE, porém mais econômico.
Exemplo 4.16. (Amostragem por conglomerados) Suponha que uma grife continue interessada em abrir
uma filial dentro da PUCRS. Para avaliar ‘o vestuário dos frequentadores da PUCRS’ foram sorteados,
dentre 17 conglomerados pré-definidos, os grupos ‘restaurante B’, ‘restaurante G’ e ‘ponto de ônibus’,
todos avalidos de segunda a sexta entre 11:30 e 12:30. Todas as pessoas dos grupos sorteados são entre-
vistadas.
,
4.2.6 Amostragem Sistemática (AS)

A sistematização da observação de amostras teve seu inı́cio na indústria. Ao invés de fazer um
plano amostral complexo, pode-se simplesmente coletar as informações com um método sistemático pré-
determinado. Tal método é facilitado pelo próprio processo industrial, baseado em uma sequências de
peças dispostas em esteiras. Dependendo da acuracidade desejada, escolhe-se a frequência de observações
a serem avaliadas. Baixas frequências de observação reduzem os tamanhos amostrais, enquanto altas
frequências levam a um maior volume de dados. Após definida a frequência “observar uma unidade
amostral a cada k”, basta sortear um número inteiro entre 1 e k para dar inı́cio ao sorteio. Para listar o
número das peças a serem observadas é interessante calcular os termos de uma Progressão Aritmética.
68 Eficiência é uma medida relativa à variância dos estimadores. Para maiores detalhes, vide Bolfarine et al. (2005).
Page 82
DRAFT VERSION
Exemplo 4.17. (Amostragem sistemática) Uma indústria deseja avaliar a adequação de certo componente
à especificação. Para isso decide realizar um procedimento sistemático na esteira das peças candidatas
a serem aferidas. A frequência escolhida é de observar uma a cada k = 15 peças, até ser atingido um
tamanho de amostra de n = 40. Foi então sorteado um número entre 1 e 15, resultando em 9. Assim, a
primeira peça a ser avaliada é a de número 9, seguindo a sequência
(9, 9 + 15, 9 + 2 × 15, . . . , 9 + 11 × 15) = (9, 24, 39, . . . , 174).
4.2.7 Amostragem por Cotas (ACot)

Amostragem por cotas é um tipo de amostragem não probabilı́stica largamente utilizada na prática
devido à sua simplicidade de planejamento e execução. O procedimento básico é manter na amostra a
mesma proporção de pessoas com caracterı́sticas controláveis da população.
EXERCÍCIOS
3. Se desejássemos avaliar a variável ‘maneira de se vestir’, considerando a PUCRS como a população de interesse, qual
técnica de amostragem você utilizaria para retirar uma amostra? Por quê?
4. Em uma pesquisa eleitoral para o governo do estado do Rio Grande do Sul decide-se entrevistar 1000 pessoas.
Preencha a tabela abaixo com a distribuição de homens e mulheres nas respectivas faixas etárias, considerando a
Tabela tab1_6_23.xls disponı́vel no link
ftp://ftp.ibge.gov.br/Contagem_da_Populacao/Contagem_da_Populacao_2007/populacao.zip
Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou mais
M
F
4.3 Estimação Pontual

Estimação é o processo de inferir69 a respeito de estados ou quantidades universais desconhecidos
com base no conhecimento sobre o universo e observações amostrais. A abordagem Clássica possui três
tipos de estimação: Pontual (ou por ponto), Intervalo de Confiança (IC) e Teste de Hipóteses (TH).
A estimação pontual utiliza uma estatı́stica como estimativa pontual de um certo parâmetro, i.e., se
apropria de um único valor amostral (ponto) para estimar θ. A sı́mbologia genérica θ̂ – teta chapéu –
indica que parâmetro θ está sendo estimado. Na Tabela 4.1, estão apresentadas as principais estimativas
e parâmetros utilizados ao longo do texto.
4.3.1 Proporção ou Percentual

Proporção ou percentual é a frequênca relativa da caracterı́stica de interesse. A estimativa pontual
da proporção universal π é a própria proporção amostral, dada por
# casos com a caracterı́stica de interesse
p = π̂ = .
# casos total
Exemplo 4.18. (Estimativa pontual da proporção) Suponha que deseja-se calcular a estimativa pontual
para a ‘proporção de fumantes da PUCRS’, denotada por π. Em uma amostra de n = 125 frequentadores
da universidade, observaram-se 25 fumantes. A estimativa pontual de π é dada por
25
p = π̂ = ≈ 0.2 = 20%.
125
,
69 Estimar, opinar, palpitar, tentar adivinhar.
Page 83
DRAFT VERSION
4.3.2 Média
A estimativa pontual da média populacional µ é a própria média amostral, dada por
Pn
xi
x̄ = x̄n = µ̂ = i=1 .
n
Exemplo 4.19. (Estimativa pontual da média) Suponha que haja interesse em estudar a média de altura
da população de Porto Alegre, desconhecida e denotada pelo parâmetro µ. Um levantamento com 1.4
milhão de porto-alegrenses é impraticável, mas é possı́vel observar uma amostra da altura de 60 alunos
de certa disciplina da PUCRS. A altura média da turma foi x̄60 = 1.67. Pode-se dizer que uma possı́vel
estimativa pontual da altura média das pessoas de Porto Alegre é µ̂ = 1.67.
,
4.3.3 Variância e Desvio Padrão

A estimativa pontual da variância populacional σ 2 é dada por
Pn Pn
(xi − x̄)2 2

i=1 xi n
s2 = σ̂ 2 = i=1 = − x̄2 .
n−1 n n−1
A estimativa por ponto do desvio padrão é calculada por

√
s = σ̂ = s2 .
Exemplo 4.20. (Estimativa pontual da variância e do desvio padrão) Suponha novamente as informações
do Exemplo 4.19. A estimativa pontual da variância amostral
√ é s2 = σ̂ 2 = 0.0105. Para calcular a
estimativa pontual do desvio padrão, basta fazer s = σ̂ = 0.0105 ≈ 0.1025
,
4.4 (Estimação por) Intervalo de Confiança

Suponha que seu amigo estime que ficará pronto para ir ao sushi às 19 horas, 37 minutos e 22
segundos. É difı́cil de acreditar na estimativa do amigo devido à sua extrema precisão. Isso ocorre com
qualquer estimativa pontual, portanto uma sugestão para aumentar a confiança é fornecer um intervalo
de horário, no estilo “estarei pronto entre 19h e 20h”. Neste contexto é introduzida a noção de intervalo
de confiança (IC), um método formal para construir intervalos com confiança pré-estabelecida para os
parâmetros de interesse. No exemplo do sushi, o parâmetro desconhecido θ é o horário em que o amigo
ficará pronto.
Estrutura básica dos Intervalos e Limites de Confiança
Intervalos de Confiança
IC [Par^
ametro, Confiança] = [Limite Inferior, Limite Superior]
Limites Superiores de Confiança
LSC [Par^
ametro, Confiança] = ]−∞, Limite Superior]
Limites Inferiores de Confiança
LIC [Par^
ametro, Confiança] = [Limite Inferior, +∞[
ametro: quantidade de interesse para a qual deseja-se calcular um intervalo ou limite de confiança,
Par^
denotado genericamente por θ;
Confiança: confiança desejada, denotada por 1 − α.
Estimativa pontual: estimativa por ponto do parâmetro de interesse.
Margem de erro: medida de variabilidade que depende da confiança desejada.
Limite inferior: valor que limita o IC e o LIC à esquerda.
Limite superior: valor que limita o IC e o LSC à direita.
Page 84
DRAFT VERSION
Para medidas de posição usualmente o limite superior é calculado por
Estimativa Pontual + Margem de Erro,
e de forma análoga para o limite inferior. No caso das medidas de dispersão como variância e desvio
padrão universais (σ 2 e σ), os limites são obtidos através de quocientes envolvendo medidas da amostra
com valores de referência obtidos da distribuição qui-quadrado na forma
Estimativa Pontual
2.87
Exemplo 4.21. (Intervalo de Confiança) IC(π, 95%) = [0.14, 0.23] é uma estimativa por intervalo de
confiança de que a proporção (percentual) universal π esteja entre 14% e 23% com confiança 95%. Pelo
prisma clássico, isto significa que para cada 100 levantamentos realizados com o mesmo tamanho de
amostra, são esperados 95 intervalos de confiança contendo π e 5 não contendo.
,
Exemplo 4.22. (Limite Inferior de Confiança) LIC(µ, 90%) = [3.7, +∞[ é uma estimativa por limite
inferior de confiança de que a média universal µ seja de pelo menos 3.7 com confiança 90%. Pelo prisma
clássico, isto significa que para cada 100 levantamentos realizados com o mesmo tamanho de amostra,
são esperados 90 limites inferiores de confiança contendo µ e 10 não contendo.
,
EXERCÍCIOS
5. Interprete os seguintes intervalos e limites de confiança.
a) LSC(µ, 99%) = ]−∞, −1.2]

b) IC(π, 82%) = [1/7, 3/7]
c) IC(µ, 90%) = [1/7, 3/7]
d) LIC(σ 2 , 95%) = [16, +∞[
e) LSC(σ, 95%) = ]−∞, 7]
f) IC(σ, 95%) = [4, 7]
4.4.1 Proporção
O IC para a proporção populacional π é dado pela expressão
r " r r #
p(1 − p) p(1 − p) p(1 − p)
IC [π, 1 − α] = p ∓ z = p−z ,p + z (106)
n n n
onde 1 − α é a confiança do intervalo, p é a proporção amostral, n é o tamanho da amostra e z = z α2 é

o quantil da distribuição normal padrão que acumula α2 de probabilidade.
Exemplo 4.23. (IC para π) Suponha novamente o Exemplo 4.18, onde deseja-se calcular o IC para a
proporção de fumantes da PUCRS. Sabe-se que π̂ = p = 25/125 = 0.2, n = 125 e z = 1.96. O IC de
1 − α = 95% é
r
25 0.2 (1 − 0.2)
IC [π, 95%] = ∓ 1.96 = 0.2 ∓ 0.07 = [0.13, 0.27] = [13%, 27%] .
125 125
A margem de erro é de aproximadamente 0.07 = 7%, Note a diferença de precisão entre a tabela,
consultando a probabilidade 0.0250 correspondente a z = −1.96, e o valor calculado com a função qnorm.
Page 85
DRAFT VERSION
> n <- 125
> p <- 25/n
> z <- abs(qnorm(0.025)) # |-1.959964|
> (e <- z*sqrt(p*(1-p)/n)) # Margem de erro
[1] 0.0701218
> (LIpi <- p - e) # Limite Inferior
[1] 0.1298782
> (LSpi <- p + e) # Limite Superior
[1] 0.2701218
4.4.2 Média com σ conhecido

Um leitor atento pode estar se questionando a respeito do σ conhecido, visto que para calcular o
desvio padrão universal σ necessita-se da média universal µ, também desconhecida. Porém, como forma
de construção da teoria, é didaticamente apropriado apresentar primeiramente o cálculo do IC para a
média universal µ supondo o desvio padrão σ conhecido. Outros motivos para abordar este tópico desta
maneira são que i) desvios padrão são geralmente estáveis, e pode-se ter calculado estimativas de σ em
estudos similares e ii) o tamanho da amostra é tão grande que é praticamente equivalente calcular o IC
com σ conhecido ou desconhecido70 .
O IC para a média universal com σ conhecido é dado pela expressão

σ σ σ
IC [µ, 1 − α] = x̄ ∓ z √ = x̄ − z √ , x̄ + z √ , (107)
n n n
onde 1 − α é a confiança do intervalo, x̄ é a média amostral, σ é o desvio padrão universal magicamente
conhecido, n é o tamanho da amostra e z = z α2 é o quantil da distribuição normal padrão que acumula
α
2 de probabilidade.
Exemplo 4.24. (IC para µ com σ conhecido) Utilizando as 10 primeiras observações da Tabela 2.5 (pg.
20), suponha que X: ‘altura de mulheres atendidas em um certo hospital público de Porto Alegre durante o
inverno 2012’ tenha distribuição normal com média µ desconhecida e desvio padrão universal conhecido
σ = 0.05, denotado por X ∼ N (µ, 0.052 ). A média da amostra é x̄10 = 1.63 e z = 1.96. O IC de
1 − α = 95% é
0.05
IC [µ, 95%] = 1.63 ∓ 1.96 √ ≈ 1.63 ∓ 0.03 ≈ [1.60, 1.66] .
10
A margem de erro é de aproximadamente 0.03.
> n <- 10
> m <- 1.63
> sigma <- 0.05 # 'sigma' universal
> z <- abs(qnorm(0.025)) # |-1.959964|
> (e <- z*s/sqrt(n)) # Margem de erro
[1] 0.02805723
> (LImusig <- m - e) # Limite Inferior
[1] 1.601943
> (LSmusig <- m + e) # Limite Superior
[1] 1.658057
70 Seção 4.4.3.
Page 86
DRAFT VERSION
,
4.4.3 Média com σ desconhecido

Este é o caso mais realista, no qual estima-se o desvio padrão universal σ através do desvio padrão
amostral s. O IC para a média universal com σ desconhecido é dado pela expressão

s s s
IC [µ, 1 − α] = x̄ ∓ t √ = x̄ − t √ , x̄ + t √ , (108)
n n n
onde 1 − α é a confiança do intervalo, x̄ é a média amostral, s é o desvio padrão amostral, n é o tamanho

da amostra e t = tn−1, α2 é o quantil da distribuição t com n − 1 graus de liberdade que acumula 1 − α2
de probabilidade. Note a troca de σ por s, implicando na penalidade de utilizar t no lugar de z.
Exemplo 4.25. (IC para µ com σ desconhecido) Novamente utilizando as 10 primeiras observações da
Tabela 2.5, suponha agora que X: ‘altura de mulheres atendidas em um certo hospital público de Porto
Alegre durante o inverno 2012’ tenha distribuição normal com média µ e desvio padrão universal σ
desconhecidos, denotado por X ∼ N (µ, σ). A média e o desvio padrão amostrais são, respectivamente
x̄10 = 1.63 e s = 0.05. t = t10−1, 5% = t9,2.5% = 2.262 O IC de 1 − α = 95% é
2
0.05
IC [µ, 95%] = 1.63 ∓ 2.262 √ = 1.63 ∓ 0.04 ≈ [1.59, 1.67] .
10
A margem de erro é de aproximadamente 0.04, maior que a margem de erro 0.03 quando assume-se σ
conhecido.
> n <- 10
> m <- 1.63
> s <- 0.05 # 's' amostral
> t <- abs(qt(0.025, n-1)) # |-2.2621572|
> (e <- t*s/sqrt(n)) # Margem de erro
[1] 0.03576785
> (LImus <- m - e) # Limite Inferior
[1] 1.594232
> (LSmus <- m + e) # Limite Superior
[1] 1.665768
4.4.4 Variância
O IC para a variância universal σ 2 é dado por
" #
2 (n − 1)s2 (n − 1)s2
IC σ , 1 − α = ,
χ2α χ21− α
2 2
onde 1 − α é a confiança do intervalo, s2 é a variância amostral, n é o tamanho da amostra, χ2α é o

2
quantil da distribuição χ2 com ν = n − 1 graus de liberdade que acumula α2 de probabilidade e χ21− α é
2
o quantil da distribuição χ2 com ν = n − 1 graus de liberdade que acumula 1 − α2 de probabilidade.
Exemplo 4.26. (IC para σ 2 ) Novamente utilizando as 10 primeiras observações da Tabela 2.5, sabe-se que
a variância amostral é s2 = 0.052 = 0.0025 e ν = 10 − 1 = 9. Pela Tabela da página 134, χ20.025 = 19.02
e χ20.975 = 2.70. O IC de 1 − α = 95% para σ 2 é

2 (10 − 1) × 0.0025 (10 − 1) × 0.0025
IC σ , 95% = , ≈ [0.0012, 0.0083] .
19.02 2.70
Page 87
DRAFT VERSION
> n <- 10
> s <- 0.05 # 's' amostral
> chi025 <- qchisq(0.975, n-1) # 19.022768
> chi975 <- qchisq(0.025, n-1) # 2.7003895
> (LIsig2 <- (n-1)*s^2/chi025) # Limite Inferior
[1] 0.001182793
> (LIsig2 <- (n-1)*s^2/chi975) # Limite Superior
[1] 0.008332131
4.4.5 Desvio Padrão

Análogo ao IC para a variância universal, o IC para o desvio padrão universal σ é dado por
"s s #
(n − 1)s2 (n − 1)s2
IC [σ, 1 − α] = ,
χ2α χ21− α
2 2
onde 1 − α é a confiança do intervalo, s é a variância amostral, n é o tamanho da amostra, χ2α é o

2
2
quantil da distribuição χ2 com ν = n − 1 graus de liberdade que acumula α2 de probabilidade e χ21− α é
2
o quantil da distribuição χ2 com ν = n − 1 graus de liberdade que acumula 1 − α2 de probabilidade.
Exemplo 4.27. (IC para σ) Novamente utilizando as 10 primeiras observações da Tabela 2.5, sabe-se que
a variância amostral é s2 = 0.052 = 0.0025 e ν = 10 − 1 = 9. Pela Tabela da página 134, χ20.025 = 19.02
e χ20.975 = 2.70. O IC de 1 − α = 95% para σ é
"r r #
(10 − 1) × 0.0025 (10 − 1) × 0.0025 h√ √ i
IC [σ, 95%] = , = 0.0012, 0.0083 ≈ [0.0344, 0.0913] .
19.02 2.70
> n <- 10
> s <- 0.05 # 's' amostral
> chi025 <- qchisq(0.975, n-1) # 19.022768
> chi975 <- qchisq(0.025, n-1) # 2.7003895
> (LIsig <- sqrt((n-1)*s^2/chi025)) # Limite Inferior
[1] 0.03439176
> (LIsig <- sqrt((n-1)*s^2/chi975)) # Limite Superior
[1] 0.09128051
4.5 (Estimação por) Teste de Hipóteses

Os testes de hipóteses são procedimentos utilizados para atribuir um grau de credibilidade às hi-
póteses em estudos cientı́ficos. Pelo paradigma clássico, a medida padrão de credibilidade é conhecida
popularmente por p-value ou valor-p. Os teste de hipóteses possuem as mesmas caracterı́sticas e propri-
edades dos respectivos intervalos de confiança. Desta forma, apresenta-se um breve exemplo abordando
a equivalência entre os TH e os IC para a proporção universal π.
4.5.1 Equivalência entre Testes de Hipóteses e Intervalos de Confiança

Exemplo 4.28. (TH ≡ IC) Suponha uma moeda com probabilidade de face cara P r(H) = π. Em princı́pio
não sabemos o valor de π, e pode ser interessante considerar duas configurações:
Page 88
DRAFT VERSION
· π = 0.5, i.e., a moeda é equilibrada (não viesada/não viciada/honesta)
· π 6= 0.5, i.e., ela é desequilibrada (viesada/viciada/desonesta)
As hipóteses podem ser escritas na forma

H0 : π = 0.5
H1 : π 6= 0.5
Sob H0 , i.e., supondo H0 verdadeira,
r
0.5 (1 − 0.5) 0.98
IC [π, 95%] = 0.5 ∓ 1.96 = 0.5 ∓ √ .
n n
Assim, ao realizar n = 100 lançamentos e observar uma frequência de caras no intervalo
0.98
IC [π, 95%] = 0.5 ∓ √ = [0.402, 0.598] ,
100
pode-se considerar a moeda equilibrada com 95% de confiança. Caso a frequência seja inferior a 40.2%
ou superior a 59.8%, há indı́cios de que a moeda é desequilibrada, também com 95% de confiança. Pela
terminologia dos testes de hipóteses, não se rejeita H0 com α = 5%. Se n = 25,
0.98
IC [π, 95%] = 0.5 ∓ √ = [0.304, 0.696] ,
25
obtém-se um intervalo maior, i.e., menos preciso para a mesma confiança de 95%. Como exercı́cio, use
a função ic para definir outros valores para n e teste em uma moeda.
> ic <- function(n){

cat('[', 0.5-.98/sqrt(n), ',', 0.5+.98/sqrt(n), ']')
}
> ic(100)
[ 0.402 , 0.598 ]
> ic(25)
[ 0.304 , 0.696 ]
,
Exemplo 4.29. (Esta moeda é equilibrada?) Você pega uma moeda qualquer e decide testar se ela é
equilibrada ou não. Pode-se definir que ela é equilibrada se a proporção de n lançamentos ficar próxima
de 50%. Como você definiria “próxima”?
,
4.5.2 Hipóteses
Os testes de hipóteses são dicotômicos, i.e., estrutura-se o problema em duas hipóteses concorrentes.
Isso significa que o aplicador tem o papel de dividir o problema em dois conjuntos disjuntos que englobem
todas as possibilidades de ação. As hipóteses são chamadas de hipótese nula (H0 ) e hipótese alternativa
(H1 ou Ha ). De maneira genérica são escritas na forma

H0 :
H1 :
Hipóteses descritas de maneira literal são conhecidas como hipóteses de pesquisa, enquanto as descritas
em formato matemático são chamadas hipóteses estatı́sticas. Elas devem ser equivalentes, mas sua
denominação pode ser adequada conforme o momento da pesquisa. Ao definir os objetivos e apresentar
os resultados é mais apropriado fazer uso de termos literais. Porém, durante a execução da análise –
passo intermediário entre a definição dos objetivos e a divulgação dos resultados – é mais adequado
utilizar hipóteses estatı́sticas, pela necessidade de detalhamento matemático nesta etapa.
Page 89
DRAFT VERSION
Exemplo 4.30. (Definindo as hipóteses sobre a moeda) Retomando o Exemplo 4.29, podemos definir
respectivamente as hipóteses do pesquisador e estatı́stica como

H0 : a moeda é equilibrada H0 : π = 0.5
≡ .
H1 : a moeda não é equilibrada H1 : π 6= 0.5
,
Hipótese Nula H0
A hipótese nula é a hipótese a ser testada, definda pelo parâmetro genérico θ0 . A expressão nula faz
referência aos planejamentos de experimentos, quando não há diferença entre os tratamentos. Se isso
ocorre, os parâmetros populacionais são considerados iguais, i.e., o efeito dos tratamentos seria nulo ou
sem diferença significativa. Por este motivo H0 é geralmente associada ao não-efeito, i.e., a contraposição
da teoria testada. Utiliza-se a expressão “sob H0 ” para indicar a utilização do valor θ0 na realização dos
cálculos. A hipótese de igualdade H0 : θ = θ0 é conhecida por hipótese precisa, ou sharp hypothesis.
Regra da Hipótese Nula
A igualdade sempre está em H0 .

H0 : θ = θ 0 H0 : θ ≥ θ0 H0 : θ ≤ θ0
ou ou
H1 : θ 6= θ0 H1 : θ < θ0 H1 : θ > θ0
Hipótese Alternativa H1
A hipótese alternativa é a hipótese concorrente da hipótese nula. Por não conter a igualdade é geralmente
associada à diferença entre tratamentos, sendo comumente relacionada à teoria que deseja-se testar. Por
este motivo é conhecida também como hipótese de pesquisa. Ela pode ser bilateral (H1 : θ 6= θ0 ),
unilateral inferior (H1 : θ < θ0 ) ou superior (H1 : θ > θ0 ). Na Figura 4.2 estão apresentadas as regiões
de rejeição e de aceitação para hipóteses uni e bilaterais. Sua escolha deve considerar a estrutura do
problema, podendo haver mais de um modo de apresentar as hipóteses.
H1 H0 H1
(a) Hipótese bilateral (H1 : θ 6= θ0 )
H1 H0 H0 H1
(b) Hipótese unilateral inferior (H1 : θ < θ0 ) (c) Hipótese unilateral superior (H1 : θ > θ0 )
Figura 4.2: Tipos de hipóteses alternativas e suas regiões de rejeição
Page 90
DRAFT VERSION
Exemplo 4.31. (Hipótese bilateral) A hipótese alternativa H1 : π 6= 0.5 é dita bilateral, conforme Figura
4.2a. É o complementar da hipótese precisa H0 : π = 0.5.
,
EXERCÍCIOS
6. (Adaptado de Magalhães and Lima (2002)) Para cada item abaixo, indique as hipóteses de pesquisa e estatı́sticas
que estão sendo testadas.
a) A companhia de transporte afirma que, em média, o intervalo entre sucessivos ônibus de uma determinada linha é
de 15 minutos. Uma associação de usuários de transportes coletivos acha que a pontualidade é muito importante,
e deseja testar a afirmação da companhia.
b) Os amortecedores de automóveis que circulam em cidades duram pelo menos 100 mil quilômetros em média,
segundo a informação de algumas oficinas especializadas. O proprietário de uma locadora de veı́culos deseja
testar esta afirmação.
c) Um veterinário afirma ter obtido um ganho médio diário de pelo menos 3 litros de leite por vaca com uma nova
composição de ração. Um pecuarista acredita que o ganho não é tão grande assim.
d) Algumas garrafas de cerveja declaram em seus rótulos conter 600mL. Os órgãos de fiscalização desejam avaliar
se uma fábrica deve ou não ser autuada por engarrafar cervejas com uma quantidade menor que o indicado no
rótulo.
e) O dado de um cassino parece estar viciado, saindo o valor 1 com uma frequência muito grande.
f) Um fabricante afirma que a sua vacina previne pelo menos 80% dos casos de uma doença. Um grupo de médicos
desconfia que a vacina não é tão eficiente assim.
4.5.3 Estatı́stica do Teste - Univariada

Para medir a distância probabilı́stica entre os valores observados na amostra e o valor teórico θ0 ,
utiliza-se a estatı́stica do teste. Ela é calculada a partir das informações da amostra e do próprio θ0 , sendo
que cada parâmetro testado possui sua respectiva estatı́stica de teste. Quando devidamente calculado,
este valor é associado a uma distribuição de probabilidades conhecida.
Proporção
Sob H0 : π = π0 ,
!
p − π0 √ p − π0
zteste = p = n p ∼ N (0, 1). (109)
π0 (1 − π0 )/n π0 (1 − π0 )
Exemplo 4.32. (Lançando a moeda) Suponha n = 100 lançamentos e 40 caras observadas. Pode-se medir
40
a distância do teórico H0 : π = 0.5 para o observado p = 100 = 0.4 através da estatı́stica do teste
!
√ 0.4 − 0.5
zteste = 100 p = −2,
0.5(1 − 0.5)
ou seja, estima-se que 0.4 está dois desvios-padrão abaixo de 0.5. Avalie este resultado observando a
Figura 3.3 da página 65. Compare com o Exemplo 4.28. O que você conclui?
> theta <- 0.5

> x <- 40
> n <- 100
> p <- x/n
> (zt <- sqrt(n)*(p-theta)/sqrt(theta*(1-theta)))
[1] -2
Page 91
DRAFT VERSION
Média com σ conhecido
Sob H0 : µ = µ0 ,
√

x̄ − µ0 x̄ − µ0
zteste = √ = n ∼ N (0, 1). (110)
σ/ n σ
Exemplo 4.33. (σ) Suponha σ = 0.3185. Se quisermos comparar a média teórica H0 : µ = 2.027 com
uma média obtida a partir de n = 5 observações x̄5 = 2.115, pode-se utilizar a estatı́stica do teste
√

2.115 − 2.027
zteste = 5 ≈ 0.618.
0.3185
Avalie este resultado observando a Figura 3.3 da página 65. O que você conclui?
> sigma <- 0.3185

> theta <- 2.027
> n <- 5
> x_bar <- 2.115
> (zt <- sqrt(n)*(x_bar-theta)/(sigma))
[1] 0.6178147
Média com σ desconhecido
Sob H0 : µ = µ0 ,
√

x̄ − µ0 x̄ − µ0
tteste = √ = n ∼ tn−1 . (111)
s/ n s
Exemplo 4.34. (s) Suponha s = 0.3185. Se quisermos comparar a média teórica H0 : µ = 2.027 com
uma média obtida a partir de n = 5 observações x̄5 = 2.115, pode-se utilizar a estatı́stica do teste
√

2.115 − 2.027
tteste = 5 ≈ 0.618.
0.3185
Avalie este resultado observando a linha de 5 − 1 = 4 graus de liberdade na tabela da distribuição t na
página 133 ou pelo nomograma da Figura 3.6b na página 71. O que você conclui?
> s <- 0.3185

> theta <- 2.027
> n <- 5
> x_bar <- 2.115
> (tt <- sqrt(n)*(x_bar-theta)/s)
[1] 0.6178147
Variância
Sob H0 : σ 2 = σ02 ,
(n − 1)s2
χ2teste = ∼ χ2n−1 . (112)
σ02
Exemplo 4.35. (Avaliando σ) Suponha um desvio padrão s = 0.32, obtido de uma amostra de tamanho
n = 16. Pode-se comparar este valor observado com o teórico H0 : σ = 0.25 através da estatı́stica
(16 − 1) × 0.322
χ2teste = = 24.576.
0.252
Page 92
DRAFT VERSION
Compare com a linha ν = 16 − 1 = 15 da tabela de qui-quadrado da página 134. O que você conclui?
> s <- 0.32

> theta <- 0.25
> n <- 16
> (ct <- (n-1)*s^2/theta^2 )
[1] 24.576
4.5.4 Valor-p (p-value)

Note que nos Exemplos 4.32 a 4.35 mediu-se a distância (padronizada) entre valores amostrais e os
valores teóricos. Para mensurar se estas distâncias sugerem um descolamento da hipótese nula H0 , pode-
se utilizar uma medida que indique a evidência em favor de H0 . Esta medida é obtida comparando-se a
estatı́stica de teste com a distribuição teórica apropriada.
Pela abordagem clássica, a medida usual é o valor-p, popularmente conhecido por p-value. Ele indica
a probabilidade de se obter um valor mais extremo do que a estatı́stica de teste (distância padronizada)
obtida. Formalmente é a probabilidade do erro do tipo I71 , conforme Tabela 4.3. Este é o valor da
probabilidade de errar ao rejeitar H0 , i.e., decidir por H1 quando H0 é verdadeira.
H0
Decisão
Verdadeira Falsa
Rejeita H0 Erro do Tipo I OK
Aceita (Não rejeita) H0 OK Erro do Tipo II
Tabela 4.3: Possibilidades ao decidir por uma hipótese
Exemplo 4.36. (Medindo o equilı́brio da moeda) Suponha novamente o Exemplo 4.36. O valor-p pode ser
obtido por
valor − p = 2 × P r(Z < −2) ≈ 0.0455.
Se 0.0455 = 4.55%, ou a probabilidade de errar ao rejeitar H0 , for considerada baixa pelo pesquisador,
ele pode decidir pela rejeição; caso a considere alta, deve decidir pela aceitação (não rejeição) de H0 ,
optando por H1 .
> theta <- 0.5

> x <- 40
> n <- 100
> p <- x/n
> zt <- sqrt(n)*(p-theta)/sqrt(theta*(1-theta))
> (p_value <- 2*pnorm(-abs(zt))) # Multiplica-se por 2 pelo teste ser bilateral
[1] 0.04550026
,
Exemplo 4.37. (Princı́pio da Verossimilhança 2) Suponha que deseja-se testar a hipótese H0 : θ ≤ 1/2
contra H0 : θ > 1/2. São contemplados dois processos experimentais:
· E1 : lançar a moeda n = 12 vezes;

· E2 : lançar a moeda até que apareçam k = 3 ‘caras’
Admita que o resultado observado nas duas experiências foi x = 9 ‘coroas’ (portanto 3 ‘caras’),
que é uma particular realização da variável aleatória X, que designa o número total de ‘coroas’ dos
71 Também conhecida por nı́vel descritivo amostral ou simplesmente p. Esta última alternativa, apesar de mais concisa,
foi evitada para não haver conflito com a simbologia utilizada para a proporção amostral, já denotada por p.
Page 93
DRAFT VERSION
experimentos E1 e E2 . Para um clássico o nı́vel crı́tico (ou valor-p, a probabilidade de obter X ≥ 9) da
hipótese H0 : θ = 1/2 difere nos dois casos.
No caso E1 , X tem distribuição binomial – X ∼ B (12, θ) – cujo nı́vel crı́tico é
12 12 12 12

1 12 1 12 1 12 1 12 1
Pr X ≥ 9 θ = = + + + ≈ 0.0730.
2 9 2 10 2 11 2 12 2
No caso E2 , X tem distribuição binomial negativa – X ∼ BN (3, 1 − θ) – que tem nı́vel crı́tico
12 13 14

1 11 1 12 1 13 1
Pr X ≥ 9 θ = = + + + · · · ≈ 0.0327.
2 9 2 10 2 11 2
Logo, se for adotado um limiar de significância de 5%, H0 é rejeitada no caso E2 e não rejeitada em
E1 . Assumindo o princı́pio da verossimilhança, as conclusões devem ser idênticas nos dois casos. Em
3
ambos a (função de) verossimilhança é proporcional a θ9 (1 − θ) . De fato, as verossimilhanças em E1 e
E2 são

12 9 3 3 3
L1 (θ| x = 9) = θ (1 − θ) = 220 θ9 (1 − θ) ∝ θ9 (1 − θ)
9

11 9 3 3 3
L2 (θ| x = 9) = θ (1 − θ) = 55 θ9 (1 − θ) ∝ θ9 (1 − θ)
9
,
4.5.5 Valor Crı́tico

O valor crı́tico é o quantil da distribuição que delimita as regiões de rejeição e aceitação. Nas
distribuições normal e t são chamados genericamente zcrı́tico e tcrı́tico .
Exemplo 4.38. (Valor crı́tico) Suponha α = 5% para diferentes testes de hipóteses conforme Figura 4.3.
Para a distribuição t assumiu-se gl = 4.
,
Page 94
DRAFT VERSION
N (0, 1) t4
5% 95% 5% 95%
−1.64 −2.13
(a) Normal, H1 : θ < θ0 , α = 5%, zcrı́tico = −1.64 (b) t, gl = 4, H1 : θ < θ0 , α = 5%, tcrı́tico = −2.132
N (0, 1) t4
95% 5% 95% 5%
1.64 2.13
(c) Normal, H1 : θ > θ0 , α = 5%, zcrı́tico = 1.64 (d) t, gl = 4, H1 : θ > θ0 , α = 5%, tcrı́tico = 2.132
N (0, 1) t4
2.5% 95% 2.5% 2.5% 95% 2.5%
−1.96 1.96 −2.78 2.78

(e) Normal, H1 : θ 6= θ0 , α = 5%, |zcrı́tico | = 1.96 (f) t, gl = 4, H1 : θ > θ0 , α = 5%, |tcrı́tico | = 2.776
Figura 4.3: Alguns exemplos de valores crı́ticos
Teste Qui-quadrado (de Pearson) de aderência
H0 : No universo representado por uma amostra, há diferença entre as frequências esperadas e obser-
vadas?
k
X (Oi − Ei )2
χ2 = ∼ χ2k−1 (113)
i=1
Ei
Com a correção de Yates:
k
X (|Oi − Ei | − 0.5)2
χ2Y ates = ∼ χ2k−1 (114)
i=1
Ei
Exemplo 4.39 (Adaptado de Sheskin (2004)). (Teste qui-quadrado de aderência) Um dado é lançado 120
vezes, a fim de determinar se é ou não é equilibrado (viesado). O valor 1 aparece 20 vezes, o valor 2
aparece 14 vezes, o valor 3 aparece 18 vezes, o valor 4 aparece 17 vezes, o valor de 5 aparece 22 vezes, e
o valor 6 aparece 29 vezes. Os valores observados sugerem que o dado é equilibrado?
Face (i) 1 2 3 4 5 6
Oi 20 14 18 17 22 29
Ei 20 20 20 20 20 20
Tabela 4.4: Valores observados e esperados
Page 95
DRAFT VERSION
> o <- c(20,14,18,17,22,29) # Observados
> p <- rep(1/6,6) # Distribuiç~
ao uniforme (dado equilibriado)
> e <- 120*p # Valores esperados se o dado for equilibrado
> k <- length(o) # Número de categorias
> qui <- sum((o-e)^2/e) # Equaç~
ao (60)
> 1-pchisq(qui,k-1) # p-value
[1] 0.2439246
> chisq.test(o) ao 'chisq.test'

# Pela funç~
Chi-squared test for given probabilities
data: o
X-squared = 6.7, df = 5, p-value = 0.2439
4.5.6 Estatı́stica do Teste - Bivariada

Em muitos casos práticos é necessária a comparação entre valores obtidos de dois universos distintos.
Para isso existem procedimentos chamados bivariados.
Proporção
Sob H0 : π1 = π2 ,
p1 − p2
zteste = s ∼ N (0, 1), (115)
1 1
p̄(1 − p̄) +
n1 n2
onde n1 e n2 são os tamanhos das amostras retiradas de dois universos, X1 e X2 representam o

X1 X2 X1 + X2
número de observações pertencentes aos universos 1 e 2, p1 = , p2 = e p̄ = .
n1 n2 n1 + n2
Exemplo 4.40. (Duas moedas) Suponha duas moedas rotuladas 1 e 2. Se observarmos 7 caras em n1 = 35
lançamentos da moeda 1 e 7 caras em n2 = 100 lançamentos da moeda 2, pode-se obter p1 = 7/35 = 0.2,
p2 = 7/100 = 0.07 e p̄ = (7 + 7)/(35 + 100) = 14/135 ≈ 0.1037. Para comparar a proporção de caras das
moedas, representada por H0 : π1 = π2 , pode-se utilizar a estatı́stica
0.2 − 0.07
zteste = s ≈ 2.17.
14 14 1 1
1− +
135 135 35 100
> x1 <- 7
> n1 <- 35
> x2 <- 7
> n2 <- 100
> p1 <- x1/n1
> p2 <- x2/n2
> ph <- (x1+x2)/(n1+n2)
> (zt <- (p1-p2)/sqrt(ph*(1-ph)*(1/n1+1/n2)))
[1] 2.171139
> (p_value <- 2*pnorm(-abs(zt)))
[1] 0.02992069
Page 96
DRAFT VERSION
Média com σ12 e σ22 conhecidas
Sob H0 : µ1 − µ2 = ∆0 ,
(x̄1 − x̄2 ) − ∆0
zteste = s ∼ N (0, 1), (116)
σ12 σ22
+
n1 n2
onde n1 e n2 são os tamanhos das amostras retiradas de dois universos, x̄1 e x̄2 representam as médias
amostrais das populações 1 e 2, e σ12 e σ22 são as respectivas variâncias populacionais.
Média com σ12 e σ22 desconhecidas
Sob H0 : µ1 − µ2 = ∆0 ,
(x̄1 − x̄2 ) − ∆0
Tteste = s ∼ tn1 +n2 −2 , (117)
1 1
s2p +
n1 n2
(n1 − 1)s21 + (n2 − 1)s22

s2p = , (118)
n1 + n2 − 2
onde n1 e n2 são os tamanhos das amostras retiradas de dois universos e x̄1 e x̄2 representam as
médias amostrais das populações 1 e 2.
Exemplo 4.41. (Teste t) Faça ?t.test.
> t.test(1:10, y = c(7:20)) # P = .00001855, diferença significativa
Welch Two Sample t-test
data: 1:10 and c(7:20)

t = -5.4349, df = 21.982, p-value = 1.855e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-11.052802 -4.947198
sample estimates:
mean of x mean of y
5.5 13.5
> t.test(1:10, y = c(7:20, 200)) # P = .1245, sem diferença significativa
Welch Two Sample t-test
data: 1:10 and c(7:20, 200)

t = -1.6329, df = 14.165, p-value = 0.1245
alternative hypothesis: true difference in means is not equal to 0
-47.242900 6.376233
sample estimates:
mean of x mean of y
5.50000 25.93333
,
Variâncias
Sob H0 : σ12 = σ22 ,
s21 /σ12 s21
Fteste = = ∼ Fn1 −1,n2 −1 , (119)
s22 /σ22 s22
onde n1 e n2 são os tamanhos das amostras retiradas de dois universos e s21 e s22 representam as
variâncias amostrais das populações 1 e 2.
Page 97
DRAFT VERSION
Exemplo 4.42. (Teste de variâncias) Faça ?var.test.
> set.seed(2); x <- rnorm(50, mean = 0, sd = 2)

> set.seed(3); y <- rnorm(30, mean = 1, sd = 1)
> var.test(x, y) # x e y t^
em a mesma vari^
ancia?
F test to compare two variances
data: x and y
F = 7.7713, num df = 49, denom df = 29, p-value = 1.048e-07
alternative hypothesis: true ratio of variances is not equal to 1
3.904505 14.621142
sample estimates:
ratio of variances
7.771348
Teste Qui-quadrado (de Pearson) para tabelas r × c
H0 : No universo representado por uma amostra em uma tabela de contingência, há diferença entre
as frequências esperadas e observadas nas células?
r X c
X (Oij − Eij )2
χ2 = ∼ χ2(r−1)(c−1) (120)
i=1 j=1
Eij
Com a correção de Yates:
r X c
X (|Oij − Eij | − 0.5)2
χ2 = ∼ χ2(r−1)(c−1) (121)
i=1 j=1
Eij

> chisq.test(tab.bi) # Teste qui-quadrado de Pearson
Pearson's Chi-squared test with Yates' continuity correction
data: tab.bi
X-squared = 11.281, df = 1, p-value = 0.0007829
Teste Exato de Fisher para tabelas r × c
Seguindo o padrão da Tabela 2.7, calcula-se a probabilidade exata por
n·1 ! n·2 ! n1· ! n2· !

P = (122)
n! n11 ! n12 ! n21 ! n22 !
Page 98
DRAFT VERSION
> fisher.test(tab.bi) # Teste exato de Fisher
Fisher's Exact Test for Count Data
data: tab.bi
p-value = 0.0006504
alternative hypothesis: true odds ratio is not equal to 1
1.684537 9.405984
sample estimates:
odds ratio
3.831525
EXERCÍCIOS EXTRAS
1. O instituto de pesquisa OPINAS avaliou o cenário eleitoral em certa região do Brasil em uma amostra de 500
eleitores, constatando que o candidato A tem 45% das intenções de votos enquanto seu concorrente, o candidato B,
tem 37%.
a) Construa o intervalo de confiança 95% para a proporção de votos do candidato A.

b) Construa o intervalo de confiança 95% para a proporção de votos do candidato B.
c) As margens de erro são iguais?
2. Um grande conglomerado, com centenas de empresas, quer entender melhor sobre o processo de separação do lixo
em suas unidades. Para isso, selecionou 100 empresas do conglomerado e verificou que 82 delas faziam a separação
do lixo.
a) Qual a estimativa por ponto da proporção de empresas do conglomerado que separam o lixo?
b) Construa um intervalo de confiança de 95% para a proporção de empresas do conglomerado que separam o lixo.
3. A pesquisa de intenção de votos do Datafolha com 3281 eleitores nos dias 14 e 15 de outubro apontou 47% de
intenção de votos para a candidata Dilma Rousseff.
a) Encontre os intervalos de 84% e 95% de confiança para a verdadeira proporção de votos da candidata.
b) Quais as margens de erro dos intervalos de confiança do item anterior?
4. Em uma amostra aleatória de 85 rolamentos de automóveis de certa fábrica, 10 apresentaram defeitos de fabricação.
a) Forneça a estimativa por ponto da verdadeira proporção de rolamentos defeituosos na fábrica.

b) Construa um intervalo de 91% de confiança para a verdadeira proporção de rolamentos defeituosos na fábrica.
5. Em uma turma de Estatı́stica Básica com N = 57, 23 alunos tiraram nota igual ou superior a 7 na P1, de um total
n = 41 que realizaram a prova.
a) Qual a estimativa por ponto da proporção de pessoas que tiraram pelo menos a média na P1?
b) Sabendo que há 57 pessoas matriculadas e supondo que todas elas tivessem feito a prova, quantas pessoas
espera-se que tirassem pelo menos 7 na P1?
c) Faça um intervalo de confiança de 85% para proporção de pessoas que tiraram pelo menos a média na P1.
6. Um artigo do jornal Materials Engineering (1989, Vol. II, No. 4, pp. 275–281) descreve o resultado de testes de
tensão em 22 ligas U-700. A carga de rompimento foi medida em megapascais (MPa), e a amostra apresentou média
de 13.71 MPa e desvio padrão de 3.55 MPa.
a) Quais são as estimativas por ponto da média e variância populacionais?

b) Construa um intervalo de 98% de confiança para a verdadeira média populacional.
c) Obtenha um IC para σ 2 e outro para σ com confiança 95%.
7. Em uma amostra de 5 empresas brasileiras de importação de rolamentos, constatou-se que elas gastaram R$65,000,000.00
(sessenta e cinco milhões de reais) em compra de rolamentos da China.
a) Qual a estimativa por ponto do gasto médio das importações de rolamentos de empresas do ramo no Brasil?
b) Sabendo que o desvio padrão amostral de R$1,500,000.00, encontre um intervalo de 90% de confiança para o
gasto médio das importações de rolamentos de empresas do ramo no Brasil.
8. Um artigo de 1993 do Transactions of the American Fisheries Society apresentou o resultado de um estudo na
investigação da contaminação por mercúrio na região da Flórida (EUA). Uma amostra de 53 peixes foi observada,
de onde se calculou uma concentração média de mercúrio no tecido muscular de 0.5250 ppm e um desvio padrão de
0.3486 ppm. Encontre o intervalo de confiança de 95% para a média de mercúrio no tecido muscular dos peixes da
Flórida, sabendo que t52,0.025 ≈ 2.007.
Page 99
DRAFT VERSION
9. Para uma população normal com variância conhecida, responda:
σ
a) Qual o nı́vel de confiança para o intervalo x ± 2.14 √ ?
n
b) Quais os valores de z que levam a um intervalo de 94% de confiança?
10. (Adaptado de Anderson et al. (2007)) Uma rádio do estado anunciou que 90% dos hotéis da Serra Gaúcha estariam
lotados no final de semana do dia dos pais. A estação aconselhou os ouvintes a fazerem reserva antecipada para
se hospedar na Serra nestes dias. No sábado à noite uma amostra de 58 hotéis revelou que 49 diziam “sem vagas”.
Qual é a sua reação à afirmação da rádio, depois de ver a evidência da amostra? Use 5% de nı́vel de significância.
11. (Adaptado de Magalhães and Lima (2002)) Uma variável aleatória tem distribuição normal com desvio padrão igual
a 12. Estamos testando se a média é igual ou diferente de 20. Para isso coletamos uma amostra de tamanho 100,
obtendo uma média amostral de 17.4.
a) Formule as hipóteses.
b) Obtenha a região crı́tica e dê a conclusão para os seguintes nı́veis de significância: 1%, 5% e 10%.
c) Construa um intervalo com 95% de confiança para a média. Interprete.
12. (Adaptado de Pagano (2004)) A distribuição da pressão sanguı́nea diastólica na população de mulheres diabéticas
segue distribuição Normal com média desconhecida. Os médicos desejam saber se esta média é a mesma da população
de mulheres sem diabetes, que é 74.4 mmHg.
a) Construa as hipóteses.
b) Uma amostra de 10 mulheres diabéticas foi selecionada. A amostra apresentou média x̄10 = 84 mmHg e desvio
padrão s10 = 9.1 mmHg. Faça o teste bilateral para testar as hipóteses do item (a), com 5% de nı́vel de
significância.
c) Calcule o valor p do teste.
d) A conclusão teria sido a mesma se tivéssemos escolhido um nı́vel de significância de 1%?
e) Construa um intervalo com 90% de confiança e outro com 95%. Compare. O que acontece quando aumentamos
a confiança do intervalo?
13. (Adaptado de Anderson et al. (2007)) Na Western University, a média histórica da pontuação nos exames para
obtenção de bolsas de estudo é 900. Uma amostra de tamanho n = 200 foi observada, de onde se calculou x̄ = 935.
Presume-se ainda que o desvio padrão da população é conhecido e igual a σ = 180.
a) O vice-reitor deseja avaliar se a média histórica se modificou. Estabeleça as hipóteses.

b) Construa o intervalo de confiança de 95% sob H0 para testar as hipóteses estabelecidas no item (a). Qual a sua
conclusão?
14. Uma empresa que fornece serviços de digitação (antiga datilografia) afirma que seus digitadores cometem, em média,
não mais do que 3 erros de digitação por página. Uma amostra aleatória de 25 páginas digitadas pela empresa foi
selecionada, e neste grupo foi contabilizado um total de 80 erros e um desvio padrão de 0.4 erro por página.
a) Quais as estimativas por ponto da média e do desvio padrão populacionais?

b) Defina as hipóteses.
c) Utilizando nı́vel de significância de 5%, você aceita ou rejeita a hipótese apresentada pela empresa? Apresente o
desenvolvimento, a decisão estatı́stica (DE) e a conclusão experimental (CE).
d) Se um livro possui 150 páginas, qual o total de erros de digitação estimado?
15. Uma fábrica que embala certo produto afirma que o conteúdo de suas embalagens contém em média 500g. Um
consumidor com bastante tempo livre resolveu fazer o teste, comprando 25 embalagens do produto e pesando-as. A
média dos pesos (massas, para ser fisicamente mais preciso) foi de 492g, e o desvio padrão de 30g.
a) Se o objetivo do órgão fiscalizador é decidir se a fábrica deve ou não ser multada, quais as hipóteses mais
adequadas neste caso?
b) Utilizando nı́vel de significância de 5%, a fábrica deve ser multada? Apresente o desenvolvimento, a distribuição
utilizada, a estatı́stica do teste e o valor crı́tico.
16. A fábrica de automóveis WMB afirma que seus carros têm um rendimento médio de 10.4 km/L. Uma locadora,
especializada em modelos da WMB observou uma amostra de 25 carros, obtendo uma média de 9.8 km/L e um
desvio padrão de 2.3 lm/L. Com α = 5% pode-se aceitar que os carros apresentam rendimento médio igual ao
declarado pela fábrica?
Page 100
DRAFT VERSION
“ Se queres conhecer o passado, examina o presente que é o resultado;

se queres conhecer o futuro, examina o presente que é a causa.”
∼ Confúcio
5 Modelos Lineares
5.1 Correlação
Correlação é uma medida do (grau de) alinhamento entre duas v.a. quantitativas.
Intuitivamente pode-se considerar as nuvens de pontos cruzando x e y, apresentadas sem os eixos na
Figura 5.172 . Note que os alinhamentos perfeitos apresentam correlação +1 (ascendente) e −1 (descen-
dente). À medida que a nuvem de pontos fica menos linear, a correlação vai para zero.
Figura 5.1: Alguns exemplos de relacionamento entre duas variáveis quantitativas e suas correlações
5.1.1 ρ, a correlação universal

A correlação universal de duas v.a. X e Y é definida por
cov(X, Y )
ρ = cor(X, Y ) = , (123)
D(X)D(Y )
onde
cov(X, Y ) = E [(X − E(X))(Y − E(Y ))] (124)
é a covariância entre X e Y , D(X) e D(Y ) são respectivamente os desvios padrão73 de X e Y e
−1 ≤ ρ ≤ +1 (125)
0 ≤ |ρ| ≤ +1. (126)

72 https://commons.wikimedia.org/wiki/File:Correlation_examples.png
73 Seções 2.4.3, 3.3.1 e 3.4.1.
Page 101
DRAFT VERSION
Se |ρ| = +1, então existe uma relação linear da forma Y = β0 + β1 X. Se ρ = +1, β1 > 0; se ρ = −1,
β1 < 0. Se X é independente de Y , então ρ = 0, mas o contrário não é necessariamente verdadeiro74 .
No senso comum, ‘correlação’ possui uma ampla gama de significados. Até mesmo na Estatı́stica existe
uma pequena confusão entre as diferentes terminologias. O termo também se refere à correlação amostral,
geralmente calculada através da(o) (coeficiente de) correlação (amostral) (de Pearson), descrita(o) na
Seção 5.1.2. Nesta seção aborda-se ainda a correlação no caso da Regressão Pela Origem (RPO), denotada
por rRP O .
Exemplo 5.1. (Dados bivariados) Considere a idéia de estimar o número de garrafas de bebida a serem
geladas dependendo da temperatura máxima do dia. Seja X: ‘temperatura máxima do dia em ◦ C’ e Y :
‘número de garrafas de bebida consumidas’, observadas conforme Tabela 5.1.
i xi yi i xi yi i xi yi
1 29.5 145 11 28.5 183 21 40.9 233
2 31.3 170 12 28.0 158 22 28.6 169
3 34.7 167 13 36.7 181 23 36.1 192
4 40.4 244 14 31.5 123 24 27.1 106
5 28.4 159 15 38.1 223 25 29.5 170
6 40.3 195 16 33.5 176 26 31.6 167
7 41.1 225 17 37.2 196 27 25.2 133
8 36.2 206 18 41.9 238 28 31.5 138
9 35.7 200 19 31.5 184 29 39.8 199
10 26.1 134 20 38.2 213 30 30.8 172
Tabela 5.1: Temperatura máxima do dia (X, em ◦ C) e Consumo de bebida (Y , em # garrafas)
Um gráfico de dispersão75 pode ajudar a explorar o comportamento da temperatura e garrafas consu-

midas. O RStudio pode ajudar.
240
220
200
180
gar
160
140
120
25 30 35 40
temp
Figura 5.2: Dispersão de X e Y
74 Sob certas condições de regularidade – e.g. normalidade – a recı́proca é verdadeira.

75 Seção 2.6.5.
Page 102
DRAFT VERSION
> # Lendo o arquivo 'drinks.txt' direto do link
> dr <- read.table('http://www.filipezabala.com/data/drinks.txt', head=T)
> plot(dr)
> summary(dr)
temp gar
Min. :25.20 Min. :106.0
1st Qu.:29.50 1st Qu.:161.0
Median :32.55 Median :178.5
Mean :33.66 Mean :180.0
3rd Qu.:37.88 3rd Qu.:199.8
Max. :41.90 Max. :244.0
5.1.2 r, (coeficiente de) correlação (amostral) (de Pearson)

O coeficiente de correlação (amostral) (de Pearson), denotado por r, pode ser obtido por qualquer
uma das equações a seguir:
n
1 X xi − x̄ yi − ȳ
r = (127)
n i=1 sx sy
P
(xi − x̄)(yi − ȳ)
r = pP P (128)
(xi − x̄)2 (yi − ȳ)2
P P P
n xi yi − xi yi
r = p , (129)
x2i − ( xi )2 ][n yi2 − ( yi )2 ]
P P P P
[n
onde
n n
1X 1X
x̄ = xi , s2x = (xi − x̄)2 ,
n i=1 n i=1
n n
1X 1X
ȳ = yi , s2y = (yi − ȳ)2 .
n i=1 n i=1
Note pela Equação (127) que r é uma média dos produtos dos pares ordenados (xi , yi ) padronizados,
com i ∈ {1, 2, . . . , n}. Se os pares de produto positivo predominarem, r será positivo. Se os pares de
produto negativo predominarem, r será negativo. Esta estrutura é chamada de momento-produto. A
Equação (128) remete à definição (123), enquanto a Equação (129) é útil para a realização dos cálculos.
Exemplo 5.2. (Correlação de Pearson) Considere novamente os dados do Exemplo 5.1.
O grau de alinhamento das variáveis pode ser estimado pelo coeficiente de correlação de Pearson,
bastando calcular X X
x = 1009.9, x2 = 34729.55,
X X
y = 5399, y 2 = 1006663,
X
xy = 186087.7, n = 30
e substituir na Equação (129), resultando em
30 × 186087.7 − 1009.9 × 5399

r = p
[30 × 34729.55 − (1009.9)2 ][30 × 1006663 − (5399)2 ]
130180.9
= √
21988.49 × 1050689
r ≈ 0.85647063.
Page 103
DRAFT VERSION
> # Lendo o arquivo 'drinks.txt' direto do link
> attach(read.table('http://www.filipezabala.com/data/drinks.txt', head=T))
> cor(temp,gar) ao 'cor'
# Pela funç~
[1] 0.8564706
5.1.3 Teste para ρ

Da mesma forma que foram realizados testes de hipótese para a média (H0 : µ = µ0 ) e proporção
(H0 : π = π0 ), usualmente testa-se a significância de outros parâmetros universais, tal como a correlação
(H0 : ρ = ρ0 ). O teste básico é comparar ρ com zero, que indica ausência completa de alinhamento entre
as variáveis. Assim, testa-se H0 : ρ = 0 (não há correlação) vs H1 : ρ 6= 0 (há correlação), denotado por

H0 : ρ = 0
.
H1 : ρ 6= 0
Se considerarmos o modelo completo na forma β0 na forma Y = β0 + β1 X, então sob H0
r
(n − 2)
T =r ∼ tn−2 . (130)
1 − r2
Exemplo 5.3. (Verificando o alinhamento no modelo completo) Considere novamente as informações
apresentadas no Exemplo 5.2. Pode-se testar

H0 : ρ = 0
H1 : ρ 6= 0
considerando o modelo completo Y = β0 + β1 X, implicando em T ∼ t30−2 ≡ t28 e que sob H0 resulta em

r
(30 − 2)
T = 0.8564706 ≈ 8.780.
1 − 0.85647062
> n <- 30
> r <- cor(temp,gar)
> (Tt <- r*sqrt((n-2)/(1-r^2)))
[1] 8.779647
> (p_value <- 2*pt(-abs(Tt),n-2))
[1] 1.568402e-09
> cor.test(temp,gar) # Funç~

ao que realiza o teste de hipótese
Pearson's product-moment correlation
data: temp and gar

t = 8.7796, df = 28, p-value = 1.568e-09
alternative hypothesis: true correlation is not equal to 0
0.7176348 0.9298311
sample estimates:
cor
0.8564706
Page 104
DRAFT VERSION
5.1.4 ρRP O e rRP O , a correlação na Regressão Pela Origem
Existe um caso especial de cálculo de correlação chamado Regressão Pela Origem (RPO) – descrito
detalhadamente na Seção 5.2.1 – que pode ser omitido em uma primeira leitura. Nestes casos pode-se
calcular rRP O através da expressão
sP
ŷi2
rRP O = . (131)
yi2
P
Exemplo 5.4. (Correlação na RPO) Considere as informações do Exemplo 5.2. Pode-se calcular
997094.2 √
r
rRP O = = 0.9904945 ≈ 0.9952359.
1006663
P 2
Para detalhes do cálculo de ŷi vide Exemplo 5.10.
,
Teste para ρRP O
No caso do modelo RPO ou ‘sem intercepto’, no qual β0 = 0, na forma Y = β1 X + ε, as hipóteses são

H0 : ρRP O = 0
.
H1 : ρRP O 6= 0
Sob H0 , a estatı́stica do teste é
s
(n − 1)
TRP O = rRP O 2 ∼ tn−1 . (132)
1 − rRP O
Exemplo 5.5. (Verificando o alinhamento no modelo RPO) Considere as informações do Exemplo 5.4.
Pode-se testar
No caso do modelo RPO na forma Y = β1 X ocorre TRP O ∼ t30−1 ≡ t29 , que sob H0 resulta em
r
(30 − 1)
TRP O = 0.9952359 ≈ 54.972.
1 − 0.99523592
> n <- 30
> r_rpo <- 0.9952359
> (T_rpo <- r_rpo*sqrt((n-1)/(1-r_rpo^2)))
[1] 54.97149
> (p_value <- 2*pt(-abs(T_rpo),n-1))
[1] 7.072562e-31
5.2 Modelo Linear Univariado ou Regressão Linear Simples

Modelo linear univariado ou regressão linear simples é um conjunto de métodos utilizado para ajustar
uma reta76 a uma nuvem de pontos observada. Esta nuvem de pontos é formada por pares ordenados
(xi , yi ). A aplicabilidade é imediata, pois consegue-se uma regra entre uma variável independente (usu-
almente denotada por X) e uma variável dependente (usualmente Y ). A qualidade do ajuste depende
do grau de alinhamento entre X e Y . Conforme apresentado na Seção 5.1, sabe-se que se |ρ| = +1,
então existem constantes β0 e β1 tal que Y = β0 + β1 X. Na prática, porém, é bastante improvável
76 Veja o Apêndice D para maiores detalhes.
Page 105
DRAFT VERSION
encontrarmos variáveis com alinhameto perfeito. Por este motivo considera-se o caso geral |ρ| < +1,
descrito na forma
Y = β0 + β1 X + ε. (133)
Na linguagem usual denota-se β0 por coeficiente linear, termo independente ou intercepto. β1 é conhecido
como coeficiente angular. O termo de erro ε aparece devido ao fato de os pontos não se alinharem
perfeitamente. Assim supõe-se que os erros se distribuam normalmente com média zero e variância σε2 ,
i.e.,
ε ∼ N (0, σε2 ). (134)
A Figura 5.3 ilustra os casos de alinhamento perfeito (ε = 0) e com ruı́do (ε ∼ N (0, σε2 )), indicado pelas
linhas verticais. A distribuição de Y condicionada em X é Y |X = x ∼ N (β0 + β1 x, σε2 ).
(a) ε = 0 (b) ε ∼ N (0, σ 2 )
Figura 5.3: Alinhamento perfeito (Y = β0 + β1 X) e alinhamento com ruı́do normal (Y = β0 + β1 X + ε)
5.2.1 Equação da reta via Mı́nimos Quadrados Ordinários

A Equação (133) refere-se ao modelo universal, i.e., construı́do com todos os N pares ordenados do
universo. Na maioria dos casos práticos, entretanto, trabalha-se com amostras, tornando-se necessário
estimar os valores de β̂0 e β̂1 . O método dos Mı́nimos Quadrados (Ordinários) é utilizado para calcular
estas estimativas. O princı́pio do método é minimizar a soma de quadrado dos erros, i.e.,
n
X
minimizar ε2i . (135)
i=1
Basicamente utiliza-se εi = yi − β0 − β1 xi na Equação (135) e deriva-se em relação a β0 e β1 , fazendo

cada uma das derivadas parciais igual a zero77 .
As estimativas por mı́nimos quadrados para o modelo Y = β0 + β1 X + ε são dadas por
P P P
n xi yi − xi yi
β̂1 = P 2 P (136)
n xi − ( xi ) 2
e
β̂0 = ȳ − β̂1 x̄. (137)

77 Para maiores detalhes, veja Morettin and Bussab (2008) e DeGroot and Schervish (2002).
Page 106
DRAFT VERSION
Exemplo 5.6. (Equação da reta por MQO para Y = β0 + β1 X + ε) A partir das Equações (136), (137)
e das informações do Exemplo 5.2, pode-se calcular
30 × 186087.7 − 1009.9 × 5399 130180.9
β̂1 = 2
= ≈ 5.9204
30 × 34729.55 − (1009.9) 21988.49
e
5399 1009.9
β̂0 = − 5.9204 × ≈ −19.3341.
30 30
Assim, se estiver previsto 39 ◦ C para amanhã, espera-se o consumo de
ŷ = −19.3341 + 5.9204 × 39 = 211.5619 ≈ 212

garrafas de bebida em volta da piscina.
,
> summary(lm(gar ~ temp)) # Facilita duas barbaridades
Call:
lm(formula = gar ~ temp)
Residuals:
Min 1Q Median 3Q Max
-44.159 -8.965 3.582 10.810 33.602
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -19.3341 22.9437 -0.843 0.407
temp 5.9204 0.6743 8.780 1.57e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.26 on 28 degrees of freedom

Multiple R-squared: 0.7335, Adjusted R-squared: 0.724
F-statistic: 77.08 on 1 and 28 DF, p-value: 1.568e-09
Regressão Pela Origem (RPO)
Existem casos em que há razões teóricas para supor Y = 0 quando x = 0. Nestas situações cabe
definir uma Regressão Pela Origem 78 (RPO), i.e., assume-se a priori que β0 = 0. A estimativa por
mı́nimos quadrados para o modelo Y = β1 X + ε é dada por
P
xi yi
β̂1 = P 2 . (138)
xi
Exemplo 5.7. (Churras) Todas as pessoas que possuem 0 ou 1 no segundo dı́gito da carteira de identidade
sabem que para um bom churrasco deve-se comprar meio quilo de carne por pessoa. Assim, pode-se definir
o modelo
Y = 0.5x,
onde x é o número de participantes e Y é a quantidade de carne a ser adquirida. Note que Y = 0 quando
x = 0, i.e., quando não há pessoas para o churras, o ideal é não comprar carne.
,
Exemplo 5.8. (Equação da reta por MQO para Y = β1 X+ε) A partir da Equação (138) e das informações
do Exemplo 5.2, pode-se calcular
186087.7
β̂1 = ≈ 5.358195.
34729.55
Assim, se estiver previsto 39 ◦ C para amanhã, espera-se o consumo de
78 Para mais detalhes sobre esta classe de modelos sugere-se a leitura de Eisenhauer (2003).
Page 107
DRAFT VERSION
ŷ = 5.358195 × 39 = 208.9696 ≈ 209
garrafas de bebida em volta da piscina. Note que Y = 0 quando x = 0, tal como no caso do Exemplo 5.7.
> summary(lm(gar ~ temp - 1)) # -1 indica o modelo sem intercepto
Call:
lm(formula = gar ~ temp - 1)
Residuals:
-45.783 -11.262 3.533 12.008 30.291
Coefficients:
temp 5.35819 0.09747 54.97 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 3022 on 1 and 29 DF, p-value: < 2.2e-16
5.2.2 Análise de diagnóstico

A análise de diagnóstico consiste na avaliação da qualidade dos modelos ajustados de acordo com
determinadas métricas. A rigor não é recomendado tirar conclusões de um modelo sem antes avaliar sua
qualidade, tal como apresentado nos Exemplos 5.6 e 5.8. A sequência de testes e avaliações sugeridas a
seguir não esgotam as possibilidades de diagnóstico, mas podem ser consideradas como avaliações básicas
para qualquer modelo linear.
Teste para β1
O teste para β1 é fundamental na análise de diagnóstico. É com ele que decide-se a respeito da
presença ou ausência de relação linear entre X e Y . Particularmente no caso da regressão linear simples,
os testes para β1 e ρ79 são equivalentes. As hipóteses do teste para β1 são
H0 : β1 = β1∗

.
H1 : β1 6= β1∗
No caso do modelo completo Y = β0 + β1 X + ε, sob H0
β̂1 − β1∗
T1 = ∼ tn−2 , (139)
ep(β̂1 )
onde
s sP
n
σ̂ 2 (y − ŷi )2 /(n − 2)
ep(β̂1 ) = = Pni
i=1
2
. (140)
Sxx i=1 (xi − x̄)
Apesar do uso do valor genérico β1∗ , é usual testar H0 : β1 = 0 (não há correlação, ou X não explica
Y linearmente) vs H1 : β1 6= 0 (há correlação, ou X explica Y linearmente), tal como no teste para
ρ. A medida ep(β̂1 ) é o erro padrão de β̂1 , que depende das distâncias entre os valores observados yi e
os valores estimados pelo modelo, denotados por ŷi . Os valores estimados pelo modelo são obtidos por
ŷi = β̂0 + βˆ1 xi .
79 Seção 5.1.4
Page 108
DRAFT VERSION
Exemplo 5.9. (Teste para β1 em Y = β0 + β1 X + ε) Considere as informações dos Exemplos 5.2, 5.3 e
5.6. Pode-se testar H0 : β1 = 0 vs H1 : β1 6= 0 calculando-se inicialmente ŷi = β̂0 + βˆ1 xi por
ŷ1 = −19.3341 + 5.9204 × 29.5 = 155.3180

ŷ2 = −19.3341 + 5.9204 × 31.3 = 165.9748
..
.
ŷ30 = −19.3341 + 5.9204 × 30.8 = 163.0146.
Assim,
30
X
(yi − ŷi )2 = (145 − 155.3180)2 + (170 − 165.9748)2 + . . . + (172 − 163.0146)2 = 9332.152
i=1
e
30 2 2
X
2 1009.9 1009.9
(xi − x̄) = 29.5 − + . . . + 30.8 − = 732.9497.
i=1
30 30
Pela Equação (140) o erro padrão de β̂1 é dado por

r
9332.152/(30 − 2)
ep(β̂1 ) = ≈ 0.6743336,
732.9497
que sob H0 resulta em
5.9204 − 0
T1 = ≈ 8.780.
0.6743336
Pela linha ν = 30 − 2 = 28 da Tabela t (pg. 133) sabe-se que P r(T > 8.780) < 0.0005 = P r(T >
3.674), i.e., p = 2P r(T > 8.780) < 2 × 0.0005 = 0.001. Pelo nomograma da Figura 3.6b (pg. 71)
verifica-se uma considerável significância, onde p < 1 − 0.999999 = 0.000001. O p calculado via software
resulta em p = 7.842031 × 10−10 = 0.0000000007842031.
,
Note a equivalência entre os testes para ρ (Exemplo 5.3) e β1 (Exemplo 5.9). No caso da RPO
Y = β1 X + ε, sob H0
β̂1 − β1∗
T1 = ∼ tn−1 , (141)
ep(β̂1 )
onde
s sP
n 2
σ̂ 2 i − ŷi ) /(n
i=1 (yP − 1)
ep(β̂1 ) = = n 2 . (142)
Sxx i=1 xi
Exemplo 5.10. (Teste para β1 em Y = β1 X + ε) Considere as informações dos Exemplos 5.2, 5.4 e 5.5.
Pode-se testar H0 : β1 = 0 vs H1 : β1 6= 0 calculando-se inicialmente ŷi = βˆ1 xi por
ŷ1 = 5.358195 × 29.5 = 158.0668

ŷ2 = 5.358195 × 31.3 = 167.7115
..
.
ŷ30 = 5.358195 × 30.8 = 165.0324.
Assim,
30
X
(yi − ŷi )2 = (145 − 158.0668)2 + (170 − 167.7115)2 + . . . + (172 − 165.0324)2 = 9568.823.
i=1
Page 109
DRAFT VERSION
Pela Equação (142), o erro padrão de β̂1 é dado por
r
9568.823/(30 − 1)
ep(β̂1 ) = ≈ 0.09747218,
34729.55
5.358195 − 0
T1 = ≈ 54.972.
0.09747218
Pela linha ν = 30 − 1 = 29 da Tabela t (pg. 133) sabe-se que P r(T > 54.972) < 0.0005 = P r(T >
3.674), i.e., p = 2P r(T > 54.972) < 2 × 0.0005 = 0.001. Pelo nomograma da Figura 3.6b (pg. 71)
verifica-se uma considerável significância, onde p < 1 − 0.999999 = 0.000001. O p calculado via software
resulta em p = 0.0000000.
,
Teste para β0
As hipóteses para o teste do intercepto β0 são
H0 : β0 = β0∗

.
H1 : β0 6= β0∗
Sob H0 ,
β̂0 − β0∗
T0 = ∼ tn−2 , (143)
ep(β̂0 )
onde
s s Pn
x̄2 2 1 x̄2

1 i=1 (yi − ŷi )
ep(β̂0 ) = σ̂ 2 + = + Pn 2
. (144)
n Sxx n−2 n i=1 (xi − x̄)
A medida ep(β̂0 ) é o erro padrão de β̂0 . Novamente o padrão é testar H0 : β0 = 0. Caso o teste não
indique a rejeição de H0 , basta utilizar a RPO e recalcular β̂1 conforme Equação (138).
Exemplo 5.11. (Teste para β0 ) Considere novamente as informações dos Exemplos 5.2, ??, 5.3, 5.6 e
5.9. Pode-se testar H0 : β0 = 0 vs H1 : β0 6= 0 calculando
s
(1009.9/30)2

9332.152 1
ep(β̂0 ) = + ≈ 22.94372,
30 − 2 30 732.9497
−19.3341 − 0
≈ −0.843.
T0 =
22.94372
Pela linha ν = 30 − 2 = 28 da Tabela t (pg. 133) sabe-se que 0.10 0.843) < 0.25, i.e.,
0.20 0.05. O p calculado via software
resulta em p = 0.4065509.
,
Page 110
DRAFT VERSION
Análise dos resı́duos
Resı́duo é a diferença entre o valor observado (yi ) e o valor estimado por um modelo (ŷi ), a partir
de uma amostra. Quanto menor esta diferença, melhor será o ajuste do modelo aos dados, podendo-se
obter resı́duo zero no caso particular em que todos os pontos estão sobre a curva (Figura 5.3a).
Como existe a suposição ε ∼ N (0, σε2 ) no universo, espera-se que os resı́duos tenham distribuição
aproximadamente normal com média zero. Para validar o modelo, porotanto, procede-se com testes do
hipótese para avaliar H0 : a distribuição é normal e H0 : µε = 0. Existem diversos testes de normalidade
na literatura, sem haver um teste ótimo em relação aos demais. A linguagem R oferece por padrão o
teste de normalidade de Shapiro-Wilk através da função stats::shapiro.test.
Além dos testes utiliza-se usualmente o qq-plot, que indica graficamente o quão próximos os resı́duos
estão de uma normal teórica. A Figura 5.4 apresenta gráficos de qq-plot para diferentes distribuições de
probabilidade. Na Figura 5.4a é possı́vel notar um ajuste bastante adequado aos dados simulados a partir
de uma distribuição normal teórica. Na Figura 5.4b estão os dados simulados de uma distribuição t, cujas
caudas pesadas aparecem descoladas da reta nos extremos. A distribuição de Poisson, apresentada na
Figura 5.4c, é uma distribuição discreta e fica nitidamente mal ajustada à reta teórica. O último exemplo
(Figura 5.4d) é de uma distribuição qui-quadrado, com assimetria explı́cita no gráfico.
(a) Normal (b) t
(c) Poisson (d) Qui-quadrado
Figura 5.4: QQ-plot para diferentes distribuições
Page 111
DRAFT VERSION
Exemplo 5.12. (Resı́duos) Dos Exemplos 5.6 e 5.8 podem-se ajustar qq-plots como na Figura 5.5.
(a) RPO, Y = 5.3582x (b) Completo, Y = −19.3341 + 5.9204x
Figura 5.5: QQ-plots
> # Teste de resı́duos do modelo RPO

> fit0 <- lm(gar ~ temp-1)
> shapiro.test(fit0$residuals)
Shapiro-Wilk normality test
data: fit0£residuals
W = 0.9498, p-value = 0.167
> # Teste de resı́duos do modelo completo

> fit <- lm(gar ~ temp)
> shapiro.test(fit$residuals)
data: fit£residuals
W = 0.95569, p-value = 0.2394
,
Coeficiente de Determinação r2
O coeficiente de determinação é uma medida de avaliação da qualidade do ajuste de um modelo. O
princı́pio é comparar a Soma de Quadrado dos Resı́duos do modelo ajustado (SQRmodelo ) com a Soma
de Quadrado dos Resı́duos do modelo nulo (SQRmodelo nulo ) através da expressão
(yi − ŷ)2
P
2 SQRmodelo
r =1− =1− P . (145)
SQRmodelo nulo (yi − ȳ)2
O modelo nulo é um modelo de referência, geralmente ȳ. Usualmente define-se r2 como a proporção
da variação de Y que é explicada ajustando-se um particular modelo que depende de X. No caso da
regressão linear simples, o coeficiente de determinação é dado pelo quadrado do coeficiente de correlação
de Pearson, sendo simplesmente r2 .
Uma caracterı́stica importante é que a magnitude de r2 depende da amplitude de variação do X,
conforme Figura 5.6a. Anscombe (1973) sugeriu quatro conjuntos de dados com mesma média de X e Y,
porém com comportamentos bem diferentes, conforme Figura 5.6b. A conclusão de Anscombe é que um
r2 alto não assegura uma relação válida, portanto deve-se sempre avaliar o r2 juntamente com o gráfico
de dispersão.
Page 112
DRAFT VERSION
12
12
10
10
y1
y2
8
8
6
6
4
4
5 10 15 5 10 15
x1 x2
12
12
10
10
y3
y4
8
8
6
6
4
4
5 10 15 5 10 15
x3 x4
(a) r2 para diferentes amplitudes de X (b) Conjuntos de dados de Anscombe
Figura 5.6: Dispersão de X e Y
> summary(anscombe[,1:4]) # Medidas de posiç~

ao para x
x1 x2 x3 x4
Min. : 4.0 Min. : 4.0 Min. : 4.0 Min. : 8
1st Qu.: 6.5 1st Qu.: 6.5 1st Qu.: 6.5 1st Qu.: 8
Median : 9.0 Median : 9.0 Median : 9.0 Median : 8
Mean : 9.0 Mean : 9.0 Mean : 9.0 Mean : 9
3rd Qu.:11.5 3rd Qu.:11.5 3rd Qu.:11.5 3rd Qu.: 8
Max. :14.0 Max. :14.0 Max. :14.0 Max. :19
> summary(anscombe[,5:8]) # Medidas de posiç~

ao para y
y1 y2 y3 y4
Min. : 4.260 Min. :3.100 Min. : 5.39 Min. : 5.250
1st Qu.: 6.315 1st Qu.:6.695 1st Qu.: 6.25 1st Qu.: 6.170
Median : 7.580 Median :8.140 Median : 7.11 Median : 7.040
Mean : 7.501 Mean :7.501 Mean : 7.50 Mean : 7.501
3rd Qu.: 8.570 3rd Qu.:8.950 3rd Qu.: 7.98 3rd Qu.: 8.190
Max. :10.840 Max. :9.260 Max. :12.74 Max. :12.500
> sqrt((colMeans(anscombe^2)-(colMeans(anscombe))^2)*11/10) # Desvios padr~

ao
x1 x2 x3 x4 y1 y2 y3 y4
3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579
> cor(anscombe[,c('x1','y1')])[1,2]^2 # Coeficiente de determinaç~

ao de (x1,y1)
[1] 0.6665425

ao de (x2,y2)
[1] 0.666242

ao de (x3,y3)
[1] 0.666324

ao de (x4,y4)
[1] 0.6667073
Page 113
DRAFT VERSION
Exemplo 5.13. (Coeficiente de determinação do modelo completo) Primeiramente calcula-se a SQRmodelo nulo
por
30 2 2
X
2 5399 5399
(yi − ȳ) = 145 − + . . . + 172 − = 35022.97.
i=1
30 30
Do Exemplo 5.9 sabe-se que
30
X
(yi − ŷi )2 = 9332.152,
i=1
permitindo que se obtenha

9332.152
r2 = 1 − ≈ 0.7335419.
35022.97
Note que do Exemplo 5.2 pode-se calcular diretamente r2 = 0.85647062 ≈ 0.7335419. Com a linguagem
R pode-se utilizar a função stats::cor.
> cor(temp,gar)^2
[1] 0.7335419
EXERCÍCIOS
1. Um corretor-cientista percebeu um alinhamento razoável entre a metragem quadrada (x) dos imóveis que vende e o
preço de imóveis (y) em localizações próximas, e ajustou um modelo linear entre x e y com base em 8 apartamentos
do seu portfolio. Encontrou a equação
f (x) = y = 2192.04x − 14401.57.
a) O corretor calculou uma correlação de 0.9586. Faça o teste de hipóteses apropriado com α = 0.05 e interprete o
coeficiente de correlação.
b) Interprete o coeficiente angular no contexto do problema.
c) Se um cliente deste corretor pedisse R$150, 000.00 por um apartamento de 55m2 , você acharia que o preço está
adequado? Justifique.
2. É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, uma nutricionista
selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular
(Y), resultando na reta de regressão
y = −0.4x + 55
a) Se a correlação de Pearson foi igual a −0.837, teste H0 : ρ = 0 com α = 5%.

b) Considerando a reta fornecida, estime a massa muscular média de mulheres com 60 anos.
c) Interprete o coeficiente angular no contexto do problema.
Page 114
DRAFT VERSION
3. Considere as notas de 10 alunos em duas provas de certa disciplina, apresentadas na tabela abaixo.
P1 (x) 2.0 3.2 4.0 4.0 5.0 5.6 7.0 8.3 9.3 10.0
P2 (y) 3.0 5.0 6.0 5.0 7.0 8.0 7.0 8.0 8.0 9.6
(a) Modelo com intercepto (b) Modelo sem intercepto
a) Calcule e teste a significância da correlação amostral com α = 1%.

b) Compare os valores Multiple R-Squared com a correlação calculada no item anterior. O que você observa?
c) A partir da análise de diagnóstico apresentada, escolha o melhor regressão e escreva na forma y = β̂0 + β̂1 x.
Justifique sua escolha.
d) Compare os testes para a correlação amostral e para β̂1 dos dois modelos. O que você observa?
e) Utilizando o modelo escolhido, calcule quanto espera-se que um aluno tire na P2 sendo que sua P 1 = 5.6.
Page 115
DRAFT VERSION
4. Seu Macedo desconfia que a venda diária de picolés da sua budega está linearmente relacionada com a temperatura
máxima do dia. Para isso ajustou dois modelos lineares a partir de 9 pares de observações, apresentados a seguir.
a) Teste a significância da correlação amostral com α = 5%.

b) A partir da análise de diagnóstico apresentada, escolha o melhor regressão e escreva na forma y = β̂0 + β̂1 x.
Justifique sua escolha.
c) Compare os testes para a correlação amostral e para β̂1 . O que você observa?
d) Utilizando o modelo escolhido, quantos picolés seu Macedo estima vender quando observar uma temperatura
máxima de 22 graus Celsius?
e) Se seu Macedo vendeu 340 picolés em um dia, qual a temperatura máxima esperada para aquele dia?
Page 116
DRAFT VERSION
5. Durante os eventos esportivos disponibilizam-se locais abertos para o público assistir aos jogos. O número de pessoas
que comparecem a estes locais (y) parece estar relacionado com a quantidade de chuva (x) observada no dia dos
jogos. Para avaliar esta relação, observou-se a precipitação e o público presente durante 7 dias em um certo local de
eventos.
a) Qual a sua decisão sobre H0 : ρ = 0 vs H1 : ρ 6= 0? Argumente.

b) Sugira um modelo, indicando-o na forma y = β̂0 + β̂1 x. Justifique indicando os testes de hipóteses utilizados,
juntamente com seus p-values (coluna Pr(>|t|)) e comparação dos qq-plots.
c) Interprete o coeficiente angular β̂1 no contexto do problema.
d) Se a previsão do tempo indica 12 mm de chuva, qual o público estimado para este dia utilizando o modelo
escolhido no item (b)?
Page 117
DRAFT VERSION
6. Um estudo apontou a nota média em certa disciplina (y) de 10 alunos em função do número de horas mensais de
estudo (x).
a) Qual a sua decisão sobre H0 : ρ = 0 vs H1 : ρ 6= 0? Argumente.

b) Sugira um modelo, indicando-o na forma y = β̂0 + β̂1 x. Justifique indicando os testes de hipóteses utilizados,
juntamente com seus p-values (coluna Pr(>|t|)).
c) Interprete o coeficiente angular β̂1 no contexto do problema.
d) Se uma pessoa estuda 15 horas por mês, qual sua nota média esperada nesta disciplina? Utilize o modelo escolhido
no item (b).
Page 118
DRAFT VERSION
“ Talvez meu verso não diga tudo que eu quero dizer,

mas é com poucas palavras que muitos vão entender.”
∼ Gaúcho da Fronteira, 1981
6 Modelos Não Lineares

Modelos não lineares podem assumir formas funcionais quaisquer, contendo polinômios, logarı́tmos,
raı́zes, etc.
> # Lendo dados

> x <- read.table('http://www.filipezabala.com/data/drinks.txt', head=T)
> attach(x)
> # Descritivas
> summary(x)
temp gar
Min. :25.20 Min. :106.0
1st Qu.:29.50 1st Qu.:161.0
Median :32.55 Median :178.5
Mean :33.66 Mean :180.0
3rd Qu.:37.88 3rd Qu.:199.8
Max. :41.90 Max. :244.0
> # Correlaç~
ao
> cor.test(temp,gar)
Pearson's product-moment correlation
data: temp and gar

t = 8.7796, df = 28, p-value = 1.568e-09
alternative hypothesis: true correlation is not equal to 0
0.7176348 0.9298311
sample estimates:
cor
0.8564706
> # Diagnostico
> d <- function(modelo){
print(summary(modelo))
par(mfrow=c(2,2));plot(modelo, which = 1:4)
print(shapiro.test(modelo$residuals))
print(paste0('AIC = ', AIC(modelo)))
}
>
Page 119
DRAFT VERSION
> # linear
> fit <- lm(gar ~ temp)
> d(fit)
Call:
Residuals:
-44.159 -8.965 3.582 10.810 33.602
Coefficients:
(Intercept) -19.3341 22.9437 -0.843 0.407
temp 5.9204 0.6743 8.780 1.57e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

data: modelo$residuals
W = 0.95569, p-value = 0.2394
[1] "AIC = 263.337017768869"
Residuals vs Fitted Normal Q−Q

40
Standardized residuals
11 11
20
1
Residuals
0
−2 −1
−40
24
24
14
14
140 160 180 200 220 −2 −1 0 1 2
Fitted values Theoretical Quantiles
Scale−Location Cook's distance

14
1.5
24
0.20
24 11
Cook's distance
1.0
11
14
0.10
0.5
0.00
0.0
140 160 180 200 220 0 5 10 15 20 25 30
Fitted values Obs. number
Page 120
DRAFT VERSION
> # quadratico incompleto
> fit2 <- lm(gar ~ I(temp^2))
> d(fit2)
Call:
lm(formula = gar ~ I(temp^2))
Residuals:
-42.503 -8.452 3.270 10.608 33.237
Coefficients:
(Intercept) 78.736614 11.864893 6.636 3.36e-07 ***
I(temp^2) 0.087444 0.009844 8.883 1.23e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

W = 0.95545, p-value = 0.236
[1] "AIC = 262.818478712006"

40
11 11
20
1
Residuals
0
−2 −1
−40
24
14 24
14
140 160 180 200 220 −2 −1 0 1 2

1.5
14 24
24
0.20
11
Cook's distance
1.0
11
14
0.10
0.5
0.00
0.0
140 160 180 200 220 0 5 10 15 20 25 30
Page 121
DRAFT VERSION
> # cubico incompleto
> fit3 <- lm(gar ~ I(temp^3))
> d(fit3)
Call:
lm(formula = gar ~ I(temp^3))
Residuals:
-41.137 -9.121 2.378 11.678 32.558
Coefficients:
(Intercept) 1.113e+02 8.413e+00 13.234 1.43e-13 ***
I(temp^3) 1.689e-03 1.904e-04 8.872 1.26e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

W = 0.9566, p-value = 0.253
[1] "AIC = 262.873279706026"

40
11 11
20
1
Residuals
0
−1
−40
−2
24 14
14 24
140 160 180 200 220 −2 −1 0 1 2

1.5
24 14 24
0.20
11
Cook's distance
1.0
6
11
0.10
0.5
0.00
0.0
140 160 180 200 220 0 5 10 15 20 25 30
Page 122
DRAFT VERSION
> # logaritmico
> fit4 <- lm(gar ~ log(temp))
> d(fit4)
Call:
lm(formula = gar ~ log(temp))
Residuals:
-46.062 -9.816 4.887 12.512 33.590
Coefficients:
(Intercept) -508.37 80.49 -6.316 7.86e-07 ***
log(temp) 196.36 22.94 8.559 2.65e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

W = 0.95523, p-value = 0.2329
[1] "AIC = 264.448373488171"

40
11 11
20
1
Residuals
0
−2 −1
−40
24
24
14
14
140 160 180 200 220 −2 −1 0 1 2

0.20
14
1.5
24
24 11
Cook's distance
11 14
1.0
0.10
0.5
0.00
0.0
140 160 180 200 220 0 5 10 15 20 25 30
Page 123
DRAFT VERSION
> # Graficos
> par(mfrow=c(1,1))
> plot(temp, gar)
> abline(a = fit$coefficients[1], b = fit$coefficients[2],col = 'red')
> lines(sort(temp), fitted(fit2)[order(temp)], col='blue', type='l')
> lines(sort(temp), fitted(fit3)[order(temp)], col='green', type='l')
> lines(sort(temp), fitted(fit4)[order(temp)], col='black', type='l')
240
220
200
180
gar
160
140
120
25 30 35 40
temp
> # prediç~
ao
> newdata = data.frame(temp=39)
> predict(fit, newdata, interval='predict')
fit lwr upr

1 211.5619 172.8394 250.2845
> predict(fit2, newdata, interval='predict')
fit lwr upr

1 211.7394 173.3466 250.1322
fit lwr upr

1 211.5443 173.1245 249.9641
fit lwr upr

1 210.9992 171.5684 250.43
Page 124
DRAFT VERSION
> # erro padrao do residuo - residual standard error / root mean squared error (RMSE)
> aov(gar~temp)
Call:
aov(formula = gar ~ temp)
Terms:
temp Residuals
Sum of Squares 25690.815 9332.152
Deg. of Freedom 1 28
Residual standard error: 18.25626

Estimated effects may be unbalanced
> sqrt(sum(residuals(fit)^2) / df.residual(fit))
[1] 18.25626
> d(fit)
Call:
Residuals:
-44.159 -8.965 3.582 10.810 33.602
Coefficients:
(Intercept) -19.3341 22.9437 -0.843 0.407
temp 5.9204 0.6743 8.780 1.57e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

W = 0.95569, p-value = 0.2394
[1] "AIC = 263.337017768869"
Page 125
DRAFT VERSION
“ Alguém que acredite em crescimento infinito

em um planeta finito
é louco ou economista.”
∼ David Frederick Attenborough
7 Números Índice
m número ı́ndice é uma medida de variação percentual média. É obtido através de um quociente
U expresso em percentual. Números ı́ndices indicam, portanto, variações de preços, quantidades e
valores80 de produtos ou cestas no tempo ou espaço.
Exemplo 7.1. (Variação temporal e espacial) Suponha que o preço de um certo livro tenha variado con-
forme a Tabela 7.1.
Ano
Cidade
2014 2015
A R$ 20.00 R$ 22.00
B R$ 19.70 R$ 22.10
C R$ 21.00 R$ 25.50
Tabela 7.1: Variação temporal e espacial do preço de um livro
Variação temporal. Na cidade A, o ı́ndice de preço de 2015 em relação a 2014 é de
pA
2015 22.00
pA
2014,2015 = = = 110%,
pA
2014 20.00
i.e., o preço deste livro em 2015 é 110% − 100% = 10% superior ao seu preço em 2014 na cidade A.
Como exercı́cio, calcule e interprete a variação de 2014 para 2015 nas demais cidades.
Variação espacial. Em 2014, o ı́ndice de preço da cidade B em relação à cidade A é de
p2014 19.70
p2014
A,B =
B
2014 = = 98.5%,
pA 20.00
i.e., o preço deste livro na cidade B foi 100% − 98.5% = 1.5% inferior àquele praticado na cidade A em
2014. Como exercı́cio, calcule e interprete a variação entre as cidades B e C em relação à cidade A em
2014 e 2015.
,
Na abordagem temporal do Exemplo 7.1, o preço em 2014 é escolhido como base de referência,
também chamado de base de comparação ou ano-base. O ano de 2015 – cujo preço está sendo comparado
com a base de referência – é chamado de ano atual, não necessariamente o ano corrente.
80 valor = preço × quantidade.
Page 126
DRAFT VERSION
7.1 Índices Relativos ou Simples
Os ı́ndices relativos ou simples comparam preços, quantidades e valores de apenas um produto em
dois momentos distintos do tempo.
7.1.1 de Preço
pt
p0,t = (146)
p0
7.1.2 de Quantidade
qt
q0,t = (147)
q0
7.1.3 de Valor
vt pt qt
v0,t = = (148)
v0 p0 q0
Preço unitário (reais) Quantidade comprada

Produto
2008 (p0 ) 2009 (p1 ) 2010 (p2 ) 2008 (q0 ) 2009 (q1 ) 2010 (q2 )
Pão 1.20 1.26 1.30 300 330 360
Leite 1.70 1.80 2.00 150 150 180
Ovos 3.10 3.27 3.40 60 90 120
Carne 7.00 8.00 9.00 150 120 90
Tabela 7.2: Exemplo de uma cesta de produtos
Exemplo 7.2. (Índices relativos) Considere a cesta de produtos apresentada pela Tabela 7.2. O ı́ndice
relativo de preço da carne, de 2009 para 2010, é de
9.00
pcarne
2009,2010 = = 112.5%,
8.00
indicando um aumento de 112.5% − 100% = 12.5% no preço deste produto de 2009 para 2010. O ı́ndice
relativo de quantidade da carne de 2009 para 2010 é de
carne 90
q2009,2010 = = 75%,
120
indicando uma redução de 100% − 75% = 25% na quantidade de carne comprada de 2009 para 2010. O
ı́ndice relativo de valor da carne de 2009 para 2010 é de
carne 9.00 × 90
v2009,2010 = ≈ 84.38%,
8.00 × 120
indicando uma redução de 100% − 84.38% ≈ 15.62% no valor da carne de 2009 para 2010.
,
EXERCÍCIOS
1. Utilizando 2008 como ano-base e utilizando os produtos da Tabela 7.2, calcule:
a) O ı́ndice relativo de preço.

b) O ı́ndice relativo de quantidade.
c) O ı́ndice relativo de valor.
Page 127
DRAFT VERSION
7.2 Índices Agregativos Simples
Um ı́ndice é dito agregativo quando somam-se os preços, quantidades ou valores em uma cesta de
produtos.
7.2.1 Índice Agregativo Simples (de Bradstreet)

De preço
P i
p
P
I0,t = P it ,
p0
onde pit é o preço do i-ésimo bem na época atual e pi0 é o preço do i-ésimo bem na época base.
De quantidade
P i
Q q
I0,t = P it ,
q0
onde qti é a quantidade do i-ésimo bem na época atual e q0i é a quantidade do i-ésimo bem na época base.
De valor
P i
v
I0,t = P it ,
V
v0
onde vti = pit qti é o valor do i-ésimo bem na época atual e v0i = pi0 q0i é o valor do i-ésimo bem na época
base.
Exemplo 7.3. (Índices agregativos simples) Suponha novamente a cesta de produtos da Tabela 7.2. O
ı́ndice agregativo de preço da cesta, de 2009 para 2010, é dado por
P 1.30 + 2.00 + 3.40 + 9.00
I2009,2010 = ≈ 109.56%,
1.26 + 1.80 + 3.27 + 8.00
indicando um aumento de 109.56% − 100% ≈ 9.56% no preço da cesta de produtos. O ı́ndice agregativo
de quantidade da cesta, de 2009 para 2010, é dado por
Q 360 + 180 + 120 + 90
I2009,2010 = ≈ 108.70%,
330 + 150 + 90 + 120
indicando um aumento de 108.70% − 100% ≈ 8.70% na quantidade da cesta de produtos. O ı́ndice
agregativo de valor da cesta, de 2009 para 2010, é dado por
V 1.30 × 360 + 2.00 × 180 + 3.40 × 120 + 9.00 × 90
I2009,2010 = ≈ 105.46%,
1.26 × 330 + 1.80 × 150 + 3.27 × 90 + 8.00 × 120
indicando um aumento de 105.46% − 100% ≈ 5.46% no valor da cesta de produtos.
7.2.2 Índice Médio Aritmético (de Sauerbeck)

De preço
pi0,t
P
P̄0,t = ,
n
onde pi0,t é o ı́ndice relativo simples de preço do i-ésimo produto e n é o número de itens.
De quantidade
P i
q0,t
Q̄0,t = ,
n
i
onde q0,t é o ı́ndice relativo simples de quantidade do i-ésimo produto e n é o número de itens.
De valor
P i
v0,t
V̄0,t = ,
n
i
onde v0,t = pi0,t q0,t
i
é o ı́ndice relativo simples de valor do i-ésimo produto e n é o número de itens.
Page 128
DRAFT VERSION
Exemplo 7.4. (Índices médios aritméticos) Suponha novamente os produtos da cesta apresentada na
Tabela 7.2. O ı́ndice médio aritmético de preço da cesta, de 2009 para 2010, é dado por
1.30 2.00 3.40 9.00
1.26 + 1.80 + 3.27 + 8.00
P̄2009,2010 = ≈ 107.69%,
4
indicando um aumento de 107.69% − 100% ≈ 7.69% no ı́ndice médio de preço da cesta de produtos. O
ı́ndice médio aritmético de quantidade da cesta, de 2009 para 2010, é dado por
360 180 120 90
330 + 150 + 90 + 120
Q̄2009,2010 = ≈ 109.36%,
4
indicando um aumento de 109.36% − 100% ≈ 9.36% no ı́ndice médio de quantidade da cesta de produtos.
O ı́ndice médio aritmético de valor da cesta, de 2009 para 2010, é dado por
1.30×360 2.00×180 3.40×120 9.00×90
1.26×330 + 1.80×150 + 3.27×90 + 8.00×120
V̄2009,2010 = ≈ 117.22%,
4
indicando um aumento de 117.22% − 100% ≈ 17.22% no ı́ndice médio de valor da cesta de produtos.
7.3 Índices Agregativos Ponderados

7.3.1 Índice (Ponderado) de Laspeyres ou da época base
De preço
O ı́ndice de preço de Laspeyres calcula o ı́ndice de preços ponderando-os pelas quantidades no ano-
base.
P i i
pt q0
LP 0,t =
pi0 q0i
P
De quantidade
O ı́ndice de quantidade de Laspeyres calcula o ı́ndice de quantidades ponderando-as pelos preços no
ano-base.
P i i
Q qp
L0,t = P it 0i
q0 p0
Exemplo 7.5. Suponha novamente a cesta de produtos da Tabela 6.2. O ı́ndice (ponderado) de preço de
Laspeyres, de 2009 para 2010, é dado por
1.30 × 330 + 2.00 × 150 + 3.40 × 90 + 9.00 × 120
LP
2009,2010 = = 109.01%.
1.26 × 330 + 1.80 × 150 + 3.27 × 90 + 8.00 × 120
O ı́ndice (ponderado) de quantidade de Laspeyres, de 2009 para 2010, é dado por
360 × 1.26 + 180 × 1.80 + 120 × 3.27 + 90 × 8.00
LQ
2009,2010 = = 97.42%.
330 × 1.26 + 150 × 1.80 + 90 × 3.27 + 120 × 8.00
7.3.2 Índice (Ponderado) de Paasche ou da época atual

De preço
O ı́ndice de preço de Paasche calcula o ı́ndice de preços ponderando-os pelas quantidades no ano
atual.
P i i
pq
P
P0,t = P it ti
p0 qt
De quantidade
O ı́ndice de quantidade de Paasche calcula o ı́ndice de quantidades ponderando-as pelos preços no
ano atual.
P i i
Q qp
P0,t = P it ti
q0 pt
Page 129
DRAFT VERSION
Exemplo 7.6. Suponha novamente a cesta de produtos da Tabela 6.2. O ı́ndice (ponderado) de preço de
Paasche, de 2009 para 2010, é dado por
P 1.30 × 360 + 2.00 × 180 + 3.40 × 120 + 9.00 × 90

P2009,2010 = = 108.25%.
1.26 × 360 + 1.80 × 180 + 3.27 × 120 + 8.00 × 90
O ı́ndice (ponderado) de quantidade de Paasche, de 2009 para 2010, é dado por
Q 360 × 1.30 + 180 × 2.00 + 120 × 3.40 + 90 × 9.00

P2009,2010 = = 96.74%.
330 × 1.30 + 150 × 2.00 + 90 × 3.40 + 120 × 9.00
7.3.3 Índice (Ponderado) de (Irving) Fisher

Também conhecido como ı́ndice de preço ideal, o ı́ndice (ponderado) de Fisher é a média geométrica
entre os respectivos ı́ndices de Laspeyres e Paasche.
De preço
q
P
F0,t = LP P
0,t P0,t
De quantidade
q
Q
F0,t = LQ Q
0,t P0,t
Exemplo 7.7. Novamente utilizando os dados da cesta de produtos da Tabela 6.2, calcula-se o ı́ndice
(ponderado) de preço de Fisher, de 2009 para 2010, por
P
√
F2009,2010 = 1.0901 × 1.0825 = 108.63%.
O ı́ndice (ponderado) de quantidade de Fisher, de 2009 para 2010, é dado por

Q
√
F2009,2010 = 0.9742 × 0.9674 = 97.08%.
EXERCÍCIOS EXTRAS
1. A ceia de natal é um momento importante para as famı́lias cristãs. É geralmente composta de certos produtos
tı́picos, como aves, frutas secas e doces. Abaixo estão os preços de alguns dos principais produtos que compõem a
ceia natalina, bem como suas variações de preço e quantidade ao longo de três anos.

Produto
2007 (p0 ) 2008 (p1 ) 2009 (p2 ) 2007 (q0 ) 2008 (q1 ) 2009 (q2 )
Peru 44.98 48.31 56.17 2 2 1
Nozes 9.32 10.45 12.33 0.5 0.7 0.9
Cereja 8.11 9.50 11.12 0.1 0.2 0.2
Tabela 7.3: Cesta de produtos natalinos
Calcule:
a) O ı́ndice relativo de preços da cereja em 2009 com base em 2007.
b) O ı́ndice agregativo simples de quantidade da cesta de produtos da tabela acima em 2008, com base em 2007.
c) O ı́ndice relativo de valor da cereja em 2009, com base em 2007.
d) O ı́ndice ponderado de Fisher de quantidade da cesta de produtos da tabela acima em 2008, com base em 2007.
Page 130
DRAFT VERSION
2. Considere os preços e quantidades apresentados na tabela abaixo.

Produto
2008 (p0 ) 2009 (p1 ) 2010 (p2 ) 2008 (q0 ) 2009 (q1 ) 2010 (q2 )
Ambrosia 1.75 1.89 2.90 11 11 13
Erva mate gold 7.03 7.58 8.20 2 3 3
Mumu 1.28 1.99 2.70 7 8 10
Tabela 7.4: Cesta de produtos gaudérios
a) O ı́ndice relativo de preço do Mumu em 2009, com base em 2008.

b) O ı́ndice agregativo simples de quantidade da cesta de produtos da tabela acima em 2010, com base em 2008.
c) O ı́ndice ponderado de Paasche de preço da cesta de produtos da tabela acima em 2010, com base em 2009.
d) O ı́ndice ponderado de Fisher de preço da cesta de produtos da tabela acima em 2010, com base em 2009.
Page 131
DRAFT VERSION
A Tabelas
Tabela normal padrão N (0, 1)
Page 132
DRAFT VERSION
Tabela t
Page 133
DRAFT VERSION
Tabela Qui-quadrado χ2
Page 134
DRAFT VERSION
Tabela F de Fisher-Snedecor 10%
Page 135
DRAFT VERSION
Page 136
DRAFT VERSION
Tabela F de Fisher-Snedecor 2.5%
Page 137
DRAFT VERSION
Page 138
DRAFT VERSION
Tabela F de Fisher-Snedecor 0.5%
Page 139
DRAFT VERSION
B Respostas dos exercı́cios
Capı́tulo 1 - Introdução
Seção 1.4
1. (pg. 6) Obs.: Os dados podem variar dependendo da atualização dos dados do pacote.
> sum(coronavirus$cases) # 1a
[1] 28602365
> sum(coronavirus$cases^2) # 1b
[1] 541174070111
> by(coronavirus$cases, coronavirus$type, sum) # 1c
coronavirus$type: confirmed
[1] 17591968
---------------------------------------------------------------------------------------------
coronavirus$type: death
[1] 679439
---------------------------------------------------------------------------------------------
coronavirus$type: recovered
[1] 10330958
P150720 P150720
d) i=1 xi = 28602365. i=1 x2i = 541174070111.
Capı́tulo 2 - Estatı́stica Descritiva

Seção 2.1
1. (pg. 12)
a) Quantitativa discreta
b) Quantitativa contı́nua
c) Quantitativa discreta
d) Quantitativa contı́nua
e) Qualitativa nominal
f) Qualitativa ordinal
g) Qualitativa nominal
h) Quantitativa contı́nua
i) Quantitativa contı́nua
j) Qualitativa ordinal
k) Quantitativa contı́nua
l) Qualitativa nominal
m) Quantitativa contı́nua
Seção 2.2
1. (pg. 13)
a) −4, 1, 3, 5, 7, 9, 10
b) x(4) = 5. O quarto valor da ordenação é 5.
2. (pg. 13)

> sort(hosp$filhos)
[1] 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
[61] 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5 6
> sort(hosp$altura)
[1] 1.51 1.52 1.53 1.54 1.55 1.55 1.56 1.56 1.56 1.56 1.57 1.57 1.58 1.58 1.58 1.58 1.58 1.59 1.59 1.59 1.59 1.59 1.
[25] 1.59 1.60 1.60 1.60 1.60 1.60 1.60 1.60 1.60 1.61 1.61 1.61 1.61 1.61 1.61 1.61 1.62 1.62 1.62 1.62 1.62 1.62 1.
[49] 1.62 1.62 1.63 1.63 1.63 1.63 1.63 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.65 1.65 1.65 1.65 1.
[73] 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 1.66 1.66 1.66 1.67 1.67 1.67 1.68 1.68 1.68 1.68 1.68 1.69 1.69 1.69 1.
[97] 1.70 1.72 1.73 1.74
Page 140
DRAFT VERSION
3. (pg. 16)
a) Quantitativa discreta.
b) f3 = 9. 9 peças possuem 2 defeitos.
c) fr3 = 9/50 = 0.18. 18% das peças possuem 2 defeitos.
d) F4 = 44. 44 peças têm até 3 defeitos.
e) Fr5 = 49/50 = 0.98. 98% das peças tem até 4 defeitos.
f)
> barplot(c(17,10,9,8,5,1), xlab = 'Número de defeitos', ylab = 'Frequ^

encia', names.arg = 0:5)
4. (pg. 16)
a) fV I = 38. 38 paı́ses devem pagar 3 unidades monetárias.

b) frI = 21/173 ≈ 0.1214. 12.14% dos paı́ses devem pagar 25 unidades monetárias.
c) FII = 47. 47 paı́ses devem pagar 20 ou 25 unidades monetárias.
d) FrIII = 57/173 ≈ 0.3295. 32.95% dos paı́ses devem pagar 15, 20 ou 25 unidades monetárias.
5. (pg. 22)
a) Quantitativa contı́nua.
b) fr3 = 30/100 = 0.3. 30% dos alunos tem altura entre 1.60m (inclusive) e 1.70m (exclusive).
c) F4 = 92. 92 alunos têm altura até 1.80m (exclusive).
d) Fr2 = 15/100 = 0.15. 15% dos alunos tem altura até 1.60m.
e) `3 = 30 + 47 + 8 = 85.
f)
> labs <- c('140 |- 150','150 |- 160','160 |- 170','170 |- 180','180 |-| 190')
> barplot(c(2,15,30,47,8), main = 'Altura', ylab = 'Frequ^
encia', names.arg = labs, las = 2, space = 0)
Altura
40
30
Frequência
20
10
0
140 |− 150
150 |− 160
160 |− 170
170 |− 180
180 |−| 190
6. (pg. 22)
a) Vide Exemplo 2.16.

b) Vide Exemplo 2.17.
Page 141
DRAFT VERSION
Seção 2.3
0 × 11 + 1 × 27 + 2 × 30 + 3 × 19 + 4 × 11 + 5 × 1 + 6 × 1
1. Da Tabela 2.4 (pg. 15), x̄ = = 1.99.
100
2. 1.99 × 1500 = 2985

P1 + P2 T1 + T2
3. G1 = 0.8 + 0.2
2 2
4. > hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)

> (mqf <- mean(hosp$filhos^2))
[1] 5.55
> sqrt(mqf)
[1] 2.355844
> (mqa <- mean(hosp$altura^2))
[1] 2.644279
> sqrt(mqa)
[1] 1.626124
5. Pela Tabela 2.4 (pg. 15) 2 é o número de filhos que ocorreu com maior frequência, portanto é a moda.
6. Mediana (P50%): 50% das altura são de até 1.62m e 50% estão acima deste valor.
Tercil 1 (P33.3%): 1/3 (≈ 33.3%) das altura são de até 1.61m e 2/3 (≈ 66.7%) estão acima deste valor.
7. a)
b) Sim, basta verificar, por exemplo, que M d = Q2 = D5 = P50 .
c) Exemplos: k = 7 septil. k = 8 octil.
d) k − 1

> # filhos
> quantile(hosp$filhos, probs = seq(0,1,1/3)) # Tercis
0% 33.33333% 66.66667% 100%

0 1 2 6
> quantile(hosp$filhos, probs = seq(0,1,1/100)) # Demais medidas
0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23
0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.89 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.0
25% 26% 27% 28% 29% 30% 31% 32% 33% 34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47% 48
1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.62 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.0
50% 51% 52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63% 64% 65% 66% 67% 68% 69% 70% 71% 72% 73
2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.32 3.00 3.00 3.00 3.00 3.0
75% 76% 77% 78% 79% 80% 81% 82% 83% 84% 85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95% 96% 97% 98
3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.13 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.0
100%
6.00
> # altura
> quantile(hosp$altura, probs = seq(0,1,1/3)) # Tercis
0% 33.33333% 66.66667% 100%

1.51 1.61 1.65 1.74
> quantile(hosp$altura, probs = seq(0,1,1/100)) # Demais medidas
Page 142
DRAFT VERSION
0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16%
1.5100 1.5199 1.5298 1.5397 1.5496 1.5500 1.5594 1.5600 1.5600 1.5600 1.5690 1.5700 1.5788 1.5800 1.5800 1.5800 1.5800
17% 18% 19% 20% 21% 22% 23% 24% 25% 26% 27% 28% 29% 30% 31% 32% 33%
1.5883 1.5900 1.5900 1.5900 1.5900 1.5900 1.5900 1.5900 1.5975 1.6000 1.6000 1.6000 1.6000 1.6000 1.6000 1.6000 1.6067
34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47% 48% 49% 50%
1.6100 1.6100 1.6100 1.6100 1.6100 1.6100 1.6160 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6250
51% 52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63% 64% 65% 66% 67%
1.6300 1.6300 1.6300 1.6300 1.6345 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6434 1.6500
68% 69% 70% 71% 72% 73% 74% 75% 76% 77% 78% 79% 80% 81% 82% 83% 84%
1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6524 1.6600 1.6600 1.6600 1.6600 1.6600 1.6600 1.6617 1.6700
85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95% 96% 97% 98% 99% 100%
1.6700 1.6714 1.6800 1.6800 1.6800 1.6800 1.6809 1.6900 1.6900 1.6906 1.7000 1.7000 1.7006 1.7202 1.7301 1.7400
Seções 2.4 e 2.5

n−1
1. σ 2 = s2
n
P4 P4
2. x=1 x = 10, x=1 x2 = 30.
a) x̄ = 2.5, M d = 2.5, amodal.

b) A=4−1=3
c) σ 2 = 5/4 = 1.25
d) s2 = 5/3 ≈ 1.6667
e) 1/3 ≈ 33.33%

> # filhos
> f <- hosp$filhos
> mean(f) # média
[1] 1.99
> median(f) # mediana
[1] 2
> names(which.max(table(f))) # moda
[1] "2"
> diff(range(f)) # amplitude
[1] 6
> var(f) # vari^

ancia amostral
[1] 1.60596
> var(f)*((length(f)-1)/length(f)) # vari^

ancia universal
[1] 1.5899
> cat((length(f)/(length(f)-1)-1)*100,'%') # percentual
1.010101 %
> sd(f) # desvio padr~

ao
[1] 1.267265
> sd(f)/mean(f) # coeficiente de variaç~

ao
[1] 0.6368164
> e1071::skewness(f, type = 3) # assimetria
[1] 0.431264
> e1071::kurtosis(f, type = 3) # curtose
Page 143
DRAFT VERSION
[1] -0.136933
> # altura
> a <- hosp$altura
> mean(a) # média
[1] 1.6255
> median(a) # mediana
[1] 1.625
> names(which.max(table(a))) # moda
[1] "1.64"
> diff(range(a)) # amplitude
[1] 0.23
> var(a) # vari^

ancia amostral
[1] 0.002049242
> var(a)*((length(a)-1)/length(f)) # vari^

ancia universal
[1] 0.00202875
> cat((length(a)/(length(a)-1)-1)*100,'%') # percentual
1.010101 %
> sd(a) # desvio padr~

ao
[1] 0.04526856
> sd(a)/mean(a) # coeficiente de variaç~

ao
[1] 0.02784901
> e1071::skewness(a, type = 3) # assimetria
[1] -0.0488405
> e1071::kurtosis(a, type = 3) # curtose
[1] -0.09699975

9
4. − 1 × 100% = 12.5%
9−1
> cat((9/(9-1)-1)*100,'%')
12.5 %

6
5. − 1 × 100% = 20%
6−1
> cat((6/(6-1)-1)*100,'%')
20 %
Seção 2.6
1. -
2. -
EXERCÍCIOS EXTRAS
1. a) 5.07%, 95.79%.
Page 144
DRAFT VERSION
b) 1186/1539 ≈ 77.06%.
c) 30/3445 ≈ 0.87%.
d) Fumantes: 300+, pois fF = 412. A categoria de nı́vel de cotinina com maior representatividade entre os fumantes
é 300+. Não fumantes: 0 ` 14, pois fN F = 3300. A categoria de nı́vel de cotinina com maior representatividade
entre os não fumantes é 0 ` 14.
e) A mediana do fumantes está na sexta classe, 200 ` 250, pois F5 ≈ 49.44% e F6 ≈ 63.83%. A mediana do não
fumantes está na primeira classe, 0 ` 14, pois F1 ≈ 95.79%.
> f <- c(78,133,142,206,197,220,141,412)
> cumsum(f)/sum(f)
[1] 0.05101373 0.13799869 0.23086985 0.36559843 0.49444081 0.63832570 0.73054284 1.00000000
> nf <- c(3300,72,23,15,7,8,9,11)
> cumsum(nf)/sum(nf)
[1] 0.9579100 0.9788099 0.9854862 0.9898403 0.9918723 0.9941945 0.9968070 1.0000000
f) > labs <- c('0 |- 14','14 |- 50','50 |- 100','100 |- 150','150 |- 200','200 |-| 250','250 |-| 300','300 +')
> par(mfrow=c(1,2))
> barplot(c(78,133,142,206,197,220,141,412), main = 'Fumantes', ylab = 'Frequência',
names.arg = labs, las = 2, space = 0)
> barplot(c(3300,72,23,15,7,8,9,11), main = 'N~ao fumantes', ylab = 'Frequ^
encia',
names.arg = labs, las = 2, space = 0)
Fumantes Não fumantes
400
3000
2500
300
2000
Frequência
Frequência
200
1500
1000
100
500
0 0
0 |− 14
14 |− 50
50 |− 100
100 |− 150
150 |− 200
200 |−| 250
250 |−| 300
300 +
0 |− 14
14 |− 50
50 |− 100
100 |− 150
150 |− 200
200 |−| 250
250 |−| 300
300 +
2. a) São medidas-resumo, que auxiliam a avaliação de conjuntos de dados.

b) Dados ordinais possuem informação de ordenação, ao contrário dos dados nominais que são grupos não ordenados.
c) Vantagens: simplifica a interpretação pelo agrupamento em classes. Desvantagens: perda de informação, maior
complexidade nos cálculos de medidas descritivas.
d) Quando deseja-se ter a noção do quanto aquela classe está sendo representada em relação ao total.
e) São medidas que dividem um conjunto de dados em quatro partes iguais, cada uma contendo 25% (ou 1/4) dos
dados.
f) São medidas de tendência central. Média: para dados quantitativos. Mediana: para dados qualitativos ordinais.
3. V V V V F V
4. Mediana, pois a descrição do exercı́cio é exatamente a definição desta medida.
Page 145
DRAFT VERSION
Nı́vel de cotinina (ng/mL) fF fr F fN F frN F
0 ` 14 78 0.0507 3300 0.9579
14 ` 50 133 0.0864 72 0.0209
50 ` 100 142 0.0923 23 0.0067
100 ` 150 206 0.1339 15 0.0044
150 ` 200 197 0.1280 7 0.0020
200 ` 250 220 0.1429 8 0.0023
250 ` 300 151 0.0981 9 0.0026
300 + 412 0.2677 11 0.0032
Total 1539 1.0000 3445 1.0000
5. Itens a) e b) na tabela abaixo.
X Y
Média 24 145
Mediana 22.5 137.5
Amplitude 29 285
Variância 148 8400
Desvio padrão 12.1655 91.6515
Coeficiente de variação 0.507 0.632
c) No setor Y, pois 0.632 > 0.507.
6. P1 = 7.5 × 3 − (5 + 9) = 8.5.
7. Itens a) e b) na tabela abaixo.
Média 14 dias 74.03

Mediana 14 dias 75.20
Média semana 1 73.54
Mediana semana 1 73.00
Média semana 2 74.51
Mediana semana 2 76.30
c) O chimarrão ficou bom em 71.4% das vezes, conforme tabela abaixo.
Semana 1 Semana 2 14 dias

Chimarrão
f f rr f fr f fr
Frio 2 28.6% 1 14.3% 3 21.4%
Bom 4 57.1% 6 85.7% 10 71.4%
Pelando 1 14.3% 0 0.0% 1 7.1%
d) Primeira semana: chimarrão ficou bom 57.1% das vezes. Segunda semana: 85.7% das vezes.
8. Itens a), b) e c) desenvolvidos no código abaixo.
> id <- c(18,54,20,46,25,48,53,27,26,37,40,36,42,25,27,33,28,40,45,25)

> mean(id) # média
[1] 34.75
> median(id) # mediana
[1] 34.5
> names(which.max(table(id))) # moda
[1] "25"
> quantile(id, probs = seq(0,1,1/4))
0% 25% 50% 75% 100%

18.00 25.75 34.50 42.75 54.00
Page 146
DRAFT VERSION
c) 25% das pessoas que trabalham em casa tem 25.75 anos ou menos. 75% das pessoas que trabalham em casa tem
mais de 25.75 anos.
d) Como a mediana encontrada no conjunto de idades de pessoas que trabalham em casa é 34.5 anos, muito próximo
da mediana da população (35 anos), não há indı́cios que pessoas que trabalham em casa sejam mais jovens ou mais
velhas. (Não testamos isto, estamos apenas investigando!)
9. a)
Cidade Rodovia
Média 25.05 29.99
Mediana 25.58 29.93
Moda 24.62 28.96
b) -
10. a) Metade das meninas bulı́micas têm consumo calórico até 18.50, enquanto a outra metade têm consumo calórico
superior a este valor. Metade das meninas saudáveis têm consumo calórico até 33.45, enquanto a outra metade
têm consumo calórico superior a este valor.
b) Média bulı́micas: 19.23. Média saudáveis: 31.73.
c) O grupo das saudáveis, pois 0.21 > 0.17.
Bulı́micas Saudáveis
Média 19.23 31.73
Mediana 18.50 33.45
Desvio padrão 3.28 6.72
11. a) Quantitativa discreta. Itens b), c), d), e), f), soluções na tabela.
MEEM G1 MEEM G2
Média 13.88 22.13
Mediana 12.00 21.00
Moda 12.00 21 e 19
Amplitude 9.00 12.00
Variância populacional 10.86 15.61
Desvio padrão populacional 3.30 3.95
Variância amostral 12.41 17.84
Desvio padrão amostral 3.52 4.22
12. V, NSA, F (pois há crianças que não foram, pois moda e mediana iguais a zero), F.
13. E
14. A e C
15. B
Capı́tulo 3 - Probabilidade
Seção 3.2
1. P4. Pode-se escrever Ω = A ∪ Ac , e de (43) pode-se fazer P r(Ω)a= P r(A ∪ Ac ) = 1. Como A e Ac são disjuntos,
por (44) temos P r(A) + P r(Ac ) = 1, logo P r(A) = 1 − P r(Ac ).
P5. Pode-se escrever Ω = Ω ∪ ∅, e de (43) pode-se

a fazer P r(Ω) = P r(Ω ∪ ∅) = 1. Como Ω e ∅ são disjuntos, por (44)
temos P r(Ω) + P r(∅) = 1, logo P r(∅) = 0.
P6.
P7.
P8.
2. a) P r(C) = 1/2
b) P r(A ∩ C) = 0
c) P r(A|C) = 0
Page 147
DRAFT VERSION
1/2
d) P r(Ac |C) = =1
1/2
Seção 3.3
1. p(2) = p(12) = 1/36

p(3) = p(11) = 2/36
p(4) = p(10) = 3/36
p(5) = p(9) = 4/36
p(6) = p(8) = 5/36
p(7)
P12 = 6/36
x=2 p(x) = 1.
2. p(0) = p(3) = 1/8

p(1)
P3 = p(2) = 3/8
x=0 p(x) = 1.
Seção 3.4
1. A integral de uma função densidade de probablidade deve integrar 1, conforme (80).
2. > Fx <- function(x){

(-46875/19652)*(x^3/3 - 1.68*x^2 + 2.36*x - 76/75)
}
> Fx(1.72)
[1] 0.5440668
> Fx(1.45)
[1] 0.2559973
Rx x
1 1 x−a a
3. (86) F (x) = a b−a dt = b−a
[t] = b−a
.
a
b
x2 b2 −a2 b2 −a2
h i
Rb x 1 (b−a)(b+a) a+b a
(87) E(X) = a b−a dx = b−a 2
= 2(b−a)
. Por (89) 2(b−a)
= 2(b−a)
, logo E(X) = 2
.
a
(88) Por definição, V (X) = E(X 2 ) − [E(X)]2 .

h 3i b
R x2 b3 −a3 b3 −a3 (b−a)(b2 +ab+a2 ) a2 +ab+b2
E(X 2 ) = ab b−a dx = b−a1 x
3
= 3(b−a) . Por (90), 3(b−a)
= 3(b−a)
= 3
. Aplicando a
a
a2 +ab+b2 a2 +2ab+b2 a2 −2ab+b2 (b−a)2 a
definição, V (X) = 3
− 4
= 12
= 12
.
4. B(420, 0.7).
200 − 420 × 0.7
P r(X ≤ 200) ≈ P r Z < √ = Φ(−10.00907) ≈ 6.952944 × 10−24
420 × 0.7 × 0.3
Utilizando a correção de continuidade,

200 + 0.5 − 420 × 0.7
P r(X ≤ 200) ≈ P r Z < √ = Φ(−9.955826) ≈ 1.189192 × 10−23
420 × 0.7 × 0.3
A probabilidade exata é 1.032943 × 10−21 .
5. > tcl <- function(n,p,S){

mS <- n*p
sS <- sqrt(n*p*(1-p))
# Aproximaç~
ao da binomial pela normal SEM correç~
ao de continuidade
z <- (S-mS)/sS
pz <- pnorm(z)
# Aproximaç~
ao da binomial pela normal COM correç~
ao de continuidade
zc <- (S+0.5-mS)/sS
pzc <- pnorm(zc)
# Probabilidade exata
pex <- pbinom(S,n,p)
return(list(media = mS, dp = sS, zTeste = z, pSem = pz,
zTesteCor = zc, pCom = pzc, pExata = pex))
}
> tcl(420, 0.7, 200)
Page 148
DRAFT VERSION
$media
[1] 294
$dp
[1] 9.391486
$zTeste
[1] -10.00907
$pSem
[1] 6.952944e-24
$zTesteCor
[1] -9.955826
$pCom
[1] 1.189192e-23
$pExata
[1] 1.032943e-21
EXERCÍCIOS EXTRAS
1. Ω = {M M M, M M F, M F M, F M M, M F F, F M F, F F M, F F F }. Brinde: |Ω| = 8.
4000
2. a) 10000
= 25 = 0.40
200 1
b) 10000
= 50 = 0.02
5100+3700
c) 10000
= 22
25
= 0.88
10000−5100 40
d) 10000
= 100 = 0.49
5100 51
e) 10000
= 100 = 0.51
150000 3
3. a) 1400000
= 28 ≈ 0.1071
130000+100000 23
b) 1400000
= 140 ≈ 0.1643
1150000 23
c) 1400000
= 28 ≈ 0.8214
15
4. a) 120
= 18 = 0.125
15+30+18
b) 120
= 21
40
= 0.525
7+12+5 1
c) 120
= 5
= 0.2
5. a) P r(V ∪ M ) = P r(V ) + P r(M ) − P r(V ∩ M ) = 0.55 + 0.30 − 0.2 = 0.65.

b) P r([V ∪ M ]c ) = 1 − 0.65 = 0.35.
25+23
6. a) 74
= 24
37
= 0.648
9
b) 74
= 0.1216
8+8 8
c) 74
= 37 = 0.216
4+12 8
d) 74
= 37 = 0.216
2+2 2
e) 74
= 37 = 0.054
62
7. a) 745
≈ 0.0832
238
b) 745
≈ 0.3195
2
c) 745
≈ 0.0027
248 124
d) 386
= 193
≈ 0.6425
248 4
e) 310
= 5
= 0.8
8. a) P r(A ∪ B) = P r(A) + P r(B) − P r(A ∩ B) = 0.01 + 0.05 − 0.005 = 0.055

b) P r([A ∪ B]c ) = 1 − P r(A ∪ B) = 1 − 0.055 = 0.945
c) 1000 × [P r(B) − P r(A ∩ B)] = 1000 × [0.05 − 0.005] = 45 pessoas
217700 2177
9. a) 338000
= 3380
≈ 0.6441
15000 15
b) 338000
= 338
≈ 0.0444
Page 149
DRAFT VERSION
25200+27600
c) 338000
= 132
845
≈ 0.1562
27600+24000+20700+37800+41400+56000
d) 10000000
= 0.02075
560 14
10. a) 1000
= 25
= 0.56
720 18
b) 1000
= 25
= 0.72
60 3
c) 1000
= 50
= 0.06
200+80 7
d) 1000
= 25
= 0.28
55
11. a) 100
= 0.55
35 5
b) 63
= 9
≈ 0.56
63
c) 100
= 0.63
9
d) 100
= 0.09
21+16
e) 100
= 0.37
12. D : Item defeituoso

P r(A) = 0.5 P r(D|A) = 0.01
P r(B) = 0.3 P r(D|B) = 0.02
P r(C) = 0.2 P r(D|C) = 0.03
a)
P r(A)P r(D|A)
P r(A|D) =
P r(A)P r(D|A) + P r(B)P r(D|B) + P r(C)P r(D|C)
0.5 × 0.01
=
0.5 × 0.01 + 0.3 × 0.02 + 0.2 × 0.03
5
=
17
≈ 0.294117647
b)
0.3 × 0.02 6
P r(B|D) = = ≈ 0.352941176
0.017 17

5 6 6
P r(C|D) = 1 − + = ≈ 0.352941176
17 17 17
1
13. P r({C}) = P r({K}) =
2
a) Ω = {CCC, CCK, CKC, KCC, CKK, KCK, KKC, KKK}
b) RX = {0, 1, 2, 3}
3
1 1 1 1 1
c) p(0) = P r(X = 0) = P r({KKK}) = × × = = = 0.125
2 2 2 2 8
3 3 3
1 1 1 3
p(1) = P r(X = 1) = P r({CKK, KCK, KKC}) = + + = = 0.375
2 2 2 8
3
1 3
p(2) = P r(X = 2) = P r({CCK, CKC, KCC}) = 3 = = 0.375
2 8
1 3 3 1
p(3) = P r(X = 3) = P r({CCC}) = 1 − + + = = 0.125
8 8 8 8
1 3 3 1
d) E(X) = 0 × + 1 × + 2 × + 3 × = 1.5 (Por simetria)
8 8 8 8
1 3 3 1
E(X 2 ) = 02 × + 12 × + 22 × + 32 × = 3
8 8 8 8
V (X) = E(X 2 ) − [E(X)]2 = 3 − 1.52 = 0.75
√
D(X) = 0.75 ≈ 0.866025403
14. P r({C}) = 0.7, P r({K}) = 0.3

b) RX = {0, 1, 2, 3}
c) p(0) = P r(X = 0) = P r({KKK}) = 0.33 = 0.027
p(1) = P r(X = 1) = P r({CKK, KCK, KKC}) = 3 × 0.7 × 0.32 = 0.189
p(2) = P r(X = 2) = P r({CCK, CKC, KCC}) = 3 × 0.72 × 0.3 = 0.441
p(3) = P r(X = 3) = P r({CCC}) = 1 − (0.027 + 0.189 + 0.441) = 0.343
Page 150
DRAFT VERSION
d) E(X) = 0 × 0.027 + 1 × 0.189 + 2 × 0.441 + 3 × 0.343 = 2.1
E(X 2 ) = 02 × 0.027 + 12 × 0.189 + 22 × 0.441 + 32 × 0.343 = 5.04
V (X) = 5.04 − 2.12 = 0.63
√
D(X) = 0.63 ≈ 0.793725393
15. P r({C}) = p, P r({K}) = 1 − p

b) RX = {0, 1, 2, 3}
c) p(0) = P r(X = 0) = P r({KKK}) = (1 − p)3
p(1) = P r(X = 1) = P r({CKK, KCK, KKC}) = 3p(1 − p)2
p(2) = P r(X = 2) = P r({CCK, CKC, KCC}) = 3p2 (1 − p)
p(3) = P r(X = 3) = P r({CCC}) = p3
d) E(X) = 0 × (1 − p)3 + 1 × 3p(1 − p)2 + 2 × 3p2 (1 − p) + 3 × p3 = 3p
E(X 2 ) = 02 × (1 − p)3 + 12 × 3p(1 − p)2 + 22 × 3p2 (1 − p) + 32 × p3 = 3p(1 + 2p)
2
p + 2p)] − [3p] = 3p(1 − p)
V (X) = [3p(1
D(X) = 3p(1 − p)
16. p = 1% = 0.01, n = 20
X ∼ B(20, 0.01), p(x) = n 0.01x 0.9920−x

a) x
b) E(X) = 20 × 0.01 = 0.2
c) V (X) = 20 × 0.01 × 0.99 = 0.198
√
d) D(X) = 0.198 ≈ 0.4449719092
p(6) = P r(X = 6) = 20 0.016 0.9920−6 ≈ 3.3672588 × 10−8

e) 6
f) P r(X ≥ 1) = 1 − P r(X = 0) = 1 − 20 0.010 0.9920 = 1 − 0.81790694 ≈ 0.18209306

0
17. λ = 4
a) X ∼ P(4)
√
b) E(X) = 4, V (X) = 4, D(X) = 4 = 2.
e−4 40
c) P r(X ≥ 1) = 1 − P r(X = 0) = 1 − ≈ 0.981684361
0!
18. f (x) = c(x3 − 3.36x + 2.36), x ∈ [1, 2]
100
a) c = ≈ 0.9345794
107
b)
2 100 2
x4 3.36x2
Z
100
(x3 − 3.36x + 2.36) dx = − + 2.36x
1 107 107 4 2 1
4 4
100 2 2 1
= − 1.68 × 2 + 2.36 × 2 − − 1.68 × 12 + 2.36 × 1
107 4 4
= 1
c)
Z x 100
F (x) = P r(X < x) = (t3 − 3.36t + 2.36) dt
1 107
x
100 t4 3.36t2

= − + 2.36t
107 4 2 1
4 4
100 x 2 1
= − 1.68x + 2.36x − − 1.68 × 12 + 2.36 × 1
107 4 4
100 x4

F (x) = − 1.68x2 + 2.36x − 0.93
107 4
d) P r(1.4 < X < 1.7) = F (1.7) − F (1.4) = 0.294228972 − 0.038878504 ≈ 0.255350467
Page 151
DRAFT VERSION
e)
100
Z 2
E(X) = x(x3 − 3.36x + 2.36) dx
107 1
100
Z 2
= (x4 − 3.36x2 + 2.36x) dx
107 1
2
x5 3.36x3 2.36x2

100
= − +
107 5 3 2 1
5 5
100 2 1
= − 1.12 × 23 + 1.18 × 22 − − 1.12 × 13 + 1.18 × 12
107 5 5
100
= [2.16 − 0.26]
107
190
E(X) = ≈ 1.775700935
107
100
Z 2
E(X 2 ) = x2 (x3 − 3.36x + 2.36) dx
107 1
100
Z 2
= (x5 − 3.36x3 + 2.36x2 ) dx
107 1
2
x6 3.36x4 2.36x3

100
= − +
107 6 4 3 1
6
2.36 × 23
6
2.36 × 13

100 2 4 1
= − 0.84 × 2 + − − 0.84 × 14 +
107 6 3 6 3
100
E(X 2 )

= 3.52 − 0.113 ≈ 3.183800623
107
V (X) = 3.183800623 − (1.775700935)2 = 0.030686813
√
D(X) = 0.030686813 ≈ 0.175176522
19. f (x) = c [ln(x) − 2x + 10], x ∈ ]0, 1]

a)
Z 1
c [ln(x) − 2x + 10] dx = 1 ∴
0
1
2x2

c xln(x) − x − + 10x ∴
2 0
c (1ln(1) − 1 − 12 + 10 × 1) − (0ln(0) − 0 − 02 + 10 × 0) = 1

∴
1
8c = 1 ∴ c = ∴ c = 0.125
8
b)
Z x1
F (x) = P r(X < x) = [ln(t) − 2t + 10] dt
08
x
2t2

1
= tln(t) − t − + 10t
8 2 0
1
F (x) = [x(9 + ln(x) − x)]
8
c)
P r(X > 0.2) = 1 − P r(X < 0.2)

= 1 − F (0.2)
1
= 1 − [0.2(9 + ln(0.2) − 0.2)]
8
1
= 1 − × 1.438112418
8
= 1 − 0.179764052
≈ 0.820235947
Page 152
DRAFT VERSION
d)
1
Z 1
E(X) = x [ln(x) − 2x + 10] dx
8 0
1
Z 1
xln(x) − 2x2 + 10x dx

=
8 0
1
2x3 10x2

1 1 2 1
= x ln(x) − x2 − +
8 2 4 3 2 0
12 2 × 13 10 × 12

1 1
= × 12 × ln(1) − − +
8 2 4 3 2
1 49
= ×
8 12
49
E(X) = = 0.510416
96
1
Z 1
E(X 2 ) = x2 [ln(x) − 2x + 10] dx
8 0
1
Z 1
x2 ln(x) − 2x3 + 10x2 dx

=
8 0
1
2x4 10x3

1 1 3 1
= x ln(x) − x3 − +
8 3 9 4 3 0
13 14 10 × 13

1 1 × ln(1)
= − − +
8 3 9 2 3
1 49
= ×
8 18
49
E(X 2 ) = = 0.34027
144
2
49 49 245
V (X) = − =
144 96 3072
r
245
D(X) = ≈ 0.282405035
3072
20. X ∼ χ212
a) P r(X > 4.40) = 0.975
b) P r(X < 4.40) = 1 − 0.975 = 0.025
c) P r(X > 5.23) 5.00) 4.40) ∴ 0.950 5) < 0.975
d) 1 − P r(X > 5.23) 11.34) ∴ 0.025 0.727) = 0.25
b) P r(T < 4.032) = 1 − P r(T > 4.032) = 1 − 0.005 = 0.995
c) t = 2.571
d) P r(X > 5.893) 5.000) 4.773) ∴ 0.0010 5) < 0.0025
ν→∞
e) tν −→ N (0, 1)
22. F ∼ F (10, 6)
a) P r(F > 2.461) = 0.1
b) f = 4.072
23. X: ‘número de carretas por dia’, X ∼ P(4)

a) Y : ‘tempo (em dias) entre carretas’, Y ∼ E(4)
b) f (y) = 4e−4y
F (y) = 1 − e−4y
Page 153
DRAFT VERSION
1
c) E(Y ) = = 0.25.
4
Espera-serum tempo de 0.25 dia = 6 horas entre as carretas.
1
D(Y ) = = 0.25.
42
O tempo entre carretas varia, em média, 0.25 dia = 6 horas em torno da média.
d) P r(Y < 1) = F (1) = 1 − e−4×1 ≈ 0.981684361.
A probabilidade de que o tempo entre as carretas seja inferior a um dia é de aproximadamente 0.9817.
P r(X > 30) = P r Z > 30−22

24. a) 3
= P r(Z > 2.67) = 0.0038
P r(20 < X < 30) = P r 20−22 Z < 30−22

b) 3
< 3
= P r(−0.67 < Z < 2.67) = 0.9962 − 0.2514 = 0.7448
18−22

c) P r(X < 18) = P r Z > 3 = P r(Z < −1.33) = 0.0918
d) x = 22 − 1.26 × 3 = 18.22
e) Pessoas depressivas com até 18.22 anos têm probabilidade 0.1038 de cometer suicı́dio.
P r(X > 33) = P r Z > 33−27

25. a) 4
= P r(Z > 1.50) = 0.0668
P r(32 < X < 40) = P r 32−27 Z < 40−27

b) 4
< 4
= P r(1.25 < Z < 3.25) = 0.9994 − 0.8944 = 0.1050
c) x = 27 + 0.31 × 4 = 28.24
d) Pessoas de até 28.24 anos têm probabilidade de 0.6217 de pedir financiamento de automóveis.
P r(X < 16000) = P r Z < 16000−15000

26. a) 2000
= P r(Z < 0.50) = 0.6915
P r(X > 13000) = P r Z > 13000−15000

b) 2000
= P r(Z > −1.00) = 0.8413
P r(12000 < X < 14000) = P r 12000−15000 < Z < 14000−15000

c) 2000 2000
= P r(−1.50 < Z < −0.50) = 0.3085 −
0.0668 = 0.2417
27. a) 0.0013 b) 0.9987 c) 0.9986 d) 0.0001 e) 104
28. a) Convencional 0.7734, prioritário 0.0478.

b) Convencional 0.0401, prioritário 0.0000.
c) 0.0474
d) Convencional 28 minutos, prioritário 19 minutos.
e) Sabe-se pela tabela normal que aproximadamente P r(Z < 0.9) = 1.28. x = 23 + 1.28 × 4 = 28.12. y =
15 + 1.28 × 3 = 18.84.
29. a) 0.1151 b) 0.3056 c) 306 d) 6.2 + 1 × 1.04 = 7.24
30. a) 0.1587 b) 0.5746 c) 0.0013
31. B
32. D
33. E
Capı́tulo 4 - Inferência Estatı́stica Clássica

Seção 4.1
2. Solução abaixo, note a diferença dos valores do exemplo devido ao aumento de precisão.
> n <- function(e, conf = 0.95, p = 1/2){
alfa <- 1-conf
z <- qnorm(1-alfa/2)
return(round(z^2*p*(1-p)/e^2))
}
> n(.02) # comparando com o valor aproximado do exemplo
[1] 2401
> n(.01) # item a)
[1] 9604
> n(.01, p = 0.65) # item b)
[1] 8739
> n(.01, conf = 0.9) # item c)
[1] 6764
> n(.02, conf = 0.9) # item c)
Page 154
DRAFT VERSION
[1] 1691
Seção 4.2
3. Se considerarmos que os prédios são estratos, i.e., relativamente homogêneos em relação à variável ‘maneira de se
vestir’, a Amostragem Estratificada seria uma boa opção.
4. Considerando a Tabela tab1_6_23.xls, temos a seguinte tabela de totais:
Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou mais Total

M 269851 261472 679481 799937 358515 2369256
F 260745 252800 685828 812956 441210 2453539
Total 530596 514272 1365309 1612893 799725 4822795
Calculando percentualmente, temos a tabela abaixo. Para saber o total de entrevistados em cada situação, basta
multiplicar 1000 pelo percentual da célula correspondente.
Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou mais Total

M 0.0560 0.0542 0.1409 0.1659 0.0743 0.4913
F 0.0541 0.0524 0.1422 0.1686 0.0915 0.5088
Total 0.1101 0.1066 0.2831 0.3345 0.1658 1.0000
> h <- c(269851 , 261472 , 679481 , 799937 , 358515)

> m <- c(260745 , 252800 , 685828 , 812956 , 441210)
> tab <- rbind(h,m)
> (tab.prop <- round(prop.table(tab),4))
[,1] [,2] [,3] [,4] [,5]
h 0.0560 0.0542 0.1409 0.1659 0.0743
m 0.0541 0.0524 0.1422 0.1686 0.0915
> rowSums(tab.prop)
h m
0.4913 0.5088
> colSums(tab.prop)
[1] 0.1101 0.1066 0.2831 0.3345 0.1658
Seção 4.4
5. a) O limite superior de confiança 99% para a média é de −1.2.

b) O intervalo de confiança de 82% para a proporção está entre 1/7 e 3/7.
c) O intervalo de confiança de 90% para a média está entre 1/7 e 3/7.
d) O limite inferior de confiança 95% para a variância é de 16.
e) O limite superior de confiança 95% para a o desvio padrão é de 7.
f) O intervalo de confiança de 95% para o desvio padrão está entre 4 e 7.
Seção 4.5
6. a)
H0 : o intervalo de tempo entre os ônibus é, em média, igual a 15 minutos
H1 : o intervalo de tempo entre os ônibus é, em média, diferente de 15 minutos

H0 : µ = 15
H1 : µ 6= 15
b)
H0 : a duração média dos amortecedores é maior ou igual a 100 mil km
H1 : a duração média dos amortecedores é menor que 100 mil km

H0 : µ ≥ 100000
H1 : µ < 100000
c)
H0 : o ganho médio diário com a nova composição é de pelo menos 3 litros de leite
H1 : o ganho médio diário com a nova composição é inferior a 3 litros de leite

H0 : µ ≥ 3
H1 : µ < 3
Page 155
DRAFT VERSION
d)
H0 : as garrafas de cerveja contêm pelo menos 600mL, em média
H1 : as garrafas de cerveja contêm menos de 600mL, em média

H0 : µ ≥ 600
H1 : µ < 600
e)
H0 : a face 1 ocorre com frequência equivalente às demais faces
H1 : a face 1 ocorre com frequência diferente das demais faces

H0 : π = 1/6
H1 : π 6= 1/6
f)
H0 : a vacina previne pelo menos 80% dos casos de doença
H1 : a vacina previne menos de 80% dos casos de doença

H0 : π ≥ 80%
H1 : π < 80%
Exercı́cios extras
r
0.45 × 0.55
1. a) IC(πA , 95%) = 0.45 ∓ 1.96 ≈ 0.45 ∓ 0.0436 = [0.4064, 0.4936]
500
r
0.37 × 0.63
b) IC(πB , 95%) = 0.37 ∓ 1.96 ≈ 0.37 ∓ 0.0423 = [0.3277, 0.4123]
500
c) Não, pois εA ≈ 0.0436 e εB ≈ 0.0423.
82
2. a) π̂ = 100 = 0.82
b) IC(π, 95%) = 0.82 ∓ 0.0753 = [0.7447, 0.8953]
r
0.47 × 0.53
3. a) IC(π, 84%) = 0.47 ∓ 1.41 ≈ 0.47 ∓ 0.0123 = [0.4577, 0.4823]
r 3281
0.47 × 0.53
IC(π, 95%) = 0.47 ∓ 1.96 ≈ 0.47 ∓ 0.0171 = [0.4529, 0.4871]
3281
b) ε84% ≈ 0.0123, ε95% ≈ 0.0171.
10
4. a) π̂ = ≈ 0.1176
85 s
10 10

10 85
× 1− 85
b) IC(π, 91%) = ∓ 1.70 ≈ 0.1176 ∓ 0.0594 = [0.0582, 0.1771]
85 85
23
5. a) π̂ = 41
≈ 0.5610
b) 57 × 23
41
≈ 32
s
23 23

23 41
× 1− 41
c) IC(π, 85%) = ∓ 1.44 ≈ 0.5610 ∓ 0.1116 = [0.4494, 0.6726]
41 41
6. a) µ̂ = 13.71, σ̂ 2 = 3.552 = 12.6025

3.55
b) IC(µ, 98%) = 13.71 ∓ 2.518 × √ ≈ 13.71 ∓ 1.91 = [11.80, 15.62]
22
7. a) µ̂ = 13, 000, 000 = 13M M
b) IC(µ, 90%) = 13M M ∓ 1.4M M = [11.6M M, 14.4M M ]
0.3486
8. IC(µ, 95%) = 0.5250 ∓ 2.007 × √ ≈ 0.5250 ∓ 0.0961 = [0.4289, 0.6211]
53
9. a) 1 − α = 96.76%
b) z = ±1.88
r
0.9 × 0.1
10. Sob H0 , IC(π, 95%) = 0.9 ∓ 1.96 ≈ 0.9 ∓ 0.0772 = [0.8228, 0.9772], onde π é a verdadeira proporção de
58
hotéis ocupados. A informação da rádio pode estar correta pois π̂ = 49/58 ≈ 0.8448 pertence ao intervalo calculado.
De forma equivalente, não rejeita-se H0 : π = 0.9.
11. a) Hipótese de pesquisa
H0 : a média é igual a 20
H1 : a média é diferente de 20
Hipótese estatı́stica
H0 : µ = 20
H1 : µ 6= 20
Page 156
DRAFT VERSION
17.4−20
b) zcalc = √ = −2.17
12/ 100
Região crı́tica bilateral a 1%: (−∞, −2.58) ∪ (2.58, +∞). Não rejeita H0 .
Região crı́tica bilateral a 5%: (−∞, −1.96) ∪ (1.96, +∞). Rejeita H0 .
Região crı́tica bilateral a 10%: (−∞, −1.64) ∪ (1.64, +∞). Rejeita H0 .
c) IC(µ, 95%) = 17.4 ± 1.96 × √12 = [15.05, 19.75].
100
Com 95% de confiança estima-se que a média esteja entre 15.05 e 19.75.

H0 : a pressão diastólica média de mulheres com diabetes é igual a 74.4 mmHg
H1 : a pressão diastólica média de mulheres com diabetes é diferente de 74.4 mmHg
H0 : µ = 74.4
H1 : µ 6= 74.4
84−74.4
b) tcalc = √ = 3.34
9.1/ 10
Região crı́tica bilateral 5%: (−∞, −2.262) ∪ (2.262, +∞).
DE: Rejeita H0 pois tcalc ∈ (−∞, −2.262) ∪ (2.262, +∞).
CE: Há evidências de que a pressão distólica seja maior nas mulheres diabéticas do que em mulheres não diabéticas
c) valor − p = 2 × P r(T > 3.34) = 2 × 0.0043300861 ≈ 0.0087.
d) Sim, pois p = 0.0087 < 0.01.
9.1
e) IC(µ, 90%) = 84 ± 1.833 × √ = [78.73, 89.27]
10
9.1
IC(µ, 95%) = 84 ± 2.262 × √ = [77.49, 90.51]
10
Aumentar a confiança implica em aumentar a amplitude do intervalo, i.e., reduzir a precisão da estimativa por
intervalo.
H0 : a média de pontuação não se modificou
H1 : a média de pontuação se modificou
H0 : µ = 900
H1 : µ 6= 900
b) Sob H0 , IC(µ, 95%) = 900 ± 1.96 √180 ≈ 900 ∓ 24.95 = [875.05, 924.95]. Rejeita-se, com α = 5% de significância
200
(ou 1 − α = 95% de confiança), que a média histórica das notas tenha aumentado pois x̄ = 935 não pertence ao
intervalo calculado.
14. a) µ̂ = 3.2, σ̂ = 0.4.
b) H0 : os digitadores cometem não mais de 3 erros por página. H0 : µ ≤ 3 vs H1 : µ > 3.
3.2−3
c) tcalc = √ = 2.5 > tcritico = 1.711.
0.4/ 25
DE: Rejeita-se H0 com nı́vel de significância de 5%.
CE: O teste sugere que os digitadores cometem, em média, mais de 3 erros por página.
d) 3.2 × 150 = 480
15. a) H0 : a fábrica embala os produtos com conteúdo médio de pelo menos 500g. H0 : µ ≥ 500 vs H1 : µ < 500.
492−500
b) tcalc = √ = −1.33 > tcritico = −1.711. Não rejeita H0 . A fábrica não deve ser multada.
30/ 25
16. Hipótese de pesquisa

H0 : o rendimento médio dos carros é de 10.4 km/L
H1 : o rendimento médio dos carros é diferente de 10.4 km/L
H0 : µ = 10.4
H1 : µ 6= 10.4
9.8−10.4
tcalc = √ ≈ −0.276 ∈ (−2.064, +2.064). Não rejeita H0 . Os carros podem ter o rendimento declarado pela
2.3/ 25
fábrica.
Page 157
DRAFT VERSION
Capı́tulo 5 - Modelos Lineares
q
8−2
1. a) T = 0.9586 1−0.9586 2 = 8.246 > tcrı́tico = 2.447, p = 0.0002, rejeita-se H0 . O grau de associação linear entre a
metragem quadrada e o preço é 0.9586.

b) Para cada aumento de 1 m2 no imóvel espera-se um aumento de R$ 2192.04 no preço do imóvel.
c) ŷ = 2192.04 × 55 − 14401.57 = 106, 160.63. O preço parece estar bem acima do mercado.
q
18−2
2. a) T = −0.837 1−(−0.837) 2 = −6.118 < tcrı́tico = −2.120, p = 0.0000, rejeita-se H0 . O grau de associação linear
entre a idade e a massa corporal é −0.837.

b) ŷ = −1.027 × 60 + 148.218 = 86.60kg.
c) Para cada aumento de 1 ano de idade, espera-se uma redução de −1.027 unidade na massa corporal.
3. a) r = 0.9063, gl = 10 − 2 = 8, t = 6.065 > tcrı́tico = 3.355, p = 0.000301. Rejeita-se H0 : ρ = 0.
√
b) r = 0.8213 = 0.9063.
c) Em ambos os modelos P r(> |t|) < 0.01 para todos os coeficientes estimados. Em relação aos coeficientes de
determinação, r12 = 0.8213 < 0.9592 = r22 . Em relação aos resı́duos, os do modelo com intercepto está mais
bem ajustado à distribuição normal. À luz destas informações, escolho o modelo com intercepto, na forma
ŷ = 2.8812 + 0.6470x.
d) Eles fornecem a mesma estatı́stica de teste t = 6.065, indicando ser equivalente testar H0 : ρ = 0 e H0 : β1 = 0
no modelo com intercepto.
e) p̂2 = 2.8812 + 0.6470 × 5.6 = 6.5
√
4. a) r = 0.9110 = 0.9544, gl = 9 − 2 = 7, t = 8.462, P r< |t| = 6.357 × 10−05 < 0.05. Rejeita-se H0 : ρ = 0.
b) Em ambos os modelos P r(> |t|) < 0.05 para todos os coeficientes estimados. Em relação aos coeficientes de
determinação, r12 = 0.9110 < 0.9855 = r22 . Em relação aos resı́duos, os do modelo com intercepto está mais
bem ajustado à distribuição normal. À luz destas informações, escolho o modelo com intercepto, na forma
ŷ = −141.563 + 14.378x.
c) Eles fornecem a mesma estatı́stica de teste t = 8.462, indicando ser equivalente testar H0 : ρ = 0 e H0 : β1 = 0
no modelo com intercepto.
d) ŷ = −141.563 + 14.378 × 22 = 175.006 ≈ 175 picolés.
e) x̂ = 340+141.563
14.378
≈ 33.5 graus Celsius.
5. a) Pela equivalência entre o teste de β1 do modelo completo e o teste para ρ, sabe-se que o p-value é igual a
0.001490 < 0.05. Logo, rejeita-se H0 : ρ = 0.
b) Escolho o modelo completo pois i) todos os coeficientes são significantes, ou seja, p-values menores que 0.05 para
os testes H0 : β0 = 0 e H0 : β1 = 0, ii) seu qq-plot sugere um bom ajuste dos resı́duos à distribuição normal, iii)
o r2 = 0.8879 e iv) o coeficiente β̂1 = −1296 é negativo, coerente com o comportamento dos dados observados.
c) Para cada milı́metro adicional de chuva, espera-se uma redução de 1296 pessoas presentes no evento.
d) ŷ = 20432 − 1296 × 12 = 4880.
6. a) Pela equivalência entre o teste de β1 do modelo completo e o teste para ρ, sabe-se que o p-value é igual a
7.85 × 10−6 < 0.05. Logo, rejeita-se H0 : ρ = 0.
b) Escolho o modelo incompleto pois i) o coeficiente β̂1 é significante, ou seja, seu p-value é 2.05 × 10−11 < 0.05 para
o teste H0 : β1 = 0. O mesmo não ocorre no modelo completo, onde aceita-se H0 : β0 = 0 (p-value 0.145 > 0.05),
sugerindo o modelo incompleto, ii) seu qq-plot sugere um bom ajuste dos resı́duos à distribuição normal e iii)
r2 = 0.9943.
c) Para cada aumento de 1 hora de estudo mensal, espera-se um aumento de 0.42983 pontos na nota média de certa
disciplina.
d) ŷ = 0.42983 × 15 ≈ 6.45.
Capı́tulo 6 - Números Índices

Seção 6.1
1. Aguardando sugestões.
1. a) pcereja
2007,2009 = 137.11%
Q
b) I2007,2008 = 111.54%
cereja
c) v2007,2009 = 274.23%
Q
d) F2007,2008 = 102.88%
2. mumu
a) p2008,2009 = 155.47%
Q
b) I2007,2008 = 130.00%
P
c) P2009,2010 = 118.00%
P
d) F2009,2010 = 118.00%
Page 158
DRAFT VERSION
C Uma breve introdução ao R e RStudio
R é uma linguagem e ambiente de programação para cálculos estatı́sticos e visualização. Foi de-
senvolvido no departamento de Estatı́stica da Universidade de Auckland, e seu código está disponı́vel
sob a licença GNU81 GPL82 . Atualmente a R Foundation está sediada na Universidade de Economia
e Negócios de Viena, Áustria. Foi influenciado por linguagens como S e Scheme seguindo o conceito
minimalista orientado a objeto, que especifica um pequeno núcleo padrão acompanhado de pacotes para
a extensão da linguagem.
RStudio é um ambiente de desenvolvimento integrado ao R. Possibilita a criação de apresentações e
relatórios automáticos em diversos formatos como pdf, html e docx, mesclando as linguagens R, LATEX,
markdown, C++, Python, SQL e D3. Está disponı́vel nas edições Desktop e Server, reunindo as funcio-
nalidades do R de forma parcimoniosa.
Instalando e acessando R e RStudio

Para instalar o R83 , acesse cran.rstudio.com e escolha o seu sistema operacional. No Linux, siga
as instruções de instalação via terminal de acordo com a sua distribuição; no Mac OS X, use a extensão
pkg; no Windows, acesse http://cran.rstudio.com/bin/windows/base.
Figura C.1: Página de download do R para diferentes sistemas operacionais.
Para instalar o RStudio84 , acesse www.rstudio.com/products/rstudio/download e escolha o insta-

lador85 de acordo com seu sistema operacional conforme Figura C.2.
Figura C.2: Página de download do RStudio para diferentes sistemas operacionais.
Caso você não tenha disponibilidade para realizar as instalações sugeridas, pode-se ainda acessar o
R remotamente através de algum compilador online.
• http://rextester.com/l/r_online_compiler
• ideone.com (No botão inferior esquerdo, altere de ‘Java’ para ‘R’)
81 GNU is Not Unix.
82 A Licença Pública Geral GNU é um tipo de licença utilizada para software livre, que garante aos usuários finais
(indivı́duos, organizações ou empresas) a liberdade de usar, estudar, compartilhar e modificar o software.
83 www.r-project.org
84 www.rstudio.com
85 Para a versão beta, acesse https://www.rstudio.com/products/rstudio/download/preview/.
Page 159
DRAFT VERSION
A primeira sessão de R/RStudio
Considera-se que o leitor acessou com sucesso o R/RStudio, conforme detalhamento anterior. Abra o
R/RStudio e crie um novo script através do menu File ; New File ; R Script. Salve este documento
com o nome teste.R em uma pasta apropriada. Este script é um documento de texto onde será escrito o
código R. Note que o RStudio utiliza cores para destacar os diferentes objetos (números, texto, funções),
auxiliando a visualização do código. Para rodar o código que está escrito no documento criado, clique na
linha ou selecione o bloco desejado e tecle Command+Enter (Mac) ou Ctrl+Enter (Windows e Linux).
O R funciona como uma calculadora. Experimente realizar algumas operações simples para começar.
Linhas de código são desconsideradas a partir do sı́mbolo #, que indica um comentário.
> 2+4*3 # Operaç~

oes algébricas básicas, mantendo as propriedades matemáticas
[1] 14
> (2+4)*3 # Note a nova prioridade obtida com os par^

enteses
[1] 18
> 2^3 # Pot^

encias s~
ao indicadas por ^ ou ** (Após digitar ^ d^
e um espaço no teclado)
[1] 8
> 1:10 # O sı́mbolo : indica uma sequ^

encia, que pode ser crescente...
[1] 1 2 3 4 5 6 7 8 9 10
> 10:1 # ... ou decresecente
[1] 10 9 8 7 6 5 4 3 2 1
> -(10:1) # Note a diferença do negativo com
[1] -10 -9 -8 -7 -6 -5 -4 -3 -2 -1
> -10:1 # ... e sem par^

enteses
[1] -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1
> x <- 2 # O sı́mbolo <- (seta para esquerda) indica uma atribuiç~
ao
> x # Digitar o objeto criado apresenta seu conteúdo
[1] 2
> (y = 4) # Apresenta o resultado quando colocado entre par^

enteses
[1] 4
> # = é similar a <-, porém menos versátil. Prefira seta, pois funciona sempre
> (3 -> z) # A atribuiç~
ao com seta pode, ainda, ser feita no sentido oposto
[1] 3
> x+y*z # Pode-se operar com os valores atribuı́dos
[1] 14
Page 160
DRAFT VERSION
> (v <- c(2,0,1,2,4,2)) # Um vetor é facilmente criado com 'c' (concatenar)
[1] 2 0 1 2 4 2
> 2*v # Operaç~

oes s~
ao facilmente realizadas com vetores
[1] 4 0 2 4 8 4
> v^2 # Cada valor ao quadrado. Compare 'sum(v^2)' e '(sum(v))^2'
[1] 4 0 1 4 16 4
> v[3] ao do vetor 'v'

# Apresenta a terceira posiç~
[1] 1
> v[-3] # Apresenta o vetor 'v', exceto a terceira posiç~

ao
[1] 2 0 2 4 2
> v[c(3,5)] oes do vetor 'v'

# Apresenta a terceira e quinta posiç~
[1] 1 4
> length(v) # Indica o tamanho do vetor 'v', teste ?length
[1] 6
> MASS::fractions(cos(c(0,30,45,60)*pi/180)) # Fraç~

oes
[1] 1 226974/262087 2378/3363 1/2
> letters[1:20] # letras minúsculas
[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s" "t"
> noquote(LETTERS) # letras maiúsculas sem aspas
[1] A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
> substr('abcdef', 2, 4) # apresenta da segunda até a quarta posiç~

ao
[1] "bcd"
> x <- c('Chimarrao', 'Gaita', 'Bah')

> strsplit(x, 'a') # retira a letra 'a'
[[1]]
[1] "Chim" "rr" "o"
[[2]]
[1] "G" "it"
[[3]]
[1] "B" "h"
> tolower(x) # minúsculas
[1] "chimarrao" "gaita" "bah"
> toupper(x) # maiúsculas
[1] "CHIMARRAO" "GAITA" "BAH"
Page 161
DRAFT VERSION
D Equação da Reta
A equação da reta é uma relação matemática utilizada para descrever uma reta no plano cartesiano 86 .
Pode ser apresentada de formas distintas, sendo que na Seção 5.2 é utilizada a notação da reta reduzida,
fazendo a0 = β1 e b0 = β0 .
Tipo Equação
Geral ax + by + c = 0
x y
Segmentária + =1
−c/a −c/b
a c
Reduzida y = − x − ⇒ y = a0 x + b0
b b
Exemplo D.1. (Equação reduzida) Considere a reta que passa pelos pontos A = (0, −3) e B = (1.5, 0).
Uma maneira de descobrir a equação reduzida é substituir os pontos A e B em y = a0 x + b0 :
Ponto A −3 = a0 × 0 + b0 ⇒ b0 = −3
3
Ponto B + b0 0 = a0 × 1.5 + (−3) ⇒ a0 = =2
1.5
Assim, a equação reduzida da reta é y = 2x − 3, onde o coeficiente angular é a0 = 2 e o intercepto

(constante ou coeficiente linear) é b0 = −3. Para cada aumento de 1 unidade em x, y aumenta 2 unidades.
,
Exemplo D.2. (Equação segmentária) Do Exemplo D.1, pode-se obter a equação segmentária da reta a
partir da forma reduzida.
2 1 3 x y x y
y = 2x − 3 ⇔ 2x − y = 3 ⇔ x− y = ⇔ + =1 ⇔ + = 1.
3 3 3 3/2 3/ − 1 1.5 −3
Assim, −c/a = 1.5 e −c/b = −3. Note que xB = 1.5 e yA = −3.

,
Exemplo D.3. (Equação geral) Do Exemplo D.1, pode-se obter a equação geral da reta a partir da forma
reduzida.
y = 2x − 3 ⇔ 2x − y − 3 = 0.
2 −3
Assim, a = 2, b = −1 e c = −3. Note que a0 = − = 2 e b0 = − = −3.
−1 −1
,
86 Sistema de coordenadas formado por duas retas reais perpendiculares – i.e., que formam um ângulo de 90o – utilizado
para especificar pontos a partir de um par de coordenadas numéricas na forma (x, y).
Page 162
DRAFT VERSION
Referências
Anderson, D., Sweeney, D., Williams, T., and de Castro Paiva, L. (2007). Estatı́stica aplicada à Admi-
nistração e Economia. Cengage Learning.
Anscombe, F. (1973). Graphs in statistical analysis. The American Statistician, 27(1):17–21.
Baratojo, J. (2000). Fatos, contos e piadas da sala de aula (pp. 56–57).

Beckman, O. R. and Costa Neto, P. L. (1980). Análise Estatı́stica da Decisão. Editora Edgard Blücher
LTDA.
Beers, M. and Fletcher, A. (2004). Manual Merck de Informação Médica: Saúde para a famı́lia segunda
edição. Merck Manual os Medical Information Home Edition. Simon & Schuster.
Bernardo, J. M. and Smith, A. F. (2009). Bayesian Theory, volume 405. John Wiley & Sons.
Berthouex, P. and Brown, L. (2002). Statistics for environmental engineers. CRC.
Blackwell, D., Pereira, C., and Borges, W. (1974). Estatı́stica Básica. McGraw-Hill do Brasil.
Bolfarine, H., de Oliveira Bussab, W., and de Estatı́stica, A. B. (2005). Elementos de amostragem.
Edgard Blücher.
Breslow, N. E. and Day, N. E. (1980). Statistical Methods in Cancer Research. Volume 1—The Analysis
of Case-Control Studies. IARC Scientific Publications, Lyon, France.
Breslow, N. E. and Day, N. E. (1987). Statistical Methods in Cancer Research. Volume 2—The Design
and Analysis of Cohort Studies. IARC Scientific Publications, Lyon, France.
Callegari-Jacques, S. (2003). Bioestatı́stica. Princı́pios e Aplicações. Porto Alegre, ArtMed.
Chow, S.-C., Shao, J., and Wang, H. (2007). Sample size calculations in clinical research, volume 20.
Chapman & Hall/CRC.
de Finetti, B. (1974). Theory of probability: A critical introductory treatment - Vol. 1. John Wiley &
Sons Ltd., Chichester.
DeGroot, M. and Schervish, M. (2002). Probabilty and Statistics. Addison Wesley, Boston, MA, Pennsyl-
vania.
Diewert, W. and Nakamura, A. (1993). Essays in index number theory. North-Holland.

Dukette, D. and Cornish, D. (2009). The essential 20: Twenty components of an excellent health care
team (pp. 72–73).
Eisenhauer, J. (2003). Regression through the origin. Teaching Statistics, 25(3):76–80.
Feller, W. (1968). An Introduction to Probabilty Theory and Its Applications. John Wiley & Sons, Inc.,
New York, third edition.
Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B. (2003). Bayesian data analysis. Chapman &
Hall/CRC.
Gosh, J. (1988). Statistical information and likelihood: A collection of critical essays by dr. d. basu.
Lecture Notes in Statistics, 45.
Hohenwarter, M., Borcherds, M., and Ancsin, E. (2014). GeoGebra 5.0.42.0-3d. http://www.geogebra.
org.
Huff, D. and Geis, I. (1954). How to lie with statistics.
Hyndman, R. J. and Khandakar, Y. (2008). Automatic time series forecasting: the forecast package for
R. Journal of Statistical Software, 26(3):1–22.
Page 163
DRAFT VERSION
Iezzi, G. and Murakami, C. (1977). Fundamentos de Matemática Elementar 1: Conjuntos, funções. SP
Editora Atual.
Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8):e124.
James, B. (2010). Probabilidade: Um curso em nı́vel intermediário, coleção euclides. Rio de Janeiro.
IMPA, 3ª Edição.
Koertge, N. (2008). New dictionary of scientific biography. Charles Scribner’s Sons/Thomson Gale
Detroit, MI.
Kotz, S. and Nadarajah, S. (2000). Extreme value distributions. World Scientific.
Kotz, S., Read, C., Balakrishnan, N., and Vidakovic, B. (2005). Encyclopedia of statistical sciences, 16
volume set.
Leisch, F. (2002). Sweave: Dynamic generation of statistical reports using literate data analysis. In
Härdle, W. and Rönz, B., editors, Compstat 2002 — Proceedings in Computational Statistics, pages
575–580. Physica Verlag, Heidelberg. ISBN 3-7908-1517-9.
Likert, R. (1932). A technique for the measurement of attitudes. Archives of psychology.

Magalhães, M. and Lima, A. (2002). Noções de probabilidade e estatı́stica.
McCullagh, P. and Nelder, J. A. (1989). Generalized linear models (monographs on statistics and applied
probability 37). Chapman Hall, London.
Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., and Leisch, F. (2017). e1071: Misc Functions
of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R package
version 1.6-8.
Meyerhof Salama, B. (2011). Dano moral no brasil. Série Pensando o Direito, (37).
Morettin, P. and Bussab, W. (2008). Estatı́stica básica. Saraiva.

Mullard, A. (2011). Reliability of ‘new drug target’ claims called into question. Nature Reviews Drug
Discovery, 10(9):643–644.
Pagano, M. (2004). Princı́pios de bioestatı́stica. Pioneira Thomson Learning.
Paulino, C., Turkman, M., and Murteira, B. (2018). Estatı́stica Bayesiana. Fundação Calouste Gulben-
kian, Lisboa, 2nd edition.
Pfanzagl, J. and Sheynin, O. (1996). Studies in the history of probability and statistics xliv - a forerunner
of the t-distribution. Biometrika, pages 891–898.
Püschel, F. (2010). Dano moral. Projeto Pensando o Direito, (37).
R Core Team (2017). R: A Language and Environment for Statistical Computing. R Foundation for
Statistical Computing, Vienna, Austria.
Salkind, N. (2007). Encyclopedia of measurement and statistics. Sage Publications, Inc., Thousand Oaks.
Scheinerman, E. (2003). Matemática Discreta - Uma Introdução. Thomson.
Scrucca, L. (2004). qcc: an r package for quality control charting and statistical process control. R News,
4/1:11–17.
Silver, N. (2012). The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t. Penguin
Press.
Stokes, M. (1997). Plato: Apology of Socrates. Aris & Phillips.

Sturges, H. A. (1926). The choice of a class interval. Journal of the American Statistical Association,
21(153):65–66.
Page 164
DRAFT VERSION
Triola, M. (1999). Introdução à estatistica. 7ª edição. Rio de Janeiro: Livros Técnicos e Cientı́ficos
Editora.
Tufte, E. (2007). The Visual Display of Quantitative Information. Graphics Press LLC.
Weisberg, S. (2005). Applied linear regression, volume 528. John Wiley & Sons.
Wickham, H. (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.
Yule, G. and Kendall, M. (1948). Introdução à Teoria da Estatı́stica. Instituto Brasileiro de Geografia e
Estatı́stica.
Page 165

Ecnrs

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ecnrs

Enviado por

Direitos autorais:

Formatos disponíveis

DRAFT VERSION

“ Meninos, eu vou ditar as regras do bem viver

4 Inferência Estatı́stica Clássica 77

5 Modelos Lineares 101

6 Modelos Não Lineares 119

7 Números Índice 126

B Respostas dos exercı́cios 140

C Uma breve introdução ao R e RStudio 159

D Equação da Reta 162

“ O pensamento estatı́stico será um dia tão necessário para a cidadania

DESCRITIVA INFERENCIAL PREDITIVA

Figura 1.1: Uma possı́vel divisão da Estatı́stica

1.1 Algarismos e Números

X: ‘número de filhos de mulheres atendidas em um hospital público de Porto Alegre em

> x <- c(186,402,191,20,7,124) # Pode-se criar um vetor e atribuir a x

> sum(x^2) # Soma dos quadrados, representada pela Equaç~

1. Considere o banco de dados disponı́vel no pacote coronavirus6 conforme código abaixo.

> # install.packages('coronavirus', dep=T) # rodar uma vez

> head(coronavirus) # mostrando o inı́cio do banco de dados

date province country lat long type cases

a) Obtenha a soma de casos (cases) registrados ao longo de todo o perı́odo.

Decimais Arredondamento Truncagem

Tabela 1.2: Arredondamento e truncagem do número 153.654321

> options(digits = 10) # Ajustando para apresentaç~

> trunc <- function(x, ..., dig = 0) base::trunc(x*10^dig, ...)/10^dig # Aprimorando

7 Esta é a regra do arredondamento para o número mais próximo.

> plyr::round_any(153.654321, .0001, floor) # dig = 4 em trunc

> plyr::round_any(153.654321, 1, round) # dig = 0 em round

> plyr::round_any(153.654321, 100, round) # dig = -2 em round

1.6 Outros sı́mbolos e expressões

Maiúscula Minúscula Nome Maiúscula Minúscula Nome

Tabela 1.3: Sim, estamos falando grego.

Psicologia das cores

“ Fazendo umas médias se faz uma média.”

Figura 2.1: Uma possı́vel classificação das variáveis

2.1.1 Variável qualitativa nominal

2.1.3 Variável quantitativa discreta

i Faixa etária Classificação

a) Número de geladeiras em casa

2.2 Distribuição de Frequência

x(1) x(2) x(3) x(4) x(5) x(6)

> (x <- c(186,402,191,20,7,124)) # Criando e apresentando o vetor original de dados brutos

[1] 186 402 191 20 7 124

> sort(x) # Apresentando o rol, ou vetor ordenado. Teste ?order

[1] 7 20 124 186 191 402

> sort(x, decreasing = T) # Ordem decrescente, onde T indica TRUE (padr~

[1] 402 191 186 124 20 7

2. Utilizando a função sort, encontre o rol das Tabelas 2.3 e 2.5.

Para a classe genérica i são calculadas as seguintes frequências:

Exemplo 2.13. (Número de filhos revisitado) Do Exemplo 2.5 observou-se a variável

X: ‘número de filhos de mulheres atendidas em um hospital de Porto Alegre em 2019’.

Tabela 2.3: Dados brutos de X

Tabela 2.4: Tabela de frequência de X

· f5 = 11, i.e., 11 mulheres possuem 4 filhos;

> # Lendo o arquivo 'hospital.txt' direto do link

> attach(hosp) # Para deixar as colunas de 'hosp' disponı́veis

> cumsum(tab) # Frequ^

> round(cumsum(tab)/length(filhos),2) # Frequ^

> cumsum(rev(tab)) # Frequ^

> round(cumsum(rev(tab))/length(filhos),2) # Frequ^

a) Classifique a variável ‘número de defeitos’.

a) Qual a frequência simples da classe VI? Interprete.

2.2.3 Tabela de frequência univariada contı́nua