Você está na página 1de 116

NOTAS DE AULA: ESTATISTICA

BASICA
Curso: Biotecnologia

Profs. Flavio Bittencourt/Adriana Dias


UNIFAL-MG / ALFENAS
2017/2
SUMARIO
1 SOMATORIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Indices ou notacao por ndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Notacao de somatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4 Somatorios mais usados na Estatstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 ALGUMAS DEFINICOES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.1 Variavel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.1.1 Variaveis qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.2 Variaveis quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1.3 Variaveis independentes e dependentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3 Populacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.4 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.5 Parametro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.6 Estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.7 Estimativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.8 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.9 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 AMOSTRAGEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1 Importancia do censo e da amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2 Numeros aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3 Tipos de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.3.1 Amostragem nao probabilstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.3.2 Amostragem probabilstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 ESTATISTICA DESCRITIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.1 Apresentacao dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.1.1 Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.1.2 Construcao de tabelas de distribuicao de frequencias . . . . . . . . . . . . . . . . . . . . . 22
5.1.3 Tipos de tabelas de distribuicao de frequencias para variaveis quantitativas . . . . . . . . . 26
5.1.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.5 Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.1.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2 Medidas Estatsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.1 Medidas de Posicao ou de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.2 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.3 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2.5 Medidas de Variabilidade ou de Dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6 PROBABILIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.1 Definicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.1 Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.2 Experimento determinstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.3 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.4 Espaco amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.5 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2.1 Probabilidade a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2.2 Probabilidade a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.2.3 Importante saber! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.3.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.3.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.5 Regra do produto e independencia de eventos . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.5.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.5.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.5.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.6 Independencia de tres ou mais eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.6.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.7 Ensaios de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.7.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.7.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.7.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.7.4 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.8 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.8.1 Exerccios extras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7 DISTRIBUICAO DE PROBABILIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.1 Variavel aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.1.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.1.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2 Distribuicao de probabilidade ou funcao de probabilidade . . . . . . . . . . . . . . . . . . . 65
7.2.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7.2.2 Media e variancia de uma variavel aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . 66
7.2.3 Distribuicao binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2.4 Distribuicao Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.3.1 Exerccios Extras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
8 FUNCAO DENSIDADE DE PROBABILIDADE . . . . . . . . . . . . . . . . . . . . . . . 71
8.1 Condicoes para que uma funcao seja funcao densidade de probabilidade . . . . . . . . . . . 71
8.2 Distribuicao normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.2.1 A distribuicao normal: informacoes adicionais . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.2.2 Calculo de probabilidades de variaveis normais . . . . . . . . . . . . . . . . . . . . . . . . . 72
8.2.3 Distribuicao normal padronizada ou distribuicao normal padrao . . . . . . . . . . . . . . . 73
8.2.4 Calculo de probabilidades de variaveis normais padronizadas . . . . . . . . . . . . . . . . . 73
8.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
9 TEORIA DA ESTIMACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9.1.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9.1.2 Distribuicao amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9.1.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.1.4 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.2 Estimacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9.2.1 Estimacao pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9.2.2 Estimacao intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
10 TEORIA DA DECISAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
10.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
10.2 Erros envolvidos num teste de hipotese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
10.3 Mecanica operacional dos testes de hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . 86
10.4 Teste de hipoteses para uma media de uma populacao normal quando a variancia popula-
cional for desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
10.4.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
10.4.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
10.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
10.6 Teste de hipoteses para proporcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
10.6.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
10.6.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
10.7 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10.8 Teste de hipoteses para duas medias de populacoes normais com variancias populacionais
desconhecidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10.8.1 Testes de hipoteses para duas medias, sendo 12 = 22 = 2 . . . . . . . . . . . . . . . . . . 90
10.8.2 Testes de hipoteses para duas medias, sendo 12 6= 22 . . . . . . . . . . . . . . . . . . . . . 91
10.8.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
11 TESTES QUI-QUADRADO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
11.1 Teste de Aderencia ou ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
11.1.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
11.2 Teste de Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
11.2.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11.3 Teste de Homogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
11.3.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
11.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES . . . . . . . . . . . . . . . 100
12.1 Diagrama de dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
12.1.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
12.2 Coeficiente de Correlacao Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
12.2.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
12.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
12.4 Regressao Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
12.5 Coeficiente de determinacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
12.5.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
12.5.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
12.5.3 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
12.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
13 Tabelas de distribuicoes de probabilidade teoricas . . . . . . . . . . . . . . . . . . . . . . . 108
Estatstica Basica 1 SOMATORIO

1 SOMATORIO

1.1 Indices ou notacao por ndices


O smbolo xi (leia-se x ndice i) representa qualquer um dos n valores, x1 , x2 , x3 , . . . , xn
assumidos pela variavel X, na amostra ou no conjunto de dados. Evidentemente pode ser usada qualquer
outra letra alem de i.

1.2 Notacao de somatorio


n
X
O smbolo xi e usado para representar a soma de todos os valores de xi , desde x1 ate xn ,
i=1
isto e, dada uma sequencia de numeros reais x1 , x2 , x3 , . . . , xn , representa-se a sua soma por:
X n
xi = x1 + x2 + + xn
i=1

1.2.1 Exemplo
Considere a variavel X = {1, 0, 1, 2, 1}, cada valor (ou elemento) de X corresponde,
respectivamente, a x1 , x2 , x3 , x4 , x5 , quer dizer que x1 = 1, x2 = 0, x3 = 1, x4 = 2, x5 = 1. Alguns
somatorios podem ser calculados:
X5
a) xi = x1 + x2 + x3 + x4 + x5 = 1 + 0 + (1) + 2 + 1 = 3
i=1
5
!2
X 2 2
b) xi = (x1 + x2 + x3 + x4 + x5 ) = (1 + 0 + (1) + 2 + 1) = (3)2 = 9
i=1
5
X
c) x2i = x21 + x22 + x23 + x24 + x25 = (1)2 + (0)2 + (1)2 + (2)2 + (1)2 = 7
i=1
X3
d) xi = x1 + x2 + x3 = 1 + 0 + (1) = 0
i=1
X5
e) xi = x3 + x4 + x5 = 1 + 2 + 1 = 2
i=3
X5
f) xi = x1 + x2 + x5 = 1 + 0 + 1 = 2
i=1
i6=3, 4

1.3 Propriedades
Sejam: a, b e k constantes; X e Y variaveis e xi e yi os valores que as variaveis X e Y assumem,
entao:

(P1) Somatorio de uma constante vezes uma variavel e igual a constante vezes o somatorio da variavel:
Xn X n
axi = ax1 + ax2 + ax3 + ... + axn = a xi
i=1 i=1

(P2) Somatorio de uma constante e igual ao numero de termos vezes a constante:


X n
k = k + k + k + ... + k + k = n k
| {z }
i=1 (n1+1 ) vezes
n
X
k = k + k + k + . . . + k + k = (n a + 1) k
| {z }
i=a (na+1 ) vezes

(P3) Somatorio de uma soma e igual a soma dos somatorios:


Xn n
X n
X
(axi byi ) = a xi b yi
i=1 i=1 i=1

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 1


Estatstica Basica 1 SOMATORIO

(P4) Somatorios de um produto de variaveis e igual ao produto dos somatorios destas variaveis:
X n Xm n
X m
X
xi yj = xi yj
i=1 j=1 i=1 j=1

E importante lembrar que:


n
X
n n n n   xi n
!2 n
X X X X xi i=1
X X
xi yi 6= xi yi 6= n xi 6= x2i
i=1 i=1 i=1 i=1
yi X
i=1 i=1
yi
i=1

1.4 Somatorios mais usados na Estatstica


n
X
i. Soma simples: xi = x1 + x2 + ... + xn
i=1

n
X
ii. Soma de quadrados: x2i = x21 + x22 + ... + x2n
i=1

n
!2
X 2
iii. Quadrado da soma: xi = (x1 + x2 + ... + xn )
i=1

n
X
iv. Soma de produtos: xi yi = x1 y1 + x2 y2 + ... + xn yn
i=1

n
X n
X
v. Produto da soma: xi yi = (x1 + x2 + ... + xn ) (y1 + y2 + ... + yn )
i=1 i=1

Observacao: algumas vezes omite-se os limites do somatorio, quando isso acontecer deve-se
considerar a soma de todos os elementos, desde x1 ate xn :
X X n
x= xi
i=1

1.5 Exerccios
1. Indicar, por meio da notacao de somatorio, cada uma das expressoes seguintes:
a) x21 + x22 + x23 + ... + x210 d) (y12 1)2 + (y22 1)2 + . . . + (y12
2
1)2
b) (x1 + y1 ) + (x2 + y2 ) + ... + (x8 + y8 ) e) (x1 1) + (x2 2)2 + (x3 3)3 + . . . + (xn n)n
c) f1 x31 + f2 x32 + f3 x33 + ... + f20 x320
2. Desenvolver os termos de cada uma das seguintes somas:
X6 N
X 5
X
a) xi c) a e) fk xk
i=1 i=1 k=1
4 Xn 3
X X
b) (yi 3)2 d) b f) (xj a)
i=1 i=a j=1
3. As variaveis, X e Y , assumem os valores: x1 = 2; x2 = 4; x3 = 5; x4 = 8 e y1 = 3; y2 = 8;
y3 = 10; y4 = 6, respectivamente. Calcular:
d) P x2 g) P xy 2
P P P
a) P x
b) P y e) P y 2P h) (x + y)(x y)
c) xy f) x y
4. Dados os valores das variaveis: X = {2, 4, 4, 3, 2}, Y = {1, 2, 3, 6, 7}, obtenha:
X4 5
X X5
a) xi c) 4x2i e) (3xi + 2yi )
i=1 i=1 i=1
5
X X5 4
X 5
X
b) yi d) xi yi f) xi yi + yi2
i=1 i=1 i=2 i=1

2 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 2 INTRODUCAO

5. Na Estatstica usa-se com frequencia calcular a media e a varianciaamostral, representadas na forma


n n
!2
X X
xi n xi
i=1 1 X
i=1

de somatorios por: x = e s2 = x2i , respectivamente, sendo n uma

n n 1 i=1 n


constante que representa o numero de elementos (ou dados, ou observacoes) de um conjunto qualquer ou
de uma variavel. Considere os valores assumidos por uma variavel X qualquer: X = {2, 4, 5, 6, 1, 6};
calcule a media e a variancia.
Xn
6. a) Use os valores da variavel X do exerccio anterior para demonstrar que (xi x) = 0.
i=1
b) Use as propriedades de somatorio, lembre-se que x e uma constante, para demonstrar algebricamente
Xn
que (xi x) = 0.
i=1

2 INTRODUCAO

A Estatstica como ciencia somente se estruturou no seculo passado, sendo uma ferramenta
indispensavel na vida moderna. Hoje, cada vez mais pessoas encontram-se expostas a ela em maior ou
menor intensidade. E definida como a ciencia que se ocupa da coleta, da organizacao, da descricao, da
analise e da interpretacao de dados:
a) no plural (estatsticas), indica qualquer colecao consistente de dados numericos reunidos com a finali-
dade de fornecer informacoes acerca de uma atividade qualquer. Por exemplo, estatsticas demograficas
referem-se a dados numericos sobre nascimentos, falecimentos, matrimonios, desquites etc.
b) no singular (estatstica), indica um corpo de tecnicas, ou ainda uma metodologia desenvolvida para
a coleta, a classificacao, a apresentacao, a analise, a interpretacao de dados e a utilizacao desses dados
para a tomada de decisoes.

3 ALGUMAS DEFINICOES

3.1 Variavel
Em trabalho cientfico o pesquisador precisa definir o problema de seu estudo, por exemplo,
qual e a espectativa de vida do brasileiro?; quantos gols o Brasil sofreu por partida na copa de 2014?;
de dois medicamentos qual e aquele que mais auxilia no combate do deficit de atencao?. Para responder
as perguntas, o pesquisador precisa definir com que ferramenta ele ira trabalhar.
Na espectativa de vida do brasileiro, no numero de gols sofrido pela selecao, ou na decisao de
qual e o melhor medicamento no combate do deficit de atencao o pesquisador tera que estudar alguma
caracterstica que o levara a obter a resposta para o seu problema. Estas caractersticas que podem ser
pesquisadas ou registradas e denominada de variaveis. Por meio das variaveis e que se observa ou mede
em cada elemento pesquisado (seja por censo ou por amostragem, levantamento ou experimento), em um
dado momento, um resultado (acontecimento) possvel.
Para responder qual e a espectativa de vida do brasileiro o pesquisador ira definir a variavel
a ser estudada, no caso, idade do obito de um grupo de indivduos. Para mensurar quantos gols o
Brasil sofreu por partida na copa de 2014, a variavel pode ser: numero de gols sofridos pela selecao
brasileira na copa de 2014 por partida. Ja para verificar qual de dois medicamentos aquele que mais
auxilia no combate do deficit de atencao a variavel estudada corresponde ao numero de indivduos que
apresentaram melhoras em relacao ao deficit de atencao ao se testar cada medicamento.
As variaveis sao as caractersticas pesquisadas ou registradas. E por meio das variaveis que se
torna possvel descrever o fenomeno. As variaveis sao caractersticas que podem ser observadas ou medidas
em cada elemento pesquisado (seja por censo ou por amostragem, levantamento ou experimento), sob as
mesmas condicoes. Para cada variavel, para cada elemento pesquisado, em um dado momento, ha apenas
um resultado possvel.
As variaveis podem ser basicamente classificadas de acordo com o seu nvel de mensuracao (o
quanto de informacao cada variavel apresenta) e seu nvel de manipulacao (como uma variavel relaciona-se
com as outras no estudo). Esquematicamente a classificacao das variaveis segundo o nvel de mensuracao
pode ser visualizada na Figura 1.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 3


Estatstica Basica 3 ALGUMAS DEFINICOES

Em relacao ao nvel de manipulacao as variaveis podem ser independentes ou dependentes


conforme ilustra a Figura 2.

Figura 2 Relacao entre variaveis

Figura 1 Classificacao das variaveis

3.1.1 Variaveis qualitativas


Tambem denominadas de variaveis categoricas, sao aquelas cujas realizacoes sao atributos (ca-
tegorias) do elemento pesquisado, como sexo, grau de instrucao, especie. Estas podem ser nominais ou
ordinais. As variaveis nominais podem ser medidas apenas em termos de quais itens pertencem as diferen-
tes categorias, mas nao pode quantificar nem mesmo ordenar tais categorias. Por exemplo, pode se dizer
que dois indivduos sao diferentes em termos da variavel A (sexo, por exemplo), mas nao se pode dizer
qual deles tem mais da qualidade representada pela variavel. Exemplos tpicos de variaveis nominais
sao: sexo, naturalidade, etnia etc.
As variaveis ordinais permitem ordenar os itens medidos em termos de qual tem menos e qual
tem mais da qualidade representada pela variavel, mas ainda nao permitem que se diga o quanto mais.
Um exemplo tpico de uma variavel ordinal e o status socio-economico das famlias residentes em uma
localidade: sabe-se que media-alta e mais alta do que media, mas nao se pode dizer, por exemplo, que
e 20% mais alta. A propria distincao entre mensuracao nominal, ordinal e intervalar representa um bom
exemplo de uma variavel ordinal. Pode-se dizer que uma medida nominal prove menos informacao do
que uma medida ordinal, mas nao se pode dizer quanto menos ou como esta diferenca se compara a
diferenca entre mensuracao ordinal e quantitativa.

3.1.2 Variaveis quantitativas


Sao aquelas cujas realizacoes sao numeros resultantes de contagem ou mensuracao, como numero
de filhos, numero de visitantes, velocidade em km/h, peso, altura etc. As variaveis quantitativas sao
discretas ou contnuas. As variaveis quantitativas discretas sao aquelas que podem assumir apenas alguns
valores numericos que geralmente podem ser listados (numero de filhos, numero de acidentes). As variaveis
quantitativas contnuas sao aquelas que podem assumir qualquer valor em um intervalo (velocidade, peso,
altura).
Muitos pesquisadores preferem as variaveis quantitativas por acharem que estas contem mais
informacoes do que as qualitativas. Observe os seguintes exemplos: quando a variavel distancia de uma
localidade e descrita em termos de longe e perto, sabe-se que longe e mais distante que perto, mas
nao se tem ideia de quao mais distante; se, contudo, descreve-se a distancia de forma numerica, medida
em metros, e uma localidade dista de um ponto de referencia 600 metros e outra dista 400, nao so se sabe
que a segunda e mais perto do que a primeira, mas sao 200 metros mais perto.
E importante ressaltar que a forma como a variavel esta sendo medida definira o seu nvel de
mensuracao. Por exemplo, a variavel velocidade de um carro; se definirmos velocidade como resultado de
uma medicao por meio de radar resultando em um valor em km/h, trata-se de uma variavel quantitativa
contnua; se, porem, definirmos a velocidade como resultado de uma medicao em que alguem declara a
velocidade como baixa, media ou alta, ela passa a ser qualitativa ordinal.

3.1.3 Variaveis independentes e dependentes


As variavies independentes sao aquelas que sao manipuladas, enquanto que as dependentes sao
apenas medidas ou registradas (como manipulacao das variaveis independentes). Esta distincao confunde
muitas pessoas que dizem que todas as variaveis dependem de alguma coisa. Entretanto, uma vez que
se esteja acostumado a esta distincao ela se torna indispensavel.

4 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 3 ALGUMAS DEFINICOES

As variaveis independentes sao aquelas que podem influenciar os valores das variaveis depen-
dentes. Somente a realizacao do estudo vai permitir verificar se ha realmente tal influencia e, somente,
poderemos afirmar que a variavel independente e a causa da variavel dependente assumir determinado
resultado se o estudo for um experimento (pesquisa experimental).
Os termos variavel dependente e independente aplicam-se principalmente a pesquisa experimen-
tal, onde algumas variaveis sao manipuladas, e neste sentido sao independentes dos padroes de reacao
inicial, intencoes e caractersticas das unidades experimentais. Espera-se que outras variaveis sejam de-
pendentes da manipulacao ou das condicoes experimentais. Ou seja, elas dependem do que as unidades
experimentais farao em resposta.
Quando voce vai ao restaurante o valor a ser pago e dependente da quantidade de comida. Voce
pode controlar a quantidade de comida no prato, mas o valor dependera desta quantidade. Ao se estudar
o numero de suicdios ocorridos durante os anos 2007 a 2012 numa determinada cidade, voce manipula a
variavel ano (2007 a 2012), mas o numero de suicdios sera registrado conforme o ano.

3.2 Dados
Sao os valores ou fenomenos obtidos na mensuracao ou observacao de alguma variavel em estudo.
Logo, os dados podem ser qualitativos (nominais ou ordinais) ou quantitativos (discretos ou contnuos)
e independentes ou dependentes. Por exemplo, se a variavel estudada for sexo de indivduos que visitam
um santuario, os dados sao, masculino, masculino, feminino, feminino etc.
Considerando que a variavel estudada seja numero de filhos de um grupo de 20 casais, as
respostas obtidas, 0, 2, 3, 1, 2, 0, ... sao os dados, e neste caso, os dados sao discretos. Ao se estudar
a altura dos estudantes de uma sala de aula, os dados obtidos sao denominados contnuos, pois alguns
valores podem ser: 1,59m, 1,75m, 1,80m etc.

3.3 Populacao
Os dados sao coletados para estudar uma ou mais caractersticas de uma populacao de inte-
resse. Populacao e o conjunto de medidas da(s) caracterstica(s) de interesse em todos os elementos
que a(s) apresenta(m). Se, por exemplo, estamos avaliando as opinioes de eleitores sobre os candidatos a
presidente, a populacao da pesquisa seria constituda pelas opinioes declaradas pelos eleitores em questao.

3.4 Amostra
Uma amostra da populacao e um subconjunto finito e representativo da populacao. Por exem-
plo, se a populacao da pesquisa for constituda pelas opinioes declaradas pelos eleitores, uma amostra
seria parte dessas declaracoes. Quer dizer que e necessario amostrar um grupo de eleitores e a partir deles
constituir uma amostra das declaracoes das suas opinioes.

3.5 Parametro
E uma constante que caracteriza uma populacao. Sao exemplos de parametros:
: media populacional

2 : variancia populacional

: desvio padrao populacional

p: proporcao populacional

etc.

3.6 Estimador
E uma expressao algebrica (formula) utilizada para obter um valor aproximado de um parame-
tro. Sao exemplos de estimadores:
n
X
xi
i=1
x = : media amostral
n

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 5


Estatstica Basica 3 ALGUMAS DEFINICOES


n
!2
X
n xi
2 1 X 2 i=1

s = x : variancia amostral

n 1 i=1 i n



s= s2 : desvio padrao amostral

y
p = : proporcao amostral, sendo y o numero de sucessos observados em uma amostra de tamanho n
n

etc.

3.7 Estimativa

E o valor numerico de um estimador. E determinada usando os dados amostrais.


Se o estimador e x, uma estimativa pode ser x = 1,72 m.

3.8 Exemplo

O objetivo de uma pesquisa e conhecer o consumo medio semanal de combustvel de ambulancias


do Hospital HS em um dado ano.
Variavel: Consumo semanal de combustvel das ambulancias do Hospital HS em um dado ano
Populacao: Todos os consumos semanais de combustvel das ambulancias em um dado ano: N = 52
consumos semanais
Parametro: Consumo medio semanal de combustvel das ambulancias em um dado ano:
Amostra (parte da populacao): algumas semanas, por exemplo, n = 20 consumos semanais
X n
xi
Estimador: x = i=1
n
Estimativa: 60 L de combustvel em media por semana.

3.9 Exerccios

1. A altura (em cm) e a naturalidade de estudan- 2. Logo ao nascer, os filhotes sao pesados e medi-
tes sao as variaveis estudadas por um pesquisador. dos, para saber se estao dentro da faixa ideal para
Estas duas variaveis sao: a especie. Estas duas variaveis sao:
a) ambas contnuas a) qualitativas
b) ambas discretas b) ambas discretas
c) quantitativas contnuas c) contnua e discreta, respectivamente
d) qualitativas nominais d) discreta e contnua respectivamente
e) quantitativa e qualitativa, respectivamente e) ambas contnuas

3. Relacione a segunda coluna de acordo com a primeira.


(1) Variavel qualitativa nominal ( ) Numero de filhotes por camundongas nascidos hoje
(2) Variavel qualitativa ordinal ( ) Pesos de recem nascidos (em g) observados em um mes
(3) Variavel quantitativa discreta ( ) Diametro cefalico de ratos que serao cobaias
(4) Variavel quantitativa cont- ( ) Escolaridade dos participantes de um congresso
nua ( ) Profissao dos entrevistados de uma pesquisa eleitoral
( ) Classificacao de candidatos de um concurso
( ) Estado civil dos professores do curso biotecnologia
( ) Tempo de vida (em h) de lampadas dos microscopios
( ) Volume de agua contida nos reservatorios de uma cidade
4. Relacione a segunda coluna de acordo com a primeira.

6 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

(1) Dado qualitativo nominal ( ) 0, 0, 0, 2, 3, 4, 1, 1, 0, 3, 4, ...


(2) Dado qualitativo ordinal ( ) 600,5g; 350,4g; 550,43g, 233,0g; ...
(3) Dado quantitativo discreto ( ) 2,0cm; 2,3cm, 4,55cm; 1,5cm; ...
(4) Dado quantitativo contnuo ( ) Feminino, feminino, masculino, feminino, feminino, ...
( ) Pedreiro, estudante, gari, ajudante de pedreiro, garcom, ...
( ) 2o , 3o , 4o , 1o , 8o , 10o , 111o , ...
( ) Casado, casado, solteiro, viuvo, separado, solteiro, ...
( ) 3h; 2,3h; 4,5h; 3,33h; 1,5h; 2,45h; ...
( ) 100.000.000L; 2000.000L; 3.000.000.000L; ...
( ) 1o grau, 2o grau, 3o grau incompleto, 3o grau completo, ...
5. Classifique as variaveis em variavel independente (VI) e variavel dependente (VD).
a) Avaliacao se diferentes nveis de estresse ( ) afetam a frequencia cardaca em humanos ( ).
b) Uma pesquisa avalia o efeito do nvel da escolaridade ( ) sobre a renda anual da famlia ( ).
c) Nota obtida na prova de Estatstica ( ) de acordo com o tempo semanal de estudo ( ).
d) Na pesquisa frequencia do aluno na monitoria ( ) e a aprovacao na disciplina de Estatstica ( )
foram avaliados 50 alunos.
e) Uma pesquisa avalia as funcoes exercidas em uma empresa de produtos qumicos ( ) de acordo com
o sexo do funcionario ( ).
f) Uma pesquisa avalia em uma empresa os salarios atuais ( ) em funcao do sexo do funcionario ( ).
g) Um pesquisador gostaria de estudar como estao os salarios atuais ( ) em funcao dos anos de educacao
do funcionario ( ) na empresa que ele trabalha.
6. Qual das declaracoes e verdadeira?
a) Parametros descrevem amostras e estimativas descrevem populacoes.
b) Estimativas descrevem amostras e populacoes.
c) Parametros descrevem populacoes e estimativas descrevem amostras.
d) Parametros descrevem amostras e populacoes.

4 AMOSTRAGEM

Uma das principais subdivisoes da Esta- a obtencao de uma amostra inadequadamente pode
tstica e a Amostragem, que reune os metodos ne- induzir a um vies de interpretacao, como, por exem-
cessarios para coletar adequadamente amostras re- plo, nao mexer a sopa antes de tirar uma colher para
presentativas e suficientes para que os resultados verificar a temperatura do prato todo.
obtidos possam ser generalizados para a populacao
de interesse. Amostras representativas sao aquelas
que guardam ou reproduzem as mesmas caracters-
ticas da populacao.
Diariamente voce tem algum tipo de con-
tato com a amostragem. Quando voce verifica o
tempero de um prato, nao sera necessario comer
tudo o que tem na panela. Quando voce verifica
a temperatura do seu corpo, nao precisa colocar o
termometro em todas as suas partes. Ao verificar a
calibragem do pneu do seu carro, voce se baseia em
apenas um ponto. Ao realizar um exame de san-
gue, por exemplo, o laboratorio retira 40 mL, pois e
suficiente para os exames de rotina (FIGURA1 3).
Veja que em todas as situacoes apresenta-
das o trabalho com amostras foi necessario. Porem Figura 3 Nao seria melhor uma amostra?

Para se realizar a coleta de uma amostra (ou varias amostras), primeiramente deve-se definir
a populacao a ser estudada2 , depois, por meio de tecnicas de amostragem, obtem-se uma amostra (ou
varias amostras) e consequentemente, calcula-se as estatsticas de interesse para a realizacao de inferencias
1 Fonte: http://rogeriocarpi.wordpress.com/2010/02/10/6-respostas-persuasivas-para-quem-nao-acredita-em-amostragem/.
Acesso em: 06 nov. 2014 2 Veja a definicao de populacao na Secao 3.3, pagina 5.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 7


Estatstica Basica 4 AMOSTRAGEM

(estimacoes ou afirmacoes) sobre as caractersticas da populacao (parametros). Esquematicamente, pode-


se considerar uma situacao como a apresentada na Figura 4 em que e apresentada uma populacao onde foi
obtida uma amostra utilizando-se de algum processo de amostragem. Alem disso, para os dados obtidos
na amostra pode-se, por meio dos estimadores, calcular estimativas que sao uteis para a realizacao de
inferencias sobre os parametros da populacao.

Figura 4 Esquematizacao do processo de amostragem

4.1 Importancia do censo e da amostragem


Como o interesse maior esta na populacao, o ideal seria pesquisar toda ela, em suma, realizar um
censo (como o IBGE faz periodicamente no Brasil). Entretanto, em uma pesquisa, somente em algumas
situacoes o censo e a opcao mais viavel do que uma amostragem, como:

Caso em que a populacao e pequena, como uma turma de 40 alunos de uma sala de aula. Nesta
situacao, a populacao e tao pequena que o custo e o tempo para realizar um censo nao sao muito
maiores do que para uma amostragem.

Quando o tamanho da amostra e grande em relacao a populacao. Isto acontece nos casos em que a
populacao apresenta uma variabilidade tao grande que para se obter uma amostra representativa e
necessario que o tamanho da amostra seja tambem grande. Mesmo que haja algum esforco adicional
despendido com o censo em relacao a amostragem, ele e mais viavel pelo fato de nao se ter que lidar
com o erro amostral (diferenca entre a estimativa da amostra e o parametro da populacao).

Se e necessaria uma precisao completa nas informacoes da populacao. Embora uma amostra seja
representativa da populacao, nela sempre havera uma incerteza envolvida, pois nunca se sabe qual
e o verdadeiro valor do parametro populacional. Por outro lado, o censo dara a informacao de-
sejada, entretando erros na coleta dos dados e outros tipos de vieses podem afetar a precisao do
resultado, motivo pelo qual a coleta de dados devera ser muito cuidadosa e criteriosa. O dono do
supermercado nao faria uma amostragem para saber (estimar) quanto dinheiro ha nos caixas, ele
faz um levantamento (censo) em todos os caixas, isto nao evitaria erros nas quantias obtidas em
cada caixa devido ao erro em trocos, mas evitara problemas ao dizer que um determinado caixa
representa todos.

Ha casos, como um banco de dados com informacoes de alunos de uma determinada turma, em que
ja se dispoe de informacao completa, logo, nao justificaria a necessidade de se trabalhar com uma
amostra.

Obviamente, na pratica, a amostragem apresenta muito mais aplicacoes e vantagens do que o


censo, mesmo parecendo que o ideal seja a inspecao completa de todos os indivduos da populacao. As
situacoes em que a amostragem e prefervel ao censo, sao apresentadas a seguir:

Quando a populacao e infinita o censo e impossvel de ser executado. Por exemplo, amostra de agua
de curso de agua, amostra de algum produto de producao em serie, amostra de planta da Floresta
Amazonica, etc, sao situacoes em que os indivduos da populacao nunca terminam.

Se e necessaria uma informacao rapida, a amostragem e mais aplicavel do que o censo. Isto porque
a limitacao de tempo e/ou acesso a todos os indivduos da populacao pode inviabilizar o censo.
Numa pesquisa eleitoral para presidencia os indivduos sao muito numerosos e muito dispersos, um
censo de todas as intencoes de votos alem de consumir muito tempo para ser executado, poderia
perder a utilidade, a populacao modifica com o tempo.

8 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

Caso em que o tipo de estudo tem um carater destrutivo. Ha certos tipos de estudos em que o
elemento amostrado e destrudo apos a observacao. Desta forma a realizacao de um censo nao traria
vantagem alguma pelo fato de que a populacao nao existiria mais apos o estudo. Um experimento em
que se testa o poder destrutivo de uma municao; apos o disparo, a municao nao existe mais. Outros
itens como lampadas, laminas, agulhas frequentemente sao destrudos como parte do processo de
teste.

Por razoes economicas, isto e, quando ha limitacao de recursos ou quando o custo do censo e alto.
O censo realizado pelo IBGE no Brasil tem um custo muito alto, por isto e realizado a cada 10
anos. A contagem de primatas em uma floresta e quase impossvel porque a populacao e tao grande
e movel que problemas de mensuracao, como contar um primata somente uma vez e tao difcil que
exclui a viabilidade de realizar um censo.

A precisao das informacoes a serem obtidas pode ser relevante na escolha da amostragem, isto porque
a amostragem quando bem feita podera apresentar uma precisao nas informacoes levantandas por
envolver menos coletores de dados, enquanto no censo, com o grande numero de agentes, ha menor
coordenacao e controle o que podera aumentar a chance de erros. Considerando tambem que a
populacao fosse homogenea, para levantar as informacoes sobre a populacao, bastaria uma amostra
a qual forneceria dados suficientes para dispensarmos um censo que pouco ou nada acrescentaria
ao objetivo da pesquisa.

4.2 Numeros aleatorios


Antes de se estudar cada tipo de amostragem, deve-se procurar uma ferramenta que seja viavel
para a selecao (ou sorteio) dos indivduos da populacao em estudo. Procedimentos como papeizinhos
enumerados, palitinho, bingo, entre outros sao uteis, mas em alguns casos nao sao funcionais. A ferra-
menta utilizada pelos estatsticos sao os numeros aleatorios, pois sao mais funcionais e mais praticos que
os procedimentos anteriormente citados.
Por muito tempo os numeros aleatorios eram obtidos de tabuas de numeros aleatorios, hoje
os numeros aleatorios sao gerados por programas computacionais, ou ate mesmo pela sua calculadora
cientfica (funcao random).
Nas planilhas eletronicas (Excel, LibreOffice Calc) basta digitar em uma celula qualquer =
aleatorio() e teclar Enter. O numero aleatorio gerado e um numero entre 0 e 1, isto e [0, 1[, entretanto
se voce pegar o tamanho N da populacao e digitar em uma celula qualquer = N*aleatorio() e teclar
Enter, o numero obtido sera um numero aleatorio compreendido entre 0 e N 1, considerando somente
a parte inteira do numero gerado. Na sua calculadora cientfica existe a tecla RAN# que gera um numero
aleatorio entre 0 e 0,999. Se multiplicar RAN# pelo tamanho da sua populacao, a calculadora gerara um
numero compreendido entre 0 e N 1, considerando somente a parte inteira do numero gerado. Tanto nas
planilhas eletronicas quanto na calculadora, deve-se adotar somente a parte inteira do numero aleatorio
gerado.

4.2.1 Exemplo
Numa populacao3 de tamanho N = 300 indivduos, precisa-se obter uma amostra de tamanho
n = 10. Como devera ser realizada a selecao destes 10 indivduos? E quais serao sorteados?
Resolucao:
+ Primeiramente deve-se enumerar os indivduos identificando-os por numeros de 0 a 299.
+ Utilizando, por exemplo a calculadora4 , deve-se inserir 300RAN# e pressionar o botao =.
- Considerando que o numero obtido foi 72,3, entao o indivduo selecionado foi o iden-
tificado pelo numero 72.
- Pressionando o botao = mais 9 vezes, obteve-se os numeros: 53, 217, 93, 297, 95, 294,
57, 131 e 50. As vezes um numero pode sair repetidas vezes, o que se faz e despreza-lo e sortear outro ou
adota-lo quando a amostragem for com reposicao.
+ Portanto, os n = 10 indivduos que comporao a amostra serao em ordem crescente: 50, 53,
57, 72, 93, 95, 131, 217, 294 e 297.
3 N sera sempre usado para representar o tamanho da populacao e n sempre se referira ao tamanho da amostra. 4 ob-
viamente os numeros gerados pela sua calculadora nao serao iguais aos gerados neste exemplo, isto porque os numeros sao
gerados aleatoriamente.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 9


Estatstica Basica 4 AMOSTRAGEM

4.3 Tipos de amostragem


O modo como a amostra sera retirada da populacao e definida pelo tipo de amostragem, podendo
ser nao probabilstica ou probabilstica. Cada qual apresenta suas particularidades e aplicacoes.

4.3.1 Amostragem nao probabilstica


Esse tipo de amostragem e usada quando a selecao de indivduos e justificada ou racional. Os
indivduos serao selecionados de modo nao probabilstico, ou seja, eles nao apresentam probabilidade
igual de pertencer a amostra. As estatsticas observadas na amostra nao podem ser generalizadas para a
populacao por nao ter como estimar o erro amostral, contudo se as caractersticas da populacao acessvel
forem semelhantes a populacao em estudo, as estatsticas podem ser equivalentes aos de uma amostragem
probabilstica, embora nao haja garantia da sua confiabilidade.
Entre as diversas justificativas para o seu uso, destacam-se:

i) Inacessibilidade a toda populacao;

ii) A populacao nao pode ser enumerada;

iii) A populacao e formada por material contnuo;

iv) A escolha da amostra e feita intencionalmente.

Os tipos de amostragem nao probabilstica mais comuns sao: a amostragem a esmo, a amos-
tragem intencional e a amostragem por cotas.

4.3.1.1 Amostragem a esmo


E utilizada quando ha inacessibilidade a toda populacao, quando nao e possvel enumerar todos
os indivduos da populacao ou quando a populacao e formada por material contnuo.

4.3.1.1.1 Exemplo
a) Num lote com 20.000 ampolas de certo medicamento, selecionar aleatoriamente 100 ampolas seria
muito trabalhoso, entao, simplesmente seleciona-se algumas a esmo.

b) Numa fabrica em que se produz um certo produto em serie, nao e possvel enumerar todos os indivduos
e nem ter acesso a todos, entao, neste caso, seleciona-se os que estao sendo produzidos no momento.

c) Estudo sobre a qualidade do ar, estudo sobre a qualidade da agua, estudo sobre a qualidade do solo,
estudo sobre nvel de glicose no sangue etc, sao exemplos em que a populacao alvo e formada por
material contnuo.

4.3.1.2 Amostragem intencional


Acontece quando o pesquisador escolhe deliberadamente certos elementos para formar a amostra
baseado num pre-julgamento. E um tipo de amostragem muito usado em estudos qualitativos. O risco
de se obter uma amostra viciada e muito grande por se basear na preferencia do pesquisador.

4.3.1.2.1 Exemplo
Ao experimentar os efeitos de uma nova droga para o tratamento da AIDS o pesquisador escolhe
n = 20 pacientes terminais entre todos os pacientes com a doenca.

4.3.1.3 Amostragem por cotas


Embora seja semelhante a uma amostragem estratificada proporcional5 , diferencia-se por nao
empregar sorteio na selecao dos elementos a serem amostrados. Muito empregada nas pesquisas eleitorais
em que a populacao e dividida em subgrupos, segundo informacoes do IBGE, dos quais seleciona-se uma
cota proporcional ao seu tamanho. Os indivduos que farao parte da amostra sao selecionados pelos
entrevistadores mas nao de forma aleatoria (probabilstica).
5 E um tipo de amostragem probabilstica

10 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

4.3.2 Amostragem probabilstica


Uma amostragem probabilstica considera que todos os elementos da populacao tem probabi-
lidade conhecida e nao nula de pertencer a amostra. Ela e aplicavel sempre que e possvel enumerar os
elementos da populacao, o que permite a qualquer indivduo apresentar a mesma chance de pertencer
a amostra. A amostragem probabilstica pode ser classificada, segundo as caractersticas da populacao,
em: amostragem simples ao acaso, amostragem sistematica, amostragem por conglomerado e amostragem
estratificada.

4.3.2.1 Amostragem simples ao acaso (ASA)


E usada quando a populacao e homogenea, podendo ser com ou sem reposicao. Sendo com
reposicao, um indivduo podera fazer parte da amostra mais de uma vez. E se for sem reposicao, um
indviduo so tem oportunidade de aparecer na amostra apenas uma unica vez.
Quantas amostras diferentes e possvel formar de uma populacao qualquer? Dependera se for
com reposicao ou sem reposicao. Com reposicao e possvel obter N n amostras diferentes e, sem reposicao,
obtem-se CN, n amostras distintas6 .

4.3.2.1.1 Exemplo
Suponha uma populacao composta por tres indivduos: A, B e C, da qual se deseja obter uma
amostra de tamanho dois. Tem-se, entao, N = 3 e n = 2. Portanto, se amostragem for com reposicao
e possvel obter N n = 32 = 9 amostras diferentes: AA, AB, AC, BA, BB, BC, CA, CB ou CC. Se a
amostragem for sem reposicao e possvel formar CN, n = C3, 2 = 3 amostras diferentes: AB, AC ou BC.
Para realizar uma amostragem simples ao acaso (ASA), deve-se:
Enumerar todos indivduos da populacao;
Realizar o sorteio;
Coletar as informacoes dos indivduos amostrados.

4.3.2.1.2 Exemplo
Uma sala de aula possui 30 alunos. Pretende-se conhecer a idade media da turma. Suponha
que os alunos e as suas respectivas idades em anos sejam: Joao(25), Artur(20), Catia(35), Ana(21),
Bruna(22), Breno(24), Julio(25), Lucas(30), Paula(38), Paulo(24), Bruno(20), Raquel(20), Pedro(25),
Renata(20), Amanda(19), Juliano(25), Bruno(23), Camila(24), Ana(28), Lucia(24), Paula(24), Joao(22),
Lucas(28), Tas(26), Camila(23), Joao(25), Renata(22), Julia(27), Brenda(25), Maria(23). Extraia uma
amostra aleatoria simples de tamanho n = 10 desta populacao.
Solucao;
Primeiramente enumera-se os indivduos. Os numeros entre parenteses indentificam os alunos, assim:
Joao(01) , Artur(02) , Catia(03) , Ana(04) , Bruna(05) , Breno(06) , Julio(07) , Lucas(08) , Paula(09) , Paulo(10) ,
Bruno(11) , Raquel(12) , Pedro(13) , Renata(14) , Amanda(15) , Juliano(16) , Bruno(17) , Camila(18) , Ana(19) ,
Lucia(20) , Paula(21) , Joao(22) , Lucas(23) , Tas(24) , Camila(25) , Joao(26) , Renata(27) , Julia(28) , Brenda(29) ,
Maria(30) .
Em seguida, realiza-se o sorteio. Usando a funcao random da calculadora os n = 10 numeros obtidos
foram: 11o , 10o , 5o , 23o , 25o , 10o , 4o , 2o , 1o , 28o , correspondendo aos alunos: Bruno, Paulo, Bruna,
Lucas, Camila, Paulo, Ana, Artur, Joao, Julia. Destes alunos sorteados, obtem-se, respectivamente, as
seguintes idades: 20, 24, 22, 28, 23, 24, 21, 20, 25, 27. Portanto a idade media e igual a 23,4 anos.

4.3.2.2 Amostragem sistematica (AS)


E usada quando a populacao e homogenea e possui algum tipo de organizacao, como filas, ruas,
ordem alfabetica, data de aniversario, data de entrada no hospital etc. A amostragem sistematica e
uma adaptacao da amostragem simples ao acaso e e usada quando a populacao util e muito grande e as
unidades amostrais nao podem ser numeradas de forma conveniente ou exequvel.
Para realizar uma amostragem sistematica (AS), deve-se:
Ordenar os elementos da populacao segundo algum criterio.
Determinar o intervalo de amplitude (k), tambem denominado de passo de amostragem:
N
k=
n
6 N!
CN, n =
n!(N n)!

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 11


Estatstica Basica 4 AMOSTRAGEM

Sendo:
k: o intervalo de amplitude (e um numero inteiro, quando necessario, deve-se arredondar);
N : o tamanho da populacao (numero de indivduos) e
n: o tamanho da amostra.
Usar um dispositivo aleatorio para sortear um numero entre 1 e k. Este numero e denominado de
incio casual i e representa o primeiro e o unico elemento sorteado da populacao.
Determinar os demais elementos (indivduos) utilizando-se o incio casual i e o passo de amostragem
k conforme o esquema a seguir:
i + k, i + 2k, i + 3k, . . . , i + (n 1)k;
Sendo i + k o segundo elemento, i + 2k o terceiro elemento e assim ate o i + (n 1)k o n-esimo
elemento. Logo, os elementos que fazem parte da amostra sao:
i, i + k, i + 2k, i + 3k, . . . , i + (n 1)k;
Coletar as informacoes dos indivduos amostrados.

4.3.2.2.1 Exemplo
Suponha que em um hospital ha 80 criancas diagnosticadas com cancer e que por algum motivo
deseja-se uma amostra de tamanho7 n = 10 para tracar o perfil dessas criancas (??). Quais criancas
serao selecionadas?
Solucao: Considerando que as criancas estejam ordenadas de alguma forma, como por exemplo, por
ordem alfabetica agrupadas em pastas, como a Figura 5.

Figura 5 Pastas com os nomes das criancas

Cabera, agora, calcular o intervalo de amplitude (passo de amostragem):

N 80
k= = =8
n 10
Sorteia-se um numero entre 1 e k = 8 para determinar o incio casual. Suponha que foi sorteado
o numero 1, entao as criancas amostradas serao as identificadas pelos numeros:
i=1 i + 5k = 1 + 5 8 = 41
i+k =1+8=9 i + 6k = 1 + 6 8 = 49
i + 2k = 1 + 2 8 = 17 i + 7k = 1 + 7 8 = 57
i + 3k = 1 + 3 8 = 25 i + 8k = 1 + 8 8 = 65
i + 4k = 1 + 4 8 = 33 i + 9k = 1 + 9 8 = 73
Se, por acaso, o numero sorteado entre 1 e k = 8 fosse igual a 3, teria i = 3 e as criancas
amostradas seriam as identificadas por:
3, 11, 19, 27, 35, 43, 51, 59, 67, 75.
4.3.2.3 Amostragem por conglomerado (AC)
E usada quando a populacao pode ser agrupada em subconjuntos ou conglomerados heteroge-
neos que possui a caracterstica da populacao em estudo. Esses agrupamentos normalmente consistem de
unidades como regioes, cidades, partes do censo, de onde e selecionada uma amostra simples ao acaso. O
objetivo principal e facilitar a coleta de informacao dos elementos da amostra.
Para realizar uma amostragem por conglomerado e necessario:
7 Este tamanho de amostra nao foi determinado, portanto nao e possvel a generalizacao dos resultados para a populacao
de criancas, serve apenas para ilustracao

12 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

Dividir a populacao em conglomerados (heterogeneos dentro e homogeneos entre si);

Sortear os conglomerados a serem estudados por meio de uma ASA;

Coletar informacoes de todos os indivduos que compoem o conglomerado ou selecionar alguns


indivduos por meio de outras tecnicas de amostragem dentro de cada conglomerado de acordo com
o tamanho da amostra necessario.

Na Figura 6 e apresentada uma populacao de tamanho N composta por M conglomerados da


qual sao selecionados m conglomerados para avaliar os n indivduos que deverao ser amostrados8 .

Figura 6 Esquematizacao da amostragem por conglomerado

Uma amostragem por conglomerado e indicada quando: nao se possui uma lista contendo todos
os nomes dos elementos da populacao; existe grande heterogeneidade entre os elementos da populacao; e
preciso fazer entrevistas ou observacoes em grandes areas geograficas e o custo para a obtencao dos dados
cresce com o aumento da distancia entre os elementos.

4.3.2.3.1 Exemplo
Um pesquisador quer identificar os principais fatores causadores de estresse no transito em
adultos das cidades de Minas Gerais com mais de 100.000 habitantes.
Populacao: N adultos das cidades de Minas Gerais com mais de 100.000 habitantes;
Conglomerados: M cidades com mais de 100.000 habitantes;
Amostra de conglomerados: m cidades selecionadas;
Amostra de elementos: n adultos das m cidades da amostra de conglomerados.

4.3.2.4 Amostragem estratificada (AE)


E usada quando a populacao e heterogenea, mas pode ser agrupada em grupos menores ho-
mogeneos denominados de estratos. E uma adaptacao da amostragem simples ao acaso, diferenciando,
apenas, por ter subgrupos mutuamente exclusivos, os estratos, de onde sao extradas amostras aleatorias.
Tem por objetivo: melhorar a representatividade da amostra quando os elementos da populacao sao he-
terogeneos, porem, podem ser agrupados em subpopulacoes (estratos) contendo elementos homogeneos.
Os estratos podem ser: sexo, idade, nvel socioeconomico, regiao etc.
Para realizar uma amostragem estratificada e importante seguir os procedimentos:
Dividir a populacao em k estratos (homogeneos dentro e heterogeneos entre si);

Enumerar os indivduos dentro de cada estrato;

Obter de cada estrato de tamanho Ni , com i = 1, 2, . . . , k, amostras de tamanho ni das quais os


indivduos serao sorteados por meio de uma ASA;

Coletar as informacoes dos indivduos selecionados de cada amostra.


Na Figura 7 esta representada uma populacao dividida em k estratos da qual se observa que em
cada estrato de tamanho Ni foram obtidas, respectivamente, amostras de tamanho ni . Alem disso nota-se
que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao e que a soma dos tamanhos
de cada amostra obtida do seu respectivo estrato e igual ao tamanho da amostra a ser pesquisada.
8 Sera considerado, para simplificar, que no conglomerado sorteado todos os seus elementos serao estudados

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 13


Estatstica Basica 4 AMOSTRAGEM

Figura 7 Esquematizacao da amostragem estratificada

De acordo com as caractersticas dos estratos, a amostragem estratificada pode ser: uniforme,
proporcional e otima.

4.3.2.4.1 Amostragem estratificada uniforme


Quando os k estratos tiverem tamanhos iguais ou proximos, as amostras de cada estrato podem
possuir mesmos tamanhos. Neste caso o tamanho de cada amostra a ser obtida de cada estrato da
populacao e calculada por:
n
ni =
k
Em que:
ni : e o tamanho da amostra a ser obtida de cada estrato, i = 1, 2, . . . , k;
Pk
n: e o tamanho da amostra, sendo que ni = n;
i=1
k: e o numero de estratos desta populacao.

4.3.2.4.2 Exemplo
No hospital HS estao em observacao 500 pessoas de 0 a 40 anos. Por algum motivo dividiu-se a
populacao em k = 5 estratos, ou seja, 5 categorias de idades. Posteriormente, contou-se quantas pessoas
faziam parte de cada estrato (idade). Foi definido9 que o tamanho da amostra n a ser obtida e igual a
50. A divisao dos estratos e o numero de pessoas por estrato e apresentado na Tabela 1.

Tabela 1 Estratificacao das 500 pessoas em observacao no hospital HS


Estratos (Idades) Tamanho do Estrato (Ni )
00 ` 02 100
02 ` 05 98
05 ` 10 104
10 ` 20 102
20 ` 40 96
Total 500

Calcule o tamanho da amostra a ser obtida em cada estrato.


Solucao: Como cada estrato apresenta tamanho muito proximo, optou-se por uma amostra estratificada
uniforme sendo que o tamanho de cada amostra a ser obtida de cada estrato e igual a:
n 50
ni = = = 10
k 5
Desta forma, a divisao dos estratos, o numero de pessoas por estrato e o tamanho da amostra
a ser obtida em cada estrato podem ser visualizados na Tabela 2.
9 O calculo para determinar o tamanho da amostra sera apresentado na Secao 9.2.2.4

14 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

Tabela 2 Estratificacao das 500 pessoas em observacao no hospital


HS e os respectivos tamanhos dos estratos e tamanhos de amostras
Estratos (Idades) Tamanho do Estrato (Ni ) Tamanho da amostra (ni )
00 ` 02 100 10
02 ` 05 98 10
05 ` 10 104 10
10 ` 20 102 10
20 ` 40 96 10
Total 500 50

Deve-se observar que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao
em estudo e que a soma das amostras obtidas de cada estrato e igual ao tamanho da amostra de interesse.

4.3.2.4.3 Amostragem estratificada proporcional


Nesta amostragem estratificada, do estrato i deve-se obter uma quantidade (amostra) ni de
elementos que e proporcional ao tamanho Ni de cada estrato da populacao de tamanho N . O tamanho
ni de cada estrato e determinado por: Ni
ni = n
N
Em que:
ni : e o tamanho da amostra a ser obtida no estrato i
Ni : e o tamanho do estrato i;
N : e o tamanho da populacao;
n: e o tamanho da amostra.

4.3.2.4.4 Exemplo
Em um hospital estao em observacao 1000 pessoas de 0 a 40 anos. Por algum motivo dividiu-se
a populacao em k = 5 estratos, ou seja, 5 categorias de idades. Posteriormente, contou-se quantas pessoas
faziam parte de cada estrato (idade). Foi definido que o tamanho da amostra n a ser obtida e igual a 50.
A divisao dos estratos e o numero de pessoas por estrato podem ser observados na Tabela 3.

Tabela 3 Estratificacao das 1000 pessoas em observacao no hospital HS


Estratos (Idades) Tamanho do Estrato (Ni )
00 ` 02 500
02 ` 05 320
05 ` 10 100
10 ` 20 50
20 ` 40 30
Total 1000

Determine o tamanho das amostras a serem obtidas em cada estrato da populacao em estudo.
Solucao:
Para obter o tamanho das amostras a serem retiradas de cada estrato deve-se calcular:

N1 500 N4 50
Para o estrato 1: n1 = n= 50 = 25 Para o estrato 4: n4 = n= 50 = 2,5
N 1000 N 1000
N2 320
Para o estrato 2: n2 = n= 50 = 16
N 1000
N3 100 N5 30
Para o estrato 3: n3 = n= 50 = 5 Para o estrato 5: n5 = n= 50 = 1,5
N 1000 N 1000

Organizando os resultados obtidos na Tabela 4, observa-se que foi arredondado para cima o
tamanho da amostra do estrato 4 e que foi truncado o valor obtido para o tamanho da amostra do estrato
5. Tal operacao foi realizada a fim de que a soma dos tamanhos das amostras retiradas dos estratos fosse
igual a n = 50.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 15


Estatstica Basica 4 AMOSTRAGEM

Tabela 4 Estratificacao das 1000 pessoas em observacao no hospital


HS e os respectivos tamanhos dos estratos e tamanhos de amostras
Estratos (Idades) Tamanho do Estrato (Ni ) Tamanho da amostra (ni )
00 ` 02 500 25
02 ` 05 320 16
05 ` 10 100 05
10 ` 20 50 03
20 ` 40 30 01
Total 1000 50

Novamente, nota-se que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao
e que a soma dos tamanhos das amostras obtidas dos estratos e igual ao tamanho da amostra a ser
estudada.

4.3.2.4.5 Amostragem estratificada otima


Em uma amostragem estratificada otima alem do tamanho de cada estrato e considerada,
tambem, a variabilidade dos dados do estrato para determinar o tamanho da amostra a ser obtida nos
mesmos. Com isso consegue-se otimizar a obtencao de informacoes sobre a populacao, pois naquele
estrato em que houver menor variacao ela podera influenciar na obtencao de uma menor quantidade de
elementos amostrados.
Assim, o tamanho de cada amostra a ser retirada do seu respectivo estrato e calculado por:
Ni i n
ni = k
P
Ni i
i=1

Sendo:
ni : e o tamanho da amostra a ser obtida no estrato i
Ni : e o tamanho do estrato i;
n: e o tamanho da amostra;
k: e o numero de estratos;
i : e o desvio padrao populacional do estrato i.
Crtica:
Necessidade de conhecer o desvio padrao populacional em cada estrato para a variavel estratificadora, o
que em geral nao possvel. Usa-se, entao, estima-lo por meio de uma amostra piloto encontrando, assim,
o desvio padrao amostral10 que e usado para estimar o desvio padrao populacional.
Quando a variavel em estudo e qualitativa nao existe o desvio padrao populacional, sao casos em os
estratos correspondem a sexo, origem, raca, etc.

4.3.2.4.6 Exemplo
Em um hospital estao em observacao 1000 pessoas de 0 a 40 anos, a variavel estudada e uma
variavel quantitativa. Por algum motivo dividiu-se a populacao em k = 5 estratos, ou seja, 5 categorias
de idades. Posteriormente, contou-se quantas pessoas faziam parte de cada estrato (idade) e por meio
de uma amostra piloto, determinou-se o desvio padrao11 de cada estrato. Foi definido que o tamanho da
amostra n a ser obtida e igual a 50. A divisao dos estratos e o numero de pessoas por estrato podem ser
observados na Tabela 5.

10 O calculo do desvio padrao amostral sera visto na Secao 5.2.5.5. 11 O desvio padrao da amostra piloto de cada estrato
sera identificado por i , futuramente, na Secao 5.2.5.5, sera identificado por s.

16 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 4 AMOSTRAGEM

Tabela 5 Estratificacao das 1000 pessoas em observacao no hospital


HS e os respectivos desvios padrao de cada estrato
Estratos (Idades) Tamanho do Estrato (Ni ) Desvio padrao (i )
00 ` 02 500 2,8
02 ` 05 320 3,5
05 ` 10 100 4,3
10 ` 20 50 5,2
20 ` 40 30 7,5
Total 1000

Determine o tamanho das amostras a serem obtidas em cada estrato da populacao em estudo.
Solucao:
Para obter o tamanho das amostras a serem retiradas de cada estrato deve-se calcular:
X5
Ni i = 500 2,8 + 320 3,5 + 100 4,3 + 50 5,2 + 30 7,5 = 3.435
i=1
N1 1 n 500 2,8 50
Para o estrato 1: n1 = 5
= = 20,3785
P 3.435
Ni i
i=1

N2 2 n 320 3,5 50
Para o estrato 2: n2 = 5
= = 16,3028
P 3.435
Ni i
i=1

N3 3 n 100 4,3 50
Para o estrato 3: n3 = 5
= = 6,2591
P 3.435
Ni i
i=1

N4 4 n 50 5,2 50
Para o estrato 4: n4 = 5
= = 3,7846
P 3.435
Ni i
i=1

N5 5 n 30 7,5 50
Para o estrato 5: n5 = 5
= = 3,2751
P 3.435
Ni i
i=1

Organizando os resultados obtidos na Tabela 6, observa-se que em alguns casos houve trunca-
mento e que o tamanho da amostra do estrato 5 passou de 3,2751 para 4. Isto foi adotado porque este
estrato era o que tinha maior variabilidade e para que o tamanho da amostra atingisse o valor n = 50.

Tabela 6 Estratificacao das 1000 pessoas em observacao no hospital


HS e os respectivos tamanhos dos estratos e tamanhos de amostras
Estratos (Idades) Tamanho do Estrato (Ni ) Tamanho da amostra (ni )
00 ` 02 500 20
02 ` 05 320 16
05 ` 10 100 06
10 ` 20 50 04
20 ` 40 30 04
Total 1000 50

Nota-se que a soma dos tamanhos de cada estrato e igual ao tamanho da populacao e que a
soma dos tamanhos das amostras obtidas dos estratos e igual ao tamanho da amostra a ser estudada.

4.4 Exerccios
1. Devido ao aumento de casos de febre amarela, um cientista pretente coletar amostras de sangue
de 10 primatas em uma reserva ecologica em que sao monitorados 67 primatas. Esses primatas foram
identificados pela sequencia de numeros 00, 01, 02, 03, . . ., 66. O cientista solicitou a um estatstico
uma sequencia de numero aleatorios, entretanto nao especificou que era para se usar em uma populacao
de 67 indivduos. Da, o estatstico apresentou-se uma sequencia de numeros aleatorios gerada por um
programa de computador:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 17


Estatstica Basica 4 AMOSTRAGEM

39126 49648 81754 09284 10219


23109 31157 00890 12782 16922
74448 63933 69134 38845 77315
13332 25819 91862 19203 12864
20783 68735 09460 63677 52029
O estatstico ao saber que eram somente 67 indivduos, disse ao cientista, que era para ele utilizar os dois
primeiros numeros de cada numero aleatorio (comecando, assim, com 39, 49, 81, 09, . . ., seguindo-se pelas
linhas tal qual se le um livro) e descartar os numeros que fossem maior do que aqueles que identificam
os indivduos da populacao. Utilizando esta ideia, quais primatas serao selecionados?
2. Os 42 alunos de uma determinada sala de aula possuem as seguintes idades em anos: 25, 20, 35, 21,
22, 22, 24, 25, 30, 38, 24, 20, 20, 25, 20, 19, 25, 23, 20, 24, 28, 24, 24, 22, 28, 26, 23, 25, 22, 27, 25, 23,
28, 27, 22, 23, 24, 28, 31, 22, 25, 23. Com o objetivo de estimar a idade media, como voce extrairia uma
amostra simples ao acaso, de tamanho n = 10 desta populacao? Determine a idade media da turma. De
todos os detalhes para a realizacao da coleta dos dados.
3. Os 60 pacientes de um medico apresentam os nveis de glicose em jejum em mg/dL:
62 58 62 69 58 70 66 78 77 64 68 78
59 54 77 73 78 80 74 71 60 79 78 73
77 60 81 75 64 66 63 66 62 84 81 78
78 77 78 76 75 71 75 74 68 87 78 76
79 67 66 77 76 72 80 78 76 64 75 79
Sorteie 10 pacientes, sem reposicao, desse conjunto. Use os numeros aleatorios abaixo, adotando os pares
de numeros seguindo-se na linha como se le um livro, por exemplo, do numero 70891, forma-se os numeros
70, 89, 1. Este ultimo algarismo, o numero 1, juntara com o primeiro algarismo de 88821 para formar
o numero 18, e assim sucessivamente. Desta forma, os numeros aleatorios formados foram: 70, 89, 18,
88, 21, 97, 45, ... Como a populacao e composta de apenas 60 indivduos, os numeros aleatorios igual ou
maiores que 60 serao descartados.
70891 88821 97452 20353 06361 70990 18735 56086
26943 40213 23032 58781 27620 97239 15102 86483
01587 05547 41280 00572 18550 32127 48564 58748
19827 45549 06723 64692 55592 31574 11217 32794
63345 61088 01293 93914 32518 61105 56574 50105
11601 04533 53473 74240 32640 16851 23814 38439
03748 67555 03404 91598 66248 13918 92221 19450
11166 20498 99753 86323 46310 05831 65045 77398
a) Quais foram os pacientes sorteados?
b) Quais sao os valores de glicemia de cada indivduo amostrado?

4. Se os 42 alunos do exerccio 3 estivessem orga-


nizados em 5 filas como mostra a figura12 ao lado,
qual seria a tecnica de amostragem mais indicada?
Selecione uma amostra de tamanho n = 10 e de-
termine a idade media da turma dando todos os
detalhes para a realizacao da amostragem. Consi-
dere que os numeros apresentados sobre as carteiras
representam a idade do aluno que senta nela.

5. Uma universidade tem 7.232 eleitores, repartidos nas seguintes categorias, para votarem em tres
candidatos a reitor:
Categorias No de eleitores
Alunos 5.847
Professores 239
Tecnicos administrativos 1.146
12 Fonte (modificada): Disponvel em: <http://lucelebolzan.pbworks.com/w/page/19447296/Minha%20sala%20de%20aula>.
Acesso em: 14 de ago. 2017.

18 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Deseja-se selecionar uma amostra de tamanho n = 50 desta populacao de votos. Qual o tipo de amos-
tragem e recomendado para esta situacao? Justifique e apresente todos os passos para selecionar os 50
eleitores.
6. Uma industria de cosmesticos possui 100 funcionarios dos quais 70 trabalham exclusivamente dentro
da fabrica e 30 sao do setor de transporte. As idades dos 100 funcionarios sao apresentadas na ordem de
como foram coletadas (le-se segundo as linhas, tal como se le um livro) de modo que as setenta primeiras
idades sao dos funcionarios que trabalham exclusivamente dentro da industria e as trinta ultimas daqueles
que trabalham no setor de transporte.

33 38 34 34 34 31 36 35 32 37
35 34 30 37 36 33 34 34 32 39
35 33 33 34 31 32 36 33 29 36
34 35 34 33 31 35 35 35 37 32
34 34 36 35 34 33 32 38 34 33
33 32 34 35 37 35 35 30 35 34
36 36 33 34 33 32 31 37 35 34
39 40 40 42 39 38 40 40 40 40
40 41 45 41 40 39 41 41 40 42
39 40 41 40 40 42 39 39 38 40
a) Qual e a populacao em estudo?
b) Qual e a variavel em estudo e sua classificacao?
c) Uma amostra, de dez indivduos foi retirada da populacao de cem, com auxlio dos numeros aleatorios.
A seguir, foi calculada a idade media da amostra das dez idades. Que valor voce acha que foi obtido para
essa media?
d) Suponha agora que se pensasse em fazer amostragem estratificada. Em sua opiniao, seria razoavel, no
caso? Caso afirmativo, indique como voce procederia, ainda utilizando os numeros aleatorios. Suponha
que o tamanho da amostra continue sendo igual a dez.
e) Suponha agora que tivesse sido utilizada amostragem estratificada uniforme, num total ainda de dez
idades, e que tivessem sido obtidos, no primeiro e no segundo estratos, respectivamente, x1 = 33,8 e
x2 = 40,2. Em quanto voce estimaria a idade media da populacao de cem idades?
7. A Reitoria da UNIFAL-MG quer aplicar um questionario a comunidade academica (alunos, professores
e servidores) para avaliar a opiniao sobre a modificacao do calendario academico durante a Copa. Dispoe
de um cadastro com 1525 alunos, 48 professores e 107 servidores,. Deseja-se amostrar 100 pessoas. Qual
o tipo de amostragem voce utilizaria e quantos indivduos de cada categoria seriam avaliados?
8. Deseja-se selecionar uma amostra de domiclios da cidade de Alfenas, pertencentes as ruas paralelas a
UNIFAL-MG. Um total de 12 ruas com caractersticas proximas comporao as subdivisoes da populacao
em estudo. No quadro abaixo, A1 representa o primeiro domiclio da Rua A, A2 o segundo, e assim por
diante.
Ruas Domiclios
A A1 A2 A3 A4 . . . A56
B B1 B2 B3 B4 . . . B85
C C1 C2 C3 C4 . . . C48
D D1 D2 D3 D4 . . . D108
E E1 E2 E3 E4 . . . E209
F F1 F2 F3 F4 . . . F105
G G1 G2 G3 G4 . . . G38
H H1 H2 H3 H4 . . . H75

Realizou-se um sorteio das ruas, ao qual as ruas B, D e H foram selecionadas. Nestas ruas selecionadas,
em todos os domiclios foram coletados os dados. Identifique o tipo de amostragem realizada.

5 ESTATISTICA DESCRITIVA

A estatstica descritiva e a area da estatstica que aplica varias tecnicas para a organizacao, a
apresentacao e a descricao de um conjunto de dados. Nesta parte da estatstica nao se tem por objetivo
usar os dados para aprender algo sobre a populacao, apenas utilizar tabelas, graficos e metodos numericos
para apresentar informacoes.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 19


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Algumas ferramentas serao apresentadas neste material, como alguns tipos de tabelas e de
graficos que poderao representar, objetivamente, as informacoes levantadas e, posteriormente, os meto-
dos numericos que podem descrever os dados: medidas de posicao, medidas separatrizes e medidas de
variabilidade.

5.1 Apresentacao dos dados


5.1.1 Tabelas
A tabela e uma ferramenta que possibilita uma inspecao rigorosa dos dados, e bastante efi-
ciente para mostrar o comportamento dos dados, facilita a compreensao das informacoes e a ajuda na
interpretacao do fenomeno estudado.
Uma tabela deve ser autoexplicativa, isto e, as informacoes nela apresentadas deve ser compre-
endidas pelo leitor sem que tenha que consultar ou ler o texto que antecede a mesma. Desta forma a
tabela apresenta algumas partes que devera compo-la, como:
+ Ttulo: parte que aparece sempre na parte superior da tabela devendo sempre conter informacoes que
respondam as perguntas relacionadas ao fenomeno estudado, tipo O que esta sendo representado?, Onde
ocorreu? Quando ocorreu?.
+ Cabecalho: indica a natureza do conteudo de cada coluna, por exemplo, o nome da variavel indepen-
dente e o nome da variavel dependente.
+ Corpo: e representado por colunas e subcolunas dentro das quais serao registrados os dados e/ou
informacoes.
+ Rodape: e um espaco na parte inferior da tabela utilizado para inserir notas e/ou fonte dos dados.
Em muitos casos e dispensavel.
Embora existam diversas classificacoes para as tabelas, neste material as tabelas serao conside-
radas como distribuicao de frequencias. Uma distribuicao de frequencias e um agrupamento dos dados
em classes (ou categorias) de modo a contabilizar o numero de ocorrencias em cada classe. O numero
de ocorrencias de cada classe recebe o nome de frequencia absoluta (corresponde a variavel dependente).
Alguns exemplos serao apresentados a seguir.

5.1.1.1 Serie temporal


Tambem conhecida como serie cronologica, serie evolutiva ou serie historica. E a serie em que
os dados sao observados de acordo com o tempo em que ocorrem, permanecendo constantes o local e o
fenomeno.

5.1.1.1.1 Exemplo
Considere um estudo cujo objetivo e identificar o numero de notificacoes de obitos ao SIM, por
doencas endocrinas nutricionais e metabolicas, durante o perodo de 2007 a 2011 realizado no Brasil. Sao
necessarias duas variaveis para descrever o estudo, quais sejam: o ano da coleta (variavel independente) e o
numero de obitos (variavel dependente). E uma serie temporal porque a variavel independente representa
a epoca em que foram coletados os dados.
Tabela 8 Numero de notificacoes de obitos ao SIM, por doencas
endocrinas nutricionais e metabolicas. Brasil, 2007 a 2011
Ano Numero de obitos
2007 61.860
2008 64.631
2009 66.984
2010 70.276
2011 73.929
Fonte: SIM-CGIAE/SVS/MS. Disponvel em: http://www.datasus.gov.br

Observe que nesta tabela foi necessario o uso do rodape para identificar a origem dos dados.
Isto porque os dados nao sao meus, foram obtidos em outro lugar cuja fonte esta apresentada no rodape.

5.1.1.2 Serie geografica


Tambem chamada de serie de localizacao, serie regional ou serie territorial. E a serie em que os
dados sao observados de acordo com a localidade em que ocorreram, permanecendo constantes a epoca e
o fenomeno.

20 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.1.1.2.1 Exemplo
Um estudo tinha como objetivo identificar o numero de internacoes por acidente de transito
segundo as regioes brasileiras no mes de novembro de 2013. Foram necessarias duas variaveis: a indepen-
dente identifica as regioes e a independente representa o numero de internacoes no perodo estudado. A
serie representada a seguir consiste em uma serie geografica porque a variavel independente representa o
local onde foram obtidos os dados.
Tabela 9 Internacoes por acidente de transito segundo a Unidade
de Federacao, faixa etaria de 25 a 29 anos, nov-2013
Regiao Numero de internacoes
Sudeste 144
Nordeste 94
Centro-Oeste 10
Sul 9
Norte 4
Fonte: Ministerio da Saude. Disponvel em: http://www.datasus.gov.br

Toda vez que em seu trabalho for necessario usar dados de outros autores, e necessario inserir
estas informacoes no rodape da tabela, como exemplificado nesta situacao.

5.1.1.3 Serie especfica ou categorica


E a serie em que os dados sao agrupados de acordo com categorias ou especies, permanecendo
constantes a epoca e o local.

5.1.1.3.1 Exemplo
Para obter informacoes sobre o tipo de obitos notificados ao SIM, no ano de 2011, foram
coletadas no stio eletronico do datasus os dados apresentados na tabela a seguir. Observe que foram
necessarias duas variaveis de modo que a variavel independente identifica a causa do obito e a variavel
dependente representa o numero de obitos conforme a causa. Tal serie e uma serie especfica pelo fato da
variavel independente representar outra informacao que nao e nem uma epoca e nem um local.
Tabela 10 Notificacoes de obitos ao SIM. Brasil, 2011*
Causa Numero de obitos
Algumas doencas infecciosas e parasitarias 49.175
Neoplasias (tumores) 184.384
Doencas do sangue 6.344
Doencas endocrinas nutricionais e metabolicas 73.929
Transtornos mentais e comportamentais 13.725
Doencas do sistema nervoso 26.948
Doencas do olho e anexos 23
Doencas do ouvido e da apofise mastoide 150
Fonte: SIM-CGIAE/SVS/MS. Disponvel em: http://www.datasus.gov.br
* Informacoes parciais, faltam outras doencas

Nesta serie o rodape foi utilizada para exibir a origem dos dados e tambem para complementar
que e necessario se atentar pelas informacoes apresentadas.

5.1.1.4 Serie de dupla entrada ou tabela de contigencia


E a serie que e constituda da conjugacao ou juncao de uma ou mais series. E util para
mostrar dois ou mais tipos de variaveis em relacao a um item. Deve ser lida na vertical e na horizontal
simultaneamente para que as linhas e as colunas sejam relacionadas.

5.1.1.4.1 Exemplo
Considere um estudo cujo objetivo e o de levantar informacoes sobre o numero de notificacoes
de obitos ao SIM, no Brasil no perodo de 2007 a 2011, segundo a causa do obito. Observe que para
representar os dados deste estudo serao necessarias tres variaveis a saber: duas variaveis independentes
(perodo do estudo e a causa do obito) e uma variavel dependente (o numero de obitos registrados).

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 21


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Tabela 11 Notificacoes de obitos ao SIM. Brasil, 2007 a 2011*


Ano
Causa
2007 2008 2009 2010 2011
Algumas doencas infecciosas e parasitarias 45.945 47.295 47.010 48.823 49.175
Neoplasias (tumores) 161.491 167.677 172.256 178.990 184.384
Doencas do sangue 5.719 5.825 6.011 6.284 6.344
Doencas endocrinas nutricionais e metabolicas 61.860 64.631 66.984 70.276 73.929
Transtornos mentais e comportamentais 10.948 11.852 11.861 12.759 13.725
Doencas do sistema nervoso 20.413 21.609 23.018 25.303 26.948
Doencas do olho e anexos 26 39 23 31 23
Doencas do ouvido e da apofise mastoide 118 125 125 125 150
Fonte: SIM-CGIAE/SVS/MS. Disponvel em: http://www.datasus.gov.br
* Informacoes parciais, faltam outras doencas

Este de tipo de tabela tambem recebe o nome de tabela de dupla entrada. E muito empre-
gada porque consegue representar muitas informacoes em pouco espaco, note que neste caso estao sendo
representados os dados das Tabelas 8 e 10.

5.1.2 Construcao de tabelas de distribuicao de frequencias


5.1.2.1 Quando a variavel independente for qualitativa
A construcao consiste na organizacao dos dados com as suas respectivas frequencias absolutas.
A primeira coluna da tabela contera informacoes a respeito da variavel independente (suas categorias,
divisoes ou dados) e na segunda coluna sera apresentada as frequencias com que aparecem cada categoria.

5.1.2.1.1 Exemplo
O Congresso de Homeopatia, realizado na cidade de Alfenas-MG em 2014, usou um questionario
para perguntar aos participantes como eles avaliam a organizacao, a recepcao, os temas das palestras, o
coffee break, os minicursos e os anais. Cada item do estudo foi avaliado de acordo com notas categori-
zadas em excelente (E), otimo (O), bom (B), medio (M) e fraco (F). Um grupo de 30 participantes do
congresso avaliou o item organizacao, as informacoes obtidas do primeiro ao trigesimo participante estao
apresentadas no banco de dados a seguir:
B B O E M M F F O B
O F B O E O M M B B
E F B M F B M O E B
Organizando as notas dadas pelos participantes, confeccionou-se a Tabela 12, na qual estao
representados o que esta sendo estudado, onde aconteceu e quando aconteceu, alem de definir quais
variaveis estao sendo estudadas e as informacoes obtidas. Neste caso nao se usou o rodape por nao haver
necessidade. A variavel nota atribuda (independente) foi dividida nas categorias excelente ate fraco e a
variavel dependente (quantidade de participantes) quantifica o numero de vezes que cada nota aparece
no estudo.

Tabela 12 Avaliacao da organizacao do Congresso


de Homeopatia, Alfenas-MG, 2014
Nota atribuda Quantidade de Participantes
Excelente 4
Otimo 6
Bom 9
Medio 6
Fraco 5
Total 30

5.1.2.2 Quando a variavel for quantitativa discreta


A distribuicao de frequencias para dados discretos e uma serie que possui uma coluna para as
classes (categorias da variavel independente) e outra coluna para as frequencias (quantidade de vezes que
cada categoria aparece no estudo). As classes (1a coluna da tabela) sao formadas por numeros inteiros em
sequencia, nao possuem divisoes, representam o valor observado da variavel estudada. Porem, quando se
tem uma variavel quantitativa discreta que apresenta muitas observacoes, levando a um numero grande
de classes, e mais racional realizar o agrupamento dos valores em intervalos de classe13 .
13 Sera visto na Secao 5.1.2.3

22 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.1.2.2.1 Exemplo
Numa fila de um PSF da cidade Iota foram entrevistados 50 casais durante os meses abril a
maio de 2010 (dados fictcios). O objetivo da pesquisa era descobrir o numero de filhos por casal. O
resultado da pesquisa esta apresentado abaixo, sendo os dados dispostos conforme foram coletados (dados
brutos), da esquerda para a direira, seguindo-se pelas linhas como se le um texto.
2 3 0 2 1 1 1 3 2 5
6 1 1 4 0 1 5 6 0 2
1 4 1 3 1 7 6 2 0 1
3 1 3 5 7 1 3 1 1 0
3 0 4 1 2 2 1 2 3 2
Os dados como sao apresentados anteriormente sao denominados de dados brutos, pois nao
foram organizados. Quando se ordena ou classifica segundo algum criterio, os dados sao chamados de
rol. Assim, para os dados anteriores, tem-se:

0 0 0 0 0 0 1 1 1 1
1 1 1 1 1 1 1 1 1 1
1 1 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 3 3 4
4 4 5 5 5 6 6 6 7 7

Embora apos organizar os dados ja permita se ter alguma ideia sobre o seu comportamento, e
necessario organiza-los mais e apresenta-los com mais formalidade, como esta na Tabela 13. Note que o
ttulo especifica o que esta sendo estudado, onde e quando aconteceu o estudo; a tabela ainda contem
as variaveis estudadas e as informacoes que foram obtidas no estudo. No rodape e apresentada uma
informacao sobre os dados. As categorias da variavel independente e apresentada em uma sequencia
numerica, sem interrupcoes, de 0 a 7.

Tabela 13 Numero de filhos de 50 casais entrevistados


numa fila de um PSF, Cidade Gama, abril-maio de 2010*
Numero de Filhos Numero de Casais
0 6
1 16
2 9
3 8
4 3
5 3
6 3
7 2
Total 50
* Dados fictcios

5.1.2.3 Quando a variavel independente for quantitativa contnua


Numa distribuicao de frequencias em que os valores observados sao valores de uma variavel
contnua, a primeira coluna da tabela e formada por intervalos de valores definidos de alguma forma.
Isto e, com base nos dados observados sao definidos intervalos de valores para a montagem das categorias
(classes). As frequencias (variavel dependente) representam o numero de valores que estao compreendidos
em cada intervalo (classe).
Nao existe uma unica regra para construcao da tabela de distribuicao de frequencias, mas e
importante que a distribuicao conte com um numero adequado de classes, geralmente entre 5 e 20 classes.
Se o numero de classes for excessivamente pequeno acarretara perda de detalhe e pouca informacao se
podera extrair da tabela. Por outro lado, se for utilizado um numero excessivo de classes, havera alguma
classe com frequencia nula ou muito pequena, nao atingindo o objetivo da classificacao que e tornar o
conjunto de dados supervisionaveis.
O metodo para a construcao da tabela de distribuicao de frequencias quando a variavel for
quantitativa contnua e tambem empregado para o caso em que a variavel estudada seja quantitativa
discreta, quando apresenta numero de valores observados muito grande ou que estes valores sejam muito
diversos. Assim, para este caso, as classes formadas por intervalos evitara tabelas com grande extensao
e que contenham classes com valores nulos, alem de facilitar a interpretacao dos valores do fenomeno.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 23


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.1.2.3.1 Procedimentos para a montagem dos intervalos de classe


Para a criacao dos intervalos de classe (intervalos de valores) de uma tabela de distribuicao
de frequencias para variaveis quantitativas contnuas14 , dentre outros procedimentos, pode-se adotar o
seguinte:
Ordenar os valores

Determinar
o numero de classes k:
k = n quando n 100
ou k = 5 log n quando n > 100
Sendo:
k: o numero de classes;
n: o numero de dados.

Determinar o intervalo das classes c:


A
c=
k1
Em que:
c: e o intervalo ou amplitude da classe;
A: amplitude total, dada pela diferenca entre a maior e menor observacoes;
k: numero de classes.

Determinar o limite inferior da primeira classe LI1 :


c
LI1 = menor observacao
2
Determinar o limite superior da primeira classe LS1 :

LS1 = LI1 + c

Determinar os demais limites inferiores e superiores das outras classes ate a classe k:
LI2 = LS1 LS2 = LI2 + c
LI3 = LS2 LS3 = LI3 + c
LI4 = LS3 LS4 = LI4 + c
.. ..
. .
LIk = LSk1 LSk = LIk + c
As frequencias representam os valores contidos nos intervalos determinados pelos limites infe-
riores e superiores de cada classe de modo que sejam LIi e < LSi . Nesse material as classes serao
definidas por LIi ` LSi .
Importante: para fins de analises matematicas todas as observacoes contidas num intervalo
de classe serao consideradas iguais ao ponto medio da classe. Essa hipotese e a hipotese tabular basica
(HTB). O ponto medio da classe i e dado por:
LIi + LSi
Xi =
2
Em que:
Xi : e o ponto medio da classe i;
LIi e LSi : sao, respectivamente, o limite inferior e superior da classe i.

5.1.2.3.2 Exemplo
Considere um estudo cujo objetivo e quantificar o numero de pacientes atendidos na Clnica RX
de segunda a sexta, entre os meses de janeiro e maio de 2010 (94 dias). Os dados colhidos representam o
numero de pacientes atendidos a partir do primeiro dia de observacao do mes de janeiro ate o ultimo dia
de observacao do mes de maio. A variavel estudada e uma variavel discreta, porem contem valores muito
diversos, por isto sera montada uma tabela em que a coluna das classes seja formada por intervalos de
valores.
14 E tambem para a quantitativa discreta quando apresentar muitos valores ou valores dispersos

24 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

8 24 46 13 38 54 44 20 17 14
18 15 30 24 20 8 24 18 9 10
38 79 15 62 23 13 62 18 8 22
11 17 9 35 23 22 37 36 8 13
10 6 92 16 15 23 37 36 8 13
44 17 9 30 26 18 37 43 14 9
28 41 42 35 35 42 71 50 52 17
19 7 28 23 29 29 58 77 72 34
12 40 25 7 32 34 22 7 44 15
9 16 31 30
O primeiro passo para a construcao das classes e a ordenacao dos dados (rol), neste caso,
ordenou-os em ordem crescente:
6 6 7 7 7 8 8 8 8 9
9 9 9 9 10 10 11 12 13 13
13 13 14 14 14 15 15 15 15 16
16 17 17 17 17 18 18 18 18 19
20 20 22 22 22 23 23 23 23 24
24 24 25 26 28 28 29 29 30 30
30 31 32 34 34 34 35 35 35 36
37 37 38 38 40 41 42 42 43 44
44 44 46 50 52 54 58 62 62 71
72 77 79 92
Agora, calcula-se o numero de classes:

k = 94 = 9,69 10
Como k representa o numero de classes, tem que ser um valor inteiro, assim sera adotado k = 10,
mas poderia ser k = 9. Trabalhando com k = 10, sabe-se que a tabela de distribuicao de frequencias tera
10 classes, ou seja, 10 intervalos de valores.
O tamanho de cada intervalo, amplitiude da classe, e dado por c, assim:
A 92 6
c= = = 9,56
k1 10 1
Como os valores (dados) sao numeros inteiros nao justifica trabalhar com casas decimais, po-
dendo ser adotado c = 10 desde de que ao final da construcao da tabela se observe que todos os valores
foram agrupados nas k = 10 classes.
O proximo calculo e a determinacao dos limites de cada classe. O limite inferior da primeira
classe LI1 e determinado por:
c
LI1 = menor observacao
2
Logo,
10
LI1 = 6 =1
2
O limite superior da primeira classe LS1 e calculado por:

LS1 = LI1 + c

LS1 = 1 + 10 = 11
Os demais limites ate a 10a classe, sao:

Classe Limite inferior Limite superior


a LI2 = LS1 LS2 = LI2 + c
2
LI2 = 11 LS2 = 11 + 10 = 21
LI3 = LS2 LS3 = LI3 + c
3a
LI3 = 21 LS3 = 21 + 10 = 31
LI4 = LS3 LS4 = LI4 + c
4a
LI4 = 31 LS4 = 31 + 10 = 41
LI5 = LS4 LS5 = LI5 + c
5a
LI5 = 41 LS5 = 41 + 10 = 51
LI6 = LS5 LS6 = LI6 + c
6a
LI6 = 51 LS6 = 51 + 10 = 61

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 25


Estatstica Basica 5 ESTATISTICA DESCRITIVA

LI7 = LS6 LS7 = LI7 + c


7a
LI7 = 61 LS7 = 61 + 10 = 71
LI8 = LS7 LS8 = LI8 + c
8a
LI8 = 71 LS8 = 71 + 10 = 81
LI9 = LS8 LS9 = LI9 + c
9a
LI9 = 81 LS9 = 81 + 10 = 91
LI9 = LS8 LS9 = LI9 + c
10a
LI9 = 91 LS9 = 91 + 10 = 101

Apos realizar todas as operacoes, monta-se a tabela de distribuicao de frequencias em que a


primeira coluna e composta pelos intervalos das classes definidos anteriormente. A segunda coluna e
composta pelas frequencias, isto e o numero de valores pertencentes ao intervalo de cada classe. Por
exemplo, a frequencia para o primeiro intervalo de classe, LI1 = 1 e < LS1 = 11, ou seja, 1 ` 11, e
calculada pelo numero de valores que pertencem a este intervalo, no caso: 6, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9,
9, 9, 10, 10, totaliza um total de 16 valores. A frequencia para o segundo intervalo de classe e formada
pela quantidade de valores que pertencem ao intervalo 11 ` 21, e assim por diante. O resultado de todo
este trabalho e apresentado na Tabela 15.

Tabela 15 Numero de pacientes atendidos na Clnica RX de


segunda a sexta, durante 94 dias, jan-mai, 2010
Numero de atendimentos Numero de dias
1 ` 11 16
11 ` 21 26
21 ` 31 19
31 ` 41 14
41 ` 51 09
51 ` 61 03
61 ` 71 02
71 ` 81 04
81 ` 91 00
91 ` 101 01
Total 94
Fonte: Dados fictcios

5.1.3 Tipos de tabelas de distribuicao de frequencias para variaveis quantitativas


Quando a variavel e quantitativa, pode-se obter diferentes tipos de tabelas de distribuicao
de frequencias, conforme a frequencia e apresentada na tabela. Ate o momento foi visto tabelas de
distribuicao de frequencias em que as frequencias sao simples absolutas. Alem deste tipo, as frequencias
em uma tabela podem ser:

Simples Absolutas

Relativas




Absolutas

Tipos de frequencias Crescentes



Acumuladas Relativas
Absolutas


Decrescentes



Relativas

5.1.3.1 Tabela de distribuicao de frequencias simples


a) Frequencia simples absoluta: e o numero de repeticoes de um valor individual ou de
uma classe de valores da variavel estudada. Veja a Tabela 15 em que cada frequencia f i, i = 1, . . . , 10,
representa o numero de valores que foram observados em cada classe.
b) Frequencia simples relativa: representa a proporcao de observacoes de um valor indivi-
dual ou de uma classe em relacao ao numero total de observacoes. Para calcular a frequencia relativa
basta dividir a frequencia absoluta da classe ou do valor individual pelo numero total de observacoes. E
um valor importante para comparacoes. fi
f ri =
n

26 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Em que:
f ri : frequencia simples relativa da classe i, i = 1, . . . , k;
fi : frequencia simples absoluta da classe i, i = 1, . . . , k;
n: numero de observacoes.

5.1.3.1.1 Exemplo
Com os dados obtidos na Tabela 15 monta-se a seguinte tabela de distribuicao de frequencias
relativas:

Tabela 16 Valores relativos de pacientes atendidos na


Clnica RX de segunda a sexta, durante 94 dias, jan-mai, 2010
Numero de atendimentos Numero de dias
1 ` 11 0,1702
11 ` 21 0,2767
21 ` 31 0,2021
31 ` 41 0,1489
41 ` 51 0,0957
51 ` 61 0,0319
61 ` 71 0,0213
71 ` 81 0,0426
81 ` 91 0,0000
91 ` 101 0,0106
Total 1,0000
Fonte: Dados fictcios

Sendo que cada frequencia relativa foi calculada por:


16 03
f r1 = = 0,1702 f r6 = = 0,0319
94 94
26 02
f r2 = = 0,2767 f r7 = = 0,0213
94 94
19 04
f r3 = = 0,2021 f r8 = = 0,0426
94 94
14 00
f r4 = = 0,1489 f r9 = = 0,0000
94 94
09 01
f r5 = = 0,0957 f r10 = = 0,0106
94 94

Em muitas situacoes expressa-se os resultados em termos percentuais, para obter estes percen-
tuais multiplica-se o quociente obtido por 100:
f pi = f ri 100%

5.1.3.2 Tabela de distribuicao de frequencias acumuladas


a) Frequencias acumuladas crescentes absolutas: tambem denominada de distribuicao
de frequencias absoluta acumulada abaixo de. E a frequencia total de todos os valores inferiores ao limite
superior de um dado intervalo de classe.
b) Frequencias acumuladas decrescentes absolutas: tambem denominada de frequencia
absoluta acumulada acima de. E a frequencia total de todos os valores superiores ao limite inferior de
um dado intervalo de classe.
As frequencias relativas em cada caso sao obtidas por meio da divisao de cada frequencia
acumulada pelo total de observacoes.

5.1.4 Exerccios
1. No Pronto Socorro Santa Casa (2012), foi contabilizado o numero de pessoas que foram atendidas na
emergencia por acidente de carro em 20 grupos de 100 pessoas cada. Os dados obtidos foram: 9, 10, 10, 8,
12, 11, 8, 11, 7, 9, 10, 10, 9, 11, 9, 10, 10, 10, 9, 10. Construa uma tabela de distribuicao de frequencias.
2. Dez alunos da UNIFAL-MG/Alfenas (2014/1) foram selecionados e se submeteram a um exame de
sangue apresentando os seguintes valores de glicemia em mg/dL: 80, 60, 68, 79, 62, 76, 70, 78, 78, 77.
Monte uma tabela de distribuicao de frequencias.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 27


Estatstica Basica 5 ESTATISTICA DESCRITIVA

3. Foi realizada uma pesquisa a qual tinha por objetivo identificar a altura dos estudantes do sexo
masculino (em metros) da Faculdade X, 2010. Uma amostra de 18 alunos forneceu os dados abaixo:
1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78
1,79 1,80 1,80 1,83 1,85 1,85 1,85 1,86 1,87
a) Monte uma tabela com a distribuicao de frequencias absolutas, relativas e percentuais.
b) Monte uma tabela em que a primeira coluna contenha os numeros 1,67; 1,73; 1,79; 1,85; 1,91. Agora,
indique na outra coluna o numero de alunos que ficaram acima de cada uma dessas alturas.
c) Monte uma tabela em que a primeira coluna contenha os numeros 1,67; 1,73; 1,79; 1,85; 1,91. Agora,
indique na outra coluna o numero de alunos que ficaram abaixo de cada uma dessas alturas.
4. Durante a aplicacao de uma prova de Estatstica Basica, o professor da disciplina mediu o tempo
gasto por cada aluno para entregar a prova. Os tempos em horas que cada aluno gastou esta apresentado
abaixo:
0,77 0,91 1,06 1,08 1,13 1,18 1,23 1,31 1,37 1,45 1,50 1,56 1,63 1,79 1,90
0,82 0,94 1,07 1,10 1,14 1,19 1,25 1,31 1,40 1,46 1,53 1,58 1,64 1,80 1,92

a) Monte uma tabela com a distribuicao de frequencias absolutas, relativas e percentuais.


b) Monte uma tabela em que a primeira coluna contenha os numeros 0,62; 0,91; 1,20; 1,49; 1,78; 2,07.
Agora, indique na outra coluna o numero de alunos que ficaram acima de cada tempo.
c) Monte uma tabela em que a primeira coluna contenha os numeros 0,62; 0,91; 1,20; 1,49; 1,78; 2,07.
Agora, indique na outra coluna o numero de alunos que ficaram abaixo de cada tempo.
5. Com os dados obtidos no www2.datasus.gov.br/ que representam o numero de nascimentos no mes
de marco dos anos de 2012 a 2015 e a regiao construa:
a) uma tabela para os dados de nascimentos da regiao sudeste;
b) uma tabela para os dados de nascimentos do mes de marco do ano de 2013;
c) uma tabela de dupla entrada em que o ano de nascimento seja representado na vertical;
d) uma tabela de dupla entrada em que a regiao de nascimento seja representada na vertical.
Os dados sao:
2012 2013 2014 2015 Total
Regiao Norte 25.777 26.175 26.629 26.887 105.468
Regiao Nordeste 75.188 71.756 71.657 76.602 295.203
Regiao Sudeste 109.446 102.410 104.995 113.080 429.931
Regiao Sul 35.215 34.323 35.316 38.207 143.061
Regiao Centro-Oeste 21.003 20.609 21.224 22.764 85.600

5.1.5 Graficos
A representacao grafica e outro recurso estatstico bastante usado para representar algum feno-
meno. Tem por objetivo dar uma ideia, a mais imediata possvel, do comportamento dos dados, proporci-
onando maior facilidade na compreensao, para chegar a conclusoes sobre o comportamento do fenomeno
em estudo.
Um grafico deve ser claro, simples e verdico. Isto porque ele deve possibilitar a leitura e a
interpretacao correta dos valores do fenomeno; devera permitir uma analise rapida do fenomeno observado,
de modo a evitar que o observador se perca com particularidades sem importancia; e, por fim, o grafico
devera representar corretamente a realidade dos dados.
Os graficos devem conter ttulo e serem autoexplicativos. As legendas so deverao ser usadas
quando for realmente necessario.
Quanto a forma os graficos podem ser classificados como diagramas, cartogramas, estereogra-
mas e pictogramas. Os diagramas sao graficos geometricos dispostos em duas dimensoes (apenas eixo-x
e eixo-y), muito empregados na representacao de series estatsticas. Os cartogramas sao graficos que
representam uma carta geografica (mapa), sendo muito empregados na Geografia, Historia e Demografia.
Os estereogramas representam volumes, sao graficos em tres dimensoes. E os pictogramas sao graficos
em que sao usadas figuras representativas do fenomeno com o objetivo de despertar a atencao do publico.
Serao apresentados neste material somente alguns tipos de diagramas por serem mais comuns
na representacao de series estatsticas, tais como o grafico em linha, o grafico em colunas, o grafico em
barras, o grafico em colunas compostas, o grafico em setores, o histograma e o polgono de frequencias.

5.1.5.1 Grafico em linha


Os graficos lineares sao usados frequentemente para a representacao de series temporais. Para
constru-lo, insira no eixo horizontal os valores da variavel independente, em ordem crescente, e no eixo

28 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

vertical insira uma escala de valores que contemple os valores da variavel dependente. Posteriormente,
marque os pontos obtidos pelos valores da variavel independente e da variavel dependente e em seguida,
una-os por meio de um segmento de reta, formando uma poligonal.

5.1.5.1.1 Exemplo
Considere os dados apresentados na Tabela 8, pagina 20, graficamente eles podem ser represen-
tados segundo a Figura 8:
80000

75000
Nmero de bitos
70000

65000

60000

55000

50000
2005 2006 2007 2008 2009 2010 2011
Anos
Figura 8 Numero de notificacoes de obitos ao SIM, por doencas endocrinas nutricionais e metabolicas. Brasil,
2005 a 2011

5.1.5.2 Grafico em colunas


Os graficos em colunas tornam possveis as comparacoes das grandezas, representando-as por
meio de retangulos de mesma base e alturas proporcionais as respectivas grandezas. Estes graficos sao
mais utilizados, quando as inscricoes (nome da categoria) a serem inseridas sob os retangulos sao curtas.
As orientacoes para construcao de um grafico em colunas sao:
a) os retangulos (colunas) so diferem no comprimento, e nao na base, a qual e atribuda;
b) os retangulos devem ser separados um dos outros por espacos, sendo estes todos iguais, podendo variar
de 1/3 a 2/3 do tamanho da base dos retangulos;
c) os retangulos devem ser desenhados, observando-se a ordem de grandeza, para facilitar a leitura e
a analise comparativa dos valores. Entretanto, se a serie representada for temporal, os dados a serem
dispostos no eixo horizontal devem ser colocados em ordem crescente de tempo.

5.1.5.2.1 Exemplo
De posse dos dados apresentados na Tabela 9, pagina 21, da-se para construir o grafico em
colunas apresentado na Figura 9:
160
140
Nmero de internaes

120
100
80
60
40
20
0
Sudeste Nordeste Centro-Oeste Sul Norte
Regies
Figura 9 Internacoes por acidente de transito segundo a Unidade de Federacao, faixa etaria de 25 a 29 anos,
nov-2013

5.1.5.3 Grafico em barras


Os graficos em barras tem a mesma finalidade que os graficos em colunas, sendo preferveis
quando as inscricoes (nome das categorias) a serem inseridas forem longas. Sao mais usados para re-
presentar series especficas. Neste grafico, a variavel independente e representada no eixo vertical e,
portanto, os comprimentos dos retangulos sao proporcionais aos respectivos valores da variavel depen-
dente (representados no eixo horizontal). A sua construcao deve seguir as mesmas orientacoes do grafico
em colunas.
As barras devem ser colocadas em ordem de grandeza, de forma decrescente, para facilitar a
comparacao dos valores. A categoria outros (quando existir) e representada na barra inferior, mesmo
que o seu comprimento exceda o de alguma outra.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 29


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.1.5.3.1 Exemplo
Adotando-se os dados tabulados na Tabela 10, pagina 10, graficamente eles poderao ser repre-
sentados por meio de um grafico em barras, como o que pode ser visualizado na Figura 10:

Neoplasias (tumores)

Doenas endcrinas nutricionais e metablicas

Algumas doenas infecciosas e parasitrias

Doenas do sistema nervoso

Transtornos mentais e comportamentais

Doenas do sangue

Doenas do ouvido e da apfise mastide

Doenas do olho e anexos

0 40000 80000 120000 160000 200000


Nmero de bitos

Figura 10 Notificoes de obitos ao SIM. Brasil, 2011

5.1.5.4 Grafico em colunas compostas


O grafico em colunas compostas e apropriado para comparar diversas quantidades agrupadas.
Quando se tem duas variaveis independentes com a mesma variavel dependente, este grafico e uma otima
opcao para representar o fenomeno estudado. Para cada categoria de uma variavel independente sao
agrupadas em colunas (com cores diferenciadas para identificacao) as outras categorias da outra variavel
dependente. As colunas representam alturas proporcionais aos valores da variavel dependente e, na
mesma categoria da primeira variavel independente elas nao apresentam espacos entre si. Neste grafico
as legendas sao necessarias para identificar as categorias de uma das variaveis.

5.1.5.4.1 Exemplo
Considere os dados apresentados na Tabela 11, pagina 22, um grafico que se podera construir e o
apresentado na Figura 11, em que a variavel independente que esta no eixo horizontal representa o perodo
em que foram observadas as notificacoes e as colunas com cores diferentes representam a outra variavel
independente, variando apenas a altura que e definida pelo valor da variavel dependente. Observe que a
cor definida em uma coluna que representa, por exemplo, Algumas doencas infecciosas e parasitarias, e a
mesma nas outras catogorias da variavel perodo.

160000

120000

80000

40000

0
2007 2008 2009 2010 2011

Algumas doenas infecciosas e parasitrias Neoplasias (tumores) Doenas do sangue


Doenas endcrinas nutricionais e metablicas Transtornos mentais e comportamentais Doenas do sistema nervoso
Doenas do olho e anexos Doenas do ouvido e da apfise mastide

Figura 11 Notificoes de obitos ao SIM. Brasil, 2007 a 2011

5.1.5.5 Grafico em setores


E a representacao grafica de uma serie estatstica em um crculo de raio qualquer, por meio
de setores com angulos centrais proporcionais as ocorrencias. Para constru-lo, parte-se do princpio de
que o numero total de valores observados corresponde ao total de graus de uma circunferencia: 360o . A

30 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

area do crculo sera estao dividida em setores proporcionais aos valores da serie. Essa divisao se faz por
meio de uma regra de tres simples. Com o auxlio de um transferidor, efetua-se a marcacao dos angulos
correspondentes a cada divisao.
E utilizado quando se pretende comparar cada valor da serie com o total. O grafico em setores
representa valores absolutos ou porcentagens complementares. As series geograficas, especficas e as
categorias em nvel nominal sao mais representadas em graficos de setores, desde que nao apresentem
muitas parcelas (no maximo sete). As legendas podem ou nao aparecer, dependera da forma de como
voce montou o grafico.

5.1.5.5.1 Exemplo
Ao representar (FIGURA 12) os dados disponveis na Tabela 9, pagina 21, por meio de um
grafico de setores, obtem-se:
9; 3% 4; 2%
10; 4%

94; 36%

Sudeste Nordeste

Centro-Oeste Sul

Norte

144; 55%

Figura 12 Internacoes por acidente de transito segundo a Unidade de Federacao, faixa etaria de 25 a 29 anos,
nov-2013

5.1.5.6 Histograma
Sao graficos de superfcies utilizados para representar distribuicoes de frequencias das variaveis
quantitativas contnuas (classes formadas por intervalos). O histograma e composto por retangulos em
que cada um deles representa o intervalo das classes. A largura da base de cada retangulo deve ser
proporcional a amplitude do intervalo da classe que ela representa e a altura deve ser proporcional a
frequencia da classe. Diferentemente do grafico em colunas, o histograma apresenta suas colunas unidas,
isto representa a continuidade dos dados.

5.1.5.6.1 Exemplo
Com os dados tabulados na Tabela 15, pagina 26, o respectivo histograma e exibido na Fi-
gura 13.

Figura 13 Numero de pacientes atendidos na Clnica RX de segunda a sexta, durante 94 dias, jan-mai, 2010

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 31


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.1.5.7 Polgono de frequencias


E o grafico obtido ao se ligar, por meio de segmentos de retas, os pontos correspondentes aos
pontos medios das classes com suas respectivas frequencias. O ponto medio das classes e obtido por
LIi + LSi
Xi = , veja a pagina 24. O objetivo deste grafico e o de visualizar uma regiao, isto e a
2
densidade dos dados. Para que este efeito seja possvel, no incio e no fim do grafico ligamos os pontos
c c
ao eixo horizontal em LI1 e em LIk + , respectivamente, para que o grafico nao fique flutuando.
2 2

5.1.5.7.1 Exemplo
Utilizando-se dos dados apresentados na Tabela 15, pagina 26, primeiramente calculou-se os
pontos medios de cada classe.
1 + 11 51 + 61
X1 = =6 X6 = = 56
2 2
11 + 21 61 + 71
X2 = = 16 X7 = = 66
2 2
21 + 31 71 + 81
X3 = = 26 X8 = = 76
2 2
31 + 41 81 + 91
X4 = = 36 X9 = = 86
2 2
41 + 51 91 + 101
X5 = = 46 X10 = = 96
2 2
A Tabela 15 com os respectivos pontos medios das classes (PM) e a apresentada a seguir:

Tabela 17 Numero de pacientes atendidos na Clnica RX de


segunda a sexta, durante 94 dias, jan-mai, 2010
Numero de atendimentos Pontos medios (PM) Numero de dias
1 ` 11 6 16
11 ` 21 16 26
21 ` 31 26 19
31 ` 41 36 14
41 ` 51 46 09
51 ` 61 56 03
61 ` 71 66 02
71 ` 81 76 04
81 ` 91 86 00
91 ` 101 96 01
Total 94

O polgono de frequencias apresentado na Figura 14, foi construdo sobre o histograma apenas
para mostrar que isto e permitido:

Figura 14 Numero de pacientes atendidos na Clnica RX de segunda a sexta, durante 94 dias, jan-mai, 2010

32 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.1.5.8 Formatos do polgono de frequencias


O polgono de frequencias (e o histograma) apresentam, na pratica, diversos formatos, como
estes exibidos na Figura 15:

a b1 b2 c1

c2 d e f

Figura 15 Formas de uma distribuicao frequencias

a) Curvas de frequencia simetrica ou em forma de sino: caracterizam-se pelo fato das observacoes equi-
distantes do ponto central maximo ter a mesma frequencia. Um exemplo importante e a curva normal,
Figura 15a.
b) Curvas assimetricas: nestas a cauda da curva de um lado da ordenada maxima e mais longa do que
do outro. Se o ramo mais alongado fica a direita, a curva e dita assimetrica a direita, ou assimetrica
positiva, exemplo a Figura 15b1. Enquanto que, se ocorre o inverso, diz-se que a curva e assimetrica a
esquerda, ou assimetrica negativa, Figura 15b2.
c) Curva em forma de J, ou em J invertido: o ponto de ordenada maxima ocorre em uma das extremida-
des, Figuras 15c1 e c2, respectivamente.
d) Curva em forma de U: a curva possui ordenadas maximas em ambas as extremidades: Figura 15d.
e) Curva de frequencia bimodal: nesta curva ha dois maximos (duas modas), Figura 15e.
f) Curva de frequencia multimodal: tem mais de dois maximos, Figura 15f.

5.1.6 Exerccios
1. Considere os dados tabulados a seguir:

Tabela 18 Numero de pessoas atendidas na emergencia por acidente de


carro em 20 de grupos de 100 pessoas, Pronto Socorro Santa Casa, 2012
Numero de atendimentos Numero de grupos
7 1
8 2
9 5
10 8
11 3
12 1
Total 20

a) Construa um grafico apropriado para representar os dados tabulados acima.


b) Existem outros tipos de graficos que poderiam ser usados? Se sim, quais? Se nao, por que?
2. Adote os dados tabulados a seguir para resolver as questoes abaixo.

Tabela 19 Valores de glicemia (mg/dL) de 10 alunos da UNIFAL-MG


selecionados, Alfenas, 2014/1
Valores de glicemia Numero de alunos
55 ` 65 2
65 ` 75 2
75 ` 85 6
Total 10

a) Quais graficos sao apropriados para representar estes dados?


b) Confeccione-os.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 33


Estatstica Basica 5 ESTATISTICA DESCRITIVA

3. Foi realizada uma pesquisa a qual tinha por objetivo identificar a altura dos estudantes do sexo
masculino (em metros) da Faculdade X, 2010. Uma amostra de 18 alunos forneceu os dados abaixo:
1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78
1,79 1,80 1,80 1,83 1,85 1,85 1,85 1,86 1,87
4. Construa para os dados de consumo de frutas em uma residencia: laranjas (18), bananas (17), macas
(11), goiabas (4), limoes (2), os graficos:
a) colunas;
b) barras;
c) setores.
5. Construa para os dados de cotacao do dolar (media mensal)15 durante os seis primeiros meses do ano
de 2014 e 2015 um grafico de linhas (uma linha para cada ano no mesmo grafico): 2,382(jan), 2,384(fev),
2,326(mar), 2,233(abr), 2,221(mai), 2,236(jun) em 2014 e 2,638(jan), 2,817(fev), 3,140(mar), 3,044(abr),
3,064(mai), 3,111(jun) em 2015.
6. Represente os dados abaixo de duas maneiras usando o grafico em colunas compostas, uma em que a
Estatstica esteja no eixo-x e a outra em que a Estatstica esteja representada nas colunas.

Tabela 20 Distribuicao das notas das disciplinas Epidemiologia


e Estatstica, Turma X (UNIFAL-MG), 2012/1
Estatstica
Epidemiologia Total
0 n < 5 5 n < 7 7 n 10
0n<5 12 5 13 30
5n<7 10 4 8 22
7 n 10 8 1 14 23
Total 30 10 35 75

5.2 Medidas Estatsticas


5.2.1 Medidas de Posicao ou de Tendencia Central
As estatsticas cujos valores tendem a se localizar em um valor central dentro do conjunto de
dados sao chamadas de posicao ou de medidas de tendencia central. Entre as principais medidas de
tendencia central destacam-se a media aritmetica, a moda e a mediana.

5.2.1.1 Media aritmetica


A mais importante medida de locacao e a media aritmetica. E um conceito, sem duvida,
bastante familiar. Por exemplo, a altura media de um grupo de estudantes, a temperatura media em
uma cidade em determinado dia, a nota media de uma turma de 30 alunos.
A media aritmetica de um conjunto de n observacoes x1 , x2 , . . . , xn e o quociente da divisao
da soma dos valores dessas observacoes por n e e denotada por x (leia-se x barra):
Xn
xi
i=1 x1 + x2 + x3 + x4 + . . . + xn
x = =
n n
Em que:
xi : indica a observacao de ordem i, i = 1, 2, 3, . . . , n.

5.2.1.1.1 Exemplo
Dados os pesos, em quilos, de 6 recem-nascidos: 3,3; 3,1; 2,8; 2,7; 2,9; 3,2 o peso medio sera:
3,3 + 3,1 + 2,8 + 2,7 + 2,9 + 3,2 18
x = = = 3,0 kg
6 6
5.2.1.2 Media aritmetica ponderada e media para dados agrupados
Em algumas situacoes, cada dado podera apresentar graus de importancia diferentes (tambem
denominado de pesos), ou os dados podem estar agrupados (numa tabela de distribuicao de frequencias).
Nestes casos, os graus de importancia diferentes e/ou frequencias diferentes sao considerados na hora de
calcular a media.
A media ponderada dos numeros x1 , x2 , . . . , xn , com pesos (ou frequencias) diferentes f1 , f2 , ..., fn ,
representada por xp , e definida como:
15 Fonte: http://economia.acspservicos.com.br/indicadores_iegv/iegv_dolar.html

34 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

n
X
fi xi
i=1 f1 x1 + f2 x2 + f3 x3 + f4 x4 + . . . + fn xn
xp = n =
P f1 + f2 + f3 + f4 + . . . + fn
fi
i=1

A media aritmetica pode ser considerada como uma media ponderada em que os pesos (ou
frequencias) sao todos iguais.

5.2.1.2.1 Exemplo
Considere 5 provas aplicadas as quais possuem os seguintes pesos, respectivamente: 1, 2, 3, 4 e
5. Um determinado aluno conseguiu as seguintes notas ordenadas: 40, 50, 80, 90 e 20. A sua nota media
e calculada por:
5
P
fi xi
f1 x1 + f2 x2 + f3 x3 + f4 x4 + f5 x5 1 40 + 2 50 + 3 80 + 4 90 + 5 20
xp = i=15 = = = 56 pontos
P f1 + f2 + f3 + f4 + f5 1+2+3+4+5
fi
i=1

5.2.1.2.2 Exemplo
A nota final do sistema academico e calculada por meio de uma media ponderada dada por:
n
X N otai
P esoi
i=1
M axi
Mf inal = n 10
X
P esoi
i=1
Em que:
Mf inal : e a media final do aluno na disciplina;
N otai : e a nota atribuda para cada avaliacao i da disciplina;
M axi : e o valor maximo da avaliacao i;
P esoi : e a ponderacao (peso) da nota da avaliacao i.
Considere um professor de certa disciplina, ele aplica 3 provas de valores 30, 40 e 40, cujos pesos
sao 1, 2 e 2, respectivamente. Um aluno obteve 12 (em 30), 19 (em 40) e 37 (em 40). Qual e a media
final calculada pelo sistema academico?
Resolucao:
3
X N otai
P esoi 12 19 37
M axi 1+ 2+ 2
Mf inal = i=1
10 = 30 40 40 10
3
X 1+2+2
P esoi
i=1
2 19 37 8 + 19 + 37 64 16
+ +
Mf inal = 5 20 20 10 = 20 10 = 20 10 = 5 10 = 0,64 10 = 6,4
5 5 5 5

5.2.1.2.3 Exemplo
Considere os dados apresentados na Tabela 13, pagina 23, qual e o numero medio de filhos por
casal?
Resolucao:
Considerando x1 = 0, x2 = 1, x3 = 2, x4 = 3, x5 = 4, x6 = 5, x7 = 6, x8 = 7 e suas respectivas
frequencias: f1 = 6, f2 = 16, f3 = 9, f4 = 8, f5 = 3, f6 = 3, f7 = 3, f8 = 2, a media ponderada (media
para dados agrupados) e obtida por:
8
P
fi xi
i=1 6 0 + 16 1 + 9 2 + 8 3 + 3 4 + 3 5 + 3 6 + 2 7
xp = 8
= = 2,34 filhos
P 6 + 16 + 9 + 8 + 3 + 3 + 3 + 2
fi
i=1

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 35


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.2.1.2.4 Exemplo
Se o interesse for o de calcular a media para dados agrupados em um tabela de distribuicao
de frequencias em que as classes sao formadas por intervalos, e necessario que encontrar todos os pontos
medios, Xi s, das classes (veja a pagina 24) para representar os valores contidos em cada intervalo de cada
classe. Estes pontos medios funcionam como os valores que a variavel assume (hipotese tabular basica) e
as frequencias representam os pesos.
Considere os dados a seguir:

Tabela 21 Valores de glicemia (mg/dL) de 10 alunos da UNIFAL-MG


selecionados, Alfenas, 2014/1
Valores de glicemia Numero de alunos
55 ` 65 2
65 ` 75 2
75 ` 85 6
Total 10

Para calcular a media dos valores de glicemia e necessario encontrar os pontos medios das
LIi + LSi
classes, Xi = . Assim,
2
LI1 + LS1 55 + 65 LI2 + LS2 65 + 75 LI3 + LS3 75 + 85
X1 = = = 60; X2 = = = 70; X3 = = = 80
2 2 2 2 2 2
Inserindo estes valores na tabela, tem-se:

Tabela 22 Valores de glicemia (mg/dL) de 10 alunos da UNIFAL-MG


selecionados, Alfenas, 2014/1
PM Numero de alunos
60 2
70 2
80 6
Total 10
PM: ponto medio das classes (md/dL)

Logo, a media dos valores de glicemia do grupo de alunos e:


k
X 3
X
fi Xi fi Xi
i=1 i=1 f1 X1 + f2 X2 + f3 X3
x = k
= 3
=
X X f1 + f2 + f3
fi fi
i=1 i=1

2 60 + 2 70 + 6 80
x = = 74 mg/dL
2+2+6

5.2.1.2.5 Propriedades da media


A soma algebrica dos desvios de um conjunto de valores em relacao a media aritmetica e zero:
Xn
(xi x) = 0
i=1

A soma algebrica dos quadrados dos desvios de um conjunto de valores em relacao a media aritmetica
e mnima: Xn
2
D= (xi x)
i=1

5.2.1.2.6 Vantagens do emprego da media


Como se faz uso de todos os dados para o seu calculo e determinada com precisao matematica;
E determinada quando somente o valor total e o numero de elementos forem conhecidos.

36 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.2.1.2.7 Desvantagens do emprego da media


Nao pode ser empregada para dados qualitativos;
E influenciada por valores extremos, podendo, em alguns casos, nao representar a serie;
Em distribuicoes de frequencias em que o limite inferior da primeira classe e/ou o limite superior
da ultima classe nao forem definidos, a media nao podera ser calculada.
5.2.1.3 Moda
A moda representa o valor que ocorre com maior frequencia em um conjunto de valores. O
conjunto de dados ou a distribuicao de frequencias que nao apresenta moda, e denominado amodal, se
apresenta uma unica moda e chamado de unimodal; quando apresenta duas modas, bimodal e mais de
duas modas, multimodal.

5.2.1.3.1 Exemplo
Calcule a moda dos seguintes conjuntos de dados:
a) 1; 2; 3
mo = @ (nao tem moda)
b) 1; 1; 2; 3
mo = 1
c) 1, 1, 2, 2, 3
mo = 1 e mo = 2
d) 1, 1, 2, 2, 3, 3
mo = @ (nao tem moda)

5.2.1.4 Moda para dados agrupados


Quando os dados estao agrupados em distribuicoes de frequencias em que as classes nao sao
formadas por intervalos, nao existe uma formula matematica para o calculo da moda, necessita somente
identificar o elemento que apresenta o maior numero de ocorrencias e esse elemento sera o valor modal.
Ja para dados agrupados em distribuicao de frequencias cujas classes sao formadas por intervalos, a moda
sera o ponto medio da classe que apresenta o maior numero de ocorrencias.

5.2.1.4.1 Exemplo
Na Tabela 12, pagina 22, a moda e Bom e na Tabela 13, pagina 23, a moda e 1 filho.

5.2.1.4.2 Exemplo
Para o caso dos valores tabulados a seguir, deve-se encontrar os pontos medios, observar qual
e a classe com maior frequencia e o ponto medio desta classe representa a moda.

Tabela 23 Valores de glicemia (mg/dL) de 10 alunos da UNIFAL-MG


selecionados, Alfenas, 2014/1
Valores de glicemia Ponto medio Numero de alunos
55 ` 65 60 2
65 ` 75 70 2
75 ` 85 80 6
Total 10

Logo a moda sera 80 mg/dL.

5.2.1.4.3 Vantagens do emprego da moda


E de uso pratico. Exemplificando: os empregados geralmente adotam a referencia modal de salario,
ou seja, o salario recebido por muitos outros empregados. Tambem, carros e roupas sao produzidos
tomando como referencia o tamanho modal;
A moda geralmente e um valor verdadeiro e, por conseguinte, pode mostrar-se mais real e coerente.
5.2.1.4.4 Desvantagens do emprego da moda
Nao inclui todos os valores de uma distribuicao;
Mostra-se ineficiente quando a distribuicao e largamente dispersa.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 37


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.2.1.5 Mediana
Sejam x1 x2 . . . xn os n valores ordenados de uma variavel qualquer. A mediana
e o valor que centra a distribuicao do conjunto de valores, ou seja, que divide este conjunto de valores
ordenados em duas partes de quantidades iguais.
Apos ordenados os dados, para encontrar a mediana, primeiro determina a sua posicao, depois
busca-se o valor correspondente. Entretanto, para o calculo da mediana e necessario notar se o numero
de dados e mpar ou par. Quando o numero de dados e mpar, a mediana esta no centro dos valores,
quando o numero de dados e par, a mediana e representada pela media aritmetica dos valores centrais,
isto e:
Numero mpar de dados : x( n+1 )

2

md = x n + x( n +1)
Numero par de dados : ( 2 )

2

2
Em que:
x( n+1 ) : e o elemento (valor) que ocupa a n+12 -esima posicao no conjunto ordenado dos dados;
2
n
x( n ) : e o elemento (valor) que ocupa a 2 -esima posicao no conjunto ordenado dos dados;
2

x( n +1) : e o elemento (valor) que ocupa a n2 + 1 -esima posicao no conjunto ordenado dos dados.

2

5.2.1.5.1 Exemplo
Calcule a mediana dos seguintes conjuntos de dados:
a) 39; 52; 40; 45; 46; 55; 48; 40; 43; 47; 44
Resolucao:
1o ) Ordene crescentemente os dados: 39; 40; 40; 43; 44; 45; 46; 47; 48; 52; 55
2o ) Como ha numero mpar de dados, n = 11, a mediana corresponde ao valor:
x( n+1 ) = x( 11+1 ) = x(6)
2 2

O numero correspondente a x6 e o 45. Logo a md = 45.


Ou apenas observando o valor central apos os dados estarem ordenados: 39; 40; 40; 43; 44; 45; 46; 47;
48; 52; 55, como 45 e o valor central, logo, md = 45.
b) 2,4; 1,4; 2,4; 1,8; 1,9; 1,4; 1,8; 2,4; 2,2; 2,4; 1,8; 1,8; 2,4; 2,0
Resolucao:
1o ) Ordene os dados: 1,4; 1,4; 1,8; 1,8; 1,8; 1,8; 1,9; 2,0; 2,2; 2,4; 2,4; 2,4; 2,4; 2,4
2o ) Como ha numero par de dados, n = 14, a mediana corresponde ao valor da media entre os valores
centrais: x( n ) + x( n +1) x( 14 ) + x( 14 +1) x(7) + x(8) 1,9 + 2,0
2 2 2 2
= = = = 1,95
2 2 2 2
Logo a md = 1,95.
Ou apenas observando que ha dois valores centrais no conjunto de dados: 1,4; 1,4; 1,8; 1,8; 1,8; 1,8; 1,9;
2,0; 2,2; 2,4; 2,4; 2,4; 2,4; 2,4, e a mediana sera a media aritmetica dos dois, isto e: md = 1,95.

5.2.1.6 Mediana para dados agrupados


Para localizar a classe mediana de dados agrupados em tabelas, siga os passos:
P
Faca o calculo: (md) =
n 50
100
P
, em que: (md) e a posicao que se encontra a mediana e n e o
numero de dados, independe de n ser par ou mpar;

Encontre as frequencias acumuladas de cada classe, f ac. A f ac e calculada em cada classe acumulando-
se as frequencias anteriores ate chegar a ultima classe;

P P
Compara-se o valor de (md) com o valor de f ac ate f ac (med), quando isto acontecer, esta
sera a classe que contem a mediana, se a classe for um intervalo, a mediana sera o ponto medio.

5.2.1.6.1 Exemplo
Na Tabela 13, pagina 13, a mediana e igual a 2 filhos, pois:
P (md) =
n 50
100
=
50 50
100
= 25;

38 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Tabela 24 Numero de filhos de 50 casais entrevistados


numa fila de um PSF, Cidade Gama, abril-maio de 2010
Numero Numero Comparacao
de Filhos de Casais
f ac
P
entre f ac e (md)
0 6 6 6 25? Nao!
1 16 22 22 25? Nao!
2 9 31 31 25? Sim!
3 8 39
4 3 42
5 3 45
6 3 48
7 2 50

Entao a mediana esta na 3a classe e e igual a 2 filhos.

5.2.1.6.2 Exemplo
Para os dados de glicemia apresentados abaixo, a mediana sera igual a 80 mg/dL, pois:
P (md) =
n 50
100
=
10 50
100
= 5;

Tabela 25 Valores de glicemia (mg/dL) de 10 alunos da UNIFAL-MG


selecionados, Alfenas, 2014/1
Valores de Ponto medio Numero de Comparacao
glicemia das classes alunos
f ac
P
entre f ac e (md)
55 ` 65 60 2 2 2 5? Nao!
65 ` 75 70 2 4 4 5? Nao!
75 ` 85 80 6 10 10 5? Sim!
Portanto, a mediana esta na 3a classe e e igual a 80 mg/dL.

5.2.1.6.3 Vantagens do emprego da mediana


Nao depende de todos os valores do conjunto de dados, podendo mesmo nao se alterar com a
modificacao;
Nao e influenciada por valores extremos do conjunto de dados;
E utilizada nos casos de distribuicoes assimetricas.

5.2.1.6.4 Desvantagens do emprego da mediana


Quando ha valores repetidos, a interpretacao do valor mediano nao e tao simples.
Inadequacidade da sua expressao para o manejo matematico.

5.2.1.7 Propriedades da media, moda e mediana


Sejam X e Y duas variaveis e k uma constante qualquer.
Se X = Y k, entao:

x = y k mo(x) = mo(y) k md(x) = md(y) k

Se X = Y k, entao:

x = y k mo(x) = mo(y) k md(x) = md(y) k

5.2.1.8 Relacao entre media, moda e mediana


A melhor medida de tendencia central de um conjunto de dados depende frequentemente do
modo pelo qual os valores estao distribudos.
Se sao simetricos e unimodais: a media, a mediana e a moda deveriam ser aproximadamente
as mesmas (Figura 16a).
Se sao simetricos e bimodais: a media e a mediana seriam, mais uma vez, aproximadamente
as mesmas. Nesse caso a media e a mediana estariam entre os dois picos e seria, portanto, uma medida

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 39


Estatstica Basica 5 ESTATISTICA DESCRITIVA

menos provavel de ocorrer. Indica que os seus dados possuem dois subgrupos distintos que diferem na
caracterstica medida; nessa situacao seria melhor adotar as duas modas ou tratar os dois subgrupos
separadamente. Exemplo: Figura 15e.
Se nao sao simetricos: a mediana, frequentemente, e a melhor medida de tendencia central
(Figuras 16b e 16c).

a b c

Figura 16 Relacao entre media, mediana e moda

5.2.2 Exerccios
1. O desvio em relacao a media e dado pela diferenca da observacao i e a media aritmetica das observacoes.
E calculado por: di = xi x. Ele indica o quanto o valor esta afastado da media dos dados.
Considere o peso em kg de 6 pessoas obesas: 184; 193; 204; 204; 196; 207.
a) Calcule a media.
b) Qual foi o desvio da 2a pessoa em relacao a media?
Pn
c) Mostre que a soma dos desvios em relacao a media e nula, ou seja, (xi x) = 0.
i=1
d) Transforme os dados em libras (1 kg = 2,2 lb). Encontre a media em libras, qual e a relacao com a
media do item a?
e) Adicione 20 kg a cada dado e encontre a media. Qual e a relacao com a media do item a?
2. Por engano, um professor omitiu uma nota no conjunto de cinco notas de um aluno. Se as quatro
notas restantes sao 48, 71, 79, 95 e a media das 5 notas e 72, qual o valor da nota omitida?
3. Determine a moda dos seguintes conjuntos de dados:
a) 5 5 5 3 1 5 1 4 3 5
b) 1 2 2 2 3 4 5 6 6 6 7 9
c) 1 2 3 6 7 8 9 10
d) 5 5 6 6 9 9 10 10
4. Calcule a mediana dos dados ja ordenados:
8,13 8,80 9,12 9,78 9,90 10,11 10,16 10,33 10,50 11,46
8,23 8,97 9,30 9,80 9,95 10,13 10,23 10,40 11,14 12,05
8,60 9,05 9,35 9,86 10,00 10,15 10,31 10,46 11,29 12,14
5. Considere os dados abaixo:
No de filhos 0 1 2 3 4 5 6
No de casais 4 4 2 0 5 3 5
Calcule a media, a moda e a mediana.
6. Um professor mediu o tempo (em minutos) gasto
pelos estudantes de sua disciplina para conclurem
um trabalho no laboratorio. Com os dados obtidos
construiu-se o histograma ao lado:
a) Calcule a media, a moda e a mediana do tempo
gasto no laboratorio?
b) Represente no grafico as medidas: media, moda
e mediana.
7. Considere os conjuntos de dados a seguir. Calcule as medidas de tendencia central e indique justificando
qual e a mais apropriada.
a) 1; 23; 25; 26; 27; 23; 29; 30
b) 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 2; 3; 3; 4; 50
c) 1; 1; 2; 3; 4; 1; 2; 6; 5; 8; 3; 4; 5; 6; 7
d) 1; 101; 104; 106; 111; 108; 109; 200
8. A Figura 17 representa o polgono de frequencias das frequencias relativas dos nveis sericos de
colesterol para dois grupos de homens de: 25-34 anos e 55-64 anos. Observe e responda:

40 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Figura 17 Nveis de colesterol de homens dos EUA, divididos em dois grupos de 2 294 homens, 1976-1980

a) Qual dos grupos apresenta maior media, moda e mediana? Justifique.


b) Qual e o valor aproximado destas medidas do grupo selecionado?
c) Qual e a variavel estudada e a sua classificacao?

5.2.3 Medidas Separatrizes


Ao calcular a mediana viu-se que e possvel determinar um ponto na escala de medida abaixo do
qual esta localizada a metade (ou 50%) ou acima do qual esta localizada a outra metade das observacoes.
Outras medidas, assim como a mediana, que dividem o conjunto de observacoes em partes iguais sao
denominadas de medidas separatrizes: quartil, decil e percentil. O quartil divide o conjunto de observacoes
em quatro partes iguais; o decil em dez partes e o percentil em cem partes iguais. Uma relacao entre
estas quatro medidas separatrizes pode ser visualizada na Figura 18.

Figura 18 Equivalencia das medidas separatrizes


O quartil e cada um dos tres valores (Q1 , Q2 e Q3 ) que dividem o conjunto de observacoes em
quatro partes iguais. O primeiro quartil corresponde ao 25o percentil, o segundo a mediana (ou ao 50o
percentil) e o terceiro ao 75o percentil.
O decil e cada um dos 9 pontos (D1 , D2 , . . ., D9 ) que dividem o conjunto de observacoes em
10 partes iguais. O quinto decil, por exemplo, corresponde a mediana e ao 50o percentil.
O percentil corresponde a cada um dos 99 pontos (P1 , P2 , . . ., P99 ) que dividem o conjunto de
observacoes em 100 partes iguais.

5.2.3.1 Calculo das medidas separatrizes


Existem muitas formas para calcular o percentil, a que sera adotada neste material foi a apre-
sentada por ??). Para o autor todas as medidas separatrizes devem ser transformadas em percentil, como
D1 = P10 , D5 = md = P50 , e assim semelhantemente para as demais medidas, e aplica-se a formula para
encontrar a posicao do percentil. Os passos para o calculo sao:
Ordene os dados crescentemente.
Transforme a medida de posicao em percentil, por exemplo, a mediana equivale ao P50 , o 3o decil
e igual ao 30o percentil, D3 = P30 .
Determine a posicao em que se localiza o percentil usando:

P(Pr ) = n100 r
P
em que: (Pr ) e a posicao do r-esimo percentil de interesse, n o numero de dados e r e o percentil
em numero decimal. Porem:
P
Se (Pr ) =
nr
100
e um inteiro, o r-esimo percentil dos dados e a media dos valores que ocupam
nr nr
a -esima e ( + 1)-esima posicoes;
100 100
P
Se (Pr ) =
nr
100
nao for inteiro, o r-esimo percentil sera o valor que ocupa a (j + 1)-esima
nr
posicao, no qual j e o maior inteiro menor que o quociente .
100

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 41


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.2.3.1.1 Exemplo
Considere os n = 13 dados a seguir, calcule a mediana, o 1o e o 3o quartis:
3,38; 2,25; 2,30; 2,60; 2,68; 4,05; 2,15; 2,75; 2,85; 3,00; 3,50; 4,02; 2,82
Resolucao:
Os dados ordenados sao:
2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02; 4,05
A mediana corresponde ao 50o percentil, isto e med = P50 , assim, a posicao em que se localiza a mediana
e:
P
(Pr ) =
nr
100
P
= (P50 ) =
13 50
100
= 6,5

Como o resultado nao e inteiro, a mediana e o valor que se localiza na posicao (6 + 1) = 7, isto e
med = 2,82. Conclui-se que 7 das observacoes sao menores ou iguais a 2,82 e 7 sao maiores ou iguais a
2,82.
O 1o quartil corresponde ao 25o percentil, isto e Q1 = P25 , a posicao em que se localiza e:

P(Pr ) = n100 r = P(P25) = 13100


25
= 3,25

Como o resultado nao e inteiro, o 1o quartil sera o valor que esta na posicao (3 + 1) = 4, sendo Q1 = 2,60.
Portanto, ha 25% dos valores menores ou iguais a Q1 e 75% dos valores sao maiores ou iguais a Q1 .
O 3o quartil corresponde ao 75o percentil, isto e Q3 = P75 , a posicao em que se localiza e:

P(Pr ) = n100 r = P(P75) = 13100


75
= 9,75

O resultado da operacao nao e inteiro, assim, o 3o quartil sera o valor que ocupa a posicao (9 + 1) = 10,
sendo Q3 = 3,38. Desta forma, pode-se dizer que ha 75% dos valores menores ou iguais a Q3 e 25% dos
valores sao maiores ou iguais a Q3 .
No conjunto de dados os valores em destaque representam as medidas calculadas anteriormente:
2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02; 4,05

5.2.3.1.2 Exemplo
Considerando os n = 12 dados abaixo, calcule a mediana, o 1o e 3o quartis:
3,50; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 2,15; 4,02
Resolucao:
Os dados ordenados sao:
2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02
A mediana corresponde ao 50o percentil, isto e med = P50 , assim, a posicao em que se localiza a mediana
e:
P
(Pr ) =
nr
100
P
= (P50 ) =
12 50
100
=6

O resultado e um numero inteiro, portanto a mediana sera a media aritmetica dos valores que ocupam
nr 12 50 12 50
as posicoes = =6e( + 1) = 6 + 1 = 7, sendo os numeros 2,75 e 2,82, logo a mediana
100 100 100
2,75 + 2,82
e med = = 2,785.
2
O 1 quartil corresponde ao 25o percentil, isto e Q1 = P25 , a posicao em que se localiza e:
o

P(Pr ) = n100 r = P(P25) = 12100


25
=3

O resultado e um numero inteiro, portanto o 1o quartil sera a media aritmetica dos valores que ocupam
nr 12 25 12 25
as posicoes = =3e( + 1) = 3 + 1 = 4, sendo os numeros 2,30 e 2,60, logo o 1o quartil
100 100 100
2,30 + 2,60
e Q1 = = 2,45.
2
O 3o quartil corresponde ao 75o percentil, isto e Q3 = P75 , a posicao em que se localiza e:

P(Pr ) = n100 r = P(P75) = 12100


75
=9

42 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Como o resultado e um numero inteiro, o 3o quartil sera a media dos valores que ocupam as posicoes
12 75 12 75 3,00 + 3,38
=9e + 1 = 10, sendo os numeros 3,00 e 3,38, sendo Q3 = = 3,19.
100 o
10o o
2
Os 1 , 2 e 3 quartis dos dados estao entre os valores destacados:

2,15; 2,25; 2,30; | 2,60; 2,68; 2,75; | 2,82; 2,85; 3,00; | 3,38; 3,50; 4,02

5.2.4 Exerccios
1. Para os dados abaixo, encontre a mediana, o 1o quartil, o 3o quartil, o 10o percentil e o 95o percentil
a) 5 5 5 3 1 5 1 4 3 5
b) 1 2 2 2 3 4 5 6 6 6 7 8 9
c) 1 2 3 6 7 8 9 10 5 5 6 6 9 9 10
d) 8,13 8,23 8,60 8,80 8,97 9,05 9,12 9,30 9,35 9,78 9,80 9,86 9,90 9,95 10,00 10,11 10,13
10,15 10,16 10,23 10,31 10,33 10,40 10,46 10,50 11,14 11,29 11,46 12,05 12,14

2. O Ministerio da Saude (http://


tabnet.datasus.gov.br/cgi/SISVAN/CNV/
notas_sisvan.html) propoe que no Cartao da Cri-
anca conste um grafico, como o da Figura 19, com
quatro linhas, assim nominadas de cima para baixo:
a primeira linha superior representa os valores do
percentil 97, a linha amarela representa o percen-
til 10, a terceira linha representa o percentil 3 e a
linha inferior corresponde ao percentil 0,1. Para o
indicador de Peso por Idade (P/I) a classificacao Figura 19 Curva de crescimento de meninas
do estado nutricional infantil e: a) (Residencia medica, 2015 - PUC-RS, modificada)
+ P/I abaixo do percentil 0,1: crianca com peso Registre no grafico anexo as situacoes:
muito baixo para a idade. i) Crianca A: 4 meses; peso atual 7 kg; peso ao nas-
+ P/I maior ou igual ao percentil 0,1 e menor que cer 2,8 kg.
o percentil 3: crianca com peso baixo para a idade. ii) Crianca B: 6 meses; peso atual 4,8 kg; peso ao
+ P/I maior ou igual ao percentil 3 e menor que o nascer 2,5 kg.
percentil 10: crianca em risco nutricional. iii) Crianca C: 12 meses; peso atual 7,7 kg; peso ao
+ P/I maior ou igual ao percentil 10 e menor que nascer 3 kg.
o percentil 97: crianca com peso adequado para a b) Qual afirmacao se podera fazer sobre o P/I atual
idade (eutrofica). da Crianca B?
+ P/I maior ou igual ao percentil 97: crianca com c) Como se interpreta estatisticamente o peso de
risco de sobrepeso. uma crianca cujo valor se situa no percentil 97?

2. (ENEM-2016-modificada) A fim de acompanhar o crescimento de criancas, foram criadas pela Or-


ganizacao Mundial da Saude (OMS) tabelas de altura, tambem adotadas pelo Ministerio da Saude do
Brasil. Alem de informar os dados referentes ao ndice de crescimento, a tabela traz graficos com curvas,
apresentando padroes de crescimento estipulados pela OMS. A Figura 20 apresenta o crescimento de
meninas, cuja analise se da pelo ponto de interseccao entre o comprimento, em centmetros, e a idade,
em mes completo e ano, da crianca. As linhas p3, p15, p50, p85, p97 representam os percentis 3, 15, 50,
85 e 97, respectivamente.

Figura 20 Grafico da curva de crescimento de meninas


Fonte: Caderno de questoes do ENEM/2016

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 43


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Uma menina aos 3 anos de idade tinha altura de 85 centmetros e aos 4 anos e 4 meses sua altura chegou
a um valor que corresponde a um ponto exatamente sobre a curva p50.
a) Qual percentil ela se encontrava aos 3 anos?
b) E aos 4 anos e 4 meses qual altura tinha a crianca?
c) Qual foi o aumento percentual da altura dessa menina, descrito com uma casa decimal, no perodo
considerado?

5.2.5 Medidas de Variabilidade ou de Dispersao


As medidas de posicao e as medidas separatrizes fornecem informacoes valiosas sobre os dados,
porem, em geral, nao sao suficientes para discriminar diferentes conjuntos de dados. Por exemplo, um
conjunto de dados em que ha os valores 0, 1, 1, 1 e 2 e outro conjunto formado pelos valores 1, 1, 1, 1
e 1; nestes dois conjuntos os valores da media, da moda, da mediana, do 1o quartil e 3o quartil sao os
mesmos; entretanto os valores dos dois conjuntos nao sao os mesmos. Essas diferencas entre os valores
de cada conjunto de dados definem a variabilidade ou dispersao deles.
A variabilidade de um conjunto de dados pode ser medida pelas estatsticas: amplitude total,
distancia interquartlica, variancia, desvio padrao e coeficiente de variacao.

5.2.5.1 Amplitude total


A amplitude total, A, de um conjunto de valores e a diferenca entre o maior e o menor valor
da variavel:
A = maior valor menor valor
Como depende apenas dos valores extremos seu uso se torna muito limitado, e muito empregada
em controle estatstico da qualidade.

5.2.5.1.1 Exemplo
Sejam os dois conjuntos de dados: X = {0, 1, 1, 1, 2} e Y = {1, 1, 1, 1, 1}. Calcule as amplitudes
total dos dois conjuntos.
Resolucao:
A amplitude e calculada por: A = maior valor menor valor.
A amplitude do conjunto X e:
A=20=2
A amplitude do conjunto Y e:
A=11=0

5.2.5.2 Intervalo interquartil


E uma medida que nao e influenciada por valores extremos. E a diferenca entre o terceiro e o
primeiro quartil de um conjunto de dados:

IQR = Q3 Q1

Em que:
IQR: e o intervalo interquartil;
Q3 : e o 3o quartil;
Q1 : e o 1o quartil.
Na maioria das situacoes o IQR e apresentado em um grafico denominado diagrama de caixa e
bigodes (Box and Whisker Plot) ou, simplesmente Boxplot. Alem do IQR outras cinco estatsticas compoe
o grafico: mnimo (menor valor), quartil inferior (1o quartil), mediana, quartil superior (3o quartil),
maximo (maior valor). A funcao deste grafico e permitir visualizar informacoes sobre a distribuicao dos
dados como: posicao, dispersao, assimetria, caudas e valores discrepantes (outliers).
A posicao central dos valores e dada pela mediana e a dispersao pela amplitude interquartlica.
As posicoes relativas da mediana e dos quartis e o formato dos bigodes dao uma nocao da simetria e do
tamanho das caudas da distribuicao. Ha dois bigodes e eles correspondem a maior observacao menor
que Q3 + 1,5 IQR e a menor observacao maior que Q1 1,5 IQR. Dependendo da dispersao dos dados,
neste grafico, podem aparecer observacoes (valores discrepantes) que estao acima de Q3 + 1,5 IQR ou
abaixo Q1 1,5 IQR, denominadas de pontos extremos (outliers).
Um Boxplot com as descricoes e as localizacoes de cada item que o compoe e apresentado na
Figura 22. Na pratica pode-se encontrar variacoes por causa da natureza dos dados.

44 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

uma escala adequada (de acordo com os dados) e


de facil leitura;
* Formar um retangulo em que a base inferior seja
o valor de Q1 e a base superior, Q3 ;
* Representar a mediana por uma linha paralela a
base do retangulo;
* Calcular o valor de:
Limite inferior: Q1 1,5(Q3 Q1 );
Limite superior: Q3 + 1,5(Q3 Q1 );
Estes limites (cercas) nao sao representados no gra-
fico, apenas servem de orientacao (linha imagina-
ria) para inserir a localizacao das hastes (bigodes)
do Boxplot e dos valores extremos;
* Representar a menor observacao que seja maior
do que o valor obtido em Q1 1,5(Q3 Q1 ) por
uma linha paralela a base do retangulo. Esta linha
representa a haste (bigode) inferior do grafico;
* Representar a maior observacao que seja menor
do que o valor obtido em Q3 + 1,5(Q3 Q1 ) por
uma linha paralela a base do retangulo. Esta linha
representa a haste (bigode) superior do grafico;
Figura 21 Boxplot: modelo e nomes das partes * Registrar com pontos ou pequenos crculos os va-
lores que sao menores que Q1 1,5(Q3 Q1 ) e/ou
Para confeccionar o Boxplot, deve-se: maiores que Q3 + 1,5(Q3 Q1 ). Estes sao os valores
* Ordenar os dados em ordem crescente; extremos (outliers);
* Calcular: mediana, primeiro e terceiro quartis; * Registrar no grafico o ttulo e a identificacao dos
* Tracar um eixo vertical (ou horizontal) usando eixos.

Quando a distribuicao dos dados e sime-


trica, a linha que representa a mediana localiza-se
no centro ou bem proxima do centro do retangulo e
os bigodes distam semelhantemente das extremida-
des do retangulo. Quando a distribuicao dos dados
e assimetrica a direita, a linha que representa a me-
diana estara mais proxima de Q1 do que de Q3 .
E quando a distribuicao dos dados e assimetrica a Figura 22 Boxplot: simetrias
esquerda, a linha que representa a mediana estara
mais proxima de Q3 do que de Q1 .
O boxplot tambem pode ser confeccionado na posicao horizontal, sendo util para a comparacao
de dois ou mais conjuntos de dados. Na analise de dados e uma ferramenta exploratoria e substitui o
histograma quando se trabalha com um conjunto pequeno de dados.

5.2.5.2.1 Exemplo
Duas amostras A e B foram obtidas de uma populacao cuja variavel de interesse e: numero de
filhos por casal. A amostra A forneceu os seguintes valores: 0, 0, 1, 1, 2, 3, 3, 3, 4, 7, 9. A amostra B:
0, 0, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 7, 9. Algumas estatsticas das duas amostras foram obtidas e o Boxplot e
apresentado na Figura 23 :
Estatsticas Amostra A Amostra B
Tamanho da amostra n 11 casais 14 casais
Media x 3 filhos 3 filhos
Mediana md 3 filhos 3 filhos
Moda mo 3 filhos 3 filhos
Mnimo min 0 filho 0 filho
Maximo max 9 filhos 9 filhos
Amplitude Total A 9 filhos 9 filhos
Primeiro Quartil Q1 1 filho 2 filhos
Terceiro Quartil Q3 4 filhos 3 filhos
Intervalo Interquartlico IQR 3 filhos 1 filho

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 45


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Figura 23 Boxplot: Numero de filhos por casal: Amostra A e Amostra B

Embora as medidas de tendencia central das duas amostras sejam iguais e a amplitude tambem,
pode-se visualizar que os dados obtidos nas duas amostras apresentam dispersao, assimetria, caudas e
valores discrepantes diferentes.

5.2.5.3 Variancia amostral


E uma medida que expressa o desvio quadratico medio do conjunto de dados amostrais, e o
resultado e o quadrado da unidade de medida dos dados:
n
P 2
(xi x)
i=1
s2 =
n1
Mede a variabilidade absoluta de um conjunto de observacoes. A variancia compara a variabi-
lidade entre conjuntos numericos, que possuam a mesma media e a mesma unidade de medida.
A proxima versao e mais facil de se trabalhar, portanto e a mais usada:
 n 2
P
n xi
1 X
s2 = x2i i=1

n 1 i=1 n

Muitas calculadoras tem funcoes prontas para o calculo de variancias, e por isso e raro ter que
realizar todos os calculos manualmente.

5.2.5.3.1 Exemplo
O nvel de colesterol (HDL em mg/dL) de cinco alunos foram: 36, 42, 30, 30, 39. Calcule a
variancia do nvel de colesterol destes alunos.
Resolucao:  n 2
P
n xi
1 X
s2 = x2i i=1

n 1 i=1 n

Resolvendo cada termo separadamente, tem-se:


n=5
Xn 5
X
2
xi = x2i = x21 + x22 + x23 + x24 + x25 = 362 + 422 + 302 + 302 + 392
i=1 i=1
n
X 5
X
x2i = x2i = 1.296 + 1.764 + 900 + 900 + 1.521 = 6.381
i=1 i=1
n
X 5
X
xi = xi = 36 + 42 + 30 + 30 + 39 = 177
i=1 i=1

46 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Inserindo estes resultados na formula, obtem-se:


" #
2  
2 1 (177) 1 31.329 1
s = 6.381 = 6.381 = [115,2] = 28,8
51 5 4 5 4

A variancia dos nveis de colesterol dos alunos e igual a s2 = 28,8 (mg/dL)2 .

5.2.5.4 Variancia amostral para dados agrupados


Ha situacoes em que os dados poderao apresentar graus de importancia diferentes, ou estao
agrupados em uma tabela de distribuicao de frequencias. Em ambas as situacoes os graus de importancia
diferentes e/ou frequencias diferentes sao considerados na hora de calcular a variancia.
A formula para o calculo da variancia apresenta os pesos (ou frequencias) dos dados:

k
!2
X

k
fi xi
2 1X
i=1

s = k fi x2i

k


i=1
X X
fi 1 fi
i=1 i=1

Em que:
Xk
fi = n
i=1
fi : e o peso ou a frequencia da classe i = 1, 2, , k;
xi : e o valor do dado i.

5.2.5.4.1 Exemplo
Considere 5 provas aplicadas as quais possuem os seguintes pesos, respectivamente: 1, 2, 3, 4
e 5. Um determinado aluno conseguiu as seguintes notas ordenadas: 40, 50, 80, 90 e 20. A variancia da
nota do aluno e calculada por:

k
!2
X
k fi xi
2 1 X
2 i=1

s = k fi xi

k


i=1
X X
f 1
i f
i
i=1 i=1

Resolvendo cada termo separadamente, tem-se:


Xk X5
fi = fi = f1 + f2 + f3 + f4 + f5 = 1 + 2 + 3 + 4 + 5 = 15
i=1 i=1
k
X 5
X
fi x2i = fi x2i = f1 x21 + f2 x22 + f3 x23 + f4 x24 + f5 x25 = 1 402 + 2 502 + 3 802 + 4 902 + 5 202 = 60.200
i=1 i=1
k
X 5
X
fi xi = fi xi = 1 40 + 2 50 + 3 80 + 4 90 + 5 20 = 840
i=1 i=1
Inserindo estes resultados na formula, obtem-se:
" #
2  
2 1 (840) 1 705.600 1
s = 60.200 = 60.200 = [13.160] = 940
14 15 14 15 14

Logo, a variancia das notas do aluno e igual a s2 = 940 pontos2 .

5.2.5.4.2 Exemplo
Considere os dados apresentados na Tabela 13, pagina 23, qual e a variancia dos dados?
Resolucao:
Considerando x1 = 0, x2 = 1, x3 = 2, x4 = 3, x5 = 4, x6 = 5, x7 = 6, x8 = 7 e suas respectivas
frequencias: f1 = 6, f2 = 16, f3 = 9, f4 = 8, f5 = 3, f6 = 3, f7 = 3, f8 = 2, a variancia e:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 47


Estatstica Basica 5 ESTATISTICA DESCRITIVA

Resolvendo cada termo separadamente, tem-se:


Xk X8
fi = fi = f1 + f2 + f3 + f4 + f5 + f6 + f7 + f8 = 6 + 16 + 9 + 8 + 3 + 3 + 3 + 2 = 50
i=1 i=1
k
X 8
X
fi x2i = fi x2i = f1 x21 + f2 x22 + f3 x23 + f4 x24 + f5 x25 + f6 x26 + f7 x27 + f8 x28
i=1 i=1
k
X 8
X
fi x2i = fi x2i = 6 02 + 16 12 + 9 22 + 8 32 + 3 42 + 3 52 + 3 62 + 2 72 = 453
i=1 i=1
k
X 8
X
fi xi = fi xi = f1 x1 + f2 x2 + f3 x3 + f4 x4 + f5 x5 + f6 x6 + f7 x7 + f8 x8
i=1 i=1
Xk X8
fi xi = fi xi = 6 0 + 16 1 + 9 2 + 8 3 + 3 4 + 3 5 + 3 6 + 2 7 = 117
i=1 i=1
Inserindo estes resultados na formula, obtem-se:
" #
2  
2 1 (117) 1 13.689 1
s = 453 = 453 = [179,22] = 3,6576
49 50 49 50 49

Logo, a variancia dos dados dos casais e igual a s2 = 3,6576 filhos2 .

5.2.5.4.3 Exemplo
Quando for necessario calcular a variancia para dados agrupados em um tabela de distribuicao
de frequencias em que as classes sao formadas por intervalos, e necessario que encontrar todos os pontos
medios, Xi s, das classes (veja a pagina 24) para representar os valores contidos em cada intervalo de cada
classe. Estes pontos medios funcionam como os valores que a variavel assume (hipotese tabular basica) e
as frequencias representam os pesos.
Considere os dados a seguir:

Tabela 26 Valores de glicemia (mg/dL) de 10 alunos da UNIFAL-MG


selecionados, Alfenas, 2014/1
Valores de glicemia Numero de alunos
55 ` 65 2
65 ` 75 2
75 ` 85 6
Total 10

Para calcular a variancia dos valores de glicemia e necessario encontrar os pontos medios das
LIi + LSi
classes, Xi = :
2
LI1 + LS1 55 + 65 LI2 + LS2 65 + 75 LI3 + LS3 75 + 85
X1 = = = 60; X2 = = = 70; X3 = = = 80
2 2 2 2 2 2
k
X k
X k
X
Realizar outros calculos como: fi ; fi Xi2 e fi Xi , oportunamente includos na tabela
i=1 i=1 i=1
a seguir:

Tabela 27 Valores de glicemia (mg/dL) de 10 alunos da UNIFAL-MG


selecionados, Alfenas, 2014/1
Valores de Ponto medio Numero de
Xi2 fi Xi2 fi Xi
glicemia das classes (Xi ) alunos (fi )
55 ` 65 60 2 3.600 7.200 120
65 ` 75 70 2 4.900 9.800 140
75 ` 85 80 6 6.400 38.400 480
Total 10 55.400 740

Substituindo os valores acima na formula a seguir:

48 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 5 ESTATISTICA DESCRITIVA


k
!2
X
k fi Xi
1 X
i=1

s2 = k fi Xi2

k


i=1
X X
fi 1 fi
i=1 i=1
Em que:
Xk
fi = n
i=1
fi : e o peso ou a frequencia da classe i = 1, 2, , k;
Xi : e o ponto medio da classe i, equivale a xi .

7402
   
1 1 547.600 1
s2 = 55.400 = 55.400 = [640] = 71,1111
10 1 10 9 10 9
A variancia e igual a s2 = 71,1111 (mg/dL)2 .

5.2.5.5 Desvio padrao amostral


Como medida de dispersao, a variancia tem a desvantagem de apresentar o resultado igual ao
quadrado da unidade de medida dos dados. Se os dados estao em metros (m), a variancia e dada em
metros ao quadrado (m2 ); se os dados estao em quilogramas (kg), a variancia resulta em quilogramas ao
quadrado (kg2 ).
O desvio padrao, definido como a raiz quadrada positiva da variancia, apresenta uma vantagem
em relacao a variancia porque o seu resultado esta na mesma unidade de medida dos dados. Assim, se a
unidade de medida dos dados forem em metros, o desvio padrao tambem estara em metros. Para calcular
o desvio padrao e necessario calcular a variancia e, posteriormente,
obter a sua raiz quadrada:
s= s 2

5.2.5.5.1 Exemplo
Dadas as variancias a seguir, calcule o desvio padrao:
a) s2 = 28,8 (mg/dL)2 Resolucao:

b) s2 = 940 pontos2 a) s = s2 = 28,8 = 5,3666 mg/dL
c) s2 = 3,6576 filhos2 b) s = s2 = 940 = 30,6594 pontos

d) s2 = 75,1111 (mg/dL)2 c) s = s2 = 3,6576 = 1,9125 filho

d) s = s2 = 71,1111 = 8,4327 mg/dL

5.2.5.6 Coeficiente de variacao amostral


Existem situacoes em que o interesse pode ser em um valor que indique o quao grande e o desvio
em relacao a media. Esta medida e chamada de coeficiente de variacao:
s
cv = 100%
x
E expressa em porcentagem (isto e, adimensional). Assim, a quantidade cv independe das
unidades em que foram medidas os dados. Ele representa o desvio padrao que seria obtido se a media
fosse igual a 100. A vantagem do coeficiente de variacao e que se pode comparar a variabilidade dos
dados de diferentes variaveis e quando as medias ou as unidades de medidas sao diferentes.
Na pratica, considera-se uma distribuicao com baixa dispersao quando o coeficiente de variacao
for menor ou igual a 10%; media dispersao quando o coeficiente de variacao for maior que 10% e menor
o igual a 20% e alta dispersao quando for superior a 20%.

5.2.5.6.1 Exemplo
Calcule o coeficiente de variacao, dados:
a) x = 35,4 mg/dL e s2 = 28,8 (mg/dL)2 Resolucao:
b) x = 35,4 pontos e s2 = 940 pontos2 s 5,3666
a) cv = 100% = 100% = 15,16%
c) x = 35,4 pontos e s2 = 3,6576 filhos2 x 35,4
d) x = 35,4 mg/dL e s2 = 71,1111 (mg/dL)2 s 30,6594
b) cv = 100% = 100% = 54,75%
x 56
s 1,9125
c) cv = 100% = 100% = 81,73%
x 2,34
s 8,4327
d) cv = 100% = 100% = 11,40%
x 74

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 49


Estatstica Basica 5 ESTATISTICA DESCRITIVA

5.2.5.7 Propriedades da variancia - V () e do desvio padrao - DP ()


Sejam X e Y duas variaveis e k uma constante qualquer.

Se X = Y k, entao:

V (X) = V (Y ) DP (X) = DP (Y )

Se X = Y k, entao:

V (X) = V (Y ) k 2 DP (X) = DP (Y ) k

5.2.6 Exerccios
1. Os dados apresentados a seguir sao dos pesos corporais (em kg) de uma amostra de 10 alunos:
18,77 17,76 17,44 17,19 18,47 19,17 17,90 17,51 18,62 16,99
Calcule a variancia, o desvio padrao e coeficiente de variacao.
2. Um pesquisador mediu, durante 10 dias, as 9:00, a temperatura em graus Celsius do freezer de seu
laboratorio encontrando os seguintes valores: 10, 2, 0, 1, 3, 2, 0, 3, 1 e 1. Calcule a media, a
variancia e o desvio padrao, apresentando a unidade de medida.
3. A tabela abaixo mostra o numero anual de dias de licenca medica (DL) usados por enfermeiras em
um grande hospital urbano em 2003. As enfermeiras sao listadas por anos de servico (AS), isto e, a
enfermeira numero 1 tem menos tempo de casa, enquanto a enfermeira numero 21 tem o maior tempo de
casa.
AS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
DL 2 9 1 0 5 4 6 7 8 8 3 6 7 8 9 2 8 9 6 8 5

Faca o que se pede:


a) Considere que xi representa o numero de dias de licenca medica por ano usados pela enfermeira de
numero i, onde o ndice i e o numero da enfermeira. Determine cada um dos itens a seguir:
10
X n
X n
X 10
X
i) x3 , x9 , x21 ii) xi iii) xi iv) xi v) x2i
i=1 i=11 i=1 i=1
b) Suponha que cada enfermeira usasse exatamente dois dias a mais do que aparece na tabela. Use a
notacao de somatorio para expressar novamente a soma em (a) iv de modo a refletir os dois dias de
licenca adicionais usados por cada enfermeira.
c) Use os dados de licenca por ano das enfermeiras para calcular:
i) a media, a moda e mediana
ii) a variancia, o desvio padrao e coeficiente de variacao.
4. A tabela ao lado apresenta o numero de pa-
cientes com suspeita de dengue atendidos em um Tabela 28 Numero de pacientes com suspeita
hospital em Alfenas durante o mes de novembro de de dengue atendidos em um hospital,
2015. Calcule: Alfenas-MG, nov-2015
a) A variancia Numero de pacientes Numero de dias
b) O desvio padrao 10 5
c) O coeficiente de variacao 11 9
12 6
13 3
14 7
Total 30
Dados fictcios

5. A tabela ao lado apresenta o tempo, em minutos,


gasto no atendimento de pacientes em uma clnica Tabela 29 Tempo gasto no atendimento de pacien-
odontologica, durante um dia. Calcule: tes em uma clnica odontologica, Alfenas-
a) O ponto medio de cada classe MG, 30/08/2016
b) A variancia Tempo (min) Xi Num. de pacientes
c) O desvio padrao 0`15 3
d) O coeficiente de variacao 15`30 6
30`45 9
45`60 5
60`75 7
Total 30
Dados fictcios

50 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

6. Foram obtidos dados da concentracao de calcio (g/mL de leite) no leite materno de 55 maes no
Hospital Maternidade Santa Maria, em Florzina, ano 2008. As maes foram divididas em dois grupos
segundo o perodo de lactacao: colostro e leite maduro.

a) Boxplot b) Histograma 1 c) Histograma 2

Observe as figuras acima e responda as questoes (valores aproximados):


a) Para os dados de calcio do leite maduro, quais sao o maior e menor valor?
b) Para os dados de calcio do colostro, qual e o IQR?
c) Para os dados de calcio do leite maduro, qual e o maior valor menor que Q3 1,5(Q3 Q1)? Este e
o maior valor? Por que?
d) Para dos dados de calcio do colostro, qual e o menor valor maior que Q1 1,5(Q3 Q1)? Este e o
menor valor? Por que?
e) Qual histograma esta relacionado aos dados de calcio do colostro e do leite maduro? Justifique.
f) Das 55 mulheres que participaram da pesquisa, quantas pertencem ao grupo colostro?
7. Dois grupos de alunos tiveram seus nveis de glicose mensurados. Apesar de os nveis medios de
glicose em ambos os grupos serem os mesmos, os dois apresentam diferentes variabilidades indicadas
pelos histogramas.
a) Sem fazer contas, qual grupo apresenta maior variabilidade? Por que?
b) Qual e a media dos nveis de glicose?
c) Qual e a variancia dos dois grupos?

a) Grupo 1 b) Grupo 2

6 PROBABILIDADE

Anteriormente foi estudado como as estatsticas descritivas podem ser usadas para organizar,
descrever e apresentar um conjunto de dados. Entretanto, pode-se querer investigar como a informacao
contida na amostra pode ser usada para inferir sobre alguma caracterstica da populacao da qual foi
obtida. Antes de se fazer isto, e necessario a exposicao de alguns conceitos basicos e o estudo sobre
probabilidades.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 51


Estatstica Basica 6 PROBABILIDADE

6.1 Definicoes
6.1.1 Experimento
E qualquer processo que permite ao pesquisador fazer observacoes. Pode ser determinstico e
aleatorio (probabilstico).

6.1.2 Experimento determinstico


E um tipo de experimento que permite, sob determinadas condicoes, conhecer o resultado sem
mesmo ter que realiza-lo. Preservando todas condicoes impostas em um experimento, se o repetir chega-se
ao mesmo resultado (ou conclusao) nao importando o numero de vezes que seja reproduzido. Observar
um corpo em queda livre, realizar uma reacao qumica, observar o movimento de um movel, observar a
temperatura de ebulicao da agua, etc. sao alguns casos de experimento determinstico.

6.1.3 Experimento aleatorio


E qualquer experiencia ou ensaio cujo resultado e imprevisvel por depender exclusivamente
do acaso. Embora nao se tenha certeza qual resultado ira ocorrer, em geral, pode-se descrever todos os
possveis resultados. Lancamento de uma moeda, lancamento de um dado, sorteio de uma bola de uma
urna contendo bolas enumeradas de 1 a 10, etc. sao exemplos de experimento aleatorio.

6.1.4 Espaco amostral


O espaco amostral e definido como o conjunto de todos os resultados possveis de um ensaio (ex-
perimento) aleatorio, sera utilizada a letra grega omega () para identifica-lo. O smbolo n() representa
o numero de elementos deste conjunto.

6.1.4.1 Exemplo
Um experimento consiste em lancar uma moeda e observar a face voltada para cima
Considerando K para o resultado cara e C para coroa, entao:

1 = {K, C} = n (1 ) = 2

6.1.4.2 Exemplo
Seja um experimento em que e lancado um dado comum. Considerando cada face: 1, 2, 3, 4, 5
e 6 como um possvel resultado, entao:

2 = {1, 2, 3, 4, 5, 6} = n (2 ) = 6

6.1.4.3 Exemplo
Uma pessoa deseja sortear uma bola de uma urna que contem 10 bolas enumeradas, entao:

3 = {b1 , b2 , . . . , b10 } = n (3 ) = 10

6.1.4.4 Exemplo
Ao lancar dois dados simultaneamente, considerando o par ordenado (a, b) sendo a e b as faces
do 1o e 2o dado, respectivamente, o espaco amostral e:


(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)




(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

4 = = n (4 ) = 36
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)




(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

6.1.4.5 Exemplo
Uma moeda e lancada ate que o resultado cara (K) ocorra pela primeira vez. Observa-se em
qual lancamento este fato ocorre.

5 = {1, 2, 3, 4, . . .} = n (5 ) =?

52 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

6.1.4.6 Exemplo
Lancar uma moeda duas vezes e observar o numero de caras.

6 = {0, 1, 2} = n (6 ) = 4

6.1.4.7 Exemplo
Escolher um numero no conjunto N.
Observacao: Um espaco amostral e finito se n () = n N .

6.1.5 Evento
Qualquer subconjunto de um espaco amostral representa um evento. A formacao de um evento
esta ligada ao experimento e consequentemente ao espaco amostral.
Os eventos serao representados pelas letras maiusculas do nosso alfabeto e se A for um evento,
o numero de elementos de A sera simbolizado por n(A).

6.1.5.1 Exemplo
Considere um experimento que consiste em jogar um dado e observar a face voltada para cima.
O espaco amostral ja foi definido em 2 . Alguns eventos Ai podem ser obtidos:

ocorrer a face 5, A1 = {5} = n (A1 ) = 1;

ocorrer numero par, A2 = {2, 4, 6} = n(A2 ) = 3;

ocorrer um numero menor do que 7, A3 = {1, 2, 3, 4, 5, 6} = n (A3 ) = 6 = n () = A3 = ;

ocorrer um numero maior ou igual a 7, A4 = = n (A4 ) = 0;

Observacao: Note que se n() = n, entao tera 2n subconjuntos (tambem denominado de conjunto
das partes) e, portanto, 2n eventos. Entre eles estao o (evento impossvel) e o proprio (evento certo).

6.1.5.2 Operacoes sobre eventos


Como na teoria de conjuntos, diversas operacoes podem ser aplicadas aos eventos. Estas ope-
racoes permitem que se combine eventos para formar novos eventos, como a interseccao, a uniao e o
complemento de evento(s).
A interseccao de dois eventos A e B, representada por A B, e definida como o evento tanto A
como B, ou seja A e B ocorrem simultaneamente. Se A B = , os eventos sao chamados mutuamente
exclusivos ou disjuntos.
A uniao de dois eventos A e B, representada por A B, e o evento ou A ou B ou ambos A e
B.
O complementar de um evento A, indicado por AC ou A, e o evento nao A. Este evento
ocorrera se, e somente se, A nao ocorrer.

6.1.5.2.1 Exemplo
Considere um experimento aleatorio em que uma moeda e lancada duas vezes e as faces voltadas
para cima sao observadas. O espaco amostral e:

= {(K,K) , (K,C) , (C,K) , (C,C)}

Considere os eventos:
A: ocorrencia de cara no primeiro lancamento e coroa no segundo: A = {(K,C)};
B: ocorrencia de duas caras: B = {(K,K)}. Entao:
A interseccao de A e B e a ocorrencia de duas caras e a ocorrencia de cara no primeiro lance e coroa no
segundo.
AB =
A uniao de A e B e a ocorrencia de duas caras ou a ocorrencia de cara no primeiro lance e coroa no
segundo.
A B = {(K,K) , (K,C)}

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 53


Estatstica Basica 6 PROBABILIDADE

O complemento de A e a nao ocorrencia de cara no primeiro lance e coroa no segundo.

AC = {(K,K) , (C,K) , (C,C)}

O complementar de B e a nao ocorrencia de duas caras.

B C = {(K,C) , (C,K) , (C,C)}

6.2 Probabilidade
E um valor associado a cada resultado (evento) possvel. Pode ser uma probabilidade a priori
ou a posteriori.

6.2.1 Probabilidade a priori


E dada pela razao entre o numero de maneiras que um determinado evento ocorre e o numero
de eventos simples diferentes (numero de elementos) do espaco amostral. A probabilidade de um evento
A qualquer ocorrer no espaco amostral e denotada por:

n(A)
P (A) =
n()

Em que: P (A) e a probabilidade de ocorrer o evento A; n(A) e o numero de elementos ou o numero de


maneiras que ocorre o evento A e n() e o numero de elementos do espaco amostral .

6.2.1.1 Exemplo
Considere um experimento que consiste em lancar um dado. Calcule as probabilidades para
cada evento apresentado:
Solucao:
Considerando as faces do dado, o espaco amostral e = {1, 2, 3, 4, 5, 6} e tem 6 elementos, ou seja,
n () = 6.
a) Seja o evento A1 ocorrer o numero 5, entao: A1 = {5} = n (A1 ) = 1. Logo, a probabilidade de A1 e:

n(A1 ) 1
P (A1 ) = =
n() 6

b) Considere o evento A2 ocorrer um numero par, assim: A2 = {2, 4, 6} = n(A2 ) = 3. Portanto a


probabilidade de A2 e:
n(A2 ) 3 1
P (A2 ) = = =
n() 6 2
c) Seja o evento A3 ocorrer um numero menor do que 7: A3 = {1, 2, 3, 4, 5, 6} = = n (A3 ) = n () =
6. A probabilidade de ocorrer A3 e:

n(A3 ) 6
P (A3 ) = = =1
n() 6

d) Considerando um evento A4 ocorrer um numero maior ou igual a 7: A4 = n (A4 ) = 0. Portanto,


a probabilidade de A4 e:
n(A4 ) 0
P (A4 ) = = =0
n() 6

6.2.2 Probabilidade a posteriori


Considere um experimento aleatorio com espaco amostral finito = {a1 , a2 , . . . , ak }. Suponha
que o experimento seja repetido N vezes, nas mesmas condicoes. Seja ni o numero de vezes que ocorre
o evento elementar ai . Definindo a frequencia relativa do evento {ai } como sendo o numero fi tal que:
ni
fi = , i {1, 2, . . . , k}, entao:
N
ni
1. 0 fi 1, i, pois 0 1;
N
n1 n2 nk n1 + n2 + . . . + nk N
2. f1 + f2 + ... + fk = 1, pois + + ... + = = = 1;
N N N N N

54 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

3. Se A e um evento de , (A 6= 0), a frequencia relativa do evento A, (fA ), e o numero de vezes que


X ni X
ocorre A, dividido por N . Isto implica que fA = = fi .
N
ai A ai A
Se um experimento e repetido N vezes sob as mesmas condicoes e se o evento A ocorre ni vezes,
entao, conforme N aumenta, a razao ni /N se aproxima de um limite fixado, que e a probabilidade de A.
A probabilidade a posteriori e definida pelas frequencias relativas da tabela de distribuicao de frequencias.
Ou seja,
ni
P (A) = fi =
N

6.2.2.1 Exemplo
Considere a Tabela 30 em que e mostrado o numero de pessoas diabeticas no perodo de janeiro
a junho de 2009 em Minas Gerais.

Tabela 30 Pacientes com diabetes em Minas Gerais, segundo o sexo, no perodo de janeiro a junho de
2009
Sexo Numero de pacientes
Masculino 2.878
Feminino 4.970
Total 7.848
Fonte: http://hiperdia.datasus.gov.br/

Se uma pessoa com diabetes foi escolhida ao acaso, qual a probabilidade de que ela seja do sexo
masculino? Seja A o evento a pessoa com diabetes e do sexo masculino, entao:
ni 2.878
P (A) = fi = = = 0,3667 = 36,67%
N 7.848
6.2.3 Importante saber!
1. Se A e um evento de (ou seja, A )= P (A) 0.
2. P () = 1;
Observacao: se = {a1 , a2 , a3 , . . . , an } e cada evento elementar {ai } esta associado a uma proba-
n
X
bilidade pi . Entao, pi = p1 + p2 + . . . + pn = 1.
i=1

3. P () = 0

4. Se AC e o evento complementar de A, entao P AC = 1 P (A).
5. Se A1 , A2 , . . . , An sao eventos
! disjuntos pertencentes a , isto e, tem intersecao nula, Ai Aj = ,
[n n
X
com i 6= j, entao P Ai = P (Ai ) = P (A1 ) + P (A2 ) + . . . + P (An ).
i=1 i=1

6. Se A e B sao dois eventos de um espaco amostral e nao sao eventos disjuntos, ou seja, a intersecao
nao e o conjunto vazio, A B 6= , entao, ao se calcular a probabilidade da uniao e necessario
considerar a intersecao, ou seja, P (A B) = P (A) + P (B) P (A B).
7. 0 P (A) 1, a probabilidade de ocorrer o evento A e um numero entre 0 e 1.

6.3 Probabilidade condicional


Recebe o nome de probabilidade condicional aquela que envolve pelo menos dois eventos e que
a ocorrencia de um depende da ocorrencia do outro. Geralmente diz-se probabilidade de A dado B ou
seja, a probabilidade de ocorrer o evento A sabendo que o evento B tenha ocorrido. Esta probabilidade
e calculada por:
P (A B) n(A B)
P (A|B) = = , P (B) > 0
P (B) n(B)
P (A B)
E importante destacar que P (A|B) 6= P (B|A). Pois, P (B|A) = .
P (A)

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 55


Estatstica Basica 6 PROBABILIDADE

6.3.1 Exemplo
Um grupo de mocas e classificado de acordo com a cor dos olhos e dos cabelos de cada moca,
segundo a tabela a seguir:

Cor dos olhos


Cor dos cabelos
Azuis Castanhos
Loiro 18 8
Castanho 9 9
Ruivo 4 2
Suponha que voce esteja em um programa de televisao e que o apresentador lhe peca para sortear uma
dessas mocas para conversar com voce. Determine:
a) Supondo que o apresentador do programa lhe diga que a moca sorteada tem cabelos castanhos, entao
qual e probabilidade de que ela tenha olhos castanhos?
Solucao: foi dada uma condicao. Em outras palavras, voce ja sabe que aconteceu de a moca sorteada ter
cabelos castanhos. Neste caso pode-se considerar os eventos: B: o evento a moca sorteada tem cabelos
castanhos e A: o evento a moca sorteada ter olhos castanhos. Sabe-se que o espaco amostral e composto
por todas as mocas, totalizando 50 mocas. Assim, o evento B tem 18 mocas e o evento A tem 19 mocas.
A probabilidade procurada e uma probabilidade condicional de A ocorrer dado que B ja tenha ocorrido.
Pelos dados n(A B), que representa o numero de mocas que tem cabelos castanhos e olhos castanhos,
e igual a 9. Portanto,
P (A B) n(A B) 9 1
P (A|B) = = = =
P (B) n(B) 18 2
b) Agora, o apresentador lhe disse que a garota que voce sorteou tem cabelos ruivos. Qual a probabilidade
de que ela tenha olhos azuis?
Solucao: Sabe-se que a moca sorteada tem cabelos ruivos. Considerando B o evento a moca sorteada ter
cabelos ruivos e A o evento a moca sorteada ter olhos azuis. O espaco amostral e composto por todas
as 50 mocas. Assim, o evento B tem 6 mocas e o evento A tem 31 mocas. A probabilidade procurada e
uma probabilidade condicional de A ocorrer dado que B ja tenha ocorrido. O evento n(A B) numero
de mocas que tem cabelos ruivos e olhos azuis tem 4 elementos. Portanto,

P (A B) n(A B) 4 2
P (A|B) = = = =
P (B) n(B) 6 3

6.3.2 Exemplo
Considere o espaco amostral e os eventos A e B:
= {1, 2, 3, . . . , 20}
A = {5, 10, 15, 20}
B = {9, 10, 11, . . . ,20}
Observe que a probabilidade de A dado B e igual a:

P (A B) 3/20 1
P (A|B) = = = .
P (B) 12/20 4

E a probabilidade de B dado A e igual a:

P (A B) 3/20 3
P (B|A) = = = .
P (A) 4/20 4

6.4 Exerccios
1. Use D para identificar os experimentos determinsticos e P para identificar os experimentos probabi-
lsticos.
( ) Soltar uma pedra do alto de um edifcio e observa-la cair em direcao ao solo.
( ) E todo aquele cujos resultados nao podem ser previstos antes da execucao do mesmo.
( ) Observar o movimento de um veculo e determinar a distancia percorrida.
( ) Injetar um medicamento experimental em ratos e observar a reacao dos mesmos.
( ) Lancar duas moedas e observar o numero de caras obtido.
2. Ha uma gaveta com meias das seguintes cores: 1 branca, 2 amarelas e 3 rosas. Duas meias sao
retiradas.

56 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

a) Descreva o espaco amostral deste experimento considerando amostragem com reposicao;


b) Descreva o espaco amostral deste experimento considerando amostragem sem reposicao.
3. Defina o espaco amostral () para cada um dos seguintes experimentos aleatorios:
a) Nascimento de 3 filhos.
b) Lancamento de um dado e uma moeda.
c) Selecao de duas pessoas num grupo tres (A, B, C), com reposicao.
d) Idem, sem reposicao.
e) Selecao de duas pessoas num grupo tres (A, B, C), mas as duas pessoas sao selecionadas simultanea-
mente.
4. Uma moeda e um dado sao lancados. Seja os pares ordenados formados por cara ou coroa e um dos
seis numeros do dado. Descreva os eventos:
a) A: ocorre cara;
b) B: ocorre um numero impar;
c) C: ocorre o numero 3;
d) A B;
e) B C;
f) A C;
g) AC ;
h) C C .
5. Numa urna existem duas bolas vermelhas e seis brancas. Sorteando-se uma bola, qual a probabilidade
dela ser vermelha?
6. De um baralho de 52 cartas, uma e extrada ao acaso. Qual a probabilidade de ocorrer cada um dos
eventos abaixo?
a) ocorre dama de copas;
b) ocorre dama;
c) ocorre carta de naipe paus;
d) ocorre dama ou rei ou valete;
e) ocorre uma carta que nao e um rei.
7. Suponha que estamos interessados em determinar a probabilidade de uma mulher que engravidou ter
um menino. Em um pas foram registrados 4.065.014 nascimentos, dos quais 2.081.287 foram meninos e
1.983.727 foram meninas. Entao a probabilidade de que uma mulher aleatoriamente selecionada desse a
luz a um menino e?
8. Selecionado aleatoriamente um estudante da UNIFAL-MG, considere os seguintes eventos:
A: o aluno possui cartao de credito Visa;
B: o aluno possui cartao de credito MasterCard.
Suponha que P (A) = 0,5, P (B) = 0,4 e P (A B) = 0,25.
a) Calcule a probabilidade de que o indivduo selecionado tenha pelo menos um dos dois tipos de cartao
(ou seja, a probabilidade do evento A B)?
b) Qual e probabilidade do indivduo selecionado nao possuir nenhum dos dois tipos de cartao?
9. Suponha que P (A|B) = 0,8, P (A) = 0,5 e P (B) = 0,2. Determine P (B|A).
10. Suponha o cruzamento de duas cobaias heterozigotas, Cc Cc. Suponha que o gene C e dominante
para a cor de pelo branca e que seja letal quando o indivduo resulta homozigoto. Ainda, a cor preta e
determinada pelo alelo c. Considere, adicionalmente, os seguintes eventos:
B: o indivduo e branco; P : o indivduo e preto; V : o indivduo nasce vivo; M : o indivduo nasce morto.
Calcule as probabilidades e descreva o seu significado:
a) P (P ) f) P (V |B)
b) P (B) g) P (P |V )
c) P (P V ) h) P (B|M )
d) P (P M ) i) P (V |P )
e) P (B|V ) j) P (P |M )

6.5 Regra do produto e independencia de eventos


A regra do produto permite calcular probabilidades sem que tenha que trabalhar com analise
combinatoria, em muitas situacoes. Para resolver um problema, deve-se considerar cada ocorrencia de
interesse do experimento como um evento, determina-se a probabilidade de cada evento e, posteriormente,
efetua-se o produto das probabilidades, mas e importante observar se os eventos sao dependentes ou sao
independentes. Isto e o que sera discutido a seguir.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 57


Estatstica Basica 6 PROBABILIDADE

Uma consequencia da probabilidade condicional e a seguinte:

P (A B)
P (A|B) = = P (A B) = P (B) P (A|B)
P (B)
ou
P (A B)
P (B|A) = = P (A B) = P (A) P (B|A)
P (A)
Ou seja, a probabilidade da ocorrencia simultanea dos eventos A e B e dada pelo produto da
probabilidade de um deles pela probabilidade condicional do segundo dado o primeiro.
Em algumas situacoes podem ocorrer:

P (A|B) = P (A)

Consequentemente,

P (B|A) = P (B)
Quando isto acontece os eventos A e B sao independentes. Dois ou mais eventos sao indepen-
dentes se a ocorrencia de um deles nao afeta a probabilidade do outro. Se dois ou mais eventos nao sao
independentes, diz-se dependentes.

Se os eventos sao independentes, entao P (A B) = P (A) P (B), ou seja, a probabilidade de


ocorrerem os 2 eventos e igual ao produto de suas probabilidades individuais;

Se os eventos sao dependentes, entao P (A B) = P (A) P (B|A) = P (B) P (A|B), ou seja, a


probabilidade de ocorrem os 2 eventos e igual ao produto da probabilidade de um pela probabilidade
condional do outro.

Se A e B sao independentes, entao: A e B, A e B e A e B tambem sao independentes.

6.5.1 Exemplo
Considere o lancamento de uma moeda e de um dado simultaneamente; o resultado obtido no
lancamento da moeda nao afeta o do dado; portanto considerando cada lancamento ou da moeda ou
do dado como um evento, estes podem ser considerados como eventos independentes. Por outro lado,
considerando, uma urna contendo cinco bolas vermelhas e duas azuis, em que sao retiradas duas bolas,
sem reposicao, o resultado obtido na segunda extracao dependera do resultado observado na primeira
extracao; adotando cada extracao como um evento, nota-se que os eventos sao dependentes.

6.5.2 Exemplo
Uma firma produz um lote de 50 agulhas, das quais 6 sao defeituosas. Escolheram-se aleatoria-
mente e testaram-se duas agulhas do lote. Determine a probabilidade de ambas serem boas, se as agulhas
foram selecionadas: a) com reposicao e b) sem reposicao.
Solucao:
Como neste experimento ha repeticao, pois retira-se uma agulha e em seguida outra pode-se considerar
que cada retirada representa um evento. Assim, seja A o evento sair uma agulha boa na primeira retirada
e seja B o evento sair uma agulha boa na segunda retirada.
a) Considerando um experimento em que uma agulha e selecionada e recolocada antes de fazer a segunda
selecao, tem-se um experimento com reposicao. Neste caso a probabilidade de que ambas as agulhas
sejam boas pode ser calculada por:
44 44
P (A B) = P (A) P (B) = = 0,774
50 50
Pois os eventos sao independentes, uma vez que os eventos A e B ocorrem de forma independente.
b) Considerando um experimento em que uma agulha e selecionada e nao e recolocada antes de fazer
a segunda selecao, tem-se um experimento sem reposicao. Neste caso a probabilidade de que ambas as
agulhas sejam boas pode ser calculada por:
44 43
P (A B) = P (A) P (B|A) = = 0,772
50 49

58 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

Pois os eventos sao dependentes, uma vez que o evento B depende do acontecimento de A.

6.5.3 Exemplo

Considere um baralho com 52 cartas. Um experimento consiste em retirar duas cartas ao acaso
e sem reposicao. Qual e a probabilidade:
a) das duas cartas extradas serem ouros?
Solucao: O baralho comum possui 52 cartas, as quais sao divididas em 4 naipes com 13 cartas. Ou seja,
, , , (ouros, copas, paus, espadas, respectivamente) que possuem as cartas: A, 2, 3, 4, 5, 6, 7, 8,
9, 10, J, Q, K.
Portanto, considerando cada retirada com um evento, tem-se:
A = {sair uma carta de ouros na primeira retirada}
B = {sair uma carta de ouros na segunda retirada}
Portanto, a probabilidade de qua as duas cartas sejam de ouros e dada por:
13 12 1
P (A B) = P (A) P (B|A) = =
52 51 17
b) de uma ser dama e a outra ser rei, nesta ordem?
Considerando os eventos:
A = {sair uma dama na primeira retirada}
B = {sair um rei na segunda retirada}
Tem-se:
4 4 4
P (A B) = P (A) P (B|A) = =
52 51 663

c) de uma ser dama e a outra ser rei?


Considerando os eventos:
A = {sair uma dama}
B = {sair um rei}
Note que agora a ordem nao importa, portanto pode sair uma dama na primeira retirada e o rei na
segunda ou um rei na primeira retirada e a dama na segunda. Como ha dois resultados de interesse, e
necessario somar as suas probabilidades. Assim,
4 4 4
P (A B) = P (A) P (B|A) = =
52 51 663
4 4 4
P (B A) = P (B) P (A|B) = =
52 51 663
Portanto, a probabilidade de uma ser dama e a outra ser rei e:
4 4 8
+ =
663 663 663

6.6 Independencia de tres ou mais eventos

Quando dois eventos Ai e Aj , i, j com i 6= j, sao independentes a probabilidade de ocorrerem


os 2 eventos e igual ao produto de suas probabilidades individuais, assim:

P (Ai Aj ) = P (Ai ) P (Aj )

Para tres ou mais eventos independentes a probabilidade da ocorrencia deles e, tambem, igual
ao produto de suas probabilidades individuais. Portanto,

P (Ai Aj Ak ) = P (Ai ) P (Aj ) P (Ak ) , i, j, k com i 6= j 6= k

Genericamente, !
n
\ n
Y
P Ai = P (Ai ) = P (A1 ) P (A2 ) . . . P (An )
i=1 i=1

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 59


Estatstica Basica 6 PROBABILIDADE

6.6.1 Exemplo
Considere o lancamento de uma moeda 5 vezes. Qual e a probabilidade de ocorrer nos tres
primeiros lances a face cara e nos dois ultimos a face coroa?
Solucao:
Considerando cada lancamento como um evento, temos A1 , A2 , A3 , A4 , A5 cinco eventos correspondendo,
respectivamente, ao resultado cara nos tres primeiros lancamentos e os dois resultados coroa.
Assim,
5
! 5
\ Y 1 1 1 1 1 1
P Ai = P (Ai ) =P (A1 ) P (A2 ) P (A3 ) P (A4 ) P (A5 ) = =
i=1 i=1
2 2 2 2 2 32

6.7 Ensaios de Bernoulli


Anteriormente foi apresentado que quando dois ou mais eventos sao independentes, calcula-se
a probabilidade de ocorrerem estes eventos pelo produto das probabilidades de cada qual. Entretanto, e
necessario considerar a ordem do acontecimento desses eventos.
Em alguns casos o objetivo poderia ser o de calcular a probabilidade em que o evento de interesse
aconteca a qualquer momento em n tentativas. Portanto, ha necessidade de considerar todas as formas
de acontecer este evento nas n tentativas.
Se for considerado um experimento em que para cada tentativa (repeticao) ha duas respostas
possveis, as quais serao denominadas por sucesso e fracasso, e independencia, este experimento recebe
o nome de ensaios de Bernoulli.
O sucesso e fracasso so servem para designar os resultados, nao tem o mesmo significado que
na linguagem cotidiana. A probabilidade do sucesso sera identificada por p e a do fracasso por q. Como
ocorre o evento (sucesso) com probabilidade p ou o seu complementar (fracasso) com probabilidade q,
entao q = 1 p.

6.7.1 Exemplo
Uma moeda e lancada 5 vezes. Cada lancamento (repeticao independente) e um ensaio, em que
dois resultados podem ocorrer: cara ou coroa. Pode-se chamar de sucesso o resultado cara e de fracasso
1 1
o resultado coroa. Em cada ensaio, p = e q = .
2 2

6.7.2 Exemplo
Uma urna contem 4 bolas vermelhas e 6 brancas. Uma bola e extrada, observada sua cor e
reposta na urna; este procedimento e repetido 8 vezes. Cada extracao (repeticao independente) e um
ensaio, em que dois resultados podem ocorrer: bola vermelha ou bola branca (nao vermelha). O sucesso
corresponde ao resultado bola vermelha e fracasso o resultado bola branca (complementar). Em cada
4 2 6 3
caso p = = eq= = .
10 5 10 5

6.7.3 Exemplo
Uma urna contem 4 bolas vermelhas, 6 brancas e 2 azuis. Uma bola e extrada, observada sua
cor e reposta na urna; este procedimento e repetido 10 vezes. Cada extracao e um ensaio, em que dois
resultados podem ocorrer, se relacionar o sucesso ao resultado bola vermelha, o fracasso sera o resultado
4 1 8 2
nao bola vermelha. Em cada caso p = = eq= = .
12 3 12 3

6.7.4 Exemplo
Um dado e lancado 100 vezes. Considere os dois resultados: sair o numero 5 ou sair um
numero diferente de 5. Considerando o sucesso o resultado sair o 5, entao o fracasso sera o resultado
1 5
nao sair o 5. Em cada ensaio p = e q = .
6 6
H I H

Considere os eventos do experimento citado no exemplo 1 em que uma moeda e lancada 5 vezes:
1
A1 : ocorre cara no 1o lancamento, P (A1 ) = ;
2

60 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

1
A2 : ocorre cara no 2o lancamento, P (A2 ) = ;
2
1
A3 : ocorre cara no 3o lancamento, P (A3 ) = ;
2
1
A4 : ocorre cara no 4o lancamento, P (A4 ) = ;
2
1
A5 : ocorre cara no 5o lancamento, P (A5 ) = .
2
Entao o evento A1 A2 . . . A5 corresponde ao evento sair cara nos 5 lancamentos. Como os eventos
sao independentes,
 5
1 1 1 1 1 1 1
P (A1 A2 A3 A4 A5 ) = p p p p p = p5 q 0 = = = .
2 2 2 2 2 2 32

Se o interesse e calcular a probabilidade de obterem duas caras e em seguida tres coroas (nesta
ordem), entao o evento de interesse corresponde a: A1 A2 AC C C C
3 A4 A5 . Sendo que Ai corresponde
ao evento complementar de Ai . Logo, a probabilidade de ocorrer este evento e:

P A1 A2 AC C C
= p p q q q = p2 q 3

3 A4 A5
1 1 1 1 1
=
2 2 2 2 2
 2  3
1 1 1
= = .
2 2 32

1
Neste experimento em qualquer quntupla ordenada a probabilidade sempre sera .
32

H I H

Agora, supondo que o interesse seja o de calcular a probabilidade de obter duas caras nos 5
lancamentos, ha 10 diferentes maneiras de acontecer este resultado, pois o sucesso e obter duas caras
nestes 5 lancamentos, nao importando em qual momento ocorrera. Portanto, as maneiras de acontecerem
duas caras em cinco lancamentos e apresentada a seguir, considerando que Ai , com i = 1, 2, 3, 4, 5, o
evento sair cara no lancamento i e AC
i o seu complementar:

A 1 A 2 AC C C
3 A4 A5 ; AC C C
1 A 2 A3 A 4 A5 ;

A 1 AC C C
2 A 3 A4 A5 ; AC C C
1 A 2 A3 A4 A 5 ;

A 1 AC C C
2 A3 A 4 A5 ; AC C C
1 A2 A3 A4 A5 ;

A 1 AC C C
2 A3 A4 A 5 ; AC C C
1 A2 A 3 A4 A 5 ;

AC C C
1 A 2 A 3 A4 A5 ; AC C C
1 A2 A3 A 4 A 5 .

1
Sabe-se que cada evento (quntupla ordenada) a probabilidade relacionada e igual a e sendo
32
10 quntuplas (eventos distintos) a probabilidade e:
1 10 5
10 = =
32 32 16
Com conhecimento basico em analise combinatoria nao e necessario discriminar as maneiras de
ocorrer os sucessos, ou seja, descrever todas as diferentes formas como feito anteriormente, pois o que se
interessa e calcular o numero de maneiras que ocorre duas caras nos 5 lancamentos. Para esta situacao
tem-se 5 lancamentos em que ha 2 sucessos e 3 fracassos, ou seja 5 elementos dos quais ha 1 elemento
que repete 2 vezes e 1 um elemento que repete 3 vezes e a melhor forma de calcular isto e por meio da
permutacao de 5 elementos em que 1 elemento repete 2 vezes e outro repete 3 vezes:
5!
P52,3 = = 10
2! 3!

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 61


Estatstica Basica 6 PROBABILIDADE

Considerando x sucessos de interesse e nx fracassos num experimento com n repeticoes, entao


o numero de maneiras de ocorrer x sucessos (e n x fracassos) e:
 
x,nx n! n
Pn = = = Cn,x
x! (n x)! x

Como pode se deduzir dos exemplos anterios a probabilidade de cada enupla ordenada de x
sucessos e n x fracassos e:

p p . . . p q q . . . q = px q nx
| {z } | {z }
x vezes (nx) vezes

pois, qualquer enupla ordenada deste tipo e a intersecao de x sucesso(s) e de n x fracasso(s), ou seja,
P (A1 A2 . . . Ax AC C x
x+1 . . . An ) = p q
nx
.
Portanto, se o interesse e calcular a probabilidade de ocorrer(em) x sucesso(s) em n tentativas
de uma enupla ordenada basta realizar o calculo:

P (x) = Cn,x px q nx

Em que:
x: representa o numero de sucessos de interesse;
n: representa o numero de repeticoes do experimento;
p: representa a probabilidade de ocorrer um sucesso (ou seja, o evento);
q: representa a probabilidade de ocorrer um fracasso ou q = 1 p (nao ocorrer o evento).

6.8 Exerccios
1. Considere um baralho com 52 cartas numeradas, 13 para cada um dos naipes (ouros, copas, espadas
e paus). Seja o experimento em que se retira uma carta aleatoriamente, observando seu naipe, numero
e/ou cor (vermelha ou preta). Considere os seguintes eventos e calcule o que se pede:
A = {a carta retirada e as};
V = {a carta retirada e vermelha} e
E = {a carta retirada e de espada}.
a) P (A), P (V ) e P (E).
b) P (A), P (V ) e P (E).
c) P (A V ), P (A E) e P (V E).
c) P (A V ), P (A E) e P (V E).
d) P (A|V ) . Os eventos A e V sao independentes?
e) P (V |E). Os eventos V e E sao independentes?
2. Suponha que estamos interessados em determinar a probabilidade de uma mulher que engravidou ter
um menino. Em um pas foram registrados 4.065.014 nascimentos, dos quais 2.081.287 foram meninos e
1.983.727 foram meninas. Se desta populacao escolhermos 3 mulheres e supormos que haja independencia
entre o sexo das criancas nascidas, qual e a probabilidade de que as tres criancas sejam meninas?
3. Suponha que voce retire de um baralho, aleatoriamente, duas cartas do seguinte modo: retira uma,
observa seu naipe, numero e cor, e a coloca de volta. Em seguida, retira a segunda carta, observa seu
naipe, numero e cor, e a coloca de volta. Sejam os eventos:
A1 = {a primeira carta retirada e um as} e A2 = {a segunda carta retirada e um as}.
a) Sem fazer calculos, voce acha que os eventos A1 e A2 sao independentes? Ou seja, voce acha que o
fato da primeira carta retirada ter sido um as altera a probabilidade de que a segunda carta seja um as?
b) Entao, qual e o valor de P (A2 |A1 )?
c) Qual e a probabilidade das duas cartas retiradas serem ases? Ou seja, calcule P (A1 A2 ).
4. Numa determinada cidade a probabilidade de nascer um menino, P (M ), e igual a duas vezes a
probabilidade de nascer uma menina, P (F ). Considerando cinco maes gravidas nesta cidade, determinar
a probabilidade:
a) de que nao nasca menina.
b) de que nascam 1, 2 ou 3 meninas.
c) de que nascam mais de duas meninas.
5. Suponha que foram selecionados cinco indivduos da populacao de pacientes picados com agulha
infectada com hepatite B. Sabendo que a probabilidade de que um indivduo desenvolva a doenca e 30%,
calcule:

62 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 6 PROBABILIDADE

a) A probabilidade de que pelo menos tres indivduos desenvolvam a hepatite B.


b) A probabilidade de que no maximo um paciente desenvolva a doenca.
6. Um espaco amostral finito consiste de tres pontos amostrais (eventos simples) s1 , s2 e s3 , com
probabilidades dadas respectivamente por 25 p, 52 p2 e 2p. Neste caso p e igual a? Justifique.
a) 1/5
b) 1/3
c) 1/2
d) 1
e) 2

6.8.1 Exerccios extras


1. Lancamos dois dados honestos. Qual a probabilidade de se obter uma soma de pontos nao inferior
a 10?
2. Dois dados, um verde e um vermelho sao lancados. Seja o conjunto dos pares (a, b) em que a
representa o numero do dado verde e b do dado vermelho. Descreva os eventos:
a) A: ocorre 3 no dado verde;
b) B: ocorrem numeros iguais nos dois dados;
c) C: ocorre numero 2 em ao menos um dado;
d) D: ocorrem numeros cuja soma e 7;
e) E: ocorrem numeros cuja soma e menor que 7.
3. Um numero e escolhido ao acaso entre os 20 inteiros. De 1 a 20. Qual a probabilidade de o numero
escolhido:
a) ser par;
b) ser mpar;
c) ser primo;
d) quadrado perfeito.
4. Sejam A, B e C tres eventos:
A = {1,2,3,4,5}; B = {4,5,6,7}; C = {5,9} e = {1,2,3,4,5,6,7,8,9,10}
Calcule as probabilidade para os eventos A, B e C.
a) nenhum dos tres eventos ocorre
b) pelo menos um dos tres ocorre
c) somente A ocorre (B e C nao ocorrem)
d) exatamente um dos eventos ocorre
e) A e B ocorrem, mas C nao ocorre
f) os tres eventos ocorrem
g) exatamente dois dos eventos ocorrem
h) pelo menos dois eventos ocorrem
i) no maximo dois eventos ocorrem
j) no maximo um evento ocorre
5. Uma urna contem 3 bolas brancas, 2 vermelhas e 5 azuis. Uma bola e escolhida ao acaso na urna.
Qual a probabilidade de a bola escolhida ser:
a) branca
b) vermelha
c) azul.
6. Considere dois eventos A: ulcera peptica e B: estresse constante. Qual o significado de P (A|B)?
Explique claramente a diferenca entre P (A|B) e P (B|A).
7. Um dado e lancado e o numero da face de cima e observado.
a) se o resultado obtido for par, qual a probabilidade de ele ser maior ou igual a 5?
b) se o resultado obtido for maior ou igual a 5, qual a probabilidade de ele ser par?
c) se o resultado obtido for mpar, qual a probabilidade de ele ser menor que 3?
d) se o resultado obtido for menor que 3, qual a probabilidade de ele ser mpar?
8. Considere dois eventos, A ={atirador A acerta o alvo} e B ={atirador B acerta o alvo}. Se os
atiradores A e B atiram simultaneamente em um alvo, com P (A) = 0,51 e P (B) = 0,32, pede-se:
a) Qual e a probabilidade do alvo ser atingido quando os eventos A e B sao independentes?
b) Qual e a probabilidade do alvo ser atingido quando os eventos A e B sao mutuamente exclusivos?
9. Um pesquisador querendo testar a germinacao das ervilhas (amarelas e verdes) plantou 500 sementes
obtendo os resultados apresentados a seguir:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 63


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

Cor
Germinacao Total
Amarela Verde
Sim 25 40 65
Nao 225 210 435
Total 250 250 500
Sejam os eventos: A: a ervilha plantada germina; B: a ervilha e amarela e C: a ervilha e verde.
Pede-se descrever e determinar as probabilidades:
a) P (A) e) P (A C)
b) P (B) f) P (A|B)
c) P (C) g) P (C|A)
d) P (A B) h) P (C|B)
10. Uma experiencia consiste em retirar, sucessivamente, 3 cartas de um baralho comum bem embara-
lhado. Sejam A a ocorrencia de um rei na primeira retirada; B a ocorrencia de um rei na segunda e
C a de um rei na terceira. Exponha em palavras, o significado de cada um dos seguintes smbolos:

a) P (A B); d) P C|(A B) ;
b) P (A B); e) A, B e C;
c) A + B; f) P (A B B C).
11. Um dado sera lancado 5 vezes.
a) Qual a probabilidade que saia a face 1 nos 5 lancamentos?
b) Qual a probabilidade que a mesma face (qualquer uma) apareca nos 5 lancamentos?
12. No cruzamento de ervilhas amarelas homozigotas (AA) com ervilhas verdes homozigotas (aa) ocorrem
ervilhas amarelas heterozigotas (Aa). Se estas ervilhas forem cruzadas entre si, ocorrem ervilhas amarelas
e verdes, na proporcao de tres para uma. Suponha que foram pegas, ao acaso, tres ervilhas resultantes
do cruzamento de ervilhas amarelas heterozigotas. Qual a probabilidade de as tres serem verdes?
13. No cruzamento de pais hemoflicos (aa) com pais nao hemoflicos (AA) ocorrem filhos nao hemoflicos
(Aa). Se estes filhos forem cruzados com outros filhos (Aa), ocorrem netos hemoflicos e nao hemoflicos.
Suponha que foram pegos, ao acaso, tres netos resultantes destes cruzamentos. Qual a probabilidade de:
(nota: os hemoflicos sao do tipo aa)
a) os tres serem hemoflicos
b) os tres serem nao hemoflicos
c) o primeiro ser hemoflico e os outros dois nao
d) nenhum ser hemoflico.
1
14. A probabilidade de que um certo aluno resolva um problema e P (A) = a de que outro aluno resolva
2
1 1
e P (B) = e de que um terceiro resolva e P (C) = . Supondo independencia, qual e a probabilidade
3 4
de que:
a) os tres resolvam o problema;
b) ao menos um resolva o problema;
c) o primeiro aluno resolva e os demais nao.
15. Um produtor de sementes vende pacotes com 20 sementes cada. Os pacotes que apresentarem mais
de uma semente sem germinar sao indenizados. A probabilidade de uma semente germinar e 0,98.
a) Qual e a probabilidade de que um pacote nao seja indenizado?
b) Se o produtor vender 1.000 pacotes, em quantos pacotes se espera indenizar?

7 DISTRIBUICAO DE PROBABILIDADE

7.1 Variavel aleatoria


Uma variavel aleatoria (va) e uma variavel qualquer que associa a cada evento do espaco amos-
tral um numero real (ou uma serie de numeros). Como cada evento de um espaco amostral esta associado
a uma probabilidade, cada um dos possveis valores da variavel aleatoria tambem estara.
O conjunto de valores que pode assumir uma variavel aleatoria e denominada domnio da
variavel aleatoria. As variaveis aleatorias
serao representadas por letras maiusculas: X, Y, Z e os valores
x1 , x2 , x3 , . . .
que assumem por letras minusculas: y1 , y2 , y3 , . . .
z1 , z2 , z3 , . . .

Alguns smbolos serao usados para representar a probabilidade de uma variavel aleatoria:
P (X = xi ) ou simplesmente P (X = x) e a probabilidade de que a variavel aleatoria assuma o valor x;

64 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

P (X x) e a probabilidade de que a variavel aleatoria assuma um valor menor ou igual a x;


P (X < x) e a probabilidade de que a variavel aleatoria assuma um valor menor a x;
P (X x) e a probabilidade de que a variavel aleatoria assuma um valor maior ou igual a x;
P (X > x) e a probabilidade de que a variavel aleatoria assuma um valor maior a x;
P (xi X xj ) e a probabilidade de que a variavel aleatoria assuma um valor maior ou igual a xi
e menor ou igual a xj ;
P (xi < X < xj ) e a probabilidade de que a variavel aleatoria assuma um valor maior do que xi e
menor do que xj .
Nota: por convencao as variaveis aleatorias sao sempre quantitativas mesmo referindo-se a
atributos ou categorias (variaveis qualitativas). Exemplo: X = nvel de escolaridade: nenhum, primario,
secundario, superior, usa-se X = 0, 1, 2, 3, respectivamente. Sendo quantitativas elas podem ser discretas
ou contnuas.

7.1.1 Exemplo
Considere um experimento que consiste em extrair duas bolas sem reposicao de uma urna que
contem 2 bolas brancas e 3 vermelhas. O espaco amostral16 relacionado a este experimento e:

= {(B, B), (B, V ), (V, B), (V, V )}

Em que: B representa a bola branca e V representa a bola vermelha.


Relacionando aos eventos do espaco amostral a variavel aleatoria X: numero de bolas vermelhas
obtidas nas duas extracoes, sem reposicao, tem-se: X = {0, 1, 2} sendo os valores entre as chaves o
domnio da variavel X, pois:
0 bola vermelha - (B, B);
1 bola vermelha - (B, V ) ou (V, B);
2 bolas vermelhas - (V, V ).

7.1.2 Exemplo
Um pesquisador selecionou tres maes. Um experimento consiste em observar o sexo do bebe.
Utilizando f para representar o sexo feminino e m para representar o sexo masculino, tem-se o espaco
amostral:

= {(m, m, m), (f, m, m), (m, f, m), (m, m, f ), (f, f, m), (f, m, f ), (m, f, f ), (f, f, f )}

Considerando a variavel Y : numero de bebes do sexo feminino, entao Y = {0, 1, 2, 3}, sendo
que os valores entre chaves representam o domnio da variavel Y . Tais valores significam que podem
nascer 0, 1, 2 ou 3 bebes do sexo feminino, ou seja:
0 bebe do sexo feminino - (m, m, m);
1 bebe do sexo feminino - (f, m, m) ou (m, f, m) ou (m, m, f );
2 bebes do sexo feminino - (f, f, m) ou (f, m, f ) ou (m, f, f );
3 bebes do sexo feminino - (f, f, f ).

7.2 Distribuicao de probabilidade ou funcao de probabilidade


E uma funcao que associa os valores de uma variavel aleatoria discreta as suas probabilidades.
A distribuicao de probabilidade pode ser representada na forma de uma funcao (formula matematica),
na forma de uma tabela, ou na forma de um grafico:

f (x) = P (X = x) = P (X = xi ) = p(xi ) = pi , i = 1, 2, 3, . . . ,
16 Este espaco amostral nao e equiprovavel, isto e, pelo menos um evento apresenta probabilidade diferente de um outro
qualquer.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 65


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

X x1 x2 x3 ...
P (X = x) P (X = x1 ) P (X = x2 ) P (X = x3 ) ...

Figura 24 Representacao grafica de uma funcao de probabilidade

7.2.1 Propriedades
1. P (X = xi ) 0;

n
X
2. P (X = xi ) = 1
i=1

7.2.2 Media e variancia de uma variavel aleatoria discreta


n
X
1. Media de uma v. a. discreta X: X = xi P (X = xi );
i=1

n
X  2
xi P (X = xi ) 2X .
2

2. Variancia de uma v. a. discreta X: X =
i=1

7.2.2.1 Exemplo
Tem-se como variavel aleatoria X: numero de bolas vermelhas obtidas na duas extracoes, sem
reposicao, portanto, X = {0, 1, 2} representa o numero de bolas vermelhas que podem ser observadas nas
duas extracoes. As probabilidades de ocorrencia dos eventos podem ser calculadas pela regra do produto,
da:
2 1 1 3 2 3
P (B, B) = = ; P (V, B) = = ;
5 4 10 5 4 10
2 3 3 3 2 3
P (B, V ) = = ; P (V, V ) = = .
5 4 10 5 4 10

Portanto, as probabilidades relacionadas a variavel X sao:

1
P (X = 0) = ;
10

3 3 6 3
P (X = 1) = + = = ;
10 10 10 5

3
P (X = 2) = .
10
A distribuicao de probabilidade da variavel X e apresentada a seguir:

X 0 1 2
1 3 3
P (X = x)
10 5 10

66 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

7.2.2.2 Exemplo
Considerando a variavel Y : numero de bebes do sexo feminino, observa-se que Y = {0, 1, 2, 3}.
1
Para cada evento a probabilidade de ocorrencia era igual a . E necessario observar que para Y = 0
8
ha um evento, para Y = 1 ha tres eventos, para Y = 2 ha tres eventos e para Y = 3 ha um evento.
Considerando isto, a distribuicao de probabilidade da variavel aleatoria Y e:

Y 0 1 2 3
1 3 3 1
P (Y = y)
8 8 8 8

7.2.2.3 Exemplo
Calcular a media e a variancia da variavel aleatoria Y : numero de bebes do sexo feminino.
Solucao:
n
X
Y = yi P (Y = yi ) = y1 P (Y = y1 ) + y2 P (Y = y2 ) + y3 P (Y = y3 )
i=1
= 0 1/8 + 1 3/8 + 2 3/8 + 3 1/8 = 3/2 = 1,5 bebe do sexo feminino
Xn
Y2
 2
yi P (Y = yi ) 2Y

=
i=1
 2
y1 P (Y = y1 ) + y22 P (Y = y2 ) + y32 P (Y = y3 ) 2Y

=
= 02 1/8 + 12 3/8 + 22 3/8 + 32 1/8 (1,5)2 = 3/4 = 0,75 (bebe do sexo feminino)2
 

7.2.3 Distribuicao binomial


E a distribuicao de probabilidade relacionada aos ensaios de Bernoulli. Lembre-se que para ser
um ensaio de Bernoulli um experimento tem que possuir as seguintes caractersticas:

Acontecer n repeticoes independentes;

Apresentar apenas dois resultados possveis (sucesso e fracasso) em cada repeticao.

Por se tratar de uma distribuicao de probabilidade teorica pode-se representa-la por meio de
uma tabela e, o mais comum, por meio de uma formula denominada funcao de probabilidade:
P (X = x) = Cn,x px q nx
Em que:

x = 0, 1, . . . , n;

n!
Cn,x = ;
x!(n x)!

n: e o numero de repeticoes no experimento;

x: e o numero de sucessos de interesse;

p: e a probabilidade de ocorrer um sucesso;

q: e a probabilidade de ocorrer o fracasso - q = 1 p.

A variavel aleatoria X: numero de sucessos em n repeticoes de um experimento de Bernoulli


possui distribuicao binomial, cuja notacao e X Bin(n, p) e apresenta:

media: X = n p;

2
variancia: X = n p q.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 67


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

7.2.3.1 Exemplo
Considere a variavel X: numero de meninas nascidas em 3 nascimentos. Sabendo que X
apresenta distribuicao binomial com n = 3 e p = 1/2, isto e, X Bin(n = 3, p = 1/2), calcule a
probabilidade de nascer, pelo menos 1 menina.
Solucao:
P (X 1) = P (X = 1) + P (X = 2) + P (X = 3)
Por outro lado,
P (X 1) = 1 P (X = 0)
P (X 1) = 1 C3,0 0,50 (0,5)3
P (X 1) = 1 1/8 = 7/8 = 0,875.

7.2.3.2 Exemplo
Sabendo que a probabilidade de um estudante obter aprovacao em certo teste de estatstica e
igual a 0,80, considerando um grupo de 5 estudantes, determine a probabilidade de que:
a) Nenhum seja aprovado.
b) Apenas um seja aprovado.
c) Ao menos um seja aprovado.
d) No maximo dois sejam aprovados.
e) O numero medio e a variancia dos aprovados.
Solucao:
Considerando a variavel X: numero de estudantes aprovados em certo teste de estatstica, pode-se escrever
como X Bin(n = 5, p = 0,80). Assim,
a) P (X = 0) = C5,0 0,800 (0,20)5 = 0,00032 = 0,032%
b) P (X = 1) = C5,1 0,801 (0,20)4 = 0,0064 = 0,64%

c) P (X 1) = 1 P (X < 1)
= 1 P (X = 0)
= 1 0,00032 = 0,9997 = 99,97%

d) P (X 2) = P (X = 0) + P (X = 1) + P (X = 2)
= P (X = 0) + P (X = 1) + P (X = 2)
= 0,00032 + 0,0064 + 0,0512 = 0,0579 = 5,79%

e) Media: X = n p = 5 0,80 = 4 aprovados


2
Variancia: X = n p q = 5 0,80 0,20 = 0,8 aprovado2 .

7.2.4 Distribuicao Poisson


Trata-se do caso limite da distribuicao binomial quando o numero de provas n tende para
o infinito (muito grande) e a probabilidade p de ocorrer um sucesso em cada prova e vizinha de zero
(muito pequena). Em essencia, a distribuicao de Poisson e a distribuicao binomial adequada para eventos
independentes e raros, ocorrendo em um perodo praticamente infinito de intervalos. Em geral a variavel
aleatoria e numero de elementos (ou indivduos) que ocorrem em um intervalo de tempo, ou em uma
superfcie, ou em volume determinado.
A funcao de probabilidade para uma variavel X P oisson() e:
x e
P (X = x) = , x = 0, 1, 2, 3 . . .
x!
Em que:
: e numero medio de elementos que ocorrem no intervalo (ou superfcie ou volume);
e = 2,718281 . . . (numero neperiano);
x: numero de ocorrencia ou sucessos.
A variavel aleatoria X: numero de elementos (ou indivduos) que ocorrem em um intervalo de
tempo, ou em uma superfcie, ou em volume determinado possui:
media: X = n p = ;
2
variancia: X = .

68 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

7.2.4.1 Exemplo
Em um determinado pas, o numero medio mensal de suicdios e 2,75. Assumindo que o numero
de suicdios segue uma distribuicao de Poisson, determine:
a) Qual e a probabilidade de que nenhum suicdio seja registrado durante determinado mes?
b) Qual e a probabilidade de que no maximo quatro suicdios sejam registrados?
c) Qual e a probabilidade de que seis ou mais suicdios sejam registrados?
Solucao:
Considerando a variavel X: numero de suicdios em um determinado pas, entao, X P oisson( = 2,75).
Assim:
2,750 e2,75
a) P (X = 0) = = 0,0639
0!
4
X 2,75x e2,75
b) P (X 4) =
x=0
x!
2,75
0
2,75 e 2,751 e2,75 2,752 e2,75 2,753 e2,75 2,754 e2,75
P (X 4) = + + + +
0! 1! 2! 3! 4!
P (X 4) = 00639 + 0,1758 + 0,2417 + 0,2216 + 0,1523 = 0,8554
5
X 2,75x e2,75
c) P (X 6) = 1
x=0
x!

P (X 6) = 1 [P (X 4) + P (X = 5)]
2,755 e2,75
 
P (X 6) = 1 0,8554 +
5!
P (X 6) = 1 [0,8554 + 0,0838] = 1 0,9392 = 0,0608

7.2.4.2 Exemplo
Seja X uma variavel aleatoria que representa o numero de bebes em um grupo de 2.000 que
morre antes de atingir o primeiro aniversario. Nos EUA, esta probabilidade e 0,0085.
a) Qual e o numero medio de bebes que morre em um grupo desse tamanho?
b) Qual a probabilidade de que no maximo cinco bebes dentre 2.000 morram em seus primeiros anos de
vida?
Solucao:
a) O numero medio e representado por = = n p = 2.000 0,0085 = 17
5
X 17x e17
b) P (X 5) =
x=0
x!
17
0
17 e 171 e17 172 e17 173 e17 174 e17 175 e17
P (X 5) = + + + + +
0! 1! 2! 3! 4! 5!
P (X 5) = 4,1 1008 + 7,0 1007 + 5,9 1006 + 3,3 1005 + 0,0001 + 0,0004 = 0,0006

7.3 Exerccios
1) Determine para cada experimento a variavel de interesse e os valores que a variavel pode assumir:
a) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se duas bolas aleatoriamente
desta urna sem reposicao.
Solucao: Uma variavel de interesse pode ser X: numero de bolas vermelhas extradas sem reposicao de
uma urna contendo 12 bolas
Os valores que a variavel X assume: 0, 1, 2, ou seja, X = {0, 1, 2}.
b) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se tres bolas aleatoriamente
desta urna sem reposicao.
c) Uma urna contem 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se duas bolas aleatoriamente
desta urna com reposicao.
d) Em uma maternidade ha 4 maes em trabalho de parto e observa-se o sexo dos nascidos.
2) Considerando tres maes em trabalho de parto e que um pesquisador nao conhece o sexo dos bebes,
determinar:
a) A distribuicao de probabilidades do numero X de meninos nascidos.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 69


Estatstica Basica 7 DISTRIBUICAO DE PROBABILIDADE

b) P (1 X 3).
c) P (X > 2).
Xn
d) Mostre que P (X = x) = 1.
x=0
3) Numa determinada cidade a probabilidade de nascer um menino, P (M ), e igual a duas vezes a
probabilidade de nascer uma menina, P (F ). Considerando cinco maes gravidas nesta cidade, determinar:
a) A distribuicao de probabilidades do numero X de meninas nascidas.
b) P (1 X 3).
c) P (X > 2).
X n
d) Mostre que P (X = x) = 1.
x=0
4) Suponha que haja em media 2 suicdios por ano numa populacao de 50 000. Em uma cidade de 100.000
habitantes, encontre a probabilidade de que em um dado ano tenha havido: a) 0; b) 1; c) 2; d) 2 ou mais
suicdios. (R: a)0,0183; b)0,0732; c)0,1464; d)0,9085.)
5) O numero de casos de tetano registrado nos Estados Unidos durante um unico mes, em 1989, tem
uma distribuicao de Poisson com parametro = 4,5.
a) Qual e a probabilidade de que exatamente um caso de tetano seja registrado durante um determinado
mes?
b) Qual o numero medio de casos de tetano registrado no perodo de um mes? Qual e o desvio padrao?
6) Seja X uma variavel aleatoria que representa o numero de bebes em um grupo de 2000 que morre
antes de atingir o primeiro aniversario. Nos Estados Unidos, a probabilidade de que uma crianca morra
durante o primeiro ano de vida e 0,0085.
a) Qual e o numero medio de bebes que morre em um grupo desse tamanho?
b) Qual a probabilidade de que no maximo cinco bebes dentre 2000 morram em seus primeiros anos de
vida?
c) Qual a probabilidade de que entre 15 e 20 bebes morram em seus primeiros anos de vida?
7) A sndrome de Aspen afeta 1 em cada 1.000 indivduos. Numa populacao de 2.500 indivduos, deter-
mine a probabilidade de encontrar:
a) menos de 2 indivduos com a sndrome.
b) mais de um indivduo com a sndrome.
8) Verifique se as seguintes distribuicoes sao distribuicoes de probabilidade. Apresente os calculos e jus-
tifique a sua resposta:
x 0 1 2 3 x 0 1 2 3
a) b)
P (X = x) 0,28 0,21 0,43 0,15 P (X = x) 1/2 1/4 5/4 1

7.3.1 Exerccios Extras


1) Um vendedor de apolice de seguros vende a 5 homens, todos da mesma idade e de boa saude. De
acordo com as tabelas atuariais, a probabilidade de um homem, dessa idade particular, estar vivo daqui
a 30 anos e de 2/3. Determinar a probabilidade de estarem ainda vivos daqui a 30 anos: a) todos os 5
homens; b) apenas 2; c) pelo menos 1 homem. (R: a)32/243; b)40/243; c)242/243.)
2) Suponha que a media do numero de peixes que rompem uma barreira seja de 5 por minuto. Qual e a
probabilidade de que 10 peixes ultrapassam a barreira durante o primeiro minuto?
3) Uma prova e composta por 10 testes de multipla escolha. Cada teste contem 5 alternativas, das quais
uma, e apenas uma, e correta. Qual a probabilidade de que um candidato, respondendo todas ao acaso,
acerte apenas uma questao?
4) Ana vai de onibus onde trabalha todos os dias. Ela sabe que, em media, passam 3 onibus para la no
intervalo de meia hora. Hoje e dia de uma cirurgia e ela nao pode se atrasar. Sabendo que a variavel
X e o numero de onibus que vai para o seu trabalho no intervalo de meia hora e que segue distribuicao
Poisson, encontre a probabilidade:
a) de Ana nao chegar a tempo.
b) de Ana chegar a tempo.
5) Suponha que foram selecionados cinco indivduos da populacao de pacientes picados com agulha
infectada com hepatite B. Sabendo que a probabilidade de que um indivduo desenvolva a doenca e 30%,
calcule:
a) A probabilidade de que pelo menos tres indivduos desenvolvam a hepatite B.
b) A probabilidade de que no maximo um paciente desenvolva a doenca.

70 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 FUNCAO DENSIDADE DE PROBABILIDADE

6) A probabilidade de Joaozinho ganhar um jogo de xadrez contra Mariazinha e 1/3. Qual a probabilidade
de Joaozinho ganhar ao menos 1 jogo em um total de 3 jogos?
7) Quais sao as probabilidades de obterem-se 9 pontos, em seis lances de um par de dados: a) duas vezes;
b) pelo menos 2 vezes. (R: a)61.440/531.441; b)72.689/531.441.)

8 FUNCAO DENSIDADE DE PROBABILIDADE

Na secao sobre probabilidade pode-se notar que os experimentos estudados estao relacionados
a variaveis qualitativas e variaveis quantitativas discretas. Por exemplo, no lancamento de um dado os
valores observados sao discretos; no lancamento de uma moeda os resultados observados sao qualitativos
nominais (cara ou coroa); na extracao de bolas de uma urna, a variavel e qualitativa nominal e assim por
diante.
Nas situacoes anteriores bastava associar o numero de elementos de interesse com o numero de
elementos do espaco amostral para encontrar a probabilidade procurada. Por outro lado, quando a carac-
terstica a ser observada (evento de interesse) se tratar de uma variavel contnua (dados antropometricos,
por exemplo) para calcular as probabilidades desejadas e necessario adotar um modelo matematico para
estimar as solucoes.
Uma funcao densidade de probabilidade e uma funcao que associa um intervalo de valores de
uma variavel aleatoria contnua a probabilidade de ocorrencia deste intervalo. Quando a variavel aleatoria
e contnua nao e possvel associar diretamente uma probabilidade de ocorrencia a cada valor da variavel
devido a propria natureza dela, pois sao infinitos valores.
O calculo das probabilidades e realizado obtendo-se a area compreendida sob a curva entre o
intervalo de valores definidos. A area corresponde a probabilidade e a altura a densidade de probabilidade.
Pelo calculo diferencial e integral a area sob uma curva limitada por dois valores a e b, sendo
a < b, de X e determinada pela integral definida por estes valores:
Z b
f (x) dx
a
Por se tratar de areas, nao ha sentido calcular a area formada por f (a), ou seja x = a, pois
neste ponto forma-se apenas uma semirreta de x = a ate f (x), por definicao uma semirreta nao tem
espessura, so comprimento, logo P (X = a) = 0.
Considerando a e b, sendo a < b , valores de uma variavel X, tem-se:
Z b
P (a X b) = P (a < X < b) = P (a X < b) = P (a < X b) = f (x) dx representa a
a
probabilidade de x ser um valor entre a e b, ou a area sob a curva limitada por a e b;
Z +
P (X a) = P (X > a) = f (x) dx representa a probabilidade de x ser um valor maior do que
a
a, ou a area sob a curva limitada por a e +;
Z a
P (X a) = P (x < a) = f (x) dx representa a probabilidade de x ser um valor menor do a,

ou a area sob a curva limitada por e a.

Figura 25 Representacao grafica das diferentes probabilidades

8.1 Condicoes para que uma funcao seja funcao densidade de probabilidade
1. f (x) 0, x, e uma funcao positiva definida;
Z +
2. f (x) dx = 1, a area sob a curva e igual a 1.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 71


Estatstica Basica 8 FUNCAO DENSIDADE DE PROBABILIDADE

8.2 Distribuicao normal


A curva normal, curva gaussiana, curva em forma de sino, e a mais importante das funcoes
densidade de probabilidade, muitos fenomenos podem ser modelados por ela. A sua representacao mate-
matica e dada por: 1 (x)2
f (x) = e 22 , < x < +
2
Em que:

representa a media da distribuicao;

representa o desvio padrao da distribuicao;

e e sao constantes irracionais, sendo = 3,1415 . . . e e = 2,7182 . . .;

x e o valor assumido pela variavel X.

Na Figura 26 estao representadas curvas normais com diferentes valores de e nas quais
pode-se observar: (a) curvas normais com diferentes valores de e valores iguais de ; (b) curvas normais
com mesmo valor de e diferentes valores de e (c) diferentes e .

Figura 26 Distribuicoes normais com diferentes valores para e

8.2.1 A distribuicao normal: informacoes adicionais


Quando uma variavel pode ser modelada segundo uma distribuicao normal usa-se expressar
em smbolos como X N (, ), cuja leitura e: X segue distribuicao normal com media e desvio
padrao .
A distribuicao normal apresenta algumas caractersticas (MUITO IMPORTANTE ISSO!) que
devem ser lembradas constantemente:

a curva possui a forma de sino;


a media, a mediana e a moda se coincidem no
centro da distribuicao;
e uma curva assintotica ao eixo horizontal,
isto e, as caudas se aproximam da linha de
base mas nunca a tocam, logo os seus limites
se estendem de menos infinito () a mais
infinito (+);
e uma curva simetrica em , o que significa
que se dividir a curva em cada parte con-
tera 50% da area sob a curva;
a area sob a curva e igual a 1; Figura 27 Caractersticas da curva normal
praticamente 68,26% da area esta entre 1
e + 1 e aproximadamente 95% esta entre
2 e 2.

8.2.2 Calculo de probabilidades de variaveis normais


Suponha que X: altura de estudantes de uma universidade segue distribuicao normal com media
170 cm e desvio padrao 10 cm. Se selecionar um aluno ao acaso qual e a probabilidade de que ele tenha
mais de 190 cm?

72 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 FUNCAO DENSIDADE DE PROBABILIDADE

Como X N ( = 170, = 10), a probabilidade pode ser representada e calculada por:


Z Z
1 (x)2
P (X > 190) = f (x)dx = e 22 dx
190 190 2

A probabildade acima mencionada, graficamente, corresponde a area representada na Figura 28.


Porem, calcular esta area manualmente e muito difcil, entretanto, a partir de alguns conceitos vistos a
seguir, tal procedimento se torna executavel e facil.

Figura 28 P (X > 190)

8.2.3 Distribuicao normal padronizada ou distribuicao normal padrao


E uma distribuicao de probabilidade que apresenta as mesmas caractersticas de uma distribui-
cao normal qualquer, sendo que a mais importante e a de apresentar media = 0 e desvio padrao = 1.
Alem disso, qualquer distribuicao normal com media e desvio padrao conhecidos pode ser transfor-
mada em uma distribuicao normal padronizada. A vantagem e que pode-se calcular a probabilidade de
qualquer variavel que apresente distribuicao normal por meio da padronizacao e da consulta na tabela
da distribuicao normal padronizada.
A transformacao da variavel X N (, ), em uma variavel Z, em que Z N ( = 0, = 1),
sendo Z denominada de variavel normal padronizada com media zero e desvio padrao 1, e dada por:
X
X N (, ) = Z = N (0, 1) Z N (0,1)

8.2.4 Calculo de probabilidades de variaveis normais padronizadas
8.2.4.1 Exemplo
Voltando ao problema de calcular a probabilidade P (X > 190), sendo X N ( = 170, = 10),
basta realizar o calculo:
x 190 170
z= = =2
10
Sendo:
z: valor da variavel Z;
x: valor da variavel X a ser padronizado;
: media da variavel normal X;
: desvio padrao da variavel X.
Tem-se que P (X > 190) = P (Z > 2) e da a area correspondente na distribuicao normal
padronizada e apresentada pela Figura 29:

Figura 29 P (Z > 2)

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 73


Estatstica Basica 8 FUNCAO DENSIDADE DE PROBABILIDADE

Esta area, ou melhor, probabilidade, pode ser encontrada na tabela que relaciona os valores
da distribuicao Z, normal padronizada, com os respectivos valores das probabilidades Z > z, ou seja
P (Z > z). Diferentes tabelas para a distribuicao normal padronizada podem ser encontradas na literatura,
mas todas apresentam mesmos valores de probabilidades, diferindo somente na forma de encontrar uma
determinada probabilidade (area).
Utilizando uma tabela que apresenta P (Z > z), isto e, a probabilidade acumulada a direita de
Z = z, entao P (Z > 2) pode ser encontrada facilmente como ilustra a Figura 30:

Figura 30 Valor tabelado para P (Z > 2): area sob a curva para Z > 2

Portanto, P (X > 190) = P (Z > 2) = 0,0228 ou 2,28%

8.2.4.2 Exemplo
Adotando a mesma variavel X N (170,10), considerando um grupo de 80 alunos, obtenha
P (154 < X < 171) e calcule o numero de alunos que estao dentro desta faixa de altura.
Solucao:
Primeiramente e necessario padronizar os valores da variavel X:
154 170 171 170
z1 = = 1,6 e z2 = = 0,1
10 10
Logo,
P (154 < X < 171) = P (1,6 < Z < 0,1).
Portanto,
P (1,6 < Z < 0,1) = 0,5 P (Z < 1,6) + 0,5 P (Z >
0,1)
P (1,6 < Z < 0,1) = 1 [P (Z > 1,6) + P (Z > 0,1)]
P (1,6 < Z < 0,1) = 1 [0,0548 + 0,4602] Figura 31 P (1,6 < Z < 0,1)
P (1,6 < Z < 0,1) = 0,4850

O numero esperado de alunos com altura entre 154 cm e 171 cm e 80 0,4850 = 38,8 alunos.

8.2.4.3 Exemplo
Suponha que o consumo diario de cachaca pelos alcoolatras de certa cidade seja normalmente
distribudo com media 320 mL e desvio padrao 50 mL. Selecionando ao acaso um alcoolatra desta cidade,
determine a probabilidade de que ele tenha consumo diario: a) maior que 330 mL: P (X > 330).

74 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 8 FUNCAO DENSIDADE DE PROBABILIDADE

Solucao: tem-se X: consumo diario de cachaca pelos alcoolatras de certa cidade, X N (320; 50).
330 320
Assim, z = = 0,2
50
Logo,
P (X > 330) = P (Z > 0,2) Portanto, P (Z > 0,2) = 0,4207 ou 42,07%.
b) inferior a 370 mL: P (X < 370)
370 320
Solucao: z = = 1,0
50
Assim:
P (X < 370) = P (Z < 1,0)
Portanto, P (Z < 1,0) = 1 P (Z > 1) = 1 0,1587 = 0,8413 ou 84,13%
c) entre 240 e 330 mL: P (240 < X < 330).
240 320 330 320
Solucao: z1 = = 1,6 e z2 = = 0,2
50 50
Assim:
P (240 < X < 330) = P (1,6 < Z < 0,2)
P (1,6 < Z < 0,2) = 0,5 P (Z < 1,6) + 0,5 P (Z > 0,2)
P (1,6 < Z < 0,2) = 1 [P (Z > 1,6) + P (Z > 0,2)]
P (1,6 < Z < 0,2) = 1 [0,0548 + 0,4207] = 0,5245 ou 52,45%
d) entre 320 e 380 mL: P (320 < X < 380)
320 320 380 320
Solucao: z1 = = 0 e z2 = = 1,2
50 50
Assim:
P (320 < X < 380) = P (0 < Z < 1,2)
Logo, P (0 < Z < 1,2) = [P (Z > 0) P (Z > 1,2)]
P (0 < Z < 1,2) = [0,50 0,1151] = 0,3849 ou 38,49%

a) P (Z > 0,2) b) P (Z > 1,0) c) P (1,6 < Z < 0,2) d) P (0 < Z < 1,2)

Figura 32 Representacao grafica das probabilidades

8.3 Exerccios
1) Observando a variavel relacione assinalando com um X a sua classificacao.

Classificacao
Variavel Qualitativa Quantitativa
Nominal Ordinal Discreta Contnua
Cor da pele
Idade em anos
Grau de desnutricao
Peso de recem-nascidos
Numero de leitos no hospital
Classe social (A, B, C, ...)
Numero de homens com enfisema pulmonar
Tipagem sangunea
Nome de vacinas
Numero de partos num determinado municpio
Altura de um grupo de pessoas
Temperatura corporal
Distancia percorrida por um maratonista
Numero de bacterias numa placa de petri
Numero de caries
Circunferencia cefalica

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 75


Estatstica Basica 9 TEORIA DA ESTIMACAO

2) Suponha que a va X seja distribuda normalmente, com uma media de 10 e um desvio padrao de 2.
Determine o seguinte:
a) P (X < 13)
b) P (X > 9)
c) P (6 < X < 14)
d) P (2 < X < 4)
3) Dentre as mulheres dos Estados Unidos de 18 a 74 anos, a pressao sangunea diastolica e normalmente
distribuda com media = 77 mm Hg e desvio padrao = 11,6 mm Hg.
a) Qual e a probabilidade de que uma mulher selecionada aleatoriamente tenha pressao sangunea dias-
tolica menor que 60 mm Hg?
b) Qual a probabilidade de que ela tenha pressao sangunea diastolica maior do que 90 mm Hg?
c) Qual a probabilidade de que ela tenha pressao sangunea diastolica entre 60 e 90 mm Hg?
4) A quantidade de agua destilada produzida por certa maquina tem distribuicao normal com valor
medio de 64 oncas e desvio padrao de 0,78 onca. Qual o volume x do recipiente que assegurara que ocorra
transbordamento em apenas 0,5% das vezes? Ou seja, qual o valor de x tal que P (X > x) = 0,005?
5) Determine o valor de z nas situacoes seguintes:
a) P (Z > z) = 0,004 b) P (Z > z) = 0,025 c) P (Z > z) = 0,03
d) P (Z > z) = 0,04 e) P (Z > z) = 0,05 f) P (Z > z) = 0,15
6) Determinar a area limitada pela curva normal em cada um dos casos.
a) Entre z = 0 e z = 1,2
b) Entre z = 0,68 e z = 0
c) Entre z = 0,46 e z = 2,21
d) Entre z = 0,81 e z = 1,94
e) A esquerda de z = 0,6
f) A direita de z = 1,28
g) A direita de z = 2,05 e a esquerda de z = 1,44
7) Determinar os valores de z, os quais se referem as areas limitadas pela curva normal, em cada um dos
casos: a) a area entre 0 e z e 0,3770; b) a area a esquerda de z e 0,8621; c) a area entre 1,5 e z e 0,0217.
(Resp: a)1,16; b)1,09; c)1,35)

9 TEORIA DA ESTIMACAO

9.1 Introducao
A finalidade da amostragem e a de obter uma indicacao do valor de um ou mais parametros de
uma populacao. Com as estatsticas das amostras, tais quais a media amostral, o desvio padrao amostral,
a proporcao amostral, entre outras, pode-se inferir a respeito dos respectivos parametros populacionais.
Isto e, a media amostral e usada para estimar a media populacional, o desvio padrao amostral e usado
para estimar o desvio padrao populacional e assim por diante.
E possvel notar que em diferentes amostras de uma mesma populacao sao obtidos diferentes
elementos e, portanto, estatsticas com valores diferentes.

9.1.1 Exemplo
Considere uma populacao composta por N = 6 indivduos: A, B, C, D, E e F cujos valores da
variavel de interesse X sao: 2, 3, 6, 8, 11 e 18, respectivamente. Suponha que serao realizadas 2 amostras
de tamanho n = 2 por diferentes pessoas. Uma pessoa podera amostrar os indivduos A e E, cujos valores
sao: 2 e 11. A segunda pessoa podera sortear C e E, com valores 6 e 11. A media obtida dos valores da
pessoa A e igual a 6,5, enquanto que a media obtida pela pessoa B e 8,5.
Os diferentes valores amostrados sao devidos ao acaso e esta variacao de elementos amostrados
e denominada de variabilidade amostral, por este motivo nunca se esta 100% certo de que o valor da
estatstica corresponde ao valor do parametro populacional.
Felizmente, conhecendo-se a distribuicao amostral de um estimador e usando a inferencia esta-
tstica pode-se obter conclusoes sobre o parametro populacional desconhecido.

9.1.2 Distribuicao amostral


Uma distribuicao amostral consiste na organizacao dos valores obtidos de alguma estatstica,
oriundos de todas as amostras de um determinado tamanho retiradas de uma populacao, em uma tabela

76 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 9 TEORIA DA ESTIMACAO

de distribuicao de frequencias ou em um grafico. Esta representacao a torna uma distribuicao de proba-


bilidade que indica o quao provaveis sao as ocorrencias dos diversos valores de alguma estatstica, obtidos
em todas as amostras do mesmo tamanho retiradas de uma populacao. Com amostras de diferentes
tamanhos, diferentes distribuicoes de amostragem ocorrerao.

9.1.3 Exemplo
Suponha que uma populacao composta por quatro indivduos A, B, C e D cuja medida da
variavel de interesse X seja representada pelos valores 2, 5, 8 e 11. Ao se retirar todas as amostras
possveis de tamanho n = 2 desta populacao obtem-se as seguintes amostras e respectivas medias.

Tabela 32 Todas as amostras de tamanho n = 2 e as medias de cada amostra


Amostra Valores amostrados Media Amostra Valores amostrados Media
(A, A) (2, 2) 2,0 (C, A) (8, 2) 5,0
(A, B) (2, 5) 3,5 (C, B) (8, 5) 6,5
(A, C) (2, 8) 5,0 (C, C) (8, 8) 8,0
(A, D) (2, 11) 6,5 (C, D) (8, 11) 9,5
(B, A) (5, 2) 3,5 (D, A) (11, 2) 6,5
(B, B) (5, 5) 5,0 (D, B) (11, 5) 8,0
(B, C) (5, 8) 6,5 (D, C) (11, 8) 9,5
(B, D) (5, 11) 8,0 (D, D) (11, 11) 11,0

Construindo uma tabela para representar as medias observadas acima, tem-se:

Tabela 33 Distribuicao amostral das medias


de amostras de tamanho n = 2
Medias Frequencia Frequencia relativa
2,0 1 0,0625
3,5 2 0,1250
5,0 3 0,1875
6,5 4 0,2500
8,0 3 0,1875
9,5 2 0,1250
11,0 1 0,0625
Total 16 1,0000

Alem disso, ao se obter a media de todas as medias, o valor encontrado e igual a X = 6,5. Este
resultado corresponde a media populacional, o que nao e coincidencia. Veja, tambem, que na distribuicao
das medias o valor com maior probabilidade de ocorrencia e a media = 6,5.
Embora esta abordagem emprica das distribuicoes amostrais nao seja pratica, pois se tem
que conhecer todos os elementos da populacao e realizar a listagem de todos os resultados possveis de
amostras de mesmo tamanho, ao se considerar em pequena escala permite observar o que uma distribuicao
amostral realmente e. Na pratica, as distribuicoes amostrais ja estao disponveis em tabelas e em graficos
e as mais usadas sao a binomial, a normal, a t de Student, a 2 entre outras.

9.1.4 Teorema do Limite Central


Um fato que se pode observar nas distribuicoes de amostragem de medias ou de proporcoes
e que elas apresentam uma tendencia a serem aproximadamente normal. Quanto maior for o tamanho
da amostra mais aproximada da distribuicao normal esta a distribuicao de amostragem, normalmente
amostras de tamanho n 30 e suficientemente grande.
Desde que a distribuicao da populacao original tenha media e desvio padrao , a distribuicao
amostral das medias calculadas para amostras de tamanho n tem tres propriedades importantes:
A media da distribuicao amostral das medias, X , e identica a media, , da populacao: X = .

O desvio padrao da distribuicao amostral das medias, X , e igual a . Essa estatstica e conhecida
n
como erro padrao da media.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 77


Estatstica Basica 9 TEORIA DA ESTIMACAO

Com a condicao de que n seja suficientemente grande, a forma da distribuicao amostral e aproxi-
madamente normal.

Quando se confecciona a distribuicao amostral das proporcoes, desde que p nao seja muito
pequeno ou nao seja muito grande, observa-se que a media da distribuicao amostral das proporcoes, p , e
identica
r a proporcao populacional,
r p: p = p, alem disso o desvio padrao da distribuicao, p , corresponde
p(1 p) p(1 p)
a , isto e, p = .
n n
Essa situacao e conhecida como teorema do limite central e representa, talvez, o conceito mais
importante na inferencia estatstica.

9.2 Estimacao
A estimacao e o processo pelo qual se utiliza de dados amostrais para estimar os valores dos
parametros populacionais que sao desconhecidos. Assim, usa-se uma media amostral para estimar a media
populacional; uma proporcao amostral serve para estimar uma proporcao populacional; uma variancia
amostral e usada para estimar a variancia populacional, e assim por diante.
Duas formas de estimacao sao usadas: a estimacao pontual e a estimacao por intervalo.

9.2.1 Estimacao pontual


Este metodo de estimacao fornece um valor de estimativa para o parametro de interesse. Os
estimadores mais comuns sao: x, s2 , p, os quais estimam , 2 e p, respectivamente. O problema e que
duas amostras diferentes muito pouco provavelmente fornecerao a mesma estimativa para o parametro
de interesse, alem do fato de que estas duas estimativas nao sao iguais a media da populacao, embora os
dois valores, sejam, em geral, proximos. Por isso e comum utilizar uma estimativa intervalar juntamente
com a estimativa pontual. E que uma estimativa intervalar fornece um intervalo de valores para o qual
e possvel afirmar que o parametro populacional esteja contido e, tambem, que e transmitido o grau de
incerteza envolvido sobre a afirmacao de quao perto esta a estimativa do valor do parametro.

9.2.2 Estimacao intervalar


Por meio das distribuicoes amostrais pode ser ter uma ideia de que e possvel obter diferentes
valores para uma determinada estatstica (por exemplo, a media amostral). E que estes diferentes valo-
res representam uma observacao daquela distribuicao amostral, por este motivo e importante conhecer
as caractersticas desta distribuicao amostral (lembre-se do teorema do limite central, pagina 77, para
distribuicao amostral das medias e das proporcoes).
A quantificacao de quao proxima esta uma media amostral da media populacional depende da
variabilidade na distribuicao amostral, isto e, do desvio padrao da distribuicao amostral. Quanto maior
for o tamanho da amostra, o desvio padrao da distribuicao amostral diminui, por outro lado, quanto
maior a variabilidade da populacao, maior a variabilidade na distribuicao amostral.
Por estes motivos e que ao estimar uma media ou uma proporcao populacional, o desvio padrao
da populacao e levado em conta. Para o caso de estimar a media populacional, duas situacoes podem
ocorrer: a primeira, quando o desvio padrao populacional e conhecido e a segunda, quando o desvio
padrao populacional nao e conhecido.

9.2.2.1 Intervalo de confianca para a media quando o desvio padrao populacional e


conhecido
Considere uma populacao17 em que foi retirada uma amostra aleatoria com o objetivo de estimar
a media populacional, , por meio da media amostral, x, observada e que o desvio padrao populacional, ,
e conhecido. O intervalo de confianca com 1 de confianca que contem o verdadeiro valor do parametro
e definido por:  

IC1 () = x z/2 , x + z/2
n n
Em que:
1 e o nvel de confianca ou grau de confianca ou coeficiente de confianca;
e o nvel de significancia;
17 Se n 30 a distribuicao nao precisa ser normalmente distribuda e nem o desvio padrao populacional precisa ser
conhecido.

78 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 9 TEORIA DA ESTIMACAO

z/2 e o valor de z que limita uma area de /2 na extremidade superior da distribuicao normal padrao e
z/2 e o valor de z que limita uma area de /2 na extremidade inferior da distribuicao18 .
Este intervalo significa que se forem retiradas muitas amostras de tamanho n de uma populacao,
1 intervalos de confianca irao incluir o valor do parametro . Basicamente seria observar 100 amostras
de tamanho n de modo que se 1 = 0,95 e para cada uma dessas 100 amostras fosse calculado o intervalo
de confianca, aproximadamente 95 intervalos incluirao .

9.2.2.1.1 Exemplo
As distribuicoes das pressoes sanguneas sistolicas e diastolicas para mulheres diabeticas en-
tre 30 e 34 anos tem medias desconhecidas. Entretanto, seus desvios padrao sao s = 11,8 mm Hg e
d = 9,1 mm Hg, respectivamente.
a) Uma amostra aleatoria de dez mulheres e selecionada dessa populacao. A pressao sangunea sistolica
media para a amostra e x = 130 mm Hg. Calcule um intervalo de confianca de 95% para s , a verdadeira
pressao sangunea sistolica media.
Resolucao:
 

IC1 () = x z/2 , x + z/2
n n
 
11,8 11,8
IC95% () = 130 1,96 , 130 + 1,96
10 10
IC95% () = [122,69, 137,31]
H I H
b) Interprete esse intervalo de confianca.
Resolucao:
Pode-se afirmar com 95% de confianca que a verdadeira media da pressao sangunea sistolica para mu-
lheres diabeticas entre 30 e 34 anos e um valor entre 122,69 e 137,31 mm Hg.

H I H
c) A pressao sangunea diastolica media para a amostra de tamanho 10 e x = 84 mm Hg. Encontre um
intervalo de confianca de 90% para d , a verdadeira pressao sangunea diastolica media da populacao.
Resolucao:
 

IC1 () = x z/2 , x + z/2
n n
 
9,1 9,1
IC90% () = 84 1,64 , 84 + 1,64
10 10
IC90% () = [79,28, 88,72]
H I H
d) Calcule um intervalo de confianca com 99% para d .
Resolucao:
 

IC1 () = x z/2 , x + z/2
n n
 
9,1 9,1
IC99% () = 84 2,57 , 84 + 2,57
10 10
IC99% () = [76,60, 91,40]
H I H
e) Como o intervalo de confianca de 99% se compara ao intervalo de 90%?
Resolucao:
18 z/2 corresponde a um valor de z de modo que P (Z > z/2 ) = /2 e z/2 corresponde a um valor de z tal que
P (Z < z/2 ) = /2. Dado /2 busca-se na tabela o valor de z, ou seja de z/2 .

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 79


Estatstica Basica 9 TEORIA DA ESTIMACAO

Quanto maior o nvel de confianca com que o intervalo inclui a verdadeira media populacional, maior e o
valor do escore z, maior e a margem de erro e mais amplo e o intervalo de confianca.

H I H

9.2.2.2 Intervalo de confianca para a media quando o desvio padrao populacional e


desconhecido
Considere uma populacao19 em que foi retirada uma amostra aleatoria com o objetivo de estimar
a media populacional, , por meio da media amostral, x, observada e que o desvio padrao populacional,
, nao e conhecido. O intervalo de confianca com 1 de confianca que contem o verdadeiro valor do
parametro e definido por:
 
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n

Em que:
1 e o nvel de confianca ou grau de confianca ou coeficiente de confianca;
e o nvel de significancia;
t(/2, n1) e o valor que limita uma area de /2 na extremidade superior da distribuicao t de Student e
t(/2, n1) e o valor que limita uma area de /2 na extremidade inferior da distribuicao;
(n 1) representa os graus de liberdade da distribuicao t.
A distribuicao t de Student mencionada acima e uma distribuicao de probabilidade semelhante
a normal padronizada, pois e unimodal, simetrica em zero, tem a forma de sino e area sob a curva e
igual a 1. A distribuicao t tem uma propriedade denominada graus de liberdade que medem o volume
de informacao disponvel nos dados que podem ser usados para estimar 2 , por este motivo medem a
confiabilidade de s2 como um estimador de 2 . De modo que quando n e grande, s2 se aproxima de 2 ,
fazendo com que uma variavel T se aproxime da variavel Z, por outro lado, quando n e pequeno, isso
nao ocorre. A variavel T e uma variavel que se distribui segundo uma distribuicao t de Student com
nvel de significancia e graus de liberdade iguais n 1. Consequentemente, para cada valor de graus
de liberdade ha uma diferente distribuicao t.
Portanto, se n for pequeno, se a populacao se distribui normalmente e com desvio padrao
desconhecido, o intervalo de confianca para a media populacional devera ser calculado considerando-se a
distribuicao t.

9.2.2.2.1 Exemplo
Dados e n 1 obtenha os quantis, t(, n1) , abaixo da distribuicao de probabilidades t de
Student, veja a Tabela 35, pagina 109:

a) t(0,01; 8) = 2,896 d) t(0,01; 11) = 2,718


b) t(0,025; 8) = 2,306 e) t(0,025; 11) = 2,201
c) t(0,05; 8) = 1,860 f) t(0,05; 11) = 1,796

Resolucao:

Para encontrar os valores dos quantis, basta relaci-


onar o nvel com o respectivo grau de liberdade,
o numero obtido nesta intersecao corresponde ao
quantil da distribuicao t.
a) t(0,01; 8) = 2,896
b) t(0,025; 8) = 2,306
c) t(0,05; 8) = 1,860
d) t(0,01; 11) = 2,718
e) t(0,025; 11) = 2,201
f) t(0,05; 11) = 1,796

Figura 33 Destaque dos quantis solicitados

19 Se n < 30 a distribuicao precisa ser normalmente distribuda.

80 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 9 TEORIA DA ESTIMACAO

9.2.2.2.2 Exemplo
As distribuicoes das pressoes sanguneas sistolicas e diastolicas para mulheres diabeticas entre
30 e 34 anos tem medias desconhecidas.
a) Uma amostra aleatoria de dez mulheres e selecionada dessa populacao. A pressao sangunea sistolica
media para a amostra e x = 130 mmg Hg com desvio padrao s = 11,8 mmg Hg. Calcule um intervalo de
confianca de 95% para s , a verdadeira pressao sangunea sistolica media.
Resolucao:
 
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n
 
11,8 11,8
IC95% () = 130 2,262 , 130 + 2,262
10 10
IC95% () = [121,56, 138,44]
H I H
b) Interprete esse intervalo de confianca.
Resolucao:
Pode-se afirmar com 95% de confianca que a verdadeira media da pressao sangunea sistolica para mu-
lheres diabeticas entre 30 e 34 anos e um valor entre 121,56 e 138,44 mmg Hg.

H I H

c) A pressao sangunea diastolica media para a amostra de tamanho 10 e x = 84 mmg Hg apresentando


desvio padrao s = 9,1 mmg Hg. Encontre um intervalo de confianca de 90% para d , a verdadeira pressao
sangunea diastolica media da populacao.
Resolucao:
 
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n
 
9,1 9,1
IC90% () = 84 1,833 , 84 + 1,833
10 10
IC90% () = [78,73, 89,27]

H I H

d) Calcule um intervalo de confianca com 99% para d .


Resolucao:
 
s s
IC1 () = x t(/2, n1) , x + t(/2, n1)
n n
 
9,1 9,1
IC99% () = 84 3,250 , 84 + 3,250
10 10
IC99% () = [74,65, 93,35]

H I H

e) Como o intervalo de confianca de 99% se compara ao intervalo de 90%?


Resolucao:
Quanto maior o nvel de confianca com que o intervalo inclui a verdadeira media populacional, maior e o
valor do t(/2, n1) , maior e a margem de erro e mais amplo e o intervalo de confianca.

H I H

9.2.2.3 Intervalo de confianca para uma proporcao p


Estimar um proporcao populacional p considerando uma proporcao amostral p e semelhante a
estimativa da media populacional. Como o intervalo de confianca para a proporcao se baseia em uma
amostra grande a distribuicao amostral e semelhante a distribuicao normal. Assim, para uma amostra

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 81


Estatstica Basica 9 TEORIA DA ESTIMACAO

aleatoria particular de tamanho n, a proporcao amostral p e calculada e o seguinte intervalo de confianca


aproximado para p e obtido:
" r r #
p(1 p) p(1 p)
IC1 (p) = p z 2 ; p + z 2
n n

Em que:
y
p = : e a proporcao amostrada sendo y o numero de sucessos observados numa amostra de tamanho n.
n

9.2.2.3.1 Exemplo
Deseja-se avaliar a aceitacao de um novo produto no mercado. Efetuou-se uma amostragem
com n = 664 pessoas e 200 pessoas afirmaram que passariam a usar regularmente o produto. Construa
um intervalo de 99% de confianca para p: a proporcao de futuros consumidores desse produto. Interprete
o resultado.
Resolucao:
Pelos dados informados, tem-se:
y 200
p = = = 0,3012; z/2 = z0,005 = 2,57
n 664
" r r #
p(1 p) p(1 p)
IC1 (p) = p z/2 ; p + z/2
n n
" r r #
0,3012(1 0,3012) 0,3012(1 0,3012)
IC99% (p) = 0,3012 2,57 ; 0,3012 + 2,57
664 664

IC99% (p) = [0,2554; 0,3470]


Pode-se afirmar com 99% de confianca que a verdadeira proporcao de consumidores desse pro-
duto e um valor entre 0,2554 e 0,3470 (ou seja, entre 25,54% e 34,70%).
H I H

9.2.2.4 Determinacao do tamanho amostral


Em muitos casos antes de se fazer uma pesquisa nao se tem ideia de qual e o tamanho da
amostra necessario para estimar uma media, uma proporcao etc que lhe assegurara trabalhar com uma
certa margem de erro de estimacao.
Para calcular o tamanho amostral20 define-se qual e o erro de estimacao E e o nvel de confianca
(1) que se quer trabalhar. O nvel de confianca e a probabilidade de que o valor estimado do parametro
esteja correto. O erro de estimacao corresponde a diferenca entre a media amostral e a verdadeira media da
populacao (ou entre a proporcao amostral e proporcao verdadeira). Os intervalos de confianca estudados
sao centrados em suas respectivas estimativas, sendo os limites inferior e superior definidos por diferenca
e soma entre a estimativa e o erro de estimacao. A esquematizacao dos intervalos de confianca esta
apresentada na Figura 34.

Figura 34 Esquematizacao dos intervalos de confianca para e p

De acordo com a Figura 34 pode-se verificar que os respectivos erros de estimacao sao:

E = z/2 - para media quando a variancia populacional e conhecida;
n
s
E = t( , n1) - para media quando a variancia populacional e desconhecida;
2 n
20 Ha varias maneiras para calcular o tamanho de uma amostra.

82 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 9 TEORIA DA ESTIMACAO

r
p(1 p)
E = z/2 - para proporcao.
n

A partir de operacoes matematicas simples obtem-se uma formula para calcular n para cada
situacao:
2
z/2 2
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo de
E2
confianca para media quando a variancia populacional e conhecida;

t2(/2; n0 1) s20
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo
E2
de confianca para media quando a variancia populacional e desconhecida;
2
z/2 p(1 p)
n= - quando o objetivo e determinar o tamanho da amostra para calcular o intervalo
E2
de confianca para proporcao. Neste caso se tem a ideia de p obtida por meio de uma amostra piloto
ou observada em uma pesquisa similar. Quando nao se tem conhecimento de p adota-se p = 0,5
que fornece n maximo, pois p(1 p) 0,25.

Em que:
E: erro desejado definido pelo pesquisador; z/2 : valor tabelado da normal; 2 : variancia populacional;
s20 : variancia da amostra piloto; n0 1: graus de liberdade da amostra piloto e p: proporcao amostral.
Pode-se ver que E e inversamente proporcional a n. Logo, quanto maior o tamanho da amostra
menor sera o valor de E (largura menor) e, portanto, maior sera a precisao na estimacao. E importante
destacar que precisao e diferente de confianca.

9.2.2.4.1 Exemplo
De uma pesquisa passada sabe-se que o desvio padrao da altura de criancas da 5a serie (6o
ano) e de 5 cm. Que tamanho deve ter uma amostra para que o intervalo 150 0,98 cm tenha 95% de
confianca?
Resolucao:
Tem-se: E = 0,98 e z/2 = z0,025 = 1,96, assim:
2
z/2 2 1,962 52
n= 2
= = 100 criancas.
E 0,982 H I H

9.2.2.4.2 Exemplo
Em um estudo para a determinacao do perfil dos veteranos de um colegio a caracterstica de
maior interesse tem s0 = 0,3, obtida em uma amostra piloto de tamanho n0 = 20. Qual deve ser o
tamanho da amostra para que se tenha 95% de confianca de que o erro E = x da estimativa de
correspondente a essa caracterstica nao supere 0,05?
Resolucao:
Tem-se: n = 20; t(/2, n1) = t(0,025; 19) = 2,093; s = 0,3, assim:
t2( ;) s20 2,0932 0,32
n= 2 2 = = 157,7 158 estudantes.
E 0,052 H I H

9.2.2.4.3 Exemplo
Numa pesquisa epidemiologica deseja-se estimar, com 90% de confianca, o parametro populaci-
onal: p = proporcao de pessoas infectadas, com erro amostral maximo de 1%. Qual deve ser o tamanho
de uma amostra aleatoria simples supondo que, na populacao em estudo, nao existam mais que 20% de
indivduos infectados?
Resolucao:
y
Tem-se p = = 20% = 0,20; z/2 = z0,05 = 1,64.
n
2
z/2 p(1 p) 1,642 0,2(1 0,2)
n= = = 4303,6 4304 pessoas.
E2 0,012 H I H

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 83


Estatstica Basica 9 TEORIA DA ESTIMACAO

9.2.2.4.4 Exemplo
Com o objetivo de avaliar a preferencia do eleitor na vespera de uma eleicao para a prefeitura
de um municpio, planeja-se um levantamento por amostragem aleatoria simples. Considere que seja
admissvel um erro amostral de ate 2%, com 95% de confianca, para as estimativas dos percentuais dos
varios candidatos. Quantos eleitores devem ser consultados?
Resolucao:
Tem-se: p =?, portanto p = 0,5; z/2 = z0,025 = 1,96
2
z/2 p(1 p) 1,962 0,5(1 0,5)
n= 2
= = 2401 eleitores.
E 0,022 H I H

9.3 Exerccios

N
!2
X

N
xi
1 X
i=1

Nos exerccios a seguir use 2 = x2i para obter a variancia populacional.

N N


i=1

1) Considere uma populacao em que p = 0,10. Se extrarem amostras de tamanhos n = 5 e n = 50, qual
e o erro padrao de p para as duas distribuicoes amostrais?
2) Considere uma populacao de respostas de tres indivduos a respeito de uma pesquisa do tipo dicotomica,
cujos valores sao 0, 1 e 0. Apresente todas as amostras de tamanho n = 2 que podemrser obtidas com
p(1 p)
reposicao, determine o estimador p de cada amostra. Verifique que p = p e que p = .
n
3) Considere uma populacao composta por 3 indivduos: A, B, C, cuja medida da variavel de interesse
X apresenta os seguintes valores: 2, 4, 6.
a) Determine e 2 .
b) Apresente todas as amostras de tamanho n = 2 que podem ser obtidas com reposicao, determine a
media de cada valor da variavel de cada amostra.

c) Verifique que X = e X = para (b).
n
4. Uma amostra aleatoria de 8 barras de cereais da marca PAF apresentou os seguintes conteudos de
gordura saturada, em gramas:
0,6 0,7 0,7 0,3 0,4 0,5 0,4 0,2
Sabe-se que essa variavel e normalmente distribuda com desvio padrao = 0,15 gramas.
a) Construa e interprete os ICs a 95% e a 99% para o teor medio verdadeiro de gordura saturada.
b) Quais os comprimentos dos dois intervalos? Qual e maior? Isso era esperado?
c) Suponha que no item (a) o desvio padrao nao e conhecido. Como voce construiria o IC a 95% de
confianca para ? Qual e este intervalo?
5. Os resultados abaixo referem-se a tensao de ruptura de uma amostra de n = 10 implantes mamarios
fabricados com gel de silicone.
Tensao media amostral de ruptura = 70,58 MPa
Desvio padrao amostral = 5,59 MPa
a) Obtenha um intervalo de confianca a 99% para media populacional da tensao de ruptura desses
implantes.
b) Obtenha o IC para a media supondo que o valor da media amostral foi obtido com base em 20 implantes
e o interprete.
c) O que ocorre com o comprimento do IC quando o tamanho amostral aumenta, mantendo-se o nvel de
confianca constante?
d) Qual foi o erro de estimacao do IC obtido na letra (b)?
6. Um pesquisador esta estudando a resistencia de um determinado material sob determinadas condicoes.
Ele sabe que essa variavel e normalmente distribuda com desvio padrao de duas unidades. Utilizando os
valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,0; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine:
(a) o intervalo de confianca para a resistencia media com um coeficiente de confianca de 90% e 95%; (b)
qual o tamanho da amostra necessario para que o erro cometido, ao estimarmos a resistencia media, nao
seja superior a 0,01 unidade com confianca 90%?
7. Um pesquisador esta estudando a resistencia de um determinado material sob determinadas condicoes.
Ele sabe que essa variavel e normalmente distribuda. Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8;
7,0; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o intervalo de confianca para a

84 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 10 TEORIA DA DECISAO

resistencia media com um coeficiente de confianca de 90%. Qual devera ser o tamanho da amostra com
1 = 95% para que se tenha um erro menor do 0,5 unidade?
8. Um centro de pesquisas de opiniao realizou uma pesquisa para avaliar a intencao de votos dos eleitores
de uma determinada cidade. Foram entrevistados 380 eleitores, selecionados aleatoriamente e constatou-
se que 180 pretendem votar num determinado candidato.
a) Determine um intervalo de confianca de 90% para p: proporcao de eleitores votantes no determinado
candidato e interprete o resultado.
b) Determine um intervalo de confianca de 95% para p: proporcao de eleitores votantes no determinado
candidato e interprete o resultado.
c) Qual intervalo e maior? Por que?
9. Uma reporter da revista Byte deseja fazer uma pesquisa para estimar a verdadeira proporcao de todos
os universitarios que tem computador pessoal, e quer ter 95% de confianca de que seus resultados tenham
uma margem de erro de 4%. Quantos universitarios devem ser pesquisados quando:
a) Ha uma estimativa de p, obtida em estudo anterior, que revele uma porcentagem de 27%.
b) Nao ha informacoes anteriores sobre o valor de p.

10 TEORIA DA DECISAO

10.1 Introducao
Sobre a teoria de estimacao o assunto abordado fora o de encontrar uma estimativa para um
parametro em estudo. Tal estimativa permitia fazer uma afirmacao sobre o parametro desconhecido
considerando um determinado nvel de confianca.
Entretanto, na maioria das situacoes o pesquisador nao tem por objetivo estimar um parametro,
mas decidir entre duas alegacoes contraditorias sobre o parametro. A estas duas afirmacoes contraditorias
da-se o nome de hipotese nula (H0 ) e hipotese alternativa (H1 ).
O objetivo de um teste de hipoteses e basicamente a escolha entre estas duas afirmacoes, que
sao concorrentes, mutuamente exclusivas e que podem considerar um ou mais parametros da populacao
ou, ainda, sobre a forma de uma distribuicao de probabilidade. O teste de hipoteses nada mais e que um
metodo para tomada de decisao (????).
A hipotese nula (H0 ) e a alegacao inicialmente assumida como verdadeira. Sempre sera definida
como uma expressao de igualdade. Considere, por exemplo, como um parametro de interesse, a hipotese
nula tera a forma H0 : = 0 , em que 0 e um valor especificado do parametro.
O parametro e uma caracterstica da populacao, assim, poderia ser:
: media populacional e por exemplo 0 = 0 = 25mg o valor especificado;
p: proporcao populacional e por exemplo 0 = p0 = 25% o valor especificado;
2 : variancia populacional e por exemplo 0 = 02 = 500g2 o valor especificado;
entre outros.
Por outro lado, a hipotese alternativa (H1 ) e a afirmacao contraditoria de H0 . Estabelecer H0
e H1 depende exclusivamente da natureza do problema em estudo. Por convencao, os smbolos =, e
estao associados a H0 e os smbolos 6=, < e >, estao associados a H1 .
Ao se realizar um teste de hipoteses, a hipotese nula sera rejeitada em favor da hipotese al-
ternativa somente se a evidencia da amostra sugerir que H0 seja falsa atraves do valor da estatstica de
teste que assumira um valor na regiao crtica. Caso contrario, ou seja, se a amostra nao contradisser
fortemente H0 , continua-se a acreditar na verdade da hipotese nula; neste caso o valor da estatstica de
teste nao assumira um valor na regiao crtica.
Pode-se achar que sendo a hipotese alternativa rejeitada, aceita-se a hipotese nula. Nao, nao e
assim que funciona. Em um teste de hipoteses a logica e estabelecer o nulo como condicao que precisa
ser invalidada. Portanto, a conclusao a qual se chega quando a estatstica de teste nao esta na regiao
crtica e que o nulo nao foi invalidado. Assim, pela linguagem formal do teste de hipoteses, a conclusao e:
rejeita-se a hipotese nula ou nao se rejeita a hipotese nula. Alternativamente, pode-se declarar que o
teste foi estatisticamente significativo ou nao foi estatisticamente significativo.
A regiao crtica e uma regiao definida na cauda da curva da distribuicao de probabilidade
inerente ao teste de hipotese, a sua posicao e o tamanho da regiao nao sao arbitrarios. O tamanho
dessa regiao e simbolizado por (le-se: alfa), geralmente sao usados 0,05 ou 0,01, mas podendo ser
definido outros valores, se desejado.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 85


Estatstica Basica 10 TEORIA DA DECISAO

10.2 Erros envolvidos num teste de hipotese


Como a tomada de decisao sobre a nao rejeicao ou rejeicao de uma hipotese esta lancada apenas
na informacao dos dados amostrais, ha sempre a possibilidade de se tomar a decisao errada. Entao, ao
realizar um teste de hipotese, dois tipos de erros podem ser cometidos:
Erro tipo I: rejeitar H0 quando ela e verdadeira;
Erro tipo II: nao rejeitar H0 quando ela e falsa.
O quadro abaixo resume a natureza dos erros envolvidos no processo de decisao atraves do teste
de hipoteses.
Realidade
Decisao
H0 verdadeira H0 Falsa
Rejeicao de H0 Erro tipo I Decisao correta
Nao rejeicao de H0 Decisao correta Erro tipo II
A probabilidade de se cometer o erro tipo I e denotada por e e chamada de nvel de significancia
do teste. A probabilidade de ocorrencia do erro tipo II e denotada por (le-se: beta).
Para que um teste de hipoteses seja considerado bom deve-se ter uma pequena probabilidade
de rejeitar H0 se esta for verdadeira, mas tambem, uma grande probabilidade de rejeita-la se ela for a
falsa.
Serao abordados testes em que apenas o erro tipo I e controlado (testes de significancia), isto
devido a que o controle do erro tipo II precisa de tecnicas mais avancadas. Na literatura os valores para
sao fixados em 5% e 1% sao pequenos o bastante para a ocorrencia do erro tipo I. Mas, por outro
lado, estes valores nao sao suficientemente pequenos para a ocorrencia do erro tipo II. Teoricamente o
erro tipo II pode ser minimizado por adotar uma serie de acoes como: a escolha do teste adequado e a
determinacao do tamanho de uma amostra ideal para que o teste tenha o maior poder possvel desde que
nao aumente o custo da pesquisa.

10.3 Mecanica operacional dos testes de hipoteses


Para a execucao de um teste de hipoteses seguir os passos abaixo:
1. Formular as hipoteses H0 e H1 segundo a natureza do problema em estudo;
2. Especificar o nvel de significancia;
3. Estabelecer a estatstica (z, t, 2 ou F ) e calcular o seu valor que definira a decisao considerando
H0 verdadeira;
4. Fazer o desenho da distribuicao de probabilidade do teste, estabelecer a regiao crtica e concluir
observando se o valor da estatstica pertence ou nao a regiao crtica.

10.4 Teste de hipoteses para uma media de uma populacao normal quando a variancia
populacional for desconhecida
Neste teste de hipoteses sera considerado o caso em que seja igual a um determinado valor
0 (media hipotetica da populacao), sendo a variancia populacional 2 desconhecida.
Conforme descrito na secao 10.3 para a execucao de um teste de hipoteses e necessario seguir 4
passos.
Oprimeiro e a formulacao
 das hipoteses asquais podem ter tres formas, , conforme o problema
H0 : = 0 H0 : = 0 H0 : = 0
em estudo: , e .
H1 : 6= 0 H1 : > 0 H1 : < 0
O segundo passo e a especificacao de , geralmente apresentado nos enunciados.
x 0
O terceiro passo e a obtencao do valor da estatstica tc = s usando os valores obtidos da

n
amostra e 0 , considerando tc t com = n 1 graus de liberdade (gl) sob H0 .
O quarto e ultimo passo e a conclusao de acordo com o(s) valor(es) da regiao(oes) crtica(s). Se
o valor da estatstica pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso
contrario, nao se rejeita H0 .

86 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 10 TEORIA DA DECISAO

Conforme a hipotese formulada obtem-se as seguintes regioes crticas:

Figura 35 Regioes crticas conforme H1 : 6= 0 ; H1 : > 0 e H1 : < 0

Sendo que o ttab quando H1 : 6= 0 deve ser consultado na tabela da distribuicao t conside-
rando ttab = t( 2 ; n1) e ttab = t( 2 ; n1) .
Enquanto que para H1 : > 0 e H1 : < 0 , ttab sera t(; n1) e t(; n1) , respectivamente.

10.4.1 Exemplo
Doze frascos de medicamento de certa marca acusam os seguintes conteudos medios em decili-
tros:
10,2 9,7 10,1 10,3 10,1 9,8 9,9 10,4 10,3 9,8 10,4 10,2
O fabricante afirma que o conteudo medio dos frascos e de 10 dL. Admitindo normalidade na distribuicao
dos conteudos, teste a hipotese de que a afirmacao do fabricante esta correta utilizando um nvel de 5%
de significancia.
Solucao:
Dados:

0 = 10 s = 0,2449
12
n = 12

X
xi = 0,05 = = 0,025
1 10,2 + . . . + 10,2 2
x = = = 10,1 ttab = t( 2 ; n1) = t0,025; 11) = 2,201 e ttab =
12 12

12
!2 t(0,025; 11) = 2,201
X

12
xi
1 X
i=1

s2 = x2i = 0,06

12 1 i=1 12


1
 - Formulacao das hipoteses:
H0 : = 10
H1 : 6= 10
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
x 0 10,1 10
tc = s = = 1,4145
0,2449

n 12
4 - Conclusao:

Conforme o desenho, nota-se que o valor


da estatstica tc = 1,4145 pertence a regiao de nao
rejeicao de H0 .
Portanto, conclui-se que nao se rejeita H0
ao nvel de 5% de significancia ou seja, nao ha moti-
vos para duvidar sobre a afirmacao do fabricante.

10.4.2 Exemplo
Considerando a situacao acima, quando e que ocorrera um erro tipo I ou um erro tipo II? Qual
e o mais serio?
Solucao:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 87


Estatstica Basica 10 TEORIA DA DECISAO


H0 : = 10
As hipoteses em teste sao:
H1 : 6= 10

Um erro tipo I ocorrera se o real valor do conteudo dos frascos for 10 mL, mas voce decide
rejeitar H0 . Um erro tipo II ocorrera se o real valor do conteudo dos frascos for diferente de 10 mL, mas
voce nao rejeita H0 . Com um erro tipo I voce podera fazer com que o fabricante fiscalize toda a linha
de producao com o objetivo de encontrar alguma falha na producao. Com um erro tipo II voce podera
causar prejuzo financeiro se a quantidade informada for mais do que 10 mL e um ganho indevido (ate
mesmo uma possvel multa) quando a quantidade for menor do que 10 mL.

10.5 Exerccios

1. Um fabricante de termometro garante que a vida util media de certo tipo de termometro e de no
mnimo 10 anos.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
2. Um fabricante de sucos de caixinha afirma que a quantidade media de sodio em seus produtos e
menor do que 9,0 mg.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
3. Uma fabrica anuncia que o ndice de nicotina dos cigarros da marca Charuto apresenta-se abaixo de
26 mg por cigarro. Um laboratorio realiza 10 analises do ndice obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28,
24. Sabe-se que o ndice de nicotina dos cigarros desta marca se distribui normalmente. Pode-se aceitar
a afirmacao do fabricante, ao nvel de 5%?
4. Um certo tipo de rato apresenta, nos tres primeiros meses de vida, um ganho medio de peso de 58 g.
Uma amostra de 10 ratos foi alimentada desde o nascimento ate a idade de 3 meses com uma racao
especial, e o ganho de peso de cada rato foi: 55, 58, 60, 62, 65, 67, 54, 64, 62 e 68. Ha razoes para
crer, ao nvel de 5%, que a racao especial aumenta o peso nos 3 primeiros meses de vida?
5. Suponha que um estudo em determinada regiao mostra que a ingestao diaria media de calorias em
adultos e de 2.400 kcal. Considere que um grupo de 25 adultos desta populacao apresentou um consumo
medio de 3.000 kcal, com um desvio padrao de 1.250 kcal. Para testar se o consumo calorico deste grupo
e diferente do padrao de consumo da populacao, use = 5% e conclua.

10.6 Teste de hipoteses para proporcoes

Em alguns casos o interesse e testar uma proporcao populacional p igual a uma proporcao p0 .
Os passos a serem seguidos para a realizacao deste teste de hipoteses sao:

 Primeiro passo:
 Formular as hipoteses
 segundo a natureza do problema. Elas podem ser do
H0 : p = p0 H0 : p = p0 H0 : p = p0
tipo: , e
H1 : p 6= p0 H1 : p > p0 H1 : p < p0

Segundo passo: Especificar que geralmente e informado no enunciado.


p p0
Terceiro passo: Calcular o valor da estatstica zc = r , que sob H0 , zc N (0, 1).
p0 (1 p0 )
n
Quarto passo: Concluir de acordo com o(s) valor(es) da regiao(oes) crtica(s). Se o valor da
estatstica pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario,
nao se rejeita H0 .
Conforme a hipotese formulada obtem-se as seguintes regioes crticas:

88 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 10 TEORIA DA DECISAO

Figura 36 Regioes crticas conforme H1 : p 6= p0 ; H1 : p > p0 e H1 : p < p0

Sendo que ztab quando H1 : p 6= p0 dever ser consultado na tabela da distribuicao normal
padronizada Z considerando ztab = z/2 e ztab = z/2 .
Para as outras hipoteses, H1 : p > p0 e H1 : p < p0 , os valores de ztab sao respectivamente, z
e z .

10.6.1 Exemplo
Um comprador, ao receber de um fornecedor um grande lote de pecas, decidiu inspecionar 200
delas. Decidiu, tambem, que o lote sera rejeitado se ficar convencido, ao nvel de 5% de significancia, de
que a proporcao de pecas defeituosas no lote for superior a 4%. Qual sera sua decisao (rejeitar ou nao o
lote) se na amostra foram encontradas onze pecas defeituosas?
Solucao:
Dados:

p0 = 4% = 0,04 n = 200
y 11 = 0,05
p = = = 0,055
n 200 ztab = z = z0,05 = 1,65

1
 - Formulacao das hipoteses:
H0 : p = 0,04
H1 : p > 0,04
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
p p0 0,055 0,04
zc = r =r = 1,0825
p0 (1 p0 ) 0,04 (1 0,04)
n 200
4 - Conclusao:

Conforme o desenho, nota-se que o valor


da estatstica zc = 1,0825 pertence a regiao de nao
rejeicao de H0 .
Portanto, conclui-se que nao se rejeita H0
ao nvel de 5% de significancia ou seja, nao ha mo-
tivos para rejeitar o lote de pecas.

10.6.2 Exemplo
Quando e que o comprador poderia cometer um erro tipo I ou um erro tipo II? Qual deles causa
mais danos ao comprador?
Solucao:

H0 : p = 0,04
H1 : p > 0,04
Um erro tipo I ocorrera se a real proporcao de pecas defeituosas for menor ou igual a 4%, mas
voce decide rejeitar H0 . Um erro tipo II ocorrera se a real proporcao de pecas defeituosas for superior
a 4%, mas voce nao rejeita H0 . Com um erro tipo I voce podera causar um mal estar entre comprador
e vendedor pois o lote de pecas sera devolvido. Por outro lado, um erro tipo II voce permitira comprar
lotes cuja proporcao de pecas defeituosas esteja acima do aceitavel, gerando um prejuzo financeiro ao
comprador.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 89


Estatstica Basica 10 TEORIA DA DECISAO

10.7 Exerccios

1. Suponha que um alergista deseja testar a hipotese de que pelo menos 30% das pessoas sao alergicas a
medicamentos a base de sulfa. Explique como o alergista poderia cometer:
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
2. A reitoria de uma universidade acredita que a proporcao de alunos que ocasional ou frequentemente
chegam atrasados as aulas e de 55%.
a) Determine a hipotese nula e a alternativa.
b) Determine quando um erro tipo I ou II ocorre para um teste de hipotese da afirmacao.
c) Determine se o teste de hipotese e unicaudal a esquerda, a direita ou bicaudal. Explique.
d) Como voce deve interpretar uma decisao que rejeita a hipotese nula?
e) Como voce deve interpretar uma decisao que nao rejeita a hipotese nula?
3. Sabe-se por experiencia que 5% da producao de um determinado artigo e defeituosa. Um novo
empregado e contratado. Ele produz 600 pecas do artigo com 82 defeituosas. Ao nvel de 15%, verificar
se o novo empregado produz pecas com maior ndice de defeitos que o existente.
4. Em uma experiencia sobre percepcao extrassensorial (PES), um indivduo A, em uma sala isolada,
e solicitado a declarar a cor vermelha ou preta (em numeros iguais) de cartas tiradas ao acaso de um
baralho de 50 cartas, por outro indivduo B, posicionado em outra sala. Se A identifica corretamente 32
cartas, esse resultado e significativo ao nvel de 5% para indicar que A tem PES?
5. Um fabricante de droga medicinal afirma que ela e 90% eficaz na cura de uma alergia, em determinado
perodo. Em uma amostra de 200 pacientes, a droga curou 150 pessoas. Testar ao nvel de 1% se a
pretensao do fabricante e legtima.
6. Um levantamento efetuado em um bairro de uma cidade mostrou que 25 indivduos adultos de um
total de 80 eram tabagistas habituais. Considerando que a prevalencia de tabagismo na populacao adulta
seja de 20%, teste a hipotese de que a prevalencia de tabagismo neste bairro seja diferente da prevalencia
da populacao em geral, a um nvel de 5%.

10.8 Teste de hipoteses para duas medias de populacoes normais com variancias popula-
cionais desconhecidas

Este teste de hipotese tem por objetivo comparar duas medias de populacoes normais, ou seja,
o interesse deste teste e verificar 1 2 considerando x1 x2 . Existem duas situacoes que devem ser
consideradas: as variancias populacionais sao ou nao sao homogeneas.

10.8.1 Testes de hipoteses para duas medias, sendo 12 = 22 = 2

Primeiro passo: sera considerada apenas um tipo de situacao, em que 1 2 6= 0. O valor 0 e


o valor a ser testado, poderia haver interesse em outros valores.

H0 : 1 2 = 0
Neste caso as hipoteses sao: .
H1 : 1 2 6= 0
O segundo passo: e especificar o nvel de significancia , normalmente fornecido no enunciado.
x1 x2 0
Terceiro passo: Calcular o valor da estatstica tc = s  ,
2
1 1
sp +
n1 n2
2 2
(n 1 1) s1 + (n 2 1) s2
sendo s2p = , em que sob H0 , tc t com = n1 + n2 2 gl.
n1 + n2 2
Quarto passo: Concluir de acordo com o valor da regiao crtica. Se o valor da estatstica
pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se
rejeita H0 .
Conforme a hipotese formulada obtem-se a seguinte regiao crtica:

90 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 10 TEORIA DA DECISAO

Figura 37 Regiao crtica conforme H1 : 1 2 6= 0

Onde os valores ttab e ttab devem ser consultados na tabela da distribuicao t, sendo conside-
rados ttab = t(/2; n1 +n2 2) e ttab = t(/2; n1 +n2 2) .

10.8.1.1 Exemplo
Considere um experimento em que dois grupos de ratos (femeas) foram alimentados com dietas
apresentando alto e baixo conteudos de protena. Os dados abaixo apresentam os dois grupos, dando o
peso em gramas para cada rato entre o 28o e o 84o dia de vida.

Alto cont. protena Baixo cont. protena


123 134 146 70 118 101
104 119 124 85 107 132
161 107 83 94
113 129 97

Teste ao nvel de 5% de significancia se os dois grupos tratados apresentam medias iguais nos pesos.
Solucao:
Dados:
Adotando o ndice 1 para os ratos que foram alimentados com alto conteudo de protena e 2 para os ratos
com baixo conteudo de protena, tem-se:

n1 = 12 ttab = t(/2; n1 +n2 2) = t(0,025; 12+72)


x1 = 120 t(0,025; 17)=2,110
s21 = 457,4545 t(0,025; 17)=2,110
n2 = 7 (12 1) 457,4545 + (7 1) 425,3333
s2p =
x2 = 101 12 + 7 2
s22 = 425,3333 s2p = 446,1176
= 0,05

1
 - Formulacao das hipoteses:
H0 : 1 2 = 0
H1 : 1 2 6= 0
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:
x1 x2 0 120 101 0
tc = s  =s   = 1,891
1 1 1 1
s2p + 446,1176 +
n1 n2 12 7
4 - Conclusao:
Conforme o desenho, nota-se que o valor
da estatstica tc = 1,891 pertence a regiao de nao
rejeicao de H0 .
Conclui-se que nao se rejeita H0 ao nvel
de 5% de significancia ou seja, as medias nao sao
estatisticamente diferentes.

10.8.2 Testes de hipoteses para duas medias, sendo 12 6= 22


Como anteriormente, somente a situacao em que  1 2 6= 0 sera considerada.
H0 : 1 2 = 0
O primeiro passo e a formulacao da hipotese: .
H1 : 1 2 6= 0

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 91


Estatstica Basica 10 TEORIA DA DECISAO

O segundo passo: e especificar o nvel de significancia , normalmente fornecido no enunciado.


x1 x2 0
Terceiro passo: Calcular o valor da estatstica tc = s  , em que sob H0 , tc t com
s21 s22
+
n1 n2
2 2
 2 
s1 s
+ 2
n1 n2
gl. Sendo =  2  2 2 .
s21 s2
n1 n2
+
n1 1 n2 1
Quarto passo: Concluir de acordo com o valor da regiao crtica. Se o valor da estatstica
pertencer a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se
rejeita H0 .
Conforme a hipotese formulada obtem-se a seguinte regiao crtica:

Figura 38 Regiao crtica conforme H1 : 1 2 6= 0

Onde os valores ttab e ttab devem ser consultados na tabela da distribuicao t, sendo conside-
rados ttab = t(/2; ) e ttab = t(/2; ) .

10.8.2.1 Exemplo
Os dados abaixo se referem aos pesos, em gramas, de ratos machos da raca Wistar com 15 dias
de idade, segundo a condicao normal e submetidos a extirpacao do timo (timectomizacao) aos 4 dias de
idade. Verificar se nas duas situacoes o ganho medio de peso destes animais e igual, usando = 5% (ha
heterocedasticidade).

Condicao normal 40,3 41,0 39,6 33,0 31,0


Timectomizado 20,9 21,3 23,6 22,2 21,9

Solucao:
Dados:
Adotando o ndice 1 para os ratos que estao na condicao normal e 2 para os ratos que foram timectomi-
zados, tem-se:
2 2
s21 s2
 
n1 = 5 21,412 1,077
+ 2 +
x1 = 36,98 n1 n2 5 5
s21 = 21,412 =  2  2 2 =  2  2
2 21,412 1,077
s1 s2
n2 = 5
n1 n2 5 5
x2 = 21,98 + +
s22 = 1,077 n1 1 n2 1 51 51
= 4,40 4 gl
= 0,05 ttab = t(/2; ) = t(0,025; 4)
t(0,025; 4)=2,776
t(0,025; 4)=2,776

1
 - Formulacao das hipoteses:
H0 : 1 2 = 0
H1 : 1 2 6= 0
2 - Especificar :
= 0,05
3 - Calcular o valor da estatstica:

92 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Introducao a Bioestatstica 11 TESTES QUI-QUADRADO

x1 x2 0 36,98 21,98 0
tc = s  = s  = 7,073
2 2 21,412 1,077
s1 s2
+ +
n1 n2 5 5
4 - Conclusao:
Conforme o desenho, nota-se que o valor dos apresentando maior media de peso o primeiro
da estatstica tc = 7,073 pertence a regiao de rejei- grupo.
cao de H0 .
Conclui-se que rejeita-se H0 ao nvel de
5% de significancia ou seja, as medias sao esta-
tisticamente diferentes. Assim, o peso medios dos
ratos em condicao normal difere dos timectomiza-

10.8.3 Exerccios
1. Em um teste de hipotese de que mulheres sorriem para outras mais do que os homens o fazem entre
si, mulheres e homens foram filmados enquanto conversavam, anotando-se o numero de sorrisos de cada
sexo. Com os seguintes numeros de sorrisos em cinco minutos de conversa, teste a hipotese nula de que
nao ha diferenca entre os sexos quanto ao numero de sorrisos ( = 0,05). Considere que as variancias dos
grupos sao iguais.
Homens Mulheres
8 15
11 19
13 13
4 11
2 18

2. No nvel de 5% de significancia, teste a afirmacao de que a quantidade media de alcatrao em cigarros


com filtro e a mesma que a quantidade media de alcatrao em cigarros sem filtro. (Todas as medidas sao
em miligramas e os dados sao da Federal Trade Commission.). Considere que as variancias dos grupos
sao diferentes.
Quantidade de alcatrao (mg)
Com filtro Sem filtro
n1 = 21 n2 = 8
x1 = 13,3 x2 = 24,0
s1 = 3,7 s2 = 1,7

3. De duas populacoes Xnormais X1 e X X 2 foram retiradas amostras e os dados sao os apresentados a seguir:
Populacao 1: n1 = 6; xi = 36,3; x2i = 223,55
X X
Populacao 2: n2 = 9; xi = 76,9; x2i = 665,81
Testar ao nvel de 2,0% de significancia que a media da primeira populacao e igual a segunda. Considere
que as variancias dos grupos sao iguais.
4. Para verificar a eficencia de um cartaz na estimulacao a compra de determinado produto, 7 pares de
lojas foram formados, cada par tendo as mesmas caractersticas quanto a localizacao, ao tamanho e ao
volume geral das vendas. Isso feito, o cartaz foi colocado numa das lojas do par, nao o sendo em sua
correspondente, tendo o processo sido repetido para os 7 pares. Abaixo aparecem as vendas semanais do
produto durante a experimentacao, expressas em media de observacao conduzida por dois meses. Analise
os dados e conclua, a 5%, sobre o potencial do cartaz na inducao a compra do produto. Considere que
as variancias dos grupos sao diferentes.
Par 1 2 3 4 5 6 7
Com cartaz 16 24 18 14 26 17 29
Sem cartaz 13 18 14 16 19 12 18

11 TESTES QUI-QUADRADO

Os tres testes que envolvem a distribuicao Qui-quadrado que serao estudados neste material
sao:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 93


Introducao a Bioestatstica 11 TESTES QUI-QUADRADO

Teste de aderencia
Teste de independencia
Teste de homogeneidade
Em todos os testes Qui-quadrado o que muda e so a hipotese envolvida no problema, basica-
mente, para os tres tipos de testes de hipoteses, a estatstica e:
n
X (Oi Ei )2
2c =
i=1
Ei
Sendo:
sob H0 , 2c em que sao os graus de liberdade da distribuicao de probabilidade Qui-quadrado;
Oi : representa as frequencias observadas;
Ei : representa as frequencias esperadas;
n: representa o numero de celulas na tabela excetuando-se os totais.
Observacao: Todos estes testes podem ser realizados desde que o numero de observacoes em
cada casela (celula) da tabela seja maior ou igual a 5 e a frequencia esperada tambem. Caso nao seja
atendida esta condicao, em cada classe deve ser utilizada a correcao de Yates.

11.1 Teste de Aderencia ou ajuste


Testa a hipotese da amostra ser proveniente de uma distribuicao de probabilidade definida em
H0 . Ou seja, testa a hipotese de que uma distribuicao de frequencias observadas se ajusta (ou adere) a
uma determinada distribuicao de probabilidade definida em H0 . Como ja estudado anteriormente o teste
de hipoteses deve passar por quatro etapas.
 A primeira e a formulacao das hipoteses:
H0 : Ajusta a distribuicao de probabilidade definida
.
H1 : Nao ajusta a distribuicao de probabilidade definida
A segunda e a especificacao de .
A terceira e a obtencao do valor da estatstica do teste:

k
X (Oi Ei )2
2c =
i=1
Ei
Sendo considerado sob H0 que 2c 2(k1 gl) .
Em que:
Oi : representa as frequencias observadas;
Ei : representa as frequencias esperadas;
Ei = n pi , onde n e o tamanho da amostra e pi e a probabilidade afirmada da i-esima categoria;
k: representa o numero de categorias ou resultados diferentes.
E, por ultimo, decidir de acordo com o valor da regiao crtica. Se o valor da estatstica pertencer
a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se rejeita H0 .
Conforme as hipoteses formuladas obtem-se a seguinte regiao crtica:

Figura 39 Regiao crtica conforme H1

Sendo que 2tab = 2(; k1 gl) .


Para a realizacao deste teste tem-se que levar em conta que as frequencias observadas devem
ser obtidas por meio de uma amostra aleatoria e que cada frequencia esperada deva ser maior ou igual a
5.

94 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Introducao a Bioestatstica 11 TESTES QUI-QUADRADO

11.1.1 Exemplo
A maravilha e uma planta que apresenta flores de cor vermelha, branca e rosa. As plantas que
produzem flores cor-de-rosa sao heterozigotas, enquanto os outros dois fenotipos sao devidos a condicao
homozigota. Considere que o gene V determina a cor vermelha e o gene B a cor branca. Entao a geracao
F 1 do cruzamento entre uma planta com flor de cor vermelha com uma planta de flor de cor branca
gerara flores 100% da cor-de-rosa. Cruzando duas plantas heterozigotas, segunda geracao ou F 2, (flores
cor-de-rosa) e obtido 1/4 de plantas com flores vermelhas, 1/2 de plantas com flores cor-de-rosa e 1/4
de plantas com flores brancas, pela lei mendeliana. Um pesquisador realizou um experimento em 530
plantas heterozigotas e o pesquisador encontrou:
Cor da flor Vermelha Rosa Branca Total
Numero flores 140 290 100 530
Os dados obtidos pelo pesquisador sao compatveis com a teoria mendeliana? Use = 5%.
Solucao:
As frequencias esperadas podem ser calculadas por Ei = n pi :
E1 = 530 1/4 = 132,5
E2 = 530 1/2 = 265,0
E3 = 530 1/4 = 132,5
Tem-se, entao:
Cor da flor Vermelha Rosa Branca Total
Numero flores observadas (Oi ) 140,0 290,0 100,0 530,0
Numero flores esperadas (Ei ) 132,5 265,0 132,5 530,0

 As hipoteses em teste sao:


H0 : Ajusta a teoria mendeliana (adere a distribuicao)
.
H1 : Nao se ajusta a teoria mendeliana
O nvel de significancia e = 5%.
A estatstica do teste e:
k 3
X (Oi Ei )2 X (Oi Ei )2
2c = =
i=1
Ei i=1
Ei

(140,0 132,5)2 (290,0 265,0)2 (100,0 132,5)2


2c = + + = 10,7547
132,5 265 132,5
O valor do Qui-quadrado tabelado foi en-
contrado baseando-se em 2(; k1) = 2(5%; 31) =
2(5%; 2) = 5,991. Conforme o desenho, nota-se que
o valor da estatstica 2c = 10,7547 pertence a regiao
de rejeicao de H0 .
Conclui-se que se rejeita H0 ao nvel de
5% de significancia ou seja, ha motivos para afir-
mar que a distribuicao observada nao se adere a
teoria mendeliana.

11.2 Teste de Independencia


Ao estudar probabilidade foi visto que se dois eventos sao independentes a ocorrencia de um
evento nao afeta a ocorrencia do outro. Por exemplo, o lancamento de dados e moedas sao independentes,
ou experimentos com repeticao e reposicao.
Este teste de hipoteses testa se a distribuicao conjunta e o produto das distribuicoes marginais,
o que so ocorre quando existe independencia entre as variaveis aleatorias.
Neste caso as duas variaveis aleatorias (de uma mesma populacao) sao organizadas numa tabela
de dupla entrada (tabela de contingencia). Os valores esperados sao obtidos pela razao do produto dos
valores marginais e o tamanho da amostra.
As quatro etapas para a realizacao do teste e:
As
 hipoteses em teste sao:
H0 : Ha independencia entre as variaveis
.
H1 : Nao ha independencia entre as variaveis
Especificar .
Obter a estatstica do teste e:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 95


Introducao a Bioestatstica 11 TESTES QUI-QUADRADO

rc
X (Oi Ei )2
2c =
i=1
Ei

Sendo considerado sob H0 que 2c 2[(r1)(c1) gl]


Em que:
Oi : representa as frequencias observadas;
Ei = Er,c : representa as frequencias esperadas;
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
r e c: representam o numero de linhas e colunas da tabela, respectivamente, excetuando-se os totais.
E, por ultimo, decidir de acordo com o valor da regiao crtica. Se o valor da estatstica pertencer
a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se rejeita H0 .
Conforme as hipoteses formuladas obtem-se a seguinte regiao crtica:

Figura 40 Regiao crtica conforme H1

Sendo que 2tab = 2(; [(r1)(c1)] gl) .

11.2.1 Exemplo
Os dados a seguir representam os resultados em pontos obtidos por estudantes em Estatstica e
Calculo I. Testar a hipotese de que os resultados em Estatstica sao independentes dos resultados obtidos
em Calculo, ao nvel de 2,5% de significancia.
Estatstica
Calculo I Total
0n<5 5 n < 7 7 n 10
0n<5 75 35 13 123
5n<7 29 120 32 181
7 n 10 15 70 46 131
Total 119 225 91 435
Solucao:
Inicialmente, calcula-se as frequencias esperadas, sendo:
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
(123) (119) (181) (91)
E1,1 = = 33,6483 E2,3 = = 37,8644
435 435
(123) (225) (131) (119)
E1,2 = = 63,6207 E3,1 = = 35,8368
435 435
(123) (91) (131) (225)
E1,3 = = 25,7310 E3,2 = = 67,7586
435 435
(181) (119) (131) (91)
E2,1 = = 49,5149 E3,3 = = 27,4046
435 435
(181) (225)
E2,2 = = 93,6207
435
Assim, considerando que os valores entre parenteses representam as frequencias esperadas, tem-se:
Estatstica
Calculo I Total
0n<5 5n<7 7 n 10
0n<5 75(33,6483) 35(63,6207) 13(25,7310) 123
5n<7 29(49,5149) 120(93,6207) 32(37,8644) 181
7 n 10 15(35,8368) 70(67,7586) 46(27,4046) 131
Total 119 225 91 435

96 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Introducao a Bioestatstica 11 TESTES QUI-QUADRADO

 As hipoteses em teste sao:


H0 : As variaveis sao independentes
.
H1 : As variaveis sao nao independentes
O nvel de significancia e = 2,5%.

A estatstica do teste e:
rc 2 9
X (O i Ei )
X (Oi Ei )2
2c = =
i=1
Ei i=1
Ei

(75 33,6483)2 (35 63,6207)2 (46 27,4046)2


2c = + + + = 111,6413
33,6483 63,6207 27,4046
O valor do Qui-quadrado tabelado obtido e:

2[; (r1)(c1)] = 2[2,5%; (31)(31) gl] = 2(2,5%; 4 gl) = 11,143

Conforme o desenho, nota-se que o valor


da estatstica 2c = 111,641 pertence a regiao de
rejeicao de H0 .

Portanto, rejeita-se H0 ao nvel de 2,5%


de significancia, ou seja, ha motivos para afirmar
que as variaveis nao sao independentes.

11.3 Teste de Homogeneidade

Este teste e usado pada determinar se varias proporcoes sao iguais quando amostras sao tiradas
de populacoes diferentes. Embora o teste seja semelhante ao teste de independencia, aqui o interesse
e o de verificar as proporcoes, ou seja, se o comportamento de cada celula e o mesmo. Nao se esta
verificando as variaveis (teste de independencia) e sim as proporcoes (valores das celulas).
Conforme anteriormente descrito, as etapas para a realizacao do teste e semelhante as demais:
As
 hipoteses em teste sao:
H0 : As proporcoes sao iguais
.
H1 : No mnimo uma das proporcoes e diferente das outras
Especificar .
Obter a estatstica do teste e:

rc
X (Oi Ei )2
2c =
i=1
Ei

Sendo considerado sob H0 que 2c 2[(r1)(c1) gl]


Em que:
Oi : representa as frequencias observadas;
Ei = Er,c : representa as frequencias esperadas;
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
r e c: representam o numero de linhas e colunas da tabela, respectivamente, excetuando-se os totais.
E, por ultimo, decidir de acordo com o valor da regiao crtica. Se o valor da estatstica pertencer
a regiao crtica, rejeita-se H0 no nvel de significancia especificado, caso contrario, nao se rejeita H0 .
Conforme as hipoteses formuladas obtem-se a seguinte regiao crtica:

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 97


Introducao a Bioestatstica 11 TESTES QUI-QUADRADO

Figura 41 Regiao crtica conforme H1

Sendo que 2tab = 2(; [(r1)(c1)] gl) .

11.3.1 Exemplo
(Fonte (modificado): Fischl et al. (1987) citado por (??)) Um experimento realizado cuidado-
samente obedecendo-se todos os criterios cientficos foi realizado para verificar a eficacia de zidovudina
(AZT) para prolongar a vida de pacientes com AIDS. Foram levados em consideracao outros estudos
neste experimento antes da decisao de se liberar ou nao o uso. Entretanto, o objetivo deste exemplo e
estudar os dados oriundos das variaveis tipo de medicamento e situacao do indivduo soro positivo. O
numero de sobrevientes tratados com AZT ou placebo sao apresentados na tabela a seguir:

Situacao do indivduo
Tipo de medicamento Total
Vivo Morto
AZT 144 1 145
Placebo 121 16 137
Total 265 17 282

Pergunta-se: as proporcoes sao iguais ao nvel de 5% de significancia?


Solucao:
Inicialmente, calcula-se as frequencias esperadas, sendo:
(Soma da linha r) (Soma da coluna c)
Er,c =
Tamanho da amostra
(145) (265) (137) (265)
E1,1 = = 136,26 E2,1 = = 128,74
282 282
(145) (17) (137) (17)
E1,2 = = 8,74 E2,2 = = 8,26
282 282

Assim, considerando que os valores entre parenteses representam as frequencias esperadas, tem-se:

Situacao do indivduo
Tipo de medicamento Total
Vivo Morto
AZT 144(136,26) 1(8,74) 145
Placebo 121(128,74) 16(8,26) 137
Total 265 17 282

As hipoteses em teste sao:


H0 : As proporcoes de vivo/morto sao as mesmas
tanto pelos tratados por AZT ou placebo .
H1 : No mnimo uma das proporcoes e diferente das outras

O nvel de significancia e = 5%.

A estatstica do teste e:
rc 2 4
X (O i Ei )
X (Oi Ei )2
2c = =
i=1
Ei i=1
Ei

(144 136,26)2 (1 8,74)2 (121 128,74)2 (16 8,26)2


2c = + + + = 15,0121
136,26 8,74 128,74 8,26

98 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 11 TESTES QUI-QUADRADO

O valor do Qui-quadrado tabelado foi encontrado baseando-se em

2[; (r1)(c1)] = 2[5%; (21)(21)] = 2(5%; 1) = 3,841

Conforme o desenho, nota-se que o valor


da estatstica 2c = 15,0121 pertence a regiao de
rejeicao de H0 .
Portanto, rejeita-se H0 ao nvel de 5% de
significancia, ou seja, ha motivos para afirmar que
no mnimo uma das proporcoes de vivo/morto tanto
pelos tratados por AZT ou placebo e diferente das
outras.

11.4 Exerccios
1. Um pesquisador conseguiu uma serie de dados dos ultimos 120 anos com o registro do numero de
ocorrencia de uma doenca rara. Os dados obtidos foram:

Numero de ocorrencias (xi ) 0 1 2 3 4 5


Numero de anos (fi ) 55 40 17 5 2 1

a) Estime o numero medio de ocorrencias/ano.


b) Calcule para cada valor da variavel aleatoria X, as probabilidades associadas. Suponha que X possua
distribuicao de Poisson e que a media amostral e o estimador do parametro da distribuicao Poisson.
c) Calcule a frequencia esperada (em numero de anos) para cada valor de X.
d) Compare os resultados esperados com os observados. Com base nesta comparacao, voce pode afirmar
que a distribuicao de Poisson e adequada para explicar a ocorrencia desta doenca na regiao de estudo?
Justifique, usando = 5%.
2. Os dados seguintes vem de um estudo concebido para investigar problemas de bebida entre os es-
tudantes universitarios. Em 1983, foi perguntado a um grupo quem ja dirigiu um automovel depois de
beber. Em 1987, depois de atingida a idade legal para o consumo de bebidas alcoolicas, foi feito o mesmo
questionamento a outro grupo universitario.

Ano
Dirigia enquanto bebia Total
1983 1987
Sim 1.250 991 2.241
Nao 1.387 1.666 3.053
Total 2.637 2.657 5.294

a) Qual teste qui-quadrado sera usado: aderencia, homogeneidade, independencia?


b) Use o teste qui-quadrado e = 0,05 para avaliar a hipotese nula de que as proporcoes de estudantes
da populacao que dirigia enquanto bebia sao as mesmas nos dois anos.
3. Os dados a seguir resultaram de um experimento para o estudo dos efeitos da remocao das folhas na
habilidade da fruta de um determinado tipo de amadurecer:

Tratamento Numero de frutas maduras Numero de frutas abortadas


Controle 141 206
Duas folhas removidas 28 69
Quatro folhas removidas 25 73
Seis folhas removidas 24 78
Oito folhas removidas 20 82

Os dados sugerem que a chance do amadurecimento da fruta e afetada pelo numero de folhas removidas?
Enuncie e teste as hipoteses apropriadas no nvel de 0,01.

4. Um estudo de acidentes de automovel e motoristas que usam telefone celular selecionados aleatoria-
mente acusou os seguintes dados amostrais. Com o nvel de 0,05 de significancia, teste a afirmacao de que
a ocorrencia de acidentes e independente do uso de telefone celular. Com base nesses resultados, parece
que a utilizacao de celulares afeta a seguranca da direcao?

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 99


Estatstica Basica 12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

Com acidente no ano passado Sem acidente no ano passado


Usa telefone celular 23 282
Nao usa o telefone celular 46 407

12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

12.1 Diagrama de dispersao


E um grafico util para examinar o relacionamento entre duas variaveis quantitativas, sendo for-
mado por pontos (pares ordenados) observados nas variaveis quantitativas X (abscissas) e Y (ordenadas)
em um plano coordenado.

12.1.1 Exemplo

O diagrama de dispersao apresentado na


Figura 42 foi confeccionado a partir de um conjunto
de dados obtido de 50 amostras das tres especies de
ris21 (Iris setosa, Iris virginica e Iris versicolor),
resultante de uma pesquisa realizada por Edgar An-
derson na qual Ronald Fisher desenvolveu um mo-
delo discriminante linear para distinguir cada espe-
cie. Figura 42 Conjunto de dados de Iris de Fisher

Com base no diagrama de dispersao acima apresentado, pode-se observar que conforme o com-
primento da petala aumenta, a largura tende a aumentar.
Este grafico e importante tambem para se observar o comportamento das variaveis X e Y , por
exemplo, se existe ou nao um comportamento aproximadamente linear, quadratico, cubico, exponencial,
logstico etc.

12.2 Coeficiente de Correlacao Linear


Conforme o diagrama dispersao dos pares de pontos das variaveis X e Y , a correlacao se classifica
em:

a) correlacao positiva b) correlacao fortemente positiva c) correlacao negativa

d) correlacao fortemente negativa e) correlacao nula f) correlacao nula

Figura 43 Tipos de relacionamentos entre X e Y

As Figuras 43a e 43b mostram que as variaveis apresentam uma correlacao positiva, isto significa
que valores altos de uma variavel estao associados a valores altos da outra variavel. Ja nas Figuras 43c
e 43d as variaveis apresentam correlacao negativa indicando que valores altos de uma variavel estao
associados a valores baixos da outra variavel.
O penultimo e o ultimo grafico (Figuras 43e e 43f) exemplificam casos em que a correlacao
linear e nula. O ultimo grafico ilustra uma dispersao na qual X e Y estao intimamente ligados, mas a
relacao nao e linear. Isto acontece porque o coeficiente de correlacao so e uma medida util da forca da
relacao entre duas variaveis quando elas estao relacionadas linearmente.
O fato de que duas variaveis estejam correlacionadas nao implica uma relacao de causalidade
(causa e efeito) entre as variaveis, quer dizer, que a variavel X cause Y ou vice-versa. Por outro lado,
21 http://en.wikipedia.org/wiki/Iris flower data set. Acesso em: 24 jul. 2014

100 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

o fato da correlacao ser igual a zero nao implica que as variaveis nao estao correlacionadas, elas podem
nao possuir um comportamento linear, como a Figura 43f.
Observar um diagrama de dispersao para interpretar a correlacao entre variaveis e importante,
porem e necessario medir por meio de algum metodo numerico. O coeficiente de correlacao linear e uma
tecnica estatstica empregada para medir a associacao (relacao, correlacao) entre duas variaveis. Ele
quantifica o grau de associacao entre duas variaveis aleatorias, desde que a relacao seja linear, em uma
escala absoluta variando no intervalo [1, 1]. A utilizacao do coeficiente de correlacao como medida da
relacao ente variaveis apresenta algumas vantagens, entre as quais se destaca o fato de este coeficiente
ser adimensional, isto e, nao depende da unidade de medida das variaveis aleatorias.
O coeficiente de correlacao linear e obtido pela Formula 1:
n
X n
X
n
xi yi
X i=1 i=1
xi yi
i=1
n
r = v !2 !2 (1)
n n
u
u X X
u
u n xi n yi
uX 2 X
i=1 i=1
xi yi2
u
n n
u
u i=1
t i=1

Conforme o valor obtido no intervalo [1, 1], a correlacao r e classificada como (??):
fraca quando 0 |r| 0,5;
forte se 0,8 |r| 1;
moderada, caso contrario.
Enquanto que para (??), a intensidade do relacionamento de coeficientes de correlacao positivos
e negativos pode ser categorizada da seguinte forma:
Perfeita 1 +1
0,9 +0,9
Forte 0,8 +0,8
0,7 +0,7
0,6 +0,6
Moderada 0,5 +0,5
0,4 +0,4
0,3 +0,3
Fraca 0,2 +0,2
0,1 +0,1
Zero (nula) 0

Este coeficiente de correlacao e tambem conhecido como r de Pearson e o seu nome completo
e coeficiente de correlacao momento produto. E um teste parametrico, portanto para o seu calculo
e necessario que os dados sejam provenientes de uma populacao normalmente distribuda. Se houver
motivos para crer que essa condicao nao fora atendida deve-se usar o equivalente nao parametrico do r
de Pearson, chamado de de Spearman (??).

12.2.1 Exemplo
Em um estudo conduzido na Italia, 10 pacientes com hipertrigliceridemia foram colocados sob
dieta de baixas gorduras e altos carboidratos. Antes de iniciar os estudo, as medidas do Nvel de Colesterol
(em mmol/L) e do Nvel de Triglicerdeos (em mmol/L) foram registradas foram mensuradas em cada
indivduo e estao apresentadas a seguir:
Paciente 1 2 3 4 5 6 7 8 9 10
N. Colest. 5,12 6,18 6,77 6,65 6,36 5,90 5,48 6,02 10,34 8,51
N. Trigl. 2,30 2,54 2,95 3,77 4,18 5,31 5,53 8,83 9,48 14,20
a) Construa um grafico de dispersao para esses dados.
b) Ha alguma evidencia de uma relacao linear entre os nveis de colesterol e de triglicerdeos antes da
dieta?
c) Calcule o coeficiente de correlacao r.
Solucao:
a)

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 101


Estatstica Basica 12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

Figura 44 Diagrama de dispersao: nvel de colesterol e nvel de triglicerdeos

b) E difcil afirmar. Porem, parece haver uma relacao linear moderada.


c)
Paciente xi yi x2i yi2 xi yi
1 5,12 2,30 26,2144 5,2900 11,7760
2 6,18 2,54 38,1924 6,4516 15,6972
3 6,77 2,95 45,8329 8,7025 19,9715
4 6,65 3,77 44,2225 14,2129 25,0705
5 6,36 4,18 40,4496 17,4724 26,5848
6 5,90 5,31 34,8100 28,1961 31,3290
7 5,48 5,53 30,0304 30,5809 30,3044
8 6,02 8,83 36,2404 77,9689 53,1566
9 10,34 9,48 106,9156 89,8704 98,0232
10 8,51 14,20 72,4201 201,6400 120,8420
10
X 10
X 10
X 10 10
2
X 2
X
Somas xi = 76,33 yi = 59,09 xi = 475,3283 yi = 480,3857 xi yi = 432,7552
i=1 i=1 i=1 i=1 i=1

n
X n
X
xi yi
n
i=1 i=1
X
xi yi 76,33 59,09
n 432,7552
r = v
i=1 10
n
!2 n
!2 = v 2
! ! = 0,6497
(59,09)2
u u
t 475,3283 76,33
u X X u
u xi yi 480,3857
u n Xn 10 10
i=1 i=1
uX 2 2
xi yi
u

u
ui=1 n n
t i=1

De posse do valor obtido, r = 0,6497, e observando a classificacao de (??) e (??), conclue-se


que ha uma correlacao moderada.

12.3 Exerccios
1. O numero de horas que 12 estudantes passam on-line durante o fim de semana e a nota de cada
estudante na prova de estatstica na segunda-feira seguinte sao:

Horas gastas on-line 0 1 2 3 3 5 5 5 6 7 7 10


Nota 96 85 82 74 95 68 76 84 58 65 75 50

Faca o diagrama de dispersao, calcule o coeficiente de correlacao e decida sobre o tipo de correlacao e o
que isto significa na pratica.
2. Uma pesquisa tinha por objetivo relacionar os salarios mensais (em milhares de R$) recebidos por
executivos homens e mulheres que exerciam a mesma funcao. Observou-se os seguintes dados:

Mulheres 13,2 19,3 18,5 20,1 14,8 14,0 19,5


Homens 14,8 21,5 16,4 23,5 13,5 17,8 18,9

Faca o diagrama de dispersao, calcule o coeficiente de correlacao e interprete-o.


3. Algumas pessoas acreditam que o comprimento da linha da vida de sua mao pode ser usado para
predizer a longevidade. Um estudo foi realizado e os autores refutam esta crenca com o estudo de
cadaveres. Em termos de correlacao entre as variaveis o que eles encontraram?

102 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

12.4 Regressao Linear Simples


Muitas vezes ao observar um diagrama de dispersao tem-se uma ideia de que as variaveis X e Y
possuem um comportamento conhecido, podendo ser linear, quadratico, cubico, exponencial, logartmico,
logstico etc.
Em uma situacao de modelagem tpica, um cientista deseja obter uma relacao matematica entre
duas variaveis X e Y usando um conjunto de n pares ordenados de medicoes

(x1 ,y1 ), (x2 ,y2 ), (x3 ,y3 ), (xn ,yn ) (2)

que estabelecem uma relacao entre valores correspondentes das variaveis. Dois fenomenos podem ser
distinguidos: os fenomenos determinsticos, em que cada valor de X determina um valor de Y , e os
fenomenos probabilsticos, em que nao e determinado de maneira unica o valor de Y associado a um
valor especfico de X. Por exemplo, se Y e a quantidade de alongamento que uma forca X provoca em
uma mola, entao cada valor de X determina um unico Y e, portanto, constitui um modelo determinstico.
Por outro lado, se Y e o peso de uma pessoa cuja altura e X, entao Y nao esta determinado de maneira
unica por X, ja que pessoas com mesma altura podem ter pesos diferentes. Mas, mesmo assim, existe
uma relacao entre peso e altura, que faz com seja mais provavel que uma pessoa alta pese mais, portanto,
isso e um fenomeno probabilstico.
Em um modelo determinstico, a variavel Y e uma funcao da variavel X, e o objetivo e encon-
trar uma formula y = f (x) que melhor descreva os dados. Uma maneira de modelar um conjunto de
dados determinsticos e procurar uma funcao f , denominada funcao funcao interpoladora, cujo gra-
fico passe por todos os pontos de dados. Embora as funcoes interpoladoras sejam apropriadas em certas
situacoes, elas nao dao conta de maneira adequada dos erros de medicao. Por exemplo, suponha que
foram levantados os seguintes dados referentes as variaveis X e Y e confeccionado o grafico apresentado
na Figura 45(a). Em tais dados pode ser ajustado um polinomio de grau dez cujo grafico passa por todos
os pares de pontos como mostra a Figura 45(b). Contudo um modelo polinomial nao consegue transmitir
a relacao de linearidade subjacente aos dados. Uma abordagem melhor e procurar uma equacao linear
y = ax + b cujo grafico descreve melhor a relacao linear dos dados, mesmo que esse grafico nao passe por
todos ou por qualquer um dos pontos de dados como esta representado na Figura 45(c).

a) Diagrama de dispersao b) Polinomio de grau dez ajustado c) Reta de regressao ajustada

Figura 45 Grafico das variaveis X e Y

A obtencao do grafico da Figura 45(c) e feita por meio de tecnicas estatsticas chamada de
analise de regressao. A analise de regressao consiste na realizacao de calculos que permitem determi-
nar a existencia de uma relacao funcional entre uma variavel dependente com uma ou mais variaveis
independentes. Ou seja, consiste na obtencao de uma equacao que tenta explicar a variacao da variavel
dependente pela variacao dos nveis da(s) variavel(is) independente(s). A variavel dependente e a variavel
independente sao classificadas como quantitativas.
Ao se escolher um modelo para descrever o comportamento de variaveis, ele deve ser coerente
com o que acontece na pratica. Para isso, deve-se considerar no momento de se escolher o modelo:
O modelo selecionado esta condizente tanto no grau como no aspecto da curva para representar em
termos praticos o fenomeno em estudo?
O modelo contem apenas as variaveis que sao relevantes para explicar o fenomeno?
O Metodo dos Mnimos Quadrados e utilizado para a obtencao de um modelo matematico
(equacao) que melhor se ajuste aos dados, ou seja, que determine a melhor relacao funcional entre as
variaveis. Este metodo se baseia na obtencao de uma equacao estimada de tal forma que as distancias

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 103


Estatstica Basica 12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

entre os pontos do diagrama e os pontos da curva do modelo matematico, em geral, sejam as menores
possveis. Resumindo: com este metodo a soma de quadrados das distancias entre os pontos do diagrama
e dos respectivos pontos na curva da equacao estimada e minimizada, obtendo-se, desta forma, uma
relacao funcional entre X e Y , para o modelo escolhido, com um mnimo de erro possvel.
No grafico pode-se observar que a equacao plotada, geralmente, nao passa por cima dos valores
observados. A diferenca entre um valor observado yi e o valor estimado yi e denominado de resduo,
isto e, ei = yi yi . O valor estimado, yi , e obtido quando se atribui algum valor para xi na equacao
encontrada.
O erro (tambem denominado resduo) ei corresponde a diferenca entre um valor observado yi
e o valor estimado yi obtido a partir da equacao estimada: ei = yi yi . Para uma melhor compreensao
observe a Figura 46.

Figura 46 Esquematizacao dos erros: ei = yi yi

Note que para cada ponto observado existe um ponto estimado, portanto ha tanto erros quanto
pares de pontos.
Embora existam diversos modelos, este material apenas abordara o modelo (3) que e conhecido
como modelo de regressao linear simples:

yi = 0 + 1 xi + ei (3)

Em que:
yi : e o valor observado para a variavel dependente Y no i-esimo nvel da variavel independente X;
0 : e a constante de regressao. Representa o intercepto da reta com o eixo-y;
1 : coeficiente de regressao. Representa a variacao de Y em funcao da variacao de uma unidade da
variavel X;
xi : e o i-esimo nvel da variavel independente, i = 1,2,3, ,n;
ei : e o erro associado a distancia entre o valor observado yi e o correspondente ponto na curva do
modelo proposto para o mesmo nvel i de X.
Este modelo e denominado modelo estatstico por considerar um erro associado a cada obser-
vacao, diferentemente do modelo matematico.
A regressao linear simples tem por objetivo encontrar valores (estimativas 0 e 1 ) dos para-
metros do Modelo (3) os quais minimizam a distancia entre os pontos (valores observados) do diagrama
de dispersao e a curva a ser ajustada. Por meio do metodo dos mnimos quadrados, as estimativas dos
parametros do modelo linear e obtido por:

0 = y 1 x (4)

 n
 n

P P
n
xi yi
P i=1 i=1
yi xi
i=1 n SP Dxy
1 = 2 = (5)
SQDx
 n
P
n
xi
i=1
x2i
P
i=1 n

104 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

Na pratica, determina-se 1 em primeiro lugar e depois 0 . A estimativa do coeficiente de


regressao 1 mede o quanto muda na variavel dependente Y por uma mudanca unitaria na variavel
independente X. Os valores (estimativas dos parametros) obtidos pelo metodo dos mnimos quadrados
sao os melhores valores que podem ser usados para descrever a relacao entre as duas variaveis.

12.5 Coeficiente de determinacao


Em analise de regressao usa-se elevar o r de Pearson ao quadrado para se ter uma medida da
variancia explicada, expressa em porcentagem, o que e valido somente em modelo de regressao linear
simples. O r2 varia de 0 a 1, quanto maior o seu valor, mais explicativo e o modelo, ou seja, melhor ele
se ajusta aos valores observados. Por exemplo, se o r2 de um modelo e 0,8932, significa que 89,32% da
variacao da variavel dependente consegue ser explicada pelo modelo ajustado.

12.5.1 Exemplo
Sejam os dados a seguir:

x 4 7 10 12 17
y 10 16 20 24 30

Admitindo que as variaveis X e Y estao relacionadas de acordo com o modelo yi = 0 + 1 xi + ei ,


determine as estimativas dos parametros da equacao de regressao linear e trace o grafico.
Solucao
5 5 5 5 5
x2i = 598; yi2 = 2232;
P P P P P
n = 5; xi = 50; yi = 100; xi yi = 1150
i=1 i=1 i=1 i=1 i=1

5
P 5
P
5
xi yi
P i=1 i=1
xi yi
i=1 n 150 100 50
1 = 2 = = 1,5306 0 = y 1 x = 1,5306 = 4,6940
98 5 5
 5
P
5
xi
i=1
x2i
P
i=1 n
Assim, a equacao obtida e: yi = 4,6940 + 1,5306xi
O grafico e o apresentado a seguir:

Figura 47 Diagrama de dispersao e grafico da equacao ajustada

12.5.2 Exemplo
Uma empresa que fabrica medicamentos realizou um levantamento do custo total de um seus
produtos (Y ), expresso em R$ 1.000,00, em funcao do numero total de medicamentos (X) produzidos,
expresso em unidades, durante cinco meses, com o objetivo de montar uma regressao linear simples entre
essas variaveis, obteve-se os somatorios:
X X X X X
x = 440 y = 120 xy = 12.300 x2 = 49.450 y 2 = 3.200

Nessas condicoes, pede-se:


a) a reta que melhor ajuste a esses dados.

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 105


Estatstica Basica 12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

b) o valor do coeficiente de correlacao linear.


c) o valor mais provavel dos custos fixos.
d) o valor predito do custo variavel para uma producao de 500 unidades.
e) o valor predito do custo total para uma producao de 500 unidades.
Solucao:
a) y = 9,7264 + 0,1622x
b) r = 0,9390
c) O valor mais provavel dos custos fixos e dado por 0 , portanto, 9,7264 1.000 = R$ 9.726,40.
d) O custo variavel e dado por 1 , portanto, 0,1622 500 1.000 = R$ 81.100,00.
e) O custo total e dado pelo modelo completo, portanto, (9,7264 + 0,1622 500) 1.000 = R$ 90.826,40.

12.5.3 Exemplo
Nos 11 anos anteriores a aprovacao do Ato Federal de Seguranca e Saude das Minas de Carvao
de 1969, as taxas de fatalidade para os mineiros no subsolo pouco variavam. Depois da sua implementacao,
no entanto, as taxas de fatalidade diminuram rapidamente ate 1979. As taxas para os anos de 1970 ate
1981 sao fornecidas a seguir; para fins computacionais, os anos foram convertidos para uma escala que se
inicia em 1.

Taxa de fatalidade a) Construa um grafico de dispersao da taxa de fa-


Ano Calendario Ano
por 1000 empregados talidade versus o tempo. O que este grafico sugere
1970 1 2,419 sobre a relacao entre as variaveis?
1971 2 1,732 b) Para modelar a tendencia nas taxas de fatali-
1972 3 1,361
dade, ajuste a linha de regressao de mnimos qua-
1973 4 1,108
1974 5 0,996 drados Y = 0 + 1 X, onde X representa o tempo
1975 6 0,952 (ano).
1976 7 0,904 c) Transforme a variavel explicativa X para ln X.
1977 8 0,792 Crie um grafico de dispersao da taxa de fatalidade
1978 9 0,701 versus o logaritmo natural do tempo (ano).
1979 10 0,890 d) Ajuste o modelo de mnimos quadrados Y =
1980 11 0,799 0 + 1 ln X
1981 12 1,084 e) Calcule o quadrado do coeficiente de correlacao
(r2 ), tambem denominado de coeficiente de deter-
minacao, e sugira qual modelo e mais indicado para
descrever as variaveis.

Solucao:
Os graficos referentes a cada situacao se encontram na Figura 48. Em: (a) nao se observa tendencia
linear; (b) o modelo ajustado e y = 1,8056 0,1017x; (d) o modelo ajustado e y = 2,1352 0,5946x , em
que x = ln(x); (e) O coeficiente de determinacao para o modelo da letra (b) e 55,90% e para o modelo
(d) e 59,64%, logo o ultimo modelo e o mais indicado. O valor do seu r2 significa que 59,64% da variacao
da variavel dependente (Ano) consegue ser explicada pelo modelo ajustado.

b) Modelo ajustado: y = 1,8056 0,1017x d) Modelo ajustado: y = 2,1352 0,5946x

Figura 48 Graficos referentes ao exerccio

12.6 Exerccios
1. Ajustar a equacao de regressao linear aos dados amostrais apresentados abaixo e confeccionar o
diagrama de dispersao com grafico da equacao ajustada.

106 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 12 CORRELACAO LINEAR E REGRESSAO LINEAR SIMPLES

Temperatura (C ) 10 15 20 25 30
Comprimento (mm) 1003 1005 1010 1011 1014
2. Para o seguinte conjunto de valores de x e y obtenha a equacao de regressao estimada.
x 2 4 6 8 10 12 14 16 18 20
y 10,3 18,2 25,1 35,6 43,0 50,0 59,1 67,8 75,2 85,0
3. Frutos de pepino sao utilizados para a producao de pickles e estes sao preservados em uma solucao
salina com 2 a 3% de sodio. Os dados abaixo mostram a reducao na firmeza (variavel Y medida em
libras) de pickles estocados por um perodo de 0 a 52 semanas (X) em solucao salina.
Semanas (X) 0 4 14 32 52
Firmeza (Y ) 19,8 16,5 12,8 8,1 7,5

a) Faca o diagrama de dispersao. A disposicao dos dados apresenta um comportamento linear? A


correlacao entre as variaveis e positiva, negativa ou nula?
b) Calcule o coeficiente de correlacao e interprete-o.
c) Encontre a equacao de regressao e apresente o grafico com os pontos observados e a reta encontrada.
d) Calcule o coeficiente de determinacao e interprete-o.
e) Calcule o valor dos erros para cada ponto e verifique se a soma deles e zero.
4. Dadas as situacoes abaixo que correspondem uma lista de situacoes de pesquisa, indique para cada
uma delas se o apropriado e proceder uma analise de regressao ou uma de correlacao. Justifique sua
indicacao.
a) O nvel de HDL (colesterol) se relaciona com o numero de horas de pratica de exerccios fsicos?
b) Qual e a variacao da demanda de certo produto em funcao de seu preco de venda?
c) O valor do aluguel esta associado a distancia da universidade?
d) Qual e o valor do custo de producao de certo produto conforme o volume produzido?

5. Por que o diagrama de dispersao e importante? Veja estes quatro conjuntos de dados, criados estatstico
F. J. Anscombe22 e os quatro diagramas de dispersao ao lado.

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4


X Y X Y X Y X Y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25 a) Grafico 1 b) Grafico 2
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

c) Grafico 3 d) Grafico 4

a) Relacione o conjunto de dados com o seu respectivo grafico:

(1) Conjunto 1 ( ) Grafico 1


(2) Conjunto 2 ( ) Grafico 2
(3) Conjunto 3 ( ) Grafico 3
(4) Conjunto 4 ( ) Grafico 4

b) Calcule para cada conjunto de dados, utilizando no maximo 3 casas decimais, a media e a variancia
de cada X e Y , as correlacoes e as equacoes de regressao linear dos 4 conjuntos.
c) O que estes resultados tem em comum?

22 https://pt.wikipedia.org/wiki/Quarteto de Anscombe

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 107


Estatstica Basica 13 Tabelas de distribuicoes de probabilidade teoricas

13 Tabelas de distribuicoes de probabilidade teoricas

Distribuicao normal padronizada para P (Z > z)

Tabela 34 Probabilidades () da distribuicao normal padronizada


Segunda decimal de Z
z 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
4,0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
5,0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

108 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas


Estatstica Basica 13 Tabelas de distribuicoes de probabilidade teoricas

Distribuicao t de Student para P (T > t) =

Tabela 35 Valores do quantil t segundo os graus de liberdade (gl) e probabilidades


Area na cauda superior ()
gl 0,25 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
1 1,000 3,078 6,314 12,71 31,82 63,66 127,3 318,3 636,6
2 0,816 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60
3 0,765 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92
4 0,741 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,727 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869
6 0,718 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959
7 0,711 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,706 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781
10 0,700 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,697 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,695 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318
13 0,694 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221
14 0,692 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140
15 0,691 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,690 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015
17 0,689 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965
18 0,688 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922
19 0,688 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
20 0,687 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,686 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819
22 0,686 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792
23 0,685 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768
24 0,685 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745
25 0,684 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725
26 0,684 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,684 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690
28 0,683 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 0,683 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,659
30 0,683 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
35 0,682 1,306 1,690 2,030 2,438 2,724 2,996 3,340 3,591
40 0,681 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
45 0,680 1,301 1,679 2,014 2,412 2,690 2,952 3,281 3,520
50 0,679 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496

UNIFAL-MG/Alfenas Profs. Flavio Bittencourt/Adriana Dias 109


Estatstica Basica 13 Tabelas de distribuicoes de probabilidade teoricas

Distribuicao 2 para P (2 > 2c ) =

Tabela 36 Valores do quantil 2 segundo os graus de liberdade (gl) e probabilidades


Area na cauda superior ()
gl 0,5 0,25 0,1 0,05 0,025 0,01 0,005
1 0,455 1,323 2,706 3,841 5,024 6,635 7,879
2 1,386 2,773 4,605 5,991 7,378 9,210 10,597
3 2,366 4,108 6,251 7,815 9,348 11,345 12,838
4 3,357 5,385 7,779 9,488 11,143 13,277 14,860
5 4,351 6,626 9,236 11,070 12,833 15,086 16,750
6 5,348 7,841 10,645 12,592 14,449 16,812 18,548
7 6,346 9,037 12,017 14,067 16,013 18,475 20,278
8 7,344 10,219 13,362 15,507 17,535 20,090 21,955
9 8,343 11,389 14,684 16,919 19,023 21,666 23,589
10 9,342 12,549 15,987 18,307 20,483 23,209 25,188
11 10,341 13,701 17,275 19,675 21,920 24,725 26,757
12 11,340 14,845 18,549 21,026 23,337 26,217 28,300
13 12,340 15,984 19,812 22,362 24,736 27,688 29,819
14 13,339 17,117 21,064 23,685 26,119 29,141 31,319
15 14,339 18,245 22,307 24,996 27,488 30,578 32,801
16 15,338 19,369 23,542 26,296 28,845 32,000 34,267
17 16,338 20,489 24,769 27,587 30,191 33,409 35,718
18 17,338 21,605 25,989 28,869 31,526 34,805 37,156
19 18,338 22,718 27,204 30,144 32,852 36,191 38,582
20 19,337 23,828 28,412 31,410 34,170 37,566 39,997
21 20,337 24,935 29,615 32,671 35,479 38,932 41,401
22 21,337 26,039 30,813 33,924 36,781 40,289 42,796
23 22,337 27,141 32,007 35,172 38,076 41,638 44,181
24 23,337 28,241 33,196 36,415 39,364 42,980 45,559
25 24,337 29,339 34,382 37,652 40,646 44,314 46,928
26 25,336 30,435 35,563 38,885 41,923 45,642 48,290
27 26,336 31,528 36,741 40,113 43,195 46,963 49,645
28 27,336 32,620 37,916 41,337 44,461 48,278 50,993
29 28,336 33,711 39,087 42,557 45,722 49,588 52,336
30 29,336 34,800 40,256 43,773 46,979 50,892 53,672
40 39,335 45,616 51,805 55,758 59,342 63,691 66,766
50 49,335 56,334 63,167 67,505 71,420 76,154 79,490
60 59,335 66,981 74,397 79,082 83,298 88,379 91,952
120 119,334 130,055 140,233 146,567 152,211 158,950 163,648
240 239,334 254,392 268,471 277,138 284,802 293,888 300,182
480 479,334 500,519 520,111 532,075 542,599 555,006 563,561

110 Profs. Flavio Bittencourt/Adriana Dias UNIFAL-MG/Alfenas

Você também pode gostar