Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução
Objetivos do Capítulo
1
1.1 – O que é estatística?
Por esta definição pode-se ver que a estatística descritiva se preocupa em organizar e
apresentar dados de uma forma clara e efetiva. Para isso ela utiliza gráficos, tabelas e valores
calculados a partir dos dados (médias, mediana, desvio padrão, etc.).
Em alguns casos os dados podem ser obtidos a partir de toda a população em estudo
ou, se a população é muito grande, os dados podem ser referentes a uma amostra retirada da
população. Os conceitos de população e amostra (ou amostragem) são fundamentais em
estatística. As definições abaixo e a figura 1.1 consideram estes dois conceitos.
Definição 1.3 - Uma população é a coleção completa e total dos elementos (pessoas,
medidas, escores, itens, e outros) a serem considerados em um estudo estatístico.
2
Exemplo 1.1 – Ilustra os conceitos de população e amostra
População
Amostra
Definição 1.5 - Estatística indutiva consiste de métodos para tirar conclusões sobre uma
população baseadas em informações obtidas a partir de uma amostra da população.
3
Exemplo 1.2 – Ilustra os conceitos de população e amostra
Suponha que estamos querendo conhecer a altura média de todas as mulheres com
idade entre 16 anos e 30 anos vivendo atualmente no Brasil. A nossa população de interesse
está muito bem definida. Claramente, não vamos obter uma resposta precisa a esta questão
porque é economicamente inviável determinar a altura de todos os membros de uma
população tão grande. Entretanto, podemos retirar uma amostra de duas mil mulheres desta
população, medir a altura de cada uma delas e usar os métodos da estatística indutiva para
obter informações sobre a altura média de toda a população em estudo.
1) Defina estatística
5) Descreva três situações ou problemas para as quais a estatística indutiva poderia ser
aplicada.
6) Identifique em cada caso abaixo se estamos tratando com uma população ou com uma
amostra.
a) Todos os estudantes universitários paulistas.
b) Os moradores de Brasília.
c) Cinqüenta pessoas escolhidas entre os sócios de um clube.
d) Vinte pacientes de AIDS escolhidos para participar em um teste de uma nova droga.
e) Os estudantes do curso de estatística de uma certa universidade.
f) Cem jogadores profissionais de futebol do estado de São Paulo.
7) Um jornal americano realizou uma pesquisa com 800 pessoas divorciadas perguntando se
elas desejavam se casar novamente. Foi encontrado que 58% dos entrevistados não
desejavam um novo casamento. Os 800 entrevistados constituem uma população ou uma
amostra? Se a resposta for uma amostra qual é a população?
8) Defina uma amostra contendo quatro elementos retirados de cada uma das populações
abaixo.
a) A população formada por todas as universidades brasileiras.
b) A população de todos os times de futebol do estado de São Paulo.
c) A população de todos os jornais diários do Brasil.
4
Capítulo 2
Estatística Descritiva
Objetivos do Capítulo
5
2.1 – Dados
As pessoas são classificadas de acordo com seu tipo sangüíneo em quatro grupos A, B,
AB e O.
a) Que tipo de dado é definido quando lhe dizem seu tipo de sangue?
b) Geneticistas e antropologistas registram o numero de pessoas de cada tipo de sangue.
Que tipo de dado eles estão coletando?
Solução:
a) Seu tipo de sangue é um dado qualitativo. Ele coloca você em uma das quatro
categorias não numéricas – A, B, AB ou O.
b) Registrar o número de indivíduos em cada uma das quatro categorias define o tipo de
dado que denominamos dado de freqüência.
6
Exemplo 2.2 – Ilustra tipos de dados
Solução:
a) A informação de que o aluno X recebeu nota A é um dado ordinal, pois as notas A, B,
C, D e E classificam o desempenho do estudante.
b) A informação sobre o número de estudantes com notas A, B, C, D e E define o tipo de
dado denominado dado de freqüência uma vez que ela nos diz o número de
indivíduos pertencentes a cada um das cinco categorias de notas.
Solução:
a) As alturas das quedas d’água são dados métricos, determinados através de medições.
b) A distribuição das 40 quedas mais altas em três categorias de alturas resulta no tipo de
dado denominado dados de freqüência.
A tabela 2.1, mostrada na próxima página, nos dá um resumo dos diversos tipos de dados
discutidos nesta seção.
7
Tabela 2.1 – Resumo dos tipos de dados.
Dados
Tipo Descrição Exemplo
Somente categorias. Os dados não Os quatro principais times de
Qualitativo podem ser arranjados segundo uma futebol do Rio de Janeiro:
ordem ou esquema. Flamengo, Vasco,
Fluminense, Botafogo
As categorias são ordenadas Os dez primeiros lugares numa
Ordinal segundo um esquema ou conceito. maratona
Dado obtido através de medições. Altura dos alunos da disciplina
Métrico É possível comparar um dado com Probabilidade e Estatística.
outro.
O número de itens por categoria é Número de estudantes masculinos e
Freqüência fornecido. femininos da disciplina
Probabilidade e Estatística.
1) Em cada uma dos casos abaixo, determine o tipo de dados mais apropriado.
a) Um carro é descrito como subcompacto, compacto, médio ou grande.
b) Peso de peças em uma amostra.
c) As cores de uma amostra de carros envolvidos em colisões com vítimas.
d) Códigos de endereçamento postal (CEP).
e) Número de famílias atualmente vivendo em cada uma das cinco regiões do país
(Norte, Nordeste, Sul, Sudeste e Centro-Oeste).
8
3) Em 4 de Maio de 1961, o comandante Malcon Ross, USNR, alcançou 34667,92m de
altitude em um balão. Qual tipo de dado é representado pela altura alcançada?
4) A tabela abaixo fornece dados de área e população referentes aos seis continentes no ano
de 1988.
5) As exportações Brasileiras, nos anos de 1993 e 1996, por região de destino, podem ser
vistas no quadro abaixo.
a) Qual tipo de dado é definido pelos valores das exportações em cada ano?
b) A afirmação “a Europa é o maior importador e o Nafta é o segundo maior importador
de produtos brasileiros” define qual tipo de dado?
c) Qual tipo de dado nós obtemos do fato de que a França faz parte da União Européia?
9
2.2 – Medidas de tendência central
MÉDIA
Definição 2.3 – A média de um conjunto de dados é definida como sendo a soma dos
dados dividida pelo número de elementos do conjunto:
Considere o conjunto de dados mostrado na tabela abaixo. Suponha que esses valores
correspondam à ajuda de custo de alunos estagiários pagas por empresas da área de
engenharia. Determinar a média de salários para cada empresa.
A 200 200 200 840 200 200 300 200 300 350 700 350 950
B 200 200 840 350 300 300 200 200 950 200
Nota: Os zeros correspondentes aos centavos foram omitidos para facilitar a leitura.
Solução:
De acordo com a definição 2.3, a média de um conjunto de dados é obtida somando-se
todos os valores e dividindo essa soma pelo número de valores. Chamando MA a média da
empresa A e MB a média da empresa B, podemos escrever:
R$4990,00 R$3740,00
MA = = R$383,85 MB = = R$374,00
13 10
10
MEDIANA
Solução:
O número de dados para a empresa A é 13, ou seja, um número ímpar.
Conseqüentemente, a mediana deste conjunto de dados será o sétimo valor quando
ordenarmos os valores segundo uma ordem crescente dos mesmos, como mostrado abaixo.
200 200 200 200 200 200 300 300 350 350 700 840 950
Mediana = 300
Assim, a mediana dos salários da empresa A é R$300,00.
O número de dados para a empresa B é 10, ou seja, um número par. Por isso, de
acordo com a definição 2.4, a mediana será dada pela média dos dois valores centrais da lista
ordenada dos dados. Esta lista é dada a seguir.
200 200 200 200 200 300 300 350 840 950
11
MODA
A última medida de tendência central que será aqui discutida é a moda. Basicamente,
a moda é o dado ou valor que ocorre com mais freqüência, ou seja, que ocorre mais vezes em
um conjunto de dados. A definição da moda é feita como se segue:
Pela definição 2.5, um conjunto de dados pode não ter uma moda, ter uma única moda,
ter duas modas ou mais que duas. Quando existir uma única moda, o conjunto de dados é dito
unimodal. Se existirem duas modas ele é dito bimodal, e assim por diante.
Solução:
A tabela 2.3 mostra a distribuição de freqüências para os salários da empresa A. Para
cada valor são contadas as ocorrências, resultando nos valores da coluna 2 da tabela.
Pode ser visto que o valor ocorrendo com mais freqüência é o valor 200, que ocorre 6
vezes. Dessa forma, concluímos que a moda dos 13 salários da empresa A é R$200,00.
12
Comparação entre a média, mediana e moda
Em ambos os conjuntos de dados, a média é maior que a mediana. Isto ocorre porque a
média é fortemente afetada por poucos altos salários em cada conjunto de dados. Em geral, a
média é sensitiva a valores muito altos ou muito baixos, enquanto que a mediana não é
influenciada por valores extremos.
a) Um estudante faz quatro provas em uma disciplina de cálculo. Suas notas são 88, 75, 95 e
100. Que medida de tendência central é mais adequada de se usar?
Sexo Freqüência
Masculino 4239
Feminino 864
13
Solução:
a) A média é provavelmente a medida mais razoável de se usar uma vez que ela leva em
conta todas as quatro notas obtidas e indica o desempenho global do aluno. Neste caso, a
média a ser reportada é igual a 89,5.
b) Neste caso a medida de tendência central mais apropriada é a mediana. Isto porque a
mediana representa o valor central e ela não é afetada por valores muito altos de uns
poucos apartamentos que poderiam estar entre os apartamentos oferecidos para venda.
Assim a mediana proporciona uma melhor indicação do valor “típico” de venda do que a
média ou a moda.
c) A única medida apropriada para estes dados é a moda, que neste caso é “masculino”.
Cada dado desse conjunto ou é masculino ou é feminino. Não existe maneira de se
calcular a média ou a mediana para tal tipo de dado. Em geral a moda é a única medida de
tendência central que pode ser usada para dados qualitativos.
Determine a média, mediana e a moda para cada conjunto de dados nos exercícios 2 a 4.
2) A Fundação Nacional para a Ciência dos EUA coleta dados sobre a idade dos estudantes
que obtiveram o título de doutor em ciências e engenharia. Os resultados são publicados
no Survey of Earned Doctorates. Uma amostra relativa ao ano de 1991 é composta dos
seguintes valores, dados em anos:
37 28 36 33
37 43 41 28
24 44 27 24
3) Um fabricante de sabão líquido produz uma garrafa com um conteúdo de 310 ml. Uma
amostragem de 16 garrafas produziu os seguintes resultados:
14
2.3 – Notação de somatório
S = 25 + 23 + 12 + 9 + 32 + 38 + 15 = 154
S = x1 + x2 + x3 + x4 + x5 + x6 + x7 = 25 + 23 + 12 + 9 + 32 + 38 + 15 = 154
Com o símbolo de somatório podemos escrever essa soma de uma maneira muito mais
resumida. Nós podemos usar Σx para indicar o total resultante da soma dos valores de x e a
expressão acima se torna:
7
Total = ∑ xi = x1 + x 2 + x3 + x 4 + x5 + x6 + x7
i =1
Ou simplesmente,
7
Total = ∑ xi
i =1
O resultado é
7
∑x
i =1
i = 25 + 23 + 12 + 9 + 32 + 38 + 15 = 154
Média da amostra X=
∑x
n
Número de elementos da amostra
15
Exemplo 2.8 – Ilustra o cálculo da média
a) Calcule Σx.
b) Qual o valor de n?
c) Determine a média x .
Solução:
a) Σx = 9,8 + 10,2 + 9,8 + 9,4 + 9,7 + 9,7 + 10,1 + 10,1 + 9,8 + 9,6 + 9,1 + 9,7 = 117
b) n = 12
c) x = (117) / 12 = 9,75
Entretanto, dois conjuntos de dados podem ter a mesma média, a mesma mediana ou a
mesma moda e ainda serem bem diferentes em outros aspectos. Por exemplo, considere as
alturas dos cinco jogadores de dois times de basquete, como mostrado na figura 2.1. As duas
equipes tem a mesma média que é igual a 191 cm e a mesma mediana que é igual a 193 cm.
As modas dos dois conjuntos de alturas também são iguais (193 cm). Entretanto, é óbvio que
os dois conjuntos de dados são diferentes. Em particular, existe muito mais variação nas
alturas dos jogadores da equipe II do que nas alturas dos jogadores da equipe I. Para descrever
esta diferença quantitativamente, nós usamos uma medida de dispersão que indica quanto de
variação existe entre os dados de um conjunto.
AMPLITUDE
16
A amplitude de um conjunto de dados é obtida computando a diferença entre o maior
e o menor valor entre os elementos do conjunto. Assim, podemos ver da figura 2.2 que:
17
Em geral, adotamos a seguinte definição:
Exemplo 2.9 – Ilustra o cálculo dos desvios das medidas com relação à média
As alturas dos cinco jogadores da equipe I são: 184, 186, 193, 193 e 199 cm.
Determine os desvios desses valores com relação à média.
Solução:
A altura média dos jogadores da equipe I é:
−
∑ x = 184 + 186 + 193 + 193 + 199 = 191cm
x= n 5
18
Para obter o desvio de cada valor com relação à média, nós simplesmente calculamos a
diferença entre o valor e a média; isto é, nós computamos x – x. Por exemplo, o desvio com
relação à média da altura de 184 cm é 184 – 191 = -7. Os desvios com relação à média dos
cinco valores de altura estão dados na segunda coluna da tabela 2.6 e estão mostrados
graficamente na figura 2.3.
x x-x
184 -7
186 -5
193 2
193 2
199 8
-7 8
-5 2
x
184 186 191 193 199
O segundo passo para computar o desvio padrão de uma amostra consiste em obter a
medida do desvio total com relação à média, para todos os valores do conjunto de dados.
Observe que a soma dos desvios com relação a media ( x – x ), é sempre igual a zero e, por
isso, não adianta somá-los para obter um desvio total.
19
Exemplo 2.10 – Ilustra a soma dos quadrados dos desvios
Calcule a soma dos quadrados dos desvios para as alturas dos jogadores da equipe I.
Solução:
A tabela 2.7 foi obtida da tabela 2.6, adicionando-se a esta a coluna ( x – x )2 .
O terceiro passo para calcular o desvio padrão de uma amostra é tomar a média dos
quadrados dos desvios. Isto é feito dividindo-se a soma dos quadrados dos desvios por n-1. O
valor resultante é denominado variância da amostra e é indicado por s2. Em símbolos:
s 2
=
∑ ( x − x) 2
n −1
Solução:
Do exemplo 2.10, a soma dos quadrados dos desvios foi calculada como sendo igual a
146 cm2. Como n = 5 a variância da amostra das alturas será igual a
_
s 2
=
∑ ( x − x) 2
=
146
= 36,5cm 2
n −1 5 −1
Nota: Se em vez de dividirmos por n-1, nós dividíssemos por n, então a variância da amostra
seria a média dos quadrados dos desvios. Embora a divisão por n possa parecer mais natural,
nós dividimos por n-1 pela seguinte razão: Um dos principais usos da variância de uma
amostra é para estimar a variância da população (como veremos mais adiante). A divisão por
20
n tende a subestimar a variância da população enquanto que a divisão por n-1 tende a
produzir valores da variância da população mais corretos.
É importante entender que a variância de uma amostra é dada em unidades que são o
quadrado das unidades originais. Isto ocorre por elevarmos ao quadrado os desvios com
relação à média. Por exemplo, a variância da amostra das alturas de cinco jogadores da equipe
I é 36,5 cm2. Uma vez que é desejável ter medidas descritivas nas mesmas unidades que os
dados do conjunto, o passo final para calcular o desvio padrão de uma amostra é tomar a raiz
quadrada da variância da amostra. Em outras palavras, o desvio padrão de uma amostra, s, é
s=
∑ ( x − x) 2
n −1
Solução:
Do exemplo 2.11, a variância da amostra foi calculada em 36,5 cm2. Assim, o desvio
padrão será:
s=
∑ ( x − x) 2 = 36,5 = 6,04cm
n −1
s=
∑ ( x − x) 2
n −1
Os passos necessários para calcular o desvio padrão de uma amostra foram detalhados
nos exemplos 2.8 - 2.11. Podemos resumir esses passos da seguinte maneira:
21
Exemplo 2.13 – Ilustra a definição 2.7
As alturas de cinco jogadores da equipe II são 171, 183, 193,193 e 215. Calcule o
desvio padrão desta amostra.
Solução:
Aplicando o procedimento descrito acima, devemos inicialmente calcular a média das
cinco medidas.
−
x=
∑ x = 171 + 183 + 193 + 193 + 215 = 191 cm
n 5
Agora, nós construímos uma tabela para calcular a soma dos quadrados dos desvios.
x x-x ( x – x )2
171 -20 400
183 -8 64
193 2 4
193 2 4
215 24 576
_ 2
∑ (x - x ) = 0 _
∑ x - x = 1048
Σ( x – x )2 = 1048 cm2.
s=
∑ ( x − x) 2
=
1048
= 16,18cm
n −1 5 −1
No exemplo 2.11 nós encontramos que o desvio padrão das alturas de cinco jogadores
da equipe I é s = 6,04 cm. No exemplo 2.12 encontramos que o desvio padrão das alturas de
cinco jogadores da equipe II é s = 16,18 cm. Conseqüentemente, vemos que a equipe II, que
tem uma variação maior nas alturas dos jogadores do que a equipe I, também tem um desvio
padrão maior. Isto mostra que quanto maior for a variação entre os dados de um conjunto de
valores, maior será o desvio padrão do conjunto de dados.
22
Fórmula simplificada para s
n(∑ x 2 ) − (∑ x )
2
s=
n(n − 1)
No exemplo 2.12 computamos o desvio padrão das alturas dos jogadores da equipe II
e encontramos o valor 16,18 cm. Calcule novamente o desvio padrão das alturas utilizando a
fórmula simplificada.
Solução:
Para aplicar a fórmula simplificada, precisamos das somas ∑x e ∑x2 . Podemos
determinar esses valores com o auxílio da tabela abaixo.
x x2
171 29241
183 33489
193 37249
193 37249
215 46225
∑ x = 955 ∑ x = 183453
2
Neste exemplo temos n = 5 e, da última linha da tabela acima, vemos que ∑x = 955 e
2
∑x = 183453. Assim, pela fórmula simplificada obtemos:
n(∑ x 2 ) − (∑ x )
2
5(183453) − (955) 2
s= = = 16,18cm
n(n − 1) 5(5 − 1)
Como podemos ver, os resultados obtidos pelas duas fórmulas são iguais, como era de
se esperar. Pequenas diferenças nas casas decimais podem ser esperadas e são devidas a erros
de arredondamento.
23
Exercícios – Seqüência 2.3
3) A Fundação Nacional para a Ciência dos EUA coleta dados sobre a idade dos estudantes
que obtiveram o título de doutor em ciências e engenharia. Os resultados são publicados
no Survey of Earned Doctorates. Uma amostra relativa ao ano de 1991 é composta dos
seguintes valores, em anos:
37 28 36 33
37 43 41 28
24 44 27 24
4) Um fabricante de sabão líquido produz uma garrafa com um conteúdo de 310 ml. Uma
amostragem de 16 garrafas produziu os seguintes resultados, em ml:
24
c) Embora os dois conjuntos de dados tenham a mesma média e mesma mediana, eles
são bastante diferentes em outro aspecto. No que ou como eles são deferentes?
d) Qual conjunto de dados parece ter menor variação?
e) Calcule s para cada conjunto de dados.
f) Suas respostas em parte (d) e (e) são consistentes? Porque?
Marca A Marca B
10,5 11,3
9,1 7,0
10,0 9,7
10,3 9,6
9,4 10,5
9,6 11,8
9,7 8,7
25
2.5 - Agrupamento de dados
Os dados da tabela 2.8 representam as médias finais obtidas por alunos cursando uma
disciplina de Probabilidade e Estatística de uma faculdade.
Observando o conjunto de dados acima pode-se perceber que pouca informação pode
ser obtida. É difícil ter uma visão clara de como a turma se comportou nessa disciplina.
Agrupando-se os dados em classes podemos tornar este conjunto de dados mais fácil de ser
interpretado.
O primeiro passo é decidir quantas classes iremos adotar. Como o menor valor é (3,6)
e o maior valor é (9,9), podemos adotar as classes 3,0 – 3,9; 4,0 – 4,9; 5,0 – 5,9; ... ; 9,0 – 9,9.
Essas classes podem ser vistas na primeira coluna da tabela 2.9.
Agora, basta dar uma olhada na tabela 2.9 para obtermos várias informações úteis. Por
exemplo, podemos ver que a nota mais comum está na classe 6,0 – 6,9. Comparando-se as
tabelas 2.8 e 2.9 vemos que a última nos dá muito mais informações.
26
Tabela 2.9 – Dados agrupados
Notas Marcas Número de Notas
3,0 – 3,9 III 3
4,0 – 4,9 I 1
5,0 – 5,9 IIIII III 8
6,0 – 6,9 IIIII IIIII 10
7,0 – 7,9 IIIII II 7
8,0 – 8,9 IIIII II 7
9,0 – 9,0 IIII 4
40
25 ≤ N ≤ 400 → k= N
16 ≤ N ≤ 572 → k = 1 + 3,3 log N
20 ≤ N ≤ 36 → k = −1 + 2 ln N
27
Em outras palavras, 25% das notas estão entre 6,0 e 6,9, inclusive. A porcentagem de
uma classe, expressa como um número decimal, é chamada freqüência relativa da classe. A
classe 6,0 – 6,9 tem freqüência relativa igual a 0,25. Uma tabela listando todas as classes e
suas respectivas freqüências relativas é chamada distribuição de freqüência relativa. A
tabela 2.10 abaixo mostra a distribuição de freqüência relativa para os dados correspondentes
às notas dos alunos. Note que a soma das freqüências relativas é igual a 1.
Terminologia
Existem diversos termos associados com agrupamento de dados. Considere, por
exemplo, a classe 6,0 – 6,9. O menor valor 6,0 é denominado limite inferior da classe e o
maior valor 6,9 é denominado limite superior da classe. O valor médio da classe 6,0 – 6,9 é
denominado ponto médio da classe ou simplesmente ponto médio e é determinado por (6,0
+ 6,9)/2 = 6,45. Finalmente, a diferença entre o limite inferior de uma classe e o limite
inferior da classe seguinte é denominada amplitude da classe. A amplitude das classes é o
quociente entre a amplitude total e o número de classes.
28
Tabela 2.12 – Níveis de colesterol em pacientes.
210 209 212 208
217 207 210 203
208 210 210 199
215 221 213 218
202 218 200 214
Solução:
Como a amplitude de cada classe foi definida como sendo igual a 5 e, a primeira classe
deve iniciar em 195, então teremos as classes 195 – 199, 200 –204, etc.. A tabela 2.13 mostra
cada classe e sua freqüência.
A tabela de dados agrupados pode ser facilmente obtida a partir da tabela 2.13.
Para ilustrar os cálculos típicos efetuados para a determinação dos valores da terceira e
quarta colunas, considere a classe 205 – 209. A freqüência relativa e o ponto médio são
29
Tabela 2.15 – Número de crianças em idade escolar por família.
0 3 0 0 3 0
2 2 0 1 2 1
0 0 1 2 4 0
4 2 1 0 1 0
0 2 0 1 3 2
Solução:
a) Como cada classe será representada por um único valor, então as classes serão 0, 1, 2, 3 e
4. A tabela 2.16 mostra as freqüências e freqüências relativas para este exemplo.
b) Da tabela podemos ver que para a classe “3”, por exemplo, teremos:
Assim, para a classe “3”, o limite superior, o limite inferior e o ponto médio ou ponto
de classe são todos iguais ao valor da classe, isto é, 3. Resultado similar ocorre para as
outras classes.
c) Finalmente, para construir a tabela de dados agrupados devemos adicionar uma quarta
coluna com os pontos de classe. Como eles são iguais aos valores das classes, esta quarta
coluna será idêntica à primeira coluna da tabela 2.16. Podemos então dizer que a tabela
2.16 serve como tabela de dados agrupados.
30
A-B conteria valores maiores ou iguais a A porém menores que B. A classe B-C conteria
valores maiores ou iguais a B e menores que C, e assim por diante. O exemplo a seguir
detalha este caso.
Considere os dados da tabela 2.17 que ilustra o peso de 20 pessoas do sexo masculino
com idades entre 18 e 24 anos.
Observe que em cada classe nós incluímos o limite inferior e excluímos o limite
superior. Assim, um dado com valor igual a 70 seria incluído na classe 70 – 75.
31