Você está na página 1de 31

Capítulo 1

Introdução

Objetivos do Capítulo

O termo “estatística” é amplamente usado, às vezes sem muito rigor, em inúmeros


setores da nossa vida cotidiana como nos esportes, na economia, na área da saúde, etc..
O estudo da estatística é importante pela influência que ela exerce em nossas vidas. Ao
término deste capítulo você será capaz de:

1. Distinguir entre os significados das frases “a estatística é” e “as estatísticas são”.


2. Definir e distinguir entre estatística descritiva e estatística indutiva.
3. Definir e distinguir entre uma população e uma amostra.
4. Descrever como a estatística indutiva pode nos proporcionar informações sobre as
quais basear decisões importantes.
5. Descrever algumas maneiras de usar erradamente estatísticas.

1
1.1 – O que é estatística?

A palavra estatística tem dois significados. Se dissermos “a estatística é”, estaremos


nos referindo ao estudo da estatística, ou seja, ao estudo do assunto englobado pela estatística.
Se nós dissermos “as estatísticas são”, estaremos nos referindo a números derivados de uma
coleção de dados tais como taxa de desemprego, média de aprovação em um exame
vestibular, taxa de mortalidade infantil ou média de gols em um campeonato de futebol.

É difícil conseguir uma definição concisa de estatística porque é um assunto que


envolve muito mais que uma simples coleção, tabulação e sumarização de dados. Uma
definição comumente usada é dada abaixo:

Definição 1.1 - A estatística é uma coleção de métodos para o planejamento de


experimentos, obtenção de dados e, ainda, para a análise, interpretação e inferências
baseadas nesses dados.

Estatística é uma importante ferramenta de pesquisa. Ela é aplicada em praticamente


todas as áreas. Educação, agricultura, economia, engenharia e marketing são alguns dos
exemplos mais comuns.

1.2 – Tipos de estatística

Existem dois tipos de estatística: estatística dedutiva (ou descritiva) e estatística


indutiva (ou inferência estatística).

Definição 1.2 - A estatística descritiva trata da organização, sumário e apresentação


gráfica de dados.

Por esta definição pode-se ver que a estatística descritiva se preocupa em organizar e
apresentar dados de uma forma clara e efetiva. Para isso ela utiliza gráficos, tabelas e valores
calculados a partir dos dados (médias, mediana, desvio padrão, etc.).

Em alguns casos os dados podem ser obtidos a partir de toda a população em estudo
ou, se a população é muito grande, os dados podem ser referentes a uma amostra retirada da
população. Os conceitos de população e amostra (ou amostragem) são fundamentais em
estatística. As definições abaixo e a figura 1.1 consideram estes dois conceitos.

Definição 1.3 - Uma população é a coleção completa e total dos elementos (pessoas,
medidas, escores, itens, e outros) a serem considerados em um estudo estatístico.

Definição 1.4 - Uma amostra é um subconjunto de uma população de interesse.

2
Exemplo 1.1 – Ilustra os conceitos de população e amostra

Se estivermos interessados em determinar a idade média dos alunos de uma


determinada classe em uma universidade, podemos perguntar a cada aluno desta classe a sua
idade e, então, calcular a idade média. Neste caso, a população estudada é constituída pelos
alunos pertencentes àquela classe. Entretanto, se estivermos interessados em determinar a
idade média dos alunos pertencentes à universidade, a população estudada passa a ser
constituída por todos os alunos da universidade e a classe anteriormente considerada passa a
ser uma amostra da população total.

População

Amostra

Figura 1.1 – População e amostra

Quando a população de interesse é muito grande, torna-se economicamente inviável


efetuar medições em cada um de seus elementos. Nestes casos, a estatística indutiva nos
possibilita obter informações a partir de uma amostra menor, porém representativa, retirada da
população em estudo. Através da medição dos elementos da amostra nós podemos usar os
procedimentos da estatística indutiva para fazermos inferências ou projeções, sobre certas
características da população. Uma definição de estatística indutiva é:

Definição 1.5 - Estatística indutiva consiste de métodos para tirar conclusões sobre uma
população baseadas em informações obtidas a partir de uma amostra da população.

A definição da população é uma etapa importante de um estudo estatístico. A escolha


da população está intimamente ligada às respostas que queremos obter no nosso estudo. O
exemplo 1.2 ilustra essa questão.

3
Exemplo 1.2 – Ilustra os conceitos de população e amostra

Suponha que estamos querendo conhecer a altura média de todas as mulheres com
idade entre 16 anos e 30 anos vivendo atualmente no Brasil. A nossa população de interesse
está muito bem definida. Claramente, não vamos obter uma resposta precisa a esta questão
porque é economicamente inviável determinar a altura de todos os membros de uma
população tão grande. Entretanto, podemos retirar uma amostra de duas mil mulheres desta
população, medir a altura de cada uma delas e usar os métodos da estatística indutiva para
obter informações sobre a altura média de toda a população em estudo.

Exercícios – Seqüência 1.1

1) Defina estatística

2) Defina os seguintes termos:


a) população b) amostra

3) Qual a diferença entre se dizer “a estatística é” e “as estatísticas são”?

4) Quais são os dois tipos de estatística? Descreva cada um deles em detalhes.

5) Descreva três situações ou problemas para as quais a estatística indutiva poderia ser
aplicada.

6) Identifique em cada caso abaixo se estamos tratando com uma população ou com uma
amostra.
a) Todos os estudantes universitários paulistas.
b) Os moradores de Brasília.
c) Cinqüenta pessoas escolhidas entre os sócios de um clube.
d) Vinte pacientes de AIDS escolhidos para participar em um teste de uma nova droga.
e) Os estudantes do curso de estatística de uma certa universidade.
f) Cem jogadores profissionais de futebol do estado de São Paulo.

7) Um jornal americano realizou uma pesquisa com 800 pessoas divorciadas perguntando se
elas desejavam se casar novamente. Foi encontrado que 58% dos entrevistados não
desejavam um novo casamento. Os 800 entrevistados constituem uma população ou uma
amostra? Se a resposta for uma amostra qual é a população?

8) Defina uma amostra contendo quatro elementos retirados de cada uma das populações
abaixo.
a) A população formada por todas as universidades brasileiras.
b) A população de todos os times de futebol do estado de São Paulo.
c) A população de todos os jornais diários do Brasil.

4
Capítulo 2

Estatística Descritiva

Objetivos do Capítulo

Neste capítulo serão discutidos os modos de apresentação de dados que permitam


realçar as informações contidas em uma amostra retirada de uma população. Ao
término deste capítulo você será capaz de:

1. Definir as quatro categorias de dados que serão aqui discutidas.


2. Definir e calcular as principais medidas de tendência central.
3. Definir e calcular medida de dispersão.
4. Construir e usar uma tabela de freqüência para o cálculo dos valores da média,
variância e desvio padrão de um conjunto de números.
5. Usar tabelas de freqüência, gráficos tipo boxplot, dotplot e stem-and-leaf displays
para identificar padrões em um conjunto de números.

5
2.1 – Dados

Dados são definidos como informações coletadas de um experimento. Existem vários


tipos diferentes de dados e a metodologia usada para organizar e analisar os dados é
parcialmente determinada pelo tipo de dado sendo considerado. Dados podem ser
quantitativos, isto é, consistindo de números, ou podem ser qualitativos, isto é envolvendo
atributos tais como cor dos olhos, sexo, religião praticada, cor dos cabelos, etc. Uma definição
mais precisa de dados é colocada a seguir.

Definição 2.1 – Dados qualitativo, ordinal e métrico


Dados qualitativos: Dados que fornecem informação não numérica tais como cor
dos olhos e tipo de sangue.
Dados ordinais: Dados sobre ordem ou ranking em uma escala tais como 1,2,3,...
ou A, B, C, ....
Dados métricos: Dados obtidos de medida de quantidades tais como peso, altura,
vazão e tempo.

Outro tipo importante de dado é o dado de freqüência. Contando o número de


indivíduos ou itens que pertencem a categorias como, por exemplo, feminino e masculino
produz dados de freqüência.

Definição 2.2 – Dados de freqüência são dados sobre o número de indivíduos


pertencentes a uma dentre várias categorias.

Exemplo 2.1 – Ilustra os tipos de dados

As pessoas são classificadas de acordo com seu tipo sangüíneo em quatro grupos A, B,
AB e O.
a) Que tipo de dado é definido quando lhe dizem seu tipo de sangue?
b) Geneticistas e antropologistas registram o numero de pessoas de cada tipo de sangue.
Que tipo de dado eles estão coletando?

Solução:
a) Seu tipo de sangue é um dado qualitativo. Ele coloca você em uma das quatro
categorias não numéricas – A, B, AB ou O.
b) Registrar o número de indivíduos em cada uma das quatro categorias define o tipo de
dado que denominamos dado de freqüência.

6
Exemplo 2.2 – Ilustra tipos de dados

Nos cursos de pós-graduação da maioria das universidades, o aluno, ao completar uma


disciplina, recebe uma nota ou avaliação A, B, C, D ou E.
a) Que tipo de dado é uma informação de que um aluno X recebeu uma nota A em uma
determinada disciplina?
b) Que tipo de dado é fornecido pela informação de que as notas finais em uma disciplina
foram 10 A, 7 B, 2 C, 1 D e nenhum E?

Solução:
a) A informação de que o aluno X recebeu nota A é um dado ordinal, pois as notas A, B,
C, D e E classificam o desempenho do estudante.
b) A informação sobre o número de estudantes com notas A, B, C, D e E define o tipo de
dado denominado dado de freqüência uma vez que ela nos diz o número de
indivíduos pertencentes a cada um das cinco categorias de notas.

Exemplo 2.3 – Ilustra tipos de dados

Considere a lista das quedas de água mais altas do mundo.


a) A informação de que a queda d’água Angel Falls, na Venezuela, tem uma altura de
1000m e a queda d’água Ribbon Falls, na Califórnia, tem 491m de altura
correspondem a qual tipo de dado?
b) Da lista também é possível mostrar que das 40 quedas d’água mais altas, quatro tem
uma altura maior que 518m, cinco estão entre 518m e 305m e 31 tem uma altura
menor que 305m. Que tipo de dado esta informação proporciona?

Solução:
a) As alturas das quedas d’água são dados métricos, determinados através de medições.
b) A distribuição das 40 quedas mais altas em três categorias de alturas resulta no tipo de
dado denominado dados de freqüência.

A classificação dos dados nas quatro categorias (qualitativo, ordinal, métrico e


freqüência), descritas nessa seção, representa uma das muitas possibilidades de classificação
de dados encontradas na literatura. É, portanto, possível encontrarmos outros esquemas de
classificação de dados defendidos por outros pesquisadores. Deve estar claro para o leitor que
não existe uma classificação de dados única, aceita por todos os estudiosos da estatística.

A tabela 2.1, mostrada na próxima página, nos dá um resumo dos diversos tipos de dados
discutidos nesta seção.

7
Tabela 2.1 – Resumo dos tipos de dados.

Dados
Tipo Descrição Exemplo
Somente categorias. Os dados não Os quatro principais times de
Qualitativo podem ser arranjados segundo uma futebol do Rio de Janeiro:
ordem ou esquema. Flamengo, Vasco,
Fluminense, Botafogo
As categorias são ordenadas Os dez primeiros lugares numa
Ordinal segundo um esquema ou conceito. maratona
Dado obtido através de medições. Altura dos alunos da disciplina
Métrico É possível comparar um dado com Probabilidade e Estatística.
outro.
O número de itens por categoria é Número de estudantes masculinos e
Freqüência fornecido. femininos da disciplina
Probabilidade e Estatística.

Exercícios – Seqüência 2.1

1) Em cada uma dos casos abaixo, determine o tipo de dados mais apropriado.
a) Um carro é descrito como subcompacto, compacto, médio ou grande.
b) Peso de peças em uma amostra.
c) As cores de uma amostra de carros envolvidos em colisões com vítimas.
d) Códigos de endereçamento postal (CEP).
e) Número de famílias atualmente vivendo em cada uma das cinco regiões do país
(Norte, Nordeste, Sul, Sudeste e Centro-Oeste).

2) Em 1988, as principais línguas faladas do mundo eram as seguintes:

Classificação Língua Número de pessoas


(milhões)
1 Chinês 825
2 Inglês 431
3 Hindu 325
4 Espanhol 320
5 Russo 289
6 Árabe 187
7 Bengali 178

a) Qual tipo de dado é mostrado na primeira coluna da tabela?


b) Qual tipo de dado é definido pela informação de que Mike Jordan fala Inglês?
c) Qual tipo de dado é mostrado na terceira coluna da tabela?

8
3) Em 4 de Maio de 1961, o comandante Malcon Ross, USNR, alcançou 34667,92m de
altitude em um balão. Qual tipo de dado é representado pela altura alcançada?

4) A tabela abaixo fornece dados de área e população referentes aos seis continentes no ano
de 1988.

Continente Área de terra(Km2) População (milhões)


Ásia 27248 2.995
África 29970 623
América de Norte 23962 416
América do Sul 17620 286
Europa 4877 497
Oceania 8407 26

a) Qual tipo de dado é proporcionado pelos valores de áreas?


b) Qual tipo de dado está contido na afirmação “a África é o maior continente em área e
o segundo mais populoso”?
c) Qual tipo de dado é proporcionado pelos valores da população?
d) Qual tipo de dado nós obtemos do fato de que Madame Curie nasceu na Europa?

5) As exportações Brasileiras, nos anos de 1993 e 1996, por região de destino, podem ser
vistas no quadro abaixo.

Regiões 1993 1996


(milhões de US$) (milhões de US$)
União Européia 10.234 12.834
Aladi* 3.750 3.622
Nafta** 8.337 9.688
Mercosul 5.394 7.305
Ásia 6.112 7.813
África 1.074 1.492
demais 3.797 4.989
*Aladi = Bolívia, Chile, Equador, Colômbia, México, Peru e Venezuela.
**Nafta = EUA, México e Canadá.
Fonte: Folha de São Paulo, 24/02/98.

a) Qual tipo de dado é definido pelos valores das exportações em cada ano?
b) A afirmação “a Europa é o maior importador e o Nafta é o segundo maior importador
de produtos brasileiros” define qual tipo de dado?
c) Qual tipo de dado nós obtemos do fato de que a França faz parte da União Européia?

9
2.2 – Medidas de tendência central

As medidas descritivas de tendência central definem o valor central ou valor mais


típico de um conjunto de dados. De certa forma, essas medidas tentam nos dar alguma
informação sobre um conjunto de dados. Nesta seção serão discutidas as três medidas mais
utilizadas – média, mediana e moda.

MÉDIA

A medida de tendência central mais utilizada é a média. A definição de média de um


conjunto de dados é dada no quadro abaixo.

Definição 2.3 – A média de um conjunto de dados é definida como sendo a soma dos
dados dividida pelo número de elementos do conjunto:

Média = (Soma dos dados)/(número de elementos)

Exemplo 2.4 – Ilustra o cálculo da média

Considere o conjunto de dados mostrado na tabela abaixo. Suponha que esses valores
correspondam à ajuda de custo de alunos estagiários pagas por empresas da área de
engenharia. Determinar a média de salários para cada empresa.

Tabela 2.2 – Dados referentes a salários

Empresa Salários de estagiários(R$)

A 200 200 200 840 200 200 300 200 300 350 700 350 950

B 200 200 840 350 300 300 200 200 950 200

Nota: Os zeros correspondentes aos centavos foram omitidos para facilitar a leitura.

Solução:
De acordo com a definição 2.3, a média de um conjunto de dados é obtida somando-se
todos os valores e dividindo essa soma pelo número de valores. Chamando MA a média da
empresa A e MB a média da empresa B, podemos escrever:

R$4990,00 R$3740,00
MA = = R$383,85 MB = = R$374,00
13 10

Dessa forma, o salário médio dos 13 estagiários da empresa A é R$383,85 e dos 10


estagiários da empresa B é R$373,00.

10
MEDIANA

A mediana é uma outra medida de tendência central freqüentemente usada em


estatística. Essencialmente, a mediana divide um conjunto de dados ao meio, isto é, a mediana
corresponde ao dado central, ficando 50% dos dados à sua esquerda e 50% dos dados à sua
direita. Para obter o dado central é necessário ordenar os valores, do menor ao maior valor. A
definição 2.4 esclarece este conceito de uma forma mais precisa.

Definição 2.4 – A mediana de um conjunto de dados é definida como:


O valor que se encontra exatamente no meio de uma lista ordenada dos valores dados, se o
número de dados do conjunto for ímpar.
A média dos dois valores do meio da lista ordenada, se o número de dados for par.

Exemplo 2.5 – Ilustra o cálculo da mediana

Considerando novamente os dados da tabela 2.2, determinar a mediana para os dois


conjuntos de dados (empresa A e empresa B).

Solução:
O número de dados para a empresa A é 13, ou seja, um número ímpar.
Conseqüentemente, a mediana deste conjunto de dados será o sétimo valor quando
ordenarmos os valores segundo uma ordem crescente dos mesmos, como mostrado abaixo.

200 200 200 200 200 200 300 300 350 350 700 840 950

Seis valores mais baixos Seis valores mais altos

Mediana = 300
Assim, a mediana dos salários da empresa A é R$300,00.

O número de dados para a empresa B é 10, ou seja, um número par. Por isso, de
acordo com a definição 2.4, a mediana será dada pela média dos dois valores centrais da lista
ordenada dos dados. Esta lista é dada a seguir.

200 200 200 200 200 300 300 350 840 950

Cinco valores mais baixos Cinco valores mais altos

Mediana = (200 +300)/2 = 250

Assim, a mediana dos salários da empresa B é R$250,00.

11
MODA

A última medida de tendência central que será aqui discutida é a moda. Basicamente,
a moda é o dado ou valor que ocorre com mais freqüência, ou seja, que ocorre mais vezes em
um conjunto de dados. A definição da moda é feita como se segue:

Definição 2.5 - A moda de um conjunto de dados é definida como sendo o valor ou


valores que ocorrerem mais freqüentemente. Se nenhum valor em um conjunto de dados
ocorrer mais que uma vez, então dizemos que o conjunto não possui moda.

Pela definição 2.5, um conjunto de dados pode não ter uma moda, ter uma única moda,
ter duas modas ou mais que duas. Quando existir uma única moda, o conjunto de dados é dito
unimodal. Se existirem duas modas ele é dito bimodal, e assim por diante.

Para obter a(s) moda(s) é necessário construir a distribuição de freqüência para o


conjunto de dados usando classes baseadas em um único valor, como mostra o exemplo
abaixo.

Exemplo 2.6 – Ilustra cálculo da moda

Determinar a(s) moda(s) para os conjuntos de salários mostrados na tabela 2.2.

Solução:
A tabela 2.3 mostra a distribuição de freqüências para os salários da empresa A. Para
cada valor são contadas as ocorrências, resultando nos valores da coluna 2 da tabela.

Tabela 2.3 – Distribuição de freqüências para a empresa A.

Salário 200 300 350 700 840 950


Freqüência 6 2 2 1 1 1

Pode ser visto que o valor ocorrendo com mais freqüência é o valor 200, que ocorre 6
vezes. Dessa forma, concluímos que a moda dos 13 salários da empresa A é R$200,00.

Para os salários da empresa B a distribuição de freqüências pode ser vista na tabela


2.4. O valor que ocorre mais freqüentemente é o valor 200. Portanto, a moda dos 10 salários
da empresa B é R$ 200,00.

Tabela 2.4 – Distribuição de freqüências para a empresa B.


Salário 200 300 350 840 950
Freqüência 5 2 1 1 1

12
Comparação entre a média, mediana e moda

A média, mediana e moda de um conjunto de dados são freqüentemente diferentes. A


tabela 2.5 resume as definições dessas três medidas de tendência central juntamente com os
valores calculados nos exemplos anteriores para os dados de salários das empresas A e B.

Tabela 2.5 – Valores da média, mediana e moda.


Medida de Definição Empresa A Empresa B
tendência central
Soma dos dados
Média Número de dados R$383,85 R$374,00

Mediana Valor médio da lista ordenada R$300,00 R$250,00

Moda Valor mais freqüente R$200,00 R$200,00

Em ambos os conjuntos de dados, a média é maior que a mediana. Isto ocorre porque a
média é fortemente afetada por poucos altos salários em cada conjunto de dados. Em geral, a
média é sensitiva a valores muito altos ou muito baixos, enquanto que a mediana não é
influenciada por valores extremos.

É importante realçar que a média, mediana e a moda geralmente proporcionam


informações diferentes. Não existe uma regra clara e simples de qual medida se deve usar em
uma dada situação. O exemplo seguinte discute três situações e sugere qual medida central é
provavelmente mais adequada.

Exemplo 2.7 – Ilustra a seleção da medida de tendência central mais apropriada

Em cada caso abaixo se pede a melhor medida a ser adotada.

a) Um estudante faz quatro provas em uma disciplina de cálculo. Suas notas são 88, 75, 95 e
100. Que medida de tendência central é mais adequada de se usar?

b) Uma grande construtora publica os preços de venda de seus apartamentos disponíveis na


grande São Paulo. Qual medida de tendência central é mais apropriada para tais preços de
venda?

c) Em uma maratona existiam duas categorias de corredores, masculinos e femininos. A


tabela seguinte mostra a distribuição de freqüências para os dados. Qual medida de
tendência central deveria ser usada?

Sexo Freqüência
Masculino 4239
Feminino 864

13
Solução:

a) A média é provavelmente a medida mais razoável de se usar uma vez que ela leva em
conta todas as quatro notas obtidas e indica o desempenho global do aluno. Neste caso, a
média a ser reportada é igual a 89,5.

b) Neste caso a medida de tendência central mais apropriada é a mediana. Isto porque a
mediana representa o valor central e ela não é afetada por valores muito altos de uns
poucos apartamentos que poderiam estar entre os apartamentos oferecidos para venda.
Assim a mediana proporciona uma melhor indicação do valor “típico” de venda do que a
média ou a moda.

c) A única medida apropriada para estes dados é a moda, que neste caso é “masculino”.
Cada dado desse conjunto ou é masculino ou é feminino. Não existe maneira de se
calcular a média ou a mediana para tal tipo de dado. Em geral a moda é a única medida de
tendência central que pode ser usada para dados qualitativos.

Exercícios – Seqüência 2.2

1) Qual é o propósito de uma medida de tendência central?

Determine a média, mediana e a moda para cada conjunto de dados nos exercícios 2 a 4.

2) A Fundação Nacional para a Ciência dos EUA coleta dados sobre a idade dos estudantes
que obtiveram o título de doutor em ciências e engenharia. Os resultados são publicados
no Survey of Earned Doctorates. Uma amostra relativa ao ano de 1991 é composta dos
seguintes valores, dados em anos:

37 28 36 33
37 43 41 28
24 44 27 24

3) Um fabricante de sabão líquido produz uma garrafa com um conteúdo de 310 ml. Uma
amostragem de 16 garrafas produziu os seguintes resultados:

297 318 306 300


311 303 291 298
322 307 312 300
315 296 309 311

4) Uma bióloga está estudando o período de gestação (duração da gravidez) de cães


domésticos. Quinze fêmeas foram observadas durante o período de gestação encontrando-
se os seguintes valores, em dias:

62,0 61,4 59,8 62,2 60,3


60,4 59,4 60,2 60,4 60,8
61,8 59,2 61,1 60,4 60,9

14
2.3 – Notação de somatório

O símbolo de somatório é representado pela letra grega Σ , que corresponde à letra S


do nosso alfabeto. O símbolo de somatório serve para indicar de uma maneira resumida uma
soma de várias parcelas. Por exemplo, considere o conjunto formado pelos elementos 25, 23,
12, 9, 32, 38 e 15. A soma desses números seria indicada por:

S = 25 + 23 + 12 + 9 + 32 + 38 + 15 = 154

Chamando de xi um valor genérico desse conjunto, onde i representa o i-ésimo


elemento do conjunto, a soma desses números seria indicada por:

S = x1 + x2 + x3 + x4 + x5 + x6 + x7 = 25 + 23 + 12 + 9 + 32 + 38 + 15 = 154

Com o símbolo de somatório podemos escrever essa soma de uma maneira muito mais
resumida. Nós podemos usar Σx para indicar o total resultante da soma dos valores de x e a
expressão acima se torna:
7
Total = ∑ xi = x1 + x 2 + x3 + x 4 + x5 + x6 + x7
i =1

Ou simplesmente,

7
Total = ∑ xi
i =1

O resultado é
7

∑x
i =1
i = 25 + 23 + 12 + 9 + 32 + 38 + 15 = 154

Com a notação de somatório, a definição de média pode ser expressa, mais


simplificadamente, como:

Soma dos dados

Média da amostra X=
∑x
n
Número de elementos da amostra

O exemplo a seguir ilustra o uso da notação de somatório para o calculo da média de um


conjunto de dados.

15
Exemplo 2.8 – Ilustra o cálculo da média

Um fabricante de linhas de pescar que produz linhas capazes de suportar 10 Kgf,


coletou uma amostra de 12 elementos para realizar testes de resistência. Os resultados são:

9,8 10,2 9,8 9,4


9,7 9,7 10,1 10,1
9,8 9,6 9,1 9,7

a) Calcule Σx.
b) Qual o valor de n?
c) Determine a média x .

Solução:

a) Σx = 9,8 + 10,2 + 9,8 + 9,4 + 9,7 + 9,7 + 10,1 + 10,1 + 9,8 + 9,6 + 9,1 + 9,7 = 117
b) n = 12

c) x = (117) / 12 = 9,75

2.4 – Medidas de dispersão

Até este ponto, as únicas medidas descritivas discutidas foram as medidas de


tendência central, ou seja, a média, a mediana e a moda. Estas medidas descritivas indicam
onde se encontra o centro ou o valor mais típico de um conjunto de dados.

Entretanto, dois conjuntos de dados podem ter a mesma média, a mesma mediana ou a
mesma moda e ainda serem bem diferentes em outros aspectos. Por exemplo, considere as
alturas dos cinco jogadores de dois times de basquete, como mostrado na figura 2.1. As duas
equipes tem a mesma média que é igual a 191 cm e a mesma mediana que é igual a 193 cm.
As modas dos dois conjuntos de alturas também são iguais (193 cm). Entretanto, é óbvio que
os dois conjuntos de dados são diferentes. Em particular, existe muito mais variação nas
alturas dos jogadores da equipe II do que nas alturas dos jogadores da equipe I. Para descrever
esta diferença quantitativamente, nós usamos uma medida de dispersão que indica quanto de
variação existe entre os dados de um conjunto.

Da mesma forma que existem diferentes medidas de tendência central, também


existem diversas medidas de dispersão. A seguir serão apresentadas as duas medidas de
dispersão mais utilizadas, a amplitude e o desvio padrão.

AMPLITUDE

A amplitude é fácil de entender e de calcular. Utilizando os dois conjuntos de dados


que mostram as alturas dos jogadores, nós podemos observar que o contraste entre os dois
times se torna aparente se colocarmos o jogador mais baixo de um time próximo do jogador
mais alto do mesmo time. Isto pode ser visto na figura 2.2.

16
A amplitude de um conjunto de dados é obtida computando a diferença entre o maior
e o menor valor entre os elementos do conjunto. Assim, podemos ver da figura 2.2 que:

Equipe I: Amplitude = 199 – 184 = 15 cm


Equipe II: Amplitude = 215 – 171 = 44 cm

17
Em geral, adotamos a seguinte definição:

Definição 2.6 – Amplitude de um conjunto de dados - A amplitude de um conjunto de


dados é definida como a diferença entre o maior valor e o menor valor pertencentes ao
conjunto.
Amplitude = Maior valor – Menor valor

A amplitude de um conjunto de dados é bastante fácil de calcular. Entretanto, ao


usarmos a amplitude, uma grande quantidade de informação é ignorada – somente o maior e o
menor valores são considerados, o restante dos dados é desprezado.

DESVIO PADRÃO DE UMA AMOSTRA

Em contraste com a amplitude, o desvio padrão leva em conta todos os valores de um


conjunto de dados. Por essa razão, o desvio padrão é preferível como uma medida de
dispersão.

De uma forma genérica, o desvio padrão mede a variação em um conjunto de dados


através da determinação do quanto, em média, cada valor está distante da média do conjunto.
Se existe uma larga variação nos dados, então, em média, os valores estarão longe da média e
o desvio padrão será grande. Por outro lado, se existe uma pequena variação nos dados, então,
em média, os valores estarão próximos da média do conjunto e, conseqüentemente, o desvio
padrão será menor.

Para computar o desvio padrão de um conjunto de dados nós precisamos saber se


estamos lidando com toda a população ou se estamos lidando somente com uma amostra de
uma população. A razão disso é que a fórmula usada para calcular o desvio padrão de uma
amostra é ligeiramente diferente da fórmula para usada para obter o desvio padrão de uma
população. Por enquanto, nós iremos mostrar o cálculo do desvio padrão de uma amostra.
Posteriormente, mostraremos o cálculo do desvio padrão para uma população.

O primeiro passo no cálculo do desvio padrão de uma amostra é determinar o quanto


cada valor está longe da média, isto é, os desvios dos valores com relação à média. Isto será
feito através do exemplo abaixo.

Exemplo 2.9 – Ilustra o cálculo dos desvios das medidas com relação à média

As alturas dos cinco jogadores da equipe I são: 184, 186, 193, 193 e 199 cm.
Determine os desvios desses valores com relação à média.

Solução:
A altura média dos jogadores da equipe I é:


∑ x = 184 + 186 + 193 + 193 + 199 = 191cm
x= n 5

18
Para obter o desvio de cada valor com relação à média, nós simplesmente calculamos a
diferença entre o valor e a média; isto é, nós computamos x – x. Por exemplo, o desvio com
relação à média da altura de 184 cm é 184 – 191 = -7. Os desvios com relação à média dos
cinco valores de altura estão dados na segunda coluna da tabela 2.6 e estão mostrados
graficamente na figura 2.3.

Tabela 2.6 – Desvios com relação à média.


Altura (cm) Desvio com relação à média

x x-x
184 -7
186 -5
193 2
193 2
199 8

-7 8

-5 2

x
184 186 191 193 199

Figura 2.3 – Desvios com relação à média

O segundo passo para computar o desvio padrão de uma amostra consiste em obter a
medida do desvio total com relação à média, para todos os valores do conjunto de dados.
Observe que a soma dos desvios com relação a media ( x – x ), é sempre igual a zero e, por
isso, não adianta somá-los para obter um desvio total.

No cálculo do desvio padrão, as diferenças ( x – x ) , são elevadas ao quadrado para


obter quantidades que quando somadas, resultem em valores diferentes de zero. A soma dos
quadrados dos desvios Σ( x – x )2 é uma medida do desvio total de todos os dados com
relação à média.

19
Exemplo 2.10 – Ilustra a soma dos quadrados dos desvios

Calcule a soma dos quadrados dos desvios para as alturas dos jogadores da equipe I.

Solução:
A tabela 2.7 foi obtida da tabela 2.6, adicionando-se a esta a coluna ( x – x )2 .

Tabela 2.7 – Cálculo da soma dos quadrados dos desvios


Altura Desvio com relação à média Quadrado do desvio

x (cm) x – x (cm) ( x – x )2 (cm2)


184 -7 49
186 -5 25
193 2 4
193 2 4
199 8 64
146

Da terceira coluna encontramos que:

Soma dos quadrados dos desvios = Σ ( x – x )2 = 146 cm2

O terceiro passo para calcular o desvio padrão de uma amostra é tomar a média dos
quadrados dos desvios. Isto é feito dividindo-se a soma dos quadrados dos desvios por n-1. O
valor resultante é denominado variância da amostra e é indicado por s2. Em símbolos:

s 2
=
∑ ( x − x) 2

n −1

Exemplo 2.11 – Ilustra o cálculo da variância de uma amostra

Calcule a variância da amostra das alturas de cinco jogadores da equipe I.

Solução:
Do exemplo 2.10, a soma dos quadrados dos desvios foi calculada como sendo igual a
146 cm2. Como n = 5 a variância da amostra das alturas será igual a
_

s 2
=
∑ ( x − x) 2

=
146
= 36,5cm 2
n −1 5 −1

Nota: Se em vez de dividirmos por n-1, nós dividíssemos por n, então a variância da amostra
seria a média dos quadrados dos desvios. Embora a divisão por n possa parecer mais natural,
nós dividimos por n-1 pela seguinte razão: Um dos principais usos da variância de uma
amostra é para estimar a variância da população (como veremos mais adiante). A divisão por

20
n tende a subestimar a variância da população enquanto que a divisão por n-1 tende a
produzir valores da variância da população mais corretos.

É importante entender que a variância de uma amostra é dada em unidades que são o
quadrado das unidades originais. Isto ocorre por elevarmos ao quadrado os desvios com
relação à média. Por exemplo, a variância da amostra das alturas de cinco jogadores da equipe
I é 36,5 cm2. Uma vez que é desejável ter medidas descritivas nas mesmas unidades que os
dados do conjunto, o passo final para calcular o desvio padrão de uma amostra é tomar a raiz
quadrada da variância da amostra. Em outras palavras, o desvio padrão de uma amostra, s, é

s=
∑ ( x − x) 2
n −1

Exemplo 2.12 – Ilustra o cálculo do desvio padrão de uma amostra

Calcule o desvio padrão da amostra das alturas de cinco jogadores da equipe I.

Solução:
Do exemplo 2.11, a variância da amostra foi calculada em 36,5 cm2. Assim, o desvio
padrão será:

s=
∑ ( x − x) 2 = 36,5 = 6,04cm
n −1

A definição abaixo resume o conceito de desvio padrão de uma amostra.

Definição 2.7 – O desvio padrão s de uma amostra é definido por

s=
∑ ( x − x) 2

n −1

onde n é o número de elementos da amostra.

Os passos necessários para calcular o desvio padrão de uma amostra foram detalhados
nos exemplos 2.8 - 2.11. Podemos resumir esses passos da seguinte maneira:

1. Calcule a média da amostra, x.


2. Construa uma tabela para determinar a soma dos quadrados dos desvios, Σ( x – x )2.
3. Aplique a definição 2.7 para obter o desvio padrão da amostra, s.

21
Exemplo 2.13 – Ilustra a definição 2.7

As alturas de cinco jogadores da equipe II são 171, 183, 193,193 e 215. Calcule o
desvio padrão desta amostra.

Solução:
Aplicando o procedimento descrito acima, devemos inicialmente calcular a média das
cinco medidas.

x=
∑ x = 171 + 183 + 193 + 193 + 215 = 191 cm
n 5

Agora, nós construímos uma tabela para calcular a soma dos quadrados dos desvios.

x x-x ( x – x )2
171 -20 400
183 -8 64
193 2 4
193 2 4
215 24 576

_ 2
∑ (x - x ) = 0  _
∑  x - x  = 1048

Da 3ª coluna da tabela, vemos que a soma dos quadrados dos desvios é

Σ( x – x )2 = 1048 cm2.

Finalmente, aplicando a definição 2.7 teremos

s=
∑ ( x − x) 2

=
1048
= 16,18cm
n −1 5 −1

No exemplo 2.11 nós encontramos que o desvio padrão das alturas de cinco jogadores
da equipe I é s = 6,04 cm. No exemplo 2.12 encontramos que o desvio padrão das alturas de
cinco jogadores da equipe II é s = 16,18 cm. Conseqüentemente, vemos que a equipe II, que
tem uma variação maior nas alturas dos jogadores do que a equipe I, também tem um desvio
padrão maior. Isto mostra que quanto maior for a variação entre os dados de um conjunto de
valores, maior será o desvio padrão do conjunto de dados.

22
Fórmula simplificada para s

O cálculo do desvio padrão s, de acordo com a fórmula da definição, requer que


primeiro calculemos a média x dos valores do conjunto para, em seguida, calcularmos os
desvios com relação à média ( x – x ). Existe, entretanto, uma fórmula mais simples para o
cálculo do desvio padrão s. Esta fórmula que chamaremos de fórmula simplificada, é dada a
seguir.

n(∑ x 2 ) − (∑ x )
2

s=
n(n − 1)

A fórmula simplificada é equivalente à fórmula da definição, isto é, ambas dão o


mesmo resultado. Entretanto, a fórmula simplificada é mais fácil de ser aplicada e, como se
pode notar, ela não requer que calculemos a média inicialmente.

Exemplo 2.14 – Ilustra a fórmula simplificada

No exemplo 2.12 computamos o desvio padrão das alturas dos jogadores da equipe II
e encontramos o valor 16,18 cm. Calcule novamente o desvio padrão das alturas utilizando a
fórmula simplificada.

Solução:
Para aplicar a fórmula simplificada, precisamos das somas ∑x e ∑x2 . Podemos
determinar esses valores com o auxílio da tabela abaixo.

x x2
171 29241
183 33489
193 37249
193 37249
215 46225
∑ x = 955 ∑ x = 183453
2

Neste exemplo temos n = 5 e, da última linha da tabela acima, vemos que ∑x = 955 e
2
∑x = 183453. Assim, pela fórmula simplificada obtemos:

n(∑ x 2 ) − (∑ x )
2
5(183453) − (955) 2
s= = = 16,18cm
n(n − 1) 5(5 − 1)

Como podemos ver, os resultados obtidos pelas duas fórmulas são iguais, como era de
se esperar. Pequenas diferenças nas casas decimais podem ser esperadas e são devidas a erros
de arredondamento.

23
Exercícios – Seqüência 2.3

1) Qual o uso de uma medida de dispersão?

2) Porque se prefere o desvio padrão em vez da amplitude como medida de dispersão?

Os enunciados dos exercícios 3 a 5 a seguir correspondem aos enunciados dos exercícios


2 a 4 da seqüência 2.2 de exercícios (página 14). Para cada um deles
a) Determine a amplitude.
b) Compute o desvio padrão, s, usando a fórmula da definição.
c) Compute o desvio padrão, s, usando a fórmula simplificada.
d) Diga, em cada exercício, qual fórmula é mais fácil de aplicar para o cálculo de s.

3) A Fundação Nacional para a Ciência dos EUA coleta dados sobre a idade dos estudantes
que obtiveram o título de doutor em ciências e engenharia. Os resultados são publicados
no Survey of Earned Doctorates. Uma amostra relativa ao ano de 1991 é composta dos
seguintes valores, em anos:

37 28 36 33
37 43 41 28
24 44 27 24

4) Um fabricante de sabão líquido produz uma garrafa com um conteúdo de 310 ml. Uma
amostragem de 16 garrafas produziu os seguintes resultados, em ml:

297 318 306 300


311 303 291 298
322 307 312 300
315 296 309 311

5) Uma bióloga está estudando o período de gestação(duração da gravidez) de cães


domésticos. Quinze fêmeas foram observadas durante o período de gestação encontrando-
se os seguintes valores, em dias:

62,0 61,4 59,8 62,2 60,3


60,4 59,4 60,2 60,4 60,8
61,8 59,2 61,1 60,4 60,9

6) Um laboratório de pesquisa testou a vida de duas marcas de lâmpadas existentes no


mercado. A vida de uma lâmpada é definida como o número de horas que a lâmpada
permanece acesa, continuamente, até se queimar. Os resultados de sete lâmpadas são
mostrados na tabela abaixo( dados em centenas de horas).

a) Calcule a média para cada conjunto de dados.


b) Determine a mediana de cada conjunto de dados.

24
c) Embora os dois conjuntos de dados tenham a mesma média e mesma mediana, eles
são bastante diferentes em outro aspecto. No que ou como eles são deferentes?
d) Qual conjunto de dados parece ter menor variação?
e) Calcule s para cada conjunto de dados.
f) Suas respostas em parte (d) e (e) são consistentes? Porque?

Marca A Marca B
10,5 11,3
9,1 7,0
10,0 9,7
10,3 9,6
9,4 10,5
9,6 11,8
9,7 8,7

25
2.5 - Agrupamento de dados

Dados coletados em experimentos reais podem ser difíceis de interpretar e de se obter


informações úteis. Através de uma organização adequada dos dados, é geralmente possível
tornar um conjunto complicado de dados mais fácil de ser entendido. Um dos métodos mais
utilizado para organizar dados é o método do agrupamento. Nesta seção mostraremos como
aplicá-lo com o auxílio de um exemplo.

Exemplo 2.15 – Ilustra agrupamento de dados

Os dados da tabela 2.8 representam as médias finais obtidas por alunos cursando uma
disciplina de Probabilidade e Estatística de uma faculdade.

Tabela 2.8 – Médias de 40 alunos em uma disciplina.


7,0 6,4 9,9 5,5 6,4 8,9 8,7 6,5
6,2 3,8 6,7 7,0 6,0 6,9 7,8 3,9
7,5 5,6 7,1 5,1 9,9 6,8 9,5 8,6
5,7 5,3 4,7 5,0 5,5 8,1 8,0 9,8
5,1 3,6 6,3 6,6 8,5 7,9 8,3 7,0

Observando o conjunto de dados acima pode-se perceber que pouca informação pode
ser obtida. É difícil ter uma visão clara de como a turma se comportou nessa disciplina.
Agrupando-se os dados em classes podemos tornar este conjunto de dados mais fácil de ser
interpretado.

O primeiro passo é decidir quantas classes iremos adotar. Como o menor valor é (3,6)
e o maior valor é (9,9), podemos adotar as classes 3,0 – 3,9; 4,0 – 4,9; 5,0 – 5,9; ... ; 9,0 – 9,9.
Essas classes podem ser vistas na primeira coluna da tabela 2.9.

O segundo (e último) passo para o agrupamento dos dados é determinar o número de


notas caindo dentro de cada intervalo ou classe. Tomando-se cada nota da tabela 2.8
verificamos a qual classe ela pertence e fazemos uma marca (barra vertical) na segunda
coluna da tabela 2.9. Por exemplo, a primeira nota da tabela é 7,0 e, portanto, ela pertence à
classe 7,0 – 7,9. Devemos, então, colocar uma pequena barra vertical na segunda coluna.
Repetindo esse procedimento para cada valor da tabela, vamos obter as marcas mostradas na
segunda coluna da tabela 2.9. Finalmente, contamos o número de barras em cada classe e
escrevemos esse número na terceira coluna.

Agora, basta dar uma olhada na tabela 2.9 para obtermos várias informações úteis. Por
exemplo, podemos ver que a nota mais comum está na classe 6,0 – 6,9. Comparando-se as
tabelas 2.8 e 2.9 vemos que a última nos dá muito mais informações.

26
Tabela 2.9 – Dados agrupados
Notas Marcas Número de Notas
3,0 – 3,9 III 3
4,0 – 4,9 I 1
5,0 – 5,9 IIIII III 8
6,0 – 6,9 IIIII IIIII 10
7,0 – 7,9 IIIII II 7
8,0 – 8,9 IIIII II 7
9,0 – 9,0 IIII 4
40

Construção da tabela de distribuição de freqüências

A construção da tabela de distribuição de freqüências exige a definição do número de


classes e da amplitude de cada classe.A escolha do número de classes é na maioria das vezes
arbitrária. Em alguns casos o pesquisador tem uma idéia precisa ou um critério de como
dividir um conjunto de dados em um número de classes. O exemplo acima mostrou que
tomando-se classes com amplitude igual a 1 temos uma boa informação sobre o conjunto de
dados. As fórmulas abaixo permitem obter o número de classes quando o pesquisador não tem
uma idéia definida sobre qual deve ser esse número.

25 ≤ N ≤ 400 → k= N
16 ≤ N ≤ 572 → k = 1 + 3,3 log N
20 ≤ N ≤ 36 → k = −1 + 2 ln N

Outras orientações podem ser dadas de modo a facilitar a construção da tabela de


dados agrupados. As três orientações mais importantes são:
1. O número de classes deve ser entre 5 e 20.
2. Cada dado deve pertencer a uma, e somente uma, classe.
3. Quando possível todas as classes devem ter a mesma amplitude.

Distribuição de freqüências e de freqüências relativas

O número de dados que caem em uma classe particular é denominado freqüência da


classe. Por exemplo, da tabela 2.9 vemos que a freqüência da classe 8,0 – 8,9 é sete uma vez
que existem sete valores entre 8,0 e 8,9. Uma tabela mostrando todas as classes e suas
respectivas freqüências é denominada distribuição de freqüência.

Além da freqüência de uma classe, é também importante determinarmos a


porcentagem de cada classe. Para determinar a porcentagem basta dividir a freqüência de cada
classe pelo número total de dados. Tomando-se a tabela 2.9, podemos ver que a porcentagem
de notas na classe 6,0 – 6,9 é:
Freqüência da
classe 6,0 – 6,9
Número total 10
de dados = 0,25 ou 25%
40

27
Em outras palavras, 25% das notas estão entre 6,0 e 6,9, inclusive. A porcentagem de
uma classe, expressa como um número decimal, é chamada freqüência relativa da classe. A
classe 6,0 – 6,9 tem freqüência relativa igual a 0,25. Uma tabela listando todas as classes e
suas respectivas freqüências relativas é chamada distribuição de freqüência relativa. A
tabela 2.10 abaixo mostra a distribuição de freqüência relativa para os dados correspondentes
às notas dos alunos. Note que a soma das freqüências relativas é igual a 1.

Tabela 2.10 – Distribuição de freqüência relativa das notas.


Notas Freqüência relativa
3,0 – 3,9 0,075 ← 3/40
4,0 – 4,9 0,025 ← 1/40
5,0 – 5,9 0,200 ← 8/40
6,0 – 6,9 0,250 ← 10/40
7,0 – 7,9 0,175 ← 7/40
8,0 – 8,9 0,175 ← 7/40
9,0 – 9,0 0,100 ← 4/40
1,000

Terminologia
Existem diversos termos associados com agrupamento de dados. Considere, por
exemplo, a classe 6,0 – 6,9. O menor valor 6,0 é denominado limite inferior da classe e o
maior valor 6,9 é denominado limite superior da classe. O valor médio da classe 6,0 – 6,9 é
denominado ponto médio da classe ou simplesmente ponto médio e é determinado por (6,0
+ 6,9)/2 = 6,45. Finalmente, a diferença entre o limite inferior de uma classe e o limite
inferior da classe seguinte é denominada amplitude da classe. A amplitude das classes é o
quociente entre a amplitude total e o número de classes.

Uma tabela dando as classes, freqüências, freqüências relativas e pontos médios é


chamada tabela de dados agrupados. Uma tabela de dados agrupados, para os dados
relativos às notas, é apresentada abaixo.

Tabela 2.11 – Tabela de dados agrupados para as notas.


Notas Freqüência Freqüência Relativa Ponto Médio
3,0 – 3,9 3 0,075 3,45
4,0 – 4,9 1 0,025 4,45
5,0 – 5,9 8 0,200 5,45
6,0 – 6,9 10 0,250 6,45
7,0 – 7,9 7 0,175 7,45
8,0 – 8,9 7 0,175 8,45
9,0 – 9,0 4 0,100 9,45
40 1,000

Exemplo 2.16 – Ilustra tabela de dados agrupados

A tabela 2.12 é o resultado de testes de níveis de colesterol em 20 pacientes jovens. O


nível de colesterol é dado em miligramas por mililitro. Construa uma tabela de dados
agrupados usando classes com amplitude igual a 5 e iniciando em 195.

28
Tabela 2.12 – Níveis de colesterol em pacientes.
210 209 212 208
217 207 210 203
208 210 210 199
215 221 213 218
202 218 200 214

Solução:
Como a amplitude de cada classe foi definida como sendo igual a 5 e, a primeira classe
deve iniciar em 195, então teremos as classes 195 – 199, 200 –204, etc.. A tabela 2.13 mostra
cada classe e sua freqüência.

Tabela 2.13 – Classes e freqüências


Nível de colesterol Marcas Freqüência
195 – 199 I 1
200 – 204 III 3
205 – 209 IIII 4
210 –214 IIIII II 7
215 –219 IIII 4
220 – 224 I 1
20

A tabela de dados agrupados pode ser facilmente obtida a partir da tabela 2.13.

Tabela 2.14 - Tabela de dados agrupados para os níveis de colesterol.


Nível de Freqüência Freqüência Ponto Médio
colesterol Relativa
195 – 199 1 0,05 197
200 – 204 3 0,15 202
205 – 209 4 0,20 207
210 –214 7 0,35 212
215 –219 4 0,20 217
220 – 224 1 0,05 222
20 1,00

Para ilustrar os cálculos típicos efetuados para a determinação dos valores da terceira e
quarta colunas, considere a classe 205 – 209. A freqüência relativa e o ponto médio são

Freqüência relativa = 4/20 = 0,20 e Ponto médio = (205 + 209)/2 = 207

Exemplo 2.17 – Ilustra agrupamento com classe pontual

Um pesquisador está coletando dados do número de crianças em idade escolar por


família, em uma pequena cidade. Trinta famílias foram selecionadas aleatoriamente. A tabela
2.15 resume os dados coletados.

29
Tabela 2.15 – Número de crianças em idade escolar por família.

0 3 0 0 3 0
2 2 0 1 2 1
0 0 1 2 4 0
4 2 1 0 1 0
0 2 0 1 3 2

a) Agrupar estes dados usando classes representadas por um único valor.


b) Identificar os limites de classe e os pontos de classe.
c) Construir a tabela de dados agrupados.

Solução:
a) Como cada classe será representada por um único valor, então as classes serão 0, 1, 2, 3 e
4. A tabela 2.16 mostra as freqüências e freqüências relativas para este exemplo.

Tabela 2.16 – Tabela de freqüências


Número de crianças Freqüência Freqüência relativa
em idade escolar
0 12 0,400
1 6 0,200
2 7 0,233
3 3 0,100
4 2 0,067
30 1,000

b) Da tabela podemos ver que para a classe “3”, por exemplo, teremos:

Limite inferior = 3 (menor valor na classe)


Limite superior = 3 (maior valor na classe)
e
Ponto de classe = (3 +3)/2 = 3

Assim, para a classe “3”, o limite superior, o limite inferior e o ponto médio ou ponto
de classe são todos iguais ao valor da classe, isto é, 3. Resultado similar ocorre para as
outras classes.

c) Finalmente, para construir a tabela de dados agrupados devemos adicionar uma quarta
coluna com os pontos de classe. Como eles são iguais aos valores das classes, esta quarta
coluna será idêntica à primeira coluna da tabela 2.16. Podemos então dizer que a tabela
2.16 serve como tabela de dados agrupados.

Outra maneira de agrupar dados

Quando lidamos com dados reais (contínuos) ou dados decimais é freqüentemente


conveniente definirmos classes que vão de um valor até outro valor mas não inclua este
último. Assim, por exemplo, se definimos uma classe A-B e uma classe B-C, então a classe

30
A-B conteria valores maiores ou iguais a A porém menores que B. A classe B-C conteria
valores maiores ou iguais a B e menores que C, e assim por diante. O exemplo a seguir
detalha este caso.

Exemplo 2.18 – Ilustra outra maneira de agrupar dados

Considere os dados da tabela 2.17 que ilustra o peso de 20 pessoas do sexo masculino
com idades entre 18 e 24 anos.

Tabela 2.17 – Peso de 20 homens com idade 18 a 24 anos


62,5 75,4 79,3 58,7 79,4
73,0 87,0 71,4 74,2 77,3
81,5 71,3 64,0 67,2 83.0
89,1 66,8 70,8 74,2 73,7
67,9 73,9 78,6 84,5 69,0

Como o menor valor é próximo de 55 e o maior valor é aproximadamente 90,


podemos agrupar os dados em classes de amplitude 5. A tabela 2.18 resume os dados na
forma de uma tabela agrupada.

Tabela 2.18 – Tabela agrupada para os dados de pesos de vinte homens.


Pesos Freqüência Freqüência relativa Ponto de classe
55 até < 60 1 0,04 55,7
60 até < 65 2 0,08 62,5
65 até < 70 4 0,16 67,5
70 até < 75 8 0,32 72,5
75 até < 80 5 0,20 77,5
80 até < 85 3 0,12 82,5
85 até < 90 2 0,08 87,5
25 1,00

Observe que em cada classe nós incluímos o limite inferior e excluímos o limite
superior. Assim, um dado com valor igual a 70 seria incluído na classe 70 – 75.

31

Você também pode gostar