Você está na página 1de 46

ESTATÍSTICA

DESCRITIVA

FLÁVIO TAMBELLINI

I F S P

Matão - 2013

Sumário

1 Introdução

 

1

1.1 Definição

1

1.2 Ramos da Estatística

1

1.3

Conceitos

Básicos

1

1.4 Dados Estatísticos

1

2 Estatística Descritiva

3

2.1 Séries Estatísticas

3

2.2 Gráficos

 

4

2.3 Distribuição de Frequência

6

2.3.1 Distribuição de frequência discreta

6

2.3.2 Distribuição de frequência para dados agrupados em classe

8

2.4 Medidas de Tendência Central para Dados não Agrupados

12

2.5 Medidas de Tendência Central para Dados Agrupados

15

2.6 Medidas de Tendência Central para Dados Agrupados em Classe

17

2.7 Medidas de Dispersão

18

Exercícios de Estatística Descritiva

24

Nomenclatura

Letras latinas

A = amplitude total ou amostral

CV = coeficiente de variação

f

= frequência simples absoluta

F

= frequência acumulada

fr

= frequência simples relativa

Fr

= frequência relativa acumulada ou frequência acumulada relativa

G

= média geométrica

h

= amplitude da classe

H

= média harmônica

Li

= limite inferior da classe

Ls

= limite superior da classe

Md = mediana Mo = moda

n

= tamanho da amostra

P

= peso, fator de ponderação (na fórmula de média ponderada)

S

2 = variância da amostra

S

= desvio padrão da amostra

x = variável de interesse, de estudo ̅= média aritmética, média da amostra, média ponderada ̿= média geral

Letras gregas

σ 2 = variância da população

σ = desvio padrão da população Σ = soma de termos

µ = média da população

1 Introdução

1.1 Definição

É uma metodologia ou um conjunto de técnicas que utiliza a coleta de dados, sua classificação, sua apresentação ou representação, sua análise e sua interpretação visando sua utilização dentro de um processo decisório.

1.2 Ramos da Estatística

Estatística Descritiva: é a parte da Estatística que procura descrever e analisar um certo conjunto de dados, normalmente denominado amostra, procurando expressar estas informações através de representações (tabelas ou gráficos) ou através de medidas de posições.

Teoria da Probabilidade: utiliza métodos e técnicas apropriadas no cálculo de probabilidade de

um determinado evento ocorrer, tanto na Estatística Descritiva como na Estatística Inferencial, sendo que nesta última, existe uma incerteza inerente ao processo de generalização.

Estatística Inferencial: é a parte da Estatística que tem o objetivo de tirar conclusões a respeito da população a partir de observações, análises e interpretações feitas em uma amostra.

1.3 Conceitos Básicos

População: é um conjunto de elementos que tem pelos menos uma característica em comum para um determinado estudo.

Amostra: é um subconjunto da população, desde que não seja vazio e nem a própria população.

Censo: é avaliação direta de um parâmetro usando-se todos os elementos da população.

Amostragem: é a maneira pela qual os elementos da população serão escolhidos para compor a amostra.

Estimativa: é o processo que consiste em utilizar dados amostrais para estimar parâmetros populacionais.

1.4 Dados Estatísticos

Podemos caracterizá-los quanto a sua organização ou quanto à sua espécie ou tipo característico.

Quanto à sua organização podem ser classificados em: Brutos ou em Rol.

Dados Brutos: são dados estatísticos que não estão numericamente organizados. Exemplo: uma

relação das notas de 50 estudantes, feita em ordem alfabética (não há organização de valores em ordem crescente ou decrescente).

Rol: é um conjunto de dados estatísticos organizados em ordem crescente ou decrescente.

Exemplo: relação das notas em ordem decrescente (os nomes não estarão em ordem alfabética).

Quanto

a

sua espécie ou

tipo

característico

contínuos, nominais e por postos.

podem

ser classificados em

dados

discretos,

Dados Discretos: neste tipo de dados existem variáveis que assumem valores inteiros. Os dados

discretos são usados para contagem. Exemplo: quantidade de erros de digitação por página; número de veículos que passam em um rodovia por dia; número de acidentes de trabalho diários, etc.

Dados Contínuos: podem assumir qualquer valor dentro de um intervalo. Estes dados estão

associados às variáveis contínuas que fazem parte do conjunto dos reais. Estes tipos de dados são usados para medição. Exemplo: altura, peso, comprimento, temperatura, venda, lucro, etc.

Dados Nominais: surgem quando se definem categorias e não existe ordenamento entre os

dados, então se conta o número de observações pertencente a cada categoria. Exemplo: as variáveis nominais que envolvem categorias, tais como: sexo (masculino ou feminino); se condução própria (sim,

não); campo de estudo (medicina, direito, administração, engenharia), nacionalidade (brasileira, francesa, italiana, espanhola).

Dados Por Postos: de um modo geral, são sujeitos a avaliações subjetivas quanto à preferência

ou desempenho em um conjunto de observações. Neste caso existe um ordenamento entre os dados. Exemplo: competições de atletismo, (classificação em termos de quem é mais rápido); concurso de quem come mais frango; classificação de filmes (livre, impróprio para menores de 12 anos, impróprio para menores de 14 anos, impróprio para menores de 16 anos, impróprio para menores de 18 anos); Nível de estudo (sem instrução, primeiro grau, segundo grau, terceiro grau, especialização, mestrado, doutorado, pós-doutorado).

2 Estatística Descritiva

Esta parte da Estatística coleta os dados e os apresenta em forma de tabelas ou gráficos, podendo ser feita uma análise posterior para se tirar conclusões a respeito dos dados coletados.

2.1 Séries Estatísticas

Podemos dizer que uma série estatística é um conjunto de dados estatísticos referenciados aos seguintes fatores: tempo, local e fenômeno e eles são apresentados em forma de tabelas.

Série Temporal: varia o tempo, também chamada de cronológica, histórica ou evolutiva.

Investimentos Estrangeiros nas Bolsas de Valores Brasileiras

Ano

US$ milhões

1990

104

1991

578

1992

1.704

1993

6.591

1994

5.079

1995

4.753

1996

6.118

Fonte: Banco Central do Brasil

Série Geográfica: varia o local, também chamada de territorial ou espacial.

Proporção de Doadores em Relação à População

Países

Número de doadores por milhão de habitantes

Espanha

33,7

Portugal

21,7

Estados Unidos

21,5

França

20,3

Cuba

19,9

Itália

18,0

Brasil

5,6

Fonte: Ministério da Saúde

Série Específica: varia o fenômeno, também chamada de especificativa.

Motivo de Acidentes nas Rodovias

Motivo

%

Alta velocidade Desrespeito à sinalização Ultrapassagem proibida Defeito do veículo Defeito da via Problema de sinalização

39

28

19

11

2

1

Fonte: Polícia Rodoviária de São Paulo

Série Conjugada: onde mais de um dos fatores citados variam (tempo, local e fenômeno).

Porcentagem de Pessoas Analfabetas

Região

1991

1999

Nordeste

38%

27%

Norte

25%

12%

Sudeste

12%

8%

Sul

12%

8%

Centro-Oeste

17%

11%

Total

20%

13%

Fonte: Instituto Nacional de Estudos e Pesquisas Educacionais/MEC

2.2 Gráficos

Os gráficos fornecem uma visão qualitativa e mais rápida dos dados coletados. Os principais gráficos são: em colunas, em barras, em setores e em curvas.

Gráfico em Colunas

População Brasileira

170 180 160 147 140 120 120 93 100 70 80 52 60 40 20
170
180
160
147
140
120
120
93
100
70
80
52
60
40
20
0
1950
1960
1970
1980
1991
2000
Quantidade (milhões)

Ano

Gráfico em Barras

Índice de Desenvolvimento Humano

China Coréia do Sul 2000 Malásia 1975 Cingapura Brasil 0 0,2 0,4 0,6 0,8 1
China
Coréia do Sul
2000
Malásia
1975
Cingapura
Brasil
0
0,2
0,4
0,6
0,8
1

Gráfico em Setores

IDH de 0 a 1

Área das Regiões Brasileiras

7%

11%

19% 18% 45%
19%
18%
45%

Nordeste Gráfico em Setores IDH de 0 a 1 Área das Regiões Brasileiras 7% 11% 19%

NorteGráfico em Setores IDH de 0 a 1 Área das Regiões Brasileiras 7% 11% 19% 18%

SudesteGráfico em Setores IDH de 0 a 1 Área das Regiões Brasileiras 7% 11% 19% 18%

SulGráfico em Setores IDH de 0 a 1 Área das Regiões Brasileiras 7% 11% 19% 18%

Centro-Oeste1  Gráfico em Setores IDH de 0 a 1 Área das Regiões Brasileiras 7% 11%

Gráfico em Curvas

Dívida Externa do Brasil

220 200 180 160 140 120 100 1988 1990 1992 1994 1996 1998 Valores em
220
200
180
160
140
120
100
1988
1990
1992
1994
1996
1998
Valores em Bilhões de US$

Ano

2.3 Distribuição de Frequência

Este é um caso especial para a representação dos dados estatísticos coletados na amostragem. Serão apresentados dois tipos de tratamento tabular, um para dados discretos e o outro para dados contínuos.

2.3.1 Distribuição de frequência discreta

Em um período de 20 dias foi feita uma amostragem em uma loja, onde foram coletados os dados sobre a quantidade de produtos vendidos diariamente.

Dia

1

2

3

4

5

6

7

8

9

10

Quantidade

13

10

13

14

11

12

12

14

13

15

Dia

11

12

13

14

15

16

17

18

19

20

Quantidade

12

11

14

12

13

11

13

13

12

14

Vejamos alguns conceitos:

Rol: colocar os dados em ordem crescente.

Aqui estão eles: 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 13, 13, 13, 13, 14, 14, 14, 14, 15.

Amplitude (A): é a diferença entre o maior valor e o menor valor.

A = 15 10 = 5

A = 5.

Tamanho de amostra: n = 20.

Frequência Simples Absoluta (f): é o número de vezes que a variável aparece na amostra.

Exemplo:

f(10) = 1 f(11) = 3 f(12) = 5

f(13) = 6 f(14) = 4 f(15) = 1

Frequência Acumulada (F): é a soma das frequências absolutas simples até a variável em

questão.

Exemplo:

F(10) = 1 F(11) = 1 + 3 = 4 F(12) = 1 + 3 + 5 = 9 F(13) = 1 + 3 + 5 + 6 = 15 F(14) = 1 + 3 + 5+ 6 + 4 = 19 F(15) = 1 + 3 + 5 + 6 + 4 + 1 = 20

Frequência Simples Relativa (fr): é a frequência absoluta simples dividida pelo número de observações (tamanho da amostra ou tamanho da população).

Exemplo:

fr(10) = 1/20 = 0,05 =

fr(11) = 3/20 = 0,15 = 15% fr(12) = 5/20 = 0,25 = 25%

5%

fr(13) = 6/20 = 0,30 = 30% fr(14) = 4/20 = 0,20 = 20%

fr(15) = 1/20 = 0,05 =

5%

Frequência Relativa Acumulada ou Frequência Acumulada Relativa (Fr): frequência relativa

acumulada é a soma das frequências relativas ou frequência acumulada relativa é a frequência acumulada dividida pelo número de observações (tamanho da amostra ou tamanho da população).

Exemplo:

Fr(10) =

1/20 = 0,05 =

5%

Fr(13) = 15/20 = 0,75 =

75%

Fr(11) =

4/20 = 0,20 =

20%

Fr(14) = 19/20 = 0,95 =

95%

Fr(12) = 10/20 = 0,50 =

50%

Fr(15) = 20/20 = 1,00 = 100%

A frequência relativa também fornece a porcentagem, por exemplo, fr(11) = 3/20 = 0,15 = 15%.

Isto quer dizer que dos 20 dias, 15% deles, ou seja, 3 dias, 11 produtos foram vendidos diariamente.

A frequência relativa acumulada fornece a porcentagem acumulada até aquela quantidade. Por

exemplo, Fr(11) = 4/20 = 0,20 = 20%. Isto quer dizer que 20% dos dias (4 dias) foram vendidos até 11 produtos por dia.

Tabela de Distribuição de Frequência

x

f

F

fr = f/n

Fr

10

1

1

1/20 = 0,05 =

5%

0,05 = 5%

11

3

4

3/20 = 0,15 = 15%

0,20 = 20%

12

5

9

5/20 = 0,25 = 25%

0,45 = 45%

13

6

15

6/20 = 0,30 = 30%

0,75 = 75%

14

4

19

4/20 = 0,20 = 20%

0,95 = 95%

15

1

20

1/20 = 0,05 =

5%

1,00 = 100%

20

 

1

 

Gráfico da Frequência Simples Absoluta

7 6 6 5 5 4 4 3 3 2 1 1 1 0 10
7
6
6
5
5
4
4
3
3
2
1
1
1
0
10
11
12
13
14
15
Frequência Simples

Quantidade de Produtos Vendidos Diariamente

Gráfico da Frequência Acumulada

25 20 19 20 15 15 9 10 4 5 1 0 10 11 12
25
20
19
20
15
15
9
10
4
5
1
0
10
11
12
13
14
15
Frequência Acumulada

Quantidade de Produtos Vendidos Diariamente

2.3.2 Distribuição de frequência para dados agrupados em classe

Foi feita uma pesquisa com um grupo de 40 pessoas, medindo-se as alturas destas pessoas, em centímetros, sendo que os dados já estão em ordem crescente.

160

161

163

164

165

166

167

167

168

169

169

170

170

171

172

172

172

173

173

174

174

175

175

176

176

177

177

178

178

181

182

183

183

184

184

185

186

187

188

189

Uma distribuição de frequência é um agrupamento de dados em classes, exibindo o número ou a porcentagem de observações em cada classe. Uma distribuição de frequência pode ser apresentada sob a forma gráfica ou tabular.

Principais estágios na construção de uma distribuição de frequência para os dados contínuos:

1

- Determinar a amplitude do conjunto de dados.

2 - Decidir quanto ao número de classes a usar. É aconselhável escolher de 5 a 15 classes.

3 - Dividir a amplitude pelo número de classes para obter a amplitude das classes.

4 - Estabelecer os limites das classes.

5 - Enquadrar os dados nas classes.

Amplitude (A)

A = 189 - 160 = 29.

Número de classes (K)

O número de classe pode ser obtido pela seguinte fórmula.

Onde: n é o tamanho do conjunto de dados e K é número de classes.

No nosso exemplo, temos: n =40, então:

. Então usaremos 6 classes.

Amplitude das classes (h): é um subintervalo da amplitude, que leva em consideração esta última e o número de classes.

No nosso exemplo, a amplitude total é igual a 29 e o número de classes é igual a 6. Dividindo a amplitude total pelo número de classes, temos:

A amplitude das classes poderá ser igual a 4,83.

Observação 1: existem fórmulas e tabelas orientando quanto ao número de classes, mas pode ser feita a escolha de qualquer número de classes, então para este exemplo, foram escolhidas 6 classes, ou seja, K = 6.

Observação 2: neste exemplo, pode-se observar que o menor valor encontrado nos dados é 160 e o maior valor é 189. Então a primeira classe deve começar com um valor inferior ou igual ao menor valor encontrado nos dados (160), por exemplo, podemos adotar o valor 160 e a última classe deve ter um valor superior ou igual ao maior valor encontrado (189), por exemplo, podemos adotar o valor 190. Os valores 160 e 190 garantem que todos os dados da amostra situar-se-ão entre esses dois valores. É melhor ter classes com números "mais redondos", ou seja, números de preferência que sejam inteiros. Isto garante que se tenha uma tabela com uma melhor apresentação dos dados.

Fazendo esta mudança, então a nova amplitude das classes será:

Então a nova amplitude de classe será 5 ao invés de 4,83.

Classes: são subintervalos onde os dados serão enquadrados.

Levando-se em conta que a amplitude da classe é 5 e que podemos começar a partir do número

160, tem-se:

A primeira classe vai de 160 a 165.

A segunda classe vai de 165 a 170.

A terceira classe vai de 170 a 175.

Limite das Classes

A quarta classe vai de 175 a 180.

A quinta classe vai de 180 a 185.

A sexta classe vai de 185 a 190.

Existem algumas maneiras de expressar os limites das classes. Eis algumas:

a) 165├─ 170 compreende todos os valores entre 165 e 170, exceto o 170.

b) 165 ─┤170 compreende todos os valores entre 165 e 170 exceto o 165.

c) 165 ├─┤170 compreende todos os valores entre 165 e 170, inclusive o 165 e o 170.

d) 165 170 compreende todos os valores entre 165 e 170 exceto o 165 e o 170.

Atenção: os limites são importantes somente na hora do enquadramento dos dados.

Limite inferior (Li) é o menor valor da classe.

Limite superior (Ls) é o maior valor da classe.

Por exemplo:

160├─ 165 150 é o limite inferior e o 165 é o limite superior da primeira classe.

165├─ 170 160 é o limite inferior e o 170 é o limite superior da segunda classe.

170├─ 175 170 é o limite inferior e o 175 é o limite superior da terceira classe.

175├─ 180 175 é o limite inferior e o 180 é o limite superior da quarta classe.

180├─ 185 180 é o limite inferior e o 185 é o limite superior da quinta classe.

185├─ 190 185 é o limite inferior e o 190 é o limite superior da sexta classe.

Ponto Médio da Classe (x): é a soma do limite inferior da classe com o limite superior da classe dividida por 2.

Por exemplo, se a classe for 180 ├─ 185, tem-se:

x = 182,5 é o ponto médio da classe que vai de 180 a 185.

Distribuição de Frequência: é o arranjo dos valores e de suas respectivas frequências. Assim, a

distribuição de frequências é mostrada na tabela abaixo, conforme o exemplo das alturas das pessoas. Na primeira coluna estão as classes; na segunda coluna estão as frequências absolutas; na terceira coluna estão as frequências acumuladas; na quarta coluna estão as frequências relativas; na quinta classe estão as frequências relativas acumuladas e na sexta coluna estão os pontos médios das classes.

Classes

f

F

fr = f/n

Fr

x

160├─ 165

4

4

4/40 = 0,100 (10,0%)

0,10 = 10%

162,5

165├─ 170

7

11

7/40 = 0,175 (17,5%)

0,275 = 27,5%

167,5

170├─ 175

10

21

10/40 = 0,250 (25,0%)

0,525 = 52,5%

172,5

175├─ 180

8

29

8/40 = 0,200 (20,0%)

0,725 = 72,5%

177,5

180├─ 185

6

35

6/40 = 0,150 (15,0%)

0,875 = 87,5%

182,5

185├─ 190

5

40

5/40 = 0,125 (12,5%)

1,00 = 100%

187,5

40

 

1 ou 100%

   

Representação Gráfica

A representação gráfica dos dados é comumente representada pelo histograma (gráfico em colunas) e pelo polígono de frequência (gráfico em curvas)

Histograma: é a representação gráfica de distribuição de frequência por meio de retângulos justapostos (gráfico em colunas).

Polígono de Frequências: é a representação gráfica de uma distribuição de frequência por meio de um polígono (gráfico em curvas), que estão relacionados com os pontos médios das classes.

Não existe uma norma rígida para a representação gráfica da frequência simples (absoluta ou relativa) e acumulada (absoluta ou relativa), pois tanto a aquela como esta podem ser representadas por histogramas ou polígonos de frequência.

Gráfico da frequência simples absoluta

A representação gráfica de distribuição de frequência absoluta para o exemplo da altura dos alunos é mostrada, conforme a figura a seguir.

de distribuição de frequência absoluta para o exemplo da altura dos alunos é mostrada, conforme a

Observação: note que no ponto médio da classe anterior à primeira classe, ou seja, o 157,5, a

frequência simples vale zero e que no ponto médio da classe posterior à última classe, ou seja, o 192,5,

a frequência simples vale zero.

Gráfico da frequência acumulada

simples vale zero.  Gráfico da frequência acumulada Observação 1: note que a frequência acumulada está

Observação 1: note que a frequência acumulada está relacionada com o limite superior da classe,

ou seja, F = 4 para Ls = 165; F = 11 para Ls = 170; F = 21 para Ls = 175; F = 29 para Ls = 180; F = 35 para Ls

= 185; F = 40 para Ls = 190.

Observação 2: note que a frequência acumulada vale zero para o limite inferior da primeira classe, ou seja, F = 0 para L i = 160.

Porcentagem: a porcentagem é igual à frequência relativa, ou seja, fornece a idéia relativa, na

base de 0 a 100%, de quantos elementos existem em relação ao total. Por exemplo, no caso da altura dos alunos, qual a porcentagem de alunos que medem entre 165 cm e 175 cm? Como existem 7 alunos que medem entre 165 cm e 170 cm e 10 alunos que medem entre 170 cm e 175 cm num total de 40 alunos, então se têm 17 alunos num total de 40, consequentemente a porcentagem de alunos que medem entre 165 cm e 175 cm é igual a:

2.4 Medidas de Tendência Central para Dados não Agrupados

O objetivo das medidas de tendência central é resumir toda a informação dos dados coletados em uma só palavra. As principais medidas de tendência central são: média, mediana e moda.

Média Aritmética: é soma de um conjunto de valores dividida pela quantidade deles.

̅

̅

Onde:

n

é o tamanho da amostra;

N

é o tamanho da população;

x é a média da amostra; μ é a média da população; significa soma ou somatório dos valores;

Exemplo Um vendedor, durante cinco semanas consecutivas, vendeu a seguinte quantidade de produtos por semana: 15, 20, 18, 20 e 17. Determine a quantidade média de produtos vendidos semanalmente.

Utilizando a fórmula de média aritmética amostral, temos:

̅

O vendedor teve uma venda média de 18 produtos por semana.

Média Geométrica: é a raiz e-nésima do produto dos valores de x, ou também pode ser entendido como o produto dos valores de x, todos eles elevado a 1/n.

Exemplo Sejam os seguintes valores: 1, 3, 9, 27, 81. Calcule a média geométrica destes valores.

Média Harmônica: é a quantidade de valores dividida pela soma dos inversos dos valores.

∑( ⁄

)

Exemplo Sejam os seguintes valores: 1, 2, 2, 4, 8. Calcule a média aritmética destes valores.

Média Ponderada Sejam as variáveis x 1 , x 2 , x 3 ,

representada por x é dada por:

,x n com os seguintes pesos P 1 , P 2 , P 3 ,

,P

n . A média ponderada de x

̅

Onde:

n é o número de elementos do conjunto ou o tamanho da amostra;

P é o peso de cada variável.

Exemplo Calcule a nota média final de uma estudante de uma determinada matéria para os quatro bimestres, conforme as notas e os pesos dados a seguir.

Bimestre

Nota

Peso

Primeiro

8,0

2

Segundo

9,0

2

Terceiro

7,5

3

Quarto

6,5

3

A nota média será:

̅

A nota média da estudante será 7,6.

Média Geral

Sejam as médias aritméticas

̅

geral representada por

̿, é dada por:

̅

̅

com as seguintes quantidades

̿

̅

̅

̅

̅

̅

 

. A média

Exemplo Um grupo de funcionários constituído por 30 homens e 20 mulheres, sendo que a média salarial dos homens é de 3 salários-mínimos e a média salarial das mulheres é de 2,5 salários-mínimos. Calcule o salário médio deste grupo de funcionários.

Média dos homens = 3 ( ̅

Média das mulheres = 2,5 ( ̅

Cálculo da média geral.

e quantidade de homens = 30 (n 1 = 30).

e quantidade de mulheres = 20 (n 2 = 20).

̿

̅

̅

̅

O salário médio deste grupo é de 2,8 salários-mínimos.

Mediana

Colocados os elementos em ordem crescente, a mediana é o elemento que ocupa a posição central, ou seja, possuirá o mesmo número de elementos abaixo dela e acima dela. A mediana divide este conjunto de elementos em duas partes iguais.

Para variável discreta, existem dois casos: quando o número de elementos é ímpar e quando o número de elementos é par.

a) ÍMPAR

Quando o número de elementos do conjunto de dados é ímpar, teremos um elemento central de ordem (n+1)/2. Neste caso, o elemento de ordem (n+1)/2 será a própria mediana.

Calcule a mediana da seguinte amostra: 35,

20,

40,

30,

28.

Colocando a amostra em ordem crescente, temos: 20,

28,

30,

35,

40

A série de dados estatísticos possui 5 elementos, ou seja, n = 5 (ímpar), então a mediana será o

elemento de ordem (n + 1)/2, que corresponde ao elemento de ordem (5 + 1)/2 3 o elemento. Neste exemplo, o 3 o elemento é o 30, consequentemente a mediana será igual a 30, ou seja, Md = 30. Portanto, a mediana vale 30.

b) PAR

Quando o número de elementos do conjunto de dados é par, teremos dois elementos centrais, um de ordem (n/2) e outro de ordem (n/2 + 1). Neste caso, a mediana será a média aritmética entre os dois elementos centrais, em que se somam os dois elementos centrais e divide-se por dois.

Lembre-se: em ambos os casos, é preciso colocar os elementos em ordem crescente.

Calcule a mediana da seguinte amostra: 140,

115,

100,

Colocando a amostra em ordem crescente, temos: 100,

155,

115,

135,

122,

125, 122, 147.

125,

135,

140,

147,

155

A série possui 6 elementos, ou seja, n = 8 (par), então a mediana será a média entre o elemento

de ordem (n /2) e o elemento de ordem (n/2 +1). O elemento de ordem (n/2) é o elemento de ordem (8/2) 4 o elemento, que neste exemplo corresponde ao número 125. O elemento de ordem (n/2 +1) é

o elemento de ordem (8/2 +1) 5 o elemento, que neste exemplo corresponde ao número 135. Neste caso, a mediana será a média aritmética entre o 125 e o 135, ou seja:

Portanto, a mediana vale 130.

Moda Para um conjunto de dados, a moda será o valor que mais aparece ou aquele valor que possui a maior frequência. Se tivermos dois valores com maior frequência, então teremos uma distribuição bimodal. Se todos tiverem a mesma frequência, teremos uma distribuição amodal, ou seja, sem moda.

Determine a moda para os valores: 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8.

A moda vale 6, pois aparece mais vezes, ou seja, 4 vezes, portanto Mo = 6.

2.5 Medidas de Tendência Central para Dados Agrupados

Média Aritmética

Quando os dados estiverem agrupados numa distribuição de frequência, a média aritmética dos

valores x 1 , x 2 , x 3 ,

,x

n ponderados pelas respectivas frequências absolutas f 1 , f 2 , f 3 ,

,f n será:

̅

Neste caso, n = f 1 + f 2 +

+ f n = f e

x

é a média da amostra.

∑ ∑

A média aritmética também pode ser calculada utilizando-se a frequência relativa na forma decimal (ou unitária) ou na forma percentual.

Média aritmética utilizando a frequência relativa na forma decimal (unitária)

̅

̅

Média aritmética utilizando a frequência relativa na forma percentual

̅

Mediana

̅

O cálculo da mediana para dados discretos agrupados é o mesmo procedimento anterior para o cálculo da mediana para dados não agrupados, ou seja, é preciso que a distribuição esteja em ordem crescente e é preciso verificar se o tamanho da distribuição é par ou ímpar, só que agora, a identificação da ordem do elemento central (para o caso de n ímpar) ou dos elementos centrais (n par) será feita através da frequência acumulada.

Moda

Idem ao caso anterior, portanto é só verificar qual elemento que tem a maior frequência simples (absoluta ou relativa).

Exemplo Calcule a média aritmética, a mediana e a moda da amostra abaixo.

x

5

7

8

10

12

13

F

2

3

5

6

3

1

Montando a tabela para nos auxiliar nas contas, temos:

x

f

 

x · f

Frequência Acumulada

5

2

5

2 = 10

2

1 o e 2 o elementos

7

3

7

3 = 21

5

do 3 o ao 5 o elemento

8

5

8

5 = 40

10

do 6 o ao 10 o elemento

10

6

10

6 = 60

16

do 11 o ao 16 o elemento

12

3

12

3 = 36

19

18 o e 19 o elementos

13

1

13

1 = 13

20

20 o elemento

20

 

180

 

Média Aritmética

Mediana

̅

O tamanho da amostra é par, ou seja, n = 20, há dois elementos centrais.

1 o elemento central: n/2 = 20/2 = 10 o elemento 8 2 o elemento central: (n/2) + 1 = (20/2) + 1 = 11 o elemento 10

Moda

Mo = 10 (é o valor que mais aparece)

Portanto, a média aritmética é igual a 9; a mediana é igual a 9 e a moda é igual a 10.

2.6 Medidas de Tendência Central para Dados Agrupados em Classe

Média Aritmética São as mesmas fórmulas utilizadas para as medidas de tendência central para dados agrupados, mas agora a variável x é o ponto médio das classes.

Exemplo

Seja a seguinte amostra com os dados agrupados em classe.

Classes

30 50

50 70

70 90

90 110

110 130

130 150

Frequência

5

8

15

10

8

4

Calcule a média para os dados da tabela.

Tabela para auxiliar nos cálculos necessários.

Classes

F

x

 

x · f

30

50

5

40

40

5 =

200

50

70

8

60

60

8 =

480

70

90

15

80

80

15 = 1.200

90

110

10

100

100

10 = 1.000

110

130

8

120

120

8 =

960

130

150

4

140

140

4 =

560

Soma

50

   

4.400

A terceira coluna, ou seja, x é o ponto médio da classe, que é a soma do limite inferior com o

limite superior dividida por dois.

Média Aritmética

̅

Considerações finais sobre média, mediana e moda

Geralmente utiliza-se a moda quando se tem preferência por algum tipo ou produto, por exemplo: o sabor de sorvete que mais vende; o tipo de pizza que é mais pedido; a marca de sabão em pó mais vendida; a cor de carro preferida; um questionário com escala ótimo, bom, regular e péssimo, qual teve maior porcentagem.

Geralmente utiliza-se a mediana quando se quer dividir um conjunto em duas partes iguais, por exemplo: um concurso de música em que se classificam os 50% melhores; vaga para emprego, em que os 50% melhores irão para a segunda etapa de entrevista; a divisão entre um grupo de pessoas, os 50% mais altos e os 50% mais baixos.

De um modo geral, o que ficou serve para calcular a média aritmética, por exemplo, as vendas médias de uma empresa ao longo do ano; o salário médio de uma categoria em uma determinada região; o consumo médio de combustível de um grupo de carros; a média de consumo de água por habitante, a nota média de um grupo de estudantes.

2.7 Medidas de Dispersão

Servem para verificar a representatividade das medidas de posição, pois é muito comum encontrarmos séries que, apesar de terem a mesma média, são compostas de maneira distinta.

É importante ressaltar que a análise completa dos dados requer não apenas sua apresentação

através de tabelas e gráficos, ou cálculo das medidas de posições já estudadas, principalmente quando se deseja comparar dois conjuntos, onde as médias são iguais, pois caracterizá-los somente através dela, às vezes torna-se insuficiente ou quase impossível. As principais medidas de dispersão, que veremos logo a seguir são: amplitude total, variância, desvio padrão e coeficiente de variação.

Amplitude Total

É a diferença entre o maior valor e o menor valor.

A = Maior Valor Menor Valor

Onde: A é a amplitude total.

Variância Populacional

É a soma dos desvios elevados ao quadrado dividida pelo tamanho da população.

Variância Amostral

É a soma dos desvios elevados ao quadrado dividida pelo tamanho da amostra menos um (n 1).

̅

̅

Onde:

S 2 é a variância amostral; n é o tamanho da amostra;

x é a média da amostra; f é a frequência

absoluta; σ 2 é a variância populacional; µ é a média populacional; N é o tamanho da população.

Desvio Padrão

Definido como a raiz quadrada positiva da variância. É uma medida de erro em torno da média, quanto maior o desvio padrão, maior a dispersão dos valores em torno da média e vice-versa.

Onde:

σ 2 é a variância da população; σ é o desvio padrão da população; S 2 é a variância da amostra; S é o desvio padrão da amostra.

Todas as medidas de dispersão vistas até agora são absolutas, ou seja, elas têm unidades. Por exemplo, se estivermos interessados na altura em centímetros (cm), a amplitude e o desvio padrão estarão em centímetros (cm) e a variância estará em centímetros ao quadrado (cm 2 ).

Coeficiente de Variação

É uma medida de dispersão relativa, ou seja, não tem unidade e ela é o desvio padrão dividido pela média. O coeficiente de variação pode ser dado em porcentagem, para isto, basta multiplicar por 100%. O coeficiente de variação serve para comparar a dispersão de dois conjuntos de dados com médias diferentes e desvios padrões diferentes.

̅

Onde: CV é o coeficiente de variação.

Exemplo: medidas de dispersão para dados não agrupados

Calcular a variância, o desvio padrão e o coeficiente de variação para o caso do vendedor, que durante cinco semanas consecutivas, vendeu a seguinte quantidade de produtos por semana: 15, 17, 18, 20 e 20.

Como foi calculada a média de produtos, que foi igual 18 produtos por semana, já se pode calcular o desvio absoluto médio, a variância e o desvio padrão. Neste caso, estas 5 semanas serão consideradas como uma amostra. Aplicaremos a fórmula de desvio aboluto médio, variância para dados não agrupados.

Variância Amostral (Primeira fórmula)

 

̅

X

 

̅

15

 

(15 18) 2 = 9

17

 

(17 18) 2 = 1

18

 

(18 18) 2 = 0

20

 

(20 18) 2 = 4

20

 

(20 18) 2 = 4

Σ

 

18

 

̅

 

Variância Amostral (Segunda fórmula)

Σx = 15 + 17 + 18 + 20 + 20 = 90

Σx = 90

Σx 2 = 15 2 + 17 2 + 18 2 + 20 2 + 20 2 = 225 + 289 + 324 + 400 + 400 = 1.638

Σx 2 = 1.638

Portanto, a variância amostral vale 4,5 produtos vendidos ao quadrado por semana.

Desvio Padrão Amostral

O desvio padrão amostral vale 2,12 produtos vendidos por semana.

Coeficiente de Variação

̅

O coeficiente de variação vale 0,118 ou 11,8%.

Exemplo: medidas de dispersão para dados agrupados

Calcular o desvio absoluto médio, a variância, o desvio padrão e o coeficiente de variação para a seguinte amostra.

X

5

7

8

10

12

13

F

2

3

5

6

3

1

Este exemplo foi usado anteriormente para o cálculo das medidas de tendência central, sendo que a média aritmética vale 9. Será feita uma tabela auxiliar para o cálculo do desvio absoluto médio e da variância.

X

f

 

x ·f

̅

5

2

5

· 2 = 10

(5 9) 2 ·2 = 32

7

3

7

·

3 = 21

(7 9) 2 ·3 = 12

8

5

8

·

5 = 40

(8 9) 2 ·5 = 5

10

6

10

· 6 = 60

(10 9) 2 ·6 = 6

12

3

12

· 3 = 36

(12 9) 2 ·3 = 27

13

1

13

· 1 = 13

(13 9) 2 ·1 = 16

Soma

20

 

180

98

Média Aritmética

̅

Variância (primeiro modo da fórmula)

̅

Variância (segundo modo da fórmula)

x

f

 

x · f

x 2 · f

5

2

5

· 2 = 10

5 2 · 2 =

50

7

3

7

·

3 = 21

7 2 · 3 = 147

8

5

8

·

5 = 40

8 2 · 5 = 320

10

6

10

· 6 = 60

10 2 · 6 = 600

12

3

12

· 3 = 36

12 2 · 3 = 432

13

1

13

· 1 = 13

13 2 · 1 = 169

Soma

20

 

180

1.718

Sabendo-se que:

, teremos:

Desvio Padrão

Coeficiente de Variação

̅

Para esta amostra, a variância vale 5,158, o desvio padrão vale 2,271 e o coeficiente de variação vale 0,252 ou 25,2%.

Exemplo: medidas de dispersão para dados agrupados em classe

Calcule a variância, o desvio padrão e o coeficiente de variação da amostra abaixo.

Classes

30 50

50 70

70 90

90 110

110 130

130 150

Frequência

5

8

15

10

8

4

Do exemplo de medidas de tendência central para dados agrupados em classe, sabe-se que a média aritmética calculada foi igual a 88.

Variância Amostral (primeiro modo da fórmula)

̅

Tabela para auxiliar nos cálculos necessários.

Classes

F

x

 

̅

30

50

5

40

(40 88) 2 ·

5

=

11.520

50

70

8

60

(60 88) 2 ·

8

=

6.272

70

90

15

80

(80 88) 2 · 15

=

960

90

110

10

100

(100 88) 2 · 10

=

1.440

110

130

8

120

(120 88) 2 ·

8

=

8.192

130

150

4

140

(140 88) 2 ·

4

=

10.816

Soma

50

   

39.200

̅

Variância Amostral (segundo modo da fórmula)

Tabela para auxiliar nos cálculos necessários.

 

Classes

f

x

   

30

50

5

40

40 ·

5

=

200

40 2 ·

5

=

8.000

50

70

8

60

60

·

8

=

480

60 2

·

8

=

28.800

70

90

15

80

80

·

15

= 1.200

80 2

·

15

=

96.000

90

110

10

100

100

·

10

= 1.000

100 2

·

10

= 100.000

110

130

8

120

120

·

8

=

960

120 2

·

8 = 115.200

130

150

4

140

140

·

4

=

560

140 2

·

4

=

78.400

Soma

50

   

4.400

 

426.400

Sabendo-se que:

, teremos:

 

Desvio Padrão

 

Coeficiente de Variação

 

 
 

̅

Para esta amostra, a variância vale 800, o desvio padrão vale 28,28 e o coeficiente de variação

vale 0,321 ou 32,1%.

Exercícios de Estatística Descritiva

GRÁFICOS

2.1) O Prato Quente, um restaurante em São Paulo, usa um questionário para solicitar aos clientes uma avaliação da qualidade do restaurante. Esta característica é avaliada em uma escala de ótimo (O), bom (B), médio (M) regular (R) e fraco (F). Use a estatística descritiva para sintetizar os seguintes dados coletados sobre a qualidade do restaurante.

a) Qual é o tamanho da amostra?

b) Monte uma tabela com as frequências absolutas e relativas.

c) Qual a conclusão?

d) Qual é a porcentagem de pessoas que avaliaram o restaurante como Bom ou Ótimo?

e) Qual é a porcentagem de pessoas que avaliaram o restaurante como Médio ou Regular?

f) Faça um gráfico em colunas da frequência relativa em função dos atributos.

O

B

O

M

B

O

B

M

B

O

M

O

R

O

M

O

F

O

M

B

O

R

B

B

B

O

B

B

O

R

O

B

F

O

M

B

O

M

M

O

O

R

O

M

R

B

O

B

F

M

2.2) Os empregados na Digital Eletrônica estão num sistema de horário flexível: eles podem começar a almoçar às 11h, 11h30min, 12h, 12h30min ou 13h. Os seguintes dados representam uma amostra do horário de início escolhido pelos empregados:

11h

12h

12h30

12h

11h

12h30

12h

13h

11h30

12h

12h30

11h30

13h

12h30

12h

11h30

12h

12h30

13h

11h

11h30

12h

11h

12h

12h30

13h

12h30

12h

12h

13h

12h30

13h

13h

11h30

12h

12h

11h

11h30

12h30

12h

12h

12h30

12h

12h30

11h30

12h30

12h

12h

11h

11h30

13h

12h

11h30

11h

12h

11h

13h

11h30

12h30

12h30

Sintetize os dados, conforme os itens a seguir.

a) Uma tabela de distribuição de frequência simples e relativa.

b) Um gráfico em colunas da frequência simples.

c) O que os itens anteriores revelam sobre a preferência dos empregados quanto ao sistema de

horário flexível?

d) Qual a porcentagem de empregados que prefere almoçar às 12h ou às 12h30min?

e) Qual a porcentagem de empregados que prefere almoçar até às 12h?

2.3) Uma pesquisa realizada com um grupo de 70 pessoas sobre a preferência de cor de carros está listada abaixo.

Cor Preferida

Número de Pessoas

Prata

26

Branca

10

Azul

9

Preta

8

Vermelha

3

Verde

3

Bege

3

Outras

8

a) Construa uma tabela com a cor preferida e a frequência relativa.

b) Qual a porcentagem de pessoas que prefere a cor prata ou branca ou azul?

c) Qual a porcentagem de pessoas que prefere a cor vermelha ou verde?

2.4) Uma pizzaria fez uma pesquisa pela internet sobre a qualidade das pizzas dela, conforme as categorias: excelente, muito bom, médio, pobre e horrível. Dos 78 responderam o questionário, 44 opinaram que a pizzaria é excelente, 21 responderam que a pizzaria é muito boa, 9 avaliaram-na como média, 2 afirmaram que a pizzaria é pobre e 2 avaliaram-na como horrível.

a) Construa uma tabela das categorias com a frequência simples e com a frequência relativa.

b) Construa um gráfico em coluna da frequência em função das categorias

c) Qual a porcentagem de pessoas que avaliaram a pizzaria como excelente ou como muito boa?

d) Qual a porcentagem de pessoas que avaliaram a pizzaria como pobre ou horrível?

2.5) Considere os dados obtidos pelas medidas das alturas de 60 indivíduos em centímetros.

154

155

156

157

157

158

159

161

162

163

163

163

164

165

165

166

167

167

168

168

169

170

170

170

171

171

172

172

173

173

173

173

173

174

174

174

175

175

175

175

176

176

176

177

177

178

178

179

179

180

180

181

181

182

183

184

185

186

187

190

a) Determine a amplitude da amostra.

b) Monte uma distribuição de frequência com as classes, frequência simples, frequência

acumulada, frequência relativa em porcentagem, frequência relativa acumulada em porcentagem e

ponto médio das classes. Para a montagem das classes, utilize 8 classes de amplitude 5, começando pelo 150 (limite inferior a primeira classe) e terminando com o 190 (limite superior da oitava classe). Utilize o limite aberto do lado esquerdo e limite fechado do lado direito.

c) Faça o gráfico da frequência relativa em função das classes, histograma e polígono.

d) Faça o gráfico da frequência relativa acumulada em função das classes, histograma e polígono.

2.6) Abaixo estão as notas de uma prova de Matemática de um grupo de 40 alunos.

0,6

1,7

2,3

2,7

2,7

2,9

2,9

3,3

3,3

3,8

4,4

5,0

5,2

5,4

5,5

5,6

5,8

6,0

6,3

6,3

6,3

6,9

7,1

7,1

7,2

7,5

7,7

8,0

8,2

8,3

8,4

8,4

8,5

8,7

9,0

9,1

9,4

9,5

9,6

9,7

a) Qual é a amplitude amostral?

b) Monte uma distribuição de frequência com as classes, frequência simples, frequência

acumulada, frequências relativa em porcentagem, frequência relativa acumulada em porcentagem e ponto médio das classes. Para a montagem das classes, utilize 5 classes de amplitude 2, começando pelo zero (limite inferior da primeira classe) e terminando com o dez (limite superior da quinta classe). Utilize

o limite fechado do lado esquerdo e limite aberto do lado direito.

c) Faça o gráfico da frequência simples absoluta em função das classes, histograma e polígono.

d) Faça o gráfico da frequência acumulada em função das classes, histograma e polígono.

2.7) Os dados a seguir são valores contábeis (em reais), isto é, o valor líquido dividido pelo número de títulos em destaque, para uma amostra aleatória de 30 ações da Bolsa de Valores de São Paulo:

11

9

12

6

11

15

9

10

9

11

8

11

14

10

7

9

10

8

5

11

10

13

16

18

10

12

13

11

7

15

a) Construa uma tabela de distribuição de frequência (não enquadrar os dados em classes).

b) Construa o gráfico da frequência relativa e o gráfico da frequência relativa acumulada.

DADOS NÃO AGRUPADOS

2.8) Uma amostra de salários iniciais de algumas profissões é apresentada a seguir. Os dados estão em reais.

1.500,00

1.800,00

1.300,00

1.500,00

1.400,00

1.600,00

1.400,00

1.800,00

1.700,00

1.600,00

1.300,00

1.400,00

a) Qual é a média do salário inicial?

b) Qual é a mediana do salário inicial?

c) Qual é a moda do salário inicial?

2.9) Um fabricante de baterias pegou uma amostra de 8 baterias fabricadas em um mesmo dia de produção e utilizou as mesmas até que falhassem. O número de horas que cada uma demorou até falhar foi:

340 520

360

450

630

510

490

560

550

a) Calcule a média aritmética.

b) Calcule a mediana.

c) Calcule a variância amostral.

2.10) Uma amostragem foi feita com os pacotes de farinha de mandioca em um determinado estabelecimento por um representante de pesos e medidas, sendo que os dados estão em gramas:

965 980

970

950

1.050

960

995

1.010

970

1.020

a) Calcule o peso médio da amostra.

b) Calcule o peso mediano. O que isto significa?

c) Calcule a amplitude amostral.

d) Calcule o desvio padrão da amostra.

e) Calcule o coeficiente de variação.

2.11) Uma pesquisa feita com algumas marcas de água mineral revelou os seguintes valores de pH da água à temperatura de 25 o C, conforme o quadro a seguir.

Marca

pH

Marca

pH

Carrefour

5,48

Genuína Lindoya

6,30

Schinchariol

7,59

Magna

5,76

Fratelli Vita

6,02

Crystal

7,22

Levíssima

4,86

Premiata

7,69

Minalba

7,80

Acqua Sadia

7,80

Prata

5,87

São Lourenço

5,29

a) Qual é a amplitude amostral?

b) Calcule o pH médio.

c) Calcule o pH mediano.

d) Calcule o desvio padrão.

e) Calcule o coeficiente de variação.

f) Qual a porcentagem do pH da água estar entre 5,5 e 7?

2.12) Uma amostra de 15 vendedores apresentou os seguintes custos (em reais) com despesas diárias de alimentação e transporte

175

170

180

185

265

175

190

200

155

205

235

165

165

175

210

a) Qual é a amplitude amostral?

b) Qual é média amostral?

c) Qual é o custo mediano?

d) Calcule a variância

e) Calcule o desvio padrão.

f) Calcule o coeficiente de variação.

g) Qual a porcentagem do custo estar entre R$ 170,00 e R$ 220,00?

2.13) Comparando a amostra do exercício sobre o pH da água (exercício 2.11) e o custo diário (exercício 2.12), qual deles tem um comportamento mais uniforme em relação à média aritmética? Explique por que usou tal medida para comparar?

2.14) Uma pesquisa realizada com carros 1.0 no dia 15 de julho de 2006, verificou-se os seguintes preços.

Tipo de Carro

Preço (reais)

Ka GL 1.0

22.890,00

Fiesta Hatch Pers. 5p 1.0

27.890,00

Celta Life Flex Power 3p 1.0

24.390,00

Palio Fire Flex 2p 1.0

23.490,00

Uno Mille Fire Flex 1.0 2p

21.490,00

Gol City 1.0 Total Flex 2p G4

23.390,00

Fox City 1.0 Total Flex 2p

26.990,00

a) Calcule a amplitude amostral.

b) Calcule o preço médio do carro 1.0.

c) Calcule o preço mediano do carro 1.0.

d) Calcule o desvio padrão da amostra.

e) Calcule o coeficiente de variação.

2.15) A inflação no ano, conforme os institutos são dados a seguir.

Instituto

Inflação (%)

INPC

3,31