Você está na página 1de 29

UNIVERSIDADE FEDERAL DO RECÔNCAVO

DA BAHIA
CETEC – CENTRO DE CIÊNCIAS EXATAS E
TECNOLÓGICAS

CET060 – MÉTODOS ESTATÍSTICOS


1ª UNIDADE – ESTATÍSTICA DESCRITIVA

2009
1. IMPORTÂNCIA DA ESTATÍSTICA

1.1 Por que precisamos aprender Estatística?

Os métodos estatísticos são consciente ou inconscientemente usados em várias situações,


especialmente na apresentação de informações oriundas de dados numéricos. Diversas vezes,
apresentações são baseadas, principalmente, em algum tipo de técnica utilizando teorias
matemáticas; porém durante a preparação e apresentação dos dados, métodos estatísticos são
utilizados para definir a técnica de coleta de dados e chegar a uma conclusão através das
informações coletadas. Os métodos estatísticos têm aplicações em controle de processo, controle de
produto, solução de problema, melhora na fabricação e manutenção econômica além de satisfação
do cliente. Por este motivo o conhecimento destes métodos está se tornando cada vez mais
importante para engenheiros e demais profissionais engajados em programas de promoção da
qualidade e produtividade.

Métodos estatísticos representam as ferramentas básicas para remediar e controlar variações, porque
a análise estatística é a única base para tentar entender variabilidade. Indústrias ocidentais estão
acordando para o uso de métodos estatísticos e técnicas relacionadas para fazer frente ao
crescimento constante da competição. Estas empresas também sabem que a implantação de um
programa para melhoria da qualidade pode eliminar desperdícios, reduzir os índices de produtos
defeituosos fabricados, diminuir a necessidade da realização de inspeção e aumentar a satisfação
dos clientes, fatores que implicam em um aumento da produtividade e da competitividade das
empresas. Um profissional treinado em Estatística terá maior facilidade em identificar um
problema em sua área de atuação, determinar os tipos de dados que irão contribuir para a sua
análise, coletar estes dados e a seguir estabelecer conclusões e determinar um plano de ação para a
solução do problema detectado.

A Estatística Descritiva abrange métodos gráficos e numéricos utilizados para resumir dados de
maneira que características importantes da amostra possam ser expostas.

2. APRESENTAÇÃO DOS DADOS

2.1. O que é estatística e suas divisões


A Estatística é uma ciência ( ou método) baseada na Teoria das Probabilidades, cujo
objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a
partir de informações numéricas.

Sandra-CET060-1
Divisões da Estatística

A Teoria Estatística moderna se divide em dois grandes campos:

Estatística Descritiva - consiste num conjunto de métodos que ensinam a reduzir uma
quantidade de dados bastante numerosa por um número pequeno de medidas,
substitutas e representantes daquela massa de dados.

Estatística Indutiva - consiste em inferir (deduzir ou tirar conclusões a respeito das)


propriedades de um universo a partir de uma amostra. O processo de generalização,
que é característico do método indutivo, está associado a uma margem de incerteza.
A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na
Teoria das Probabilidades.

Técnicas de Amostragem
População Amostra
características

Análise
Descritiva

Inferência
Conclusões Estatística
sobre as
características Informações
da população
contidas nos dados

2.2 População e amostra

População - Conjunto de indivíduos, objetos ou informações que apresentam pelo menos


uma característica comum, cujo comportamento interessa-nos analisar. Ou, em outras palavras,
conjunto de todas as medidas, observações relativas ao estudo de determinado fenômeno.

i) Deseja-se conhecer o consumo total de energia elétrica em MWH nas residências da cidade de
Salvador no ano de 1998.
População ou universo: todas as residências que estavam ligadas a rede elétrica em Salvador, em
1998.
Características: X = consumo anual de energia elétrica em MWH.

ii) Deseja-se saber se nas indústrias situadas no Estado da Bahia, em 1997, existia algum tipo de
controle ambiental.
População ou universo: indústrias situadas no Estado da Bahia em1998.
Característica: X = existência ou não de algum tipo de controle ambiental na indústria.

Sandra-CET060-2
iii) Estudo sobre a precipitação pluviométrica na Região Nordeste no ano 1997.
População ou universo: área referente à Região Nordeste.
Característica: X = precipitação pluviométrica.
Populações finitas e infinitas: Quanto ao número de elementos, as populações podem ser
classificadas em finita ou infinita, dependendo se o número de elementos que a compõe for finito ou
infinito.

Exemplos:
i) População finita: empresas do Pólo Petroquímico de Camaçari.
ii) População infinita: as pressões atmosféricas ocorridas nos diversos pontos do Continente em
determinado momento.

Em geral, como os universos são grandes, investigar todos os elementos populacionais para
determinarmos a característica necessita muito tempo, e/ou o custo é elevado, e/ou o processo de
investigação leva a destruição do elemento observado, ou, como no caso de populações infinitas, é
impossível observar a totalidade da população. Assim, estudar parte da população constitui-se um
aspecto fundamental da Estatística.

Amostra: É qualquer subconjunto da população.

2.3. Técnicas de Amostragem


A amostragem é um campo da estatística bastante sofisticado que estuda técnicas de planejamento
de pesquisa para possibilitar inferências sobre um universo a partir do estudo de uma pequena parte
de seus componentes, uma amostra.

A representatividade da população na amostra, ou validade, é assegurada pelo planejamento


científico da pesquisa, que pode ser dividida nas seguintes etapas:

1) Formulação do problema;
2) Escolha da unidade amostral (residências, bairro, cidade, fábricas, rios, etc)
3) Escolha das variáveis que serão medidas;
4) Planejamento da pesquisa
5) Coleta de dados;
6) Produção de resultados;
7) Análise dos resultados;
8) Relatório contendo as conclusões.

Esquemas amostrais

Por esquema amostral entende-se a dupla: sorteio e métodos de estimação dos parâmetros,
geralmente médias e totais, e de modo que se possa obter suas variâncias.
Os principais esquemas amostrais são: amostragem aleatória simples, sistemática, estratificada e por
conglomerados. Normalmente é usada uma combinação destes esquemas básicos.
Sandra-CET060-3
2.3.1. Amostragem Aleatória Simples
Neste tipo de amostra considera-se que cada componente da população estudada tem a mesma
chance de ser escolhido para compor a amostra e a técnica que garante esta igual probabilidade é a
seleção aleatória de indivíduos, por exemplo através de sorteio.

O sorteio dos elementos da amostra é feito geralmente de uma lista com todos os elementos da
população, e pode-se usar a tabela de números aleatórios.

2.3.2. Amostragem Aleatória Estratificada

Na amostragem estratificada a população é dividida em estratos e em seguida é selecionada uma


amostra aleatória de cada estrato. Esta estratégia geralmente é aplicada quando o evento estudado
numa população tem características distintas para diferentes categorias que dividem esta população.
Muitas vezes, deseja-se estimar os parâmetros de interesse relativos a subgrupos homogêneos da
população, como por exemplo, estimar a proporção de rios poluídos em alguns estados do Nordeste.
O que se deseja na amostragem estratificada é obter estratos internamente homogêneos, de modo
que as estimativas desses estratos sejam representativas dos mesmos. O fato dos estratos serem
homogêneos significa que a variância interna é mínima e a variância entre os estratos é máxima.

A amostragem estratificada faz com que ao se ponderar as estimativas vindas de cada estrato em
uma estimativa global, a variabilidade final seja menor do que se fosse usada a amostragem
aleatória simples.

O dimensionamento das sub-amostras, ou alocação dos elementos, pode ser de maneira balanceada
(mesmo número de elementos em cada estrato) ou proporcional (número de elementos no estrato é
proporcional à sua contribuição no total populacional).

2.3.3. Amostragem Sistemática

Deve obedecer ao mesmo princípio da amostragem aleatória simples de iguais probabilidades de


pertencer à amostra para todos os componentes da população estudada. No entanto, prevê a coleta
de dados ao longo de um período de tempo e arbitra um ritmo para tomada de unidades da
população para compor a amostra. O número de observações pode ser calculado como na
amostragem aleatória simples.
Exemplo: numa listagem de indivíduos da população, sorteamos um nome entre os dez primeiros da
lista. A partir do nome sorteado, selecionamos um a cada dez indivíduos (o décimo, vigésimo e
assim por diante).

2.3.4. Amostragem Aleatória por Conglomerados.


A população é dividida em subpopulações distintas (conglomerados). Alguns dos conglomerados
são selecionados segundo a amostragem aleatória simples e são observadas todas as unidades dos
conglomerados selecionados.
Sandra-CET060-4
2.3.5. Amostragem por Múltiplos Estágios

Esta estratégia de amostragem pode ser vista como uma combinação de dois ou mais planos
amostrais. Considere por exemplo uma população estratificada onde o número de estratos é muito
grande. Ao invés de sortear uma amostra de cada estrato, o que poderia ser inviável devido à
quantidade de estratos, o pesquisador poderia optar por sortear alguns estratos e em seguida
selecionar uma amostra de cada estrato sorteado. Neste caso, teríamos uma amostragem em dois
estágios usando, nas duas vezes, a amostragem aleatória simples, sendo que no primeiro estágio as
unidades amostrais são os estratos e no segundo são as componentes da população.

2.4. - Classificação de Variáveis

A Estatística ocupa-se fundamentalmente das propriedades das populações cujas características são
passíveis de representação numérica como resultado de medições e contagens. Essas características
da população são comumente chamadas de variáveis.

Variável é qualquer atributo/característica que exerça influência no fenômeno estudado. A


adequação da técnica apropriada está diretamente relacionada ao tipo de variável obtida na
pesquisa.

As variáveis podem ser classificadas em qualitativas e quantitativas.

i) Qualitativas : se os resultados das observações forem expressos através de categorias, que se


distinguem por alguma característica não-numérica. Ex: setor de atividade econômica, sexo, nível
de escolaridade, porte da empresa.

Estas podem ser classificadas em:

•Nominal: caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias. Os
dados não podem ser dispostos segundo um esquema ordenado. Ex: setor de atividade econômica,
sexo, etc.

•Ordinal: envolve dados que podem ser dispostos em alguma ordem, mas as diferenças entre os
valores dos dados não podem ser determinadas ou não tem sentido. Ex: Nível de escolaridade,
classe sócio-econômica, porte da empresa, etc.

ii) Quantitativas - os resultados das observações serão expressos sempre através de números, que
representam contagens ou medidas. Ex: idade, altura, peso, número de empregados, salário mensal,
volume de dejetos, nº de habitantes do domicílio, etc.

Estas podem ser classificadas em:

•Discreta - só pode assumir valores pertencentes a um conjunto finito ou enumerável. Ex: número
de empregados, , nº de habitantes do domicílio, etc.

Sandra-CET060-5
Contínua : pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos
Reais. Pode-se dizer que a variável contínua resulta normalmente de mensurações.
Ex: Estatura, peso, salário mensal, volume de dejetos, etc.

Exercício:
Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal)
ou quantitativa (discreta ou contínua). Classifique as variáveis nos exemplos que se seguem:
a) população: moradores de uma certa cidade
variável: cor dos olhos (pretos, castanhos, azuis, verdes)
b) população: casais residentes em uma certa cidade
variável 1: número de filhos
variável 2: classe econômica
c) população: candidatos a um exame vestibular
variável 1: renda familiar
variável 2: sexo (masculino, feminino)
variável 3: número de pessoas na família
d) população: sabonetes de certa marca
variável: peso líquido
e) população: aparelhos produzidos por uma linha de montagem
variável: número de defeitos por unidade

2.5. Apresentação dos Dados

2.5.1. Séries Estatísticas

Quando realizamos um levantamento de dados sobre um fenômeno ou variável, o que obtemos


como resultado é chamado de série estatística. O modo de condensação ou apresentação das
informações pode ser na forma de tabelas ou de gráficos que facilitam a visualização do fenômeno,
permitem a comparação com outros elementos ou, ainda, fazer previsões. Para fazermos a
diferenciação de uma série estatística para outra, devemos levar em consideração os elementos que
a compõe:

• a época (fator temporal ou cronológico) a que se refere o fenômeno observado;


• o local (fator espacial ou geográfico) onde o fenômeno acontece;
• o fenômeno (espécie do fato ou fator especificativo) que é descrito.

Sandra-CET060-6
Exemplo 1:
POPULAÇÃO RESIDENTE SEGUNDO OS MUNICÍPIOS DA
REGIÃO METROPOLITANA DE SALVADOR - 1991
MUNICÍPIOS POPULAÇÃO
(em 1.000 habitantes)
Camaçari 114
Candeias 68
Dias D'Avila 31
Itaparica 15
Lauro de Freitas 69
Madre de Deus 9
Salvador 2.075
São Francisco do Conde 20
Simões Filho 73
Vera Cruz 22
Total 2.496
FONTE: IBGE, Censo Demográfico, Bahia. 1991.

Correspondência entre as séries estatísticas e a representação gráfica


TIPO DE SÉRIE FATOR VARIANTE GRÁFICO MAIS INDICADO
ESTATÍSTICA
Temporal Época Curvas, excepcionalmente Colunas
Especificativas Fenômeno Barras, Colunas ou Setores
Geográficas Local Cartogramas, Colunas, Barras ou
Setores
Distribuição de Intensidade do Histograma (contínua), Bastão
freqüências fenômeno (discreta), Barras, Colunas ou
Setores (qualitativa )

2.5.2 Distribuição de freqüências

Neste tipo de série estatística o tempo, o local e o fenômeno permanecem fixos. O fenômeno
considerado é uma variável qualitativa ou quantitativa (discreta ou contínua) e seus valores
observados são descritos considerando o número de vezes que ocorreram na série (freqüência).

Algumas definições:

Freqüência simples absoluta: é o número de ocorrências ou repetições de um valor individual ou


um intervalo de valores.
Notação: fi

Freqüência simples relativa: é a razão entre a freqüência simples absoluta e o número total de
dados (soma de todas as freqüências simples absolutas).
Notação: fri

Sandra-CET060-7
Agora vamos exemplificar distribuições de freqüência e suas respectivas tabelas para cada
tipo de variável.

1ª) Dados discretos

Exemplo: Foi observado o número de defeitos apresentados por uma máquina industrial durante o
período de 30 dias. Os resultados foram os seguintes:
1 1 1 0 1 1
0 2 1 3 1 0
1 1 1 2 0 1
1 1 4 1 0 3
2 2 1 1 0 1

Tabela de Freqüências
Número de Freqüência Freqüência
defeitos simples absoluta simples relativa
0 6 0,20
1 17 0,57
2 4 0,13
3 2 0,07
4 1 0,03
Total 30 1,00
Fonte: Dados fictícios

2 ª) Dados contínuos:

Para um certo conjunto de dados, vamos adotar a seguinte nomenclatura:

1. Máximo (max): maior valor do conjunto.


2. Mínimo (min): menor valor do conjunto.
3. Amplitude total (AT): é a diferença entre o valor máximo e mínimo.
AT = MAX - MIN
4. Classe: é cada intervalo em que se subdivide a amplitude total.
Representação: k = número de classes
5. Limite superior ( ls ): é a cota superior para os valores da classe.
6. Limite inferior ( li): é a cota inferior para os valores da classe.
7. Amplitude do intervalo de classe ( h ): é o comprimento da classe, definida como a diferença
entre o limite superior e inferior.

Exemplo: Antes de enviar um lote de aparelhos elétricos para venda, o Departamento de Inspeção
da empresa produtora selecionou uma amostra casual de 32 aparelhos avaliando o desempenho
através de uma medida específica, obtendo os seguintes resultados:

154 165 175 180 190 195 202 211


155 170 176 180 190 198 205 212
156 172 178 180 190 200 205 215
164 175 178 184 192 200 210 218

Sandra-CET060-8
Construir uma tabela de distribuição de freqüências por intervalos de classes.

Solução: Neste caso, n = 32 ⇒ pela regra de Sturges

k ≅ 1 + 3,3 log 10 32
k ≅ 5,97
Aproximando para o número inteiro mais próximo, temos que k = 6.
A amplitude total será dada por AT = 218 – 154 = 64.
Assim, a amplitude de cada intervalo de classe será:
AT 64
h= = ≅ 10,67.
k 6
Aproximando para o inteiro mais próximo, temos que h = 11.

Dessa forma, a tabela de distribuição de freqüências para dados agrupados em classes fica da
seguinte maneira:

Tabela de Freqüências
Medida Freqüência Freqüência
simples absoluta simples relativa
154 |— 165 4 0,13
165 |— 176 5 0,16
176 |— 187 7 0,22
187 |— 198 5 0,16
198 |— 209 6 0,19
209 |— 220 5 0,16
Total 32 1,00
Fonte: Dados fictícios

2.4.3. Representação Gráfica

Serão apresentadas algumas séries estatísticas e seus respectivos gráficos.

1º) Gráfico em barras

Exemplo: Série Especificativa

Tipo de fraude nos cartões de crédito da


Mastercard Internacional no Brasil - 2000
Tipo de fraude Quantidade
Cartão roubado 243
Cartão falsificado 85
Pedido por correio/telefone 52
Outros 46
Fonte: Triola, Mario F.

Sandra-CET060-9
Tipos de fraude nos cartões de crédito da
Mastercard Internacional no Brasil - 2000

Outros

Tipo de fraude
Pedido por
correio/telefone

Cartão
falsificado

Cartão roubado

0 100 200 300


Quantidade

Fonte: Triola, Mario F.

2º) Gráfico em colunas

Exemplo: Série Geográfica

Número de crianças de baixa renda, segundo o bairro de residência, que participaram do


ensino de música na Escola XYZ, em Salvador - 1998
Bairro Número de crianças
Paripe 11
Periperi 39
Plataforma 45
Praia Grande 25
Total 120
Fonte: Escola de Música XYZ, Salvador.

N ú m e ro d e c ria n ç a s d e b a ix a re n d a ,
s e g u n d o o b a irro d e re s id ê n c ia , q u e
p a rtic ip a ra m d o e n s in o d e m ú s ic a
n a E s c o la X Y Z , e m S a lv a d o r - 1 9 9 8

50
45
40
Nº de crianças

35
30
25
20
15
10
5
0
P a rip e P e rip e ri P la ta fo rm a P ra ia
G ra nd e
B a irro

Fonte: Escola de Música XYZ, Salvador

Sandra-CET060-10
Exemplo: Série Especificativa-Temporal

Ingressantes da Universidade XYZ


Segundo área de estudo e ano
Área / Ano 1998 1999 2000
Exatas 120 156 68
Humanas 72 85 112
Biológicas 169 145 73
Fonte: Dados Fictícios

Ingressantes da Universidade
XYZ - segundo área de estudo e
classe sócio econômica - 1999

200
150 Exatas
100 Humanas
50 Biológicas
0
1998 1999 2000

Fonte: Dados Fictícios

3º) Gráfico em Linhas ou Curvas

Exemplo: Série Temporal

Índice de Produto Industrial


Brasil – 1979
Meses IPI
Janeiro 18.633
Fevereiro 17.497
Março 19.470
Abril 18.884
Maio 20.308
Junho 20.146
Julho 20.258
Agosto 21.614
Setembro 19.717
Outubro 22.133
Novembro 20.503
Dezembro 18.800
Fonte: FIBGE

Sandra-CET060-11
Índ ice d e P rod uto Industrial - Brasil - 1979

IPI 25000

20000

15000

10000

5000

0
jan fev m ar abr m ai jun jul ago set out nov dez

Fonte: IBGE

4º) Gráfico em setores

Exemplo: Série Geográfica

Percentual de funcionários da
Companhia Milsa segundo
região de procedência
Procedência Percentual
Interior 33,30
Capital 30,60
Outro 36,10
Fonte: Bussab

Percentual de funcionários da
Companhia Milsa segundo região de
procedência

36,1 33,3

Interior
Capital
Outro

30,6

Fonte: Bussab

Sandra-CET060-12
5º) Histograma

Este gráfico é utilizado para quando os dados estão agrupados em intervalos de classes. No caso de
classes de mesma amplitude, é construído um retângulo para cada classe, com base igual à
amplitude do intervalo classe e altura proporcional a freqüência da classe. Neste caso,
altura ~ freqüência (absoluta ou relativa)

Quando temos classes com amplitudes diferentes, devemos construir um retângulo para cada classe,
com base igual à amplitude do intervalo de classe e altura dada por:

freqüencia
d=
amplitude da classe

Note que, neste caso, a área do retângulo é igual a freqüência da classe. A altura d definida acima é
chamada de densidade de freqüência.

Exemplo: Histograma para a distribuição de freqüência do exemplo 5.

Tabela de Freqüências
Medida Freqüência Freqüência
simples absoluta simples relativa
154 |— 165 4 0,13
165 |— 176 5 0,16
176 |— 187 7 0,22
187 |— 198 5 0,16
198 |— 209 6 0,19
209 |— 220 5 0,16
Total 32 1,00
Fonte: Dados fictícios

Medida específica de um aparelho elétrico

fi 4

0
154 |— 165 165 |— 176 176 |— 187 187 |— 198 198 |— 209 209 |— 220
medida

Sandra-CET060-13
3. MEDIDAS DE POSIÇÃO

A estatística descritiva ensina a reduzir a informação contida em uma grande quantidade de dados a
um pequeno número de medidas, substitutas e representantes daquela massa de dados. As principais
medidas da Estatística Descritiva são agrupadas em medidas de posição (ou de locação ou de
localização) e medidas de dispersão (ou de variabilidade).

3.1. Médias

Uma média de uma lista de números é um valor que pode substituir todos os valores da lista sem
alterar uma certa característica da lista.

i) Quando a característica a ser mantida é a soma dos elementos da lista, obtemos a média
aritmética.

A média aritmética simples de n números x1 , x2 ,..., xn é um valor x tal que

n
∑ xi
x1 + x2 + ... + xn i =1
x= =
n n

3 + 36 + 54
Ex: A média aritmética dos números 3, 36 e 54 é x = = 31
3

ii) Quando a característica a ser mantida é o produto dos elementos da lista, obtemos a
média geométrica.

A média geométrica simples dos n números positivos x1 , x2 ,..., xn é um valor positivo g


tal que

x g = n x1 ⋅ x 2 ⋅ ... ⋅ x n

Ex: A média geométrica dos números 3, 36 e 54 é 3


3 × 36 × 54 = 18

Comentários

Podemos pensar na média aritmética como o valor “típico” do conjunto de dados e é considerada a
principal medida de tendência central. Algumas das razões que fazem com que seja a medida de
posição mais recomendada são:

Sandra-CET060-14
• É definida rigorosamente e pode ser interpretada sem ambiguidades;

• Leva em consideração todas as observações efetuadas; e

• Calcula-se com facilidade.

Entretanto, esta medida apresenta alguns inconvenientes como o fato de ser muito sensível a valores
extremos, isto é, a valores excessivamente pequenos ou excessivamente grandes, em relação às
demais observações do conjunto de dados.

Exemplo: Temos o seguinte conjunto de salários mensais, em reais: 123 - 145 - 210 - 225 - 2500.
Podemos observar que quatro dos cinco salários apresentam valores entre 123 e 225 reais,
porém a média salarial de 640,6 reais é bastante distinta desse conjunto pela influência do
salário de 2500 que puxou o valor médio para cima. A média geométrica apresenta valor
mais coerente 291,6 reais.

3.2. Médias ponderadas

Utiliza-se uma média ponderada quando os valores do conjunto de dados apresentam diferentes
graus de importância. Qualquer uma das médias definidas acima pode ser também considerada com
valores ponderados. Vamos ver a seguir a definição da média aritmética ponderada.

i) A média aritmética ponderada dos números x1 , x2 ,..., xn , n com pesos p1, p2, ..., pn é
definida por

∑ x .p
i =1
i i
x= n
,
∑p
i =1
i

∑x
i =1
i fi
ou quando estamos tratando com distribuição de frequências x = n
.
∑f
i =1
i

Exemplo: Em um grupo de pessoas, 70% são adultos e 30% são crianças. O peso médio dos adultos
é 70 kg e o peso médio das crianças é 40 kg. Qual o peso médio do grupo?

Solução: É a média aritmética ponderada dos dois subgrupos:

70 × 0 ,7 + 40 × 0 ,3
xp = = 61 kg
0 ,7 + 0 ,3

Sandra-CET060-15
ii) A média geométrica ponderada dos números x1 , x2 ,..., xn , n com pesos p1, p2, ..., pn é
definida por

xg = ∑ x1p1 ⋅ x2p2 ⋅ ...⋅ xnpn


p
,

xg = ∑ x1f1 ⋅ x2f2 ⋅ ...⋅ xnfn


f
ou quando estamos tratando com distribuição de frequências

3.3. Moda

Outra medida de tendência central menos usada que as médias é a moda.

A moda é o valor que ocorre com maior freqüência no conjunto de dados.

Notação: Mo = moda

Exemplo 6:
a) X = {2, 3, 3, 5, 5, 5, 6, 7} ⇒ Mo = 5

b) Y = {10, 12, 17, 21, 32} ⇒ Mo = não existe, a distribuição é amodal.

c) Z = {2, 2, 5, 5, 7, 7} ⇒ Mo = não existe

d) W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21} ⇒ A distribuição apresenta dois valores modais:
12 e 18 (distribuição bimodal).

Quando o conjunto de dados apresenta mais de uma moda damos o nome de distribuição
plurimodal.

Quando a distribuição de freqüências está organizada por classes de valores, devemos identificar a
classe modal (classe em que observamos a maior freqüência). A moda bruta será o ponto médio
da classe modal.
hi
Mo = li +
2
onde: li = limite inferior da classe modal;
hi = amplitude da classe modal;

Exemplo1:
Obs: No casos Freqüência Simples Absoluta (fi)
11 1
15 1
17 2
19 1
21 1
25 3
Sandra-CET060-16
De acordo com a definição a moda é 25, entretanto este valor não é representativo do conjunto de
dados e portanto a moda não é uma boa medida de locação neste caso.

Exemplo2:
Tabela de Freqüências
Medida Freqüência simples
absoluta (fi)
154 |— 165 4
165 |— 176 5
176 |— 187 7
187 |— 198 5
198 |— 209 6
209 |— 220 5
Total 32

11
Mo = 176 + = 181,5
2

3.4. Separatrizes

As separatrizes são medidas de posição que permitem calcularmos valores da variável que dividem
ou separam a distribuição em partes iguais. Temos quatro tipos de separatrizes, também chamadas
de quantis: a mediana; os quartis; os decis; e os percentis.

3.4.1. Mediana (que é também uma medida de tendência central)

Notação: Md = mediana

Definição: Chamamos de mediana o elemento do conjunto que ocupa a posição central na


distribuição ordenada (crescente ou decrescentemente). Isto é, divide a distribuição em duas partes
iguais de modo que 50% dos valores observados são inferiores ao valor mediano e 50% superiores a
esse valor.

i) Determinação da Mediana para dados brutos (não tabelados)

1) Quando n é par

n
Emd = , neste caso teremos dois valores centrais e a mediana será
2

x  n  + x n 
   +1 
2 2 
Md =
2

Sandra-CET060-17
2) Quando n é ímpar

n +1
Emd = , neste caso teremos um valor central e a mediana será
2

Md = x n +1 
 
 2 

Exemplo: Comparação entre a média aritmética e a mediana para os conjuntos de salários (em
reais) dados.

X = { 200, 250, 250, 300, 450, 460, 510} ⇒ X = 345,7; Md X = 300.

Y = { 200, 250, 250, 300, 450, 460, 2.300} ⇒ Y = 601,0; Md Y = 300.

Podemos observar que no caso do conjunto Y a média não sintetiza adequadamente o conjunto de
dados, pois apenas um valor é superior a ela.

3.4.2. Quartis, Decis e Percentis

A construção das medidas de posição denominadas quartis, decis e percentis é análoga a da


mediana. Enquanto a mediana separa a distribuição em duas partes iguais, a característica principal
de cada uma dessas medidas é:

• Quartis: dividem a distribuição em quatro partes iguais;


• Decis: dividem em dez partes iguais; e
• Percentis: dividem em cem partes iguais.

Observações:

i) Temos a seguinte igualdade: C50 = D5 = Q2 = Md

ii) O cálculo para os decis e centis é análogo ao dos quartis.

iii) O intervalo interquartil ou interquartílico, definido por (Q1; Q3), contém 50% do total de
observações localizadas mais ao cento da distribuição.

iv) Podemos também ter idéia sobre a assimetria da distribuição utilizando apenas seus quartis:
• Se (Md - Q1) < (Q3 - Md) => assimetria à direita ou positiva;
• Se (Md - Q1) > (Q3 - Md) => assimetria à esquerda ou negativa;
• Se (Md - Q1) = (Q3 - Md) => distribuição simétrica

Sandra-CET060-18
ii) Cálculo dos percentis para dados brutos (não tabelados)

A posição do percentil de ordem i no conjunto de dados ordenado será definida como:


n
Pos i = i. , onde Posi = posição do percentil de ordem i; e n = freqüência total da distribuição.
100

1) Se Posi = valor inteiro, então o percentil é definido como a média dos valores que ocupam a
posição Posi e Posi + 1.

2) Se Posi = valor não inteiro, então o percentil é definido como o valor que ocupa a posição k + 1,
onde k = inteiro mais próximo que seja menor que Posi.

Exemplo 8: Calcule Q1 para o seguinte conjunto de dados:


21 23 18 25 24 28

1. Ordenar os valores: 18 21 23 24 25 28
2. Pos 25 = 25 (6/100) = 1,5 (valor não inteiro) ⇒ k = 1 e portanto o Q1 é o valor que ocupa a 2ª
posição na série ordenada.
3. Q1 = 21

iii) Determinação da Mediana de valores tabelados agrupados em classes:

Para dados agrupados em classes o elemento mediano é obtido através da fórmula Emd = n/2,
não se fazendo distinção entre número par ou ímpar de observações. Pelo elemento mediano é
encontrada a classe mediana e em seguida a mediana será calculada através da seguinte expressão:

O elemento mediano será sempre definido como:

E md =
∑ fi
, e a mediana por:
2

Md = l i + h
(E md − f ac . ant )
fi

onde,

li = limite inferior da classe mediana;


h = amplitude do intervalo de classe
Emd = elemento mediano
fac ant = frequência acumulada anterior à classe mediana
fi = frequência absoluta simples da classe mediana

Sandra-CET060-19
Exemplo: Carga anula de fósforo (lbs/ac/ano) nos rios.
Carga anual Nº de rios Fiac
(lbs/ac/ano)
0,0 |-- 0,4 5 5
0,4 |-- 0,8 10 15
0,8 |-- 1,2 4 19
1,2 |-- 1,6 2 21
1,6 |-- 2,0 1 22
TOTAL 22 ..
Encontre a mediana

Emd = 22/2 = 11
Md = 0,4 + 0,4 (11 – 5)/10 = 0,64

50% dos rios têm carga de fósforo inferior ou igual a 0,64 lbs/ac/ano e 50% deles têm carga de
fósforo superior ou igual a 0,64 lbs/ac/ano.

iii) Determinação do percentil (ou centil) de valores tabelados agrupados em classes:

Percentil ou centil: separatriz que divide um conjunto ordenado de dados em cem partes iguais.
Através desta separatriz encontramos todas as demais.
O elemento do percentil será sempre definido como:

E ci = i . ∑ i , i=1, 2, ... 99 . O percentil será definido por:


f
100

Ci = l i + h
(E ci − f ac . ant )
fi
onde,
li = limite inferior da classe do percentil i;
h = amplitude do intervalo de classe
Emd = elemento do percentil i
fac ant = frequência acumulada anterior à classe do percentil i
fi = frequência absoluta simples da classe do percentil i

Exemplo: Tabela de Freqüências


Medida Nº de
observações
154 |— 165 4
165 |— 176 5
176 |— 187 7
187 |— 198 5
198 |— 209 6
209 |— 220 5
Total 32
Sandra-CET060-20
a) Encontre o percentil : 25 e 95
b) Verifique a assimetria da distribuição

Ec25 = 25*32/100 = 8
C25 = 165 + 11 (8 – 4)/ 5 = 173,8
25% das observações têm valores inferiores ou iguais a 173,8 e 75% delas têm valores
superiores ou iguais a 173,8.

Ec95= 95*32/100 = 30,4


C95 = 209 + 11 (30,4 – 27)/ 5 = 216,5
95% das observações têm valores inferiores ou iguais a 216,5 e apenas 5% delas têm valores
superiores ou iguais a 216,5.

b) Ec75 = 24 Emd = 16
C75 = 203,5 Md = 187
(Md - Q1) < (Q3 - Md) (187 – 173,8) < (203,5 – 187) 13,2 < 16,5
Distribuição assimétrica à direita ou positiva

4. MEDIDAS DE DISPERSÃO

As medidas de dispersão servem para avaliar o grau de variabilidade dos valores de um conjunto
de dados. Estas medidas permitem estabelecer comparações entre fenômenos de mesma natureza ou
de natureza distinta e geralmente essa variabilidade é observada em torno de uma medida de
tendência central. Essas medidas podem ser absolutas ou relativas.

Exemplo: Duas máquinas foram reguladas para encher cada pacote de café com 500g. Com o
objetivo de verificar a regulagem dessas máquinas, um fiscal de área anotou o peso dos 5
primeiros pacotes produzidos por cada máquina e calculou o peso médio dos pacotes. Os
resultados encontram-se abaixo:

Máquinas Peso dos pacotes Peso


1° 2° 3° 4° 5° médio
A 500 497 498 500 495 498
B 490 500 505 510 495 500

Observando apenas o peso médio dos pacotes, poderíamos concluir que a máquina B
apresentou melhor desempenho do que A. Porém, quando observamos cada informação
separadamente, verificamos que o peso dos pacotes vindos da máquina A variou entre
495 e 500g, enquanto que o da B variou entre 490 e 510g. Isto quer dizer que a máquina
A enche os pacotes mais uniformente que a máquina B.

Sandra-CET060-21
4.1. Amplitude Total

Notação: AT = Amplitude Total

A amplitude total de um conjunto de números é a diferença entre o maior e o menor valor do


conjunto.

Exemplo: Calcular as amplitudes totais do exemplo anterior e identificar qual a máquina que
apresentou a menor dispersão no peso dos pacotes de café.

Resolução: A: AT = 500 - 495 = 5 gramas;


B: AT = 510 - 495 = 15 gramas;

A máquina A apresentou uma menor variabilidade nos pesos dos pacotes de café.

Observações:

1ª) A amplitude total é a medida mais simples de dispersão.


2ª) A desvantagem desta medida de dispersão é que leva em conta apenas os valores mínimo e
máximo do conjunto.
3ª) A amplitude total também sofre a influência de um valor "atípico" na distribuição (um valor
muito elevado ou muito baixo em relação ao conjunto).
4ª) A amplitude total para dados tabelados agrupados em classes só poderá ser calculada se houver
inclusão do menor valor da primeira classe e do maior valor da última classe.

4.2 Desvio Padrão

É uma medida que avalia a dispersão dos dados em torno de sua média.

4.2.1. Desvio Padrão simples

Definição: Sejam x1 , x2 ,..., xn , n valores que a variável X assume. O desvio padrão amostral é
definido como:
n
∑ ( xi − X )
2

i =1
S=
n −1

Exemplo: três grupos de dados


Grupo Amostra Média
1° 2° 3° 4°
A 0,80 1,00 0,75 0,65 0,80
B 0,95 0,80 0,73 0,72 0,80
C 0,71 0,81 0,90 0,78 0,80

Sandra-CET060-22
Resolução: Para A, utilizando a definição, temos:
∑ (x )
k 2
−X
(0 ,8 − 0 ,8 )2 + (1 − 0 ,8 )2 + (0 ,75 − 0 ,8 )2 + (0 ,65 − 0 ,8 )2
i 2

S = i =1
= = 0 ,15
n −1 4 −1

Para B: S = 0,11 ; para C: S = 0,08 . Com os valores encontrados para o desvio padrão, podemos
observar que o grupo C apresentou a menor dispersão em relação aos demais.

4.2.2. Desvio padrão ponderado

O desvio ponderado é para dados agrupados em classes onde a freqüência absoluta simples é
considerada como o fator ponderador.

∑ (x − X ) f
n
2
i i
i =1
S=
∑ f −1 i

Ex: Encontre o desvio padrão para o conjunto de dados abaixo.


Valores Nº de xi (xi- X )2 * fi
observações
0 |-- 2 27 1 349,92
2 |-- 4 16 3 40,96
4 |-- 6 34 5 5,44
6 |-- 8 17 7 97,92
8 |-- 10 16 9 309,76
TOTAL 110 - 804

508 804
X = = 4,6 S= = 7,376 = 2,7
110 110 − 1

4.3 Variância

Definição: A variância é o quadrado do desvio padrão.

Notação: s2

Observações:

i) O desvio padrão tem a unidade de medida igual a unidade de medida original da variável,
enquanto que a variância apresentará a unidade de medida elevada ao quadrado.

Sandra-CET060-23
ii) Ao trabalharmos com os dados de toda a população calculamos a variância e o desvio
padrão populacional dividindo por N (tamanho da população) e não por N-1.

4.4 Coeficiente de Variação de Pearson (CV)

Quando se deseja comparar a variabilidade de duas ou mais distribuições, mesmo quando essas se
referem a diferentes fenômenos e sejam expressas em unidades de medida distintas, podemos
utilizar o Coeficiente de Variação de Pearson (medida de dispersão relativa).

Definição: O coeficiente de variação para um conjunto de n observações é definido como o


quociente entre o desvio padrão e a média aritmética da distribuição.
S
CV =
X
É uma medida adimensional normalmente expressa em porcentagem.

Exemplo:

Turma Média aritmética Coeficiente de Variação


Desvio Padrão (%)
A 3,8575 0,8706 22,57
B 5,8725 0,4802 08,18

As medidas produzidas pela turma B são mais homogêneas, pois apresenta menor dispersão
relativa.

5. Boxplot

O Boxplot é um método alternativo para representar os dados. O Boxplot fornece


informações sobre as seguintes características de um conjunto de dados: locação, dispersão,
assimetria e outliers (observações discrepantes).

Boxplot

5
X
4

Sandra-CET060-24
O centro da distribuição é indicado pela linha da mediana. A dispersão é representada pela
altura do retângulo (Q3-Q1), o qual contém 50% dos valores do conjunto de dados. A posição da
linha mediana no retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica
teria mediana no centro do retângulo. Se a mediana é próxima de Q1 então os dados são
positivamente assimétricos. Se a mediana é próxima de Q3 os dados são negativamente
assimétricos.

Os valores fora de Q1–1.5(Q3-Q1) e Q3+1.5(Q3-Q1) geralmente são chamados de outside e


devem ser investigados como possíveis outliers.

Referências Bibliográficas

BUSSAB, Wilton O. e MORETTIN, Pedro A.. Estatística Básica.


TOLEDO, Geraldo L. e OVALLE, Ivo I.. Estatística básica. Ed. Atlas, São Paulo.
TRIOLA, Mario F. Introdução à Estatística.
Material de Aula da disciplina MAT236 (UFBA)

*************** ***************** ***************** *****************

1ª LISTA DE EXERCÍCIOS

1) Classifique cada uma das variáveis abaixo em qualitativa (nominal/ordinal) ou quantitativa


(discreta/contínua):
a) Ocorrência de hipertensão arterial (sim ou não são possíveis respostas para esta variável).
b) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de
“indeciso”).
c) Perda de peso de maratonistas na Corrida de São Silvestre, em quilos.
d) Intensidade da perda de peso de maratonistas na Corrida de São Silvestre (leve, moderada,
forte).
e) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente (valores de
0 a 5).

2) Uma indústria automobilística verificou que, nos últimos meses, ocorreu um aumento no número
de reclamações sobre a ocorrência de defeitos no suporte da lanterna traseira de um modelo de
automóvel por ela fabricado. A empresa desejava eliminar esta situação indesejável e para isto
iniciou estudos para melhorar resultados. Na etapa de identificação do problema, os técnicos da
indústria classificaram o número total de peças defeituosas encontradas em uma amostra de peças
produzidas durante uma semana de trabalho, segundo os tipos de defeitos que foram detectados. Os
dados obtidos são apresentados na tabela abaixo.

Defeitos encontrados em uma amostra de suportes da lanterna traseira


de um modelo de automóvel durante uma semana de produção de uma indústria.
Sandra-CET060-25
Tipo de defeito Quantidade de
defeitos
Moldagem solta 14
Solda quebrada 01
Centro da moldagem deslocado 04
Lateral da moldagem deslocada 24
Moldagem arranhada 01
Moldagem dentada 44
Plástico arranhado 07
Limpeza incompleta 79
Orifício deslocado 01
Pino deslocado 05
Total 180
a) Construa um gráfico adequado para esta série.
b) Identifique os tipos de defeitos que os técnicos da empresa deveriam “atacar” em primeiro
lugar, com o objetivo de melhorar os resultados que vinham sendo obtidos pela indústria.
Justifique sua resposta.

3) Uma empresa procurou estudar a ocorrência de acidentes com seus empregados, tendo, para isso,
realizado um levantamento abrangendo um período de 36 meses, onde foi observado o número de
operários acidentados para cada mês. Os dados correspondentes são:
1 2 2 3 3 3 3 4 4 4 4 4
5 5 5 5 5 5 5 6 6 6 6 6
6 7 7 7 7 7 8 8 8 9 9 10
a) Construa uma distribuição de freqüência adequada (obs: mantenha o valor das amplitudes de
classes com uma casa decimal);
b) encontre o intervalo inter-quartílico;
c) qual o percentual de acidentes ocorridos em menos de sete meses?
Resp: b) IQ = 7,4 – 4,2 = 3,2 c) 69,4%

4) Carga anual de nitrogênio (lbs/ac/ano) nos rios.


Carga anual Nº de rios
(lbs/ac/ano)
0 |-- 4 5
4 |-- 8 9
8 |-- 12 7
12 |-- 16 3
16 |-- 20 2

Determine:
a) A carga média de nitrogênio
b) a carga mediana de nitrogênio
c) Avalie a distribuição quanto à assimetria
d) O desvio-padrão
e) O coeficiente de variação
f) qual o percentual de rios com carga anual de nitrogênio superior ou igual a 8 lbs/ac/ano
g) 40% dos rios têm carga anual de nitrogênio superior a qual valor?
Resp:a) 8,2 b)7,6 c)ass. à direita d) 4,7 e) 57,3% f) 46,2% g) 8,9
Sandra-CET060-26
4) Contou-se o número de erros de impressão da primeira página de um jornal durante 16 dias,
obtendo-se os resultados abaixo:
08 11 08 12 14 13 11 14 14 05 06 10 14 13 06 12
a) Calcule o número médio de erros de impressão por primeira página;
b) Calcule a mediana;
c) Determine a moda;
d) a amplitude total
e) o desvio-padrão
resp: a) 10,7 b) 11,5 c) 14 d) 9 e) 3,2

5) Coloque V(verdadeiro) e F(falso) e justifique:


a) ( ) 50% dos dados de qualquer amostra situam-se acima da média;
b) ( ) Numa turma de 50 alunos onde todos tiraram a nota máxima, o desvio padrão é zero;
c) ( ) Quando queremos verificar a questão de uma prova que apresentou maior número de erros,
utilizamos a média;
d) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de
um conjunto de dados, a média aritmética fica adicionada (ou subtraída) dessa constante.
e) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos elementos
de um conjunto de dados, a média aritmética fica multiplicada (ou dividida) por essa constante.
f) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de
um conjunto de dados, o desvio padrão fica adicionado (ou subtraído) dessa constante.
e) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos elementos
de um conjunto de dados, o desvio padrão fica multiplicado (ou dividido) por essa constante.
Resp: a) F b) V c) F d) V e) V f) F g) V

6) Explique os dados da tabela abaixo. Encontre os percentis 25, 50 e 75 e explique os resultados.


Construa com os resultados um Box-plot e explique.

PROPORÇÃO DE DOMICÍLIOS COM ABASTECIMENTO AGUA DIARIO NA MICRO-AREA


(Programa Bahia Azul)
Proporção Freqüência Frequência Percentual Percentual
(min:0 ; max:1) absoluta acumulada (%) acumulado
,13 2 2 1,6 1,6
,33 5 7 4,0 5,6
,39 20 27 16,1 21,8
,48 5 32 4,0 25,8
,64 11 43 8,9 34,7
,67 5 48 4,0 38,7
,73 7 55 5,6 44,3
,76 9 64 7,3 51,6
,78 5 69 4,0 55,6
,82 6 75 4,8 60,5
,86 3 78 2,4 62,9
,88 4 82 3,2 66,1
,89 6 88 4,8 71,0
,91 6 94 4,8 75,8
,92 6 100 4,8 80,6
,94 9 109 7,3 87,9
,98 10 119 8,1 96,0
1,00 5 124 4,0 100
Total 124 - 100,0 -

Resp: P25 = 0,48 P50 = 0,76 P75 = 0,91


Sandra-CET060-27
7) Uma indústria de alimentos estava interessada em analisar seu processo de produção de
determinado alimento. Existem nesta indústria duas máquinas responsáveis pelo controlam o
processo de desidratação do alimento. Um importante item de controle do processo é a umidade do
produto final, que segundo as especificações, deve estar na faixa de 8,0% a 12%. Foi detectado
incapacidade do processo em atender às especificações. A equipe técnica suspeitava de que podia
haver diferenças na forma de funcionamento das duas máquinas de desidratação. Com o objetivo de
observar o funcionamento das máquinas foram feitas medidas do teor de umidade do produto final,
estratificadas por máquina de desidratação. Os resultados estão apresentados a seguir:

Máquina 1
11,7 11,8 12,1 10,7 11,7 10,9 10,7 11,6 12,5 10,7 11,5 11,1 11,2 11,2 11,8 11,2 11,0 11,7
12,1 10,9 11,7 11,3 11,5

Máquina 2
11,4 11,5 11,5 10,4 11,0 9,9 10,5 10,8 11,4 11,5 10,9 10,2 11,1 11,0 10,2 11,2 11,9 10,8
10,4 10,8 11,2 10,8 10,6

Para cada máquina calcule a média, a mediana, o intervalo inter-quartílico, o desvio padrão e o
coeficiente de variação. A partir das medidas obtidas compare o desempenho das duas máquinas
comentando os aspectos de posição e variabilidade dos dados.

Sandra-CET060-28