Você está na página 1de 44

1

UNIVERSIDADE FEDERAL DE UBERLÂNDIA


FACULDADE DE MATEMÁTICA

PROGRAMA INSTITUCIONAL DE BOLSAS DO ENSINO DE


GRADUAÇÃO - PIBEG

ESTATÍSTICA DESCRITIVA

COODENADOR: Prof. Dr. EDMILSON RODRIGUES PINTO


ORIENTADORA: Prof. Dra AURÉLIA APARECIDA DE ARAÚJO RODRIGUES
ALUNOS: GUILHERME BARROS AMELOTI
WILLIAM HENRIQUE PEREIRA GUIMARAES

UBERLÂNDIA, DEZEMBRO DE 2008


2

SUMÁRIO

INTRODUÇÃO ......................................................................................................................04
1 CONCEITOS FUNDAMENTAIS E DEFINIÇÕES...............................................05
2 TABELA......................................................................................................................06
2.1 ELEMENTOS DA TABELA.......................................................................................07
2.2 DISTRIBUIÇÃO DE FREQÊNCIA ............................................................................08
2.2.1 Conceitos Básicos.........................................................................................................09
3 GRÁFICOS .................................................................................................................13
3.1 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS CONTÍNUAS.......................14
3.1.1 Histograma ...................................................................................................................14
3.1.2 Polígono de Frequência ................................................................................................15
3.1.3 Gráfico da Frequência Acumulada Ou Ogiva ..............................................................15
3.1.4 Ramo – e – Folhas ........................................................................................................16
3.2 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS........................17
3.2.1 Gráfico de Bastões........................................................................................................17
3.2.2 Gráfico da Frequência Acumulada Ou Ogiva ..............................................................17
3.3 GRÁFICOS PARA VARIÁVEIS QUALITATIVAS..................................................18
3.3.1 Gráfico de Barras..........................................................................................................18
3.3.2 Gráfico de Colunas .......................................................................................................18
3.3.3 Gráfico de Setores ........................................................................................................19
3.3.4 Gráfico de Linhas .........................................................................................................19
4 MEDIDAS DESCRITIVAS.......................................................................................20
4.1 MEDIDAS DE TENDÊNCIA CENTRAL ..................................................................20
4.1.1 Média Aritmética..........................................................................................................21
4.1.2 Moda.............................................................................................................................23
4.1.3 Mediana ........................................................................................................................24
4.2 MEDIDAS SEPARATRIZES ......................................................................................25
4.3 MEDIDAS DE DISPERSÃO.......................................................................................28
4.3.1 Amplitude Total............................................................................................................29
3

4.3.2 Amplitude Interquartílica .............................................................................................30


4.3.3 Desvio Médio ...............................................................................................................30
4.3.4 Variância.......................................................................................................................31
4.3.5 Coeficiente de Variação ...............................................................................................34
4.3.6 Medidas de Assimetria .................................................................................................35
4.3.7 Medidas de Curtose ......................................................................................................38
4.4 Diagramas em Caixa (BOX-PLOT) .............................................................................39
BIBLIOGRAFIA....................................................................................................................44
4

INTRODUÇÃO

A Estatística é uma ciência cujo campo de aplicação estende-se a muitas áreas do


conhecimento humano. Entretanto, um equívoco comum que deparamos nos dias atuais é que, em
função da facilidade que o advento dos computadores nos proporciona, permitindo desenvolver
cálculos avançados e aplicações de processos sofisticados com razoável eficiência e rapidez,
muitos pesquisadores consideram-se aptos a fazerem análises e inferências estatísticas sem um
conhecimento mais aprofundado dos conceitos e teorias. Tal prática, em geral, culmina em
interpretações equivocadas e muitas vezes errôneas.
Em sua essência, a Estatística é a ciência que apresenta processos próprios para coletar,
apresentar e interpretar adequadamente conjuntos de dados, sejam eles numéricos ou não. Pode-
se dizer que seu objetivo é o de apresentar informações sobre dados em análise para que se tenha
maior compreensão dos fatos que os mesmos representam. A Estatística subdivide-se em três
áreas: descritiva, probabilística e inferencial. A estatística descritiva, como o próprio nome já diz,
se preocupa em descrever (organizar, resumir e apresentar) os dados, a probabilidade preocupa-se
com a construção de modelos aleatórios e a estatística inferencial, fundamentada na teoria das
probabilidades, se preocupa com a análise destes dados e sua interpretação.
A palavra estatística tem mais de um sentido. No singular se refere à teoria estatística e ao
método pelo qual os dados são analisados enquanto que, no plural, se refere às estatísticas
descritivas que são medidas obtidas de dados selecionados.
A estatística descritiva, cujo objetivo básico é o de sintetizar uma série de valores de mesma
natureza, permitindo dessa forma que se tenha uma visão global da variação desses valores,
organiza e descreve os dados por meio de tabelas, de gráficos e de medidas descritivas.
A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos são
formas mais claras de apresentação dos dados em tabelas, cujo objetivo é o de produzir uma
impressão mais rápida e viva do fenômeno em estudo.
Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou em
comparação com outras, é necessário expressar tais tendências através de números ou estatísticas.
Estes números ou estatísticas são divididos em duas categorias: medidas de posição e medidas de
dispersão.
Para se obter bons resultados numa análise estatística, além dos métodos aplicados, também
é necessário ter clareza nos conceitos utilizados. A seguir são apresentados alguns desses
conceitos.
5

1. CONCEITOS FUNDAMENTAIS E DEFINIÇÕES

A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população ou
de uma amostra, definida como:
População: conjunto de elementos que tem pelo menos uma característica em comum.
Esta característica deve delimitar corretamente quais são os elementos da população, que podem
ser animados ou inanimados.
Amostra: subconjunto de elementos de uma população. Este subconjunto, obviamente
deve ter dimensão menor que a população e seus elementos devem ser representativos. A seleção
dos elementos que irão compor a amostra pode ser feita de várias maneiras e irá depender do
conhecimento que se tem da população e da quantidade de recursos disponíveis. A tecnologia da
amostragem faz parte da estatística inferencial.
Em se tratando de conjuntos, estes podem ser:
Finitos: possuem um número limitado de elementos. Ex: A={ 1,2,3,4,5}.
Infinitos: possuem um número ilimitado de elementos, podendo ser numeráveis ou não.
Segundo Medronho (2003), elemento significa cada uma das unidades observadas no
estudo. Após a determinação dos elementos pergunta-se: o que fazer com eles? Pode-se medi-los,
observá-los, contá-los, surgindo um conjunto de respostas que receberá a denominação de
variável.
Variável: é a característica que vai ser observada, medida ou contada nos elementos da
população ou da amostra e que pode variar assumir um valor diferente para cada elemento do
conjunto de dados.
Existem dois tipo de variáveis:

a) Variáveis Quantitativas: são variáveis quem assumem como valores possíveis


números.
As variáveis quantitativas se dividem em:
• Variável contínua: assume como valores numéricos, em intervalos da reta real e.
Exemplo: peso: 60,5 kg e altura: 1,72 m
• Variável discreta: assume como possíveis valores numéricos inteiros são
resultantes da contagem de itens, formando um conjunto finito ou infinito numerável.
Exemplo: Número de calçados defeituosos em um lote.

b) Variáveis Qualitativas (ou categóricas): são variáveis quem assumem como valores
possíveis, qualidades ou atributos. As variáveis qualitativas são classificadas em:
• Variável nominal: as categorias não apresentam ordenação natural
Exemplo: Sexo: masculino ou feminino
Cor dos olhos: castanhos, verdes, azuis e outras.
• Variável ordinal: as categorias possuem ordenação natural.
Exemplo: Escolaridade: 1- ensino fundamental 2 - ensino médio 3 - ensino superior
Classe social: 1 – baixa 2 – média 3 - alta.
6

2- TABELA
É muito comum nos dias de hoje, devido ao uso de computadores, realizarem pesquisas em
que a coleta de dados resulta em grandes coleções (quantidades) de dados para análise e torna-se
quase impossível entendê-los, quanto ao(s) particular (es) objetivo(s) de estudo, se estes dados
não estiverem resumidos. Em outras palavras, os dados na forma em que foram coletados não
permitem, de maneira fácil e rápida, que se extraiam informações. Torna-se difícil detectar a
existência de algum padrão. A tabela é um procedimento muito útil para guardar informações.
Hoje em dia ,devido às grandes quantidades de dados, o uso de planilhas eletrônicas são de
fundamental importância na organização dos dados. Com o auxilio de uma planilha, todas as
variáveis podem ser resumidas através de uma tabela.

Tabela 01: Informação sobre sexo, idade (anos), altura (metros), peso (Kg),
estado civil, número de irmãos e meio de transporte dos alunos da disciplina Inferência
Estatística do curso de Estatística da UEM - 21/03/2005

Nº Sexo Idade Altura Peso Est.Civil Nº de Procedência Meio de


irmãos Transp.
1 F 20 1,60 58 Solteiro 1 Maringá Próprio
2 F 26 1,65 59 Solteiro 2 Fora do PR Coletivo
3 F 18 1,64 55 Solteiro 2 Maringá Próprio
4 F 25 1,73 60 Solteiro 2 Outro no PR Coletivo
5 M 35 1,76 83 Casado 6 Outro no PR Coletivo
6 F 20 1,62 58 Solteiro 2 Outro no PR Coletivo
7 F 29 1,72 70 Solteiro 3 Maringá Coletivo
8 M 23 1,71 62 Separado 2 Outro no PR Próprio
9 F 20 1,63 63 Solteiro 2 Maringá Próprio
10 M 20 1,79 75 Solteiro 2 Fora do PR Próprio
11 M 20 1,82 66 Solteiro 1 Fora do PR Próprio
12 F 30 1,68 46 Solteiro 3 Outro no PR Próprio
13 F 18 1,69 64 Solteiro 1 Maringá Próprio
14 M 37 1,82 80 Casado 2 Maringá Próprio
15 M 25 1,83 62 Solteiro 1 Outro no PR Próprio
16 F 20 1,63 68 Solteiro 2 Maringá Coletivo
17 M 21 1,71 80 Solteiro 2 Maringá Coletivo
18 M 25 1,80 82 Casado 1 Outro no PR Próprio
19 F 24 1,62 55 Solteiro 2 Maringá Próprio
20 M 19 1,74 58 Solteiro 2 Maringá Próprio
21 F 21 1,55 65 Solteiro 1 Maringá Próprio
22 M 22 1,73 62 Solteiro 0 Maringá Próprio
Fonte: Departamento de Estatística UEM. Apostila Terezinha
7

Tabela 02 : Área e produção agrícola no Brasil, 1997


Região Área, Produção, em
em milhões de km2 toneladas
Norte 3,858 2,2
Nordeste 1,549 6,8
Centro-oeste 1,602 20,0
Sul-Sudeste 1,503 49,3
Fonte: IBGE

2.1 ELEMENTOS DA TABELA

Os elementos fundamentais da tabela são: título, cabeçalho, coluna indicadora e corpo. O


título aponta o fenômeno, época e local de ocorrência; o cabeçalho explica o conteúdo das
colunas; a coluna indicadora detalha o conteúdo das linhas; o corpo mostra os dados.
Complementarmente, tem-se: fonte, notas e chamadas. A fonte cita o informante,
caracterizando a confiabilidade dos dados; as notas esclarecem o conteúdo e indicam a
metodologia adotada na obtenção ou elaboração da informação e as chamadas clarificam pontos
específicos da tabela.

A disposição de uma tabela pode ser generalizada como mostra a Tabela a seguir.

Tabela X – Tabela indicadora geral


Coluna indicadora Cabeçalho

Célula
Conteúdo da linha

Coluna
→ Traço Facultativo

Fonte: Origem dos dados. 144444444


42444444444
3
Nota: Informação esclarecedora. Corpo da Tabela

Destaca-se que as tabelas devem ser numeradas em ordem crescente ou em que aparecem
no texto, como é o caso de trabalhos científicos; as bordas superiores e inferiores devem ser
fechadas com traços horizontais enquanto às da esquerda e direita não, podendo ou não ser
fechadas por traços verticais a separação das colunas no corpo da tabela. É conveniente também
que o número de casas decimais seja padronizado.

Uma tabela contém as diferentes categorias observadas de uma variável qualitativa e suas
respectivas contagens, denominadas frequências absolutas. A contagem refere-se ao número de
ocorrências de cada categoria.
Quanto à classificação, uma tabela pode ser temporal, quando as observações são feitas
levando-se em consideração o tempo; geográfica, quando os dados referem-se ao local de
ocorrência; específica (ou categórica), quando tempo e local são fixos e comparativa, quando a
8

tabela resume informações de duas ou mais variáveis. A tabela comparativa é também


denominada tabela cruzada ou de dupla ou mais entradas.
Os nomes da coluna indicadora e cabeçalho podem ser escritos iniciando-se com letras
maiúsculas. Também é prática comum justificar à esquerda as diferentes categorias da variável
qualitativa que se apresentam no conteúdo das linhas, iniciando-se com letras maiúsculas e
podendo ser dispostas na ordem em que aparecem nos questionários, ordem alfabética ou ordem
decrescente de frequência absoluta.

Tabela 03 : Numero de alunos


formandos em Matemática
Ano Número de
formandos
( Fi)
2000 4
2001 3
2002 3
Fonte: Faculdade de Matemática – UFU
Nota: No ano de 2001, houve um aluno forma
em licenciatura e Bacharelado

É comum e útil na interpretação de tabelas a inclusão de uma coluna contendo as


frequências relativas e/ou relativas em percentual. A frequência relativa é obtida dividindo-se a
frequência absoluta de cada categoria da variável pelo número total de observações (número de
elementos da amostra ou da população). Multiplicando-se este resultado por 100, obtém-se a
frequência relativa (em percentagem).

Tabela 04: Distribuição de frequência dos dados de motocicletas


Fabricante Frequência Frequência relativa
Honda 41 0,36
Yamaha 27 0,23
Kawasaki 20 0,17
Harley-Davidson 18 0,16
BMW 9 0,08
Fonte: Desconhecida.

Segundo Barbetta et. al. (2004), as frequências relativas em percentual são úteis ao se
comparar tabelas ou pesquisas diferentes. Por exemplo, quando amostras (ou populações) têm
números de elementos diferentes, a comparação através das frequências absolutas pode resultar
em afirmações errôneas enquanto que pelas frequências relativas em percentual não, pois os
percentuais totais são os mesmos.

2.2 DISTRIBUIÇÃO DE FREQUÊNCIA

Como já foi mencionado no início deste capítulo, dependendo do volume de dados, torna-se
difícil ou impraticável tirar conclusões a respeito do comportamento das variáveis e, em
particular, de variáveis quantitativas.
9

Pode-se, no entanto, colocar os dados brutos (obtidos após a coleta dos dados) de cada uma
das variáveis quantitativas em uma ordem crescente ou decrescente, denominado rol. A
visualização de algum padrão ou comportamento continua sendo de difícil observação ou até
mesmo cansativa, mas torna-se rápido identificar maiores e menores valores ou concentrações de
valores no caso de variáveis quantitativas. Estes números (menor e maior valor observado)
servem de ponto de partida para a construção de tabelas para estas variáveis. Vale destacar que
para as variáveis qualitativas, pode-se também construir um rol em ordem temporal ou alfabética,
por exemplo.

2.2.1 Conceitos Básicos.

A – Dados Brutos

Conjunto de dados numéricos obtido após a coleta dos dados.


Exemplo: Idade, em anos, dos funcionários de uma empresa de computação.
24, 23, 22, 28, 35, 25, 34, 22, 23, 28

B – Rol

É o arranjo dos dados brutos em ordem crescente ou decrescente.


Para o exemplo anterior o rol, em ordem crescente, será:
22, 22, 23, 23, 24, 25, 28, 28, 34, 35

C – Amplitude Total (A)

É uma medida de dispersão e corresponde à diferença entre o maior e o menor valor


observado, ou seja,

A = xmax − xmin
Para o nosso exemplo, A = 35 − 22 = 13

D – Frequência Absoluta (Fi)

É o numero de vezes que o elemento xi aparece na amostra, ou o numero de elementos


pertencentes a uma classe.
Exemplo: Para o elemento x1 = 22 , F1 = 2

E – Distribuição de Frequência Pontual

É o arranjo dos valores e suas respectivas frequências. A construção de uma distribuição de


frequência pontual é equivalente à construção de uma tabela, se listam os diferentes valores
observados da variável, com suas respectivas frequências absolutas. Assim, a distribuição de
frequência para o exemplo será:
10

i xi Fi
1 22 2
2 23 2
3 24 1
4 25 1
5 28 2
6 34 1
7 35 1
7

∑ F = 10
i =1
i

Onde i corresponde à ordem dos dados, desconsiderando a quantidade de vezes que o


elemento repetiu.
Para o nosso exemplo, i = 1,2,3,...,7 ; x1 = 22, com F1 = 2 ... x7 = 35, com F7 = 1

F – Frequência Relativa (fi)


Fi
A frequência relativa é dada por: fi = ; onde n é a quantidade de dados observados, ou
n
seja, é a percentagem daquele valor no conjunto de dados.
Para o nosso exemplo, temos:

xi Fi fi
2
22 2 = 0,2
12

23 2 0,2
24 1 0,1
25 1 0,1
28 2 0,2
34 1 0,1
35 1 0,1
7 7

∑ F = 10
i =1
i ∑f
i =1
i = 1, 0
7
2
Observe que ∑f
i =1
i = 1, 0 . Note também que
10
= 0,2 , ou 20% das pessoas que trabalham

na empresa têm idade igual a 22 anos.

G – Frequência Absoluta Acumulada (Faci)

É a soma das frequências dos valores inferiores ou iguais ao valor considerado.


Também pode ser considerada a frequência relativa acumulada (faci), obtida, da mesma
forma quem Faci, ou seja, somando as frequências relativas inferiores ou iguais ao valor
considerado.
11

Faci
A frequência relativa acumulada também pode ser obtida como: faci =
n
Para o nosso exemplo temos:

xi F i fi Faci faci
22 2 0,2 2 0,2
23 2 0,2 4 0,4
24 1 0,1 5 0,5
25 1 0,1 6 0,6
28 2 0,2 8 0,8
34 1 0,1 9 0,9
35 1 0,1 10 1,0
∑ 10 1,0

Assim, podemos dizer quem 5 empregados, ou 50% dos empregados têm idade menor ou
igual a 24 anos.
Uma tabela contendo as frequências absolutas, relativas e acumuladas é dita uma
distribuição de frequências completa.
Segundo Milone (2004), em se tratando das frequências relativas em percentuais,
arredondamentos se fazem necessários e devem ser feitos de maneira convencional. Neste tipo de
aproximação opta-se sempre pelo menor erro. Por exemplo, se for necessário aproximar o
número 0,483 para a ordem do centésimo, erra-se menos subtraindo 0,003 que adicionando 0,007
ao valor 0,483, portanto a aproximação correta é 0,48. Se a aproximação for do número 0,4853
para a ordem do centésimo, então o erro menor será para a adição de 0,0047 e não para a
subtração de 0,0053, e a aproximação adequada é 0,49. Já no caso do número 0,485, o tamanho
do erro de aproximação é o mesmo que se obtém quando feita para mais ou para menos (0,005), e
neste caso, cabe ao usuário decidir qual aproximação é mais conveniente.
A soma de todas as frequências relativas percentuais deve ser igual a 1,0. Entretanto,
quando são feitas aproximações, tal fato pode não ocorrer. Para o caso em que a soma das
frequências relativas for menor que 1,0, soma-se uma unidade ao dígito de interesse das maiores
frequências relativas até que a soma seja 1,0. Se for maior que 1,0, deve-se subtrair uma unidade
das maiores frequências relativas. Agora, se ocorrem empates ou se as maiores frequências forem
números inteiros, é conveniente trabalhar com as outras frequências. O importante é que a
distribuição dos dados não seja alterada.

H – Distribuição de Frequência em Classes

A distribuição de frequências em classes é apropriada para apresentar dados quantitativos


contínuos ou discretos com um número elevado de valores. É necessário dividir os dados em
intervalos ou faixas de valores que são denominadas classes. Uma classe é um intervalo ao qual
são associadas frequências. O menor valor da classe é denominado limite inferior (li) e o maior
valor da classe é denominado limite superior (Li). Existem algumas maneiras de expressar os
limites das classes. Eis algumas:
12

a) li |---- Li, onde o limite inferior da classe é incluído na contagem da frequência absoluta,
mas o superior não;
b) li ------| Li, onde o limite superior da classe é incluído na contagem, mas o inferior não;
c) li |-----| Li, onde tanto o limite inferior quanto o superior são incluídos na contagem;
d) li ------ Li, onde os limites não fazem parte da contagem.

Pode-se escolher qualquer uma destas opções, sendo o importante tornar claro no texto ou
na tabela qual está sendo usada. A forma expressa em a) é a mais usada.
Exemplos:
a) a |---- b x ∈ classe ⇔ a ≤ x < b
b) a ----| b x ∈ classe ⇔ a < x ≤ b
c) a |----| b x ∈ classe ⇔ a ≤ x ≤ b
d) a ---- b x ∈ classe ⇔ a < x < b

Se houver muitos intervalos, o resumo não constituirá grande melhoria com relação aos
dados brutos. Se houver poucos, um grande volume de informação se perderá. Embora não seja
necessário, os intervalos são frequentemente construídos de modo que todos tenham amplitudes
iguais, o que facilita as comparações entre as classes.

I – Numero de Classes (k)

Não há uma fórmula exata para o cálculo do número de classes. Eis algumas sugestões:
a) Para n ≤ 25 , k = 5 ; para n > 25, k = n
b) Fórmula de Sturges: k ≅ 1 + 3,22 log n
c) k ≅ −1 + 2 ln(n)
Onde n é o número de elementos da amostra.
Deve-se lembrar que sendo k o número de classes, o resultado obtido por cada um dos
critérios deve ser o maior número inteiro obtido.
Milone (2004) acrescenta ainda que, adotando o princípio de que os agrupamentos devem
ter no mínimo cinco e no máximo 20 classes, o critério da raiz é valido para 25≤ n ≤400, o do log
para 16 ≤ n ≤ 572.237 e o do ln para 20 ≤ n ≤ 36.315.
Por outro lado, o pesquisador pode definir o número de classes baseando-se em sua
experiência.

J – Amplitude das Classes (h)

Determinado o número de classes da distribuição de frequências, o próximo passo é


determinar a amplitude de cada classe.
A amplitude de classe, h, é definida por:

A
h=
k
E assim todas as classes terão a mesma amplitude, o que permitirá a construção de gráficos
e cálculo de medidas descritivas.
13

O ponto médio da classe i é a média aritmética entre o limite inferior e o limite superior da
classe, ou seja:

li + L i
xi = , i = 1, 2 , ..., k
2
Exemplo: Seja a Classe
10 + 12
10 |---- 12 então xi = = 11
2

Estes valores são utilizados na construção de gráfico e na obtenção de medidas descritivas


com o auxílio de calculadoras.

Obs.: tanto h, quanto k devem ser aproximados para o maior inteiro mais próximo.

3- GRÁFICOS
Gráfico é um recurso visual da Estatística utilizado para representar um fenômeno. Sua
utilização em larga escala nos meios de comunicação social, técnica e científica, devem-se tanto à
sua capacidade de refletir padrões gerais e particulares do conjunto de dados em observação,
como à facilidade de interpretação e a eficiência com que resume informações dos mesmos.
Embora os gráficos forneçam menor grau de detalhes que as tabelas, estes apresentam um
ganho na compreensão global dos dados, permitindo que se aperceba imediatamente da sua forma
geral sem deixar de evidenciar alguns aspectos particulares que sejam de interesse do
pesquisador.
A escolha da representação gráfica e, conseqüentemente, a escolha do tipo de gráfico mais
adequado para representar um conjunto de dados deve ser feita com base nas respostas de
questões como:
- Um gráfico realmente é a melhor opção?
- Qual é o público-alvo?
- Qual é o objetivo do gráfico?
- Que tipo de gráfico deve ser usado?
- Como o gráfico deve ser apresentado?
- Que tamanho o gráfico deve ter?
- Deverá ser usado apenas um gráfico?
- A qual meio técnico se deve recorrer?

Uma representação gráfica coloca em evidência as tendências, as ocorrências ocasionais, os


valores mínimos e máximos e também as ordens de grandezas dos fenômenos que estão sendo
observados.
Todo gráfico, em sua versão final deve primar pela simplicidade, clareza e veracidade nas
informações. Para atingir tal objetivo, a construção de um gráfico exige muito trabalho e
cuidados.
O titulo do gráfico deve aparecer na parte inferior, precedido da palavra Gráfico Nº_ título
e/ou legenda explicativa.
Uma regra básica para elaboração adequada do título de qualquer gráfico é verificar se o
mesmo responde a três exigências: o quê, onde e quando.
14

Existem diversos tipos de gráficos. Porém, nesta monografia serão destacados aqueles de
maior interesse pedagógico na representação das variáveis qualitativas e quantitativas.

3.1 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS CONTÍNUAS

3.1.1 Histograma

É a representação gráfica de uma distribuição de frequência por meio de retângulos


justapostos.
No eixo horizontal são dispostos os limites das classes segundo as quais os dados foram
agrupados enquanto que o eixo vertical corresponde às frequências absolutas ou relativas das
mesmas.
Quando os dados são distribuídos em classes de mesma amplitude, Figura 01 (a), todas as
colunas apresentam bases iguais com alturas variando em função das suas frequências absolutas
ou relativas. Neste caso, tem-se que a área de cada retângulo depende apenas da sua altura
enquanto que no caso de dados agrupados em classes de dimensões diferentes, como mostra a
Figura 01 (b), a área de cada coluna já não é mais proporcional à sua altura. No caso em que as
classes possuem amplitudes diferentes o histograma é construído usando em lugar da frequência
f
absoluta relativa, a densidade de frequência (di) dada por di = i , onde fi é a frequência relativa
h
e h, a amplitude da classe. Observe que, desta forma, a área do retângulo, di × h , será igual à
frequência relativa ( f i = di × h) . Portanto, pode-se dizer que no primeiro caso, o eixo dos valores
informa sobre a frequência relativa de cada classe, no segundo caso, tal procedimento perde todo
significado, e é necessário comparar as áreas para interpretar as informações que são expostas.

Figura 01 – idade dos alunos da disciplina Inferência


Estatística do curso de Estatística da
UEM 21/03/2005
Fonte: Tabela 01
15

3.1.2 Polígono de frequência

É a representação gráfica de uma distribuição por meio de um polígono. Um gráfico de


linha cuja construção é feita unindo-se os pontos de coordenadas de abscissas correspondentes
aos pontos médios de cada classe e as ordenadas, às frequências absolutas ou relativas dessas
mesmas classes.
O polígono de frequência é um gráfico que deve ser fechado no eixo das abscissas. Então,
para finalizar sua elaboração, deve-se acrescentar à distribuição, uma classe à esquerda e outra à
direita, ambas com frequências zero. Tal procedimento permite que a área sob a linha de
frequências seja igual à área do histograma.
Uma das vantagens da aplicação de polígonos de frequências é que, por serem gráficos de
linhas, permitem a comparação entre dois ou mais conjuntos de dados por meio da superposição
dos mesmos.

12
10
8
6
fi

4
2
0
0 5 10 15 20 25 30 35 40 45
C las s es

Figura 02 - Polígono de frequência referente ao histograma da Figura 01 (a)


Fonte: Tabela 01

3.1.3 Gráfico da frequência acumulada ou Ogiva

É um gráfico que permite descrever dados quantitativos por meio da frequência acumulada.
A ogiva é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das
classes, e, ordenadas suas respectivas frequências acumuladas. Convém observar que o ponto
inicial desse gráfico é o limite inferior do primeiro intervalo, com frequência acumulada zero,
pois não existe qualquer valor inferior a ele.
Quando os dados contidos em cada classe são distribuídos uniformemente, pode-se estimar,
a partir da ogiva, o número de elementos pertencentes a qualquer uma das classes que compõe a
distribuição de frequência dos dados e a quantidade ou porcentagem de elementos que estão
abaixo de certo valor pertencente ao conjunto de dados.
Pela Figura 03, nota-se que não existem alunos com idade inferior a 18 anos enquanto que
abaixo de 34 anos existem vinte alunos.
Observe que também poderíamos ter usado a frequência relativa acumulada para construir
um gráfico semelhante à ogiva.
16

Figura 03 – Idade acumulada dos alunos da disciplina


Inferência Estatística do curso de Estatística
da UEM 21/03/2005
Fonte: Tabela 01

3.1.4 Ramo-e-Folhas

É uma forma simples de visualização dos dados, quando a quantidade de dados não for
muito grande. O Ramo-e-Folhas alem de fornecer uma distribuição de frequências ainda preserva
a magnitude dos valores. O diagrama Ramo-e-Folhas, criado por John Tukey, é um procedimento
utilizado para armazenar os dados sem perda de informação. É utilizado para se ter uma ideia
visual da distribuição dos dados. Cada valor observado, xi, da variável X, deve consistir de no
mínimo dois dígitos e a variável pode ser tanto quantitativa discreta como contínua.

Para construí-lo, divide-se cada número em duas partes. A primeira é denominada ramo e a
segunda, folhas. O ramo consistirá de um ou mais dígitos iniciais se o valor da variável for um
número inteiro e do número inteiro, se o valor da variável for um número com decimais. Nas
folhas, colocam-se os dígitos restantes se o valor observado for número inteiro, ou os decimais,
caso contrário.
Considere o conjunto de dados: 09, 10, 10, 11, 11, 18, 22, 23, 24, 32, 33, 64; para cada
valor o primeiro algarismo é colocado do lado esquerdo do traço vertical (ramo). O segundo
algarismo é colocado do lado direito do traço vertical (folhas). Assim o valor “32” fica
representado por 3 | 2. Os dados devem estar ordenados. Assim o ramo e folhas para o conjunto
de dados é:

0|9
1|018
2|234
3|23
4|
5|
6|4

Observe que 64 é um valor discrepante.


17

3.2 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS

3.2.1 Gráfico de Bastões

Este gráfico é formado por segmentos de retas perpendiculares ao eixo horizontal (eixo da
variável), cujo comprimento corresponde à frequência absoluta ou relativa de cada elemento da
distribuição. Suas coordenadas não podem ser unidas porque a leitura do gráfico deve tornar
claro que não há continuidade entre os valores individuais assumidos pela variável em estudo.

Figura 04 – Número de irmãos dos alunos da disciplina Inferência


Estatística do curso de Estatística da UEM 21/03/2005
Fonte: Tabela 01

3.2.2 Gráfico da Frequência Acumulada ou Ogiva

É um gráfico que permite descrever dados quantitativos por meio da frequência acumulada.
A ogiva é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das
classes e, ordenadas, suas respectivas frequências acumuladas. O ponto inicial do gráfico é limite
inferior do primeiro intervalo, com frequência igual a zero.

Figura 05 – Número acumulado de irmãos dos alunos da disciplina Inferência


Estatística do curso de Estatística da UEM 21/03/2005
Fonte: Tabela 01
18

3.3 GRÁFICOS PARA VARIÁVEIS QUALITATIVAS

3.3.1 Gráfico de barras

É um gráfico formado por retângulos horizontais de larguras iguais, onde cada um deles
representa a intensidade de uma modalidade ou atributo.
É recomendável que cada coluna conserve uma distância entre si de aproximadamente 2/3
da largura da base de cada barra, evidenciando deste modo, a não continuidade na seqüência dos
dados.
O objetivo deste gráfico é de comparar grandezas e é recomendável para variáveis cujas
categorias tenham designações extensas.

Fem
Sexo

Masc

0 1000 2000 3000 4000


freqüência

Gráfico 01: Formandos em Engenharias


segundo o sexo, Brasil, 1986

3.3.2 Gráfico de colunas

É o gráfico mais utilizado para representar variáveis qualitativas. Difere do gráfico de


barras por serem seus retângulos dispostos verticalmente ao eixo das abscissas sendo mais
indicado quando as designações das categorias são breves. Também para este tipo de gráfico
deve ser preservada a distância entre cada retângulo de, aproximadamente, 2/3 da largura da base
de cada coluna. O número de colunas ou barras do gráfico não deve ser superior a 12 (doze).

4000
3500
3000
freqüência

2500
2000
1500
1000
500
0
Masc Fem
Sexo

Gráfico 02: Formandos em Engenharias


segundo o sexo, Brasil, 1986
19

3.3.3 Gráfico de setores

Tipo de gráfico onde a variável em estudo é projetada num círculo, de raio arbitrário,
dividido em setores com áreas proporcionais às frequências das suas categorias. São indicados
quando se deseja comparar cada valor da série com o total. Recomenda-se seu uso para o caso em
que o número de categorias não é grande e não obedecem a alguma ordem específica.
A Figura 06 mostra um gráfico de setores para a variável município de procedência que
constam na Tabela 01. O procedimento para o cálculo do ângulo correspondente a cada categoria
é feito por meio de simples proporções: 360º que corresponde a um círculo completo está para o
total de alunos entrevistados, 22, assim como x está para o total de alunos que pertencem à
categoria desejada. Por exemplo, os 54% dos alunos (12) que residem no município de Maringá
corresponderá a um ângulo x resultante da expressão

360 º _________ 22
x __________ 12

Assim, x=196°

Figura 06 – Município de procedência dos alunos da disciplina


Inferência Estatística do curso de Estatística
da UEM 21/03/2005
Fonte: Tabela 01

3.3.4 Gráfico de linhas

Sua aplicação é mais indicada para representações de séries temporais sendo por tal razão,
conhecidos também como gráficos de séries cronológicas. Sua construção é feita colocando-se no
eixo vertical (y) a mensuração da variável em estudo e na abscissa (x), as unidades da variável
numa ordem crescente. Este tipo de gráfico permite representar séries longas, o que auxilia
detectar suas flutuações, tanto quanto analisar tendências. Também podem ser representadas
várias séries em um mesmo gráfico.
20

160

Mortes por câncer por 100 mil


150
140

pessoas
130
120
110
100
1935 1940 1945 1950 1955 1960 1965
Ano

Figura 07: Taxa de mortalidade por câncer (mortes por 100 mil
pessoas), de 1940 a 1960

4- MEDIDAS DESCRITIVAS
Outra maneira de se resumir os dados de uma variável quantitativa, além de tabelas e
gráficos, é apresentá-los na forma de valores numéricos, denominados medidas descritivas. Estas
medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros e se
calculadas a partir de dados amostrais são denominadas estimativas ou estatísticas.
As medidas descritivas auxiliam a análise do comportamento dos dados e Classificam-se
em: medidas de posição (tendência central e separatrizes), medidas de dispersão, medidas de
assimetria e curtose.

4.1 MEDIDAS DE TENDÊNCIA CENTRAL

Uma medida de tendência central ou de posição de um conjunto de dados mostra o valor em


torno do qual se agrupam as observações. Este valor tende a ser o centro da distribuição dos
dados. Reis (1998), afirma que: o valor a escolher depende das características dos dados. Por exemplo,
num estudo agrícola sobre a produção de trigo por hectare de terra arável podemos estar interessados em
conhecer o valor mais elevado da produtividade do solo agrícola das várias explorações analisadas. Num
outro estudo sobre os resultados de uma turma de estudantes universitários talvez seja mais interessante
conhecer o resultado médio obtido por 50% dos estudantes. Num outro estudo sobre os rendimentos per
capta dos países da América Latina, a comparação entre países será facilitada se calcularmos os
rendimentos médios de cada país.
A seguir, são definidas as principais medidas de tendência central: média, mediana e moda.
21

4.1.1 Média aritmética


__
A média aritmética ( X ) é a soma de todos os valores observados da variável dividida pelo
número total de observações. Sob uma visão geométrica a média de uma distribuição é o centro
de gravidade, representando o ponto de equilíbrio de um conjunto de dados. É a medida de
tendência central mais utilizada para representar a massa de dados.
Seja (x1, x2, ..., xn) um conjunto de dados com n observações. A média é dada por:

__ ∑x i
X= i =1

Para dados provenientes de uma amostra. Se x1, x2, ..., xn representam todos os valores de
uma população, de tamanho n, então usamos para representar a media populacional:

∑x i
μ= i =1
,
n
μ é chamado de parâmetro.
Se os dados estiverem classificados em uma distribuição de frequências com K classes, se xi
(i =1, 2, ..., k) são os pontos médios das classes, ou os diferentes valores observados (no caso de
uma variável discreta) e se Fi são as respectivas frequências absolutas, a media aritmética é dada
por:
k k

__ ∑x i ⋅ Fi ∑x i ⋅ Fi k
X = i =1
k
= i =1

n
, pois ∑F i =n
∑F
i =1
i
i =1

Observe que no caso de dados agrupados a média é obtida a partir de uma ponderação, onde
os pesos são as frequências absolutas de cada classe e xi é o ponto médio da classe i.
Propriedades da média aritmética:

1. a média é um valor que depende de todas as observações;


2. é única em um conjunto de dados e nem sempre tem existência real, ou seja, nem
sempre é igual a um determinado valor pertencente ao conjunto de dados;
3. a média aritmética é afetada por valores extremos observados;
4. por depender de todos os valores observados, qualquer modificação nos dados fará com
que a média fique alterada. Isto quer dizer que somando-se, subtraindo-se,
multiplicando-se ou dividindo-se uma constante a cada valor observado, a média ficará
acrescida, diminuída, multiplicada ou dividida desse valor.
22

∑ x ⋅c i
Exemplo: i =1
= c⋅ X
n
5. a soma da diferença de cada valor observado em relação à média é zero, ou seja, a soma
dos desvios em relação à media aritmética é zero.
n

n __ n __ n ∑x i

∑ (x
i =1
i − X ) = ∑ xi − n ⋅ X = ∑ xi − n ⋅
i =1 i =1
i =1

n
=0

A propriedade 5 é de grande importância para a definição de variância, uma medida de


dispersão a ser definida posteriormente.
Destaca-se, ainda, que, de acordo com a propriedade 3, observações discrepantes no
conjunto de dados fazem da média uma medida não apropriada para representar os dados. Neste
caso, não existe uma regra prática para a escolha de outra medida. O ideal é, a partir da
experiência do usuário, decidir pela moda ou mediana. Como exemplo, considere o número de
filhos, por família, para um grupo de 8 famílias: 0, 1, 1, 2, 2, 2, 3, 4. Neste caso, a média é X =
1,875 filhos por família.
Entretanto, incluindo ao grupo uma nova família com 10 filhos, a média passa a ser X =
2,788, o que eleva em 48,16% o número médio de filhos por família. Assim, ao observar a média,
pode-se pensar que a maior parte das famílias deste grupo tem três filhos quando, na verdade,
apenas uma tem três filhos. Veja o diagrama de pontos ilustrado na Figura 07

Figura 08

Exemplo 01:

As trincas em aço e ferro causadas por fadiga de corrosão cáustica estudada em decorrência
de falhas em rebites de caldeiras em aço e em rotores a vapor. Considere as observações a seguir
sobre x = comprimento da trinca ( μ m ) como resultado de testes de fadiga por corrosão devido a
cargas constantes em amostras de barras de tração lisas durante um período de tempo fixo. (Os
dados são consistentes com um histograma e as quantidades-resumo do artigo “On the Role of
23

Phosphorus in the Caustic Stress Corrosion Cracking of Low Alloy Steels”, Corrosion Science,
1989: 53-68 ).

16.1 09.6 24.9 20.4 12.7 21.2 30.2 25.8 18.5 10.3 25.3
23.3 24.2 14.6 08.9 32.4 11.8 28.5 14.0 27.1 45.0

__
16.1 + 09.6 + 24.9 + 20.4 + ... + 45.0 444.8
X= = = 21.18
21 21

Assim o comprimento médio de trincas nas ligas de aço e ferro é 21.18 μm .

4.1.2 Moda

A moda (Mo) é o valor que apresenta a maior frequência da variável entre os valores
observados. Para o caso de valores individuais, a moda pode ser determinada imediatamente
observando-se o rol ou a frequência absoluta dos dados. Por outro lado, em se tratando de uma
distribuição de frequência de valores agrupados em classes, primeiramente é necessário
identificar a classe modal, aquela que apresenta a maior frequência, e a seguir a moda é calculada
aplicando-se a fórmula:

h( Fi − Fi −1 ) h( Fi − Fi −1 )
Mo = li + ou Mo = li + .
( Fi − Fi −1 ) + ( Fi − Fi +1 ) 2 Fi − Fi −1 − Fi +1
Onde:

i é a ordem da classe modal;


li é o limite inferior da classe modal;
h é a amplitude da classe modal;
Fi é a frequência absoluta da classe modal;
Fi−1 é a frequência absoluta da classe anterior à classe modal;
Fi+1 é a frequência absoluta da classe posterior à classe modal.

É relevante salientar que um conjunto de dados pode apresentar todos seus elementos com a
mesma frequência absoluta, e neste caso não existirá um valor modal, o que significa que a
distribuição será classificada como amodal. Podem ocorrer, também, casos em que a seqüência
de observações apresente vários elementos com frequência iguais, implicando numa distribuição
plurimodal.
O uso da moda é mais indicado quando se deseja obter, rapidamente, uma medida de
tendência central. Outro aspecto que favorece a utilização da moda é que seu valor não é afetado
pelos valores extremos do conjunto de dados analisado.
24

Exemplo 02: A moda da idade dos alunos da disciplina Inferência Estatística do curso de
Estatística da UEM, determinada pontualmente, é Mo= 20 anos. Isto significa que a idade mais
freqüente entre estes alunos é de 20 anos.
Ao considerar a distribuição apresentada na Tabela 01, a moda é

h( Fi − Fi −1 ) 4 ⋅ (11 − 0) 44
Mo = l i + = 18 + 18 + = 18 + 2,75 = 20,75.
( Fi − Fi −1 ) + ( Fi − Fi +1 ) (11 − 0) + (11 − 6) 16

A interpretação é análoga à determinada pontualmente

4.1.3 Mediana

A mediana (Med) é o valor que ocupa a posição central da série de observações de uma
variável, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores
inferiores à mediana é igual à quantidade de valores superiores a mesma. Para o cálculo da
mediana , os dados devem estar ordenados de forma crescente.

Exemplo 03: Exemplo com número de filhos por famílias. Verifica-se que:

Se o número de dados é par (n é par) a mediana é a média aritmética dos dois valores
xn + xn
+1
centrais, ou seja: M ed = 2 2

2
Para o caso de oito famílias, n= 8, a mediana é determinada como a seguir:

x x1 x2 x3 x4 x5 x6 x7 x8
Valor Observado 0 1 1 2 x 4 + x5 2 2 3 4
2

Se o número de dados é impar (n é impar) a mediana é o valor central M ed = x n +1


2
Quando se acrescenta ao grupo outra família com 10 filhos o tamanho da amostra passa a
ser n = 9. Neste caso, a mediana é:

x x1 x2 x3 x4 x5 x6 x7 x8 x9
Valor Observado 0 1 1 2 2 2 3 4 10

Observe que nos dois casos, por coincidência, a mediana manteve-se a mesma, Med = 2,
significando que 50% das famílias possuem menos de 2 filhos ou 50% possuem mais de 2 filhos
observe que a mediana não é influenciada por valores extremos.
Este procedimento pode tornar-se inadequado quando o conjunto de dados for composto
por muitos elementos. Os passos a seguir indicam uma forma para o cálculo da mediana,
independentemente do tamanho da amostra.
Ordenar as observações em ordem crescente ou decrescente (rol).
Calcular a posição que a mediana ocupa no conjunto de dados.
25

Para os dados em distribuição de frequências em classes temos, em primeiro lugar, de


localizar a classe da mediana e depois aplicarmos a fórmula:

h n
Med = li + ( − Faci −1 ) , onde
Fi 2
h: é a amplitude da classe.
n: é o tamanho da amostra.
i: é a classe da mediana.
i −1
Faci −1 = ∑ Fj é a soma das frequências absolutas das classes inferiores à classe da mediana
j =1

(Frequência acumulada da classe anterior à classe da mediana).


Fi : é a frequência absoluta da classe da mediana.
li : é o limite inferior da classe da mediana (classe i).
A classe da mediana é aquela quem contém o elemento xn 2 .
Exemplo: Considere a seguinte distribuição de frequências em classes.

i Classes Fi Fai
1 157|----162 5 5
2 162|----167 15 20
3 167|----172 46 66
4 172|----177 24 90
5 177|----182 10 100

A classe da mediana é aquela que contém o elemento x100 = x50 , que pertence à terceira
2

classe, pois na primeira classe temos os elementos x1 até x5 ; na segunda, x6 até x 20 e na terceira,
x 21 até x66 , portanto x50 pertence a essa classe.
5 100
Assim, M ed = 167 + ( − 20) = 170.26
46 2

4.1 MEDIDAS SEPARATRIZES


QUARTIS

Os quartis dividem um conjunto de dados em quatro partes iguais.

25% 50% 75% 100%


|__________|__________|__________|__________|
Q1 Q2 Q3
Q 1 : é o valor que divide o conjunto de dados, de modo que 25% das observações são
menores ou iguais esse valor
26

Q 2 = Med: é o valor que divide o conjunto de dados, de modo que 50% das observações são
menores ou iguais a esse valor.
Q 3 : é o valor que divide o conjunto de dados, de modo que 75% das observações são
menores ou iguais a esse valor.
⎛ kn ⎞
h ⎜ − Faci −1 ⎟
Qk = li + ⎝ ⎠ , para k =1, 2, 3.
4
Fi
i: é a classe do quartil k.
li: é o limite inferior da classe i.
h: é a amplitude da classe do quartil k.
Fi: é a frequência absoluta da classe do quartil k.
n: é o numero de observações.
i −1
Faci −1 = ∑ F j é a frequência acumulada da classe anterior à classe do quartil k.
j =1

A classe do quartil k é aquela que contém o elemento x k ⋅n , k = 1, 2, 3.


4
Exemplo 04: Dada a seguinte distribuição de frequências em classes, determine: Q1, Q2 =
Med e Q3.

i Classes Fi Fai
1 7 |---- 17 6 6
2 17 |---- 27 15 21 ⎯
⎯→ classe de Q1
3 27 |---- 37 20 41 ⎯
⎯→ classe de Q2 = Med
4 37 |---- 47 10 51 ⎯
⎯→ classe de Q3
5 47 |---- 57 5 56
n = 56

Queremos determinar Q1, Q2, Q3.


A classe de Q1 é aquela quem contém o elemento x n = x 56 = x14 , logo, a segunda classe, 17
4 4

|----27, é a classe de Q1, pois esta contém os elementos x7 até x 21 . Assim,


1 ⋅ 56
10( − 6)
Q1 = 17 + 4 = 22,33.
15
A classe de Q2 = Med é a classe quem contém o elemento x 2 n = x n = x 56 = x 28 , logo a
4 2 4
terceira classe, 27 |---- 37, é a classe de Q2.
2 ⋅ 56
10( − 21)
Q2 = 27 + 4 = 30,5.
20
A classe de Q3 é aquela quem contém o elemento x 3n = x 3⋅56 = x 42 , logo a quarta classe, 37
4 4
|---- 47, é a classe de Q3.
27

3 ⋅ 56
10( − 41)
Q3 = 37 + 4 = 38 .
10
Assim, 25% dos dados ≤ 22,33
50% dos dados ≤ 30,50
75% dos dados ≤ 38 ou 25% dos dados ≥ 38.

DECIS:

Dividem o conjunto de dados em dez partes iguais.

10% 50% 90%


|_____|_____|_____|_____|_____|_____|_____|_____|_____|_____|
D1 D5 = Med D9

k ⋅n
h( − Faci −1 )
O Decil DK é dado por: Dk = li + 10 , para k = 1, 2, 3, ..., 9.
Fi
i: é a classe do decil k, e é aquela que contém o elemento x k ⋅n , para k = 1, 2, ..., 9.
10
Neste caso, a mediana corresponde ao decil 5, D5. A interpretação é a mesma quem a dos
quartis, por exemplo, para o decil 3, D3, temos quem 30% das observações são inferiores a esse
valor, e obrigatoriamente, 70% são superiores.

PERCENTIS:

Dividem o conjunto de dados em 100 partes iguais.

1% 2% ... 98% 99%


|___|___|___________________________________________________|___|
P1 P2 P98 P99

k ⋅n
h( − Faci −1 )
O percentil Pk é dado por: Pk = li + 100 para k = 1, 2, ..., 99.
Fi
i: é a classe do percentil k, e é aquela q contém o elemento x k ⋅n , para k = 1, 2, 3, ..., 99.
100

SEPARATRIZES PARA DADOS EM ROL:

Este procedimento é adequado quando o conjunto de dados for composto de muitos


elementos. A medida separatriz de ordem k é dada por:

S k = x I P + F p ( x I P +1 − x I P )
28

onde Ip é a parte inteira de p e Fp a parte fracionária (ou decimal).

x I P é o elemento que está na I P -ésima posição e


k
a) p = (n + 1), com k = 1, 2, 3 para a determinação dos quartis;
4
k
b) p = (n + 1), com k = 1, 2, 3, ...,9 para determinação dos decis;
10
k
c) p = (n + 1), com k = 1, 2, 3, ..., 99 para a determinação das percentis.
100

Exemplo: considere o conjunto com n = 22 observações, organizadas em rol.

18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37

a) calcule o terceiro quartil Q3

3
Q3 = S3 ; p = (22 + 1) = 17, 25 , assim I p = 17 e Fp = 0, 25 , logo
4

Q3 = S3 = x17 + 0, 25( x18 − x17 ) = 25 + 0, 25(26 − 25) = 25, 25

Desta forma, pode-se dizer que 75% das observações é inferior a 25,25.

b) calcule o quadragésimo percentil (P40)

40
P40 = S40 ; p= (22 + 1) = 9, 2 , assim I p = 9 e Fp = 0, 20
100

P40 = S40 = x9 + 0, 20( x10 − x9 ) = 20 + 0, 20(21 − 20) = 20, 20

Portanto, 40% das observações é inferior a 20,20.

4.3 MEDIDAS DE DISPERSÃO

De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas caracterizam-
se por suas semelhanças e variabilidades. As medidas de dispersão auxiliam as medidas de
tendência central a descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou
não, próximos uns dos outros.
Considere os seguintes conjuntos de dados

A={5,5,5,5,5} → X = 5
29

__
B={3,4,5,6,7} → X = 5

__
C={13,14,15,16,17} → X = 15

__
D={1,3,5,7,9} → X = 5

__
E={3,5,5,5,7} → X = 5

__
F={3,3,4,4,5,5,6,6,7,7} → X = 5
30

Note que a média aritmética dos elementos do conjunto c é 15 e para todos os demais
conjuntos a media aritmética é 5.
Com base no simples exame desses conjuntos, podemos fazer as seguintes afirmativas,
relativas à dispersão dos valores dos elementos de cada conjunto.
1) O conjunto A apresenta dispersão nula;
2) Os conjuntos B e C apresentam a mesma dispersão, só diferindo quanto à média.
3) A dispersão de D é maior do que a dispersão de B e ainda, como para o conjunto D a
diferença entre dois valores consecutivos é sempre igual a 2 e para o conjunto B é
sempre igual a 1, pode-se dizer que a dispersão de D é, em certo sentido igual ao dobro
da dispersão de B.
4) A dispersão de E é maior do que a dispersão de A e menor do que a dispersão de B.
5) O conjunto F apresenta a dispersão igual à de B, pois esses conjuntos só diferem quanto
ao numero de elementos (F é uma duplicação de B).
Assim, para caracterizar um conjunto de dados, devemos associar a uma medida de
tendência central uma medida de dispersão. Uma medida de dispersão é uma indicação da
aglomeração das medidas dos dados em torno do centro da distribuição.

4.3.1 Amplitude Total

E a diferença entre o maior valor e o menor valor observado.


A = xmax − xmin
Amplitude total é zero para o conjunto A, 4 para os conjuntos B, C, E e F e 8 para o
conjunto D. Nota-se que os valores da amplitude não obedecem à quarta afirmativa, pois tais
valores indicam, erroneamente, que os conjuntos B e E apresentam o mesmo grau de dispersão.
Isso acontece porque a amplitude só leva em consideração os valores extremos, desconsiderando
os valores intermediários e, portanto, perde a informação de como os dados estão distribuídos
e/ou concentrados.
Uma boa medida de dispersão deve levar em consideração todos os dados e não apenas o
maior e o menor valor observado.

4.3.2 Amplitude Interquartílica

A amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Esta medida é


mais estável que a amplitude total por não considerar os valores mais extremos. Abrangendo 50%
dos dados, sendo muito útil para detectar valores discrepantes.

d q = Q3 − Q1

A outra medida usada é a amplitude semi-interquartílica que é definida como a média


aritmética da diferença entre a mediana e os quartis:
31

(Q3 − Q2 ) + (Q2 − Q1 ) (Q3 − Q1 )


d qm = =
2 2

Exemplo 05: A amplitude interquartílica da idade dos alunos que cursam a disciplina
Inferência Estatística do curso de Estatística da UEM considerando-se a Tabela 01 é:

d q = 25,67 − 20 = 5,67

4.3.3 Desvio-médio

Outra medida de dispersão poderia ser a soma das diferenças dos valores dos conjuntos de
dados em relação à sua média. Entretanto, para um conjunto de dados, x1, ..., xn, temos que:
__ __ __ n __
( x1 − X ) + ( x 2 − X ) + ... + ( x n − X ) = ∑ ( xi − X ) = 0.
i =1
Portanto, a soma dos desvios não serve como uma medida de dispersão. Desta forma,
vamos considerar os desvios absolutos xi − X , mas se o numero de dados for grande o desvio
também será grande, assim uma medida adequada é a média dos desvios absolutos, que iremos
chamar de desvio médio, Dm. Assim,
n

∑ x −X i
Dm = i =1

n
Caso os dados estejam apresentados segundo uma distribuição de frequência, tem-se:
n __

∑| x i −X|
Dm = i =1

n
__
Para o conjunto B={3,4,5,6,7}, X = 5

__
xi __
xi - X xi − X

3 -2 2
4 -1 1
5 0 0
6 1 1
7 2 2
∑ 0 6
6
Dm =
= 1,2
5
O desvio médio, apesar de fácil de entender, não é muito usado como medida de dispersão,
porque não apresenta boas propriedades matemáticas (devido à função módulo).
32

4.3.4 Variância

Uma medida de dispersão que tem propriedades matemáticas melhores que o desvio médio
é a variância.
No cálculo da variância, os desvios são tomados ao quadrado e não em módulos, ou seja,
n __

∑ (x
i =1
i − X )²

A soma dos quadrados dos desvios também cresce com o número de dados. Assim
tomamos a variância (S²) como,
n __

∑ ( xi − X )
S² = i =1

n −1
No caso dos dados estarem agrupados em uma distribuição de frequências, a cada valor
distinto ou valor central da classe (xj com j=1, ..., k) deve ser ponderado pela respectiva
frequência, assim,
k __

∑ (x
j =1
j − X )² ⋅ F j
S² =
n −1

Note:
2
⎛ n ⎞
n n __ n n n n ⎜ ∑ xi ⎟
( xi − X )² = ∑ xi ² − 2 X ∑ xi + n( X )² = ∑ xi ² − 2n( X )² + n( X )² = ∑ xi ² − n( X )² = ∑ xi ² − ⎝ i =1 ⎠
__ __ __ __ __


i =1 i =1 i =1 i =1 i =1 i =1 n

Assim, a variância pode ser também dada por:


2
1⎛ n ⎞
n


i =1
x − ∑ xi
n ⎜⎝ i =1 ⎟⎠
2
i
S² =
n −1
Da mesma forma, para dados agrupados em uma distribuição de frequências com k classes
2
k
1⎛ k ⎞
∑ x F 2
j
j − ⎜ ∑ x j Fj ⎟
n ⎝ j =1
S² =
j =1 ⎠
n −1
No caso do conjunto de dados ser formado por todos os elementos de uma população, a
n

∑ (x i − μ )²
média é denominada μ e a variância é dada por σ ² = i =1
, onde n é o tamanho da
n
população. As outras expressões para a variância seguem de forma análoga.

Exemplo 06: Calcule a variância da amostra 2, 4, 6, 8, 10.


___
Temos que: X = 6 , n = 5
33

xi __ __ __
X ( xi − X ) ( xi − X )²
2 6 -4 16
4 6 -2 4
6 6 0 0
8 6 2 4
10 6 4 16
5 __

∑ (x i − X )²
40
Assim, S ² = i =1
= = 10
5 −1 4
Desvio Padrão

É por definição a raiz quadrada da variância.

S = S²
Note que o desvio padrão tema mesma unidade dos dados, o que facilita sua interpretação,
ao contrario da variância cujas unidades são quadradas.
Para o exemplo anterior, S = 10 ≅ 3,16
Exemplo 07: Calcule a variância do seguinte conjunto de dados

Classe xi Fi
0 |--- 10 5 2
10 |--- 20 15 1
20 |--- 30 25 5
30 |--- 40 35 8
40 |--- 50 45 4
20

k k
Vamos calcular ∑ xi Fi e
i =1
∑x F
i =1
2
i i

Classe xi Fi xi.Fi xi² xi².Fi


0 |--- 10 5 2 10 25 50
10 |--- 20 15 1 15 225 225
20 |--- 30 25 5 125 625 3125
30 |--- 40 35 8 280 1225 9800
40 |--- 50 45 4 180 2025 8100
20 610 21300

2
5
1⎛ 5 ⎞
∑ xi ²Fi − ⎜ ∑
n ⎝ i =1
xi Fi ⎟
⎠ =
1
21300 − (610)²
Assim, S ² = i =1 20 = 141,84 ⇒ S = 141,84 = 11,91
n −1 19

Comentários:
34

1) Tanto a variância quanto o desvio padrão fornecem informações complementares à


informação contida na média.
2) Variância e desvio padrão “grandes” implica que podemos dizer que os dados estão
muito dispersos e, desta forma, a média não está dando boa representatividade para os
dados.
3) Ambas as medidas de dispersão, desvio padrão e desvio médio, indicam qual será o
“erro” (desvio) cometido ao tentar substituir cada observação pela medida resumo do
conjunto de dados (no caso, a média aritmética).
4) É importante destacar que, se duas populações apresentam a mesma média, mas seus
desvios padrão são diferentes, isto significa que as populações não têm o mesmo
comportamento.

Exemplo 08: Considere três alunos cujas notas em uma disciplina estão apresentadas na
Tabela abaixo.
Observa-se que as médias das notas dos três alunos são iguais, porém, seus desvios em
torno da média são diferentes. Isto quer dizer que seus desempenhos são diferentes. O aluno A é
constante em seu desempenho, o segundo vai progredindo aos poucos e o terceiro diminui
abruptamente seu desempenho. Em outras palavras, apesar dos três alunos terem o mesmo
desempenho médio, a variabilidade difere.

Aluno Prova Prova Prova Prova Prova X xi − X Dm


(x − X ) S² S
2
i
1 2 3 4 5
A 8,0 8,0 8,0 8,0 8,0 8,0 0,0 0,0 0,0 0,0 0,0
B 6,0 6,0 8,0 10,0 10,0 8,0 8,0 1,60 16,0 4,0 2,0
C 10,0 10,0 10,0 5,0 5,0 8,0 12,0 2,40 30,0 7,50 2,74

Como demonstrado no exemplo, geralmente, o desvio padrão é maior ou igual ao desvio


médio, e isto devido ao fato de que para o cálculo do desvio-padrão cada desvio em torno da
média é elevado ao quadrado, aumentando desproporcionalmente o peso dos valores extremos.

Exemplo 09: Retomando a idade dos alunos apresentada na Tabela 01, temos:

20 − 23,8 11 + ... + 36 − 23,8 2


Desvio médio: Dm = = 3,82 anos
22

( 20 − 23,8) 11 + ... + ( 36 − 23,8 ) 2


2 2

Variância: S 2
= = 23, 63 anos
22 − 1

Desvio padrão: S = 23, 63 = 4,86 anos.

4.3.5 Coeficiente de Variação (CV)


35

O coeficiente de variação representa uma forma de verificar o quanto o desvio padrão está
afastado da média, corresponde a uma medida de dispersão relativa, definida como a razão entre
o desvio padrão e a média:

S
CV =
X

A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados


e, conseqüentemente, se a média é uma boa medida para representar estes dados. O CV é útil para
a comparação, em termos relativos, do grau de concentração em torno da média de conjuntos de
dados distintos.
Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média
está próxima de zero. Uma média muito próxima de zero pode inflacionar o CV.
Um coeficiente de variação superior a 50% sugere alta dispersão o que indica
heterogeneidade dos dados. Quanto maior for este valor, menos representativa será a média.
Neste caso, opta-se pela mediana ou moda, não existindo uma regra prática para a escolha de uma
destas medidas. O usuário, com sua experiência, é que deverá decidir por uma ou outra. Por outro
lado, quanto mais próximo de zero for o CV, mais homogêneo é o conjunto de dados e mais
representativa será sua média.
Observe que o CV é uma medida quem não possui dimensão.

Exemplo 10: Numa empresa, o salário médio dos homens é de R$ 4.000,00 com desvio
padrão de R$ 1.500,00 e o das mulheres é, em média, de R$ 3.000,00 e com desvio padrão de R$
1.200,00 . Compare os salários dos homens e o das mulheres.

Notamos que o salário médio das mulheres é inferior ao salário médio dos homens. Vamos
verificar a dispersão.
1500
- Para os homens: CVh = = 0,375 = 37,5%
4000
1200
- Para as mulheres: CVm = = 0,40 = 40%
3000
Conclusão: os salários das mulheres são em media menos e apresentam maior dispersão
relativa que o dos homens.
Comentário: alguns analistas consideram que:
- CV ≤ 15% indica baixa dispersão, com boa representatividade da media.
- 15% ≤ CV ≤ 30% indica média dispersão
- CV ≥ 30% indica alta dispersão
Quanto menor for o CV maior será a representatividade da média.

4.3.6 Medidas de Assimetria

A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir


uma distribuição de frequências e/ou um histograma, está-se buscando, também, identificar
visualmente, a forma da distribuição dos dados. Uma função f(x) é simétrica em relação a um
valor a se f (a − x) = f (a + x) ∀x e seu gráfico no caso de uma função contínua, tem a forma
36

Como exemplo de uma distribuição simétrica, considere o conjunto de dados disposto em


uma distribuição de frequência

xi Fi
1 1
2 2
3 5
4 2
5 1

O gráfico associado a essa distribuição de frequência é:

___
Observe que X = 3 , Mo = 3 , M ed = 3

___
Em uma distribuição simétrica X = M ed = Mo
Considere agora a seguinte distribuição de frequência

xi Fi
1 5
2 3
3 2
4 1
5 1
37

6 1
___
Onde X = 2,5 , Mo = 1 , M ed = 2, 0
O gráfico associado a essa distribuição de frequência é:

Dizemos nesse caso que a distribuição é assimétrica à direita, pois a distribuição possui a
___
extremidade à direita mais alongada. Em uma distribuição assimétrica à direita, Mo < M ed < X .
Essa distribuição às vezes é denominada positivamente assimétrica.
Considere ainda outro conjunto de dados com a seguinte distribuição de frequência

xi Fi
1 1
2 1
3 1
4 2
5 3
6 5
___
Aqui, X = 4,5 , M ed = 5 , Mo = 6
O gráfico associado a essa distribuição de frequência é:

Dizemos nesse caso que a distribuição é assimétrica à esquerda, pois a distribuição tem a
extremidade à esquerda mais alongada. Em uma distribuição assimétrica à esquerda
___
X < M ed < Mo . Essa distribuição também é chamada de negatividade assimétrica.
38

No caso de termos uma variável continua as relações entre a média, moda e mediana são as
mesmas. Neste caso termos que o histograma pode ser simétrico, assimétrico à direita ou à
esquerda.

Coeficientes de Assimetria

Constitui em um modo formal de classificarmos uma distribuição de acordo com a simetria


ou assimetria.

Primeiro coeficiente de Pearson

Quando dispomos da media, moda e desvio padrão, o primeiro coeficiente de Pearson é


dado por:
X − Mo
As =
S

Segundo coeficiente de Pearson

Para calcular o segundo coeficiente de Pearson é necessário somente o conhecimento do


quartis.
Q + Q1 − 2M ed
As = 3
Q3 − Q1

A interpretação dos coeficientes de Pearson é a seguinte:


- Se As = 0 , a distribuição é simétrica;
- Se As > 0 , a distribuição é assimétrica à direita (positiva assimétrica);
- Se As < 0 , a distribuição é assimétrica à esquerda (negativa assimétrica)

4.3.7 Medidas de Curtose

A medida de curtose mede o grau de achatamento de uma distribuição, correspondendo a


um indicador da forma dessa distribuição.
A curtose ou achatamento é uma medida com a finalidade de complementara caracterização
da dispersa em uma distribuição. Esta medida quantifica a concentração ou dispersão dos valores
de um conjunto de dos em relação às medidas de tendência central em uma distribuição de
frequências.
Uma distribuição é classificada quanto ao grau de achatamento como:
Leptocúrtica: quando a distribuição apresenta uma curva de frequência bastante fechada,
com os dados fortemente concentrados em torno de seu centro.
39

Mesocúrtica (normal): quando os dados estão razoavelmente concentrados em torno do


seu centro.

Platicúrtica: quando a distribuição apresenta uma curva de frequência mais aberta, com os
dados fracamente concentrados em torno de seu centro.

Esses gráficos podem ser comparados como:

O grau de achatamento é considerado em relação a uma distribuição normal (mesocúrtica).


O coeficiente de curtose é dado por:
Q3 − Q1
K= , onde
2( P90 − P10 )

P90 é o 90º percentil e P10 é o 10º percentil.


A interpretação do coeficiente de curtose é a seguinte:
40

- Se K = 0,263 a distribuição é normal (mesocúrtica);


- Se K > 0,263 a distribuição é platicúrtica;
- Se K < 0,263 a distribuição é leptocúrtica.

4.4 Diagramas em caixa (Box-Plot)

O gráfico Box-Plot (ou desenho esquemático) é uma analise gráfica que utiliza cinco
medidas estatísticas, e por isso é conhecido como esquema dos cinco números: xmin, Q1, Med, Q3,
xmáx. O diagrama em caixa (Box-Plot) é uma representação gráfica que descreve simultaneamente
varias características importantes de um conjunto de dados, tais como centro (posição), dispersão,
desvio da simetria, identificação de pontos discrepantes (aoutliers) e para detectar diferenças
descritivas no comportamento de grupos de variáveis.
Para a construção do Box-Plot, traça-se dois retângulos, um representando o espaço entre
Q1 e a mediana e outro entre a mediana e Q3.
Estes dois retângulos, em conjunto, representam a faixa dos 50% valores mais típicos da
distribuição. Entre os quartis e os extremos traça-se uma linha. A linha é traçada até o ultimo
valor não-discrepante. Caso existam valores discrepantes, alem de Q3 + 1,5dq ou antes de
Q1 − 1,5dq , esses valores devem ser indicados por pontos no gráfico.

Figura 09 – Representação esquemática de um gráfico Box Plot

A Figura 09 mostra o desenho esquemático do Box-Plot. Note que existem dois pontos
discrepantes, xm,e xmáx e que a linha vertical (traço) é traçada até o último valor não-discrepante
xmín e xk.

Comentários:
41

1- Os diagramas em caixa (Box-Plot) podem ser traçados horizontalmente ou


verticalmente.
2- xmáx e xmín podem ou não ser pontos discrepantes (outliers). Na Figura 09 xmáx é ponto
discrepante, mas xmin não.
3- Observe que os traços saindo dos quartis vão até os pontos mais extremos não
discrepantes, ou seja, que não ultrapassam LI = Q1 − 1,5dq ou LS = Q3 + 1,5dq . Pontos
maiores que esses valores não são ligados por esta reta, são representados como pontos
e tratados como pontos discrepantes.
4- Os quartis mostram a dispersão da metade central dos dados, e os extremos mostram a
dispersão de todo o conjunto de dados.
5- O espaçamento dos quartis e dos extremos dão uma indicação da simetria ou assimetria
da distribuição.
O comentário 5 pode ser visualizado como:

a) Distribuição simétrica

b) Distribuição assimétrica à direita

c) Distribuição assimétrica à esquerda


42

Exemplo 11:A construção do gráfico Box Plot pode ser exemplificada tomando-se a
variável idade da Tabela 01. Sua elaboração segue os seguintes passos:
Ordenar os dados em seqüência crescente.

N=22;
Med=21,50;
Q1=20;
Q3=25,25;
dq=Q3 – Q1=25,25 – 20=5,25
Li=Q1 – 1,5dq= 20 – 1,5. 5,25 =12,125
Ls = Q3 + 1,5dq = 25,25 + 1,5. 5,25 = 33,125

Construir uma escala com valores que incluam os valores máximo e mínimo dos dados.

Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no
valor da mediana.

Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior Li e
a outra no centro do lado do retângulo correspondente ao primeiro quartil. Trace outra linha
43

paralela à reta, com uma extremidade no centro do lado do retângulo correspondente ao terceiro
quartil e a outra alinhada com o limite máximo Ls.

Identificar os pontos discrepantes

Figura 10 - Idade dos alunos da disciplina Inferência Estatística do curso


de Estatística da Universidade Estadual de Maringá.
FONTE: Tabela 01.
No conjunto de dados não existe aluno com idade inferior ao limite inferior 12,125, ou seja,
não há aluno com idade considerada discrepante inferiormente. Entretanto, existem dois
indivíduos cujas idades são superiores ao limite superior 33,125, pontos estes considerados
discrepantes neste conjunto de dados: as idades 35 e 37. Estes pontos são identificados no
diagrama de caixas por meio de um asterisco.
Note que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos
quais, 25% estão entre a linha da mediana e a linha do primeiro quartil e os outros 25% estão
entre a linha da mediana e a linha do terceiro quartil. Cada linha da cauda mais os valores
discrepantes contêm os 25% restantes da distribuição. A Figura 09 mostra que a distribuição das
idades dos alunos e apresenta assimetria positiva.
44

BIBLIOGRAFIA
BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. Florianópolis: Editora da UFSC,
1998.
BARBETTA, Pedro A.; REIS, Marcelo M. e BORNIA, Antonio C. Estatística para cursos de
Engenharia e informática. São Paulo: Editora Atlas S.A., 2004
BUSSAB, W. O. e MORETTIN, P. A. Estatística Básica. São Paulo: Editora Saraiva, 2003.
MAGALHÃES, M. N. e LIMA, A. C. P.de. Noções de Probabilidade e Estatística. São Paulo:
IME-USP, 2000.
MEDRONHO, R. A., CARVALHO, D.M.de, BLOCH K.V., LUIZ, R.R. E WERNECK, G.L.
Epidemiologia. São Paulo: Editora Atheneu, 2003.
MILONE, Giuseppe. Estatística Geral e Aplicada. São Paulo: Pioneira Thomson Learning,
2004.
MONTGOMERY, D.C. e RUNGER, G.C. Estatística Aplicada e Probabilidade para
Engenheiros. Rio de Janeiro: Livros Técnicos e Científicos Editora S.A., 2003.
MÜLLER, Mary S.; CORNELSEN, Julce M. Normas e padrões para teses, dissertações e
monografias. Londrina: Eduel, 2003.
Normas para apresentação de documentos científicos. Vol. 10, Gráficos. Curitiba: Editora da
UFPR, 2001.
PAGANO, Marcello ; GAUVREAU, Kimberlee. Princípios de Bioestatística. Tradução da 2ª
edição norte-americana. São Paulo: Pioneira Thomson Learning, 2004
REIS, Elizabeth. Estatística descritiva. Lisboa: Silabo, ed. 4, 1998.
SOARES, José F.; Alfredo A. FARIAS e CESAR, Cibele C. Introdução à Estatística. Rio de
Janeiro: Livros Técnicos e Científicos Editora S.A., 1991.

Você também pode gostar