EST0209MFQ - 01 Estatistica Descritiva

1.
Estatística Descritiva
Introdução: Neste tópico será apresentado aos alunos os principais usos
da Estatística, seus usos no Estado e Empresas, bem como as definições
do que seja um dado estatístico e os principais tipos e elementos que
dizem respeito a uma representação tabular.
Objetivo(s): introdução aos principais conceitos do que é estatística seus

usos e aplicações
1.1 Dados Estatísticos
Dado estatístico: é qualquer característica que possa ser

observada ou medida de alguma maneira. A matéria-prima da estatística
são os dados observáveis.
1.1.1 Variáveis
• Variável: É aquilo que se deseja observar para se tirar algum tipo de

conclusão, geralmente a variável para estudo são selecionadas por
processos de amostragem. Os símbolos utilizados para representar as
variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, ... que
pode assumir qualquer valor de um conjunto de dados. As variáveis
podem ser de dois tipos: Qualitativas e Quantitativas.:
1.1.1.1 Variáveis Qualitativas (ou atributos)
Em uma pesquisa que envolve pessoas, por exemplo, as variáveis

consideradas podem ser: sexo, cor de cabelo, esporte favorito e grau de
instrução. Nesse caso dizemos que as variáveis dão qualitativas, pois
apresentam como possíveis valores uma qualidade (ou atributo) dos
indivíduos pesquisados Além disso, dizemos que as variáveis qualitativas
podem ser ordinais, quando existe uma ordem nos seus valores, ou
nominais, quando isso não ocorre.
a) Nominal: são utilizados símbolos, ou números, para representar

determinado tipo de dados, mostrando, assim, a qual grupo ou categoria
eles pertencem, estado civil, religião são consideradas variáveis
qualitativas nominais..
b) Ordinal ou por postos: quando uma classificação for dividida em

categorias ordenadas em graus convencionados, havendo uma relação
entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, os
dados por postos consistem de valores relativos atribuídos para denotar
a ordem de primeiro, segundo, terceiro e, assim, sucessivamente.
1.1.1.2 Variáveis Quantitativas:
Quando as variáveis são, por exemplo, altura, peso, idade em anos

e número de irmãos, dizemos que elas são quantitativas, pois seus
possíveis valores são números. As variáveis quantitativas podem ser
Estatística Descritiva - 1.2
discretas, quanto se trata de contagem (números inteiros) ou contínuas,

quando se trata de medida (números reais).
a) Discretas: são aquelas variáveis que pode assumir somente valores

inteiros num conjunto de valores. É gerada pelo processo de contagem,
como o número de veículos que passa em um posto de gasolina, o
número de estudantes nesta sala de aula.
b) Contínuas: são aquelas variáveis que podem assumir um valor

dentro de um intervalo de valores. É gerada pelo processo de medição.
Neste caso serve como exemplo o volume de água em um reservatório
ou o peso de um pacote de cereal.
Para se fazer uma idéia concreta da variável contínua, basta

pensar em um filete de mercúrio de um termômetro. Ao dilatar-se o filete
da temperatura a para b, passará por todas as temperaturas
intermediárias. “Altura” é uma variável quantitativa contínua, uma vez
que pode ser medida (1,55m, 1,80m, 1,73m...).
QUADRO RESUMO DOS TIPOS DE VARIÁVEIS DE UMA PESQUISA
 Nominal
Qualitativ
a
 Ordinal

Variável


Quantitati Discreta
va
 Contínua
Tipos de Variáveis
Populações Quantitativas Qualitativas
Contínua Discreta Nominal Ordinal
Alunos de No na Conceito Final A,
Idade, peso sexo
Graduação Classe B ou R
Velocidade N.o de
Automóveis Cores Limpeza
km/h defeitos
Venda de Valor em No de Tipo de Muito
Imóveis reais oferta imóvel dispendioso
As distinções são menos rígidas do que a descrição acima insinua.

Por exemplo, em geral nós trataríamos idade como uma variável
contínua, mas se a idade for registrada pelo ano mais próximo, podemos
tratá-la como discreta, e se separarmos a amostra em “crianças”,
“adultos jovens”, “idade média”, “velhos”, por exemplo, então temos
faixa etária como uma variável ordenada categórica. No entanto, em
geral é recomendado manter os dados em sua forma original,

categorizando os dados somente para propósitos de apresentação.
1.1.2 Usos e Abusos da Estatística
1.1.2.1 Usos da Estatística
As Aplicações da estatística se desenvolveram de tal forma que,

hoje, praticamente todo o campo de estudo se beneficia da utilização de
métodos estatísticos.
 Os fabricantes fornecem melhores produtos a custos menores

através de técnicas de controle de qualidade.
 Controlam-se doenças com o auxilio de análises que antecipam

epidemias.
 Espécies ameaçadas são protegidas por regulamentos e leis que

reagem a estimativas estatísticas de modificação de tamanho da
população.
 Visando reduzir as taxas de casos fatais, os legisladores têm

melhor justificativas para leis como as que regem a poluição
atmosférica, inspeções de automóveis, utilização de cinto de
segurança, etc.
1.1.2.1 Abusos da Estatística
Não é de hoje que ocorrem abusos com a estatística.
Assim é que , há cerca de um século, o estadista Benjamin Disraeli

disse:
“Há três tipos de mentiras: as mentiras, as mentiras sérias e as

estatísticas”.
Já se disse também que “os números não mentem; mas os

mentirosos forjam os números” e que:
“se torturarmos os dados por bastante tempo, eles acabam por

admitir qualquer coisa”.
Todas essas afirmações se referem aos abusos da estatística

quando os dados são apresentados de forma enganosa.
Eis alguns exemplos das diversas maneiras como os dados podem ser
distorcidos.
 Pequenas amostras
 Números imprecisos
 Estimativas por suposição
 Porcentagens distorcidas
 Cifras parciais
 Distorções deliberadas
 Perguntas tendenciosas
 Gráficos enganosos
 Pressão do pesquisador
 Más amostras
1.2 Distribuições de Freqüências
É o tipo de série estatística na qual permanece constante o fato, o

local e a época. Os dados são colocados em classes preestabelecidas,
registrando a freqüência de ocorrência.
Exemplo:
Tabela: distribuição de freqüências dos pesos corporais de uma amostra.

P Freqüên Freq.
esos cia Acumulada
64 51 51
65 100 151
66 22 173
67 14 187
Tota 187
l
Uma distribuição de freqüência pode ser para dois tipos, quais

sejam para variáveis discretas e para variáveis contínuas.
1.2.1 Distribuição de Freqüência para Variável Discreta
Recomenda-se seu uso quanto o número de observações for

grande, mas os valores distintos são poucos.
Ex. Seja um grupo com 30 estudantes, onde 10 sejam de Sorocaba; 9 de

Votorantin; 5 de Salto de Pirapora; 4 de Pilar do Sul e 2 de São Miguel.
Cidade N.o Estudantes

(Fi)
Sorocaba 10
Votorantin 9
Salto de 5
Pirapora
Pilar do Sul 4
São Miguel 2
Total 30
1.2.2 Distribuição de Freqüências para variáveis Contínuas
Muitas vezes, mesmo com o risco de se sacrificar algum detalhe,

que pode ser observado na ordenação de valores individuais, há
vantagem em resumir os dados originais em uma distribuição de
freqüências, onde os valores observados não mais aparecerão
individualmente, mas agrupados em classes
Normalmente esse tipo de Distribuição de Freqüências deve ser

utilizado quando o número de observações é grande e o número de
valores distintos que a variável assume também for grande.
Os resultados obtidos deverão ser dispostos em classes que

possuam amplitudes dentro das quais se incluirão os dados
Exemplo: Sejam os dados brutos abaixo as alturas de 40 alunos:
1,67 1,83 1,60 1,97 1,70

1,73 1,92 1,73 1,85 1,71
1,80 1,58 1,67 1,78 1,78
1,98 1,87 1,50 1,49 1,75
1,49 1,63 1,84 1,69 1,64
1,52 1,84 1,62 1,74 1,72
1,60 1,88 1,70 1,64 1,65
1,59 1,53 1,86 1,68 1,69
Uma vez construída a distribuição de freqüências esta ficará da

seguinte forma:
Alturas N.o de
Alunos
1,45 |------ 5
1,55
1,55 |------ 8
1,65
1,65 |------ 13
1,75
1,75 |------ 7
1,85
1,85 |------ 5
1,95
1,95 |------ 2
2,05
Total 40
Para passarmos as etapas que permitem construir uma

Distribuição de Freqüências é necessário, preliminarmente, conhecermos
quais são os principais elementos que a compõem.
1.2.3 Elementos de uma Distribuição de Freqüências:
Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na

qual dividimos o fenômeno.
Quantas classes serão necessárias para representar o fato?

Existem vários critérios que podem ser utilizados a fim de possuirmos
uma idéia do melhor número de classes servindo, no entanto, como uma
indicação, uma vez que a melhor escolha dependerá, antes de qualquer
coisa, da natureza dos dados, e de qual resultado se deseja chegar,
devendo dessa forma o pesquisador procurar o método que lhe
proporcione a melhor divisão.
Para determinar o número de classes a partir dos dados não

tabelados, podemos usar a Fórmula de Sturges, mas deve-se saber
que existem outros métodos de determinação do número de classes em
uma tabela de freqüência. O que se deseja fazer é apenas comprimir um

conjunto de dados em uma tabela, para facilitar a visualização e
interpretação dos mesmos.
a) Fórmula de Sturges K = 1 + 3.3log (n) , onde “n” é no de

informações.
b) Proposta de Trumam L. Kelley

N 5 10 25 50 100 200 500 1000
k 2 4 6 8 10 12 15 15
c) Toledo e Ovale
número de
classes (k)
n.o de elementos observados mínimo
máximo
até 50 5 10
51 a 100 8 16
101 a 200 10 20
201 a 300 12 24
301 a 500 15 30
mais de 500 20 40
Além dessas existem outras fórmulas empíricas para resolver o problema para
determinação do número de classes [n(k)], há quem prefira n ) k ( n ≅ . Entretanto, a
verdade é que essas fórmulas não nos levam a uma decisão final; esta vai depender na
realidade de um julgamento pessoal, que deverá estar ligado à natureza dos dados,
procurando, sempre que possível, evitar classes com freqüências nulas ou freqüências
relativas exageradamente grandes.
Limite de Classe (Li ou Ls): São os valores extremos de cada

classe.
Li = limite inferior da i-ésima classe;

Ls = limite superior da i-ésima classe;
Exemplo:
Limites Inferiores de Classe Limites Superiores de Classe
1,45 |------ 1,55

1,55 |------ 1,65
1,65 |------ 1,75
1,75 |------ 1,85
1,85 |------ 1,95
1,95 |------ 2,05
Existem várias maneiras de apresentarmos o intervalo de classe,

iguais ou diferentes entre si. Porém, sempre que possível, deveremos
optar por intervalos iguais, o que facilitará os cálculos posteriores. Mas
mesmo com intervalos iguais, as distribuições poderão apresentar-se da
seguinte forma:
1,55 ---| 1,65 : compreende todos os valores entre 1,55 e 1,65, inclusive o
1,55 exclusive o 1,65
1,55 |--- 1,65 : compreende todos os valores entre 1,55 e 1,65, inclusive o
1,55 e exclusive o 1,65
Amplitude do intervalo de classe (h): É a diferença entre dois

limites inferiores ou superiores consecutivos.
h = Ls – Li
Calculando h para cada classe
(1,55 – 1,45) = 0,10

(1,65 – 1,55) = 0,10
....
(1,95 – 1,85) = 0,10
(2,05 – 1,95) = 0,10
A amplitude do intervalo de classe deve ser constante em toda a distribuição de

freqüências intervalar.
Amplitude total ou Range (H): É a diferença entre o limite superior

da última classe e o limite inferior da 1ª classe, ou a diferença entre
último e o primeiro elemento de um conjunto de dados postos em ordem
crescente.
Dado por H = Vmaior – Vmenor no caso H = 1,98 – 1,49  H = 0,49
Ponto médio de classe (PM): É a média aritmética entre o limite

( Ls + Li )
inferior e o limite superior da classe, dado por PM =
2
Para o exemplo dado temos os seguintes PM para cada classe:
(1,45 + 1,55)/2 = 1,50

(1,55 + 1,65)/2 = 1,60
(1,65 + 1,75)/2 = 1,70
(1,75 + 1,85)/2 = 1,80
(1,85+ 1,95)/2 = 1,90
(1,95 + 2,05)/2 = 2,00
Quando substituirmos os intervalos de classes pelos pontos médios (Xi), ter-se-á

uma distribuição de freqüência pontual.
Freqüência absoluta (fi): É a quantidade de valores em cada classe
Freqüência Relativa (fr): É o quociente entre a freqüência absoluta

da i-ésima classe
com o somatório das freqüências.
Alturas N.o de Freqüência

Alunos= fi Relativa (fr)
1,45 |------ 5 0,1250
1,55
1,55 |------ 8 0,2000
1,65
1,65 |------ 13 0,3250
1,75
1,75 |------ 7 0,1750
1,85
1,85 |------ 5 0,1250
1,95
1,95 |------ 2 0,0500
2,05
Total 40 1,0000
A freqüência relativa pode ser representada na forma de porcentagem, bastando

para isso multiplicar os seus valores por 100. Pode ainda, calcular as freqüências
acumuladas tanto para os valores absolutos quanto para os valores relativos.
1.2.4 Construção de uma distribuição de freqüências
Para construirmos uma Distribuição de Freqüências as etapas a

serem seguidas são as seguintes:
1º - Determine o número de classes (K) , lembrando que qualquer regra

para determinação do nº de classes da tabela não nos levam a uma
decisão final; esta vai depender, na realidade de um julgamento pessoal,
que deve estar ligado à natureza dos dados.
− Vmenor
Vmaior
2o – Calcule a amplitude de classe  h =
k
 o resultado obtido em h deve ser sempre arredondado para maior, de forma a
garantir que todos os dados sejam incluídos na distribuição de freqüências. Importante
frisar que tanto a primeira classe quanto a última não devem ficar sem dados.
3º - Escolher o limite inferior da primeira classe, que será o ponto de

partida
 Em alguns casos o arredondamento utilizado– que deve ser sempre para maior –
pode implicar que a última classe fique sem elementos, para isso, uma alternativa seria
começar a primeira classe com um valor inferior ao menor valor dos dados.
4º - Somar a Amplitude de classe (h) a esse ponto de partida e assim

sucessivamente, constituindo cada intervalo em uma classe distinta;
5º - Distribuir os dados nas respectivas classes.
 Notas Importantes: A última classe deve conter pelo menos um elemento dos
dados;
Não devem existir dados sem classe
Dependendo do arredondamento a construção de uma distribuição de

freqüências é um processo de tentativa e erro que depende, em certa medida da
experiência e da necessidade de quem a constrói
Seja o exemplo:
Dividir os dados abaixo em 5 classes (k =5)
1,49 1,60 1,68 1,73 1,84 1,49 1,62 1,69

1,74 1,85 1,50 1,63 1,69 1,75 1,86 1,52
1,64 1,70 1,78 1,87 1,53 1,64 1,70 1,78

1,88 1,58 1,65 1,71 1,80 1,92 1,59 1,67
1,72 1,83 1,97 1,60 1,67 1,73 1,84 1,98
Resolução
1) Decidir o Número de Classes K = 5;
2) Determinar a amplitude de classe (h), que vai ser dado por:
Vmaior − Vmenor 1,98 − 1,49

h= = = 0,098 = 0,10
k 5
3) Escolher o limite inferior da primeira classe, que será o ponto de

partida = 1,49
4) Somar a Amplitude de classe (h) a esse ponto de partida e assim

sucessivamente, constituindo cada intervalo em uma classe distinta;
1,49 + 0,10 = 1,59  1,49 |----- 1,59

1,59 + 0,10 = 1,69  1,59 |----- 1,69
1,69 + 0,10 = 1,79  1,69 |----- 1,79
1,79 + 0,10 = 1,89  1,79 |----- 1,89
1,89 + 0,10 = 1,99  1,89 |----- 1,99
5. Distribuir os dados nas classes
Classes Dados
1,49 |----- 1,59 1,49 1,49 1,50 1,52 1,53 1,58
1,59 |----- 1,69 1,59 1,60 1,60 1,62 1,63 1,64 1,64 1,65 1,67
1,67 1,68
1,69 |----- 1,79 1,69 1,69 1,70 1,70 1,71 1,72 1,73 1,73 1,74
1,75 1,78 1,78
1,79 |----- 1,89 1,80 1,83 1,84 1,84 1,85 1,86 1,87 1,88
1,89 |----- 1,99 1,92 1,97 1,98
Nota: intervalo fechado inclui o valor; se aberto não
1,49 pertence a essa classe |------- 1,59 não pertence a essa classe
Uma vez distribuídos os dados a Distribuição de Freqüências fica da

seguinte forma:
Alturas Alunos
1,49 |----- 1,59 6
1,59 |----- 1,69 11
1,69 |----- 1,79 12
1,79 |----- 1,89 8
1,89 |----- 1,99 3
Total 40
1.2.5 Construção de um Histograma
Construída a distribuição de freqüências temos que a quantidade

de informação fornecida por uma amostra é tanto maior quanto maior é
a quantidade de dados. No caso de uma tabela com muito longa é claro
que a sua interpretação fica difícil, para dar uma visão rápida e objetiva
da questão, existe uma ferramenta denominada Histograma.
Alturas Alunos No eixo

No Eixo 1,49 |----- 1,59 6 Vertical
horizontal 1,59 |----- 1,69 11 colocam-se
colocam-se as 1,69 |----- 1,79 12 as
Classes, no 1,79 |----- 1,89 8 Freqüências,
caso, as 1,89 |----- 1,99 3 no caso, o
Alturas Total 40 número de
alunos
Freqüências
1,49 1,59 1,69 1,79 1,89 1,99
1.3 Representação gráfica
Os gráficos são formas de apresentação visual dos dados.

Normalmente, contém menos informações que as tabelas, mas são,
contudo de mais leitura. A escolha do modelo ideal de representação
gráfica depende das preferências e do senso estético do elaborador.
As principais vantagens para o uso de gráficos são:
Permitem a síntese dos resultados;
Auxiliam o pesquisador na análise dos dados e
Facilitam a compreensão das conclusões do autor.
1.3.1 Origem dos Gráficos
O diagrama cartesiano é a figura geométrica que deu origem à

técnica de construção de gráficos estatísticos. Utiliza-se o primeiro
quadrante do sistema de eixos coordenados cartesianos ortogonais, nos
quais o eixo vertical corresponde às freqüências dos dados, e o eixo
horizontal ao valor das variáveis.
Ordenadas,
correspond
em ao eixo
y
Abscissas correspondem ao
eixo x
1.3.2 Normas para elaboração de Gráficos
Deve facilitar a interpretação dos dados para um leigo;

Não há a necessidade de se colocar título se estiver na mesma página da

tabela correspondente;
Há a necessidade de se colocar o título se a tabela correspondente não

estiver na mesma página.
O senso estético individual determina o espaço do gráfico (Largura x

Altura);
As colunas, barras, linhas e áreas gráficas devem ser ordenadas de

modo crescente ou decrescente, mas a ordem cronológica prevalece;
1.3.3 Tipos de Gráficos
` Com o avanço da computação os recursos para a construção de

Gráficos ampliaram-se muito, no entanto, para determinadas situações
existem os tipos mais recomendáveis que cujos alguns exemplos serão
apresentados a seguir, o que não impede que outros tipos também
possam ser criados.
1.3.3.1 O diagrama de ramo e folha
Um diagrama de ramos e folha separa entrada de dados em

“dígitos ramos” em “dígitos folhas” , sendo um diagrama muito útil para
uma primeira análise dos dados.
• Passos para construir um diagrama de ramo e folha:
Suponha a série de dados, que representam as notas de alunos numa

escala que vais de 0 a 10.
1, 2, 3, 3, 3, 4, 4, 5, 5, 5,
2 3 3 7 8 0 5 5 6 5
2, 2, 3, 3, 4, 4, 4, 5, 5, 5,
3 8 3 1 9 5 1 3 6 3
2, 2, 3, 3, 4, 8, 4, 5, 6, 7,
6 3 9 2 1 8 9 5 7 0
2, 2, 3, 3, 4, 4, 4, 4, 4, 5,
4 9 8 8 7 4 1 1 2 0
1. Encontrar o valor mínimo e máximo dos dados, no caso da escola 1, o

mínimo é 1,2 e o máximo 8,8
2. Como a variável toma valores entre zero e dez pode-se convencionar

que o ramo é a unidade e a folha é a casa decimal
3. A partir dai examina-se cada valor e coloca-se a parte decimal na

folha. O valor zero, significa que há informação e que é um número
inteiro. Já quando naquele valor inteiro não existe observações, não
colocar nada, deixar em branco
4. Ordenar os ramos
Original  Organizado
Ramo Folha Ramo Folha
(unidad (decimal) (unidad (decimal)
e) e)
1 2 1 2
2 3643839 2 3334689
3 339871288 3 123378889
4 0595119741 4 0111124557
12 99
5 05653635 5 03355566
6 7 6 7
7 0 7 0
8 8 8 8
Colocando os resultados de três classes simultaneamente:
R Escola 1 Escola 2 Escola 3 Geral

amo
1 2 2
2 3334689 3 3 3333334689
3 123378889 0033 012333378889
4 0111124557 345555689 011112344555555
99 678999
5 03355566 334555567 033334555555566
67
6 7 55 12223 12223557
7 0 377888 0 00377888
8 8 35677899 356778899
9 2449 2449
10 00 00
Observe que independente de qualquer análise mais aprofundada é possível

“visualizar” as diferenças entre as três classes quanto ao desempenho das mesmas, e
que neste caso o diagrama de ramo e folhas faz às vezes do histograma.
1.3.3.2 Gráficos de Linhas
Usado para ilustrar uma série temporal.
Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³)
Fonte: Conjuntura Econômica (Fev. 1983)
1.3.3.3 Gráfico de linhas comparativas
População Urbana do Brasil por Região de 1940 a 1980 (x 1000)

Fonte: Anuário Estatístico (1984)

1.3.3.4 Gráficos de colunas ou barras
Representação gráfica da distribuição de freqüências. Este gráfico

é utilizado para variáveis nominais e ordinais.
Características:
- todas as barras devem ter a mesma largura
- devem existir espaços entre as barras
Usado para ilustrar qualquer tipo de série.
População Urbana do Brasil em 1980 (x 1000)
As larguras das barras que deverão ser todas iguais podendo ser adotado qualquer
dimensão, desde que seja
conveniente e desde que não se superponham. O número no topo de cada barra pode
ou não omitido, se
forem conservada, a escala vertical pode ser omitida.
1.3.3.5 Gráfico de Barras Horizontais
As regras usadas para o gráfico de barras são iguais às usadas para o

gráfico de colunas.
População Urbana do Brasil em 1980 (x 1000)
Assim como os gráficos de Colunas podem ser construídos gráficos de barras

comparativas.
1.3.3.6 Gráficos circulares ou de Setores (Pie Charts)
Representação gráfica da freqüência relativa (percentagem) de

cada categoria da variável. Este gráfico é utilizado para variáveis
nominais e ordinais. É uma opção ao gráfico de barras quando se
pretende dar ênfase à comparação das percentagens de cada categoria.
A construção do gráfico de setores segue uma regra de 3 simples, onde
as freqüências de cada classe correspondem ao ângulo que se deseja
representar em relação a freqüência total que representa o total de 360°.
Características:
- A área do gráfico equivale à totalidade de casos (360o = 100%);

- Cada “fatia” representa a percentagem de cada categoria
População Urbana e Rural do Brasil em 1980 (x 1000)
1.3.3.7 Gráfico Pictorial - Pictograma
Tem por objetivo despertar a atenção do público em geral, muito

desses gráficos
apresentam grande dose de originalidade e de habilidade na arte de
apresentação dos dados.
Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x

1000)
Fonte: Grandes números da educação brasileira março de 1996

1.3.3.8 Gráfico Polar
É o tipo de gráfico ideal para representar séries temporais cíclicas,

ou seja, toda a série
que apresenta uma determinada periodicidade.
1.3.3.9 Cartograma
É a representação de uma carta geográfica. Este tipo de gráfico é

empregado quando o objetivo é o de figurar os dados estatísticos
diretamente relacionados com as áreas geográficas ou políticas
Dados absolutos (população) – usa-se pontos proporcionais aos

dados.
Dados relativos (densidade) – usa-se hacharas.
Exemplo:
População da Região Sul do Brasil - 1990
Estado População Área Densid
(hab.) (km2 )
2
ade
Paraná 9.137.700 199.324 45,8
Santa 4.461.400 95.318 46,8
Catarina
Rio Grande do 9.163.200 280.674 32,6
Sul
Total 22.762.300 575.316 39,56
Fonte: IBGE
1.3.3.10 Polígono de Freqüências
Esse tipo de Gráfico é construído à partir do Histograma
Altura em centímetros de 160 alunos do Curso de Administração da

UFSM - 1990
1.3.3.11 Ogivas
Altura em centímetros de 160 alunos do Curso de Administração da

UFSM – 1990
1.3.3.12 Gráfico em segmentos de reta vertical
É utilizado para representar uma distribuição de freqüência

pontual, onde os segmentos de reta são proporcionais às respectivas
freqüências absolutas.
Altura em centímetros de 160 alunos do Curso de Administração da Uniso - 1990

Fonte: Uniso (2003)

1.4 Medidas de Posição
Das diversas medidas que possibilitam condensar um conjunto de

dados, destacam-se as de tendência central, das quais a Média, a
Mediana e a Moda são as mais importantes, que são assim denominadas
em decorrência dos dados observados se agruparem em torno desses
valores centrais.
1.4.1 Média
É o valor típico, representativo de um conjunto de dados.

Fisicamente representa o ponto de equilíbrio da distribuição, sendo a
mais importante medida de tendência central. A média da amostral é
representada por , já quando estamos estudando a média da população
a média é representada pela letra grega µ.
1.4.1.1 Estimativa da Média
De acordo com a disposição dos dados a média pode ser estimada de

várias formas, conforme enumeradas abaixo:ar:
a) Para Dados Simples (dados não tabulados)
Sejam x1, x2, x3, . . ., xn, portanto “n” valores de X. A média

aritmética simples de x representada por x é definida por:
∑x i
, ou simplesmente x = ∑x
x= i =1
n
n
onde:
n é o número de elementos da amostra.
∑ x = soma dos valores de x

Exemplo: determinar a média aritmética simples dos valores 16, 18, 23,
21, 17, 16, 19 e 20, como podemos ver n = 8 (número de dados)
x=
∑ x = 16 + 18 + 23 + 21 + 17 + 16 + 19 + 20 = 150 = 18,75
n 8 8
b) Para valores Distintos (Dados Tabelados em distribuições de

freqüências)
Quando os dados estiverem agrupados numa distribuição de

freqüência, usaremos a média aritmética dos x1, x2, . . ., xn, ponderados
pelas respectivas freqüências absolutas F1, F2, . . . , Fn. Assim:
∑x F
i =1
i i
∑ xF
x = , ou simplesmente x =
∑F
n
i
∑F
i =1
Onde:
∑ xF = Soma dos produtos – calculados linha por linha – dos valores de x

por sua freqüência (F),
∑F = Soma das freqüências (tamanho da amostra)
Exemplo: Sejam os dados abaixo:
x=2223334444555555555666666778
Como pode ser visto os dados de x, podem ser agrupados em

freqüências F, conforme a tabela abaixo:
xi Fi xiFi
2 3 6
3 3 9
4 4 16
5 9 45
6 6 36
7 2 14
8 1 8
Total 28 134
∑ xF 134
= 4,7857
x = =
∑F 28
c) Para dados Agrupados em Classes
No caso dos dados agrupados em classes, faz-se necessário

utilizar o ponto médio de cada classe (PM), como novo valor de x, para
proceder aos cálculos.
Exemplo: Calcular a média dos dados agrupados em uma distribuição

de freqüências na forma como se seguem:
Classes Fi xi xiFi
(PM)
39 |-- 50 4 44,5 178,
0
50 |-- 61 5 55,5 277,5
61 |-- 72 5 66,5 332,5
72 |-- 83 6 77,5 465,0
83 |-- 94 5 88,5 442,5

Total 25 - 1695,
5
Obs.: PM = ponto médio de cada classe, ver módulo 3.
∑ xF 1695,5
= 67,82
x = =
∑F 25
1.4.1.2 Propriedades e emprego da média aritmética
1) Deseja-se obter a medida de posição que possui a maior estabilidade;
2) Houver necessidade de um tratamento algébrico;
3) A média aritmética tem certas propriedades interessantes e úteis, que

explicam por que é ela a medida de tendência central mais usada:
4) A média aritmética de um conjunto de dados pode ser sempre

calculada;
5) Para um dado conjunto de números a média aritmética é única.
6) A média é sensível a (ou afetada por) todos os valores do conjunto.

Assim, se um valor se modifica, a média também se modifica.
1.4.1.3 Formas alternativas para estimativa da média
De acordo com a natureza dos dados nem sempre é apropriada

estimar a média aritmética cabendo, nestes casos formas alternativas
para sua estimação, quais sejam:
a) Média Geométrica: ( Xg):
A aplicação da média geométrica deve ser feita, quando os valores

do conjunto de dados considerado se comportam segundo uma
progressão geométrica (P.G.)ou dela se aproximam, sendo um caso
particular o cálculo da taxa média dos juros (compostos) praticados num
determinado período.
- Para dados Simples
Sejam x1, x2, x3, . . . , xn, valores x , a média geométrica de x é definida

por:
n
Xg = n
x1* x2 * ...* xn = n
∏x
i =1
i
Exemplo: As taxas de juros de determinada empresa, no último

semestre foram 4,5%; 5%; 6%; 7%, 5% e 7%, calcule qual seria a taxa
média (média geométrica)
Mês T Índic Acumulado

axa e
1 4,5 1,04 1,045
5
2 5 1,05 1,09725
3 6 1,06 1,163085
4 7 1,07 1,24450095
5 5 1,05 1,306725998
6 7 1,07 1,398196817
n
Xg = n
∏x
i =1
i = 6
1,045* 1,05* 1,06* 1,07* 1,05* 1,07 = 6
1,398196817
Xg = 1,05745 ou, em outras palavras a taxa média mensal é 5,745 %
- Para valores distintos (Dados Tabelados)
x g = ∑ x1f 1 * x2f 2 * ...* xnfn

f
b) Média Harmônica ( xh )
É usada para dados inversamente proporcionais, tais como aqueles que

envolvem Velocidade Média, Preço de Custo Médio
- Para dados Simples (Dados Não Tabelados)
n n
xh = =
1 1 1 1
∑ x x + x + ...+ x
1 2 n
- Para valores distintos (Dados Tabulados)
xh =
∑f = f +f 1 2 + ...+ fn
fi f f f
∑x x + x 1 2
+ ...+ n
xn
i 1 2
1.4.2 Mediana
A mediana é uma quantidade que, como a média, também procura

caracterizar o centro de uma distribuição de freqüências, porém, de
acordo com o um critério diferente. Ela é calculada com base na ordem
dos valores que formam o conjunto de dados.
A mediana pode ser usada como alternativa, em relação, à média,

em situações da existência de valores extremos no conjunto de dados,
como por exemplo, numa distribuição de rendas. Neste caso, a média
não seria um bom representante dos dados, sendo nesse caso indicado o
uso da mediana, por ser esta medida pouco influenciada por valores
extremos.
Dessa maneira a interpretação da Mediana é a informação que

pelo menos 50% dos dados possuem valor igual ou menor ao da
Mediana.
1.4.2.1 Estimativa da posição da Mediana para dados Simples

(Dados não tabulados)
Para dados não tabulados a Mediana corresponde ao elemento

central da distribuição ordenada.
a) Dados Ímpares
Sendo n ímpar, como igual ao valor de ordem - posição da

(n+ 1)
mediana – será o termo desse conjunto.
2
Seja a a série: 36 37 39 40 40 41 41 42 42
Como a série é ímpar, a mediana será:
(n+ 1) (9 + 1)
Posição da Mediana = = = 5º Termo da série ordenada
2 2
36 37 39 40 40 41 41 42 42
1º 2º 3º 4º 5º 6º 7º 8º 9º
b) Dados pares
Nesta situação a mediana poderá ser definida como qualquer valor

n n
situado entre o de ordem e o de + 1.
2 2
Exemplo: Calcule a mediana dos dados abaixo:
36 37 39 40 40 41 41 42 42 45
Como temos n = 10 (par) , a mediana pode ser representada por 2

n n
posições, e o de + 1, quais sejam:
2 2
10 10
= 5º Termo da Série e + 1 = 6º Termo da Série
2 2
36 37 39 40 40 41 41 42 42 45
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
Na situação de dados pares temos dois valores para mediana, que

serão coincidentes ou não, nessa situação existem duas alternativas, a
primeira apresentar como mediana os dois valores – 40 e 41 – no
40 + 41
segundo caso calcular a média dos dois valores = 40,5.
2
1.4.2.2 Mediana para valores distintos (Dados Tabulados)
Colocados os valores em ordem crescente, mediana é o elemento

que ocupa a posição central.
Exemplo: Dada a distribuição abaixo, qual valor corresponde a mediana

dos dados?
xi Fi Fac
2 3 3
3 3 6
4 4 10
5 9 19
6 6 25
7 2 27
8 2 29
Total 29
No caso de dados em classe, podemos utilizar simplesmente a fórmula

n +1
Md = , (uma vez que o total de dados é impar) assim, a posição da
2
29 + 1
mediana será dada por = 15º Termo
2
xi Fi Fac Até ao valor 4, a freqüência

2 3 3 acumulada é 10, portanto não
3 3 6 chegamos ainda ao 15º termo
4 4 10 1.4.3 Moda que só vai ser alcançado no valor
5, que acumula 19 elementos,
5 9 19 passando portanto pelo 15º
6 6 25 Ao ponto elemento
de maior freqüência de
7 2 27 indivíduos, isto é, o ponto que ocorre com
8 2 29 mais freqüência, damos o nome de Moda, ela
Tota 29 representa, dessa forma, o valor mais típico
l da distribuição dos dados.
Aplica-se a moda:
1) Quando se deseja obter uma medida rápida e aproximada de posição;
2) Quando a medida de posição deve ser o valor mais típico da

distribuição.
1.4.3.1 Moda para dados simples
O valor modal será aquele que ocorrer com maior freqüência.

Ex.: Determinar a moda da série abaixo:
4, 4, 6, 7, 7, 8, 8, 8, 9 e 10.
Pela simples observação, temos que o valor “8”, aparece com mais
freqüência, portanto este valor é a moda.
Vale lembrar que, que uma série de dados pode apresentar mais
de uma moda, como por exemplo:
4, 4, 4, 5, 5, 5, 5, 6, 6, 7, 8, 8, 8, 8, 9, 10, e 10
Como pode ser observado os valores 5 e 8 aparecem com maior

freqüência o mesmo número de vezes (4), portanto, a série tem dois
valores modais, podendo ser chamada de bi-modal, por sua vez, quando
apresentar mais de dois valores modais, a série é chamada de
plurimodal.de 3 modas usamos o termo multimodal, podendo ocorrer
situações em que o conjunto não apresenta moda, chamado então de
amodal
1.4.3.2 Moda para dados Distintos (Dados Tabulados)
Para dados agrupados em uma distribuição de freqüências basta

indicar aquele que apresenta o maior número de dados.
Seja o Exemplo: Abaixo apresentar o valor modal:
xi Fi O valor 15 representa a Moda da

1 distribuição pois este é o valor de
14 3 maior freqüência, ocorrendo 5
15 5 1.4.4 Posição relativa
vezes. da média, mediana e moda
17 2
11 Quando uma distribuição é simétrica, as três
medidas coincidem. Porém, a assimetria torna -as
diferentes e essa diferença é tanto maior quanto maior é a assimetria.
Assim, em uma distribuição temos:
Mo = Md = x → curva simétrica
Mo < Md < x → curva assimétrica negativa
x <Md < Mo → curva assimétrica positiva

Curva assimétrica negativa Curva

assimétrica positiva
1.5 Separatrizes
Há uma série de medidas de posição semelhantes na sua

concepção à mediana, embora não sejam medidas de tendência central.
Como se sabe, a mediana divide a distribuição em duas partes

iguais quanto ao número de elementos de cada parte, por sua vez:
 os quartis permitem dividir a distribuição em quatro partes iguais

quanto ao número de elementos de cada uma;
 os decis em dez partes; e
 os centis em cem partes iguais.
Para simbolizar cada uma dessas medidas separatrizes, faremos:
Qi = quartis i = 1, 2, 3,
Di = decis i = 1, 2, 3,...,9
Ci = centis i = 1, 2, 3,...,99
Assim, para dividir uma série ordenada de valores em quatro

partes iguais, precisamos de três separatrizes (quartis); para dividi-la em
dez, iremos recorrer a nove separatrizes (decis); em cem, recorremos a
noventa e nove separatrizes (centis).
1.5.1 Quartil
Símbolo: Qi i = 1, 2 e 3
Definição: Dado um conjunto ordenado (ordem crescente) de valores,

os quartisde ordem
i,= 1, 2 e 3 (Qi). representam os valores que dividem o conjunto de
dados em partes 25%, 50% ou 75%, respectivamente.
n
Q1 = (quartil inferior)
2
2n n
Q2 = = = Mediana
4 2
3n
Q3 = (quartil superior)
4
1.5.2 Decis
Símbolo: Di i= l, 2,.3,..,9
A definição dos decis obedece ao mesmo princípio da dos quarti

com a modificação, que os dados são divididos em 10 % partes, assim
abaixo do 1.o Decil temos 10% dos dados; do 2.o Decil, 20%; do 3.o
Decil 30%, até alcançar o 9.o Decil, o qual abaixo dele teremos 90% dos
dados
Importante destacar que acima do 9.o Decil temos os 10% dos

dados de maior valor, e que normalmente só são analisados os limites do
1.o Decil (Decil Inferior) e do 9.o Decil (decil superior).
Assim teremos i = 1, 2, 3, 4, 5, 6, 7, 8, e 9
Para calcular os decis, recorreremos á seguinte expressao que

define a ordem em que o decil se encontra:
in
Di = , onde
10
n = número de valores observados
i = número que identifica o decil a ser calculado

1.5.3 Percentis ou Centis
Símbolo: Ci= 1, 2, 3,...,99
Neste caso, cada parte em que foram subdivididos os valores do

conjunto, através dos noventa e nove centis, contara com um centésimo
ou um por cento dos valores do conjunto.
O elemento que definirá a ordem do centil, em urna distribuiçâ’o

de freqüências de valores tabulados agrupados em classes, será
encontrado pelo emprego da expressão:
in
Ci = onde
100
i = número identificador do centil

n = número total de observações
O gráfico abaixo apresenta um exemplo da aplicação das

separatrizes, combinando, centis, decis e quartis
Gráfico: Evolução do desenvolvimento do peso (meninas) de 1 à 19 anos

Seja o exemplo: Utilizando os dados abaixo, calcular as seguintes

medidas:
1, 2, 3, 3, 3, 4, 4, 5, 5, 5,
2 3 3 7 8 0 5 5 6 5
2, 2, 3, 3, 4, 4, 4, 5, 5, 5,
3 8 3 1 9 5 1 3 6 3
2, 2, 3, 3, 4, 8, 4, 5, 6, 7,
6 3 9 2 1 8 9 5 7 0
2, 2, 3, 3, 4, 4, 4, 4, 4, 5,
4 9 8 8 7 4 1 1 2 0
Preliminarmente devemos ordenar os dados:
1, 2, 2, 2, 2, 2, 2, 2, 3, 3,
2 3 3 3 4 6 8 9 1 2
3, 3, 3, 3, 3, 3, 3, 4, 4, 4,
3 3 7 8 8 8 9 0 1 1
4, 4, 4, 4, 4, 4, 4, 4, 4, 5,
1 1 2 4 5 5 7 9 9 0
5, 5, 5, 5, 5, 5, 5, 6, 7, 8,
3 3 5 5 5 6 6 7 0 8
1n 1* 40 o
a) Primeiro Decil = = = 4 Termo = 2,3
10 10
1n 1* 40
b) Primeiro Quartil = = = 10º Termo = 3,2
4 4
n 40
c) Mediana = = = mediana é par = 20º e 21º termo = 4,1
2 2
3n 3* 40
d) Terceiro Quartil = = = 30º Termo = 5,0
4 4
9n 9* 40
e) Nono Decil = = = 36º Termo = 5,6
10 10
Conclusões:
 Pelo menos metade dos alunos tem notas inferiores a 5,0;
 Cinqüenta por cento dos alunos estão notas entre 3,2 e 5,0
 Os dez por cento dos alunos de pior desempenho tem notas

menores que 2,3;
 Os dez por cento dos alunos de melhor desempenho tem notas

superiores a 5,6.
1.5.4 Box-plot
O box-plot é um método alternativo ao histograma para

representar os dados. O box-plot fornece informações sobre as
características de posição, dispersão, assimetria, comprimento das
caudas e outliers de um conjunto de dados. No entanto, a maior
importância desse tipo de gráfico está na identificação de possíveis
outliers no conjunto de dados.
A construção de um box-plot exige que tenhamos as seguintes

informações:
valor mínimo;
primeiro quartil;
mediana;
terceiro quartil; e
valor máximo.
Como a mediana revela uma tendência central, ao passo que os

quartis indicam a dispersão dos dados (através do cálculo do intervalo
interquartil), os box-plot têm a vantagem de não serem tão sensíveis a
valores extremos como outras medidas baseadas na média e no desvio-
padrão.
Um dos aspectos mais convenientes do uso dos box-plot é a

possibilidade de comparação entre dois ou mais conjuntos de dados.
1.5.4.1 Como construir o diagrama de Box-Plot
Dados, os valores da mediana, 1º e 3º quartis dos salários de duas

categorias de pessoas – solteiras e casadas – construir o box-plot dos
dados e concluir.
Medidas-resumo para o box-plot de salários e

estado civil
Medida solteiro não solteiro
Mínimo 1,00 1,25
Q1 3,28 3,97
Mediana 4,66 5,43
Q3 6,01 7,39
Máximo 8,20 9,20
Etapas: (Salários dos solteiros)
1. Traçar uma linha – em escala – que contenha todos os valores dos

dados
2. Um retângulo é desenhado com as extremidades assinaladas no

primeiro e no terceiro quartis. Para os dados dos salários dos solteiros,
por exemplos, temos:
Q1 = 3,28 e Q3 = 6,01. Esse retângulo contém 50% dos dados.

3. Urna linha vertical é desenhada no retângulo na posição da mediana

(4,66 para os dados dos salários dos solteiros).
4. A partir do limite de Q1, prolongar uma linha perpendicular, limitada

pelo valor mínimo, que é igual a 1,00 ; fazendo o mesmo a partir de Q3
que será limitado pelo valor máximo que é 8,00
5. Repetir o mesmo procedimento para os salários dos casados, cujo

gráfico da seguinte forma:
Conclusões: Podemos observar que todas a renda dos não solteiros é

superior a dos solteiros, incluindo-se no caso o Valor Mediano. Quanto à
renda mínima a diferença entre os solteiros e não solteiros é pequena,
por sua vez, a renda máxima dos não solteiros é significativamente
superior aos solteiros.
1.5.4.2 Box plot e identificação de valores aberrantes (outliers)
A partir dos dados utilizados para a construção do box plot é

possível calcular limites para valores considerados como aberrantes
(outliers), isto é, valores que pela sua magnitude estão muito acima, ou
abaixo, do que seria aceitável para um conjunto de dados.
Dados: Mínimo = 2210 ;

Q1 = 2365;
Mediana = 2405;
Q3 = 2500; e
Máximo = 2630.
Construir um box-plot no qual estejam indicados os limites para a

presença de valores aberrantes (outliers)
1. Inicialmente repetir os procedimentos de 1 a 4, conforme descrito em

6.2.1;
2. Calcular a amplitude interquartil, AIQ = Q3 – Q1, que servirá de base

para determinação dos valores máximo e mínimo.
AIQ = Q3 – Q1  AIQ = 2500 – 2365 = 135
3. Cálculos dos limites superior e inferior
Limite superior Q3 + 1,5*AIQ  2500 + 1,5*135 = 2702,50
Limite inferior: Q1 – 1,5*AIQ 2500 – 1,5*135 = 2162,50
Nota: o valor 1,5 é da fórmula.
4. Traçar as linhas para os limites máximo e mínimo, assinalando como

limites máximo e mínimo os valores 2702,50 e 2162,50,
respectivamente.
5. Na eventualidade da existência, nos dados, de valores que estejam

fora dos limites máximo e mínimo, isto é, acima de 2702,50 ou abaixo de
2162,50 serão considerados como discrepantes (outliers), que são
representados pelo símbolo *.
Na figura a seguir incluímos linhas que mostram a posição dos

limites. Essas linhas foram desenhadas para mostrar como os limites são
calculados e onde elas são assinaladas para os dados dos salários.
Embora os limites sejam sempre calculados, eles raramente são
desenhados nas plotagens de retângulos.
Gráfico – Box-plot de Salários, com indicação de limites inferior e
superior.
Vantagens do uso dos procedimentos da análise das separatrizes:
 são fáceis de usar;
 poucos cálculos numéricos são necessários.
 simplesmente classificamos os valores dos dados em ordem

ascendente e identificamos a regra dos cinco itens;
 A plotagem dos retângulos, também chamados de Diagrama de

Caixas ou Box-plot pode então ser facilmente construída.
 não é necessário calcular a média e o desvio padrão dos dados.
1.6 Medidas de Dispersão
Além das medidas de tendência central dados podem ser

descritos em termos de suas Medidas de Dispersão (Variabilidade) que,
diferentemente das Medidas de Tendência Central, visam descrever os
dados no sentido de informar o grau de dispersão ou afastamento dos
valores observados em torno de um valor central representativo
chamado média. Informa se um conjunto de dados é homogêneo (pouca
variabilidade) ou heterogêneo (muita variabilidade).
Para estudarmos as medidas de variabilidade para dados não

tabelados usaremos um exemplo prático. Supomos que uma empresa
esteja querendo contratar um funcionário, e no final da concorrência

sobraram dois candidatos para uma única vaga. Então foi dado 4 tarefas
para cada um, onde as mesmas tiveram como registro o tempo (em
minutos) de execução.
Assim para a série

TAREFAS 1 2 3 4
OPERÁRIO 1 5 4 5 4
(TEMPO) 5 5 2 8
OPERÁRIO 2 3 7 4 6
(TEMPO) 0 0 0 0
Ainda que a média dos tempos seja a mesma para os dois

operários, pode-se observar que a variabilidade entre os dois operários é
diferente.
Pela análise gráfica podemos perceber que o operário 1 apresenta

uma dispersão menor dos tempos, quando comparado com o operário 2,
ainda que o tempo médio para os dois operários seja de 50.
1.6.1 Medidas de Variabilidade e Dispersão Absolutas
As medidas de dispersão são classificadas entre Absolutas e

Relativas.
1.6.1.1 Desvio Extremo ou Amplitude Total (R): É a diferença

entre o maior e o menor valor de um conjunto de dados
R = Xmax – X min
Para o exemplo dos Operários:
para A) Xmáx = 55 Xmin = 48  R = 55 – 48 = 7
para B) Xmáx = 70 Xmin = 30  R = 70 – 30 = 40
Apesar dos inconvenientes dessa medida, há situações especiais

em que ela resulta satisfatória, como por exemplo, da amplitude da
temperatura em um dia ou ano.
1.6.1.1 Desvio Médio (Dm ):
O desvio médio (Dm) ou média dos desvios é igual à média

aritmética dos valores absolutos dos desvios tomados em relação à
média.
Quando os valores não vierem dispostos em uma tabela de

freqüência, o desvio médio será calculado, de acordo com a definição,
através do emprego da seguinte fórmula:
n
∑x i −x
Dm = i =1
,
n
Exemplo: calcular o desvio médio dos dados abaixo:
200
A = { 55, 45, 52, 48} , média = = 50,00
4
xi média |xi - média|

5 50 | 55 – 50 | = 5
5
4 50 | 45 – 50 | = 5
5
5 50 | 52 – 50 | = 2
2
4 50 | 48 – 50 | = 2
8
∑ 14
14
Pela fórmula, Dm = = 3,50
4
O Desvio Médio tem aplicação restrita, não sendo comum o seu uso no
dia a dia em cálculos estatísticos.
1.6.1.3 Variância
a) Para dados Populacionais não tabulados
Dessa forma, o cálculo da Variância para dados não agrupados em

classes é dado por:
∑( x −x ) 2 (∑ x) 2
i
que por transformação temos: ∑x 2
−
n
σ =
2
, σ2 =
n n
Utilizando-se dos mesmos dados do exemplo de Desvio Médio

Absoluto, o cálculo da variância é dado por:
A = {55 45 52 48 }
Resolução:
xi x2
55 3025
45 2025
52 2704
48 2304
∑ 200 10058
∑( x − x )
2 (∑ x) 2
(200) 2
i
= ∑x 2
−
n =
10058 −
4 = 14,50
σ2 = , σ2 =
n n 4
b) Para os dados Populacionais Tabulados em distribuição de

freqüências
A variância para os dados agrupados em Classes , é dada por:

∑ ( x − x)
2
Fi
σ 2
=
i
, podendo ser também expressa da seguinte maneira:
∑ Fi
(∑ xiFi) 2
∑ xi 2 Fi −
σ2 =
∑ Fi
∑ Fi
xi = ponto médio da classe
Fi = freqüência dos dados na classe
Exemplo: Calcular o Desvio Padrão Populacional dos dados abaixo:
Consumo Fi
05 |---
25 4
25 |---
45 6
45 |--- 1
65 4
65 |--- 2
85 6
∑ 5
0
Resolução
Consumo Fi Xi = PM xi2*Fi xi*Fi

05 |--- 15 152 * 4 = 15 * 4 =
25 4 900 60
25 |--- 35 352 * 6 = 35 * 6 =
45 6 7350 210
45 |--- 1 55 552 * 14 = 55 * 14 =
65 4 42350 770
65 |--- 2 75 752 * 26 = 75 * 26 =
85 6 146250 1950
∑ 5 - 1968 29
0 50 90
(∑ xiFi) 2
∑ ( x − x ) Fi = ∑ xi 2 Fi − (2990) 2
2
= 196850 −
σ2 =
i
∑ Fi 50
= 360,96
∑ Fi ∑ Fi 50
1.6.1.4 Desvio Padrão

Observando a fórmula para os cálculos da variância, notamos

tratar-se de uma soma de quadrados. Dessa forma, se a unidade da
variável for, por exemplo, metros (m), teremos como resultado metro
quadrado (m2). Para voltarmos à variável original, necessitamos definir
uma outra medida de dispersão que é a raiz quadrada da variância
denominado de desvio padrão. Assim:
σ = σ 2 é o desvio padrão populacional
S= S 2 é o desvio padrão amostral
Em suma, para o cálculo do desvio padrão deve primeiramente

determinar o valor da variância e, em seguida extrair a raiz quadrada
desse resultado.
a) Para dados populacionais não tabelados:
(∑ x ) 2
Para populações = ∑ x2 − n
σ=
n
b) Para dados populacionais tabelados
(∑ xFi) 2
∑x 2
Fi −
Para populações
σ=
∑F
∑F
(n - 1) é usado como um fator de correção, onde devemos considerar a variância

amostral como uma estimativa da variância populacional. σ2, para a população, com
denominador igual ao número de dados n; S2, para a amostras, com denominador igual
ao número de dados menos um, n – 1
1.6.1.5 Variância e Desvio padrão para dados amostrais
Quando se trata de dados amostrais (situação mais comum)deve-

se trabalhar com um grau de liberdade a menos, isto é, em vez de se
fazer a divisão por n , dividi-se por n – 1, isto decorre pelo fato de, para
o cálculo tanto da variância quanto para o desvio padrão tem-se como
referência para o cálculo dos afastamentos o valor da média.
Uma vez que a média é calculada à partir dos próprios dados

existe a necessidade de se descontar esse valor, motivo pelo qual a
divisão passa a ser feita por n – 1.
Na prática, para grandes conjuntos de dados (mais do que 30

dados) as diferenças obtidas entre os valores dos desvios e variâncias
populacionais com os respectivos correspondentes amostrais são
desprezíveis.
a) Variância Amostral
- para dados não tabulados
∑( x −x ) 2 (∑ x) 2
i
= ∑x 2
−
n
s =
2
, s2 =
n −1 n −1
Para o exemplo dado o valor da variância fica assim recalculado
∑( x −x ) 2 (∑ x) 2
(200) 2
i
= ∑x 2
−
n =
10058 −
4 = 19,33
s2 = , s2 =
n −1 n −1 4 −1
- Para os dados tabulados em distribuição de freqüências
(∑ xiFi) 2
∑ xi 2
Fi −
∑ ( x − x ) Fi = ∑ Fi
2
i
s 2
=
∑ Fi − 1 ∑ Fi − 1
Para o exemplo dado o valor da variância fica assim recalculado
(∑ xiFi) 2
∑ ( x − x ) Fi = ∑ xi 2 Fi − (2990) 2
2
= 196850 −
s 2
=
i
∑ Fi 50
= 368,33
∑ Fi − 1 ∑ Fi − 1 50 − 1
b) Desvio padrão amostral
- para dados não tabulados
∑ (x − x) ( x)
− ∑
2
∑x
2 2
s=  n
n− 1 s=
n− 1
- para dados tabulados em distribuições de freqüências
(∑ xFi) 2
∑ (x − x) F
2
∑x 2
Fi −
s=
∑F −1 s=
∑F
∑ F −1
1.6.2 Medidas de Dispersão Relativa
1.6.2.1 Coeficiente de Variação de Pearson
Trata-se de uma medida relativa de dispersão, útil para a

comparação em termos relativos do grau de concentração em torno da
média de séries distintas. É dado por:
σ S
C.V . = ou C.V . =
x x
Exemplo: Numa empresa, o salário médio dos homens é de R$

4.000,00, com desvio padrão R$ 1.500,00, e o das mulheres é em média
de R$ 3.000,00, com desvio padrão de R$ 1.200,00. Calcule o C.V. %
σ 1500,00
Para os homens C.V . = = = 0,375 ou 37,5%
x 4000,00
σ 1200,00
Para as mulheres C.V . = = = 0,4 ou 40,0%
x 3000,00
Logo, podemos concluir que os salários das mulheres apresentam

maior dispersão relativa que os dos homens.
Para efeitos práticos:
Considera-se que um Coeficiente de Variação superior a 30%

indica alto grau de dispersão e, conseqüentemente, pequena
representatividade da média devendo a média obtida ser vista com
restrições, no entanto, se o CV% for superior a 50% isto é um indicador
que a média não representa adequadamente o conjunto dos dados
Quantos menores os valores CV tanto mais representativa o valor

da média. Se não houver dispersão alguma o coeficiente de variação
será igual 0 o que indica que todos os valores são iguais ao valor da
média.
1.6 Medidas de Assimetria e Curtose
1.6.1 Assimetria
É o grau de desvio ou afastamento da distribuição. Os coeficientes

de assimetria ou Pearson determina a forma da curva do polígono de
freqüência de uma distribuição.
Quando uma distribuição é simétrica, as medidas de média,

mediana e moda coincidem. Porém, a assimetria torna-as diferentes e
essa diferença é tanto maior quanto maior é a assimetria. Assim, em
uma distribuição temos:
Mo = Md = x → curva simétrica
Mo < Md < x → curva assimétrica negativa
x <Md < Mo → curva assimétrica positiva

Curva assimétrica negativa Curva

assimétrica positiva
a) Coeficientes de Assimetria
Uma vez conhecidos as medidas de posição e variabilidade é

possível calcular o coeficiente de Assimetria que é dado por:
3 ( X − Med )
As =
S
Assim temos: As = 0 a distribuição é simétrica
As > 0 a distribuição é assimétrica positiva ou à

direita
As < 0 a distribuição é assimétrica negativa ou

esquerda
b) Escalas de assimetria:
Em termos de magnitude, temos:
| AS | < 0,15 assimetria pequena
0,15 < | AS | < 1 assimetria moderada
| AS | > 1 assimetria elevada

Obs: Suponhamos AS = - 0,49 a assimetria é considerada moderada e

negativa
Suponhamos AS = 0,75  a assimetria é considerada moderada e

positiva
1.6.2 Curtose
Entende-se por curtose o grau de afastamento de uma distribuição. Com

referencia ao grau de achatamento, podemos ter:
⇒ CURVA PLATICÚRTICA
⇒ CURVA MESOCÚRTICA
⇒ CURVA LEPTOCÚRTICA
Para medir o grau de curtose utilizamos o coeficiente:
Q3 − Q1
K=
2 ( P90 − P10 )
Se K = 0,263 diremos que a curva correspondente à distribuição de

freqüência é mesocúrtica (distribuição. Normal)
Se K > 0,263 diremos que a curva correspondente à distribuição de

freqüência é platicúrtica
Se K < 0,263 diremos que a curva correspondente à distribuição de

freqüência é leptocúrtica

EST0209MFQ - 01 Estatistica Descritiva

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

EST0209MFQ - 01 Estatistica Descritiva

Enviado por

Direitos autorais:

Formatos disponíveis

1.

Objetivo(s): introdução aos principais conceitos do que é estatística seus

1.1 Dados Estatísticos

Dado estatístico: é qualquer característica que possa ser

• Variável: É aquilo que se deseja observar para se tirar algum tipo de

1.1.1.1 Variáveis Qualitativas (ou atributos)

Em uma pesquisa que envolve pessoas, por exemplo, as variáveis

a) Nominal: são utilizados símbolos, ou números, para representar

b) Ordinal ou por postos: quando uma classificação for dividida em

1.1.1.2 Variáveis Quantitativas:

Quando as variáveis são, por exemplo, altura, peso, idade em anos

discretas, quanto se trata de contagem (números inteiros) ou contínuas,

a) Discretas: são aquelas variáveis que pode assumir somente valores

b) Contínuas: são aquelas variáveis que podem assumir um valor

Para se fazer uma idéia concreta da variável contínua, basta

QUADRO RESUMO DOS TIPOS DE VARIÁVEIS DE UMA PESQUISA

As distinções são menos rígidas do que a descrição acima insinua.

geral é recomendado manter os dados em sua forma original,

1.1.2 Usos e Abusos da Estatística

1.1.2.1 Usos da Estatística

As Aplicações da estatística se desenvolveram de tal forma que,

 Os fabricantes fornecem melhores produtos a custos menores

 Controlam-se doenças com o auxilio de análises que antecipam

 Espécies ameaçadas são protegidas por regulamentos e leis que

 Visando reduzir as taxas de casos fatais, os legisladores têm

1.1.2.1 Abusos da Estatística

Não é de hoje que ocorrem abusos com a estatística.

Assim é que , há cerca de um século, o estadista Benjamin Disraeli

“Há três tipos de mentiras: as mentiras, as mentiras sérias e as

Já se disse também que “os números não mentem; mas os

“se torturarmos os dados por bastante tempo, eles acabam por

Todas essas afirmações se referem aos abusos da estatística

 Estimativas por suposição

1.2 Distribuições de Freqüências

É o tipo de série estatística na qual permanece constante o fato, o

Tabela: distribuição de freqüências dos pesos corporais de uma amostra.

Uma distribuição de freqüência pode ser para dois tipos, quais

1.2.1 Distribuição de Freqüência para Variável Discreta

Recomenda-se seu uso quanto o número de observações for

Ex. Seja um grupo com 30 estudantes, onde 10 sejam de Sorocaba; 9 de

Cidade N.o Estudantes

1.2.2 Distribuição de Freqüências para variáveis Contínuas

Muitas vezes, mesmo com o risco de se sacrificar algum detalhe,

Normalmente esse tipo de Distribuição de Freqüências deve ser

Os resultados obtidos deverão ser dispostos em classes que

Exemplo: Sejam os dados brutos abaixo as alturas de 40 alunos:

1,67 1,83 1,60 1,97 1,70

Uma vez construída a distribuição de freqüências esta ficará da

Para passarmos as etapas que permitem construir uma

1.2.3 Elementos de uma Distribuição de Freqüências:

Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na

Quantas classes serão necessárias para representar o fato?

Para determinar o número de classes a partir dos dados não

uma tabela de freqüência. O que se deseja fazer é apenas comprimir um

a) Fórmula de Sturges K = 1 + 3.3log (n) , onde “n” é no de

b) Proposta de Trumam L. Kelley

Limite de Classe (Li ou Ls): São os valores extremos de cada

Li = limite inferior da i-ésima classe;

Limites Inferiores de Classe Limites Superiores de Classe

1,45 |------ 1,55

Existem várias maneiras de apresentarmos o intervalo de classe,

Amplitude do intervalo de classe (h): É a diferença entre dois

Calculando h para cada classe