Você está na página 1de 55

1.

Estatística Descritiva
Introdução: Neste tópico será apresentado aos alunos os principais usos
da Estatística, seus usos no Estado e Empresas, bem como as definições
do que seja um dado estatístico e os principais tipos e elementos que
dizem respeito a uma representação tabular.

Objetivo(s): introdução aos principais conceitos do que é estatística seus


usos e aplicações

1.1 Dados Estatísticos

Dado estatístico: é qualquer característica que possa ser


observada ou medida de alguma maneira. A matéria-prima da estatística
são os dados observáveis.

1.1.1 Variáveis

• Variável: É aquilo que se deseja observar para se tirar algum tipo de


conclusão, geralmente a variável para estudo são selecionadas por
processos de amostragem. Os símbolos utilizados para representar as
variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, ... que
pode assumir qualquer valor de um conjunto de dados. As variáveis
podem ser de dois tipos: Qualitativas e Quantitativas.:

1.1.1.1 Variáveis Qualitativas (ou atributos)

Em uma pesquisa que envolve pessoas, por exemplo, as variáveis


consideradas podem ser: sexo, cor de cabelo, esporte favorito e grau de
instrução. Nesse caso dizemos que as variáveis dão qualitativas, pois
apresentam como possíveis valores uma qualidade (ou atributo) dos
indivíduos pesquisados Além disso, dizemos que as variáveis qualitativas
podem ser ordinais, quando existe uma ordem nos seus valores, ou
nominais, quando isso não ocorre.

a) Nominal: são utilizados símbolos, ou números, para representar


determinado tipo de dados, mostrando, assim, a qual grupo ou categoria
eles pertencem, estado civil, religião são consideradas variáveis
qualitativas nominais..

b) Ordinal ou por postos: quando uma classificação for dividida em


categorias ordenadas em graus convencionados, havendo uma relação
entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, os
dados por postos consistem de valores relativos atribuídos para denotar
a ordem de primeiro, segundo, terceiro e, assim, sucessivamente.

1.1.1.2 Variáveis Quantitativas:

Quando as variáveis são, por exemplo, altura, peso, idade em anos


e número de irmãos, dizemos que elas são quantitativas, pois seus
possíveis valores são números. As variáveis quantitativas podem ser
Estatística Descritiva - 1.2

discretas, quanto se trata de contagem (números inteiros) ou contínuas,


quando se trata de medida (números reais).

a) Discretas: são aquelas variáveis que pode assumir somente valores


inteiros num conjunto de valores. É gerada pelo processo de contagem,
como o número de veículos que passa em um posto de gasolina, o
número de estudantes nesta sala de aula.

b) Contínuas: são aquelas variáveis que podem assumir um valor


dentro de um intervalo de valores. É gerada pelo processo de medição.
Neste caso serve como exemplo o volume de água em um reservatório
ou o peso de um pacote de cereal.

Para se fazer uma idéia concreta da variável contínua, basta


pensar em um filete de mercúrio de um termômetro. Ao dilatar-se o filete
da temperatura a para b, passará por todas as temperaturas
intermediárias. “Altura” é uma variável quantitativa contínua, uma vez
que pode ser medida (1,55m, 1,80m, 1,73m...).

QUADRO RESUMO DOS TIPOS DE VARIÁVEIS DE UMA PESQUISA

 Nominal
Qualitativ
a
 Ordinal

Variável


Quantitati Discreta
va
 Contínua

Tipos de Variáveis
Populações Quantitativas Qualitativas
Contínua Discreta Nominal Ordinal
Alunos de No na Conceito Final A,
Idade, peso sexo
Graduação Classe B ou R
Velocidade N.o de
Automóveis Cores Limpeza
km/h defeitos
Venda de Valor em No de Tipo de Muito
Imóveis reais oferta imóvel dispendioso

As distinções são menos rígidas do que a descrição acima insinua.


Por exemplo, em geral nós trataríamos idade como uma variável
contínua, mas se a idade for registrada pelo ano mais próximo, podemos
tratá-la como discreta, e se separarmos a amostra em “crianças”,
“adultos jovens”, “idade média”, “velhos”, por exemplo, então temos
faixa etária como uma variável ordenada categórica. No entanto, em
Estatística Descritiva - 1.3

geral é recomendado manter os dados em sua forma original,


categorizando os dados somente para propósitos de apresentação.

1.1.2 Usos e Abusos da Estatística

1.1.2.1 Usos da Estatística

As Aplicações da estatística se desenvolveram de tal forma que,


hoje, praticamente todo o campo de estudo se beneficia da utilização de
métodos estatísticos.

 Os fabricantes fornecem melhores produtos a custos menores


através de técnicas de controle de qualidade.

 Controlam-se doenças com o auxilio de análises que antecipam


epidemias.

 Espécies ameaçadas são protegidas por regulamentos e leis que


reagem a estimativas estatísticas de modificação de tamanho da
população.

 Visando reduzir as taxas de casos fatais, os legisladores têm


melhor justificativas para leis como as que regem a poluição
atmosférica, inspeções de automóveis, utilização de cinto de
segurança, etc.

1.1.2.1 Abusos da Estatística

Não é de hoje que ocorrem abusos com a estatística.

Assim é que , há cerca de um século, o estadista Benjamin Disraeli


disse:

“Há três tipos de mentiras: as mentiras, as mentiras sérias e as


estatísticas”.

Já se disse também que “os números não mentem; mas os


mentirosos forjam os números” e que:

“se torturarmos os dados por bastante tempo, eles acabam por


admitir qualquer coisa”.

Todas essas afirmações se referem aos abusos da estatística


quando os dados são apresentados de forma enganosa.

Eis alguns exemplos das diversas maneiras como os dados podem ser
distorcidos.

 Pequenas amostras

 Números imprecisos
Estatística Descritiva - 1.4

 Estimativas por suposição

 Porcentagens distorcidas

 Cifras parciais

 Distorções deliberadas

 Perguntas tendenciosas

 Gráficos enganosos

 Pressão do pesquisador

 Más amostras
Estatística Descritiva - 1.5

1.2 Distribuições de Freqüências

É o tipo de série estatística na qual permanece constante o fato, o


local e a época. Os dados são colocados em classes preestabelecidas,
registrando a freqüência de ocorrência.

Exemplo:

Tabela: distribuição de freqüências dos pesos corporais de uma amostra.


P Freqüên Freq.
esos cia Acumulada
64 51 51
65 100 151
66 22 173
67 14 187
Tota 187
l

Uma distribuição de freqüência pode ser para dois tipos, quais


sejam para variáveis discretas e para variáveis contínuas.

1.2.1 Distribuição de Freqüência para Variável Discreta

Recomenda-se seu uso quanto o número de observações for


grande, mas os valores distintos são poucos.

Ex. Seja um grupo com 30 estudantes, onde 10 sejam de Sorocaba; 9 de


Votorantin; 5 de Salto de Pirapora; 4 de Pilar do Sul e 2 de São Miguel.

Cidade N.o Estudantes


(Fi)
Sorocaba 10
Votorantin 9
Salto de 5
Pirapora
Pilar do Sul 4
São Miguel 2
Total 30

1.2.2 Distribuição de Freqüências para variáveis Contínuas

Muitas vezes, mesmo com o risco de se sacrificar algum detalhe,


que pode ser observado na ordenação de valores individuais, há
vantagem em resumir os dados originais em uma distribuição de
freqüências, onde os valores observados não mais aparecerão
individualmente, mas agrupados em classes
Estatística Descritiva - 1.6

Normalmente esse tipo de Distribuição de Freqüências deve ser


utilizado quando o número de observações é grande e o número de
valores distintos que a variável assume também for grande.

Os resultados obtidos deverão ser dispostos em classes que


possuam amplitudes dentro das quais se incluirão os dados
Estatística Descritiva - 1.7

Exemplo: Sejam os dados brutos abaixo as alturas de 40 alunos:

1,67 1,83 1,60 1,97 1,70


1,73 1,92 1,73 1,85 1,71
1,80 1,58 1,67 1,78 1,78
1,98 1,87 1,50 1,49 1,75
1,49 1,63 1,84 1,69 1,64
1,52 1,84 1,62 1,74 1,72
1,60 1,88 1,70 1,64 1,65
1,59 1,53 1,86 1,68 1,69

Uma vez construída a distribuição de freqüências esta ficará da


seguinte forma:

Alturas N.o de
Alunos
1,45 |------ 5
1,55
1,55 |------ 8
1,65
1,65 |------ 13
1,75
1,75 |------ 7
1,85
1,85 |------ 5
1,95
1,95 |------ 2
2,05
Total 40

Para passarmos as etapas que permitem construir uma


Distribuição de Freqüências é necessário, preliminarmente, conhecermos
quais são os principais elementos que a compõem.

1.2.3 Elementos de uma Distribuição de Freqüências:

Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na


qual dividimos o fenômeno.

Quantas classes serão necessárias para representar o fato?


Existem vários critérios que podem ser utilizados a fim de possuirmos
uma idéia do melhor número de classes servindo, no entanto, como uma
indicação, uma vez que a melhor escolha dependerá, antes de qualquer
coisa, da natureza dos dados, e de qual resultado se deseja chegar,
devendo dessa forma o pesquisador procurar o método que lhe
proporcione a melhor divisão.

Para determinar o número de classes a partir dos dados não


tabelados, podemos usar a Fórmula de Sturges, mas deve-se saber
que existem outros métodos de determinação do número de classes em
Estatística Descritiva - 1.8

uma tabela de freqüência. O que se deseja fazer é apenas comprimir um


conjunto de dados em uma tabela, para facilitar a visualização e
interpretação dos mesmos.

a) Fórmula de Sturges K = 1 + 3.3log (n) , onde “n” é no de


informações.

b) Proposta de Trumam L. Kelley


N 5 10 25 50 100 200 500 1000
k 2 4 6 8 10 12 15 15
Estatística Descritiva - 1.9

c) Toledo e Ovale
número de
classes (k)
n.o de elementos observados mínimo
máximo
até 50 5 10
51 a 100 8 16
101 a 200 10 20
201 a 300 12 24
301 a 500 15 30
mais de 500 20 40

Além dessas existem outras fórmulas empíricas para resolver o problema para
determinação do número de classes [n(k)], há quem prefira n ) k ( n ≅ . Entretanto, a
verdade é que essas fórmulas não nos levam a uma decisão final; esta vai depender na
realidade de um julgamento pessoal, que deverá estar ligado à natureza dos dados,
procurando, sempre que possível, evitar classes com freqüências nulas ou freqüências
relativas exageradamente grandes.

Limite de Classe (Li ou Ls): São os valores extremos de cada


classe.

Li = limite inferior da i-ésima classe;


Ls = limite superior da i-ésima classe;

Exemplo:

Limites Inferiores de Classe Limites Superiores de Classe

1,45 |------ 1,55


1,55 |------ 1,65
1,65 |------ 1,75
1,75 |------ 1,85
1,85 |------ 1,95
1,95 |------ 2,05

Existem várias maneiras de apresentarmos o intervalo de classe,


iguais ou diferentes entre si. Porém, sempre que possível, deveremos
optar por intervalos iguais, o que facilitará os cálculos posteriores. Mas
mesmo com intervalos iguais, as distribuições poderão apresentar-se da
seguinte forma:

1,55 ---| 1,65 : compreende todos os valores entre 1,55 e 1,65, inclusive o
1,55 exclusive o 1,65
1,55 |--- 1,65 : compreende todos os valores entre 1,55 e 1,65, inclusive o
1,55 e exclusive o 1,65

Amplitude do intervalo de classe (h): É a diferença entre dois


limites inferiores ou superiores consecutivos.

h = Ls – Li
Estatística Descritiva - 1.10

Calculando h para cada classe

(1,55 – 1,45) = 0,10


(1,65 – 1,55) = 0,10
....
(1,95 – 1,85) = 0,10
(2,05 – 1,95) = 0,10

A amplitude do intervalo de classe deve ser constante em toda a distribuição de


freqüências intervalar.

Amplitude total ou Range (H): É a diferença entre o limite superior


da última classe e o limite inferior da 1ª classe, ou a diferença entre
último e o primeiro elemento de um conjunto de dados postos em ordem
crescente.

Dado por H = Vmaior – Vmenor no caso H = 1,98 – 1,49  H = 0,49

Ponto médio de classe (PM): É a média aritmética entre o limite


( Ls + Li )
inferior e o limite superior da classe, dado por PM =
2
Para o exemplo dado temos os seguintes PM para cada classe:

(1,45 + 1,55)/2 = 1,50


(1,55 + 1,65)/2 = 1,60
(1,65 + 1,75)/2 = 1,70
(1,75 + 1,85)/2 = 1,80
(1,85+ 1,95)/2 = 1,90
(1,95 + 2,05)/2 = 2,00

Quando substituirmos os intervalos de classes pelos pontos médios (Xi), ter-se-á


uma distribuição de freqüência pontual.

Freqüência absoluta (fi): É a quantidade de valores em cada classe

Freqüência Relativa (fr): É o quociente entre a freqüência absoluta


da i-ésima classe
com o somatório das freqüências.

Alturas N.o de Freqüência


Alunos= fi Relativa (fr)
1,45 |------ 5 0,1250
1,55
1,55 |------ 8 0,2000
1,65
1,65 |------ 13 0,3250
1,75
1,75 |------ 7 0,1750
1,85
1,85 |------ 5 0,1250
Estatística Descritiva - 1.11

1,95
1,95 |------ 2 0,0500
2,05
Total 40 1,0000

A freqüência relativa pode ser representada na forma de porcentagem, bastando


para isso multiplicar os seus valores por 100. Pode ainda, calcular as freqüências
acumuladas tanto para os valores absolutos quanto para os valores relativos.

1.2.4 Construção de uma distribuição de freqüências

Para construirmos uma Distribuição de Freqüências as etapas a


serem seguidas são as seguintes:

1º - Determine o número de classes (K) , lembrando que qualquer regra


para determinação do nº de classes da tabela não nos levam a uma
decisão final; esta vai depender, na realidade de um julgamento pessoal,
que deve estar ligado à natureza dos dados.

− Vmenor
Vmaior
2o – Calcule a amplitude de classe  h =
k
 o resultado obtido em h deve ser sempre arredondado para maior, de forma a
garantir que todos os dados sejam incluídos na distribuição de freqüências. Importante
frisar que tanto a primeira classe quanto a última não devem ficar sem dados.

3º - Escolher o limite inferior da primeira classe, que será o ponto de


partida

 Em alguns casos o arredondamento utilizado– que deve ser sempre para maior –
pode implicar que a última classe fique sem elementos, para isso, uma alternativa seria
começar a primeira classe com um valor inferior ao menor valor dos dados.

4º - Somar a Amplitude de classe (h) a esse ponto de partida e assim


sucessivamente, constituindo cada intervalo em uma classe distinta;

5º - Distribuir os dados nas respectivas classes.

 Notas Importantes: A última classe deve conter pelo menos um elemento dos
dados;
Não devem existir dados sem classe

Dependendo do arredondamento a construção de uma distribuição de


freqüências é um processo de tentativa e erro que depende, em certa medida da
experiência e da necessidade de quem a constrói

Seja o exemplo:

Dividir os dados abaixo em 5 classes (k =5)

1,49 1,60 1,68 1,73 1,84 1,49 1,62 1,69


1,74 1,85 1,50 1,63 1,69 1,75 1,86 1,52
Estatística Descritiva - 1.12

1,64 1,70 1,78 1,87 1,53 1,64 1,70 1,78


1,88 1,58 1,65 1,71 1,80 1,92 1,59 1,67
1,72 1,83 1,97 1,60 1,67 1,73 1,84 1,98

Resolução

1) Decidir o Número de Classes K = 5;

2) Determinar a amplitude de classe (h), que vai ser dado por:

Vmaior − Vmenor 1,98 − 1,49


h= = = 0,098 = 0,10
k 5

3) Escolher o limite inferior da primeira classe, que será o ponto de


partida = 1,49
Estatística Descritiva - 1.13

4) Somar a Amplitude de classe (h) a esse ponto de partida e assim


sucessivamente, constituindo cada intervalo em uma classe distinta;

1,49 + 0,10 = 1,59  1,49 |----- 1,59


1,59 + 0,10 = 1,69  1,59 |----- 1,69
1,69 + 0,10 = 1,79  1,69 |----- 1,79
1,79 + 0,10 = 1,89  1,79 |----- 1,89
1,89 + 0,10 = 1,99  1,89 |----- 1,99

5. Distribuir os dados nas classes

Classes Dados
1,49 |----- 1,59 1,49 1,49 1,50 1,52 1,53 1,58
1,59 |----- 1,69 1,59 1,60 1,60 1,62 1,63 1,64 1,64 1,65 1,67
1,67 1,68
1,69 |----- 1,79 1,69 1,69 1,70 1,70 1,71 1,72 1,73 1,73 1,74
1,75 1,78 1,78
1,79 |----- 1,89 1,80 1,83 1,84 1,84 1,85 1,86 1,87 1,88
1,89 |----- 1,99 1,92 1,97 1,98

Nota: intervalo fechado inclui o valor; se aberto não

1,49 pertence a essa classe |------- 1,59 não pertence a essa classe

Uma vez distribuídos os dados a Distribuição de Freqüências fica da


seguinte forma:

Alturas Alunos
1,49 |----- 1,59 6
1,59 |----- 1,69 11
1,69 |----- 1,79 12
1,79 |----- 1,89 8
1,89 |----- 1,99 3
Total 40

1.2.5 Construção de um Histograma

Construída a distribuição de freqüências temos que a quantidade


de informação fornecida por uma amostra é tanto maior quanto maior é
a quantidade de dados. No caso de uma tabela com muito longa é claro
que a sua interpretação fica difícil, para dar uma visão rápida e objetiva
da questão, existe uma ferramenta denominada Histograma.
Estatística Descritiva - 1.14

Alturas Alunos No eixo


No Eixo 1,49 |----- 1,59 6 Vertical
horizontal 1,59 |----- 1,69 11 colocam-se
colocam-se as 1,69 |----- 1,79 12 as
Classes, no 1,79 |----- 1,89 8 Freqüências,
caso, as 1,89 |----- 1,99 3 no caso, o
Alturas Total 40 número de
alunos
Estatística Descritiva - 1.15

Freqüências

1,49 1,59 1,69 1,79 1,89 1,99

1.3 Representação gráfica

Os gráficos são formas de apresentação visual dos dados.


Normalmente, contém menos informações que as tabelas, mas são,
contudo de mais leitura. A escolha do modelo ideal de representação
gráfica depende das preferências e do senso estético do elaborador.

As principais vantagens para o uso de gráficos são:

Permitem a síntese dos resultados;

Auxiliam o pesquisador na análise dos dados e

Facilitam a compreensão das conclusões do autor.

1.3.1 Origem dos Gráficos

O diagrama cartesiano é a figura geométrica que deu origem à


técnica de construção de gráficos estatísticos. Utiliza-se o primeiro
quadrante do sistema de eixos coordenados cartesianos ortogonais, nos
quais o eixo vertical corresponde às freqüências dos dados, e o eixo
horizontal ao valor das variáveis.

Ordenadas,
correspond
em ao eixo
y

Abscissas correspondem ao
eixo x

1.3.2 Normas para elaboração de Gráficos

Deve facilitar a interpretação dos dados para um leigo;


Estatística Descritiva - 1.16

Não há a necessidade de se colocar título se estiver na mesma página da


tabela correspondente;

Há a necessidade de se colocar o título se a tabela correspondente não


estiver na mesma página.

O senso estético individual determina o espaço do gráfico (Largura x


Altura);

As colunas, barras, linhas e áreas gráficas devem ser ordenadas de


modo crescente ou decrescente, mas a ordem cronológica prevalece;

1.3.3 Tipos de Gráficos

` Com o avanço da computação os recursos para a construção de


Gráficos ampliaram-se muito, no entanto, para determinadas situações
existem os tipos mais recomendáveis que cujos alguns exemplos serão
apresentados a seguir, o que não impede que outros tipos também
possam ser criados.

1.3.3.1 O diagrama de ramo e folha

Um diagrama de ramos e folha separa entrada de dados em


“dígitos ramos” em “dígitos folhas” , sendo um diagrama muito útil para
uma primeira análise dos dados.

• Passos para construir um diagrama de ramo e folha:

Suponha a série de dados, que representam as notas de alunos numa


escala que vais de 0 a 10.

1, 2, 3, 3, 3, 4, 4, 5, 5, 5,
2 3 3 7 8 0 5 5 6 5
2, 2, 3, 3, 4, 4, 4, 5, 5, 5,
3 8 3 1 9 5 1 3 6 3
2, 2, 3, 3, 4, 8, 4, 5, 6, 7,
6 3 9 2 1 8 9 5 7 0
2, 2, 3, 3, 4, 4, 4, 4, 4, 5,
4 9 8 8 7 4 1 1 2 0

1. Encontrar o valor mínimo e máximo dos dados, no caso da escola 1, o


mínimo é 1,2 e o máximo 8,8

2. Como a variável toma valores entre zero e dez pode-se convencionar


que o ramo é a unidade e a folha é a casa decimal

3. A partir dai examina-se cada valor e coloca-se a parte decimal na


folha. O valor zero, significa que há informação e que é um número
inteiro. Já quando naquele valor inteiro não existe observações, não
colocar nada, deixar em branco

4. Ordenar os ramos
Estatística Descritiva - 1.17

Original  Organizado
Ramo Folha Ramo Folha
(unidad (decimal) (unidad (decimal)
e) e)
1 2 1 2
2 3643839 2 3334689
3 339871288 3 123378889
4 0595119741 4 0111124557
12 99
5 05653635 5 03355566
6 7 6 7
7 0 7 0
8 8 8 8
Estatística Descritiva - 1.18

Colocando os resultados de três classes simultaneamente:

R Escola 1 Escola 2 Escola 3 Geral


amo
1 2 2
2 3334689 3 3 3333334689
3 123378889 0033 012333378889
4 0111124557 345555689 011112344555555
99 678999
5 03355566 334555567 033334555555566
67
6 7 55 12223 12223557
7 0 377888 0 00377888
8 8 35677899 356778899
9 2449 2449
10 00 00

Observe que independente de qualquer análise mais aprofundada é possível


“visualizar” as diferenças entre as três classes quanto ao desempenho das mesmas, e
que neste caso o diagrama de ramo e folhas faz às vezes do histograma.

1.3.3.2 Gráficos de Linhas

Usado para ilustrar uma série temporal.

Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³)

Fonte: Conjuntura Econômica (Fev. 1983)

1.3.3.3 Gráfico de linhas comparativas

População Urbana do Brasil por Região de 1940 a 1980 (x 1000)


Estatística Descritiva - 1.19

Fonte: Anuário Estatístico (1984)


Estatística Descritiva - 1.20

1.3.3.4 Gráficos de colunas ou barras

Representação gráfica da distribuição de freqüências. Este gráfico


é utilizado para variáveis nominais e ordinais.

Características:
- todas as barras devem ter a mesma largura
- devem existir espaços entre as barras

Usado para ilustrar qualquer tipo de série.

População Urbana do Brasil em 1980 (x 1000)

Fonte: Anuário Estatístico (1984)

As larguras das barras que deverão ser todas iguais podendo ser adotado qualquer
dimensão, desde que seja
conveniente e desde que não se superponham. O número no topo de cada barra pode
ou não omitido, se
forem conservada, a escala vertical pode ser omitida.

1.3.3.5 Gráfico de Barras Horizontais

As regras usadas para o gráfico de barras são iguais às usadas para o


gráfico de colunas.

População Urbana do Brasil em 1980 (x 1000)

Fonte: Anuário Estatístico (1984)

Assim como os gráficos de Colunas podem ser construídos gráficos de barras


comparativas.
Estatística Descritiva - 1.21

1.3.3.6 Gráficos circulares ou de Setores (Pie Charts)

Representação gráfica da freqüência relativa (percentagem) de


cada categoria da variável. Este gráfico é utilizado para variáveis
nominais e ordinais. É uma opção ao gráfico de barras quando se
pretende dar ênfase à comparação das percentagens de cada categoria.
A construção do gráfico de setores segue uma regra de 3 simples, onde
as freqüências de cada classe correspondem ao ângulo que se deseja
representar em relação a freqüência total que representa o total de 360°.

Características:

- A área do gráfico equivale à totalidade de casos (360o = 100%);


- Cada “fatia” representa a percentagem de cada categoria

População Urbana e Rural do Brasil em 1980 (x 1000)

Fonte: Anuário Estatístico (1984)

1.3.3.7 Gráfico Pictorial - Pictograma

Tem por objetivo despertar a atenção do público em geral, muito


desses gráficos
apresentam grande dose de originalidade e de habilidade na arte de
apresentação dos dados.

Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x


1000)
Estatística Descritiva - 1.22

Fonte: Grandes números da educação brasileira março de 1996


Estatística Descritiva - 1.23

1.3.3.8 Gráfico Polar

É o tipo de gráfico ideal para representar séries temporais cíclicas,


ou seja, toda a série
que apresenta uma determinada periodicidade.

1.3.3.9 Cartograma

É a representação de uma carta geográfica. Este tipo de gráfico é


empregado quando o objetivo é o de figurar os dados estatísticos
diretamente relacionados com as áreas geográficas ou políticas

Dados absolutos (população) – usa-se pontos proporcionais aos


dados.

Dados relativos (densidade) – usa-se hacharas.

Exemplo:
População da Região Sul do Brasil - 1990
Estado População Área Densid
(hab.) (km2 )
2
ade
Paraná 9.137.700 199.324 45,8
Santa 4.461.400 95.318 46,8
Catarina
Rio Grande do 9.163.200 280.674 32,6
Sul
Total 22.762.300 575.316 39,56
Fonte: IBGE
Estatística Descritiva - 1.24
Estatística Descritiva - 1.25

1.3.3.10 Polígono de Freqüências

Esse tipo de Gráfico é construído à partir do Histograma

Altura em centímetros de 160 alunos do Curso de Administração da


UFSM - 1990

1.3.3.11 Ogivas

Altura em centímetros de 160 alunos do Curso de Administração da


UFSM – 1990

1.3.3.12 Gráfico em segmentos de reta vertical

É utilizado para representar uma distribuição de freqüência


pontual, onde os segmentos de reta são proporcionais às respectivas
freqüências absolutas.

Altura em centímetros de 160 alunos do Curso de Administração da Uniso - 1990


Estatística Descritiva - 1.26

Fonte: Uniso (2003)


Estatística Descritiva - 1.27

1.4 Medidas de Posição

Das diversas medidas que possibilitam condensar um conjunto de


dados, destacam-se as de tendência central, das quais a Média, a
Mediana e a Moda são as mais importantes, que são assim denominadas
em decorrência dos dados observados se agruparem em torno desses
valores centrais.

1.4.1 Média

É o valor típico, representativo de um conjunto de dados.


Fisicamente representa o ponto de equilíbrio da distribuição, sendo a
mais importante medida de tendência central. A média da amostral é
representada por , já quando estamos estudando a média da população
a média é representada pela letra grega µ.

1.4.1.1 Estimativa da Média

De acordo com a disposição dos dados a média pode ser estimada de


várias formas, conforme enumeradas abaixo:ar:

a) Para Dados Simples (dados não tabulados)

Sejam x1, x2, x3, . . ., xn, portanto “n” valores de X. A média


aritmética simples de x representada por x é definida por:

∑x i
, ou simplesmente x = ∑x
x= i =1
n
n

onde:

n é o número de elementos da amostra.

∑ x = soma dos valores de x


Exemplo: determinar a média aritmética simples dos valores 16, 18, 23,
21, 17, 16, 19 e 20, como podemos ver n = 8 (número de dados)

x=
∑ x = 16 + 18 + 23 + 21 + 17 + 16 + 19 + 20 = 150 = 18,75
n 8 8

b) Para valores Distintos (Dados Tabelados em distribuições de


freqüências)

Quando os dados estiverem agrupados numa distribuição de


freqüência, usaremos a média aritmética dos x1, x2, . . ., xn, ponderados
pelas respectivas freqüências absolutas F1, F2, . . . , Fn. Assim:
Estatística Descritiva - 1.28

∑x F
i =1
i i
∑ xF
x = , ou simplesmente x =
∑F
n

i
∑F
i =1
Onde:

∑ xF = Soma dos produtos – calculados linha por linha – dos valores de x


por sua freqüência (F),

∑F = Soma das freqüências (tamanho da amostra)

Exemplo: Sejam os dados abaixo:

x=2223334444555555555666666778

Como pode ser visto os dados de x, podem ser agrupados em


freqüências F, conforme a tabela abaixo:

xi Fi xiFi
2 3 6
3 3 9
4 4 16
5 9 45
6 6 36
7 2 14
8 1 8
Total 28 134

∑ xF 134
= 4,7857
x = =
∑F 28

c) Para dados Agrupados em Classes

No caso dos dados agrupados em classes, faz-se necessário


utilizar o ponto médio de cada classe (PM), como novo valor de x, para
proceder aos cálculos.

Exemplo: Calcular a média dos dados agrupados em uma distribuição


de freqüências na forma como se seguem:

Classes Fi xi xiFi
(PM)
39 |-- 50 4 44,5 178,
0
50 |-- 61 5 55,5 277,5
61 |-- 72 5 66,5 332,5
72 |-- 83 6 77,5 465,0
Estatística Descritiva - 1.29

83 |-- 94 5 88,5 442,5


Total 25 - 1695,
5

Obs.: PM = ponto médio de cada classe, ver módulo 3.

∑ xF 1695,5
= 67,82
x = =
∑F 25

1.4.1.2 Propriedades e emprego da média aritmética

1) Deseja-se obter a medida de posição que possui a maior estabilidade;

2) Houver necessidade de um tratamento algébrico;

3) A média aritmética tem certas propriedades interessantes e úteis, que


explicam por que é ela a medida de tendência central mais usada:

4) A média aritmética de um conjunto de dados pode ser sempre


calculada;

5) Para um dado conjunto de números a média aritmética é única.

6) A média é sensível a (ou afetada por) todos os valores do conjunto.


Assim, se um valor se modifica, a média também se modifica.

1.4.1.3 Formas alternativas para estimativa da média

De acordo com a natureza dos dados nem sempre é apropriada


estimar a média aritmética cabendo, nestes casos formas alternativas
para sua estimação, quais sejam:

a) Média Geométrica: ( Xg):

A aplicação da média geométrica deve ser feita, quando os valores


do conjunto de dados considerado se comportam segundo uma
progressão geométrica (P.G.)ou dela se aproximam, sendo um caso
particular o cálculo da taxa média dos juros (compostos) praticados num
determinado período.

- Para dados Simples

Sejam x1, x2, x3, . . . , xn, valores x , a média geométrica de x é definida


por:

n
Xg = n
x1* x2 * ...* xn = n
∏x
i =1
i
Estatística Descritiva - 1.30

Exemplo: As taxas de juros de determinada empresa, no último


semestre foram 4,5%; 5%; 6%; 7%, 5% e 7%, calcule qual seria a taxa
média (média geométrica)
Estatística Descritiva - 1.31

Mês T Índic Acumulado


axa e
1 4,5 1,04 1,045
5
2 5 1,05 1,09725
3 6 1,06 1,163085
4 7 1,07 1,24450095
5 5 1,05 1,306725998
6 7 1,07 1,398196817

n
Xg = n
∏x
i =1
i = 6
1,045* 1,05* 1,06* 1,07* 1,05* 1,07 = 6
1,398196817

Xg = 1,05745 ou, em outras palavras a taxa média mensal é 5,745 %

- Para valores distintos (Dados Tabelados)

x g = ∑ x1f 1 * x2f 2 * ...* xnfn


f

b) Média Harmônica ( xh )

É usada para dados inversamente proporcionais, tais como aqueles que


envolvem Velocidade Média, Preço de Custo Médio

- Para dados Simples (Dados Não Tabelados)

n n
xh = =
1 1 1 1
∑ x x + x + ...+ x
1 2 n

- Para valores distintos (Dados Tabulados)

xh =
∑f = f +f 1 2 + ...+ fn
fi f f f
∑x x + x 1 2
+ ...+ n
xn
i 1 2

1.4.2 Mediana

A mediana é uma quantidade que, como a média, também procura


caracterizar o centro de uma distribuição de freqüências, porém, de
acordo com o um critério diferente. Ela é calculada com base na ordem
dos valores que formam o conjunto de dados.
Estatística Descritiva - 1.32

A mediana pode ser usada como alternativa, em relação, à média,


em situações da existência de valores extremos no conjunto de dados,
como por exemplo, numa distribuição de rendas. Neste caso, a média
não seria um bom representante dos dados, sendo nesse caso indicado o
uso da mediana, por ser esta medida pouco influenciada por valores
extremos.

Dessa maneira a interpretação da Mediana é a informação que


pelo menos 50% dos dados possuem valor igual ou menor ao da
Mediana.

1.4.2.1 Estimativa da posição da Mediana para dados Simples


(Dados não tabulados)

Para dados não tabulados a Mediana corresponde ao elemento


central da distribuição ordenada.

a) Dados Ímpares

Sendo n ímpar, como igual ao valor de ordem - posição da


(n+ 1)
mediana – será o termo desse conjunto.
2

Seja a a série: 36 37 39 40 40 41 41 42 42

Como a série é ímpar, a mediana será:

(n+ 1) (9 + 1)
Posição da Mediana = = = 5º Termo da série ordenada
2 2

36 37 39 40 40 41 41 42 42
1º 2º 3º 4º 5º 6º 7º 8º 9º

b) Dados pares

Nesta situação a mediana poderá ser definida como qualquer valor


n n
situado entre o de ordem e o de + 1.
2 2

Exemplo: Calcule a mediana dos dados abaixo:

36 37 39 40 40 41 41 42 42 45

Como temos n = 10 (par) , a mediana pode ser representada por 2


n n
posições, e o de + 1, quais sejam:
2 2

10 10
= 5º Termo da Série e + 1 = 6º Termo da Série
2 2
Estatística Descritiva - 1.33

36 37 39 40 40 41 41 42 42 45
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º

Na situação de dados pares temos dois valores para mediana, que


serão coincidentes ou não, nessa situação existem duas alternativas, a
primeira apresentar como mediana os dois valores – 40 e 41 – no
40 + 41
segundo caso calcular a média dos dois valores = 40,5.
2
Estatística Descritiva - 1.34

1.4.2.2 Mediana para valores distintos (Dados Tabulados)

Colocados os valores em ordem crescente, mediana é o elemento


que ocupa a posição central.

Exemplo: Dada a distribuição abaixo, qual valor corresponde a mediana


dos dados?
xi Fi Fac
2 3 3
3 3 6
4 4 10
5 9 19
6 6 25
7 2 27
8 2 29
Total 29

No caso de dados em classe, podemos utilizar simplesmente a fórmula


n +1
Md = , (uma vez que o total de dados é impar) assim, a posição da
2
29 + 1
mediana será dada por = 15º Termo
2

xi Fi Fac Até ao valor 4, a freqüência


2 3 3 acumulada é 10, portanto não
3 3 6 chegamos ainda ao 15º termo
4 4 10 1.4.3 Moda que só vai ser alcançado no valor
5, que acumula 19 elementos,
5 9 19 passando portanto pelo 15º
6 6 25 Ao ponto elemento
de maior freqüência de
7 2 27 indivíduos, isto é, o ponto que ocorre com
8 2 29 mais freqüência, damos o nome de Moda, ela
Tota 29 representa, dessa forma, o valor mais típico
l da distribuição dos dados.

Aplica-se a moda:

1) Quando se deseja obter uma medida rápida e aproximada de posição;

2) Quando a medida de posição deve ser o valor mais típico da


distribuição.

1.4.3.1 Moda para dados simples

O valor modal será aquele que ocorrer com maior freqüência.


Estatística Descritiva - 1.35

Ex.: Determinar a moda da série abaixo:

4, 4, 6, 7, 7, 8, 8, 8, 9 e 10.

Pela simples observação, temos que o valor “8”, aparece com mais
freqüência, portanto este valor é a moda.

Vale lembrar que, que uma série de dados pode apresentar mais
de uma moda, como por exemplo:

4, 4, 4, 5, 5, 5, 5, 6, 6, 7, 8, 8, 8, 8, 9, 10, e 10

Como pode ser observado os valores 5 e 8 aparecem com maior


freqüência o mesmo número de vezes (4), portanto, a série tem dois
valores modais, podendo ser chamada de bi-modal, por sua vez, quando
apresentar mais de dois valores modais, a série é chamada de
plurimodal.de 3 modas usamos o termo multimodal, podendo ocorrer
situações em que o conjunto não apresenta moda, chamado então de
amodal

1.4.3.2 Moda para dados Distintos (Dados Tabulados)

Para dados agrupados em uma distribuição de freqüências basta


indicar aquele que apresenta o maior número de dados.

Seja o Exemplo: Abaixo apresentar o valor modal:

xi Fi O valor 15 representa a Moda da


1 distribuição pois este é o valor de
14 3 maior freqüência, ocorrendo 5
15 5 1.4.4 Posição relativa
vezes. da média, mediana e moda
17 2
11 Quando uma distribuição é simétrica, as três
medidas coincidem. Porém, a assimetria torna -as
diferentes e essa diferença é tanto maior quanto maior é a assimetria.
Assim, em uma distribuição temos:

Mo = Md = x → curva simétrica

Mo < Md < x → curva assimétrica negativa

x <Md < Mo → curva assimétrica positiva


Estatística Descritiva - 1.36

Curva assimétrica negativa Curva


assimétrica positiva

1.5 Separatrizes

Há uma série de medidas de posição semelhantes na sua


concepção à mediana, embora não sejam medidas de tendência central.

Como se sabe, a mediana divide a distribuição em duas partes


iguais quanto ao número de elementos de cada parte, por sua vez:

 os quartis permitem dividir a distribuição em quatro partes iguais


quanto ao número de elementos de cada uma;

 os decis em dez partes; e

 os centis em cem partes iguais.

Para simbolizar cada uma dessas medidas separatrizes, faremos:

Qi = quartis i = 1, 2, 3,
Di = decis i = 1, 2, 3,...,9
Ci = centis i = 1, 2, 3,...,99

Assim, para dividir uma série ordenada de valores em quatro


partes iguais, precisamos de três separatrizes (quartis); para dividi-la em
dez, iremos recorrer a nove separatrizes (decis); em cem, recorremos a
noventa e nove separatrizes (centis).

1.5.1 Quartil

Símbolo: Qi i = 1, 2 e 3
Estatística Descritiva - 1.37

Definição: Dado um conjunto ordenado (ordem crescente) de valores,


os quartisde ordem
i,= 1, 2 e 3 (Qi). representam os valores que dividem o conjunto de
dados em partes 25%, 50% ou 75%, respectivamente.

n
Q1 = (quartil inferior)
2
2n n
Q2 = = = Mediana
4 2
3n
Q3 = (quartil superior)
4

1.5.2 Decis

Símbolo: Di i= l, 2,.3,..,9

A definição dos decis obedece ao mesmo princípio da dos quarti


com a modificação, que os dados são divididos em 10 % partes, assim
abaixo do 1.o Decil temos 10% dos dados; do 2.o Decil, 20%; do 3.o
Decil 30%, até alcançar o 9.o Decil, o qual abaixo dele teremos 90% dos
dados

Importante destacar que acima do 9.o Decil temos os 10% dos


dados de maior valor, e que normalmente só são analisados os limites do
1.o Decil (Decil Inferior) e do 9.o Decil (decil superior).

Assim teremos i = 1, 2, 3, 4, 5, 6, 7, 8, e 9

Para calcular os decis, recorreremos á seguinte expressao que


define a ordem em que o decil se encontra:

in
Di = , onde
10

n = número de valores observados

i = número que identifica o decil a ser calculado


Estatística Descritiva - 1.38

1.5.3 Percentis ou Centis

Símbolo: Ci= 1, 2, 3,...,99

Neste caso, cada parte em que foram subdivididos os valores do


conjunto, através dos noventa e nove centis, contara com um centésimo
ou um por cento dos valores do conjunto.

O elemento que definirá a ordem do centil, em urna distribuiçâ’o


de freqüências de valores tabulados agrupados em classes, será
encontrado pelo emprego da expressão:

in
Ci = onde
100

i = número identificador do centil


n = número total de observações

O gráfico abaixo apresenta um exemplo da aplicação das


separatrizes, combinando, centis, decis e quartis

Gráfico: Evolução do desenvolvimento do peso (meninas) de 1 à 19 anos


Estatística Descritiva - 1.39

Seja o exemplo: Utilizando os dados abaixo, calcular as seguintes


medidas:

1, 2, 3, 3, 3, 4, 4, 5, 5, 5,
2 3 3 7 8 0 5 5 6 5
2, 2, 3, 3, 4, 4, 4, 5, 5, 5,
3 8 3 1 9 5 1 3 6 3
2, 2, 3, 3, 4, 8, 4, 5, 6, 7,
6 3 9 2 1 8 9 5 7 0
2, 2, 3, 3, 4, 4, 4, 4, 4, 5,
4 9 8 8 7 4 1 1 2 0
Estatística Descritiva - 1.40

Preliminarmente devemos ordenar os dados:

1, 2, 2, 2, 2, 2, 2, 2, 3, 3,
2 3 3 3 4 6 8 9 1 2
3, 3, 3, 3, 3, 3, 3, 4, 4, 4,
3 3 7 8 8 8 9 0 1 1
4, 4, 4, 4, 4, 4, 4, 4, 4, 5,
1 1 2 4 5 5 7 9 9 0
5, 5, 5, 5, 5, 5, 5, 6, 7, 8,
3 3 5 5 5 6 6 7 0 8

1n 1* 40 o
a) Primeiro Decil = = = 4 Termo = 2,3
10 10

1n 1* 40
b) Primeiro Quartil = = = 10º Termo = 3,2
4 4

n 40
c) Mediana = = = mediana é par = 20º e 21º termo = 4,1
2 2

3n 3* 40
d) Terceiro Quartil = = = 30º Termo = 5,0
4 4

9n 9* 40
e) Nono Decil = = = 36º Termo = 5,6
10 10

Conclusões:

 Pelo menos metade dos alunos tem notas inferiores a 5,0;

 Cinqüenta por cento dos alunos estão notas entre 3,2 e 5,0

 Os dez por cento dos alunos de pior desempenho tem notas


menores que 2,3;

 Os dez por cento dos alunos de melhor desempenho tem notas


superiores a 5,6.

1.5.4 Box-plot

O box-plot é um método alternativo ao histograma para


representar os dados. O box-plot fornece informações sobre as
características de posição, dispersão, assimetria, comprimento das
caudas e outliers de um conjunto de dados. No entanto, a maior
importância desse tipo de gráfico está na identificação de possíveis
outliers no conjunto de dados.

A construção de um box-plot exige que tenhamos as seguintes


informações:
Estatística Descritiva - 1.41

valor mínimo;
primeiro quartil;
mediana;
terceiro quartil; e
valor máximo.

Como a mediana revela uma tendência central, ao passo que os


quartis indicam a dispersão dos dados (através do cálculo do intervalo
interquartil), os box-plot têm a vantagem de não serem tão sensíveis a
valores extremos como outras medidas baseadas na média e no desvio-
padrão.

Um dos aspectos mais convenientes do uso dos box-plot é a


possibilidade de comparação entre dois ou mais conjuntos de dados.

1.5.4.1 Como construir o diagrama de Box-Plot

Dados, os valores da mediana, 1º e 3º quartis dos salários de duas


categorias de pessoas – solteiras e casadas – construir o box-plot dos
dados e concluir.

Medidas-resumo para o box-plot de salários e


estado civil
Medida solteiro não solteiro
Mínimo 1,00 1,25
Q1 3,28 3,97
Mediana 4,66 5,43
Q3 6,01 7,39
Máximo 8,20 9,20
Etapas: (Salários dos solteiros)

1. Traçar uma linha – em escala – que contenha todos os valores dos


dados

2. Um retângulo é desenhado com as extremidades assinaladas no


primeiro e no terceiro quartis. Para os dados dos salários dos solteiros,
por exemplos, temos:

Q1 = 3,28 e Q3 = 6,01. Esse retângulo contém 50% dos dados.


Estatística Descritiva - 1.42

3. Urna linha vertical é desenhada no retângulo na posição da mediana


(4,66 para os dados dos salários dos solteiros).

4. A partir do limite de Q1, prolongar uma linha perpendicular, limitada


pelo valor mínimo, que é igual a 1,00 ; fazendo o mesmo a partir de Q3
que será limitado pelo valor máximo que é 8,00

5. Repetir o mesmo procedimento para os salários dos casados, cujo


gráfico da seguinte forma:

Conclusões: Podemos observar que todas a renda dos não solteiros é


superior a dos solteiros, incluindo-se no caso o Valor Mediano. Quanto à
renda mínima a diferença entre os solteiros e não solteiros é pequena,
por sua vez, a renda máxima dos não solteiros é significativamente
superior aos solteiros.

1.5.4.2 Box plot e identificação de valores aberrantes (outliers)

A partir dos dados utilizados para a construção do box plot é


possível calcular limites para valores considerados como aberrantes
(outliers), isto é, valores que pela sua magnitude estão muito acima, ou
abaixo, do que seria aceitável para um conjunto de dados.

Dados: Mínimo = 2210 ;


Q1 = 2365;
Mediana = 2405;
Q3 = 2500; e
Estatística Descritiva - 1.43

Máximo = 2630.

Construir um box-plot no qual estejam indicados os limites para a


presença de valores aberrantes (outliers)

1. Inicialmente repetir os procedimentos de 1 a 4, conforme descrito em


6.2.1;

2. Calcular a amplitude interquartil, AIQ = Q3 – Q1, que servirá de base


para determinação dos valores máximo e mínimo.

AIQ = Q3 – Q1  AIQ = 2500 – 2365 = 135

3. Cálculos dos limites superior e inferior

Limite superior Q3 + 1,5*AIQ  2500 + 1,5*135 = 2702,50

Limite inferior: Q1 – 1,5*AIQ 2500 – 1,5*135 = 2162,50

Nota: o valor 1,5 é da fórmula.

4. Traçar as linhas para os limites máximo e mínimo, assinalando como


limites máximo e mínimo os valores 2702,50 e 2162,50,
respectivamente.

5. Na eventualidade da existência, nos dados, de valores que estejam


fora dos limites máximo e mínimo, isto é, acima de 2702,50 ou abaixo de
2162,50 serão considerados como discrepantes (outliers), que são
representados pelo símbolo *.
Estatística Descritiva - 1.44

Na figura a seguir incluímos linhas que mostram a posição dos


limites. Essas linhas foram desenhadas para mostrar como os limites são
calculados e onde elas são assinaladas para os dados dos salários.
Embora os limites sejam sempre calculados, eles raramente são
desenhados nas plotagens de retângulos.
Gráfico – Box-plot de Salários, com indicação de limites inferior e
superior.

Vantagens do uso dos procedimentos da análise das separatrizes:

 são fáceis de usar;

 poucos cálculos numéricos são necessários.

 simplesmente classificamos os valores dos dados em ordem


ascendente e identificamos a regra dos cinco itens;

 A plotagem dos retângulos, também chamados de Diagrama de


Caixas ou Box-plot pode então ser facilmente construída.

 não é necessário calcular a média e o desvio padrão dos dados.

1.6 Medidas de Dispersão

Além das medidas de tendência central dados podem ser


descritos em termos de suas Medidas de Dispersão (Variabilidade) que,
diferentemente das Medidas de Tendência Central, visam descrever os
dados no sentido de informar o grau de dispersão ou afastamento dos
valores observados em torno de um valor central representativo
chamado média. Informa se um conjunto de dados é homogêneo (pouca
variabilidade) ou heterogêneo (muita variabilidade).

Para estudarmos as medidas de variabilidade para dados não


tabelados usaremos um exemplo prático. Supomos que uma empresa
Estatística Descritiva - 1.45

esteja querendo contratar um funcionário, e no final da concorrência


sobraram dois candidatos para uma única vaga. Então foi dado 4 tarefas
para cada um, onde as mesmas tiveram como registro o tempo (em
minutos) de execução.

Assim para a série


TAREFAS 1 2 3 4
OPERÁRIO 1 5 4 5 4
(TEMPO) 5 5 2 8
OPERÁRIO 2 3 7 4 6
(TEMPO) 0 0 0 0

Ainda que a média dos tempos seja a mesma para os dois


operários, pode-se observar que a variabilidade entre os dois operários é
diferente.

Pela análise gráfica podemos perceber que o operário 1 apresenta


uma dispersão menor dos tempos, quando comparado com o operário 2,
ainda que o tempo médio para os dois operários seja de 50.
Estatística Descritiva - 1.46

1.6.1 Medidas de Variabilidade e Dispersão Absolutas

As medidas de dispersão são classificadas entre Absolutas e


Relativas.

1.6.1.1 Desvio Extremo ou Amplitude Total (R): É a diferença


entre o maior e o menor valor de um conjunto de dados

R = Xmax – X min

Para o exemplo dos Operários:

para A) Xmáx = 55 Xmin = 48  R = 55 – 48 = 7

para B) Xmáx = 70 Xmin = 30  R = 70 – 30 = 40

Apesar dos inconvenientes dessa medida, há situações especiais


em que ela resulta satisfatória, como por exemplo, da amplitude da
temperatura em um dia ou ano.

1.6.1.1 Desvio Médio (Dm ):

O desvio médio (Dm) ou média dos desvios é igual à média


aritmética dos valores absolutos dos desvios tomados em relação à
média.

Quando os valores não vierem dispostos em uma tabela de


freqüência, o desvio médio será calculado, de acordo com a definição,
através do emprego da seguinte fórmula:
n

∑x i −x
Dm = i =1
,
n

Exemplo: calcular o desvio médio dos dados abaixo:

200
A = { 55, 45, 52, 48} , média = = 50,00
4

xi média |xi - média|


5 50 | 55 – 50 | = 5
5
4 50 | 45 – 50 | = 5
5
5 50 | 52 – 50 | = 2
2
4 50 | 48 – 50 | = 2
8
Estatística Descritiva - 1.47

∑ 14

14
Pela fórmula, Dm = = 3,50
4

O Desvio Médio tem aplicação restrita, não sendo comum o seu uso no
dia a dia em cálculos estatísticos.

1.6.1.3 Variância

a) Para dados Populacionais não tabulados

Dessa forma, o cálculo da Variância para dados não agrupados em


classes é dado por:

∑( x −x ) 2 (∑ x) 2

i
que por transformação temos: ∑x 2

n
σ =
2
, σ2 =
n n

Utilizando-se dos mesmos dados do exemplo de Desvio Médio


Absoluto, o cálculo da variância é dado por:

A = {55 45 52 48 }

Resolução:
xi x2
55 3025
45 2025
52 2704
48 2304
∑ 200 10058

∑( x − x )
2 (∑ x) 2
(200) 2
i
= ∑x 2

n =
10058 −
4 = 14,50
σ2 = , σ2 =
n n 4

b) Para os dados Populacionais Tabulados em distribuição de


freqüências

A variância para os dados agrupados em Classes , é dada por:


Estatística Descritiva - 1.48

∑ ( x − x)
2
Fi
σ 2
=
i
, podendo ser também expressa da seguinte maneira:
∑ Fi
(∑ xiFi) 2
∑ xi 2 Fi −
σ2 =
∑ Fi
∑ Fi
xi = ponto médio da classe
Fi = freqüência dos dados na classe

Exemplo: Calcular o Desvio Padrão Populacional dos dados abaixo:

Consumo Fi
05 |---
25 4
25 |---
45 6
45 |--- 1
65 4
65 |--- 2
85 6
∑ 5
0

Resolução

Consumo Fi Xi = PM xi2*Fi xi*Fi


05 |--- 15 152 * 4 = 15 * 4 =
25 4 900 60
25 |--- 35 352 * 6 = 35 * 6 =
45 6 7350 210
45 |--- 1 55 552 * 14 = 55 * 14 =
65 4 42350 770
65 |--- 2 75 752 * 26 = 75 * 26 =
85 6 146250 1950
∑ 5 - 1968 29
0 50 90

(∑ xiFi) 2
∑ ( x − x ) Fi = ∑ xi 2 Fi − (2990) 2
2
= 196850 −
σ2 =
i
∑ Fi 50
= 360,96
∑ Fi ∑ Fi 50

1.6.1.4 Desvio Padrão


Estatística Descritiva - 1.49

Observando a fórmula para os cálculos da variância, notamos


tratar-se de uma soma de quadrados. Dessa forma, se a unidade da
variável for, por exemplo, metros (m), teremos como resultado metro
quadrado (m2). Para voltarmos à variável original, necessitamos definir
uma outra medida de dispersão que é a raiz quadrada da variância
denominado de desvio padrão. Assim:

σ = σ 2 é o desvio padrão populacional

S= S 2 é o desvio padrão amostral

Em suma, para o cálculo do desvio padrão deve primeiramente


determinar o valor da variância e, em seguida extrair a raiz quadrada
desse resultado.

a) Para dados populacionais não tabelados:

(∑ x ) 2
Para populações = ∑ x2 − n
σ=
n
Estatística Descritiva - 1.50

b) Para dados populacionais tabelados

(∑ xFi) 2
∑x 2
Fi −
Para populações
σ=
∑F
∑F

(n - 1) é usado como um fator de correção, onde devemos considerar a variância


amostral como uma estimativa da variância populacional. σ2, para a população, com
denominador igual ao número de dados n; S2, para a amostras, com denominador igual
ao número de dados menos um, n – 1

1.6.1.5 Variância e Desvio padrão para dados amostrais

Quando se trata de dados amostrais (situação mais comum)deve-


se trabalhar com um grau de liberdade a menos, isto é, em vez de se
fazer a divisão por n , dividi-se por n – 1, isto decorre pelo fato de, para
o cálculo tanto da variância quanto para o desvio padrão tem-se como
referência para o cálculo dos afastamentos o valor da média.

Uma vez que a média é calculada à partir dos próprios dados


existe a necessidade de se descontar esse valor, motivo pelo qual a
divisão passa a ser feita por n – 1.

Na prática, para grandes conjuntos de dados (mais do que 30


dados) as diferenças obtidas entre os valores dos desvios e variâncias
populacionais com os respectivos correspondentes amostrais são
desprezíveis.

a) Variância Amostral

- para dados não tabulados

∑( x −x ) 2 (∑ x) 2

i
= ∑x 2

n
s =
2
, s2 =
n −1 n −1

Para o exemplo dado o valor da variância fica assim recalculado

∑( x −x ) 2 (∑ x) 2
(200) 2
i
= ∑x 2

n =
10058 −
4 = 19,33
s2 = , s2 =
n −1 n −1 4 −1
Estatística Descritiva - 1.51

- Para os dados tabulados em distribuição de freqüências

(∑ xiFi) 2
∑ xi 2
Fi −
∑ ( x − x ) Fi = ∑ Fi
2
i
s 2
=
∑ Fi − 1 ∑ Fi − 1
Para o exemplo dado o valor da variância fica assim recalculado

(∑ xiFi) 2
∑ ( x − x ) Fi = ∑ xi 2 Fi − (2990) 2
2
= 196850 −
s 2
=
i
∑ Fi 50
= 368,33
∑ Fi − 1 ∑ Fi − 1 50 − 1

b) Desvio padrão amostral

- para dados não tabulados

∑ (x − x) ( x)
− ∑
2

∑x
2 2
s=  n
n− 1 s=
n− 1

- para dados tabulados em distribuições de freqüências

(∑ xFi) 2
∑ (x − x) F
2
∑x 2
Fi −
s=
∑F −1 s=
∑F
∑ F −1

1.6.2 Medidas de Dispersão Relativa

1.6.2.1 Coeficiente de Variação de Pearson

Trata-se de uma medida relativa de dispersão, útil para a


comparação em termos relativos do grau de concentração em torno da
média de séries distintas. É dado por:

σ S
C.V . = ou C.V . =
x x
Estatística Descritiva - 1.52

Exemplo: Numa empresa, o salário médio dos homens é de R$


4.000,00, com desvio padrão R$ 1.500,00, e o das mulheres é em média
de R$ 3.000,00, com desvio padrão de R$ 1.200,00. Calcule o C.V. %

σ 1500,00
Para os homens C.V . = = = 0,375 ou 37,5%
x 4000,00

σ 1200,00
Para as mulheres C.V . = = = 0,4 ou 40,0%
x 3000,00

Logo, podemos concluir que os salários das mulheres apresentam


maior dispersão relativa que os dos homens.

Para efeitos práticos:

Considera-se que um Coeficiente de Variação superior a 30%


indica alto grau de dispersão e, conseqüentemente, pequena
representatividade da média devendo a média obtida ser vista com
restrições, no entanto, se o CV% for superior a 50% isto é um indicador
que a média não representa adequadamente o conjunto dos dados

Quantos menores os valores CV tanto mais representativa o valor


da média. Se não houver dispersão alguma o coeficiente de variação
será igual 0 o que indica que todos os valores são iguais ao valor da
média.

1.6 Medidas de Assimetria e Curtose

1.6.1 Assimetria

É o grau de desvio ou afastamento da distribuição. Os coeficientes


de assimetria ou Pearson determina a forma da curva do polígono de
freqüência de uma distribuição.

Quando uma distribuição é simétrica, as medidas de média,


mediana e moda coincidem. Porém, a assimetria torna-as diferentes e
essa diferença é tanto maior quanto maior é a assimetria. Assim, em
uma distribuição temos:

Mo = Md = x → curva simétrica

Mo < Md < x → curva assimétrica negativa

x <Md < Mo → curva assimétrica positiva


Estatística Descritiva - 1.53

Curva assimétrica negativa Curva


assimétrica positiva

a) Coeficientes de Assimetria

Uma vez conhecidos as medidas de posição e variabilidade é


possível calcular o coeficiente de Assimetria que é dado por:

3 ( X − Med )
As =
S

Assim temos: As = 0 a distribuição é simétrica

As > 0 a distribuição é assimétrica positiva ou à


direita

As < 0 a distribuição é assimétrica negativa ou


esquerda

b) Escalas de assimetria:

Em termos de magnitude, temos:

| AS | < 0,15 assimetria pequena

0,15 < | AS | < 1 assimetria moderada

| AS | > 1 assimetria elevada


Estatística Descritiva - 1.54

Obs: Suponhamos AS = - 0,49 a assimetria é considerada moderada e


negativa

Suponhamos AS = 0,75  a assimetria é considerada moderada e


positiva

1.6.2 Curtose

Entende-se por curtose o grau de afastamento de uma distribuição. Com


referencia ao grau de achatamento, podemos ter:

⇒ CURVA PLATICÚRTICA

⇒ CURVA MESOCÚRTICA

⇒ CURVA LEPTOCÚRTICA

Para medir o grau de curtose utilizamos o coeficiente:

Q3 − Q1
K=
2 ( P90 − P10 )

Se K = 0,263 diremos que a curva correspondente à distribuição de


freqüência é mesocúrtica (distribuição. Normal)

Se K > 0,263 diremos que a curva correspondente à distribuição de


freqüência é platicúrtica
Estatística Descritiva - 1.55

Se K < 0,263 diremos que a curva correspondente à distribuição de


freqüência é leptocúrtica

Você também pode gostar