Você está na página 1de 71

1

Antonio Fernando Beraldo


Notas de Aula 1
01
Estatística: o que é, para que serve, a estatística na atualidade.
Estatística Descritiva: Dados brutos, Variáveis; Organização e apresentação dos dados;
Tabelas e Gráficos. Medidas Estatísticas. Análise Exploratória de Dados.

Conteúdo:

1 Introdução à Estatística, 1
2 Tipos de dados; variáveis, 2
2.1 Tipificação de variáveis, 3
2.2 Classificação quanto a natureza, 4
3 Apresentação de Dados: Tabelas, 7
3.1 Grandes conjuntos, frequências, 7
3.1.1 Frequências simples, 7
3.1.2 Frequências relativas, 12
3.1.3 Frequências acumuladas, 13
3.1.4 Frequências relativas acumuladas, 15
3.2 Tabelas de variável discreta, variável qualitativa, 16
4 Representação de dados: Gráficos, 18
5 Histogramas, Polígonos de Frequência, Polígonos de Frequência Acumulada, 22
6 Medidas Estatísticas, 30
6.1 Medidas de Tendência Central, 31
6.1.1 Média Aritmética, 31
6.1.2 Moda, 32
6.1.3 Mediana, 33
6.1.4 Propriedades da Média, 35
6.2 Medidas de Dispersão, 36
6.2.1 Amplitude, 36
6.2.2 Desvios, 37
6.2.3 Variância, Desvio-padrão, 38
6.2.4 Coeficiente de Variação, 40
6.2.5 Propriedades da Variância, 42
6.3 Medidas de Posição, 43
6.4 Medidas de Assimetria e Curtose, 47
6.4.1 Medida de Assimetria, 52
6.4.2 Medidas de Curtose, 56
7 Análise Exploratória de Dados, 57
7.1 Diagrama Ramo Folha, 60
7.2 Quartis na AED, 61
7.3 Cercas e Valores Adjacentes, 64
7.4 Valores discrepantes, 66
Bibliografia

1 Introdução à Estatística
A Estatística é um conjunto de métodos que, utilizando procedimentos matemáticos, visa conhecer e
descrever a realidade que nos cerca, analisar seus fenômenos naturais e sociais e organizar e
fornecer informações de apoio às Ciências. A Estatística é uma das Matemáticas, assim como a
Geometria, a Trigonometria e o Cálculo Integral. E não há, na vida contemporânea, praticamente
nenhum setor de atividade humana em que não faça uso da Estatística.
2

Estatística da Atualidade

È difícil imaginar um setor do mundo atual sem a Estatística. Medicina (pesquisas em Saúde, testes de
medicamentos, novas técnicas ...), Engenharia (pesquisas em materiais, novas técnicas industriais ...),
Ciências Sociais (pesquisas de opinião e sondagens eleitorais, intenção de voto, hábitos culturais ...),
Economia (índices econômicos, inflação, PIB, pesquisas de mercado e hábitos de consumo ...),
Administração (índices de produtividade, técnicas de organização de empresas, medidas de
produtividade, indicadores das atividades comerciais ...), o campo de atuação da Estatística parece
inesgotável e sempre renovado.

Estatística Descritiva

A Estatística está dividida em partes, que se complementam e se interconectam. Neste começo de


aprendizado vamos abordar a Estatística Descritiva que, como o próprio nome diz se dedica ao estudo
dos conceitos e dos cálculos das medidas estatísticas, ou, simplesmente, estatísticas. Essas medidas
“descrevem” um conjunto de dados (geralmente conjuntos numéricos, embora não seja limitada a esses
conjuntos), dados “gerados” pela observação da realidade, ou vindos das pesquisas sobre essa
realidade. Cada área do conhecimento tem um “olhar” dobre a realidade – o sobre a “sua” parte da
realidade. As medidas estatísticas são uma espécie de “retrato” dessa realidade em estudo.

Depois teremos uma introdução ao Cálculo de Probabilidades, que, como veremos, é uma maneira de
pensar. Tem base matemática e é a maneira pela qual entendemos a ocorrência dos eventos, e
podemos fazer previsões sobre essas ocorrências. Mais pela frente, temos uma parte mais “prática” da
Estatística: Amostragem, e considerações sobre o todo (o Universo) a partir de suas partes (Amostras).
E finalizamos com os Testes Estatísticos, em que pensamos usar microcomputadores.

2 Tipos de Dados, Variáveis. Dados Brutos


A realidade é descrita pelos dados que coletamos sobre ela. A coleta de dados, seja direcionada, seja
aleatória, produz um conjunto de dados brutos, que aqui, nestas notas de aula vamos simbolizar por

{ }
Onde A é o “nome” do conjunto, e x1, x2 , x3, ... xn são os elementos do conjunto. Um conjunto possui
N elementos (N, nestas notas, é o tamanho, ou “cardinalidade” do conjunto). O conjunto de dados
coletados pode conter números (conjunto numérico), ou palavras ou símbolos (conjunto não numérico).

Dados brutos são apenas isso: dados. Quando os dados são processados produzem informações.
Quando informações são processadas, produzem conhecimento. A Estatística ensina qual é a melhor
maneira de coletar dados, e quais são os recursos mais adequados para processar estes dados.

Variáveis

Os dados coletados são colocados em conjuntos, como vimos. Estes dados têm atributos, que são
algo como as qualidades, ou características que todos os elementos de um Universo (e das amostras
dele extraídas) possuiriam. Estes atributos são uma espécie de característica comum aos elementos

do Universo. Por exemplo, seja o Universo 


1 constituído por todos os alunos das universidades
brasileiras. O atributo em comum destes elementos do Universo é “estar matriculado em algum curso de

alguma universidade brasileira”. Seja um subconjunto deste Universo 


1 , que chamaremos de 2, 
formado por elementos que pertencem às universidades federais. Seu atributo comum é “estar
matriculado em algum curso de alguma universidade federal brasileira”. Seja, outra vez, outro

subconjunto do Universo 2 , que chamaremos de 3 , que consiste nos estudantes da UFJF. Seu
3

atributo em comum é: “estar matriculado em algum curso da UFJF”. A figura a seguir ilustra a
disposição destes conjuntos:
Figura 1.1

Continuemos com o conjunto 3 : “alunos matriculados em algum curso da UFJF”. Além deste
atributo comum, estes elementos do Universo 3 possuem diversas características: curso em que
estão matriculados, nível do curso, idade, sexo, estado civil, estatura, peso, naturalidade, classe social,
classe econômica, número de matrícula, pontuação no vestibular, tipo de moradia em Juiz de Fora, e
muitas, muitas outras. Estas características, daqui por diante, passam a se chamar variáveis.

Uma variável é uma característica dos elementos do Universo


(e da Amostra) que pode ser valorada.
Por exemplo, a variável “curso em que estão matriculados”. Pode assumir os “valores” Arquitetura,
Direito, Medicina, Psicologia, Administração, tantos quantos forem os cursos oferecidos pela UFJF. A
variável “nível do curso” pode assumir os valores Graduação, Especialização, Mestrado, Doutorado...
A variável “idade” pode assumir valores que vão de, digamos, 16 anos até 80 anos. A variável
“estatura” pode assumir valores, digamos, de 1,00m a 2,30m. E assim por diante.

2.1 Tipificação das Variáveis

O domínio da variável (tipo de valores que a variável pode assumir) é que determina o tipo da variável.

Estes tipos podem ser:

DISCRETAS

QUANTITATIVAS
CONTÍNUAS
VARIÁVEIS
(Tipo)
DICOTÔMICAS

QUALITATIVAS
CARDINAIS
POLITÔMICAS
ORDINAIS
4

Uma variável é dita quantitativa ou numérica quando assume exclusivamente valores numéricos (que
representam quantidades). São discretas quando estes valores pertencem ao conjunto dos Naturais
( ), mais o zero ( v  : 0, 1, 2 , 3 , 4 , 5 ... Geralmente, estes valores são resultado de um processo de
contagem.

Uma variável é quantitativa (ou numérica) contínua quando pode assumir valores pertencentes ao
conjunto dos Reais ( ), (v  ). Geralmente, estes valores são resultado de uma medição.

Uma variável é dita qualitativa, ou categórica, ou nominal, quando pode assumir apenas valores não-
numéricos (palavras, sinais, ou números que não representam quantidades). Será dicotômica se seu
domínio conter apenas dois valores, será politômica se o seu domínio conter mais de dois valores.

No exemplo que estudamos, a variável idade é quantitativa discreta. Pode assumir os valores 16, 17,
18, ... , 80. A variável estatura é quantitativa contínua, podendo assumir qualquer valor entre 1,00m e
2,30m: 1,01m, 1,02m, 1,03m,..., 2,29m, 2,30m.

A variável sexo é qualitativa (ou nominal) dicotômica, podendo assumir os valores “masculino” ou
“feminino” . O curso em que o aluno está matriculado é uma variável qualitativa politômica, que pode
assumir os valores “Engenharia”, “Medicina”, “Direito”, “Enfermagem”, etc.

2.2 Classificação quanto à Natureza

Algumas vezes uma mesma característica do Universo pode ser estudada por mais de uma variável.
Por exemplo, a classificação econômica dos moradores de um bairro: pesquisando por domicílio,
podemos simplesmente perguntar qual é o rendimento familiar mensal dos moradores do domicílio;
podemos estimar esta renda perguntando o valor da conta de energia elétrica; podemos perguntar quais
e quantos eletrodomésticos existem no domicílio, e a escolaridade dos moradores..., enfim, existem
várias formas de conseguir dados sobre esta característica, cada um deles apurado através de uma
variável.

As variáveis são também tipificadas segundo sua Natureza, ou Nível de Mensuração. Esta é uma
categorização muito útil na descrição de amostras, mas requer um estudo mais apurado, quando
precisamos decidir qual tipo de variável é mais adequado (e qual variável é a mais adequada) para
descrevermos determinada característica de um Universo

Variável nominal: O nível mais baixo de informação é o das variáveis nominais dicotômicas que,
como vimos, podem assumir apenas dois valores, opostos e complementares: sim ou não, ligado ou
desligado, defeituoso ou não defeituoso. Em seguida, temos as variáveis nominais politômicas, que
podem assumir mais de dois valores. Por exemplo, estado civil: solteiro, casado, união estável,
separado, divorciado, viúvo, outros.

Variável nominal ordinal: É uma variável nominal politômica cujos valores podem ser colocados em
ordem de intensidade (ou de freqüência, ou de gravidade, entre outras qualificações). Por exemplo, as
respostas à questão: “Em relação à expansão das condições do porte de armas você:”

[ ] Discorda Totalmente
[ ] Discorda
[ ] Não sei avaliar
[ ] Concorda
[ ] Concorda Totalmente”

Variável intervalar É uma variável quantitativa, em que os valores estão dispostos em uma escala, e os
intervalos entre os pontos da escala são fixos e iguais. Por exemplo, as escalas de temperatura, como a
5

escala Celsius1: 0oC corresponde ao “ponto do gelo” e 100o C que corresponde ao “ponto de ebulição”
da água, medidos pela coluna de mercúrio de um termômetro. Estes dois pontos foram
convencionados, e a distância entre eles foi dividida em cem partes, e variação da temperatura entre
10o C e 15o C é a mesma que entre 15o C e 20o C. Outro aspecto a considerar é que o valor de 0o C não
significa que “não há” temperatura, e sim, que “a temperatura é de 0o C”.

É importante notar que um corpo a 60o C não é “duas vezes mais quente” que um corpo a 30o C.
Temperatura é variável intervalar e “quente” (ou “frio”) é valor de uma variável nominal ordinal.

Variável de razão São as variáveis cujos valores são múltiplos ou submúltiplos de uma unidade
convencionada, podendo haver uma correspondência linear (como no caso das variáveis estatura,
peso, tempo, valores monetários) ou não-linear (exponencial ou logarítmica). No caso de uma variável
de razão, o valor 0 (zero) corresponde a “ausência de”, e não uma convenção, como é o caso das
variáveis intervalares.

Em casos que a evolução dos valores é linear, como por exemplo, as medidas de comprimento
(estatura, distância). A unidade é o metro, e, se dizemos que “o comprimento de uma sala de aula é de
8m”, estamos falando que “o comprimento da sala é de 8 x 1m” (oito vezes um metro). O mesmo vale
para peso, tempo, volume, área, e outras.

Há casos em que a correspondência não é linear, ou quando o intervalo entre dois pontos de uma
escala não é fixo, Por exemplo, as escalas que utilizam logaritmos, como as escalas Richter2 –
intensidade de terremotos, e a escala de decibéis – intensidade do som e do ruído. Dizer que um
terremoto alcançou 4 graus na escala Richter não significa que sua intensidade foi duas vezes a de um
terremoto de “grau 2”, e sim, a 100 vezes a de um terremoto grau 2. No caso da escala de ruídos, a
intensidade do ruído é medida em decibéis (dB), sendo que a variação de 1 dB corresponde a uma
variação de 10 vezes na potência do som ou do ruído.

1
Anders Celsius (1701-1744), astrônomo e cientista sueco. Curiosamente, quando foi inventada, a escala Celsius
o o
era “ao contrário”: 0 C correspondia ao “ponto de ebulição” e 100 C ao “ponto do gelo” da água. Depois de sua
morte, a escala passou a ter o sentido e direção atual.
2
Charles Richter (1905-1985) e Beno Gutenberg, do California Institute of Technology, propuseram em 1935 a
escala de medida sismográfica que, no começo, tinha a finalidade de medir unicamente os terremotos que se
produziram na Califórnia (EUA). A escala Richter corresponde ao logaritmo da amplitude das ondas a 100 km
do epicentro. Era graduada de 1 a 9, mas, depois de tremores que ultrapassam o grau 9, é, uma "escala aberta"
(sem limite superior).
6

Exemplo 1.1 Propaganda de carro: destacamos as variáveis:


Número da Placa Marca, Tipo e Ano Número do chassis

(qualitativa) (qualitativas) (qualitativa)

nominal

Pressão interna dos pneus Cor do carro Peso Volume interno Preço

(quantitativa contínua) (qualitativa) (quantitativas)


(quantitativa)

ATENÇÃO!
!
 Variáveis quantitativas tem valores numéricos, mas os números representam quantidades.
Números podem não representar quantidades, como, por exemplo, o CPF. Ou o CEP. Ou
mesmo, o seu número de matrícula ... se o seu número de matrícula for 201505093, esse
“código” é composto de números que são: 2015 – ano de ingresso na UFJF; 05 – código do
curso em que você está matriculado; 093 – seu número na “lista de chamada”, atribuído por
ordem alfabética. Neste caso, essas variáveis são qualitativas.
 Para saber se números são valores de variáveis quantitativas, efetue uma opração matemática
com eles. Se o resultado da soma, por exemplo, fizer algum sentido, são variáveis quantitativas.
Caso contrário, são variáveis qualitativas.
7

3 Apresentação de Dados: Tabelas


Os conjuntos de dados coletados são dispostos em tabelas, que são matrizes, compostas de linhas e
colunas. O encontro de uma linha com uma coluna é chamado de célula.

Partes de uma tabela

Título Estado civil dos moradores do sexo masculino


2015
Cabeçalho
Categoria Percentual
Corpo Solteiros 19%
Casados 38%
Divorciados 30%
Viúvos 14%
Total 100% Linha totalizadora
Fonte: IBGE
Rodapé
Coluna indicadora

Todas as tabelas têm que ter título e fonte. Se, em uma trabalho, existirem várias tabelas, elas tem
que ser numeradas sequencialmente: Tabela 1, tabela 2, tabela 3 ... O título deve ser centralizado, e
deve ser conciso, referenciado ao texto que cita a tabela.

O corpo da tabela é dividido em colunas e linhas. O corpo é separado do título e do rodapé por linhas
de maior espessura (linhas gras). Na linha superior do corpo fica o cabeçalho, que tem o nome das
colunas. A tabela pode ter, ou não, uma linha totalizadora.
A primeira coluna, mais à esquerda, é chamada de coluna indicadora. As demais colunas tem o seu
nome no cabeçalho.

As tabelas têm uma série de regras de elaboração, e são normatizadas pela ABNT. Estas normas são
muito extensas e não são colocadas nestas Notas. Porém, se você tiver interesse, e se for necessário,
veja algumas normas, sintetizadas pelo DESC – Departamento de Engenharia de Sistemas e
Computação, da UERJ, que estão em http://www.desc.eng.uerj.br/uso_de_graficos, que recomendamos.

Até agora, temos estudado amostras de tamanho pequeno, com poucos elementos. São amostras que
se prestam bem à apresentação dos conceitos de Medidas de Tendência Central (Média, Moda,
Mediana) e de Dispersão (Variância, Desvio-padrão, etc.). No entanto, em muitos dos nossos trabalhos
é feita a análise estatística de amostras bem maiores, com 300, 400, 500 elementos - às vezes muito
mais do que isso.

3.1 Grandes conjuntos: frequências

Grandes conjuntos, ou grandes amostras são as que possuem mais de 30 elementos. Em termos
práticos, a diferença está na maneira de tratar matematicamente as duas categorias. É obvio que, à
medida que a amostra aumenta de tamanho, teremos maior trabalho com os cálculos e com a
organização dos dados – é o que estudaremos nas páginas seguintes.

3.1.1 Frequências Simples

Uma vez extraída a amostra de elementos do Universo, passamos a processar seus dados, para obter
as informações que descrevem esta amostra. Estas informações são essencialmente numéricas, ou
8

seja, procuramos obter medidas estatísticas que irão aumentar nosso nível de conhecimento sobre a
amostra (e, em um estágio posterior, nos informar sobre o Universo).

Suponha que estamos fazendo uma pesquisa em um bairro da cidade, procurando nos informar sobre a
variável renda familiar de seus moradores. Foram entrevistadas aleatoriamente 120 pessoas, todas
moradoras do bairro. As respostas foram anotadas à medida que se entrevistavam os moradores, e os
resultados (chamados dados brutos) estão a seguir (em Salários Mínimos, ou SM):

Figura 1.2 Dados Brutos


8,2 3,2 4,1 5,1 5,1 5,3 9,5 11,2
1,2 1,1 1,7 2,8 4,3 3,5 3,5 4
5,7 7 7 5,9 6 7 8,4 8,4
8,2 3,4 3,2 3,2 3,4 3,8 13,7 14,2
21,4 15,9 5,2 5,7 6,5 7,8 7,8 7,5
2 2,2 12,6 12,7 19,3 20,7 24,2 4,4
4 3,9 3,8 6,2 6,7 6,8 6,4 6,2
6,3 7,8 7,7 7,4 8,3 8 7,2 7,3
9,2 10,4 10,1 9,4 12 11,4 11,2 12
11,6 9,9 9,1 11 10,6 10,6 1,6 1,1
3 2,8 1,6 2,4 1,5 4,2 4,1 3,8
3,9 1,7 2,4 2 3,3 3,3 4,1 4,2
15 14,7 13,5 8,4 11 16,4 16,8 16,2
1,5 5,5 6,3 3,3 2,7 3,4 2,0 2,0
2,8 3,7 5,7 5,6 4,0 3,0 2,0 4,0

Os dados dispostos na página anterior não apresentam qualquer organização. Não temos nenhuma
informação sobre esta “parte da realidade” – lembre-se que informação são dados processados. O
passo seguinte é aumentar o “nível” de informação sobre a amostra, dispondo os dados em ordem
crescente, formando um conjunto chamado Rol:

Figura 1.3 Rol

1,1 1,1 1,2 1,5 1,5 1,6 1,6 1,7


1,7 2,0 2,0 2,0 2,0 2,0 2,2 2,4
2,4 2,7 2,8 2,8 2,8 3,0 3,0 3,2
3,2 3,2 3,3 3,3 3,3 3,4 3,4 3,4
3,5 3,5 3,7 3,8 3,8 3,8 3,9 3,9
4,0 4,0 4,0 4,0 4,1 4,1 4,1 4,2
4,2 4,3 4,4 5,1 5,1 5,2 5,3 5,5
5,6 5,7 5,7 5,7 5,9 6,0 6,2 6,2
6,3 6,3 6,4 6,5 6,7 6,8 7,0 7,0
7,0 7,2 7,3 7,4 7,5 7,7 7,8 7,8
7,8 8,0 8,2 8,2 8,3 8,4 8,4 8,4
9,1 9,2 9,4 9,5 9,9 10,1 10,4 10,6
10,6 11,0 11,0 11,2 11,2 11,4 11,6 12,0
12,0 12,6 12,7 13,5 13,7 14,2 14,7 15,0
15,9 16,2 16,4 16,8 19,3 20,7 21,4 24,2

Agora já podemos verificar qual é o menor valor (1,1 SM) e o maior valor (24,2 SM). No entanto, mesmo
colocados em ordem, no rol, os dados ainda exigem um bom esforço para entendermos o que se passa
9

na amostra. O nível de informação ainda está muito baixo, e pode (e deve) ser melhorado se
classificarmos estes dados, dividindo a amostra em faixas de renda. Numa primeira tentativa, vamos
dividir os dados nas seguintes faixas de renda: de 1 a 3 SM, de 3 a 5 SM, de 5 a 7 SM, e assim por
diante, até uma faixa de 23 a 25 SM. Esta divisão é arbitrária, poderíamos ter dividido as classes de 3
em 3 SM, de 5 em 5 SM, etc. Mas esta é, como dissemos, uma primeira tentativa. Começamos a
montar uma tabela, em que na primeira coluna colocamos a divisão que adotamos (as faixas de renda):

Tabela 3.1a - Divisão em faixas de renda


Faixas de Renda(*)
1 a 3
3 a 5
5 a 7
7 a 9
9 a 11
11 a 13
13 a 15
15 a 17
17 a 19
19 a 21
21 a 23
23 a 25
(*) em Salários Mínimos (SM)
Fonte: dados coletados

Na tabela 3.1a, estão dispostos, na primeira coluna, os intervalos que identificam as faixas de rendas.
Estes intervalos são chamados classes, e são limitados à esquerda e à direita. Cada classe possui
então dois limites: o Limite Inferior e o Limite Superior. As classes são contadas de cima para baixo:
1a classe, de 1 a 3 SM (limite inferior 1, limite superior 3); 2a classe, de 3 a 5 SM (limite inferior 3, limite
superior 5), e assim por diante, até a última classe (12a classe), de 23 a 25 SM (limite inferior 23, limite
superior 25). Prosseguimos, então, contando quantos elementos da amostra pertencem a cada
uma das faixas. Por exemplo, a primeira faixa:

Figura 1.4 Contagem dos elementos da primeira faixa de renda.

1,1 1,1 1,2 1,5 1,5 1,6 1,6 1,7


1,7 2,0 2,0 2,0 2,0 2,0 2,2 2,4
2,4 2,7 2,8 2,8 2,8 3,0 3,0 3,2
3,2 3,2 3,3 3,3 3,3 3,4 3,4 3,4
3,5 3,5 3,7 3,8 3,8 3,8 3,9 3,9
4,0 4,0 4,0 4,0 4,1 4,1 4,1 4,2
4,2 4,3 4,4 5,1 5,1 5,2 5,3 5,5
5,6 5,7 5,7 5,7 5,9 6,0 6,2 6,2
6,3 6,3 6,4 6,5 6,7 6,8 7,0 7,0
7,0 7,2 7,3 7,4 7,5 7,7 7,8 7,8
7,8 8,0 8,2 8,2 8,3 8,4 8,4 8,4
9,1 9,2 9,4 9,5 9,9 10,1 10,4 10,6
10,6 11,0 11,0 11,2 11,2 11,4 11,6 12,0
12,0 12,6 12,7 13,5 13,7 14,2 14,7 15,0
15,9 16,2 16,4 16,8 19,3 20,7 21,4 24,2

Neste ponto, surge uma dúvida: e se na amostra existir um elemento com renda familiar exatamente
igual a 3 SM? Este elemento pertence à faixa “1 a 3 SM” ou à faixa “3 a 5 SM”? Temos que adotar um
critério, uma “condição de pertinência”. Este critério pode ser um dos seguintes:
10

1. Classes fechadas à esquerda. a classe “1 a 3” conteria todos os elementos entre 1 e 3 SM,


incluindo o elemento com 1 SM e excluindo o elemento com 3 SM.

2. Classes fechadas à direita: a classe “1 a 3” conteria todos os elementos entre 1 e 3 SM, incluindo o
elemento com 3 SM e excluindo o elemento com 1 SM – foi o critério que adotamos, veja a figura 3.3,
acima.

A notação que empregamos, para indicar se as classes são fechadas à esquerda ou à direita, é a
seguinte ( a e b são os limites inferiores e superiores das classes):

a  b Classes fechadas à esquerda: inclui todos os elementos entre a e b,


exceto os elementos iguais a “b”.

a  b Classes fechadas à direita: inclui todos os elementos entre a e b, exceto


os elementos iguais a “a”.

Outra notação:

[a ; b) Classes fechadas à esquerda: inclui todos os elementos entre a e b,


exceto os elementos iguais a “b”.

(a ; b] Classes fechadas à direita: inclui todos os elementos entre a e b, exceto


os elementos iguais a “a”.

A partir da adoção de um destes critérios, podemos partir para o passo seguinte, que é a contagem dos
elementos pertencentes às classes. O resultado desta contagem é chamado de f, ou frequência
simples (ou, ainda, frequência absoluta). As frequências das classes são colocadas na segunda coluna
da tabela, que passa a se chamar Distribuição de Frequências da variável:

Tabela 3.1b - Distribuição de Frequências da Renda Familiar do Bairro X


Classes de Renda (*) f
1 --| 3 23
3 --| 5 28
5--| 7 22
7--| 9 15
9 --| 11 11
11 --| 13 8
13 --| 15 5
15 --| 17 4
17 --| 19 0
19 --| 21 2
21 --| 23 1
23 --| 25 1
 120
(*) em Salários Mínimos (SM)
Fonte: dados coletados

Note que adotamos o critério de “classes fechadas à direita”. Poderíamos ter adotado outro critério, e as
frequências das classes poderiam ser diferentes.

Comentários
11

1. Foi dito que a divisão em classes é feita por “tentativas”. E isto é verdade, nas primeiras vezes que
fazemos este trabalho. À medida que se adquire certa experiência, fica mais fácil determinar em
quantas classes iremos dividir o conjunto de dados coletados, se as classes terão tamanho igual ou
diferente, etc.

2. Alguns autores adotam fórmulas empíricas para determinar em quantas classes iremos dividir o
conjunto de dados. O número de classes NC pode ser calculado pelas seguintes expressões:

NC  1 33
, logn ou NC  n

Onde “n” é o tamanho do conjunto de dados. Você pode escolher qualquer uma destas fórmulas, mas,
voltando ao Comentário 1, sua experiência é que irá indicar o melhor NC. Aqui se fazem duas
recomendações: não se deve dividir o rol em menos de 5 classes. Assim, o número de classes deve
ser maior ou igual a 5. Outra: procure utilizar o maior número de classes possível (sem exageros, é
claro - na prática, trabalhamos com no máximo 10 a 12 classes, na maioria das vezes).

3. As classes não precisam, necessariamente, possuir o mesmo tamanho, embora isto seja muito
adotado, por questões de comodidade. Caso seja preciso, você pode variar os tamanhos (amplitudes)
das classes, atendendo a alguma condição especial. A exigência que se faz é que o limite inferior de
uma classe tem que ser igual ao limite superior da classe anterior (com uma exceção, como se
verá nos exercícios resolvidos), ou seja, os intervalos de classe se dispõem de forma contínua.

4. Há algum tempo atrás, havia uma preocupação em dividir a amostra de forma a não deixar nenhuma
classe com frequência igual a 0. Atualmente, não há esta preocupação, e é até recomendável que as
classes tenham amplitudes iguais, não importando se alguma classe não contém elementos amostrais
(f = 0). De certa forma, este procedimento auxilia a entender ainda melhor a amostra.

5. O mais importante é que a tabela de Distribuição de Frequências forneça uma boa ideia do que está
ocorrendo na amostra, para a variável em estudo.
12

3.1.2 Frequências Relativas

Em Estatística, muito raramente se trabalha com as frequências simples para descrever-se a amostra.
Prefere-se, e é mais cômodo, trabalhar com as chamadas frequências relativas, fr, que exprimem o
percentual de elementos dentro de cada classe. Cada classe tem a sua frequência relativa, que é
calculada pela fórmula:

f f
fr  x100 x100
f n

Vê-se que n  f , e n é chamado tamanho da amostra (é o número de entrevistas que foram


feitas). No exemplo (tabela 3.1b), n = 120.

A frequência relativa é expressa em percentuais, como foi dito. Por exemplo, a frequência relativa da
primeira classe (1 --| 3) é calculada assim:
f 23
fr  x100 x10019,2
f 120
O número 19,2 é lido como 19,2 porcento. Em muitos livros e artigos, principalmente de origem nos
EUA ou da Europa, você vai encontrar a frequência relativa expressa em decimais, e não em
percentagem. Por exemplo, 19,2 (%) é escrito 0,192. A fórmula de cálculo das frequências relativas é
escrita, então, como

f f
fr  
f n
Calculando as frequências relativas para todas as classes, temos3:

Tabela 3.1c - Distribuição de Frequências da Renda Familiar do Bairro X


Classes de Renda(*) f fr
1 --| 3 23 19,2
3 --| 5 28 23,3
5--| 7 22 18,3
7--| 9 15 12,5
9 --| 11 11 9,2
11 --| 13 8 6,7
13 --| 15 5 4,2
15 --| 17 4 3,3
17 --| 19 0 0,0
19 --| 21 2 1,7
21 --| 23 1 0,8
23 --| 25 1 0,8
 120 100,0
(*) em Salários Mínimos (SM)
Fonte: dados coletados

3
Na prática, não se coloca o símbolo “%” após o valor das frequências relativas, nem as palavras explicando o
que quer dizer cada coluna.
13

Como se “lê” este tipo de tabela?

 Esta tabela é chamada distribuição de frequências. Na primeira coluna da tabela estão,


obrigatoriamente, as classes: 1 --| 3, 3 --| 5, 5 --| 7, etc. Uma classe é sempre identificada por dois
números, significando um intervalo numérico. Por exemplo, a classe 1 -| 3 lê-se “intervalo de 1 a 3
salários mínimos”. Os números que identificam a classe são chamados limite inferior e limite superior
da classe. Na classe 1 -| 3, o limite inferior é 1, o limite superior é 3; na classe 3 -| 5, o limite inferior é 3,
e o superior é 5, e assim por diante.

 Na segunda coluna estão as frequências simples (f). Uma frequência simples é o número de
elementos da amostra pertencente a cada classe. É o resultado de uma contagem. Assim, na classe 1--
| 3, temos 17 elementos; na classe 3 --| 5, temos 24 elementos; na classe 5 --| 7, temos 21 elementos, e
assim por diante.

 Na terceira coluna estão as frequências relativas (fr). Uma frequência relativa é o percentual de
cada classe em relação ao total da amostra. Assim, na classe 1 --| 3, temos 17 elementos, que
equivalem a 16% da amostra; na classe 3 --| 5, temos 24 elementos, que representam 22% da
amostra; na classe 5 --| 7, temos 21 elementos, que representam 19% da amostra, e assim por diante.
O nível de informação sobre a amostra aumentou bastante: agora, já sabemos com segurança muita
coisa sobre a amostra (e até tabelamos nossos dados). Sabemos qual a classe mais numerosa e a
menos numerosa, e quanto cada classe representa percentualmente, sobre o total da amostra.

3.1.3 Frequências Acumuladas

Aumentando mais o nível de informações sobre a amostra, introduzimos mais uma estatística: a
Frequência Acumulada (F). A Frequência Acumulada de uma classe é a soma das frequências
absolutas, desde a primeira classe até aquela classe. Para montar a coluna das Frequências
Acumuladas, proceda da seguinte forma (vamos utilizar a Tabela 4.1, como exemplo):

1. Na primeira classe, repita a frequência simples da classe:

Tabela 3.1c - Distribuição de Frequências da Renda Familiar do Bairro X


Classes de Renda (*) f fr F
1 --| 3 23 19,2 23
3 --| 5 28 23,3
5--| 7 22 18,3
7--| 9 15 12,5
9 --| 11 11 9,2
11 --| 13 8 6,7
13 --| 15 5 4,2
15 --| 17 4 3,3
17 --| 19 0 0,0
19 --| 21 2 1,7
21 --| 23 1 0,8
23 --| 25 1 0,8
 120 100,0
(*) em Salários Mínimos (SM)
Fonte: dados coletados
14

2. Em seguida, faça a soma deste valor com a frequência absoluta da segunda classe:
23
Tabela 3.1c - Distribuição de Frequências da Renda Familiar do Bairro X
Classes de Renda (*) f fr F + 28
1 --| 3 23 19,2 23
3 --| 5 28 23,3 51
5--| 7 22 18,3
7--| 9 15 12,5
9 --| 11 11 9,2
11 --| 13 8 6,7
13 --| 15 5 4,2
15 --| 17 4 3,3
17 --| 19 0 0,0
19 --| 21 2 1,7
21 --| 23 1 0,8
23 --| 25 1 0,8
 120 100,0
(*) em Salários Mínimos (SM)
Fonte: dados coletados

3. Repita a operação para as demais classes:

Tabela 3.1c - Distribuição de Frequências da Renda Familiar do Bairro X


Classes de Renda (*) f fr F
1 --| 3 23 19,2 23
3 --| 5 28 23,3 51
5--| 7 22 18,3 73
7--| 9 15 12,5 88
9 --| 11 11 9,2 99
11 --| 13 8 6,7 107
13 --| 15 5 4,2 112
15 --| 17 4 3,3 116
17 --| 19 0 0,0 116
19 --| 21 2 1,7 118
21 --| 23 1 0,8 119
23 --| 25 1 0,8 120
 120 100,0
(*) em Salários Mínimos (SM)
Fonte: dados coletados

Note que a última Frequência Acumulada tem que ser igual ao tamanho da amostra. Os valores na
coluna das Frequências Acumuladas nos dão a seguinte informação: a Frequência Acumulada de uma
classe é a quantidade de elementos existentes na amostra, desde o limite inferior da primeira classe até
o limite superior da classe considerada. Podemos escrever desta forma:

ik
Fk   f i
i1 (13)

Ou seja, a Fk, frequência acumulada da classe k é a soma das frequências simples desde a primeira
classe até a k-ésima classe.
15

3.1.4 Frequências Relativas Acumuladas

De maneira análoga à das Frequências Acumuladas, montamos a coluna das Frequências Relativas
Acumuladas Fr, tendo por base a coluna das Frequências Relativas:

1. Na primeira classe, repita a sua frequência relativa:

Tabela 3.1c - Distribuição de Frequências da Renda Familiar do Bairro X


Classes de
Renda(*) f fr F Fr
1 --| 3 23 19,2 23 19,2
3 --| 5 28 23,3 51
5--| 7 22 18,3 73
7--| 9 15 12,5 88
9 --| 11 11 9,2 99
11 --| 13 8 6,7 107
13 --| 15 5 4,2 112
15 --| 17 4 3,3 116
17 --| 19 0 0,0 116
19 --| 21 2 1,7 118
21 --| 23 1 0,8 119
23 --| 25 1 0,8 120
 120 100,0
(*) em Salários Mínimos (SM)
Fonte: dados coletados

2. Em seguida, faça a soma deste valor com a frequência absoluta da segunda classe:’’
19,2
Tabela 4.1c - Distribuição de Frequências da Renda Familiar do Bairro X
Classes de + 23,3
Renda(*) f fr F Fr
1 --| 3 23 19,2 23 19,2
3 --| 5 28 23,3 51 42,5
5--| 7 22 18,3 73
7--| 9 15 12,5 88
9 --| 11 11 9,2 99
11 --| 13 8 6,7 107
13 --| 15 5 4,2 112
15 --| 17 4 3,3 116
17 --| 19 0 0,0 116
19 --| 21 2 1,7 118
21 --| 23 1 0,8 119
23 --| 25 1 0,8 120
 120 100,0
(*) em Salários Mínimos (SM)
Fonte: dados coletados
16

3. Repita a operação para as demais classes:

Tabela 3.1c - Distribuição de Frequências da Renda Familiar do Bairro X


Classes de
Renda(*) f fr F Fr
1 --| 3 23 19,2 23 19,2
3 --| 5 28 23,3 51 42,5
5--| 7 22 18,3 73 60,8
7--| 9 15 12,5 88 73,3
9 --| 11 11 9,2 99 82,5
11 --| 13 8 6,7 107 89,2
13 --| 15 5 4,2 112 93,3
15 --| 17 4 3,3 116 96,7
17 --| 19 0 0,0 116 96,7
19 --| 21 2 1,7 118 98,3
21 --| 23 1 0,8 119 99,2
23 --| 25 1 0,8 120 100,0
 120 100,0
(*) em Salários Mínimos (SM)
Fonte: dados coletados

Note que a última Frequência Relativa Acumulada tem que ser igual a 100%.

Os valores na coluna das Frequências Relativas Acumuladas nos dão a seguinte informação: a
Frequência Relativa Acumulada de uma classe é o percentual de elementos existentes na amostra,
desde o limite inferior da primeira classe até o limite superior da classe considerada. Podemos escrever
desta forma:

ik
Frk  Fri
i1

Ou seja, a Frk, frequência acumulada da classe k é a soma das frequências relativas desde a primeira
classe até a k-ésima classe.

3.1.5 Tabelas de dados discretos, tabela com dados qualitativos

Na coluna indicadora da tabela, podemos ter valores discretos, ou seja, valores únicos, e não
intervalos. Por exemplo:

Tabela 4 Número de filhos por mulher


Número de filhos f
0 12
1 18
2 22
3 17
4 10
5 7
6 4
∑ 90
Fonte: Censo 2010 – Bairro: Bairu
17

“Lendo” a tabela 3.2: utilizou-se dados do censo de n2010 para informações sobre a taxa de fertiulidade
(número de filhos por mulher), uma variável quantitativa discreta. Foram agrupados dados de 90
mulheres, sem filhos ou com filhos de 1 até 6 filhos.

Podemos utilizar as colunas das frequências relativas, frequências acumuladas e frequências relativas
acumuladas, calculadas da mesma forma, e coma mesma informação:

Tabela 4 Número de filhos por mulher


Número de
filhos F fr F Fr
0 12 13,3 12 13,3
1 18 20,0 30 33,3
2 22 24,5 52 57,8
3 17 18,9 69 76,7
4 10 11,1 79 87,8
5 7 7,8 86 95,6
6 4 4,4 90 100,0
∑ 90 100,0
Fonte: Censo 2010 – Bairro: Bairu

São muito comuns, também, tabelas em que a primeira coluna (indicadora) contém valores de uma
variável qualitativa:

Tabela 5 Os 10 nomes mais frequentes 2011 – 2020 Brasil


Nome f fr
Miguel 321.644 15,5
Arthur 287.886 13,7
Davi 248.066 11,8
Gabriel 223.899 10,7

Maria Eduarda 214.250 10,2

Alice 193.788 9,2


Heitor 154.237 7,3

Pedro Henrique 154.232 7,3

Laura 153.557 7,3


Sophia 147.579 7,0
∑ 2.099.138 100,0
Fonte: Folha de São Paulo, https://www1.folha.uol.com.br/cotidiano/2020/12/decada-marca-fim-da-era-
enzo-nos-registros-veja-os-nomes-preferidos-no-brasil.shtml

Note que as colunas F, e Fr não fariam sentido.


18

4 Representação de Dados: Gráficos


Gráficos são representações visuais dos dados. São imagens, que utilizam figuras geométricas para
transmitir informações. Estas informações são comparações entre valores, mostra de tendências de
evoluções das grandezas e valores das classificações dos dados.

Partes de um gráfico

Figura 4.1 - Gráfico

Estado civil
14%
19%

Solteiros
Casados
Divorciados
30% Viúvos

38%

Fonte: Tabela 1

Alguns elementos importantes que estão incluídos nos gráficos são:

 Título: geralmente possuem um título a respeito da informação que será apresentada.


 Fonte: muitos gráficos, sobretudo os da área de estatística, apresentam a fonte, ou seja, de
onde as informações foram retiradas. Também podem apresentar o ano de publicação da fonte referida.
 Números: estes são essenciais para comparar as informações dadas pelos gráficos. A maior
parte deles utilizam números, seja para indicar quantidade ou tempo (mês, ano, trimestre).
 Legendas: grande parte dos gráficos apresentam legendas que auxiliam na leitura das
informações apresentadas. Junto a ela, cores que destacam diferentes informações, dados ou períodos,
são utilizadas.

Tipos de Gráficos
Gráfico de Colunas

Também conhecidos como “Gráficos de Barras”, utilizam retângulos proporcionais aos valores para
comparar quantidades ou representar a evolução das medidas. Quando são utilizados para comparar
valores, as variáveis, as séries de dados podem ser categóricas, geográficas ou mesmo temporais.
Quando utilizados para representar evolução, as séries são temporais, ou relacionadas a temporais.
Exemplos:
19

Barras Horizontais:

Figura 4.2
Distribuição da população de 18 a 24 anos por condição de frequência à Escola e etapa de
Ensino - 2017
Frequenta Ensino Fundamental 2,1

Não frequenta, concluiu a Graduação 3,5

Frequenta Ensino Médio 9,9

Frequenta o Ensino Superior (1) 19,7

Não frequenhta e não concluiu o


25,8
Ensino Médio
Não frequenhta e concluiu o Ensino
39,0
Médio

0,0 20,0 40,0 60,0

Fonte: IBGE

Barras Verticais:

Figura 4.3
Carga tributária dos carros
Alguns países
40
36,6
35

30

25
21
19
20 17,5

15
9,9
10 7,5

0
Brasil EUA Chile Argentina Espanha Japão

Fonte: https://dcomercio.com.br/categoria/leis-e-tributos/impostos-colocam-o-automovel-brasileiro-entre-
os-mais-caros-do-mundo
20

Gráficos de Linha

São muito utilizados para representar a evolução (aumentos, diminuições) – temporal – de medidas.
Exemplo:
Figura 4.4

Produção de veículos no Brasil


4000000
3500000
3000000
2500000
2000000
1500000
1000000
500000
0
2012 2013 2014 2015 2016 2017 2018 2019

Fonte: ANFAVEA , ver https://g1.globo.com/carros/noticia/2020/01/07/producao-de-veiculos-cresce-


2percent-no-brasil-em-2019-diz-anfavea.ghtml

Gráfico de Setores

Também chamado de “Gráfico de Pizza”, é um tipo de gráfico muito usado para comparar grandezas,
que são proporcionais aos setores (pedaços da “pizza”), calculados segundo a expressão.

Em que α é o ângulo central do setor.

Exemplo:
Figura 4.5

Composição étnica brasileira


2 1

Brancos
Pretos

83 91 Pardos
Amarelos
Indígenas

14

Fonte: IBGE, Censo de 2010


21

Gráfico de Área

Esse tipo de gráfico é utilizado para representar e comparar os dados de uma evolução de grandezas,
referentes ao tempo (série temporal). Utilizamos áreas para representar as grandezas.

Figura 4.6 Produção total de petróleo, Brasil *


3500
3450
3400
3350
3300
3250
3200
3150
3100
3050
3000
abr-18

jul-18

abr-19
ago-18
set-18

dez-18
fev-18

fev-19
jan-18

nov-18
mar-18

mai-18
jun-18

out-18

jan-19

mar-19

mai-19
Fonte: ANP/SGP/Sigep – Set/2019
(*) Em mil barris/dia

Infográfico Este gráfico, muito utilizado pela mídia, tem entendimento imediato, e usa figuras para
ilustrar os valores (pode ou não conter figuras de comparação ou tendências).

Figura 4.7

Fonte: IBGE
Vide: https://g1.globo.com/economia/agronegocios/noticia/2020/09/09/arroz-e-oleo-mais-caros-entenda-
por-que-a-inflacao-dos-alimentos-disparou-no-pais.ghtml
22

5 Histogramas, Polígonos de Frequência, Polígonos de Frequência


Acumulada (Ogivas de Galton)
O Histograma é o gráfico mais utilizado quando queremos representar as grandezas proporcionais ao
todo, sendo essas grandezas as partes do todo (veja item 3 – Tabelas) . É muito parecido com o
gráfico de colunas, mas não há espaçamento entre as colunas – pois as classes são contínuas.
Exemplo:

Figura 4.8

Alunos Notas do TVC01


20
18
16
14
12
10
8
6
4
2
0
0-5 5 - 10 10 - 15 15 - 20 20 - 25 25 - 30

Fonte: FAE da turma 2018.1

Histogramas são muito utilizados em Estatística Descritiva. Uma imagem – uma figura – aumenta muito
nosso conhecimento sobre a amostra, seja pelos recursos de comparação (entre classes), seja como
uma espécie de “retrato” da amostra.

Figura 4.9 Histograma de Frequências

f Renda Familiar- Bairro X

30

25

20

15

10

0
1 3 5 7 9 11 13 15 17 19 21 23 25

Renda Familiar (SM)


23

Figura 4.10 Histograma de Frequências

Renda Familiar - Bairro X


f

30
Cada classe é representada por um
No eixo vertical25 retângulo, ou barra vertical, que possui a
estão marcadas as base proporcional aos intervalos de
frequências classe, e a altura correspondente à
20
simples. frequência da classe. Assim, quanto maior
a frequência da classe, maior a altura da
15

10
Frequência
5

0
1 3 5 7 9 11 13 15 17 19 21 23 25

No eixo horizontal do gráfico estão as classes. Notar que os limites inferiores e


superiores das classes são colocados no início e no fim das bases das colunas. As
colunas são justapostas, o que corresponde à ideia de continuidade entre as classes

Outro tipo de histograma muito utilizado é o Histograma de Frequências Relativas. A construção do


gráfico é mesma, apenas mudando, no eixo vertical, de frequências absolutas (f) para frequências
relativas (fr):
Figura 4.11 – Histograma de Frequências Relativas
Renda Familiar - Bairro X
fr

25,0

20,0

15,0

10,0

5,0

0,0
1 3 5 7 9 11 13 15 17 19 21 23 25
24

Outro tipo de histograma, mais completo, apresenta dois eixos verticais: um para as frequências simples
(f), outro para as frequências relativas (fr). Veja a seguir:

Figura 4.12 – Histograma de Frequências Absolutas e Relativas


Renda Familiar - Bairro X
fr
f
30 25,0

25
20,0

20
15,0
15
10,0
10

5,0
5

0 0,0
1 3 5 7 9 11 13 15 17 19 21 23 25

Outro tipo de gráfico também é muito utilizado para representar uma distribuição de frequências. Trata-
se do Polígono de Frequência Relativa, que é traçado unindo-se por segmentos de reta (poligonais)
os pontos médios das bases superiores dos retângulos do Histograma:

Figura 4.13 - Polígono de Frequência Relativa - Começo do traçado

A poligonal “nasce” no
canto inferior esquerdo Pontos médios das
da primeira coluna bases superiores das
colunas

Ao final do processo, obtemos a poligonal fechada que é a imagem da distribuição de frequência:


25

Figura 4.14 - Polígono de Frequências Relativas

Renda familiar - Bairro X fr


f

25 25,0

20 20,0

15 15,0

10 10,0

5 5,0

0 0,0
1 3 5 7 9 11 13 15 17 19 21 23 25

Costuma-se, também, traçar o Polígono de Frequências Relativas sem o Histograma, com os


segmentos de reta unindo os pontos x, y onde x é Ponto Médio das classes e y a frequência relativa das
classes:

Figura 4.15 - Polígono de Frequências Relativas


Renda familiar - Bairro X
fr
f

25 25,0

20 20,0

15 15,0

10 10,0

5 5,0

0 0,0
1 3 5 7 9 11 13 15 17 19 21 23 25
26

Polígono de Frequências Acumuladas – Ogiva de Galton

Para representar os valores destas duas estatísticas (F e Fr), utilizamos o Polígono de Frequências
Acumuladas, que se constrói da seguinte forma:

1. Traçam-se os eixos cartesianos, com dois eixos verticais. No primeiro eixo vertical, à esquerda
colocamos a escala para os valores de F, começando obrigatoriamente do zero e crescendo até n
(tamanho da amostra, neste exemplo igual a 120). No segundo eixo vertical, à direita, colocamos os
valores percentuais, começando também do 0 e crescendo até 100% - com intervalos (escala) de 10%
em 10%.

2. No eixo horizontal colocamos os valores dos limites das classes. Neste eixo não é obrigatório
começar-se do valor zero, mas devemos colocar o sinal de “quebra de escala”, se for o caso.

Renda Familiar - Bairro X


F Fr

120 100%
No eixo vertical à 90%
100 esquerda, 80%
marcamos uma
70%
80 escala que vai de
60%
60 50%
No eixo vertical à
esquerda, 40%
40
marcamos uma 30%
escala que vai de 20%
20
10%
0 0%
1 3 5 7 9 11 13 15 17 19 21 23 25
Renda (SM)

Figura 3.11 – Eixos cartesianos para o traçado do polígono de frequência

3. O Polígono de Frequências Acumuladas é uma linha suave, cujo ponto de origem é dado pelas
coordenadas (x, y), sendo x o limite inferior da primeira classe, e y igual a zero.
27

Renda Familiar - Bairro X


F Fr

120 100%
90%
100
80%
70%
80
60%
60 O primeiro ponto do polígono 50%
é sempre dado por (limite 40%
40 inferior da primeira classe,
30%
zero)
20%
20
10%
0 0%
1 3 5 7 9 11 13 15 17 19 21 23 25
Renda (SM)

Figura 3.12 – Marcação do primeiro ponto do polígono de frequência acumulada

4. O segundo ponto do polígono é dado por: limite superior da primeira classe, frequência acumulada
da primeira classe.

Renda Familiar - Bairro X


F Fr

120 100%
90%
100
80%
70%
80
60%
60 50%
O segundo ponto corresponde ao 40%
40 limite superior da primeira classe
30%
(3) e à frequência acumulada da
primeira classe (23) 20%
20
10%
0 0%
1 3 5 7 9 11 13 15 17 19 21 23 25
Renda (SM)

Figura 3.13– Marcação de pontos no polígono de frequências acumuladas

5. Para os demais pontos, que representam os limites superiores das classes, a ordenada é a
Frequência Acumulada da classe.
28

Renda Familiar - Bairro X


F Fr

120 100%
90%
100
80%
70%
80
60%
60 50%
40%
40
30%
20%
20
10%
0 0%
1 3 5 7 9 11 13 15 17 19 21 23 25
Renda (SM)

Figura 3.14– Marcação de pontos no polígono de frequências acumuladas

Ao terminar de marcar os pontos, trace uma linha suave unindo-os:

Renda Familiar - Bairro X


F Fr

120 100%

90%
100
80%

70%
80
60%

60 50%

40%
40
30%

20%
20
10%

0 0%
1 3 5 7 9 11 13 15 17 19 21 23 25
Renda (SM)

Figura 3.15 – Polígono de Frequência Acumulada


29

DICAS
É muito importante, fundamental mesmo, a atenção às normas técnicas para a elaboração de trabalhos
acadêmicos. Para os interessados, é recomendável:

Guia da USP: http://www.biblioteca.fsp.usp.br/guia/

Normas da ABNT: https://www.normaseregras.com/normas-abnt/


30

6. Medidas Estatística
Como foi visto no começo dessas Notas, um dos objetivos principais da Estatística é conhecer
conjuntos de dados (numéricos ou não). E não somente conhecer, mas transmitir este conhecimento
para os demais. O conhecimento é transmitido através de medidas estatísticas, ou estatísticas.

Fig. 6.1

MEDIDAS

As medidas são de muitos tipos, e têm por finalidade acrescentar informações aos dados4. As medidas
são agrupadas conforme sua “finalidade”, ou objetivo:

Tendência Central

Dispersão

Frequências

Medidas Estatísticas Posição

Assimetria

Curtose

Correlação

.....

Outras medidas, ou estatísticas, são específicas de cada setor do conhecimento: Medicina,


Farmacologia, Engenharia, etc.5

4
Lembrar que informação é dado processado.
5
Nota: a fonte de todas as tabelas neste e no próximo capítulo é “dados hipotéticos do Autor”
31

6.1 Medidas de Tendência Central

Medidas de Tendência Central procuram caracterizar uma amostra de n dados numéricos por
apenas um valor. Esta parece ser uma tendência natural das pessoas: quando se têm uma série de
valores procura-se um valor “médio”, pelo qual se identifica o conjunto. É muito comum se ouvirem
frases do tipo “os aluguéis estão em torno de R$ 850,00”, ou “são meninos na faixa de 12 anos”, ou
ainda “o jogador faz cerca de 2 gols por partida”. Expressões como “em torno”, “cerca de”, “na faixa de”,
ou ainda “em média”, traduzem esta tentativa de adotar-se um valor único para identificar um
conjunto de valores.

A Estatística possui um conjunto de Medidas de Tendência Central que, conforme o caso, fornecem
este valor único, característico dos dados existentes na amostra. Tenha em mente que estamos
tratando apenas de variáveis quantitativas. Variáveis qualitativas serão abordadas em outra parte
desta Apostila

As Medidas de Tendência Central que estudaremos nesta parte serão a Média, a Moda, a Mediana e o
Ponto Médio. Existem outras estatísticas de tendência central, que serão citadas quando necessário.

6.1.1 Média Aritmética

 Definição:

A Média, ou Média Aritmética, de um conjunto de n valores numéricos é definida como a razão


entre a soma destes valores e o tamanho do conjunto.

Seja um conjunto A de n valores numéricos, descrito como

A  {x1, x2 , x3 ,...,xn }

Define-se sua média aritmética, ou simplesmente, média, notada por X

in
x i
X i1
n
Onde: X é a média aritmética do conjunto, n é o tamanho (número de elementos) do conjunto.
Exemplo 6.1: Seja o conjunto A = { 1, 2, 4, 8, 0, 3}. Sua média será:

xi 1 2  4  8  0  3 18
X    30
,
n 6 6
Note que o elemento 0 “entra” na conta, no somatório de xi.

Exemplo 6:2 Seja o conjunto B = { 8, -2, 5, 6, -4, 2, 2,-1 }. Sua média será:

xi 8  2  5  6  4  2  2  1 16
X    2,0
n 8 8
Note que elementos com sinal negativo mantêm o sinal, no somatório.
32

Exemplo 6.3 : Seja o conjunto C = { 1, 2, 4, 3, 2, 2, 2, 3, 2, 1, 2 }. Sua média será:

xi 1  2  4  3  2  2  2  3  2  1  2 24
X    218
,
n 11 11
Note que a Média pode ser fracionária, ou seja, pode assumir um valor que, à primeira vista, pode
parecer absurdo, como é o caso de “1,3 filhos por casal”, ou “0,96 gols por partida”.

6.1.2 Moda

 Definição:

A Moda de um conjunto de valores numéricos é o valor, ou são os valores, de maior frequência


dentro do conjunto.

Assim, um conjunto pode possuir uma Moda, apenas ou pode possuir mais de uma Moda ou pode não
possuir Moda. Para que um conjunto possua Moda, é necessário que:

1. Existam valores repetidos no conjunto.

2. No conjunto, existam um ou mais valores que se repitam mais vezes do que os demais.

A Moda é notada por X . A frequência da Moda, ou das Modas, é chamada Frequência Modal (fk).

Exemplo 6.4 Seja o conjunto A = {1, 3, 4, 5, 5, 8, 5}. Sua Moda X  = 5, a Frequência Modal
fk = 3 (o elemento 5 repete-se mais do que os demais, e repete-se 3 vezes).

Exemplo 6.5: Seja o conjunto B = {1, 3, 4, 5, 5, 8, 4}. Suas Modas são X = 5 e X = 4, e Frequência
Modal fk = 2 (os elementos 5 e 4 repetem-se mais do que os demais, sendo 2 vezes cada).

Exemplo 6.6: Seja o conjunto C = {1, 1, 4, 5, 5, 4} . Este conjunto não possui Moda. Apesar de haver
repetição de valores, nenhum valor do conjunto repete-se mais vezes que os demais.

Exemplo 6.7: Seja o conjunto D = {1, 1, 1, 1, 1, 1}. Este conjunto não possui Moda. Apesar de haver
repetição do valor 1, nenhum valor do conjunto repete-se mais do que os demais. Apesar disto, é óbvio
que o valor 1 é o valor característico do conjunto.

Comentários

1. A Moda não é muito considerada pelos estatísticos uma vez que ela pode não ocorrer ou, o que é
pior, pode existir mais de uma Moda na amostra. Desta forma, ficaríamos em dúvida de qual dos
valores da Moda usar - lembre-se que uma medida de tendência central tem que ser um valor único.

2. Alguns alunos tendem a procurar “sub-modas” na distribuição, quando há elementos com frequência
próxima à Frequência Modal. Isto não é correto. A Moda terá a maior frequência dentro do conjunto.

3. Outro erro muito comum é, quando a distribuição possui duas Modas, inventar-se uma “Moda Média”,
que seria o valor médio entre as Modas. Esta “Moda Média” não existe.

4. Mesmo que a Moda possa não ser utilizada como Medida de Tendência Central (no caso de duas ou
mais Modas, por exemplo), ela não perde sua utilidade. As Modas fornecem indícios que existem vários
pontos de concentração na amostra, o que pode caracterizar um conjunto formado por vários
subconjuntos - e é assim que a amostra deve ser analisada. A(s) Moda(s), e a frequência modal podem
ser um recurso muito bom para informar sobre Assimetria, e Curtose (outras características dos
conjuntos de dados, que serão vistas mais adiante).
33

5. A Moda é diretamente afetada pelo número de repetições dos elementos do conjunto.

6. Vantagens da Moda:

a. Quando a Frequência Modal é alta (por exemplo, 50% do tamanho conjunto), a Moda passa a ser o
valor “típico” do conjunto;

b. A Moda não é afetada por valores extremos do conjunto;

c. Ao contrário da Média, se um conjunto possui Moda(s), esta(s) pertence(m) necessariamente ao


conjunto.

7. Desvantagens da Moda

a. A Moda pode não existir;

b. O conjunto pode ser bimodal ou polimodal

c. A Frequência Modal é muito baixa (poucas repetições), o que torna a Moda não característica do
conjunto.

6.1.3 Mediana

 Definição:

A Mediana é o valor central de um conjunto ordenado.

A Mediana é notada por


~
X
Seja o conjunto A = {1, 4, 6, 3, 9}. Para calcular sua Mediana, temos que ordenar o conjunto (vide
definição acima). Ordenado, o conjunto passa a ser

A’ = {1, 3, 4, 6, 9}

Valor Central

O valor central (no “meio” do conjunto) é o elemento 4. Portanto, a Mediana deste conjunto é
~ = 4.
X
Em conjuntos pequenos, de tamanho ímpar, é fácil determinar a Mediana. Se o conjunto possui n
elementos e n é ímpar, a Mediana ocupa a posição central (n+1)/2. No exemplo acima, como o
conjunto possui 5 elementos, a Mediana está na 3ª posição, pois (5+1)/2 = 3.

Conjuntos de tamanho ímpar

Valor Central

No entanto, em conjuntos pequenos, de tamanho par, temos duas posições centrais:

Conjuntos de tamanho par

Valores Centrais
34

Neste caso, a Mediana será a Média dos dois valores centrais. Por exemplo, seja o conjunto

B = {1, 0, 3, 5, 4, 9, 2, 1}. O conjunto ordenado será

B’ = {0, 1, 1, 2, 3, 4, 5, 9}

Valores Centrais

Os valores centrais são 2 e 3. Portanto, a Mediana deste conjunto é


~ = (2+3)/2 = 2,5.
X
Comentários

1. A Mediana é considerada a Medida de Tendência Central mais robusta, uma vez que não sofre a
desvantagem da média de se alterar devido à presença de valores extremos.

2. Como se vê, o valor da Mediana depende apenas de sua posição. Logicamente, se o tamanho do
conjunto é alterado, a Mediana pode deslocar-se para cima ou para baixo.

3. Vantagens da Mediana:

a. A Mediana, por ser independente dos valores do conjunto, pode ser calculada mesmo para conjuntos
abertos;

b. Sua robustez;

4. Desvantagens da Mediana:

a. A Mediana não é característica do conjunto se a distribuição de valores for bimodal ou polimodal


(áreas de concentração diferentes);
6
b. Se um conjunto for de tamanho par, a Mediana terá que ser “inventada”, em uma posição arbitrada

Até aqui estudamos as Medidas de Tendência Central. Procuramos um valor único que represente
todo um conjunto numérico. Com a determinação deste valor, seja ele a Média, a Moda ou a Mediana,
aumentamos ainda mais o nível de conhecimento que possuímos sobre a amostra. Prosseguindo nosso
estudo, vamos adotar a Média como Medida de Tendência Central (por mais imperfeita que possa ser
esta medida), e verificar como os demais elementos do conjunto se dispõem em torno da média.

6
Não consideramos esta uma desvantagem. Se a mediana é ̃ e o conjunto tem n valores, teremos sempre n/2
valores menores que ̃ e n/2 valores maiores que ̃.
35

6.1.4 Propriedades da Média Aritmética

Propriedade I Seja um conjunto A, de valores numéricos, definido como


A  {x1, x2 , x3 ,...,xn}  {xi }n , e com média X A .
Seja um conjunto B, definido como
B  {x1  k, x2  k, x3  k,...,xn  k}  {xi  k}n , (sendo k uma

constante) e com Média XB .


A Média X B será igual a X A  k .
Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores
de um conjunto, a nova média será a Média do conjunto original somada (ou
diminuída) a esta constante k.

Propriedade II Seja um conjunto A, de valores numéricos, definido como


A  {x1, x2 , x3 ,...,xn}  {xi }n , e com Média X A . Seja um conjunto B,

definido como B  {x1.k, x2 .k, x3.k,...,xn .k}  {xi .k}n , (sendo k uma

constante diferente de zero) e com Média X B . A Média X B será igual a X A.k .


Assim, se multiplicarmos (ou dividirmos) por uma constante k (k  0), a todos
os valores de um conjunto, a nova Média será a Média do conjunto original
multiplicada (ou dividida) por esta constante k.

Propriedade III Seja um conjunto A, de valores numéricos, definido como


A  {x1, x2 , x3 ,...,xn}  {xi }n , e com Média X A . Sejam as diferenças (ou
desvios) di  xi  X A (diferença de cada elemento do conjunto em relação à
média). Temos que
in
d  0
i1
i

ou seja, a soma algébrica dos valores das diferenças dos elementos em


relação à Média do conjunto é sempre nula.

Propriedade IV Seja um conjunto A, de valores numéricos, definido como


A  {x1, x2 , x3 ,...,xn}  {xi }n , e com Média X A . Sejam as diferenças (ou
desvios) di  xi V (diferença de cada elemento do conjunto em relação a um
in
valor V, qualquer. Temos que d será um mínimo quando V  X
i1
2
i A
36

6.2 Medidas de Dispersão

Na prática, podemos obter amostras regulares, com a maioria de seus elementos concentrados em
torno da Média, ou irregulares, com valores dispersos, distantes da Média. Alguns conjuntos são
extremamente regulares, como as medidas de peças fabricadas em série, em indústrias com um bom
controle de qualidade. Outros, ao contrário, são bastante heterogêneos como, por exemplo, as idades
dos habitantes de uma cidade - temos desde recém-nascidos até pessoas de idade bem avançada.

Figura 6.2 Dispersão de conjuntos

Conjunto A
No conjunto A, ao lado, os elementos da amostra se
concentram de maneira quase uniforme, em torno da
região central (em cinza). Existem alguns elementos,
inclusive, dentro da área cinzenta. Se imaginarmos que
esta área cinzenta representa a Medida de Tendência
Central (no caso, a Média), teremos um conjunto de pouca
dispersão em torno da Média.

Conjunto B

Ao contrário, no conjunto B, ao lado, os elementos da


amostra se afastam da região central, estando dispersos
por todas as regiões da amostra. Uns poucos elementos
se encontram próximos a esta região central; o restante
dos elementos da amostra se distribui irregularmente.
Comparando as duas ilustrações, formamos um conceito,
ainda que visual, de uma grandeza chamada dispersão.

6.2.1 Amplitude R

Amplitude (R ou Amp) é simplesmente a distância entre o maior valor e o menor valor de um conjunto
de dados. Por exemplo, a Amplitude do conjunto A = { 1, 3, 5, 5, 5, 8} é igual a
Amp = 8 -1 = 7.

Outra forma de mostrar a Amplitude de um conjunto é a que utiliza a notação da teoria dos conjuntos: [
a, b] significando um intervalo fechado, sendo a o menor valor e b o maior valor. Para o exemplo acima,
teremos Amp = [1, 8].
37

6.2.2 Desvios
Figura 6.3 Desvios

O nosso problema, agora que já temos uma idéia


visual do que seja concentração ou dispersão, é
quantificar esta dispersão em torno da Média. Na
ilustração ao lado, mostramos uma tentativa de
quantificação desta grandeza. Medimos a distância
entre cada elemento da amostra e a Média do
conjunto. Esta distância é chamada de desvio de um
elemento, que notaremos por di.

Assim, cada elemento da amostra poderá ter seu


desvio calculado em relação à Média. É uma medida
ainda bem primitiva, mas já é um começo.
Exemplificando, seja o conjunto A = {0, 3, 2, 7, 8, 4}. A Média deste conjunto é

xi 0  3  2  7  8  4 24
X    4,0
n 6 6
Os desvios dos elementos são calculados pela fórmula:

di  xi  X
Onde d i é o desvio de um elemento xi e X é a média do conjunto. Calculando os desvios dos
elementos do conjunto, temos:

Tabela 6.1 – Desvios dos elementos do conjunto


xi di
0 0-4=-4
3 -1
2 -2
7 +3
8 +4
4 0
 0

Note que temos desvios negativos, positivos e nulos. Desvios negativos ocorrem quando os
elementos são menores que a média; desvios positivos acontecem quando os elementos são maiores
do que a média; desvios nulos ocorrem quando os elementos são coincidentes com a Média. Assim,
podemos ter

di O que indica que xi


>0 > X , ou que o elemento xi está acima da média X
di O que indica que xi
=0 = X , ou que o elemento xi coincide com a média X
di O que indica que xi
<0 < X , ou que o elemento xi está abaixo da média X
38

Repare, também, que a soma algébrica dos desvios em relação à média é igual a zero. Esta é uma
das propriedades da Média, que já foi estudada, e é uma maneira de conferirmos se nossas contas
estão certas.

6.2.3 Variância e Desvio-padrão

O desvio-padrão foi adotado pela Estatística para refletir, de maneira mais realista, mais robusta7 e mais
precisa a grandeza dispersão nas amostras.

O desvio-padrão é o resultado de uma operação matemática chamada raiz média quadrática dos
desvios. De uma forma mais prática, para calcular o desvio-padrão é melhor calcular antes, outra
estatística chamada variância. Por enquanto, não se preocupe com o que significa a variância, mas
saiba que é uma estatística muito importante, intensamente utilizada em análises mais avançadas em
Estatística.

 Definições

A variância é a média dos quadrados dos desvios em relação à média.

A variância é notada por s2 (a letra “s”, minúscula, elevada ao quadrado). A fórmula da variância é a
seguinte:

in
d 2
i
s2  i1
n 1
O desvio-padrão é a raiz quadrada da variância.

Sua fórmula, portanto, é

s  s2
Seja o conjunto do exemplo anterior, A = {0, 3, 2, 7, 8, 4}. A média do conjunto, X = 4, e os desvios
foram calculados, conforme a tabela 2.1, aqui repetida:

Tabela 6.1 – Desvios dos elementos do conjunto


xi di
0 -4
3 -1
2 -2
7 +3
8 +4
4 0
 0

Montamos mais uma coluna, à direita, para conter os valores dos quadrados dos desvios:

7
Você se lembra do que é robustez, em Estatística?
39

Tabela 6.2 – Cálculo dos quadrados dos desvios


xi di d2
0 -4 16
3 -1 1
2 -2 4
7 +3 9
8 +4 16
4 0 0
 0 46

di2 46
A variância, então, será s 
2
  9,2
n 1 5

O desvio-padrão será s  s2  9,2  303


,
Comentários

1. A dispersão dos elementos de um conjunto é uma espécie de “propriedade” dos conjuntos,


assim como as figuras geométricas planas possuem área, e as figuras em três dimensões possuem
volume.

2. Você deve estar perguntando: porque, afinal, não utilizamos a variância, apenas, sem mais esta
medida do desvio-padrão? A resposta é a seguinte:

Suponha que estamos analisando as notas de uma turma, em que foram atribuídos “pontos” aos alunos,
numa escala de 0 a 10. Então, podemos ter alunos com 0 ponto, 1, 2 ou 3 pontos, 4 pontos, e assim por
diante, até alunos com 10 pontos.

Ao calcularmos a Média das notas dos alunos, encontramos, por exemplo, o valor 6,8. Isto quer dizer
que a Média da turma é 6,8 pontos.

Ao calcularmos as Medidas de Dispersão, temos: desvios di calculados em pontos, desvio médio


calculado em pontos, e a variância em pontos ao quadrado (!).

Ora, esta unidade de medida, “pontos ao quadrado”, é absurda! Para voltarmos à unidade original,
temos que extrair a raiz quadrada da variância - que é justamente o desvio-padrão, cuja unidade é
pontos... Agora, estamos sossegados.

Nota: A maioria dos autores faz uma distinção entre o cálculo da variância e do desvio-padrão referindo-
se a amostras ou aos elementos do conjunto Universo (ou população). Adotam expressões de cálculo
ligeiramente diferentes para s2 (variância de amostras) e para  2 (variância de população):

As fórmulas são:

Para amostras:

d 2
s 
2
n 1
40

Para populações:

d 2
 2
N
Onde d2 é a expressão “quadrado do desvio” ( di  xi  X ), e n e N são, respectivamente, os tamanhos
da mostra e da população, N>>n. O desvio-padrão é calculado da mesma forma, seja para amostras,
seja para populações: s  s2 para amostras e    2 para populações8.
Esta diferença não representa muito em termos de resultado, para n ou N superiores a 30. Daí que
utilizaremos, nesta apostila, o denominador n-1 para amostras de tamanho inferior a 30, e n, para
amostras com tamanho maior ou igual a 30. Para populações, a mesma regra.

Se aplicássemos a fórmula da variância com n, ao invés de n-1 no numerador, os resultados seriam: s2


= 7,67 e s = 2,67. O erro cometido seria de 14%, para menos, no desvio-padrão. Isto ocorreu porque o
tamanho do conjunto é muito pequeno, 6 elementos apenas.

6.2.4 Coeficiente de Variação

O Coeficiente de Variação (CV) é a razão entre o desvio-padrão e a média do conjunto. Sua fórmula,
portanto, é

s
CV 
X
No exemplo atual, calculamos a Média X  4,0 e o desvio-padrão s  303
, . O Coeficiente de Variação
será dado por

s 303
,
CV    0,7575
X 4,0
Nota: Na prática, expressamos o valor do CV em porcentagem. O CV calculado acima será, então,
CV = 76%.

Comentários

1. As Medidas de Dispersão que estudamos analisam a disposição dos elementos amostrais em


relação à Média. Nas amostras, os elementos podem estar distantes da Média (dispersos), ou
concentrados em torno desta Estatística (caso das amostras homogêneas), ou mesmo esta disposição
pode ser irregular, com uma parte da amostra concentrada e a outra dispersa. Novamente temos que
aprofundar a análise destas Estatísticas, assim como fizemos com as Medidas de Tendência Central.

2. A Amplitude fornece uma idéia preliminar de como está a dispersão, a grosso modo, na amostra. Se
a variável estatura dos indivíduos é que está sendo medida, uma amostra A com Amplitude
R(A) = [1,68m , 1,72m] deve ter, teoricamente, uma dispersão de valores menor do que uma amostra
B, com Amplitude R(B) = [ 1,60m , 1,92m] - a “faixa de valores possíveis” em A é menor do que em B.
Mas este é apenas o começo da nossa análise.

8
Usamos letras do alfabeto grego para populações e letras do alfabeto latino para amostras.
41

3 Você deve ter em mente que só o estudo de muitos conjuntos e muitas distribuições de valores
irá fornecer a você uma boa ideia do que é um desvio-padrão “alto” ou “baixo”. Isto depende da variável
em estudo. As peças de um motor fabricado em série, por exemplo, saem da linha de montagem com
as medidas praticamente iguais, se a máquina estiver bem calibrada e lubrificada. Os desvios padrões
das medidas “tendem” a zero, e só um exame muito minucioso irá apontar as diferenças (mínimas)
existentes entre elas. Quanto maior a regularidade e qualidade dos processos de fabricação, menores
serão os coeficientes de variação encontrados. A regulamentação dos padrões de qualidade, as normas
ISO 9000 e outras, utilizam os desvios padrões e os escores padronizados para fixar os limites de
tolerância das medidas dos produtos industriais.

4 A Variância, o Desvio-padrão e o Coeficiente de Variação são utilizados em todos os casos, para


medir a dispersão em relação à Média. No momento, não se preocupe com a variância - esta
estatística é de extrema importância, e será objeto de estudos mais adiante. Mas neste ponto
concentremo-nos no desvio-padrão e no coeficiente de variação. Neste primeiro contato, normalmente o
aluno não consegue visualizar o que seja (ou o que é medido) pelo desvio-padrão. Vamos tentar
esclarecer, através do exemplo seguinte:
42

6.2.5 Propriedades da Variância

Propriedade I Seja um conjunto A, de valores numéricos, definido como


A  {x1, x2 , x3 ,...,xn}  {xi }n , e com Média X A e variância s
2
A
.
Seja um conjunto B, definido como
B  {x1  k, x2  k, x3  k,...,xn  k}  {xi  k}n , (sendo k uma

constante) e com Média XB e variância


2
s.
B
2 2
A variância s B
será igual à variância s.
A

Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores


de um conjunto, a variância do conjunto não se altera.

Propriedade II Seja um conjunto A, de valores numéricos, definido como


A  {x1, x2 , x3 ,...,xn}  {xi }n , e com Média X A e variância s Seja um 2
A
..

conjunto B, definido como B  {x1.k, x2 .k, x3.k,...,xn .k}  {xi .k}n , (sendo k

uma constante diferente de zero) e com Média XB e variância s.


2
B

2 2 2
A variância s B
será igual a sk A
.

Assim, se multiplicarmos (ou dividirmos) por uma constante k (k  0), a todos


os valores de um conjunto, a nova variância será a variância do conjunto
original, multiplicada (ou dividida) pelo quadrado desta constante k. (k2)

Propriedade III Seja um conjunto A, de valores numéricos, definido como


A  {x1, x2 , x3 ,...,xn}  {xi }n , e com Média X A e variância s
2
A
. Sejam um

outro conjunto B  {y1, y2 , y3 ,...,yn }cujos valores são definidos como

Y  aX  b . Pelas Propriedades I e II, acima, temos que


 a2 sB
2 2
s B
43

6.3 Medidas de Posição


No decorrer dos últimos capítulos, vimos como obter informações sobre o Universo, a partir dos dados
das amostras. Já sabemos calcular as Medidas de Tendência Central (Média, moda, Mediana), já
possuímos uma boa idéia de como está a dispersão (Variância, Desvio-padrão , coeficiente de variação)
e aprofundamos nosso conhecimento sobre grandes conjuntos, utilizando distribuições de Frequência e
os gráficos associados (histograma, polígonos de Frequência simples e Frequência acumulada). Estas
informações são muito úteis quando os dados estão concentrados em torno da Média, com baixos
coeficientes de variação e quando a distribuição é unimodal, o que torna as Medidas de Tendência
Central boas caracterizadoras da amostra.

No entanto, algumas distribuições não seguem esta configuração: são distribuições cujas amplitudes
possuem intervalos muito extensos, o que produz médias e as outras Medidas de Tendência Central
não-características, além de fornecer elevados desvios padrões e coeficientes de variação. Nosso
conhecimento, diante destes tipos de distribuições, revela-se insatisfatório. Precisamos de mais
informações sobre a amostra, para poder tomar decisões. É o caso, por exemplo, de termos que lidar
com a variável IDADE de uma população. Pesquisando esta variável de forma generalizada, em uma
cidade, iremos descobrir que as idades variam desde o valor “zero ano” (os recém-nascidos), até os 90
ou 100 anos (em alguns lugares, até bem mais que isso). Ao tabularmos os valores desta variável, as
idades coletadas irão pertencer às classes de 0 a 10 anos, 10 a 20 anos, 20 a 30 anos, e assim por
diante, até uma última classe, digamos, dos 100 aos 110 anos. Em seguida, calcularíamos a média -
por exemplo, 22,3 anos de idade. O que quer dizer este número? Apenas isto: a média de idade é de
22,3 anos. E mais nada. O Desvio-padrão e o coeficiente de variação, com certeza, iriam invalidar esta
média como medida característica da população. Mesmo a Mediana e a moda seriam inócuas - por ter a
população uma gama de idades que vai do 0 aos 110 anos.

Outro exemplo: a variável RENDA. Em um país como o nosso, em que a distribuição de renda era, em
2003, a segunda pior do mundo, falar-se de “renda média” ou de “renda Mediana” não acrescenta nada
ao conjunto de informações que necessitamos. No Brasil, temos casos até de “renda negativa”, e uma
forte concentração de renda nas classes sócio-econômicas mais abastadas.

Para muitas outras variáveis, ocorre o mesmo problema. Variáveis tais como as estudadas em
Educação Física, Economia, Ciências Sociais, Ciências Humanas, etc., carecem que estudemos com
maior profundidade o seu comportamento. Em síntese, são variáveis cuja evolução não é regular e
existe pouca concentração de dados em torno da média. Mais informação sobre estas variáveis
podem ser obtidas com o cálculo das Separatrizes.

Uma Separatriz é uma estatística, ou seja, um número exato, que divide uma distribuição de valores
em duas partes. É como se fosse um limite, uma fronteira. Já conhecemos uma separatriz, a Mediana.
A Mediana é o valor que separa um conjunto de valores, dispostos em ordem crescente (ou
decrescente) de forma que 50% da distribuição estejam abaixo da Mediana, e os outros 50% acima da
Mediana. Podemos dizer, então, que a Mediana é o valor que divide uma distribuição de valores
numéricos em duas metades.

Existem outras separatrizes importantes para auxiliar a compreender e descrever o comportamento de


uma variável. Neste capítulo, estudaremos as separatrizes, a partir da distribuição de Frequência da
tabela 6.1 – Notas de um Concurso, a seguir:
44

Tabela 6.1 Notas de um Concurso


Classes de Notas f
0 --| 10 21
10 --| 20 36
20 --| 30 50
30 --| 40 30
40 --| 50 28
50 --| 60 26
60 --| 70 20
70 --| 80 17
80 --| 90 12
90 --| 100 10
 250
Fonte: dados hipotéticos do autor

A tabela acima mostra dados de uma prova a que foram submetidos 250 inscritos em um concurso.
Teoricamente, as notas vão de “mais de zero” até 100. Calculando as Medidas de Tendência Central e
dispersão, temos:

Estatística
Média 40,7
Mediana 36,0
Moda 24,1
Desvio-padrão 24,9
CV 61%

Note que o Desvio-padrão de quase 25 pontos e um coeficiente de variação de 61% invalida a média
como caracterizadora do conjunto. A Frequência modal, em torno de 20%, também é insuficiente para
adotarmos esta medida como valor característico. Parece que ficamos no mesmo lugar, em termos de
nível de informação sobre esta variável. O histograma de Frequência está na figura a seguir:
45

Figura 6.4 Histograma de Frequências das Notas do Concurso

Notas do Concurso
f

60

50

40

30

20

10

0
0 --| 10 10 --| 20 20 --| 30 30 --| 40 40 --| 50 50 --| 60 60 --| 70 70 --| 80 80 --| 90 90 --| 100

Notas

Fonte: Tabela 6.1

Continuando a nossa análise, observando o gráfico, verificamos que há uma região de concentração
em torno dos 25 ptos. Mas qual será o número de pontos que delimita as 25% piores notas? E qual foi a
nota de corte dos 10% primeiros colocados?
Todas estas informações são importantes para aumentarmos o nível de conhecimento sobre este
conjunto, e, em alguns conjuntos, informações mais significativas do que as medidas calculadas
anteriormente. Estas estatísticas são as Separatrizes, cujo conceito é dado a seguir:

Uma Separatriz é um valor que divide um conjunto numérico ordenado de forma crescente, em
duas partes complementares.

As Separatrizes mais utilizadas são os Quartis e os Percentis, que são definidos a seguir:

Quartis – um Quartil é um valor que dividem o conjunto de valores da amostra em duas partes, sendo:

Quartil Nome Definição


Q1 Primeiro Quartil Divide os valores ordenados em duas partes: 25% da amostra está
abaixo do Q1, 75% acima do Q1.

Q2 Segundo Quartil Divide os valores ordenados em duas partes: 50% da amostra está
abaixo do Q2, 50% acima do Q2.

Q3 Terceiro Quartil Divide os valores ordenados em duas partes: 75% da amostra está
abaixo do Q3, 25% está acima do Q3.
46

Veja a figura seguinte:

Figura 6.5 - Quartis

Q1 Q2 Q3

Parte do conjunto abaixo da separatriz

Parte do conjunto acima da separatriz

Outra separatriz muito utilizada é o Percentil. Percentis também dividem a amostra em duas partes,
segundo a seguinte proporção (percentis mais utilizados):

Percentil Nome Definição


P10 Décimo Divide os valores ordenados em duas partes: 10% da
Percentil amostra está abaixo do P10, 90% acima do P10.

P90 Nonagésimo Divide os valores ordenados em duas partes: 90% da


Percentil amostra está abaixo do P90, 10% acima do P90.

Veja a figura abaixo:

Figura 6.6 – Percentis

P10 P90

Parte do conjunto abaixo da separatriz

Parte do conjunto acima da separatriz

Por analogia, podemos definir qualquer percentil a partir do conceito:

Pn n-ésimo percentil: Divide a amostra ordenada em duas partes, n% da amostra abaixo do Pn

Comentários

Você pode entender a palavra “quartil” como “quarta parte”, assim como “percentil” como “centésima
parte”. Assim, o primeiro quartil, Q1, pode ser considerado a “primeira quarta parte”, o segundo quartil
Q2, a “primeira mais a segunda quarta parte” e o Q3 como a “primeira mais a segunda mais a terceira
quarta parte”. O décimo percentil P10, seria as “dez primeiras centésimas partes”, e assim por diante.

O cálculo dos valores dos quartis e percentis de conjuntos de qualquer tamanho é feito pelos programas
de Estatística, como o Excel, o SPSAS, o Abstat, etc.
47

6.4 Medidas de Assimetria e Curtose


As Distribuições de Frequências podem ser analisadas também em relação à sua simetria, que pode
ser entendida como a comparação da densidade de frequência entre as duas partes, quando dividimos
a distribuição pela média. Seja, por exemplo, a distribuição a seguir:

Tabela 6.2 Notas


Classes f
00 - 10 12
10 - 20 18
20 - 30 25
30 - 40 15
40 - 50 8
50 - 60 5
60 - 70 3
70 - 80 2
 88
Fonte: Dados hipotéticos do autor

O histograma de Frequência correspondente é o seguinte:

Figura 6.7

f 25

20

15

10

0
00 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80
Classes

A média da distribuição é X = 28. Se dividirmos a distribuição em duas partes, a primeira abaixo da


média e a segunda acima da média, podemos considerar a distribuição desta forma:
48

Tabela 6.2
Classes F
00 - 10 12 A soma das frequências
10 - 20 18 até a média é,
20 - 30 25 aproximadamente, 55
30 - 40 15
40 - 50 8 A soma das frequências a
50 - 60 5 partir da média é,
60 - 70 3 aproximadamente, 33
70 - 80 2
 88

Temos, portanto, uma densidade de frequências maior na parte anterior à média. Dito de outra forma
existem mais elementos, na amostra, com valores inferiores à média. Veja a figura a seguir:

Figura 6.8

Elementos inferiores à média Elementos superiores à média

f 30

25

20

15

10

0
00 - 10 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80
Classes

Média

Nesta situação diz-se que a distribuição é assimétrica positiva (mais elementos amostrais inferiores à
média). Numa situação oposta, com mais elementos amostrais superiores à média, diremos que a
distribuição é assimétrica negativa. Podemos ter uma situação de equilíbrio, com o mesmo número de
elementos amostrais acima e abaixo da média: é um caso de simetria.
49

Comentários Você pode fazer uma analogia entre


a assimetria de uma distribuição e o
Figura 6.9a equilíbrio ou desequilíbrio das
densidades de freqüência
representadas pelas barras do
histograma da distribuição. Na
figura 6.9a, ao lado, temos uma
distribuição simétrica, que
equilibra-se perfeitamente sobre um
balanço, sem pender para nenhum
dos lados. As massas se distribuem
igualmente nos lados direito e
esquerdo do histograma, simétricas
em relação à Média.

Figura 6.9b
Na figura 6.9b, temos uma
distribuição assimétrica positiva.
O histograma “pesa” mais do lado
esquerdo do balanço, e causa um
desequilíbrio, representado pela
seta.

Ocorre o contrário, na Figura 6.9c.


As massas estão mais “pesadas” na
direita do histograma, e o
Figura 6.96c desequilíbrio é indicado pela seta.
Temos então uma distribuição
assimétrica negativa.

Na prática, para sabermos a assimetria da distribuição, verificamos o sinal da seguinte diferença:


~
Sinal( Assimetria)  X  X
50

As situações que podemos encontrar são as seguintes:

~> 0
XX Média maior que a Mediana Assimetria positiva Assimetria à esquerda
~= 0
XX Média igual à Mediana Simetria Simetria
~< 0
XX Média menor que a Mediana Assimetria negativa Assimetria à direita
As situações são ilustradas nas figuras a seguir (utilizamos os pontos médios das classes para a
construção dos polígonos de Frequência):

Figura 6.10

f
50

45 Assimetria Positiva (Média maior


que Mediana)
40

35

30

25

20

15

10 Mediana Média
5

0
5 15 25 35 45 55 65 75 85
x

Figura 6.11

f 60

50
Assimetria Negativa (Média menor
que Mediana)
40

30

20

10 Média Mediana

0
5 15 25 35 45 55 65 75 85
x
51

Figura 6.12

f 25
Simetria (Média igual à Mediana)

20

15

10

0
5 15 25 35 45 55 65 75 85
x

No caso de simetria, há uma coincidência entre Média, Moda e Mediana. Para distribuições unimodais,
fortemente assimétricas, temos as seguintes relações entre as Medidas de Tendência Central:

Figura 6.13

80
f
70

60
Moda Mediana Média
50

40

30

20

10

0
0 5 15 25 35 45 55 65 75 85

Distribuição assimétrica positiva:


~X
X  X
52

Figura 6.14

80
f
70

60

50
Média Mediana Moda
40

30

20

10

0
0 5 15 25 35 45 55 65 75 85

Distribuição assimétrica negativa:


~X
X  X
6.4.1 Medidas de Assimetria

A assimetria de uma distribuição pode ser medida, através de uma estatística chamada coeficiente de
assimetria, CA. Existem várias fórmulas para o seu cálculo. Na que adotaremos nestas Notas, o CA é
chamado segundo coeficiente de assimetria de Pearson, e a fórmula é a seguinte:

3( X  X~)
CA 
s
~
O resultado é adimensional e assume o valor zero quando a distribuição é simétrica ( X  X ). Esta
fórmula permite comparar duas distribuições, verificando qual é mais assimétrica. O CA apresenta, mais
comumente, valores entre  1. Valores máximos são:

3  CA 3
53

Exemplo 6.1
Tabela 6.3 DF8.1
Classes f
0 |-- 2 3
2 |-- 4 7
4 |-- 6 12
6 |-- 8 17
8 |-- 10 27
10 |-- 12 24
12 |-- 14 20
∑ 110
Fonte: Dados do autor

Figura 6.15

DF 8.1

30

25

20

15
f

10

0
0 |-- 2 2 |-- 4 4 |-- 6 6 |-- 8 8 |-- 10 10 |-- 12 12 |-- 14
Classes

Média = 8,8

Mediana = 9,2

Desvio-padrão = 3,2

Cálculo do Coeficiente de Assimetria


~
3(X  X ) 3(8,8  9,2) 3(0,4)
CA    0,375
s 3,2 3,2
Assimetria negativa, ou assimetria à esquerda
54

Exemplo 6.2

Tabela 6.4 DF03


Classes F
0 |-- 2 6
2 |-- 4 16
4 |-- 6 20
6 |-- 8 26
8 |-- 10 20
10 |-- 12 16
12 |-- 14 6
∑ 110

Figura 6.16

DF 03

30

25

20

15
f

10

0
0 |-- 2 2 |-- 4 4 |-- 6 6 |-- 8 8 |-- 10 10 |-- 12 12 |-- 14
Classes

Pelo próprio formato do histograma, podemos perceber a simetria do conjunto. De fato, calculando as
medidas Média e Mediana, temos:

Média = 7,0

Mediana =7.0
~
3( X  X ) 3(7,0  7,0) 3(0)
CA    0,0
s s s
O que confirma nossa percepção.
55

Exemplo 6.3

Tabela 6.5 DF 8.4


Classes F
0 |-- 2 25
2 |-- 4 20
4 |-- 6 18
6 |-- 8 16
8 |-- 10 15
10 |-- 12 10
12 |-- 14 6
∑ 110

Figura 6.17

DF 8.4

30

25

20

15
f

10

0
0 |-- 2 2 |-- 4 4 |-- 6 6 |-- 8 8 |-- 10 10 |-- 12 12 |-- 14
Classes

Figura 5.12
Média = 5,5

Mediana =5,1

Desvio-padrão = 3,7

Cálculo do coeficiente de assimetria


~
3(X  X ) 3(5,5  5,1) 3(0,4)
CA    0,32
s 3,7 3,7
Assimetria positiva, ou assimetria à esquerda
56

6.4.2 Medidas de Curtose

Curtose é o mesmo que “achatamento” de uma distribuição, representada pelo seu polígono de
Frequência. As distribuições, quanto à Curtose, podem ser leptocúrticas, mesocúrticas ou
platicúrticas, como se vê na figura a seguir:

Figura 6.18

Leptocúrtica

Mesocúrtica

Como se pode ver na figura acima, dos polígonos de Frequência que representam três distribuições, a
mais achatada é a platicúrtica (do grego platys, largo, achatado). A menos achatada, ou mais
pontiaguda é a leptocúrtica (do grego leptos, fino, delgado). Entre as duas, a distribuição mesocúrtica.

A Curtose de uma distribuição também pode ser medida, através da estatística Coeficiente de
Curtose, CC. Uma de suas fórmulas é a empírica

Q3  Q1
CC 
2( P90  P10 )
Onde Q3 e Q1 são quartis e P90 e P10 são percentis. O CC também é adimensional, sendo que o valor de
CC = 0,263 identifica uma distribuição mesocúrtica. Valores de CC menores que 0,263 identificam
distribuições leptocúrticas; valores de CC maiores que 0,263 identificam distribuições platicúrticas.

Lembrando que os percentis são também Separatrizes. Percentis também dividem a amostra em duas
partes, segundo a seguinte proporção (percentis mais utilizados):

Percentil Nome Definição


P10 Décimo Divide os valores ordenados em duas partes: 10% da
Percentil amostra está abaixo do P10, 90% acima do P10.

P90 Nonagésimo Divide os valores ordenados em duas partes: 90% da


Percentil amostra está abaixo do P90, 10% acima do P90.
57

Veja a figura abaixo:

Figura 6.19

P10 P90

Parte do conjunto abaixo da separatriz

Parte do conjunto acima da separatriz

Veja os exemplos a seguir:

Exemplo 6.4 Sejam as três distribuições de Frequência a seguir, dos conjuntos A, B e C:

Tabela 6.6
Classes fA fB fC
0 |-- 2 12 6 1
2 |-- 4 20 12 3
4 |-- 6 25 24 12
6 |-- 8 31 61 113
8 |-- 10 25 24 12
10 |-- 12 20 12 3
12 |-- 14 12 6 1
 145 145 145

Os polígonos de Frequência das distribuições são os seguintes:


58

Figura 6.20

120

100

80

60

40

20

0
0 |-- 2 2 |-- 4 4 |-- 6 6 |-- 8 8 |-- 10 10 |-- 12 12 |-- 14

As separatrizes são:

Separatriz A B C
Q1 4,34 4,95 6,4
Q3 9,66 9,05 7,6
P10 2,25 3,1 5,75
P90 11,75 10,95 8,25

Coeficientes de Curtose

Q3  Q1 9,66 4,34
Conjunto A CC    0,28 Platicúrtica
2(P90  P10) 2(11,75 2,25)

Q3  Q1 9,05 4,95
Conjunto B CC    0,263 Mesocúrtica
2(P90  P10 ) 2(10,9  3,1)

Q3  Q1 7,6  6,4
Conjunto C CC    0,24 Leptocúrtica
2(P90  P10) 2(8,25 5,75)
59

7 Análise Exploratória de Dados


A Análise Exploratória de Dados é um conjunto de técnicas estatísticas de descrição de amostras
elaborada, entre outros, por John Tukey, em 1977 - daí a associação que se faz com seu nome e esta
parte da Estatística. A Estatística Descritiva, ao lidar com os elementos amostrais, procura separar a
amostra em faixas, ou classes, e contar os valores que se encontram em cada classe, montando as
tabelas de Distribuição de Frequência como foi estudado nos Capítulos anteriores. A partir da
elaboração desta tabela, os dados amostrais originais são “abandonados”, e passamos a estudar a
amostra a partir de sua “imagem organizada”, a Distribuição de Frequência. Esta técnica, apesar de
bastante cômoda e eficiente, de alguma forma deixa escapar informações importantes que, numa
análise mais aprofundada, deveriam auxiliar em nossas conclusões. A proposta de Tukey, de larga
utilização na atualidade, supre estas deficiências. A Análise Exploratória de Dados, na parte da
descrição de amostras, tem as seguintes características:

1. Os dados amostrais coletados não são abandonados, mas sim dispostos em uma nova forma de
organização, chamada Diagrama Ramo-Folha. Este diagrama oferece muitas vantagens, como:

a. Cálculo preciso das Modas, Medianas e Medidas de posição reais, sem necessitar de fórmulas
empíricas;
b. Visualização imediata do histograma de Frequências da distribuição amostral, apreendendo mais
rapidamente as situações de Assimetria e Curtose;
c. Maior clareza na redistribuição de dados nos intervalos de classes.

10
2. Há uma ênfase na apresentação visual das informações amostrais, com a utilização do Box-Plot .
3. O enfoque é sobre a Mediana e as Medidas de Posição (quartis e percentis), em detrimento da
Média, como Medidas de Tendência Central.
4. Como Medidas de Dispersão, utilizamos mais a distância entre quartis, e outras, que serão definidas
neste capítulo, ao invés da Variância e do Desvio-padrão.

É claro que não deve deixar de lado as técnicas tradicionais da Estatística Descritiva, que continuam
valiosas e indispensáveis para o entendimento da amostra, principalmente se esta for de tamanho muito
grande, com centenas e centenas de elementos. Consideramos a Análise Exploratória um formidável
avanço na Estatística, e você deve estar preparado para se valer de todas as técnicas que puder
dominar. Estudamos esta nova técnica através do exemplo seguinte:

7.1 Diagrama Ramo-folha

Para estudar a distribuição de idades dos moradores de um bairro, foi feita uma amostragem aleatória
de 100 pessoas, e os resultados estão neste rol:

Figura 7.1
ROL

1 1 2 2 3 3 3 5 7 8
8 9 9 9 10 10 10 11 11 13
15 17 17 17 17 17 17 18 18 18
18 19 19 20 20 21 21 21 21 21
22 24 26 26 27 28 28 28 29 31
32 32 34 34 35 36 36 36 38 39
39 39 39 40 40 42 45 45 45 46
47 48 48 49 50 50 51 52 52 53
54 55 55 60 61 62 62 62 63 67
67 72 72 72 73 75 75 86 89 94

10
Utilizamos aqui a palavra na língua inglesa, uma vez que sua tradução para “Gráfico-Caixa”, infelizmente, não
conseguiu entrar para o jargão técnico da Estatística em nosso país.
60

Se fôssemos tratar esta coleção de dados com técnicas da Estatística Descritiva, iríamos dividir a
amostra em classes, estabelecer os critérios de inclusão, computar as ocorrências e montar a tabela da
distribuição de Frequências. Não é o que se faz na Análise Exploratória. Aqui, o processo é o seguinte:

a. Verifica-se o tipo de números da distribuição: se são valores discretos ou contínuos, se são


expressos em dezenas, centenas ou milhares, se há decimais, etc. No nosso exemplo, são variáveis
quantitativas não-contínuas, ou discretas (idade das pessoas), podendo ser tratadas como dezenas:
dezena 01, dezena 34, dezena 86, etc.; .

b. Identificamos o menor e o maior valor da distribuição. No exemplo, a menor idade encontrada foi 1, a
maior foi 94.

c. A partir dessas considerações, montamos a seguinte “tabela”:

Figura 7.2

0
10
20
30
40
50
60
70
80
90

Estes valores 0, 10, 20, etc. significam o seguinte: na linha “0”, colocaremos as idades que vão de 0 a 9
anos; na linha “10”, colocaremos as idades de 10 a 19, e assim por diante. Este é a construção de um
Diagrama Ramo-Folha, e estes valores 0, 10, 20, etc., são os Ramos.

d. Nas linhas dos ramos, colocaremos as idades constantes da amostra - não a Frequência, mas o
próprio valor amostral, da seguinte forma: ao encontrarmos na amostra a idade 45, iremos escrever o
valor 5 no ramo 40, uma vez que 45 é igual a 40+5. Se encontramos a idade 18, escrevemos no ramo
10 o valor 8 (18 = 10+8), e assim por diante. Estes valores são chamados de folhas, estando ligados
aos “ramos”. O diagrama Ramo-Folha fica desta maneira:

Figura 7.3

00 1 1 2 2 3 3 3 5 7 8 8 9 9 9
10 0 0 0 1 1 3 5 7 7 7 7 7 7 8 8 8 8 9 9
20 0 0 1 1 1 1 1 2 4 6 6 7 8 8 8 9
30 1 2 2 4 4 5 6 6 6 8 9 9 9 9
40 0 0 2 5 5 5 6 7 8 8 9
50 0 0 1 2 2 3 4 5 5
60 0 1 2 2 2 3 7 7
70 2 2 2 3 5 5
80 6 9
90 4

Os dados dispostos no Diagrama Ramo-Folha são dados reais, os mesmos existentes na amostra.
Não há a necessidade de cálculo do Ponto Médio, nem de supor uma linearidade dos dados dentro das
classes. Outra vantagem do diagrama é, como dissemos, a visualização imediata do histograma, cujas
colunas são formadas pelas “folhas”. Veja a figura a seguir:
61

Figura 7.4

00 1 1 2 2 3 3 3 5 7 8 8 9 9 9
10 0 0 0 1 1 3 5 7 7 7 7 7 7 8 8 8 8 9 9
20 0 0 1 1 1 1 1 2 4 6 6 7 8 8 8 9
30 1 2 2 4 4 5 6 6 6 8 9 9 9 9
40 0 0 2 5 5 5 6 7 8 8 9
50 0 0 1 2 2 3 4 5 5
60 0 1 2 2 2 3 7 7
70 2 2 2 3 5 5
80 6 9
90 4

Na Análise Exploratória de Dados não há procupação com Médias ou com as Medidas de Dispersão em
torno da Média, como a Variância e o Desvio-padrão . As medidas mais importantes são as medidas de
posição – os quartis, que são calculados da seguinte maneira:

7.2 Determinação dos Quartis na EAD:

Os quartis não são calculados, isto é, não há uma fórmula empírica para seu cálculo, como foi feito no
Capítulo 7. Os quartis são localizados no diagrama ramo-folha, a partir da suas posições, que são
dadas pelas expressões:

Quadro 7.1

Quartil Posição
Primeiro Quartil n 1
POS(Q1 ) 
4
Segundo Quartil n 1
POS(Q2 ) 
2
Terceiro Quartil 3(n 1)
POS(Q3 ) 
4
Nas fórmulas acima, n é o tamanho do conjunto. No exemplo que estamos estudando, as posições
serão:

n 1 101
Primeiro Quartil: POS(Q1)    25,25
4 4
n 1 101
Segundo Quartil POS(Q2 )    50,5
2 2
3(n 1) 303
Terceiro Quartil POS(Q3 )    75,75
4 4
62

As posições são fracionárias. Isto indica que tanto o Q1 quanto o Q2 e o Q3 serão as Médias dos
valores amostrais ocupando os postos anterior e posterior aos postos calculados11. Veja a figura a
seguir:

Figura 7.5

25ª e 26ª posições

0 1 1 2 2 3 3 3 5 7 8 8 9 9 9
10 0 0 0 1 1 3 5 7 7 7 7 7 7 8 8 8 8 9 9
20 0 0 1 1 1 1 1 2 4 6 6 7 8 8 8 9
30 1 2 2 4 4 5 6 6 6 8 9 9 9 9
40 0 0 2 5 5 5 6 7 8 8 9
50 0 0 1 2 2 3 4 5 5
60 0 1 2 2 2 3 7 7
70 2 2 2 3 5 5
80 6 9
90 4

75ª e 76ª posições

Calculando a Média dos valores, temos:

1717 31 32 50 50


Q1   17,0 Q2   31,5 Q3   50,0
2 2 2
Portanto, os valores das separatrizes são:

Q1 = 17,0 ~ = 31,5
Q2 = X Q3 = 50,0
Estes valores serão necessários para a construção do Box-Plot, um gráfico específico para este tipo de
análise.

Comentários

1. Você pode entende melhor o cálculo das Separatrizes se visualizar a distribuição desta forma:
Imagine que os valores deste exemplo estejam colocados em ordem crescente:

Figura 7.6

Postos:

1º 2º 3º 4º 5º 6º 7º 8º ....... 50º 51º ....... 94º 95º 96º 97º 98º 99º 100º

1 1 2 2 3 3 3 5 ..... .... 31 32 72 73 75 75 86 89 94

Valores

11
Notar a preocupação no cálculo de valores reais. Define-se exatamente a posição do primeiro quartil como a
metade da distância entre a posição do primeiro elemento amostral (1º) e a posição da mediana que, por
definição, ocupa a posição central do conjunto ordenado. Da mesma forma, a posição do terceiro quartil é a
metade da distância entre a posição da mediana e a posição do último elemento amostral.
63

A Mediana, tal como foi calculada, ocupa o 50,5º lugar, e tem o valor de 31,5. Tanto esta posição
quanto este valor da Mediana “não existem”, isto é são arbitrados em função da definição da Mediana -
valor que ocupa a posição central de um conjunto ordenado.

A Mediana, portanto, divide o conjunto em dois subconjuntos, cada um com 50 elementos:

Figura 7.7

1º 2º 3º 4º 5º 6º 7º 8º ..... .. 50º 51º ........ 94º 95º 96º 97º 98º 99º 100º

1 1 2 2 3 3 3 5 .......... 31 32 72 73 75 75 86 89 94

Valores abaixo da Mediana Valores acima da Mediana

Se você imaginar que o Q1 seja uma espécie de “Mediana” do subconjunto de valores abaixo da
Mediana, e que o Q3 seja a “Mediana” do subconjunto de valores acima da Mediana, as posições do Q1
e do Q3 são facilmente deduzidas:

n  1 50  1
Para o Q1, temos: POS(Q1 )    255
, , ou seja, a posição do Q1 é também arbitrada, é a
2 2
17  17
Média dos valores que ocupam o 25º e o 26º lugar: Q1   17 .
2
De forma análoga, encontramos a POS (Q3), igual a 75,5. E o seu valor, Q3 = 50.

2. Pelo raciocínio acima, você pode deduzir que:

Quando o conjunto possui um tamanho n par, as posições da Mediana, do Q1 e do Q2 são arbitradas.

n 1
Quando o tamanho n for impar, a posição Mediana é “real” (e não arbitrada), uma vez que é
2
inteiro e par, se n é impar. Da mesma forma, as posições dos quartis serão “reais”.
64

7.3 Cálculo das Cercas e Valores Adjacentes

Para completar a descrição do conjunto, e para o desenho do Box-Plot, precisaremos calcular mais
algumas medidas estatísticas

AIQ: Amplitude interquartílica (Distância entre quartis) = Q3 - Q1

CEI: Cerca externa inferior = Q1 - 3AIQ

CII: Cerca interna inferior = Q1 - 1,5AIQ

CIS: Cerca interna superior = Q3 + 1,5AIQ

CES: Cerca externa superior = Q3 + 3AIQ


No exemplo que estudamos, temos:

AIQ = 50,0 - 17,0 = 33,0 anos

CII = 17 - 1,5x33 = -32,5, ou seja, 0 (já que não existe idade negativa)

CEI = 17 - 3x33 = -82, ou seja, 0.

CIS = 50 + 1,5x33 = 99,5 anos

CES = 50 + 3x33 = 149 anos

Precisaremos, também, das seguintes medidas:

VAI: Valor adjacente inferior : é o menor valor do conjunto, que ainda é maior ou igual à CII = 1 ano

VAS: Valor adjacente superior: é o maior valor da amostra, que ainda é menor ou igual à CIS = 94
anos

Verificamos se há valores discrepantes. Estes são os valores amostrais que estão entre as cercas.
No exemplo estudado, não há valores discrepantes.

Verificamos se há valores mais que discrepantes (outliers): são os valores amostrais abaixo da CEI
ou acima da CES. Em nosso exemplo não há valores mais que discrepantes. (Veja exemplo
comentado)

Calculados estes valores, traçamos o box-plot, que tem o seguinte aspecto:


65

Figura 7.8

100
94
90

80

70

60
Idade

50 50

40
31,5
30

20
17
10

0
1

A “caixa” é limitada pelo Q1 e pelo Q3. A linha dentro caixa é a Mediana (Q2). Os traços, superior e
inferior, são ligados à caixa por uma linha vertical - estes traços são as marcas dos valores adjacentes
(VAI e VAS). Se houvessem valores discrepantes ou mais que discrepantes, seriam representado
individualmente por pontos acima e abaixo das marcas de valores adjacentes (veja exemplo 9.1
comentado).

Com estas medidas, conseguimos descrever a disposição dos dados da amostra. A tendência central é
medida pela Mediana e os quartis.

A Amplitude Interquartílica (AIQ) é a distância entre Q1 e Q3, e indica a dispersão da amostra, na


região central da distribuição - contém 50% dos valores do conjunto. Divide-se em duas regiões: a
primeira entre Q1 e a Mediana, a segunda entre a Mediana e Q3. Comparando-se a área destas duas
regiões (a área do “box” – retângulo) temos outra boa indicação da dispersão. Esta idéia é
complementada com a verificação da existência de valores discrepantes e muito discrepantes (outliers).

De maneira geral, e para efeitos práticos, considerando o exposto em BUSSAB e MORETTIN12,


utilizamos apenas as cercas internas, inferior e superior e superior, que chamam de LI (Limite inferior) e
LS (Limite superior). Lembrando:

CII: Cerca interna inferior = Q1 - 1,5AIQ (LI)

CIS: Cerca interna superior = Q3 + 1,5AIQ (LS)


Isso é importante para identificar os valores discrepantes (outliers), ou atípicos. Então, em um conjunto
de valores numéricos, temos as seguintes regiões:
12
Veja Bibliografia.
66

ROT Região das observações típicas – dados entre as cercas CII e CIS, ou entre O LI e o LS..

Dados Centrais – dados entre o Q1 e o Q3.

7.4 Valores discrepantes são os que pertencem às regiões abaixo do LI ou acima do LS13.

As regiões (intervalos de dados dentro do conjunto), então, são as seguintes

Figura 7.9

Mais que Discrepantes Regulares Discrepantes Mais que


Discrepantes Discrepantes

++ + ++ +

Centrais

Região Central: Entre o Q1 e o Q3.


Região dos Dados Regulares: Entre o VAI e o VAS.
Região dos Dados Discrepantes: Entre a CEI e o VAI, e entre o VAS e a CES
Região dos Dados mais que discrepantes: abaixo da CEI ou acima da CES

As informações principais fornecidas pelo box plot são as seguintes:

13
Alguns autores traçam ainda outras regiões, de dados mais que discrepantes, abaixo da CEI e acima da CES:
(acima da distância Q3 + 3AIQ, ou abaixo de Q1 - 3AIQ).
67

Figura 7.10

100 VAS (Valor adjacente superior): é o maior valor


amostral, imediatamente menor ou igual à CIS
90 (cerca interna superior)
Q3 - terceiro quartil
80

Q2 - segundo quartil - medianal


70
AIQ

60 Q1 - primeiro quartil - medianal

50

40
VAI (Valor Adjacente Inferior): é o menor valor
amostral, imediatamente maior ou igual à CII
30 (cerca interna inferior)

20

Valores mais que discrepantes; valores amostrais


10 inferiores a Q1 - 3xAIQ

Comentários

1. Os sinais que representam Valores Discrepantes ou mais que Discrepantes variam muito, de acordo
com o software utilizado. Nesta apostila, adotamos a seguinte convenção:

+ - Valores Discrepantes (entre o VAI e a CEI, e entre o VAS e a CES)

- Valores mais que Discrepantes (abaixo da CEI e acima da CES).


68

Exemplo comentado

Seja o conjunto a seguir:

Figura 7.11
1 12 17 24 26 29 30 30 30 30
31 33 35 36 36 37 37 38 38 38
38 39 39 39 39 39 39 39 39 40
40 40 41 43 43 43 45 45 45 46
47 47 47 48 48 49 49 49 49 49
49 49 49 50 50 50 50 50 50 50
50 50 51 53 53 53 55 57 57 57
58 58 58 59 59 59 59 60 60 61
61 61 63 64 65 70 70 71 73 73
81 83 84 87 91 92 95 100

O diagrama Ramo-Folha é o seguinte:

Figura 7.12

0 1
10 2 7
20 4 6 9
30 0 0 0 0 1 3 5 6 6 7 7 8 8 8 8 9 9 9 9 9 9 9 9
40 0 0 0 1 3 3 3 5 5 5 6 7 7 7 8 8 9 9 9 9 9 9 9 9
50 0 0 0 0 0 0 0 0 0 1 3 3 3 5 7 7 7 8 8 8 9 9 9 9
60 0 0 1 1 1 3 4 5
70 0 0 1 3 3
80 1 3 4 7
90 1 2 5
100 0

As posições dos quartis são as seguintes:

n 1 99
Primeiro Quartil: POS(Q1 )    24,75
4 4
n 1 99
Segundo Quartil POS(Q2 )    49,5
2 2
3(n1) 297
Terceiro Quartil POS(Q3 )    74,25
4 4
Localizando os quartis no diagrama Ramo-Folha, temos:
69

Figura 7.13

0 1
10 2 7
20 4 6 9
30 0 0 0 0 1 3 5 6 6 7 7 8 8 8 8 9 9 9 9 9 9 9 9
40 0 0 0 1 3 3 3 5 5 5 6 7 7 7 8 8 9 9 9 9 9 9 9 9
50 0 0 0 0 0 0 0 0 0 1 3 3 3 5 7 7 7 8 8 8 9 9 9 9
60 0 0 1 1 1 3 4 5
70 0 0 1 3 3
80 1 3 4 7
90 1 2 5
100 0

Portanto, os valores dos Quartis e das demais estatísticas são:


~ = 49,0 ; Q = 59,0
Q1 = 39,0; Q2 = X 3

AIQ = Q3 - Q1 = 59,0 – 39,0 = 20,0


CEI : Cerca Externa Inferior = Q1 - 3AIQ = 39,0 – 3 x 20 = 39,0 – 60 = -21
CII : Cerca Interna Inferior = Q1 - 1,5AIQ = 39,0 – 1,5 x 20 = 39,0 – 30,0 = 9,0
CIS : Cerca Interna Superior = Q3 + 1,5AIQ = 59,0 + 1,5 x 20 = 59,0 + 30,0 = 89,0
CES : Cerca Externa Superior = Q3 + 3AIQ = 59,0 + 3 x 20 = 59,0 + 60,0 = 119,0
VAI (Valor adjacente inferior) = 12
VAS (Valor adjacente superior) = 87
Outliers: Valores discrepantes inferiores: 1
Valores discrepantes superiores: 91, 92, 95 e 100.

O Box-Plot é o seguinte:

Figura 7.14

7 39 49 59 87

+ ++ + +

0 10 20 30 40 50 60 70 80 90 100

Notar o sinal “+” simbolizando os valores discrepantes (outliers).


70

7.5 Assimetria em Box-Plots

Em Análise Exploratória de Dados utilizamos os box-plots para representar conjuntos de dados


numéricos. Veja os procedimentos seguintes para determinar a assimetria em box-plots:

O Box-Plot é o seguinte:

Figura 7.15

8 38 49 59 87 110

+++ + + +

0 10 20 30 40 50 60 70 80 90 100

Notar o sinal “+” simbolizando os valores discrepantes (outliers).

Traçamos dois segmentos de reta, “x”, entre o menor valor (8) e a mediana (49) e “y”, entre a
mediana (49) e o maior valor (110)

Figura 7.16

x y

8 38 49 59 87 110

+++ + + +

0 10 20 30 40 50 60 70 80 90 100

Calculando os valores de x e y:

X = 49 – 8 = 41

Y = 110 – 49 = 61

Determinando a assimetria:

Se x > y Assimetria Negativa


71

Se x < y Assimetria negativa


Se x = y Simetria possível: será simetria se e , entre outras
simetrias de medidas.

Neste exemplo, a assimetria é negativa.

Bibliografia
Esta é uma pequena parte da Bibliografia utilizada nas Notas de Aula. Bussab e Morettin é adotado
como referência, e o livro do Tukey, apensa para consulta.

BUSSAB, W. O., e MORETITIN, P., Estatística Básica, Ed. Saraiva, São Paulo, 6ª edição, 2010

FONSECA, J. S. e MARTINS, G. A., Curso de Estatística, Ed. Atlas, São Paulo, 6ª edição, 2008

FIGUEIREDO, F., FIGUEIREDO, A., RAMOS, A., TELES, P., Estatística Descritiva e Probabilidades,
Escolar Editora, Lisboa, Portugal, 2ª edição, 2009

TUKEY, J. W., Exploratory Data Analysis, Addison Wesley co., EUA, 1977

Você também pode gostar