Estat Desc Econ

Universidade Estadual do Oeste do Paraná
CURSO: Ciências Econômicas – 3º Ano

DISCIPLINA: Estatística I
PROFESSOR: Dr. Wilson Alves de Oliveira
1 INTRODUÇÃO À ESTATÍSTICA DESCRITIVA
1.1 Introdução
A estatística trabalha com informações referentes a conjunto de dados observados. Estes

elementos constituem uma amostra retirada da população que se deseja estudar ou a população
toda.
De um modo geral, para cada elemento observado, tem-se associado um resultado (ou
mais de um resultado) correspondendo à realização de uma variável (ou variáveis).
1.2 Tipos de Variáveis
As variáveis são classificadas em dois grupos: variáveis quantitativas e variáveis

qualitativas.
Variáveis quantitativas: são aquelas que descrevem quantidades e são associadas a números.
As variáveis quantitativas são classificadas em discretas e contínuas.
Variáveis quantitativas discretas: assumem apenas determinados valores no campo dos reais.
Em geral, descrevem problemas de contagem. Assumem, portanto, somente valores inteiros.
Exemplos: a) Número de filhos em casais residentes em uma determinada cidade.

b) Pontos obtidos jogando-se 5 vezes um dado.
c) Número de sementes germinadas, de uma determinada planta, em 6 vasos com 5
sementes por vaso, após 2 semanas.
Variáveis quantitativas contínuas: podem teoricamente assumir qualquer valor de um

subconjunto dos números reais.
Exemplos: a) Idade de pessoas residentes em uma determinada cidade.

b) Peso de pessoas residentes em uma determinada cidade.
c) Altura de pessoas residentes em uma determinada cidade
Variáveis qualitativas: são usadas para descrever qualidades, categorias, etc.
Exemplos:
a) Conceito obtido pelos alunos de pós-graduação de uma determinada Universidade (A, B, C,

D, E).
b) Sexo dos alunos da UNIOESTE (M, F).
2
c) Classe de renda dos operários do bairro B (baixa, média, alta).

d) Raça dos bovinos da estância E (holandês, nelore, zebu).
Obs. As variáveis qualitativas são classificadas em ordinais e nominais.

Variáveis qualitativas ordinais: quando houver um sentido de ordenação em seus possíveis
valores, como nas variáveis citadas nos itens a e c.
Variáveis qualitativas nominais: quando não houver sentido de ordenação, em seus valores,
como nas variáveis citadas nos itens b e d.
Variáveis Bidimensionais ou multidimensionais
Em problemas práticos, pode-se ter interesse em estudar, simultaneamente, dois ou mais

atributos quantitativos e/ou qualitativos.
Exemplo: Visando planejar uma dieta alimentar padrão para os funcionários de certa empresa,
um nutricionista anotou o peso e a altura de 10 deles. Tomando X e Y para descrever,
respectivamente, as variáveis quantitativas contínuas peso em kg e altura em cm, temos a
variável bidimensional (X, Y) e um conjunto de pares ordenados (xi, yi). Por exemplo:
(X, Y) = {(65, 175), (82, 181), ... , (70, 172)}.
Note que o nutricionista poderia ter julgado relevante tomar a idade Z dos funcionários. Neste
caso, teríamos uma variável tridimensional (X, Y, Z) descrita por ternas ordenadas (xi, yi, zi).
Poderia-se incluir, também, a variável sexo (qualitativa).
1.3 Representações estatísticas
1.3.1 Tabelas
Conceitos dos elementos de uma tabela estatística.
A tabela estatística é composta de elementos essenciais e complementares. Os elementos

essenciais são: Título, Corpo, Cabeçalho e Coluna indicadora.
Título é a indicação que precede a tabela e que contém a designação do fato observado, o
local de ocorrência e a época em que o mesmo foi registrado.
Corpo é um conjunto de colunas e linhas que contém nas ordens vertical e horizontal, as
informações sobre o fato observado. Casa é o cruzamento de uma coluna com uma linha.
Cabeçalho é a parte superior da tabela, que explica o conteúdo das colunas.
Coluna indicadora é a parte da tabela que especifica o conteúdo das linhas.
Os elementos complementares são: Fonte, Chamada e Nota.
Fonte é a indicação da entidade responsável pelo fornecimento ou elaboração das

informações.
Chamada é a informação de natureza específica sobre determinada parte da tabela,
destinada a conceituar ou esclarecer dados.
Estatística – Prof. Wilson Alves de Oliveira

3
Nota é a informação de natureza geral, que tem por objetivo conceituar ou esclarecer o
conteúdo apresentado nas tabelas, ou indicar a metodologia utilizada para o levantamento e
elaboração dos dados.
Exemplo:
BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017

ESPECIFICAÇÃO VALOR (US$ 1.000.000)
JAN FEV MAR ABRI MAI JUN
Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593
FONTE: Ministério da Indústria, Comércio Exterior e Serviços.
1.3.2 Gráficos
O gráfico é uma forma de apresentação dos dados, cujo objetivo é o de produzir, no

investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo.
A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais.
a) Simplicidade: o gráfico deve ser destituído de detalhes de importância secundária.

b) Clareza: o gráfico deve possibilitar uma correta interpretação dos valores representativos do
fenômeno em estudo.
c) Veracidade: o gráfico deve expressar a verdade sobre o fenômeno em estudo.
Principais tipos de gráficos
1 Gráficos em colunas ou em barras
É a representação de uma tabela por meio de retângulos dispostos verticalmente (em

colunas) ou horizontalmente (em barras).
Exemplo: Para a variável “nº de defeitos por unidade”, cujos valores são dados na tabela abaixo,
obtém-se um gráfico de colunas da seguinte forma.
Xi Frequência
0 4
1 7
2 5
3 2
4 1
5 1
Total 20

4
2 Gráficos em colunas múltiplas
Este gráfico é geralmente empregado quando queremos representar, simultaneamente,

dois ou mais fenômenos estudados com o propósito de comparação.
Exemplo:

Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593

5
3 Gráfico em linhas
Sua construção requer a representação da variável tempo no eixo das abcissas (horizontal)
e a frequência no eixo das ordenadas (vertical). Utiliza-se, geralmente, para estudos de séries
temporais (cronológica). Seus objetivos são: em primeiro lugar descrever o comportamento
passado desses dados e em segundo lugar analisar este comportamento.
Exemplo:

Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593
4 Gráfico em setores
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos
ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em
tantos setores quantas são as partes. Os setores são tais que suas áreas são, respectivamente,
proporcionais aos dados da tabela. Obtemos cada setor por meio de uma regra de três simples e
direta, lembrando que o total da tabela corresponde a 360º.

6
Exemplo: Dada a tabela:
LICENCIAMENTO TOTAL DE AUTOMÓVEIS

E COMERCIAIS LEVES POR COMBUSTÍVEL
NO BRASIL – JANEIRO A JULHO DE 2017
Unidades Frequência Porcentagem
Gasolina 37 329 3,185
Elétrico 1 452 0,124
Flex Fuel 1 038 674 88,614
Diesel 94 676 8,077
Total 1 172 131 100,000
FONTE: Renavam
Obs: 1. O gráfico em setores só deve ser empregado quando há, no máximo, sete classificações.
2. Se a tabela já apresenta os dados em porcentagem, obtemos os respectivos valores em
graus multiplicando o valor percentual por 3,6.
1.4 Distribuição de Frequências
Alguns conceitos fundamentais
População é um conjunto de indivíduos ou objetos que apresentam pelo menos uma

característica em comum. A população pode ser finita ou infinita.
Amostra – Considerando-se a impossibilidade, na maioria das vezes, do tratamento de

todos os elementos da população, retira-se uma amostra. Portanto, amostra é um subconjunto da
população.

7
Os procedimentos para a representação das distribuições de frequências são dados a

seguir.
1. Dados brutos. O conjunto dos dados numéricos obtidos após a crítica dos valores coletados
constitui-se nos dados brutos.
2. Rol. É o arranjo dos dados brutos em ordem de frequência crescente ou decrescente.
3. Amplitude total ou “range” (R). É a diferença entre o maior e o menor valor
observado.
4. Frequência absoluta (fi). É o número de vezes que o elemento aparece na amostra, ou o
número de elementos pertencentes a uma classe.
5. Distribuição de frequência. É o arranjo dos valores e suas respectivas frequências.
6. Número de classes (K). Não há uma fórmula exata para o cálculo do número de classes. São
dadas duas soluções.
a) K = 5 para n ≤ 25 e K ≅ n , para n > 25;
b) Fórmula de Sturges K ≅ 1 + 3,22 log n .
7. Amplitude das classes (h). h ≅ R ÷ K
Assim como no caso do número de classes (K), a amplitude das classes (h) deve ser aproximada
para o maior inteiro.
8. Limites das classes. Existem diversas maneiras de expressar os limites das classes.
a) a | b, a classe compreende valores de a, inclusive, até b, exclusive.
b) a | b, a classe compreende valores de a, exclusive, até b, inclusive.
c) a  b, a classe compreende valores de a, exclusive, até b, exclusive.
d) a || b, a classe compreende valores de a, inclusive, até b, inclusive.
9. Ponto médio das classes (xi). É a média aritmética entre o limite superior e o limite inferior
da classe.
10. Frequência absoluta acumulada (Fac). É a soma das frequências dos valores inferiores ou
iguais ao valor dado.
fi
11. Frequência relativa (ri). É dada por ri = .
n
12. Frequência relativa acumulada (Ri). É o quociente entre a frequência acumulada da classe
Fac
e o total de elementos, Ri = .
n

8
13. Histograma. É a representação gráfica de uma distribuição de frequências por meios de

retângulos justapostos.
14. Polígono de frequências. Unindo por linhas retas os pontos médios das bases superiores dos
retângulos do histograma, obtém-se outra representação dos dados, denominado polígono de
frequências.
Exemplo: Dado o rol de 50 notas, formar uma distribuição de frequências e construir o

histograma.
33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 66 67 68
69 71 73 73 74 74 76 77 77 78
80 81 84 85 85 88 89 91 94 97
Solução:
Amplitude total (R): R = 97 – 33 = 64;
Número de classes (K): K ≅ 1 + 3,22 log 50 ≅ 1 + 3,22(1,7) ≅ 7 ;
64
Amplitude das classes (h): h = = 9,14 . Para facilitar usaremos h = 10.
7
Logo, a distribuição de frequências será:
Classes fi Fac xi ri Ri
30 | 40 4 4 35 0,08 0,08
40 | 50 6 10 45 0,12 0,20
50 | 60 8 18 55 0,16 0,36
60 | 70 13 31 65 0,26 0,62
70 | 80 9 40 75 0,18 0,80
80 | 90 7 47 85 0,14 0,94
90 | 100 3 50 95 0,06 1,00
Total 50 - - 1,00 -

9
1.5 Ramos e folhas
Tanto o histograma como os gráficos em colunas dão uma idéia da forma da distribuição
da variável sob consideração.
Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se
obter uma idéia da forma de sua distribuição, é o ramo e folhas (Tukey, 1977). Uma vantagem do
ramo e folhas sobre o histograma é que não perdemos informação sobre os dados em si.
Não existe uma regra fixa para construir o ramo e folhas, mas a idéia básica é dividir cada
observação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a
segunda (a folha) é colocada à direita.
Exemplo: Considere os dados referentes aos salários de 36 empregados de uma companhia.
4,00 8,74 13,23

4,56 8,95 13,60
5,25 9,13 13,85
5,73 9,35 14,69
6,26 9,77 14,71
6,66 9,80 15,99
6,86 10,53 16,22
7,39 10,76 16,61
7,44 11,06 17,26
7,59 11,59 18,75
8,12 12,00 19,40
8,46 12,79 23,30

10
Vamos construir o ramo e folhas dos salários dos 36 empregados. Assim, para os salários 4,00 e
4,56, o 4 é o ramo e 00 e 56 são as folhas.
4 00 56
5 25 73
6 26 66 86
7 39 44 59
8 12 46 74 95
9 13 35 77 80
10 53 76
11 06 59
12 00 79
13 23 60 85
14 69 71
15 99
16 22 61
17 26
18 75
19 40
20
21
22
23 30
Algumas informações que se obtém deste ramo e folhas são:
a) Há um destaque para o valor 23,30;

b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40;
c) Um valor mais ou menos típico para este conjunto de dados poderia ser, por exemplo, 10,00;
d) Há uma leve assimetria em direção aos valores grandes.

11
LISTA DE EXERCÍCIOS Nº 1
Utilizando os dados da tabela 1.
1. Classifique as variáveis Estado civil, Grau de instrução, Nº de filhos, Salário, Idade e Região
de procedência, quanto aos tipos de variáveis.
2. Faça uma tabela de distribuição de frequências e um gráfico de setores para a variável grau
de instrução. Comente os resultados.
3. Faça uma tabela de distribuição de frequências e o histograma para as variáveis salário e

idade (uma tabela e o gráfico para cada variável). Comente os resultados.
4. Repita o exercício 2 para a variável região de procedência, utilizando um outro tipo de

gráfico para representar esta variável.
5. As taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores
municípios do Brasil estão abaixo.
3,67 1,82 3,73 4,10 4,30

1,28 8,14 2,43 4,17 5,36
3,96 6,54 5,84 7,35 3,63
2,93 2,82 8,45 5,28 5,41
7,77 4,65 1,88 2,12 4,26
2,78 5,54 0,90 5,09 4,07
Construa um diagrama de ramo e folhas e comente os resultados.

12
Tabela 1. Informações sobre estado civil, grau de instrução, salário, idade e

procedência de 36 funcionários da Companhia Milsa.
Nº Estado Grau de Nº de Salário Idade Região de
civil instrução filhos (X sal. Min.) anos meses procedência
1 solteiro fundamental - 4,00 26 03 Interior
2 casado fundamental 1 4,56 32 10 Capital
3 casado fundamental 2 5,25 36 05 Capital
4 solteiro médio - 5,73 20 10 Outro
5 solteiro fundamental - 6,26 40 07 Outro
6 casado fundamental 0 6,66 28 00 Interior
7 solteiro fundamental - 6,86 41 00 Interior
8 solteiro fundamental - 7,39 43 04 Capital
10 casado médio 1 7,59 34 10 Capital
11 casado médio 2 8,12 33 06 Interior
12 solteiro fundamental - 8,46 27 11 Capital
14 casado fundamental 3 8,95 44 02 Outro
18 casado fundamental 2 9,80 39 07 Outro
19 solteiro superior - 10,53 25 08 Interior
20 solteiro médio - 10,76 37 04 Interior
21 casado médio 1 11,06 30 09 Outro
22 solteiro médio - 11,59 34 02 Capital
24 casado superior 0 12,79 26 01 Outro
26 casado médio 2 13,60 35 00 Outro
31 solteiro superior - 16,22 31 05 Outro
33 casado superior 3 17,26 43 07 Capital
34 solteiro superior - 18,75 33 07 Capital
36 casado superior 3 23,30 42 02 Interior
FONTE: Bussab, W. O.; Morettin, P. A. Estatística básica , 2017.

13
1.6 Medidas de Posição
As principais medidas de posição são chamadas medidas de tendência central, pois,

representam um conjunto de observações pelos seus valores médios, em torno dos quais tendem
a concentrar-se os dados.
1.6.1 Média aritmética para dados não agrupados
Sejam x1, x2, ... , xn , n valores da variável X. A média aritmética simples de X

representada por x é definida por:
x i
x= i =1
, onde n é o número de elementos do conjunto.
n
Exemplo: Determinar a média aritmética dos valores 3, 7, 8, 10 e 12.
x i
3 + 7 + 8 + 10 + 12 40
x= i =1
= = =8.
n 5 5
1.6.2 Média aritmética para dados agrupados
Sejam x1, x2, ... , xn, n valores da variável X e sejam f1, f2, ... , fn as respectivas
frequências. A média aritmética de X é dada por:
n
 xi fi n
x= i =1
, onde n =  f i .
n i =1
Exemplos:
a) Determinar a média aritmética da seguinte distribuição.
xi 1 2 3 4
fi 1 3 5 1
Um dispositivo prático para esse cálculo é a composição da seguinte tabela.
xi fi xifi
1 1 1
2 3 6
3 5 15
4 1 4
Total 10 26

14
Então,
n
x f i i
26
x= i =1
= = 2,6 .
n 10
b) Determinar a renda média da distribuição.
Renda Familiar Número de

(Salário Mínimo) famílias
2 | 4 5
4 | 6 10
6 | 8 14
8 | 10 8
10 | 12 3
Neste caso, as classes são representadas pelos seus pontos médios.
Renda Familiar Número de Ponto médio

(Salário Mínimo) Famílias (fi) xi xifi
2 | 4 5 3 15
4 | 6 10 5 50
6 | 8 14 7 98
8 | 10 8 9 72
10 | 12 3 11 33
Total 40 - 268
Então,
n
x f i i
268
x= i =1
= = 6,7.
n 40
Portanto, podemos afirmar que a renda média deste grupo de 40 famílias é de 6,7 salários
mínimos.
1.6.3 Média geral
Sejam x1 , x2 ,K, xk , as médias aritméticas de k grupos e n1 , n2 ,K, nk , os números de

termos destes grupos, respectivamente. A média aritmética geral formada pelos termos dos k
grupos é dada por:
k
n .x + n .x + L + nk .xk  n .x i i
xG = 1 1 2 2 = i =1
.
n1 + n2 + L + nk n i
i

15
Exemplo. Sejam os grupos:
1) 4, 5, 6, 7, 8 onde, n1 = 5 e x1 = 6;
2) 1, 2, 3 onde, n2 = 3 e x2 = 2;
3) 9, 10,11, 12, 13 onde, n3 = 5 e x3 = 11;
Então, a média geral destes 3 grupos será:
5 × 6 + 3 × 2 + 5 × 11 91
xG = = = 7.
5+3+5 13
1.6.4 Mediana
Colocados os valores em ordem crescente, mediana é o elemento que ocupa a posição

central. Indicando a mediana por Md e o número de observações por n, dois casos devem ser
considerados:
n +1
1º) Se n for ímpar, a mediana será o elemento de ordem .
2
2º) Se n for par, a mediana será a média aritmética entre os elementos centrais, de ordem
n n
e +1.
2 2
Exemplos: 1) Calcular a mediana para os valores.
a) 5, 7, 8, 10, 14.
n +1 5 +1
n = 5 (ímpar), então, a mediana será o elemento de ordem = = 3º.
2 2
Logo, Md = 8.
b) 10, 14, 15, 5, 7, 8.
n= 6 (par), então, colocados os valores em ordem, a mediana será a média entre os elementos de
n 6 n
ordem = = 3º e + 1 = 4º .
2 2 2
Ordenando os valores temos: 5, 7, 8, 10, 14, 15.

Logo,
8 + 10
Md = = 9.
2

16
2) Calcular a mediana para as seguintes distribuições.

a)
xi fi Fac
1 1 1
2 3 4
3 5 9 ← contém o
4 2 11 6º elemento
Total 11 -
n + 1 11 + 1
n = 11, n é ímpar, logo a mediana será o elemento de ordem = = 6º.
2 2
Através da frequência acumulada (Fac) encontra-se o valor xi correspondente á mediana.
Portanto, Md = 3.
b)
xi fi Fac
82 5 5
85 10 15
87 15 30 ← 21º e 22º
89 8 38
90 4 42
Total 42 -
n 42
n = 42, n é par, logo a mediana será a média entre os elementos de ordem = = 21º e
2 2
n 87 + 87
+ 1 = 22º , ou seja, Md = = 87.
2 2
1.6.5 Mediana para dados agrupados em classes
O procedimento usado para o cálculo da mediana para dados agrupados é dado a seguir.
1º passo: calcula-se a ordem n/2;

2º passo: pela frequência acumulada identifica-se a classe que contém a mediana (classe Md);
3º passo: utiliza-se a fórmula:
Md = lmd +
( n
2
−  f ).h
, onde:
f Md
lmd é o limite inferior da classe Md;

∑ f é a soma das frequências anteriores à classe Md;
fmd é a frequência absoluta da classe Md;
h é a amplitude da classe Md.

17
Exemplo: Determinar a mediana para a variável renda familiar usada no exemplo b do item
1.6.2.
(Salário Mínimo) Famílias (fi) Fac
2 | 4 5 5
4 | 6 10 15
6 | 8 14 29
8 | 10 8 37
10 | 12 3 40
Total 40 -
n 40
1º passo: = = 20 ;
2 2
2º passo: pela frequência acumulada identifica-se a classe que contém a mediana, ou seja, 6 | 8
é a classe mediana.
3º passo: aplica-se a fórmula:
Md = lmd +
( n
2
−  f ).h
= 6+
(20 − 15) × 2 = 6 + 0,71 = 6,71 .
f Md 14
Portanto, 50% dos elementos estão abaixo de Md = 6,71, ou seja, 50% das famílias ganham
menos que 6,71 salários mínimos.
1.6.6 Moda
Moda (Mo) é o valor que aparece mais vezes, isto é, o valor ao qual esteja associada à
frequência absoluta mais alta.
Um conjunto pode não apresentar moda, sendo então , denominado conjunto amodal,
caso em que todos os valores da variável ocorrem com a mesma intensidade. Por outro lado,
podemos ter conjuntos plurimodais, quando houver mais de um valor predominante.
Exemplos:
a) 2, 6, 8, 8, 8, 8, 10, 10, 12, 12, 18 → Mo = 8.
b) 4, 4, 5, 5, 6, 6 → Conjunto amodal.
c) 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6 → Mo1 = 2 e Mo2 = 5 → Conjunto bimodal.
d) 1, 2, 3, 4, 5 → Conjunto amodal.
1.6.7 Moda para dados agrupados em classes
A classe que apresenta maior frequência é denominada classe modal. Pela definição,
podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os
limites da classe modal. Existem diversas fórmulas para o cálculo da moda. Veremos duas delas.

18
1) Moda bruta
Uma idéia aproximada da moda e muito útil em problemas práticos é a moda bruta,
definida como o ponto médio da classe modal.
2) Fórmula de Czuber
Procedimento:
1º) Identifica-se a classe modal.
2º) Aplica-se a fórmula:
d1
Mo = l + h, onde:
d1 + d 2
l é o limite inferior da classe modal;

d1 é a diferença entre a frequência da classe modal e a imediatamente anterior;
d2 é a diferença entre a frequência da classe modal e a imediatamente posterior;
h é a amplitude da classe modal.
Exemplo: Determinar a moda para a distribuição usada no exemplo b do item 1.6.2.
Classes fi
2 | 4 5
4 | 6 10
6 | 8 14
8 | 10 8
10 | 12 3
Total 40
1º) Classe modal: 6 | 8;
2º) Aplica-se a fórmula:
d1 (14 − 10) 4
Mo = l + h = 6+ ×2 = 6+ × 2 = 6,8 .
d1 + d 2 (14 − 10) + (14 − 8) 4+6
Observa-se, então, que para o conjunto de dados utilizado, obteve-se:

Média = 6,7
Mediana = 6,71
Moda = 6,8

19
Relação entre média, mediana e moda
Em uma distribuição simétrica, observa-se que a média = mediana = moda.
x = Md = Mo
Em uma distribuição assimétrica positiva, observa-se que a média ≥ mediana ≥ moda.
Mo Md x
Em uma distribuição assimétrica negativa, observa-se que a média ≤ mediana ≤ moda.
x Md Mo

20
Utilização das medidas de tendência central
De maneira geral, uma primeira idéia sobre qual delas escolher pode ser dada pelos
seguintes itens:
a) Escolha da média
i) Quando é necessário o tratamento matemático;
ii) Quando os dados têm distribuição aproximadamente simétrica;
iii) Quando for necessário obter posteriormente outros parâmetros que podem depender
da média, como o desvio padrão, a variância, etc.
b) Escolha da mediana
i) Quando há valores discrepantes que podem “distorcer” a média;
ii) Quando desejamos conhecer o ponto central exato da distribuição;
iii) Quando a distribuição dos dados é muito assimétrica.
c) Escolha da moda
i) Quando a medida de interesse é o ponto mais típico ou popular dos dados;
ii) Quando precisamos apenas de uma rápida idéia sobre a tendência central dos dados.
Outras Medidas de Posição
A mediana caracteriza um conjunto de dados devido à sua posição central. Mas ela tem
uma outra característica importante, pois divide o conjunto de dados em dois grupos com o
mesmo número de elementos. Existem outras medidas de posição com esta característica. São os
quartis, os decis, e os percentis que são chamadas de “separatrizes”.
1.6.8 Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
Q1 = 1º quartil, deixa 25% dos elementos abaixo.
Q2 = 2º quartil, coincide com a mediana, deixa 50% dos elementos abaixo.
Q3 = 3º quartil, deixa 75% dos elementos abaixo.
As fórmulas para a determinação dos quartis Q1 e Q3 são semelhantes à usada para o

cálculo da mediana.
Determinação de Q1:
1º Passo: calcula-se n/4.
2º Passo: identifica-se a classe Q1 pela frequência acumulada.
3º Passo: aplica-se a fórmula:
Q1 = lQ1 +
( n4 −  f ).h .
f Q1

21
Determinação de Q3:
1º Passo: calcula-se 3n/4.
2º Passo: identifica-se a classe Q3 pela frequência acumulada.
Q3 = lQ3
(
+ 4
3n
−  f ).h
.
f Q3
Exemplo: Determinar os quartis (Q1 e Q3) para a distribuição usada no exemplo b do item 1.6.2.
2 | 4 5 5
4 | 6 10 15 (Q1)
6 | 8 14 29
8 | 10 8 37 (Q3)
10 | 12 3 40
Total 40 -
1º Passo: n = 40;
n 40 3n 3(40)
= = 10 (Q1); = = 30 (Q3);
4 4 4 4
2º Passo: pela frequência acumulada identifica-se a classe Q1 e a classe Q3.
3º Passo: aplicam-se as fórmulas:
Q1 = lQ1 +
(n4 −  f ).h = 4 + (10 − 5).2 = 5 e
f Q1 10
Q3 = lQ3 +
(34n −  f ).h = 8 + (30 − 29).2 = 8,25 .
f Q3 8
Então, 25% dos elementos estão abaixo de Q1 = 5, ou seja, 25% das famílias ganham
menos que 5 salários mínimos e 75% dos elementos estão abaixo de Q3 = 8,25, ou seja, 75% das
famílias ganham menos que 8,25 salários mínimos.
Obs: 50% dos elementos estão abaixo de Q2 = Md = 6,7, ou seja, 50% das famílias
ganham menos que 6,7 salários mínimos.

22
1.6.9 Decis
Os decis são valores que dividem um conjunto de dados em 10 partes iguais. O cálculo é
dado por:
i×n
1º Passo: calcula-se , onde i = 1, 2, 3, 4, 5, 6, 7, 8 e 9.
10
2º Passo: identifica-se a classe Di pela frequência acumulada.
Di = lDi +
(10in −  f ).h .
f Di
1.6.10 Percentis
São medidas que dividem um conjunto de dados em 100 partes iguais. O cálculo é dado
por:
i×n
1º Passo: calcula-se , onde i = 1, 2, 3, ... , 98, 99.
100
2º Passo: identifica-se a classe Pi pela frequência acumulada.
Pi = lPi +
( in
100
−  f ).h
.
f Pi
Exemplo: Determinar o decil 1 (D1) e o percentil 90 (P90) para a distribuição usada no exemplo
b do item 1.6.2.
2 | 4 5 5
4 | 6 10 15
6 | 8 14 29
8 | 10 8 37
10 | 12 3 40
Total 40 -
1º Passo: n = 40;
in 1(40) in 90( 40)
= = 4 (D1); = = 36 (P90);
10 10 100 100
2º Passo: pela frequência acumulada identifica-se a classe D1 e a classe P90.
3º Passo: aplicam-se as fórmulas:

23
(
in
−  f ).h (4 − 0).2 = 2 + 1,6 = 3,6
D1 = l D1 + =2+
10
e
f D1 5
( in
−  f ).h (36 − 29).2 = 8 + 1,75 = 9,75 .
P90 = l P90 + =8+
100
f p90 8
Portanto, 10% das famílias ganham menos que 3,6 salários mínimos e 90% ganham
menos que 9,75 salários mínimos.
Obs. Md = Q2 = D5 = P50.
1.7 Principais Medidas de Dispersão
A informação fornecida pelas medidas de posição necessita, em geral, ser complementada

pelas medidas de dispersão. Estas indicam o grau de variação existente no conjunto de dados. A
dispersão (variação) dos dados pode ser verificada através das seguintes medidas de dispersão:
amplitude total, variância, desvio padrão e coeficiente de variação.
1.7.1 Amplitude total
É a diferença entre o maior e o menor valor observado: R = xmáx. – xmín..
A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da

série. Por este motivo, não é muito utilizada como medida de dispersão. Ela é apenas uma
indicação aproximada da dispersão ou variabilidade.
1.7.2 Variância
A variância pode ser definida como a soma dos quadrados dos desvios dividida pelo
número de elementos da amostra menos 1 (n – 1). Este valor é chamado de graus de liberdade.
É obtida pela fórmula:
1 n
s2 =  ( x i − x )2 .
n − 1 i =1
Desenvolvendo algebricamente a fórmula da variância, obtém-se:
1  ( x ) 2

s =  x i −
2 2 i
.
n −1 i n 


24
Exemplo: Obtenha a variância para a seguinte amostra: 2, 4, 5, 6 e 8.
Utilizando uma tabela auxiliar, para os cálculos, obtém-se
xi x i2
2 4
4 16
5 25
6 36
8 64
25 145
1  ( xi )  1 
2
(25) 2  1
s =  xi −  = 145 −  = (20) = 5 .
2 2
n − 1  i n  4  5  4
1.7.3 Variância para dados agrupados
O cálculo da variância para dados agrupados é dado pela fórmula
1  ( x f ) 2

s =  x i f i −
2 2 i i
.
n −1  i n 

Obs. s2 indica a variância amostral. Se os dados são provenientes de uma população, usa-
se σ 2 para indicar a variância e no lugar de n – 1 usa-se n.
1.7.4 Desvio Padrão

O desvio padrão é definido como a raiz quadrada positiva da variância s = s 2 .
A variância e o desvio padrão mostram a dispersão dos dados em relação à média, ou
seja, a distância média de cada valor em relação à média. O desvio padrão trabalha com a
mesma unidade da variável, sendo de maior interesse que a variância nas aplicações práticas.
Exemplo. Determinar a variância e o desvio padrão para os dados da variável renda familiar.

(Salário mínimo) famílias
2 | 4 5
4 | 6 10
6 | 8 14
8 | 10 8
10 | 12 3

25
Utilizando-se de uma tabela auxiliar, para os cálculos, obtém-se

(Salário mínimo) Famílias xi xi f i xi2 f i
(fi)
2 | 4 5 3 15 45
4 | 6 10 5 50 250
6 | 8 14 7 98 686
8 | 10 8 9 72 648
10 | 12 3 11 33 363
Total 40 - 268 1992
268
A média, já obtida anteriormente, é dada por x = = 6,7 .
40
A variância,
s2 =
1 
−
( xi fi )2  = 1 1992 − (268)2  = 1 (196,4) = 5,04 .
 i i
2
x f   
n −1 i n  40 − 1  40  39
Consequentemente, o desvio padrão é dado por
s = s 2 = 5,04 = 2,24 .
Portanto, podemos afirmar que a renda média deste grupo de 40 famílias é de 6,7 salários
mínimos, com uma variação de 2,24 salários mínimos, medidas pelo desvio padrão.
1.7.5 Coeficiente de Variação
O coeficiente de variação é definido como o quociente entre o desvio padrão e a média

aritmética. É freqüentemente expresso em porcentagem pela fórmula
s
CV = ⋅ 100 para dados referentes a uma amostra ou
x
σ
CV = ⋅ 100 para dados referentes a uma população.
x
Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu valor médio.
Assim, uma pequena dispersão absoluta pode ser, na verdade, considerável quando comparada
com a ordem de grandeza dos valores da variável e vice-versa.

26
Exemplo: Considere amostras de dois grupos, referentes a idades de pessoas. Obtenha o

coeficiente de variação.
Grupo A: 1, 3 e 5;
Grupo B: 53, 55 e 57.
Para o grupo A, tem-se que: x = 3 anos; s2 = 4  s = 2 anos;
s 2
CV = (100) = (100) = 66,67 % .
x 3
Para o grupo B, tem-se que: x = 55 anos; s2 = 4  s = 2 anos;
s 2
CV = (100) = (100) = 3,64 % .
x 55
Um CV = 66,67 % indica uma dispersão dos dados em relação à média muito grande, ou
seja, a dispersão relativa é alta. Já um CV = 3,64 % indica que a dispersão dos dados em relação
à média é pequena.
1.8 Medidas de assimetria e Curtose
As medidas de assimetria caracterizam como e quanto a distribuição de frequências se

afasta da condição de simetria. Dentre os vários estimadores da assimetria, tem-se o coeficiente
de assimetria de Pearson, dado por
x − Mo
As ( P ) = , em que, se As(P) = 0, a distribuição é simétrica;
s
se As(P) > 0, a distribuição é assimétrica positiva;
se As(P) < 0, a distribuição é assimétrica negativa.
Quando |As(P)| < 0,15, podemos considerar a distribuição como praticamente simétrica.
Por outro lado, costuma-se considerar a assimetria como moderada se 0,15 < |As(P)| < 1, e forte
se |As(P)| > 1.
Para a variável renda familiar, utilizada anteriormente, temos
x − Mo 6,7 − 6,8
As ( P) = = = −0,045 , portanto, a distribuição tem uma leve assimetria
s 2,24
negativa (praticamente simétrica).
Pode-se, também, verificar a assimetria dos dados pelo coeficiente de assimetria de Yule,
dado por:
Q1 + Q3 − 2Q2
As (Y ) = ;
Q3 − Q1
Exercício: Obtenha o coeficiente de assimetria de Yule para a variável renda familiar utilizada
anteriormente.

27
Curtose: o coeficiente de curtose de uma distribuição fornece uma medida do

achatamento da curva que a descreve.
Uma distribuição cuja curva tem a forma da curva 1, tem seu coeficiente de curtose
C = 0,263 e é dita mesocúrtica. Se ela tem uma curva mais afilada, como a curva 2, ela é dita
leptocúrtica e tem C < 0,263. Se a curva é mais achatada, como a curva 3, ela é dita platicúrtica e
tem coeficiente de curtose C > 0,263.
Dentre os vários coeficientes de curtose disponíveis, tem-se o coeficiente de Keley,
definido com base nas separatrizes:
Q3 − Q1 dQ
C(K ) = = em que,
2(D9 − D1 ) D9 − D1
Q3 − Q1
dQ = é o desvio semi-quartil, uma medida de dispersão que, em geral, é pouco afetada
2
por valores extremos.
Para a variável renda familiar, utilizada anteriormente, temos
Q3 − Q1 8,25 − 5
C(K ) = = = 0,264 .
2(D9 − D1 ) 2(9,75 − 3,6 )
Portanto, a curva que descreve os dados tem uma tendência para a forma platicúrtica (C > 0,263).
Lembrando que esta distribuição é praticamente simétrica.
1.9 Desenho Esquemático
Resumo de cinco números
Vários são os procedimentos que adotam as separatrizes para descrever os dados. Dentre
eles, o resumo de cinco números que associa o limite inferior e superior do rol aos quartis,
fornecendo uma idéia bastante razoável da dispersão, da tendência central e da forma da
distribuição. O resumo de cinco números tem a seguinte forma:

28
Título
Md
Q1 Q3
l L
Gráfico de caixa (box plot)
Um dispositivo gráfico para o resumo de cinco números é o gráfico de caixa, que é

construído de acordo com o seguinte esquema.
Pontos discrepantes
Q3 + 3dQ
Região de Alerta
Q3 + 2dQ
Q3
Md
Q1
Q1 - 2dQ
Região de Alerta
Q1 - 3dQ
Pontos discrepantes
Obs. As linhas tracejadas seguem, abaixo e acima da caixa, até encontrar l ou L, tendo como
limites Q1 - 2dQ e Q3 + 2dQ, respectivamente.
O gráfico “box plot” mostra, a posição, a dispersão, a (as)simetria, o comprimento das

caudas (distribuição) e outliers (pontos discrepantes). A posição é resumida pela mediana, a faixa
no interior da caixa. O comprimento da caixa mostra a dQ (desvio semi-quartil). Das posições da
mediana e dos quartis vemos a (as) simetria.
O “box plot” é especialmente útil para comparação de vários grupos de dados.

29
Exemplo: Construir o resumo de cinco números e o gráfico de caixa, considerando as seguintes

observações:
6,0 2,3 4,3 8,5 3,9 5,3 6,0 4,1 11,3 3,8
4,1 2,2 4,2 4,6 7,7 5,0 6,9 3,0 6,5 4,9
4,1 4,1 6,0 2,5 13,8 7,2 6,0 7,1 5,0 8,3
2,6 3,5 6,0 5,8 4,4 4,4 3,5 4,3 3,8 4,1
Como vamos utilizar as separatrizes, é de grande auxílio, a ordenação dos dados. Então, fazendo
o rol temos:
2,2 2,3 2,5 2,6 3,0 3,5 3,5 3,8 3,8 3,9
4,1 4,1 4,1 4,1 4,1 4,2 4,3 4,3 4,4 4,4
4,6 4,9 5,0 5,0 5,3 5,8 6,0 6,0 6,0 6,0
6,0 6,5 6,9 7,1 7,2 7,7 8,3 8,5 11,3 13,8
n 40 n
Cálculo da mediana: n é par, logo = = 20 e + 1 = 20 + 1 = 21 .
2 2 2
Portanto,
4,4 + 4,6
Md = = 4,5 .
2
Cálculo do Q1: o 1º quartil (dados não agrupados) é a média aritmética dos elementos de ordem
n 40 n
= = 10 e + 1 = 10 + 1 = 11 .
4 4 4
Portanto,
3,9 + 4,1
Q1 = = 4,0 .
2
De modo análogo, Q3 é a média dos elementos de ordem
3n 3(40) 3n
= = 30 e + 1 = 30 + 1 = 31 .
4 4 4
Portanto,
6,0 + 6,0
Q3 = = 6,0 .
2

30
Logo, o resumo de cinco números fica:
Resumo de Cinco Números

4,5
4,0 6,0
2,2 13,8
e o desvio semi-quartil (dQ)
Q3 − Q1 6,0 − 4,0
dQ = = = 1,0 .
2 2
Assim, o limite superior do rol, L = 13,8 parece ser um valor discrepante dos demais.
Os valores 8,3 e 8,5 estão na região de alerta, pois,
Q1 – 2dQ = 4 – 2(1) = 2
Q1 – 3dQ = 4 – 3(1) = 1 e
Q3 + 2dQ = 6 + 2(1) = 8
Q3 + 3dQ = 6 + 3(1) = 9
e devem ser vistos com cautela. Já os valores 11,3 e 13,8 que estão além do ponto crítico
Q3+3dQ são candidatos a valores discrepantes e devem ser estudados. Detalhes sobre o assunto
podem obtidos em Tukey (1977), entre outros.

31
LISTA DE EXERCÍCIOS Nº 2
1) Para cada distribuição, determine a média, a mediana e a moda.
a)
Xi 2 3 4 5 7 Resp. x = 3,95 ; Md = Mo = 4
fi 3 5 8 4 2
b)
Xi 77 173 181 275 279 x = 186,35 ; Md = 181; Mo = 77
fi 12 2 2 10 5
c)
Xi 12 13 15 17 x = 13,95 ; Md = 14; Mo = 15
Fac 5 10 18 20
2) Abaixo temos a distribuição de frequências dos pesos de uma amostra de 45 alunos.
PESOS 40 | 45 45 | 50 50 | 55 55 | 60 60 | 65 65 | 70
Nº de Alunos 4 10 15 8 5 3
a) Calcular a média aritmética, a mediana e a moda. Comente sobre a distribuição;

b) Obtenha o primeiro quartil (Q1), o quinto decil (D5) e o percentil 40 (P40). Interprete os
resultados.
Resp. Média = 53,5; Md = 52,83; Mo = 52,08; Q1 = 48,625 e P40 = 51,3
3) Para a série 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9.
a) Obtenha a média aritmética e a variância populacional; (6,83; 1,47)
b) Construir a distribuição simples de frequência;
c) Obtenha a média aritmética, a variância e o desvio padrão populacional; (6,83, 1,47 e 1,21)
d) O coeficiente de variação. (17,72 %)
4) Num teste aplicado a 20 alunos, obteve-se a seguinte distribuição amostral.
PONTOS 35 | 45 45 | 55 55 | 65 65 | 75 75 | 85 85 | 95
Nº de Alunos 1 3 8 3 3 2
a) Calcular a média aritmética; (65)

b) Obtenha Q1 e D5. Acima de que valor tem-se 25% das observações? (56,25 e 62,5; 75)
c) A variância e o desvio padrão; (184,21 e 13,57)
d) O coeficiente de variação; (20,88 %)
e) O coeficiente de assimetria; (0,37)
f) O coeficiente de curtose; (0,256)
g) Interpretar os resultados obtidos.
__________________________
32
5) Considere a distribuição de frequências do exercício nº 2 e obtenha.

a) A variância e o desvio padrão; (Variância = 45)
b) O coeficiente de variação; (12,52 %)
c) O coeficiente de assimetria; (0,21)
d) Interpretar os resultados obtidos.
6) Um fabricante de caixas de cartolina fabrica três tipos de caixa. Testa-se a resistência de cada
caixa, tomando-se uma amostra de 100 caixas e determinando-se a pressão necessária para
romper cada caixa. São os seguintes os resultados dos testes:
Tipos de Caixa A B C
Pressão média de ruptura (bária) 150 200 300
Desvio padrão das pressões (bária) 40 50 60
a) Que tipo de caixa apresenta a menor variação absoluta na pressão de ruptura?

b) Que tipo de caixa apresenta a maior variação relativa na pressão de ruptura?
c) Que tipo de caixa você indicaria para compra? Comente.
7) Cronometrando o tempo para várias provas de uma gincana automobilística, encontramos:
EQUIPE 1: 40 provas
tempo médio: 45 segundos
variância: 400 segundos ao quadrado
EQUIPE 2: tempo: 20 40 50 80
nº de provas: 10 15 30 5
a) Qual o coeficiente de variação relativo a equipe 1? (44,44%)

b) Qual a média da equipe 2? (45 seg.)
c) Qual o desvio padrão relativo à equipe 2? (15,13 seg.)
d) Qual a média aritmética referente às duas equipes consideradas em conjunto? (45 seg.)
e) Qual a equipe que apresentou resultados mais homogêneos?
8) Encontrar a frequência correspondente à terceira classe da distribuição abaixo, sabendo-se que a

média é igual a 11,50.
Xi 5 8 13 18 25
fi 4 5 .... 3 1
9) Obtenha o resumo de cinco números e o gráfico de caixa para os dados, salários de 36 empregados
de uma companhia, utilizados na tabela 1 (lista de exercícios nº 1). Comente os resultados.
10) Obtenha o resumo de cinco números e o gráfico de caixa (box plot), identificando possíveis pontos
discrepantes para as seguintes observações:
2,0 3,1 4,6 7,8 2,1 4,7 8,9 1,5 2,4

3,8 5,4 1,6 2,5 3,9 5,4 1,7 2,8 4,1
6,2 1,7 2,9 4,2 6,4 2,0 3,0 4,5 6,5
2,2 3,8 5,0 10,1 2,2 3,8 5,2 20,0 3,1

Estat Desc Econ

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estat Desc Econ

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Estadual do Oeste do Paraná

CURSO: Ciências Econômicas – 3º Ano

1 INTRODUÇÃO À ESTATÍSTICA DESCRITIVA

A estatística trabalha com informações referentes a conjunto de dados observados. Estes

1.2 Tipos de Variáveis

As variáveis são classificadas em dois grupos: variáveis quantitativas e variáveis

Exemplos: a) Número de filhos em casais residentes em uma determinada cidade.

Variáveis quantitativas contínuas: podem teoricamente assumir qualquer valor de um

Exemplos: a) Idade de pessoas residentes em uma determinada cidade.

Variáveis qualitativas: são usadas para descrever qualidades, categorias, etc.

a) Conceito obtido pelos alunos de pós-graduação de uma determinada Universidade (A, B, C,

c) Classe de renda dos operários do bairro B (baixa, média, alta).

Obs. As variáveis qualitativas são classificadas em ordinais e nominais.

Variáveis Bidimensionais ou multidimensionais

Em problemas práticos, pode-se ter interesse em estudar, simultaneamente, dois ou mais

(X, Y) = {(65, 175), (82, 181), ... , (70, 172)}.

1.3 Representações estatísticas

Conceitos dos elementos de uma tabela estatística.

A tabela estatística é composta de elementos essenciais e complementares. Os elementos

Os elementos complementares são: Fonte, Chamada e Nota.

Fonte é a indicação da entidade responsável pelo fornecimento ou elaboração das

Estatística – Prof. Wilson Alves de Oliveira

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017

O gráfico é uma forma de apresentação dos dados, cujo objetivo é o de produzir, no

a) Simplicidade: o gráfico deve ser destituído de detalhes de importância secundária.

Principais tipos de gráficos

1 Gráficos em colunas ou em barras

É a representação de uma tabela por meio de retângulos dispostos verticalmente (em

Estatística – Prof. Wilson Alves de Oliveira

2 Gráficos em colunas múltiplas

Este gráfico é geralmente empregado quando queremos representar, simultaneamente,

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017

Estatística – Prof. Wilson Alves de Oliveira

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017

Estatística – Prof. Wilson Alves de Oliveira

Exemplo: Dada a tabela:

LICENCIAMENTO TOTAL DE AUTOMÓVEIS

1.4 Distribuição de Frequências

Alguns conceitos fundamentais

População é um conjunto de indivíduos ou objetos que apresentam pelo menos uma

Amostra – Considerando-se a impossibilidade, na maioria das vezes, do tratamento de

Estatística – Prof. Wilson Alves de Oliveira

Os procedimentos para a representação das distribuições de frequências são dados a

Estatística – Prof. Wilson Alves de Oliveira

13. Histograma. É a representação gráfica de uma distribuição de frequências por meios de

Exemplo: Dado o rol de 50 notas, formar uma distribuição de frequências e construir o

Número de classes (K): K ≅ 1 + 3,22 log 50 ≅ 1 + 3,22(1,7) ≅ 7 ;

Logo, a distribuição de frequências será:

Estatística – Prof. Wilson Alves de Oliveira

1.5 Ramos e folhas

Exemplo: Considere os dados referentes aos salários de 36 empregados de uma companhia.

4,00 8,74 13,23

Estatística – Prof. Wilson Alves de Oliveira

Algumas informações que se obtém deste ramo e folhas são:

a) Há um destaque para o valor 23,30;

Estatística – Prof. Wilson Alves de Oliveira

Utilizando os dados da tabela 1.

3. Faça uma tabela de distribuição de frequências e o histograma para as variáveis salário e

4. Repita o exercício 2 para a variável região de procedência, utilizando um outro tipo de

3,67 1,82 3,73 4,10 4,30

Construa um diagrama de ramo e folhas e comente os resultados.

Estatística – Prof. Wilson Alves de Oliveira

Tabela 1. Informações sobre estado civil, grau de instrução, salário, idade e