Você está na página 1de 32

Universidade Estadual do Oeste do Paraná

CURSO: Ciências Econômicas – 3º Ano


DISCIPLINA: Estatística I
PROFESSOR: Dr. Wilson Alves de Oliveira

1 INTRODUÇÃO À ESTATÍSTICA DESCRITIVA

1.1 Introdução

A estatística trabalha com informações referentes a conjunto de dados observados. Estes


elementos constituem uma amostra retirada da população que se deseja estudar ou a população
toda.
De um modo geral, para cada elemento observado, tem-se associado um resultado (ou
mais de um resultado) correspondendo à realização de uma variável (ou variáveis).

1.2 Tipos de Variáveis

As variáveis são classificadas em dois grupos: variáveis quantitativas e variáveis


qualitativas.

Variáveis quantitativas: são aquelas que descrevem quantidades e são associadas a números.
As variáveis quantitativas são classificadas em discretas e contínuas.

Variáveis quantitativas discretas: assumem apenas determinados valores no campo dos reais.
Em geral, descrevem problemas de contagem. Assumem, portanto, somente valores inteiros.

Exemplos: a) Número de filhos em casais residentes em uma determinada cidade.


b) Pontos obtidos jogando-se 5 vezes um dado.
c) Número de sementes germinadas, de uma determinada planta, em 6 vasos com 5
sementes por vaso, após 2 semanas.

Variáveis quantitativas contínuas: podem teoricamente assumir qualquer valor de um


subconjunto dos números reais.

Exemplos: a) Idade de pessoas residentes em uma determinada cidade.


b) Peso de pessoas residentes em uma determinada cidade.
c) Altura de pessoas residentes em uma determinada cidade

Variáveis qualitativas: são usadas para descrever qualidades, categorias, etc.

Exemplos:

a) Conceito obtido pelos alunos de pós-graduação de uma determinada Universidade (A, B, C,


D, E).
b) Sexo dos alunos da UNIOESTE (M, F).
2

c) Classe de renda dos operários do bairro B (baixa, média, alta).


d) Raça dos bovinos da estância E (holandês, nelore, zebu).

Obs. As variáveis qualitativas são classificadas em ordinais e nominais.


Variáveis qualitativas ordinais: quando houver um sentido de ordenação em seus possíveis
valores, como nas variáveis citadas nos itens a e c.
Variáveis qualitativas nominais: quando não houver sentido de ordenação, em seus valores,
como nas variáveis citadas nos itens b e d.

Variáveis Bidimensionais ou multidimensionais

Em problemas práticos, pode-se ter interesse em estudar, simultaneamente, dois ou mais


atributos quantitativos e/ou qualitativos.

Exemplo: Visando planejar uma dieta alimentar padrão para os funcionários de certa empresa,
um nutricionista anotou o peso e a altura de 10 deles. Tomando X e Y para descrever,
respectivamente, as variáveis quantitativas contínuas peso em kg e altura em cm, temos a
variável bidimensional (X, Y) e um conjunto de pares ordenados (xi, yi). Por exemplo:

(X, Y) = {(65, 175), (82, 181), ... , (70, 172)}.

Note que o nutricionista poderia ter julgado relevante tomar a idade Z dos funcionários. Neste
caso, teríamos uma variável tridimensional (X, Y, Z) descrita por ternas ordenadas (xi, yi, zi).
Poderia-se incluir, também, a variável sexo (qualitativa).

1.3 Representações estatísticas

1.3.1 Tabelas

Conceitos dos elementos de uma tabela estatística.

A tabela estatística é composta de elementos essenciais e complementares. Os elementos


essenciais são: Título, Corpo, Cabeçalho e Coluna indicadora.

Título é a indicação que precede a tabela e que contém a designação do fato observado, o
local de ocorrência e a época em que o mesmo foi registrado.
Corpo é um conjunto de colunas e linhas que contém nas ordens vertical e horizontal, as
informações sobre o fato observado. Casa é o cruzamento de uma coluna com uma linha.
Cabeçalho é a parte superior da tabela, que explica o conteúdo das colunas.
Coluna indicadora é a parte da tabela que especifica o conteúdo das linhas.

Os elementos complementares são: Fonte, Chamada e Nota.

Fonte é a indicação da entidade responsável pelo fornecimento ou elaboração das


informações.
Chamada é a informação de natureza específica sobre determinada parte da tabela,
destinada a conceituar ou esclarecer dados.

Estatística – Prof. Wilson Alves de Oliveira


3

Nota é a informação de natureza geral, que tem por objetivo conceituar ou esclarecer o
conteúdo apresentado nas tabelas, ou indicar a metodologia utilizada para o levantamento e
elaboração dos dados.

Exemplo:

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017


ESPECIFICAÇÃO VALOR (US$ 1.000.000)
JAN FEV MAR ABRI MAI JUN
Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593
FONTE: Ministério da Indústria, Comércio Exterior e Serviços.

1.3.2 Gráficos

O gráfico é uma forma de apresentação dos dados, cujo objetivo é o de produzir, no


investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo.
A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais.

a) Simplicidade: o gráfico deve ser destituído de detalhes de importância secundária.


b) Clareza: o gráfico deve possibilitar uma correta interpretação dos valores representativos do
fenômeno em estudo.
c) Veracidade: o gráfico deve expressar a verdade sobre o fenômeno em estudo.

Principais tipos de gráficos

1 Gráficos em colunas ou em barras

É a representação de uma tabela por meio de retângulos dispostos verticalmente (em


colunas) ou horizontalmente (em barras).

Exemplo: Para a variável “nº de defeitos por unidade”, cujos valores são dados na tabela abaixo,
obtém-se um gráfico de colunas da seguinte forma.

Xi Frequência
0 4
1 7
2 5
3 2
4 1
5 1
Total 20

Estatística – Prof. Wilson Alves de Oliveira


4

2 Gráficos em colunas múltiplas

Este gráfico é geralmente empregado quando queremos representar, simultaneamente,


dois ou mais fenômenos estudados com o propósito de comparação.

Exemplo:

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017


ESPECIFICAÇÃO VALOR (US$ 1.000.000)
JAN FEV MAR ABRI MAI JUN
Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593
FONTE: Ministério da Indústria, Comércio Exterior e Serviços.

Estatística – Prof. Wilson Alves de Oliveira


5

3 Gráfico em linhas

Sua construção requer a representação da variável tempo no eixo das abcissas (horizontal)
e a frequência no eixo das ordenadas (vertical). Utiliza-se, geralmente, para estudos de séries
temporais (cronológica). Seus objetivos são: em primeiro lugar descrever o comportamento
passado desses dados e em segundo lugar analisar este comportamento.

Exemplo:

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017


ESPECIFICAÇÃO VALOR (US$ 1.000.000)
JAN FEV MAR ABRI MAI JUN
Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593
FONTE: Ministério da Indústria, Comércio Exterior e Serviços.

4 Gráfico em setores

Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos
ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em
tantos setores quantas são as partes. Os setores são tais que suas áreas são, respectivamente,
proporcionais aos dados da tabela. Obtemos cada setor por meio de uma regra de três simples e
direta, lembrando que o total da tabela corresponde a 360º.

Estatística – Prof. Wilson Alves de Oliveira


6

Exemplo: Dada a tabela:

LICENCIAMENTO TOTAL DE AUTOMÓVEIS


E COMERCIAIS LEVES POR COMBUSTÍVEL
NO BRASIL – JANEIRO A JULHO DE 2017
Unidades Frequência Porcentagem
Gasolina 37 329 3,185
Elétrico 1 452 0,124
Flex Fuel 1 038 674 88,614
Diesel 94 676 8,077
Total 1 172 131 100,000
FONTE: Renavam

Obs: 1. O gráfico em setores só deve ser empregado quando há, no máximo, sete classificações.
2. Se a tabela já apresenta os dados em porcentagem, obtemos os respectivos valores em
graus multiplicando o valor percentual por 3,6.

1.4 Distribuição de Frequências

Alguns conceitos fundamentais

População é um conjunto de indivíduos ou objetos que apresentam pelo menos uma


característica em comum. A população pode ser finita ou infinita.

Amostra – Considerando-se a impossibilidade, na maioria das vezes, do tratamento de


todos os elementos da população, retira-se uma amostra. Portanto, amostra é um subconjunto da
população.

Estatística – Prof. Wilson Alves de Oliveira


7

Os procedimentos para a representação das distribuições de frequências são dados a


seguir.

1. Dados brutos. O conjunto dos dados numéricos obtidos após a crítica dos valores coletados
constitui-se nos dados brutos.
2. Rol. É o arranjo dos dados brutos em ordem de frequência crescente ou decrescente.
3. Amplitude total ou “range” (R). É a diferença entre o maior e o menor valor
observado.
4. Frequência absoluta (fi). É o número de vezes que o elemento aparece na amostra, ou o
número de elementos pertencentes a uma classe.
5. Distribuição de frequência. É o arranjo dos valores e suas respectivas frequências.
6. Número de classes (K). Não há uma fórmula exata para o cálculo do número de classes. São
dadas duas soluções.
a) K = 5 para n ≤ 25 e K ≅ n , para n > 25;
b) Fórmula de Sturges K ≅ 1 + 3,22 log n .
7. Amplitude das classes (h). h ≅ R ÷ K
Assim como no caso do número de classes (K), a amplitude das classes (h) deve ser aproximada
para o maior inteiro.
8. Limites das classes. Existem diversas maneiras de expressar os limites das classes.
a) a | b, a classe compreende valores de a, inclusive, até b, exclusive.
b) a | b, a classe compreende valores de a, exclusive, até b, inclusive.
c) a  b, a classe compreende valores de a, exclusive, até b, exclusive.
d) a || b, a classe compreende valores de a, inclusive, até b, inclusive.
9. Ponto médio das classes (xi). É a média aritmética entre o limite superior e o limite inferior
da classe.
10. Frequência absoluta acumulada (Fac). É a soma das frequências dos valores inferiores ou
iguais ao valor dado.
fi
11. Frequência relativa (ri). É dada por ri = .
n
12. Frequência relativa acumulada (Ri). É o quociente entre a frequência acumulada da classe
Fac
e o total de elementos, Ri = .
n

Estatística – Prof. Wilson Alves de Oliveira


8

13. Histograma. É a representação gráfica de uma distribuição de frequências por meios de


retângulos justapostos.
14. Polígono de frequências. Unindo por linhas retas os pontos médios das bases superiores dos
retângulos do histograma, obtém-se outra representação dos dados, denominado polígono de
frequências.

Exemplo: Dado o rol de 50 notas, formar uma distribuição de frequências e construir o


histograma.

33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 66 67 68
69 71 73 73 74 74 76 77 77 78
80 81 84 85 85 88 89 91 94 97

Solução:
Amplitude total (R): R = 97 – 33 = 64;

Número de classes (K): K ≅ 1 + 3,22 log 50 ≅ 1 + 3,22(1,7) ≅ 7 ;

64
Amplitude das classes (h): h = = 9,14 . Para facilitar usaremos h = 10.
7

Logo, a distribuição de frequências será:

Classes fi Fac xi ri Ri
30 | 40 4 4 35 0,08 0,08
40 | 50 6 10 45 0,12 0,20
50 | 60 8 18 55 0,16 0,36
60 | 70 13 31 65 0,26 0,62
70 | 80 9 40 75 0,18 0,80
80 | 90 7 47 85 0,14 0,94
90 | 100 3 50 95 0,06 1,00
Total 50 - - 1,00 -

Estatística – Prof. Wilson Alves de Oliveira


9

1.5 Ramos e folhas

Tanto o histograma como os gráficos em colunas dão uma idéia da forma da distribuição
da variável sob consideração.
Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se
obter uma idéia da forma de sua distribuição, é o ramo e folhas (Tukey, 1977). Uma vantagem do
ramo e folhas sobre o histograma é que não perdemos informação sobre os dados em si.
Não existe uma regra fixa para construir o ramo e folhas, mas a idéia básica é dividir cada
observação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a
segunda (a folha) é colocada à direita.

Exemplo: Considere os dados referentes aos salários de 36 empregados de uma companhia.

4,00 8,74 13,23


4,56 8,95 13,60
5,25 9,13 13,85
5,73 9,35 14,69
6,26 9,77 14,71
6,66 9,80 15,99
6,86 10,53 16,22
7,39 10,76 16,61
7,44 11,06 17,26
7,59 11,59 18,75
8,12 12,00 19,40
8,46 12,79 23,30

Estatística – Prof. Wilson Alves de Oliveira


10

Vamos construir o ramo e folhas dos salários dos 36 empregados. Assim, para os salários 4,00 e
4,56, o 4 é o ramo e 00 e 56 são as folhas.

4 00 56
5 25 73
6 26 66 86
7 39 44 59
8 12 46 74 95
9 13 35 77 80
10 53 76
11 06 59
12 00 79
13 23 60 85
14 69 71
15 99
16 22 61
17 26
18 75
19 40
20
21
22
23 30

Algumas informações que se obtém deste ramo e folhas são:

a) Há um destaque para o valor 23,30;


b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40;
c) Um valor mais ou menos típico para este conjunto de dados poderia ser, por exemplo, 10,00;
d) Há uma leve assimetria em direção aos valores grandes.

Estatística – Prof. Wilson Alves de Oliveira


11

LISTA DE EXERCÍCIOS Nº 1

Utilizando os dados da tabela 1.

1. Classifique as variáveis Estado civil, Grau de instrução, Nº de filhos, Salário, Idade e Região
de procedência, quanto aos tipos de variáveis.

2. Faça uma tabela de distribuição de frequências e um gráfico de setores para a variável grau
de instrução. Comente os resultados.

3. Faça uma tabela de distribuição de frequências e o histograma para as variáveis salário e


idade (uma tabela e o gráfico para cada variável). Comente os resultados.

4. Repita o exercício 2 para a variável região de procedência, utilizando um outro tipo de


gráfico para representar esta variável.

5. As taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores
municípios do Brasil estão abaixo.

3,67 1,82 3,73 4,10 4,30


1,28 8,14 2,43 4,17 5,36
3,96 6,54 5,84 7,35 3,63
2,93 2,82 8,45 5,28 5,41
7,77 4,65 1,88 2,12 4,26
2,78 5,54 0,90 5,09 4,07

Construa um diagrama de ramo e folhas e comente os resultados.

Estatística – Prof. Wilson Alves de Oliveira


12

Tabela 1. Informações sobre estado civil, grau de instrução, salário, idade e


procedência de 36 funcionários da Companhia Milsa.
Nº Estado Grau de Nº de Salário Idade Região de
civil instrução filhos (X sal. Min.) anos meses procedência
1 solteiro fundamental - 4,00 26 03 Interior
2 casado fundamental 1 4,56 32 10 Capital
3 casado fundamental 2 5,25 36 05 Capital
4 solteiro médio - 5,73 20 10 Outro
5 solteiro fundamental - 6,26 40 07 Outro
6 casado fundamental 0 6,66 28 00 Interior
7 solteiro fundamental - 6,86 41 00 Interior
8 solteiro fundamental - 7,39 43 04 Capital
9 solteiro médio - 7,44 23 06 Outro
10 casado médio 1 7,59 34 10 Capital
11 casado médio 2 8,12 33 06 Interior
12 solteiro fundamental - 8,46 27 11 Capital
13 solteiro médio - 8,74 37 05 Outro
14 casado fundamental 3 8,95 44 02 Outro
15 casado médio 0 9,13 30 05 Interior
16 solteiro médio - 9,35 38 08 Outro
17 casado médio 1 9,77 31 07 Capital
18 casado fundamental 2 9,80 39 07 Outro
19 solteiro superior - 10,53 25 08 Interior
20 solteiro médio - 10,76 37 04 Interior
21 casado médio 1 11,06 30 09 Outro
22 solteiro médio - 11,59 34 02 Capital
23 solteiro fundamental - 12,00 41 00 Outro
24 casado superior 0 12,79 26 01 Outro
25 casado médio 2 13,23 32 05 Interior
26 casado médio 2 13,60 35 00 Outro
27 solteiro fundamental - 13,85 46 07 Outro
28 casado médio 0 14,69 29 08 Interior
29 casado médio 5 14,71 40 06 Interior
30 casado médio 2 15,99 35 10 Capital
31 solteiro superior - 16,22 31 05 Outro
32 casado médio 1 16,61 36 04 Interior
33 casado superior 3 17,26 43 07 Capital
34 solteiro superior - 18,75 33 07 Capital
35 casado médio 2 19,40 48 11 Capital
36 casado superior 3 23,30 42 02 Interior
FONTE: Bussab, W. O.; Morettin, P. A. Estatística básica , 2017.

Estatística – Prof. Wilson Alves de Oliveira


13

1.6 Medidas de Posição

As principais medidas de posição são chamadas medidas de tendência central, pois,


representam um conjunto de observações pelos seus valores médios, em torno dos quais tendem
a concentrar-se os dados.

1.6.1 Média aritmética para dados não agrupados

Sejam x1, x2, ... , xn , n valores da variável X. A média aritmética simples de X


representada por x é definida por:

x i
x= i =1
, onde n é o número de elementos do conjunto.
n

Exemplo: Determinar a média aritmética dos valores 3, 7, 8, 10 e 12.

x i
3 + 7 + 8 + 10 + 12 40
x= i =1
= = =8.
n 5 5

1.6.2 Média aritmética para dados agrupados

Sejam x1, x2, ... , xn, n valores da variável X e sejam f1, f2, ... , fn as respectivas
frequências. A média aritmética de X é dada por:

n
 xi fi n
x= i =1
, onde n =  f i .
n i =1

Exemplos:

a) Determinar a média aritmética da seguinte distribuição.

xi 1 2 3 4
fi 1 3 5 1

Um dispositivo prático para esse cálculo é a composição da seguinte tabela.

xi fi xifi
1 1 1
2 3 6
3 5 15
4 1 4
Total 10 26

Estatística – Prof. Wilson Alves de Oliveira


14

Então,
n

x f i i
26
x= i =1
= = 2,6 .
n 10

b) Determinar a renda média da distribuição.

Renda Familiar Número de


(Salário Mínimo) famílias
2 | 4 5
4 | 6 10
6 | 8 14
8 | 10 8
10 | 12 3

Neste caso, as classes são representadas pelos seus pontos médios.

Renda Familiar Número de Ponto médio


(Salário Mínimo) Famílias (fi) xi xifi
2 | 4 5 3 15
4 | 6 10 5 50
6 | 8 14 7 98
8 | 10 8 9 72
10 | 12 3 11 33
Total 40 - 268

Então,
n

x f i i
268
x= i =1
= = 6,7.
n 40

Portanto, podemos afirmar que a renda média deste grupo de 40 famílias é de 6,7 salários
mínimos.

1.6.3 Média geral

Sejam x1 , x2 ,K, xk , as médias aritméticas de k grupos e n1 , n2 ,K, nk , os números de


termos destes grupos, respectivamente. A média aritmética geral formada pelos termos dos k
grupos é dada por:
k

n .x + n .x + L + nk .xk  n .x i i
xG = 1 1 2 2 = i =1
.
n1 + n2 + L + nk n i
i

Estatística – Prof. Wilson Alves de Oliveira


15

Exemplo. Sejam os grupos:

1) 4, 5, 6, 7, 8 onde, n1 = 5 e x1 = 6;
2) 1, 2, 3 onde, n2 = 3 e x2 = 2;
3) 9, 10,11, 12, 13 onde, n3 = 5 e x3 = 11;

Então, a média geral destes 3 grupos será:

5 × 6 + 3 × 2 + 5 × 11 91
xG = = = 7.
5+3+5 13

1.6.4 Mediana

Colocados os valores em ordem crescente, mediana é o elemento que ocupa a posição


central. Indicando a mediana por Md e o número de observações por n, dois casos devem ser
considerados:
n +1
1º) Se n for ímpar, a mediana será o elemento de ordem .
2

2º) Se n for par, a mediana será a média aritmética entre os elementos centrais, de ordem
n n
e +1.
2 2

Exemplos: 1) Calcular a mediana para os valores.

a) 5, 7, 8, 10, 14.
n +1 5 +1
n = 5 (ímpar), então, a mediana será o elemento de ordem = = 3º.
2 2
Logo, Md = 8.

b) 10, 14, 15, 5, 7, 8.

n= 6 (par), então, colocados os valores em ordem, a mediana será a média entre os elementos de
n 6 n
ordem = = 3º e + 1 = 4º .
2 2 2

Ordenando os valores temos: 5, 7, 8, 10, 14, 15.


Logo,
8 + 10
Md = = 9.
2

Estatística – Prof. Wilson Alves de Oliveira


16

2) Calcular a mediana para as seguintes distribuições.


a)
xi fi Fac
1 1 1
2 3 4
3 5 9 ← contém o
4 2 11 6º elemento
Total 11 -
n + 1 11 + 1
n = 11, n é ímpar, logo a mediana será o elemento de ordem = = 6º.
2 2
Através da frequência acumulada (Fac) encontra-se o valor xi correspondente á mediana.

Portanto, Md = 3.

b)
xi fi Fac
82 5 5
85 10 15
87 15 30 ← 21º e 22º
89 8 38
90 4 42
Total 42 -

n 42
n = 42, n é par, logo a mediana será a média entre os elementos de ordem = = 21º e
2 2
n 87 + 87
+ 1 = 22º , ou seja, Md = = 87.
2 2

1.6.5 Mediana para dados agrupados em classes

O procedimento usado para o cálculo da mediana para dados agrupados é dado a seguir.

1º passo: calcula-se a ordem n/2;


2º passo: pela frequência acumulada identifica-se a classe que contém a mediana (classe Md);
3º passo: utiliza-se a fórmula:

Md = lmd +
( n
2
−  f ).h
, onde:
f Md

lmd é o limite inferior da classe Md;


∑ f é a soma das frequências anteriores à classe Md;
fmd é a frequência absoluta da classe Md;
h é a amplitude da classe Md.

Estatística – Prof. Wilson Alves de Oliveira


17

Exemplo: Determinar a mediana para a variável renda familiar usada no exemplo b do item
1.6.2.
Renda Familiar Número de
(Salário Mínimo) Famílias (fi) Fac
2 | 4 5 5
4 | 6 10 15
6 | 8 14 29
8 | 10 8 37
10 | 12 3 40
Total 40 -

n 40
1º passo: = = 20 ;
2 2
2º passo: pela frequência acumulada identifica-se a classe que contém a mediana, ou seja, 6 | 8
é a classe mediana.
3º passo: aplica-se a fórmula:

Md = lmd +
( n
2
−  f ).h
= 6+
(20 − 15) × 2 = 6 + 0,71 = 6,71 .
f Md 14
Portanto, 50% dos elementos estão abaixo de Md = 6,71, ou seja, 50% das famílias ganham
menos que 6,71 salários mínimos.

1.6.6 Moda

Moda (Mo) é o valor que aparece mais vezes, isto é, o valor ao qual esteja associada à
frequência absoluta mais alta.
Um conjunto pode não apresentar moda, sendo então , denominado conjunto amodal,
caso em que todos os valores da variável ocorrem com a mesma intensidade. Por outro lado,
podemos ter conjuntos plurimodais, quando houver mais de um valor predominante.

Exemplos:
a) 2, 6, 8, 8, 8, 8, 10, 10, 12, 12, 18 → Mo = 8.

b) 4, 4, 5, 5, 6, 6 → Conjunto amodal.

c) 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6 → Mo1 = 2 e Mo2 = 5 → Conjunto bimodal.

d) 1, 2, 3, 4, 5 → Conjunto amodal.

1.6.7 Moda para dados agrupados em classes

A classe que apresenta maior frequência é denominada classe modal. Pela definição,
podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os
limites da classe modal. Existem diversas fórmulas para o cálculo da moda. Veremos duas delas.

Estatística – Prof. Wilson Alves de Oliveira


18

1) Moda bruta

Uma idéia aproximada da moda e muito útil em problemas práticos é a moda bruta,
definida como o ponto médio da classe modal.

2) Fórmula de Czuber

Procedimento:
1º) Identifica-se a classe modal.
2º) Aplica-se a fórmula:

d1
Mo = l + h, onde:
d1 + d 2

l é o limite inferior da classe modal;


d1 é a diferença entre a frequência da classe modal e a imediatamente anterior;
d2 é a diferença entre a frequência da classe modal e a imediatamente posterior;
h é a amplitude da classe modal.

Exemplo: Determinar a moda para a distribuição usada no exemplo b do item 1.6.2.

Classes fi
2 | 4 5
4 | 6 10
6 | 8 14
8 | 10 8
10 | 12 3
Total 40

1º) Classe modal: 6 | 8;

2º) Aplica-se a fórmula:

d1 (14 − 10) 4
Mo = l + h = 6+ ×2 = 6+ × 2 = 6,8 .
d1 + d 2 (14 − 10) + (14 − 8) 4+6

Observa-se, então, que para o conjunto de dados utilizado, obteve-se:


Média = 6,7
Mediana = 6,71
Moda = 6,8

Estatística – Prof. Wilson Alves de Oliveira


19

Relação entre média, mediana e moda

Em uma distribuição simétrica, observa-se que a média = mediana = moda.

x = Md = Mo

Em uma distribuição assimétrica positiva, observa-se que a média ≥ mediana ≥ moda.

Mo Md x

Em uma distribuição assimétrica negativa, observa-se que a média ≤ mediana ≤ moda.

x Md Mo

Estatística – Prof. Wilson Alves de Oliveira


20

Utilização das medidas de tendência central

De maneira geral, uma primeira idéia sobre qual delas escolher pode ser dada pelos
seguintes itens:

a) Escolha da média
i) Quando é necessário o tratamento matemático;
ii) Quando os dados têm distribuição aproximadamente simétrica;
iii) Quando for necessário obter posteriormente outros parâmetros que podem depender
da média, como o desvio padrão, a variância, etc.

b) Escolha da mediana
i) Quando há valores discrepantes que podem “distorcer” a média;
ii) Quando desejamos conhecer o ponto central exato da distribuição;
iii) Quando a distribuição dos dados é muito assimétrica.

c) Escolha da moda
i) Quando a medida de interesse é o ponto mais típico ou popular dos dados;
ii) Quando precisamos apenas de uma rápida idéia sobre a tendência central dos dados.

Outras Medidas de Posição

A mediana caracteriza um conjunto de dados devido à sua posição central. Mas ela tem
uma outra característica importante, pois divide o conjunto de dados em dois grupos com o
mesmo número de elementos. Existem outras medidas de posição com esta característica. São os
quartis, os decis, e os percentis que são chamadas de “separatrizes”.

1.6.8 Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
Q1 = 1º quartil, deixa 25% dos elementos abaixo.
Q2 = 2º quartil, coincide com a mediana, deixa 50% dos elementos abaixo.
Q3 = 3º quartil, deixa 75% dos elementos abaixo.

As fórmulas para a determinação dos quartis Q1 e Q3 são semelhantes à usada para o


cálculo da mediana.

Determinação de Q1:
1º Passo: calcula-se n/4.
2º Passo: identifica-se a classe Q1 pela frequência acumulada.
3º Passo: aplica-se a fórmula:

Q1 = lQ1 +
( n4 −  f ).h .
f Q1

Estatística – Prof. Wilson Alves de Oliveira


21

Determinação de Q3:
1º Passo: calcula-se 3n/4.
2º Passo: identifica-se a classe Q3 pela frequência acumulada.
3º Passo: aplica-se a fórmula:

Q3 = lQ3
(
+ 4
3n
−  f ).h
.
f Q3

Exemplo: Determinar os quartis (Q1 e Q3) para a distribuição usada no exemplo b do item 1.6.2.
Renda Familiar Número de
(Salário Mínimo) Famílias (fi) Fac
2 | 4 5 5
4 | 6 10 15 (Q1)
6 | 8 14 29
8 | 10 8 37 (Q3)
10 | 12 3 40
Total 40 -

1º Passo: n = 40;
n 40 3n 3(40)
= = 10 (Q1); = = 30 (Q3);
4 4 4 4
2º Passo: pela frequência acumulada identifica-se a classe Q1 e a classe Q3.
3º Passo: aplicam-se as fórmulas:

Q1 = lQ1 +
(n4 −  f ).h = 4 + (10 − 5).2 = 5 e
f Q1 10

Q3 = lQ3 +
(34n −  f ).h = 8 + (30 − 29).2 = 8,25 .
f Q3 8

Então, 25% dos elementos estão abaixo de Q1 = 5, ou seja, 25% das famílias ganham
menos que 5 salários mínimos e 75% dos elementos estão abaixo de Q3 = 8,25, ou seja, 75% das
famílias ganham menos que 8,25 salários mínimos.
Obs: 50% dos elementos estão abaixo de Q2 = Md = 6,7, ou seja, 50% das famílias
ganham menos que 6,7 salários mínimos.

Estatística – Prof. Wilson Alves de Oliveira


22

1.6.9 Decis

Os decis são valores que dividem um conjunto de dados em 10 partes iguais. O cálculo é
dado por:
i×n
1º Passo: calcula-se , onde i = 1, 2, 3, 4, 5, 6, 7, 8 e 9.
10
2º Passo: identifica-se a classe Di pela frequência acumulada.
3º Passo: aplica-se a fórmula:

Di = lDi +
(10in −  f ).h .
f Di

1.6.10 Percentis

São medidas que dividem um conjunto de dados em 100 partes iguais. O cálculo é dado
por:
i×n
1º Passo: calcula-se , onde i = 1, 2, 3, ... , 98, 99.
100
2º Passo: identifica-se a classe Pi pela frequência acumulada.
3º Passo: aplica-se a fórmula:

Pi = lPi +
( in
100
−  f ).h
.
f Pi

Exemplo: Determinar o decil 1 (D1) e o percentil 90 (P90) para a distribuição usada no exemplo
b do item 1.6.2.
Renda Familiar Número de
(Salário Mínimo) Famílias (fi) Fac
2 | 4 5 5
4 | 6 10 15
6 | 8 14 29
8 | 10 8 37
10 | 12 3 40
Total 40 -

1º Passo: n = 40;
in 1(40) in 90( 40)
= = 4 (D1); = = 36 (P90);
10 10 100 100
2º Passo: pela frequência acumulada identifica-se a classe D1 e a classe P90.
3º Passo: aplicam-se as fórmulas:

Estatística – Prof. Wilson Alves de Oliveira


23

(
in
−  f ).h (4 − 0).2 = 2 + 1,6 = 3,6
D1 = l D1 + =2+
10
e
f D1 5

( in
−  f ).h (36 − 29).2 = 8 + 1,75 = 9,75 .
P90 = l P90 + =8+
100

f p90 8

Portanto, 10% das famílias ganham menos que 3,6 salários mínimos e 90% ganham
menos que 9,75 salários mínimos.
Obs. Md = Q2 = D5 = P50.

1.7 Principais Medidas de Dispersão

A informação fornecida pelas medidas de posição necessita, em geral, ser complementada


pelas medidas de dispersão. Estas indicam o grau de variação existente no conjunto de dados. A
dispersão (variação) dos dados pode ser verificada através das seguintes medidas de dispersão:
amplitude total, variância, desvio padrão e coeficiente de variação.

1.7.1 Amplitude total

É a diferença entre o maior e o menor valor observado: R = xmáx. – xmín..

A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da


série. Por este motivo, não é muito utilizada como medida de dispersão. Ela é apenas uma
indicação aproximada da dispersão ou variabilidade.

1.7.2 Variância

A variância pode ser definida como a soma dos quadrados dos desvios dividida pelo
número de elementos da amostra menos 1 (n – 1). Este valor é chamado de graus de liberdade.
É obtida pela fórmula:

1 n
s2 =  ( x i − x )2 .
n − 1 i =1

Desenvolvendo algebricamente a fórmula da variância, obtém-se:

1  ( x ) 2

s =  x i −
2 2 i
.
n −1 i n 

Estatística – Prof. Wilson Alves de Oliveira


24

Exemplo: Obtenha a variância para a seguinte amostra: 2, 4, 5, 6 e 8.

Utilizando uma tabela auxiliar, para os cálculos, obtém-se

xi x i2
2 4
4 16
5 25
6 36
8 64
25 145

1  ( xi )  1 
2
(25) 2  1
s =  xi −  = 145 −  = (20) = 5 .
2 2

n − 1  i n  4  5  4

1.7.3 Variância para dados agrupados

O cálculo da variância para dados agrupados é dado pela fórmula

1  ( x f ) 2

s =  x i f i −
2 2 i i
.
n −1  i n 

Obs. s2 indica a variância amostral. Se os dados são provenientes de uma população, usa-
se σ 2 para indicar a variância e no lugar de n – 1 usa-se n.

1.7.4 Desvio Padrão


O desvio padrão é definido como a raiz quadrada positiva da variância s = s 2 .
A variância e o desvio padrão mostram a dispersão dos dados em relação à média, ou
seja, a distância média de cada valor em relação à média. O desvio padrão trabalha com a
mesma unidade da variável, sendo de maior interesse que a variância nas aplicações práticas.

Exemplo. Determinar a variância e o desvio padrão para os dados da variável renda familiar.

Renda Familiar Número de


(Salário mínimo) famílias
2 | 4 5
4 | 6 10
6 | 8 14
8 | 10 8
10 | 12 3

Estatística – Prof. Wilson Alves de Oliveira


25

Utilizando-se de uma tabela auxiliar, para os cálculos, obtém-se

Renda Familiar Número de


(Salário mínimo) Famílias xi xi f i xi2 f i
(fi)
2 | 4 5 3 15 45
4 | 6 10 5 50 250
6 | 8 14 7 98 686
8 | 10 8 9 72 648
10 | 12 3 11 33 363
Total 40 - 268 1992

268
A média, já obtida anteriormente, é dada por x = = 6,7 .
40

A variância,

s2 =
1 

( xi fi )2  = 1 1992 − (268)2  = 1 (196,4) = 5,04 .
 i i
2
x f   
n −1 i n  40 − 1  40  39

Consequentemente, o desvio padrão é dado por

s = s 2 = 5,04 = 2,24 .

Portanto, podemos afirmar que a renda média deste grupo de 40 famílias é de 6,7 salários
mínimos, com uma variação de 2,24 salários mínimos, medidas pelo desvio padrão.

1.7.5 Coeficiente de Variação

O coeficiente de variação é definido como o quociente entre o desvio padrão e a média


aritmética. É freqüentemente expresso em porcentagem pela fórmula

s
CV = ⋅ 100 para dados referentes a uma amostra ou
x

σ
CV = ⋅ 100 para dados referentes a uma população.
x

Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu valor médio.
Assim, uma pequena dispersão absoluta pode ser, na verdade, considerável quando comparada
com a ordem de grandeza dos valores da variável e vice-versa.

Estatística – Prof. Wilson Alves de Oliveira


26

Exemplo: Considere amostras de dois grupos, referentes a idades de pessoas. Obtenha o


coeficiente de variação.

Grupo A: 1, 3 e 5;
Grupo B: 53, 55 e 57.

Para o grupo A, tem-se que: x = 3 anos; s2 = 4  s = 2 anos;

s 2
CV = (100) = (100) = 66,67 % .
x 3

Para o grupo B, tem-se que: x = 55 anos; s2 = 4  s = 2 anos;

s 2
CV = (100) = (100) = 3,64 % .
x 55

Um CV = 66,67 % indica uma dispersão dos dados em relação à média muito grande, ou
seja, a dispersão relativa é alta. Já um CV = 3,64 % indica que a dispersão dos dados em relação
à média é pequena.

1.8 Medidas de assimetria e Curtose

As medidas de assimetria caracterizam como e quanto a distribuição de frequências se


afasta da condição de simetria. Dentre os vários estimadores da assimetria, tem-se o coeficiente
de assimetria de Pearson, dado por

x − Mo
As ( P ) = , em que, se As(P) = 0, a distribuição é simétrica;
s
se As(P) > 0, a distribuição é assimétrica positiva;
se As(P) < 0, a distribuição é assimétrica negativa.

Quando |As(P)| < 0,15, podemos considerar a distribuição como praticamente simétrica.
Por outro lado, costuma-se considerar a assimetria como moderada se 0,15 < |As(P)| < 1, e forte
se |As(P)| > 1.

Para a variável renda familiar, utilizada anteriormente, temos

x − Mo 6,7 − 6,8
As ( P) = = = −0,045 , portanto, a distribuição tem uma leve assimetria
s 2,24
negativa (praticamente simétrica).

Pode-se, também, verificar a assimetria dos dados pelo coeficiente de assimetria de Yule,
dado por:
Q1 + Q3 − 2Q2
As (Y ) = ;
Q3 − Q1
Exercício: Obtenha o coeficiente de assimetria de Yule para a variável renda familiar utilizada
anteriormente.

Estatística – Prof. Wilson Alves de Oliveira


27

Curtose: o coeficiente de curtose de uma distribuição fornece uma medida do


achatamento da curva que a descreve.

Uma distribuição cuja curva tem a forma da curva 1, tem seu coeficiente de curtose
C = 0,263 e é dita mesocúrtica. Se ela tem uma curva mais afilada, como a curva 2, ela é dita
leptocúrtica e tem C < 0,263. Se a curva é mais achatada, como a curva 3, ela é dita platicúrtica e
tem coeficiente de curtose C > 0,263.
Dentre os vários coeficientes de curtose disponíveis, tem-se o coeficiente de Keley,
definido com base nas separatrizes:

Q3 − Q1 dQ
C(K ) = = em que,
2(D9 − D1 ) D9 − D1

Q3 − Q1
dQ = é o desvio semi-quartil, uma medida de dispersão que, em geral, é pouco afetada
2
por valores extremos.

Para a variável renda familiar, utilizada anteriormente, temos

Q3 − Q1 8,25 − 5
C(K ) = = = 0,264 .
2(D9 − D1 ) 2(9,75 − 3,6 )

Portanto, a curva que descreve os dados tem uma tendência para a forma platicúrtica (C > 0,263).
Lembrando que esta distribuição é praticamente simétrica.

1.9 Desenho Esquemático

Resumo de cinco números

Vários são os procedimentos que adotam as separatrizes para descrever os dados. Dentre
eles, o resumo de cinco números que associa o limite inferior e superior do rol aos quartis,
fornecendo uma idéia bastante razoável da dispersão, da tendência central e da forma da
distribuição. O resumo de cinco números tem a seguinte forma:

Estatística – Prof. Wilson Alves de Oliveira


28

Título
Md
Q1 Q3
l L

Gráfico de caixa (box plot)

Um dispositivo gráfico para o resumo de cinco números é o gráfico de caixa, que é


construído de acordo com o seguinte esquema.

Pontos discrepantes
Q3 + 3dQ
Região de Alerta
Q3 + 2dQ

Q3

Md

Q1

Q1 - 2dQ
Região de Alerta
Q1 - 3dQ
Pontos discrepantes

Obs. As linhas tracejadas seguem, abaixo e acima da caixa, até encontrar l ou L, tendo como
limites Q1 - 2dQ e Q3 + 2dQ, respectivamente.

O gráfico “box plot” mostra, a posição, a dispersão, a (as)simetria, o comprimento das


caudas (distribuição) e outliers (pontos discrepantes). A posição é resumida pela mediana, a faixa
no interior da caixa. O comprimento da caixa mostra a dQ (desvio semi-quartil). Das posições da
mediana e dos quartis vemos a (as) simetria.
O “box plot” é especialmente útil para comparação de vários grupos de dados.

Estatística – Prof. Wilson Alves de Oliveira


29

Exemplo: Construir o resumo de cinco números e o gráfico de caixa, considerando as seguintes


observações:

6,0 2,3 4,3 8,5 3,9 5,3 6,0 4,1 11,3 3,8
4,1 2,2 4,2 4,6 7,7 5,0 6,9 3,0 6,5 4,9
4,1 4,1 6,0 2,5 13,8 7,2 6,0 7,1 5,0 8,3
2,6 3,5 6,0 5,8 4,4 4,4 3,5 4,3 3,8 4,1

Como vamos utilizar as separatrizes, é de grande auxílio, a ordenação dos dados. Então, fazendo
o rol temos:

2,2 2,3 2,5 2,6 3,0 3,5 3,5 3,8 3,8 3,9
4,1 4,1 4,1 4,1 4,1 4,2 4,3 4,3 4,4 4,4
4,6 4,9 5,0 5,0 5,3 5,8 6,0 6,0 6,0 6,0
6,0 6,5 6,9 7,1 7,2 7,7 8,3 8,5 11,3 13,8

n 40 n
Cálculo da mediana: n é par, logo = = 20 e + 1 = 20 + 1 = 21 .
2 2 2

Portanto,

4,4 + 4,6
Md = = 4,5 .
2

Cálculo do Q1: o 1º quartil (dados não agrupados) é a média aritmética dos elementos de ordem

n 40 n
= = 10 e + 1 = 10 + 1 = 11 .
4 4 4

Portanto,

3,9 + 4,1
Q1 = = 4,0 .
2

De modo análogo, Q3 é a média dos elementos de ordem

3n 3(40) 3n
= = 30 e + 1 = 30 + 1 = 31 .
4 4 4

Portanto,

6,0 + 6,0
Q3 = = 6,0 .
2

Estatística – Prof. Wilson Alves de Oliveira


30

Logo, o resumo de cinco números fica:

Resumo de Cinco Números


4,5
4,0 6,0
2,2 13,8

e o desvio semi-quartil (dQ)

Q3 − Q1 6,0 − 4,0
dQ = = = 1,0 .
2 2

Assim, o limite superior do rol, L = 13,8 parece ser um valor discrepante dos demais.

Os valores 8,3 e 8,5 estão na região de alerta, pois,

Q1 – 2dQ = 4 – 2(1) = 2
Q1 – 3dQ = 4 – 3(1) = 1 e

Q3 + 2dQ = 6 + 2(1) = 8
Q3 + 3dQ = 6 + 3(1) = 9

e devem ser vistos com cautela. Já os valores 11,3 e 13,8 que estão além do ponto crítico
Q3+3dQ são candidatos a valores discrepantes e devem ser estudados. Detalhes sobre o assunto
podem obtidos em Tukey (1977), entre outros.

Estatística – Prof. Wilson Alves de Oliveira


31

LISTA DE EXERCÍCIOS Nº 2
1) Para cada distribuição, determine a média, a mediana e a moda.

a)
Xi 2 3 4 5 7 Resp. x = 3,95 ; Md = Mo = 4
fi 3 5 8 4 2

b)
Xi 77 173 181 275 279 x = 186,35 ; Md = 181; Mo = 77
fi 12 2 2 10 5

c)
Xi 12 13 15 17 x = 13,95 ; Md = 14; Mo = 15
Fac 5 10 18 20

2) Abaixo temos a distribuição de frequências dos pesos de uma amostra de 45 alunos.

PESOS 40 | 45 45 | 50 50 | 55 55 | 60 60 | 65 65 | 70
Nº de Alunos 4 10 15 8 5 3

a) Calcular a média aritmética, a mediana e a moda. Comente sobre a distribuição;


b) Obtenha o primeiro quartil (Q1), o quinto decil (D5) e o percentil 40 (P40). Interprete os
resultados.
Resp. Média = 53,5; Md = 52,83; Mo = 52,08; Q1 = 48,625 e P40 = 51,3

3) Para a série 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9.
a) Obtenha a média aritmética e a variância populacional; (6,83; 1,47)
b) Construir a distribuição simples de frequência;
c) Obtenha a média aritmética, a variância e o desvio padrão populacional; (6,83, 1,47 e 1,21)
d) O coeficiente de variação. (17,72 %)

4) Num teste aplicado a 20 alunos, obteve-se a seguinte distribuição amostral.

PONTOS 35 | 45 45 | 55 55 | 65 65 | 75 75 | 85 85 | 95
Nº de Alunos 1 3 8 3 3 2

a) Calcular a média aritmética; (65)


b) Obtenha Q1 e D5. Acima de que valor tem-se 25% das observações? (56,25 e 62,5; 75)
c) A variância e o desvio padrão; (184,21 e 13,57)
d) O coeficiente de variação; (20,88 %)
e) O coeficiente de assimetria; (0,37)
f) O coeficiente de curtose; (0,256)
g) Interpretar os resultados obtidos.

__________________________
Estatística – Prof. Wilson Alves de Oliveira
32

5) Considere a distribuição de frequências do exercício nº 2 e obtenha.


a) A variância e o desvio padrão; (Variância = 45)
b) O coeficiente de variação; (12,52 %)
c) O coeficiente de assimetria; (0,21)
d) Interpretar os resultados obtidos.

6) Um fabricante de caixas de cartolina fabrica três tipos de caixa. Testa-se a resistência de cada
caixa, tomando-se uma amostra de 100 caixas e determinando-se a pressão necessária para
romper cada caixa. São os seguintes os resultados dos testes:

Tipos de Caixa A B C
Pressão média de ruptura (bária) 150 200 300
Desvio padrão das pressões (bária) 40 50 60

a) Que tipo de caixa apresenta a menor variação absoluta na pressão de ruptura?


b) Que tipo de caixa apresenta a maior variação relativa na pressão de ruptura?
c) Que tipo de caixa você indicaria para compra? Comente.

7) Cronometrando o tempo para várias provas de uma gincana automobilística, encontramos:

EQUIPE 1: 40 provas
tempo médio: 45 segundos
variância: 400 segundos ao quadrado

EQUIPE 2: tempo: 20 40 50 80
nº de provas: 10 15 30 5

a) Qual o coeficiente de variação relativo a equipe 1? (44,44%)


b) Qual a média da equipe 2? (45 seg.)
c) Qual o desvio padrão relativo à equipe 2? (15,13 seg.)
d) Qual a média aritmética referente às duas equipes consideradas em conjunto? (45 seg.)
e) Qual a equipe que apresentou resultados mais homogêneos?

8) Encontrar a frequência correspondente à terceira classe da distribuição abaixo, sabendo-se que a


média é igual a 11,50.

Xi 5 8 13 18 25
fi 4 5 .... 3 1

9) Obtenha o resumo de cinco números e o gráfico de caixa para os dados, salários de 36 empregados
de uma companhia, utilizados na tabela 1 (lista de exercícios nº 1). Comente os resultados.

10) Obtenha o resumo de cinco números e o gráfico de caixa (box plot), identificando possíveis pontos
discrepantes para as seguintes observações:

2,0 3,1 4,6 7,8 2,1 4,7 8,9 1,5 2,4


3,8 5,4 1,6 2,5 3,9 5,4 1,7 2,8 4,1
6,2 1,7 2,9 4,2 6,4 2,0 3,0 4,5 6,5
2,2 3,8 5,0 10,1 2,2 3,8 5,2 20,0 3,1

Estatística – Prof. Wilson Alves de Oliveira

Você também pode gostar