Anal Exp Dados

UNIOESTE - Universidade Estadual do Oeste do Paraná
CURSO: C. Computação - 1ºAno

DISCIPLINA: Probabilidade e Estatística
PROFESSOR: Wilson Alves de Oliveira
1 ANÁLISE EXPLORATÓRIA DE DADOS
1.1 Estatística descritiva e inferencial
A estatística pode ser definida como a ciência que trata com a organização, descrição,
análise e interpretação de conjuntos de dados. Usando esta definição, podemos considerar que a
ciência estatística pode ser dividida basicamente em duas partes: a estatística descritiva, que trata
da organização e descrição dos dados e a estatística inferencial que cuida da sua análise e
interpretação. A estatística descritiva descreve um conjunto de dados sem tirar conclusões de
caráter mais genérico e a inferência estatística tira conclusões sobre uma determinada população
utilizando apenas uma parte dela. Assim, pode se dizer que a estatística é aplicável a todas as
áreas do conhecimento que usam dados experimentais.
1.2 Etapas de uma pesquisa
Em uma pesquisa estatística precisamos coletar dados que possam fornecer informações
capazes de responder nossos questionamentos. Mas para que os resultados de uma pesquisa
tenham confiabilidade, tanto a coleta dos dados quanto a sua análise devem ser feitas de forma
criteriosa e objetiva.
As principais etapas de uma pesquisa são:
a) definição do problema (objetivos);
b) planejamento da pesquisa;
c) execução da pesquisa;
d) dados;
e) análise dos dados;
f) resultados;
g) conclusões.
Embora a aplicação de técnicas estatísticas seja feita basicamente na etapa de análise dos
dados, a metodologia estatística deve ser aplicada nas diversas etapas da pesquisa, interagindo
com a metodologia da área em estudo. Ou seja, desde o planejamento da pesquisa, até a obtenção
dos resultados. Do mesmo modo, para que a utilização dos resultados estatísticos seja feita de
forma correta, torna-se necessário que o pesquisador conheça os princípios básicos das técnicas
usadas.
1.3 Terminologia estatística
População: é o conjunto de elementos que formam o universo de nosso estudo e que são
passíveis de serem observados.
2
Amostra: é um subconjunto da população.
Unidade experimental ou parcela: é o elemento que vai ser observado ou a unidade que
vai receber o tratamento. Por exemplo, dependendo do experimento, a unidade experimental
pode ser um animal, uma peça fabricada, uma pessoa, etc.
Parâmetro: é uma característica descritiva dos elementos da população, como por

exemplo, a média de alguma variável, a proporção de algum atributo, etc.
Estatística: é uma característica descritiva dos elementos da amostra, como por exemplo,
a média de alguma variável, etc.
1.4 Tipos de Variáveis
A estatística trabalha com informações referentes a conjunto de dados observados. Estes

elementos constituem uma amostra retirada da população que se deseja estudar ou a população
toda. De um modo geral, para cada elemento observado, tem-se associado um resultado (ou mais
de um resultado) correspondendo à realização de uma variável (ou variáveis).
As variáveis são classificadas em dois grupos: variáveis quantitativas e variáveis

qualitativas.
Variáveis quantitativas: são aquelas que descrevem quantidades e são associadas a números.
As variáveis quantitativas são classificadas em discretas e contínuas.
Variáveis quantitativas discretas: assumem apenas determinados valores no campo dos reais.
Em geral, descrevem problemas de contagem. Assumem, portanto, somente valores inteiros.
Exemplos: a) Número de filhos em casais residentes em uma determinada cidade.

b) Pontos obtidos jogando-se 5 vezes um dado.
c) Número de sementes germinadas, de uma determinada planta, em 6 vasos com 5
sementes por vaso, após 2 semanas.
Variáveis quantitativas contínuas: podem teoricamente assumir qualquer valor de um

subconjunto dos números reais.
Exemplos: a) Idade de pessoas residentes em uma determinada cidade.

b) Peso de pessoas residentes em uma determinada cidade.
c) Altura de pessoas residentes em uma determinada cidade.
Variáveis qualitativas: são usadas para descrever qualidades, categorias, etc.
Exemplos:
a) Conceito obtido pelos alunos de pós-graduação de uma determinada Universidade (A, B, C,
D, E).
b) Sexo dos alunos da UNIOESTE (M, F).
c) Classe de renda dos operários do bairro B (baixa, média, alta).
d) Raça dos bovinos da estância E (holandês, nelore, zebu).
Estatística – Prof. Wilson Alves de Oliveira

3
Obs. As variáveis qualitativas são classificadas em ordinais e nominais.

Variáveis qualitativas ordinais: quando houver um sentido de ordenação em seus possíveis
valores, como nas variáveis citadas nos itens a e c.
Variáveis qualitativas nominais: quando não houver sentido de ordenação, em seus valores,
como nas variáveis citadas nos itens b e d.
Variáveis Bidimensionais ou multidimensionais
Podem ocorrer, em problemas práticos, que tenhamos interesse em estudar,

simultaneamente, dois ou mais atributos quantitativos, qualitativos ou ambos.
Exemplo: Visando planejar uma dieta alimentar padrão para os funcionários de certa empresa,
um nutricionista anotou o peso e a altura de 10 deles. Tomando X e Y para descrever,
respectivamente, as variáveis quantitativas contínuas peso em kg e altura em cm, temos a
variável bidimensional (X, Y) e um conjunto de pares ordenados (xi, yi). Por exemplo:
(X, Y) = {(65, 175), (82, 181), ... , (70, 172)}.
Note que o nutricionista poderia ter julgado relevante tomar a idade Z dos funcionários. Neste
caso, teríamos uma variável tridimensional (X, Y, Z) descrita por ternas ordenadas (xi, yi, zi).
Poderia-se incluir, também, a variável sexo (qualitativa).
1.5 Representações estatísticas
1.5.1 Tabelas
Conceitos dos elementos de uma tabela estatística.
A tabela estatística é composta de elementos essenciais e complementares. Os elementos

essenciais são: Título, Corpo, Cabeçalho e Coluna indicadora.
Título é a indicação que precede a tabela e que contém a designação do fato observado, o
local de ocorrência e a época em que o mesmo foi registrado.
Corpo é um conjunto de colunas e linhas que contém nas ordens vertical e horizontal, as
informações sobre o fato observado. Casa é o cruzamento de uma coluna com uma linha.
Cabeçalho é a parte superior da tabela, que explica o conteúdo das colunas.
Coluna indicadora é a parte da tabela que especifica o conteúdo das linhas.
Os elementos complementares são: Fonte, Chamada e Nota.
Fonte é a indicação da entidade responsável pelo fornecimento ou elaboração das

informações.
Chamada é a informação de natureza específica sobre determinada parte da tabela,
destinada a conceituar ou esclarecer dados.
Nota é a informação de natureza geral, que tem por objetivo conceituar ou esclarecer o
conteúdo apresentado nas tabelas, ou indicar a metodologia utilizada para o levantamento e
elaboração dos dados.

4
Exemplo:
BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017

ESPECIFICAÇÃO VALOR (US$ 1.000.000)
JAN FEV MAR ABRI MAI JUN
Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593
FONTE: Ministério da Indústria, Comércio Exterior e Serviços.
1.5.2 Gráficos
O gráfico é uma forma de apresentação dos dados, cujo objetivo é o de produzir, no

investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo.
A representação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais.
a) Simplicidade: o gráfico deve ser destituído de detalhes de importância secundária.

b) Clareza: o gráfico deve possibilitar uma correta interpretação dos valores representativos do
fenômeno em estudo.
c) Veracidade: o gráfico deve expressar a verdade sobre o fenômeno em estudo.
Principais tipos de gráficos
1 Gráficos em colunas ou em barras
É a representação de uma tabela por meio de retângulos dispostos verticalmente (em

colunas) ou horizontalmente (em barras).
Exemplo: Para a variável “nº de defeitos por unidade”, cujos valores são dados na tabela abaixo,
obtém-se um gráfico de colunas da seguinte forma.
Xi Frequência
0 4
1 7
2 5
3 2
4 1
5 1
Total 20

5
2 Gráficos em colunas múltiplas
Este gráfico é geralmente empregado quando queremos representar, simultaneamente,

dois ou mais fenômenos estudados com o propósito de comparação.
Exemplo:

Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593

6
3 Gráfico em linhas
Sua construção requer a representação da variável tempo no eixo das abcissas (horizontal)
e a frequência no eixo das ordenadas (vertical). Utiliza-se, geralmente, para estudos de séries
temporais (cronológica). Seus objetivos são: em primeiro lugar descrever o comportamento
passado desses dados e em segundo lugar analisar este comportamento.
Exemplo:

Exportação 14 908 15 469 20 075 17 680 19 790 19 780
Importação 12 198 10 913 12 939 10 716 12 131 12 593
4 Gráfico em setores
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos
ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em
tantos setores quantas são as partes. Os setores são tais que suas áreas são, respectivamente,
proporcionais aos dados da tabela. Obtemos cada setor por meio de uma regra de três simples e
direta, lembrando que o total da tabela corresponde a 360º.

7
Exemplo: Dada a tabela:
LICENCIAMENTO TOTAL DE AUTOMÓVEIS

E COMERCIAIS LEVES POR COMBUSTÍVEL
NO BRASIL – JANEIRO A JULHO DE 2017
Unidades Frequência Porcentagem
Gasolina 37 329 3,185
Elétrico 1 452 0,124
Flex Fuel 1 038 674 88,614
Diesel 94 676 8,077
Total 1 172 131 100,000
FONTE: Renavam
Obs: 1. O gráfico em setores só deve ser empregado quando há, no máximo, sete classificações.
2. Se a tabela já apresenta os dados em porcentagem, obtemos os respectivos valores em
graus multiplicando o valor percentual por 3,6.
1.6 Distribuição de Frequências
Alguns conceitos fundamentais
População é um conjunto de indivíduos ou objetos que apresentam pelo menos uma

característica em comum. A população pode ser finita ou infinita. 
Amostra – Considerando-se a impossibilidade, na maioria das vezes, do tratamento de

todos os elementos da população, retira-se uma amostra. Portanto, amostra é um subconjunto da
população.

8
Os procedimentos para a representação das distribuições de frequências são dados a

seguir.
1. Dados brutos. O conjunto dos dados numéricos obtidos após a crítica dos valores coletados
constitui-se nos dados brutos.
2. Rol. É o arranjo dos dados brutos em ordem de frequência crescente ou decrescente.
3. Amplitude total ou “range” (R). É a diferença entre o maior e o menor valor
observado.
4. Frequência absoluta (fi). É o número de vezes que o elemento aparece na amostra, ou o
número de elementos pertencentes a uma classe.
5. Distribuição de frequência. É o arranjo dos valores e suas respectivas frequências.
6. Número de classes (K). Não há uma fórmula exata para o cálculo do número de classes. São
dadas duas soluções.
a) K = 5 para n  25 e K  n , para n > 25;
b) Fórmula de Sturges K  1  3,22 log n .
7. Amplitude das classes (h).
hRK
Assim como no caso do número de classes (K), a amplitude das classes (h) deve ser aproximada
para um número inteiro.
8. Limites das classes. Existem diversas maneiras de expressar os limites das classes.
a) a  b, a classe compreende valores de a, inclusive, até b, exclusive.
b) a  b, a classe compreende valores de a, exclusive, até b, inclusive.
c) a  b, a classe compreende valores de a, exclusive, até b, exclusive.
d) a  b, a classe compreende valores de a, inclusive, até b, inclusive.
9. Ponto médio das classes (Xi). É a média aritmética entre o limite superior e o limite inferior
da classe.
10. Frequência absoluta acumulada (Fac). É a soma das frequências dos valores inferiores ou
iguais ao valor dado.
fi
11. Frequência relativa (ri). É dada por ri  .
n
12. Frequência relativa acumulada (Ri). É o quociente entre a frequência acumulada da classe
Fac
e o total de elementos, Ri  .
n

9
13. Histograma. É a representação gráfica de uma distribuição de frequências por meios de

retângulos justapostos.
14. Polígono de frequências. Unindo por linhas retas os pontos médios das bases superiores dos
retângulos do histograma, obtém-se outra representação dos dados, denominado polígono de
frequências.
Exemplo: Dado o rol de 50 notas, formar uma distribuição de frequências e construir o

histograma.
33 35 35 39 41 41 42 45 47 48
50 52 53 54 55 55 57 59 60 60
61 64 65 65 65 66 66 66 67 68
69 71 73 73 74 74 76 77 77 78
80 81 84 85 85 88 89 91 94 97
Solução:
Amplitude total (R): R = 97 – 33 = 64;
Número de classes (K): K  1  3,22 log 50  1  3,22(1,7)  7 ;
64
Amplitude das classes (h): h   9,14 . Para facilitar usaremos h = 10.
7
Logo, a distribuição de frequências será:
Classes fi Fac Xi ri Ri
30  40 4 4 35 0,08 0,08
40  50 6 10 45 0,12 0,20
50  60 8 18 55 0,16 0,36
60  70 13 31 65 0,26 0,62
70  80 9 40 75 0,18 0,80
80  90 7 47 85 0,14 0,94
90  100 3 50 95 0,06 1,00
Total 50 - - 1,00 -


10
1.7 Ramos e folhas
Tanto o histograma como os gráficos em colunas dão uma idéia da forma da distribuição
da variável sob consideração.
Um procedimento alternativo para resumir um conjunto de valores, com o objetivo de se
obter uma idéia da forma de sua distribuição, é o ramo e folhas (Tukey, 1977). Uma vantagem do
ramo e folhas sobre o histograma é que não perdemos informação sobre os dados em si.
Não existe uma regra fixa para construir o ramo e folhas, mas a idéia básica é dividir cada
observação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a
segunda (a folha) é colocada à direita.
Exemplo: Considere os dados referentes aos salários de 36 empregados de certa companhia.
4,00 8,74 13,23

4,56 8,95 13,60
5,25 9,13 13,85
5,73 9,35 14,69
6,26 9,77 14,71
6,66 9,80 15,99
6,86 10,53 16,22
7,39 10,76 16,61
7,44 11,06 17,26
7,59 11,59 18,75
8,12 12,00 19,40
8,46 12,79 23,30

11
Vamos construir o ramo e folhas dos salários dos 36 empregados. Assim, para os salários
4,00 e 4,56, o 4 é o ramo e 00 e 56 são as folhas.
4 00 56
5 25 73
6 26 66 86
7 39 44 59
8 12 46 74 95
9 13 35 77 80
10 53 76
11 06 59
12 00 79
13 23 60 85
14 69 71
15 99
16 22 61
17 26
18 75
19 40
20
21
22
23 30
Algumas informações que se obtém deste ramo e folhas são:
a) Há um destaque para o valor 23,30;

b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40;
c) Um valor mais ou menos típico para este conjunto de dados poderia ser, por exemplo, 10,00;
d) Há uma leve assimetria em direção aos valores grandes.

12
LISTA DE EXERCÍCIOS Nº 1
Utilizando os dados da tabela 1.
1. Classifique as variáveis: Estado civil, Grau de instrução, Nº de filhos, Salário, Idade e Região
de procedência, quanto aos tipos de variáveis.
2. Faça uma tabela de distribuição de frequências e um gráfico de setores para a variável grau de
instrução. Comente os resultados.
3. Faça uma tabela de distribuição de frequências e o histograma para as variáveis salário e

idade (uma tabela e o gráfico para cada variável). Comente os resultados.
4. Repita o exercício 2 para a variável região de procedência, utilizando um outro tipo de

gráfico para representar esta variável.
5. As taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores
municípios do Brasil estão dadas abaixo.
3,67 1,82 3,73 4,10 4,30

1,28 8,14 2,43 4,17 5,36
3,96 6,54 5,84 7,35 3,63
2,93 2,82 8,45 5,28 5,41
7,77 4,65 1,88 2,12 4,26
2,78 5,54 0,90 5,09 4,07
Construa o diagrama de ramo e folhas e comente os resultados.

13
Tabela 1. Informações sobre estado civil, grau de instrução, salário, idade e

procedência de 36 funcionários da Companhia Milsa.
Nº Estado Grau de Nº de Salário Idade Região de
civil instrução filhos (X sal. Min.) anos meses procedência
1 solteiro fundamental --- 4,00 26 03 Interior
2 casado fundamental 1 4,56 32 10 Capital
3 casado fundamental 2 5,25 36 05 Capital
4 solteiro médio --- 5,73 20 10 Outro
5 solteiro fundamental --- 6,26 40 07 Outro
6 casado fundamental 0 6,66 28 00 Interior
7 solteiro fundamental --- 6,86 41 00 Interior
8 solteiro fundamental --- 7,39 43 04 Capital
10 casado médio 1 7,59 34 10 Capital
11 casado médio 2 8,12 33 06 Interior
12 solteiro fundamental --- 8,46 27 11 Capital
14 casado fundamental 3 8,95 44 02 Outro
18 casado fundamental 2 9,80 39 07 Outro
19 solteiro superior --- 10,53 25 08 Interior
20 solteiro médio --- 10,76 37 04 Interior
21 casado médio 1 11,06 30 09 Outro
22 solteiro médio --- 11,59 34 02 Capital
24 casado superior 0 12,79 26 01 Outro
26 casado médio 2 13,60 35 00 Outro
31 solteiro superior --- 16,22 31 05 Outro
33 casado superior 3 17,26 43 07 Capital
34 solteiro superior --- 18,75 33 07 Capital
36 casado superior 3 23,30 42 02 Interior

FONTE: Bussab, W. O.; Morettin, P. A. Estatística básica , 2017.

14
1.8 Medidas de Posição
As principais medidas de posição são chamadas medidas de tendência central, pois,

representam um conjunto de observações pelos seus valores médios, em torno dos quais tendem
a concentrarem-se os dados.
1.8.1 Média aritmética para dados não agrupados
Sejam x1, x2, ... , xn , n valores da variável X. A média aritmética simples de X

representada por x é definida por:
x
i 1
i
x , onde n é o número de elementos do conjunto.
n
Exemplo: Determinar a média aritmética dos valores 3, 7, 8, 10 e 12.
x
i 1
i
3  7  8  10  12 40
x   8.
n 5 5
1.8.2 Média aritmética para dados agrupados
Sejam x1, x2, ... , xn, n valores da variável X e sejam f1, f2, ... , fn as respectivas
frequências. A média aritmética de X é dada por:
n
 xi fi n
x i 1
, onde n   f i .
n i 1
Exemplos:
a) Determinar a média aritmética da seguinte distribuição.
xi 1 2 3 4
fi 1 3 5 1
Um dispositivo prático para esse cálculo é a composição da seguinte tabela.
xi fi xifi
1 1 1
2 3 6
3 5 15
4 1 4
Total 10 26

15
Então,
n
x f i i
26
x i 1
  2,6 .
n 10
b) Determinar a renda média da distribuição.
Renda Familiar Número de

(Salário Mínimo) famílias
2  4 5
4  6 10
6  8 14
8  10 8
10  12 3
Neste caso, as classes são representadas pelos seus pontos médios.
Renda Familiar Número de Ponto médio

(Salário Mínimo) Famílias (fi) xi xifi
2  4 5 3 15
4  6 10 5 50
6  8 14 7 98
8  10 8 9 72
10  12 3 11 33
Total 40 - 268
Então,
n
x f i i
268
x i 1
  6,7.
n 40
Portanto, podemos afirmar que a renda média deste grupo de 40 famílias é de 6,7 salários
mínimos.
1.8.3 Média geral
Sejam x1 , x2 ,, xk , as médias aritméticas de k grupos e n1 , n2 ,, nk , os números de

termos destes grupos, respectivamente. A média aritmética geral formada pelos termos dos k
grupos é dada por:
k
n .x  n .x    nk .xk  n .x i i
xG  1 1 2 2  i 1
.
n1  n2    nk n i
i

16
Exemplo. Sejam os grupos:
1) 4, 5, 6, 7, 8 onde, n1 = 5 e x1  6;
2) 1, 2, 3 onde, n2 = 3 e x2  2;
3) 9, 10,11, 12, 13 onde, n3 = 5 e x3  11;
Então, a média geral destes 3 grupos será:
5  6  3  2  5  11 91
xG    7.
535 13
1.8.4 Mediana
Colocados os valores em ordem crescente, mediana é o elemento que ocupa a posição

central. Indicando a mediana por Md e o número de observações por n, dois casos devem ser
considerados:
n 1
1º) Se n for ímpar, a mediana será o elemento de ordem .
2
2º) Se n for par, a mediana será a média aritmética entre os elementos centrais, de ordem
n n
e 1.
2 2
Exemplos:
1) Calcular a mediana para os valores.
a) 5, 7, 8, 10, 14.
n 1 5 1
n = 5 (ímpar), então, a mediana será o elemento de ordem   3º.
2 2
Logo, Md = 8.
b) 10, 14, 15, 5, 7, 8.
n= 6 (par), então, colocados os valores em ordem, a mediana será a média entre os elementos de
n 6 n
ordem   3º e  1  4º .
2 2 2
Ordenando os valores temos: 5, 7, 8, 10, 14, 15.
Logo,
8  10
Md   9.
2

17
2) Calcular a mediana para as seguintes distribuições.

a)
xi fi Fac
1 1 1
2 3 4
3 5 9  contém o
4 2 11 6º elemento
Total 11 -
n  1 11  1
n = 11, n é ímpar, logo a mediana será o elemento de ordem   6º.
2 2
Através da frequência acumulada (Fac) encontra-se o valor xi correspondente á mediana.
Portanto, Md = 3.
b)
xi fi Fac
82 5 5
85 10 15
87 15 30  21º e 22º
89 8 38
90 4 42
Total 42 -
n 42
n = 42, n é par, logo a mediana será a média entre os elementos de ordem   21º e
2 2
n 87  87
 1  22º , ou seja, Md   87.
2 2
1.8.5 Mediana para dados agrupados em classes
O procedimento usado para o cálculo da mediana para dados agrupados é dado a seguir.
1º passo: calcula-se a ordem n/2;

2º passo: pela frequência acumulada identifica-se a classe que contém a mediana (classe Md);
3º passo: utiliza-se a fórmula:
Md  lmd 
 n
2
  f .h
, onde:
f Md
lmd é o limite inferior da classe Md;

∑ f é a soma das frequências anteriores à classe Md;
fmd é a frequência absoluta da classe Md;
h é a amplitude da classe Md.

18
Exemplo: Determinar a mediana para a variável renda familiar utilizada no item 1.8.2 (b).
Renda Familiar Número de

(Salário Mínimo) Famílias (fi) Fac
2  4 5 5
4  6 10 15
6  8 14 29
8  10 8 37
10  12 3 40
Total 40 -
n 40
1º passo:   20 ;
2 2
2º passo: pela frequência acumulada identifica-se a classe que contém a mediana, ou seja, 6  8
é a classe mediana.
3º passo: aplica-se a fórmula:
Md  lmd 
 n2   f .h  6  20  15  2  6  0,7  6,7 .
f Md 14
1.8.6 Moda
Moda (Mo) é o valor que aparece mais vezes, isto é, o valor ao qual esteja associada à
frequência absoluta mais alta.
Um conjunto pode não apresentar moda, sendo então, denominado conjunto amodal, caso
em que todos os valores da variável ocorrem com a mesma intensidade. Por outro lado, podemos
ter conjuntos plurimodais, quando houver mais de um valor predominante.
Exemplos:
a) 2, 6, 8, 8, 8, 8, 10, 10, 12, 12, 18  Mo = 8.
b) 4, 4, 5, 5, 6, 6  Conjunto amodal.
c) 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6  Mo1 = 2 e Mo2 = 5  Conjunto bimodal.
d) 1, 2, 3, 4, 5  Conjunto amodal.
1.8.7 Moda para dados agrupados em classes
A classe que apresenta maior frequência é denominada classe modal. Pela definição,
podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os
limites da classe modal. Existem diversas fórmulas para o cálculo da moda. Veremos duas delas.

19
1) Moda bruta
Uma idéia aproximada da moda e muito útil em problemas práticos é a moda bruta,
definida como o ponto médio da classe modal.
2) Fórmula de Czuber
Procedimento:
1º) Identifica-se a classe modal.
2º) Aplica-se a fórmula:
d1
Mo  l  h, onde:
d1  d 2
l é o limite inferior da classe modal;

d1 é a diferença entre a frequência da classe modal e a imediatamente anterior;
d2 é a diferença entre a frequência da classe modal e a imediatamente posterior;
h é a amplitude da classe modal.
Exemplo: Determinar a moda para a variável renda familiar utilizada no item 1.8.2 (b).
Classes fi
2  4 5
4  6 10
6  8 14
8  10 8
10  12 3
Total 40
1º) Classe modal: 6  8;
2º) Aplica-se a fórmula:
d1 (14  10)
Mo  l  h  6  2  6,8 .
d1  d 2 (14  10)  (14  8)
Observa-se, então, que para o conjunto de dados utilizado, obteve-se:
Média = 6,7
Mediana = 6,7
Moda = 6,8

20
Relação entre média, mediana e moda.
Em uma distribuição simétrica, observa-se que a média = mediana = moda.
x  Md  Mo
Em uma distribuição assimétrica positiva, observa-se que a média  mediana  moda.
Mo Md x
Em uma distribuição assimétrica negativa, observa-se que a média  mediana  moda.
x Md Mo

21
Utilização das medidas de tendência central
De maneira geral, uma primeira idéia sobre qual delas escolher pode ser dada pelos
seguintes itens:
a) Escolha da média
i) Quando é necessário o tratamento matemático;
ii) Quando os dados têm distribuição aproximadamente simétrica;
iii) Quando for necessário obter posteriormente outros parâmetros que podem depender
da média, como o desvio padrão, a variância, etc.
b) Escolha da mediana
i) Quando há valores discrepantes que podem “distorcer” a média;
ii) Quando desejamos conhecer o ponto central exato da distribuição;
iii) Quando a distribuição dos dados é muito assimétrica.
c) Escolha da moda
i) Quando a medida de interesse é o ponto mais típico ou popular dos dados;
ii) Quando precisamos apenas de uma rápida idéia sobre a tendência central dos dados.
Outras Medidas de Posição
A mediana caracteriza um conjunto de dados devido à sua posição central. Mas ela tem
uma outra característica importante, pois divide o conjunto de dados em dois grupos com o
mesmo número de elementos. Existem outras medidas de posição com esta característica. São os
quartis, os decis, e os percentis que são chamadas de “separatrizes”.
1.8.8 Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
Q1 = 1º quartil, deixa 25% dos elementos abaixo.
Q2 = 2º quartil, coincide com a mediana, deixa 50% dos elementos abaixo.
Q3 = 3º quartil, deixa 75% dos elementos abaixo.
As fórmulas para a determinação dos quartis Q1 e Q3 são semelhantes à usada para o

cálculo da mediana.
Determinação de Q1:
1º Passo: calcula-se n/4;
2º Passo: identifica-se a classe Q1 pela frequência acumulada;
3º Passo: aplica-se a fórmula:
Q1  lQ1 
 n4   f .h . 
f Q1

22
Determinação de Q3:
1º Passo: calcula-se 3n/4;
2º Passo: identifica-se a classe Q3 pela frequência acumulada;
Q3  lQ3 
34n   f .h .
f Q3
Exemplo: Determinar Q1 e Q3 para a variável renda familiar utilizada no item 1.8.2 (b).
Classes (fi) Fac

2  4 5 5
4  6 10 15 (Q1)
6  8 14 29
8  10 8 37 (Q3)
10  12 3 40
Total 40 -
1º Passo: n = 40;
n 40 3n 3(40)
  10 (Q1);   30 (Q3);
4 4 4 4
2º Passo: pela frequência acumulada identifica-se a classe Q1 e a classe Q3.
3º Passo: aplicam-se as fórmulas:
Q1  lQ1 
n4   f .h  4  10  5.2  5 e
f Q1 10
Q3  lQ3 
34n   f .h  8  30  29.2  8,25 .
f Q3 8
Então, 25% dos elementos estão abaixo de Q1 = 5, ou seja, 25% das famílias ganham
menos que 5 salários mínimos e 75% dos elementos estão abaixo de Q3 = 8,25, ou seja 75% das
famílias ganham menos que 8,25 salários mínimos.
Obs: 50% dos elementos estão abaixo de Q2 = Md = 6,7, ou seja, 50% das famílias ganham
menos que 6,7 salários mínimos.

23
1.8.9 Decis
Os decis são valores que dividem um conjunto de dados em 10 partes iguais. O cálculo é
dado por:
in
1º Passo: calcula-se , onde i = 1, 2, 3, 4, 5, 6, 7, 8 e 9;
10
2º Passo: identifica-se a classe Di pela frequência acumulada;
Di  lDi 
10in   f .h .
f Di
1.8.10 Percentis
São medidas que dividem um conjunto de dados em 100 partes iguais. O cálculo é dado
por:
in
1º Passo: calcula-se , onde i = 1, 2, 3, ... , 98, 99;
100
2º Passo: identifica-se a classe Pi pela frequência acumulada;
Pi  lPi 
100in   f .h .
f Pi
Exemplo: Determinar o decil 1 (D1) e o percentil 90 (P90) para a variável renda familiar
utilizada no item 1.8.2 (b).
Classes fi Fac
2  4 5 5 (D1)
4  6 10 15
6  8 14 29
8  10 8 37 ( P90)
10  12 3 40
Total 40 -
1º Passo: n = 40;
in 1(40) in 90(40)
  4 (D1);   36 (P90);
10 10 100 100
2º Passo: pela frequência acumulada identifica-se a classe D1 e a P90; 

24
3º Passo: aplicam-se as fórmulas:
D1  lD1 
10in   f .h  2  4  0.2  3,6 e
f D1 5
P90  lP90 
100in   f .h  8  36  29.2  9,75 .
f p90 8
Então, 10% dos elementos estão abaixo de D1 = 3,6, ou seja, 10% das famílias ganham
menos que 3,6 salários mínimos e 90% das famílias ganham menos que 9,75 salários mínimos.
1.9 Medidas de Dispersão
A informação fornecida pelas medidas de posição necessita, em geral, ser complementada

pelas medidas de dispersão. Estas indicam o grau de variação existente no conjunto de dados. A
dispersão (variação) dos dados pode ser verificada através das seguintes medidas de dispersão:
amplitude total, variância, desvio padrão e coeficiente de variação.
1.9.1 Amplitude total
É a diferença entre o maior e o menor valor observado: R = xmáx. – xmín..
A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da

série. Por este motivo, não é muito utilizada como medida de dispersão. Ela é apenas uma
indicação aproximada da dispersão ou variabilidade.
1.9.2 Variância
A variância pode ser definida como a soma dos quadrados dos desvios dividida pelo
número de elementos da amostra menos 1 (n – 1). Este valor é chamado de graus de liberdade.
É obtida pela fórmula:
1 n
s2    x i  x 2 .
n  1 i 1
Desenvolvendo algebricamente a fórmula da variância, obtém-se:
1   x  2

 x i 
i 
s 
2 2
.
n 1 i n 

Exemplo: Obtenha a variância para os dados: 3, 7, 8, 10, 12.
A média, já obtida anteriormente, é x = 8.

25
A variância é dada por:
1   xi 2   1 366  (40) 2   1 (46)  11,5 .

s2  
 i x 2
   
n 1 i n  4 5  4
1.9.3 Variância para dados agrupados
O cálculo da variância para dados agrupados é dado por
1   x f  2

 x i f i 
i i
s 
2 2
.
n 1  i n 

Obs. s2 indica a variância amostral. Se os dados são provenientes de uma população, usa-
se  2 para indicar a variância e no lugar de n – 1 usa-se N (tamanho da população).
1.9.4 Desvio Padrão

O desvio padrão é definido como a raiz quadrada positiva da variância s  s 2 .
A variância e o desvio padrão mostram a dispersão dos dados em relação a média, ou
seja, a distância média de cada valor em relação a média. O desvio padrão trabalha com a
mesma unidade da variável, sendo de maior interesse que a variância nas aplicações práticas.
Exemplo. Determinar a variância e o desvio padrão para a variável renda familiar utilizada no
item 1.8.2 (b).
Classes fi
2  4 5
4  6 10
6  8 14
8  10 8
10  12 3
Utilizando-se de uma tabela auxiliar, para os cálculos, obtém-se:
Classes fi xi xi f i xi2 f i
2  4 5 3 15 45
4  6 10 5 50 250
6  8 14 7 98 686
8  10 8 9 72 648
10  12 3 11 33 363
Total 40 - 268 1992
268
A média, já obtida anteriormente, é dada por x   6,7 .
40

26
A variância,
1   xi fi 2   1 1992  2682   1 196,4  5,04 .

s2   i i 
2
x f   
n 1 i n  40  1  40  39
Consequentemente, o desvio padrão é dado por
s  s 2  5,04  2,24 .
Portanto, podemos afirmar que a renda média deste grupo de 40 famílias é de 6,7 salários
mínimos, com uma variação de 2,24 salários mínimos, medidas pelo desvio padrão.
1.9.5 Coeficiente de Variação
O coeficiente de variação é definido como o quociente entre o desvio padrão e a média

aritmética. É freqüentemente expresso em porcentagem pela fórmula
s
CV   100 para dados referentes a uma amostra ou
x

CV   100 para dados referentes a uma população.
x
Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu valor médio.
Assim, uma pequena dispersão absoluta pode ser, na verdade, considerável quando comparada
com a ordem de grandeza dos valores da variável e vice-versa.
Exemplo: Considere amostras de dois grupos, referentes a idades de pessoas. Obtenha o

coeficiente de variação.
Grupo A: 1, 3 e 5;
Grupo B: 53, 55 e 57.
Para o grupo A, tem-se que: x = 3 anos; s2 = 4  s = 2 anos;
s 2
CV  (100)  (100)  66,67 % .
x 3
Para o grupo B, tem-se que: x = 55 anos; s2 = 4  s = 2 anos;
s 2
CV  (100)  (100)  3,64 % .
x 55
Um CV = 66,67 % indica uma dispersão dos dados em relação à média muito grande, ou
seja, a dispersão relativa é alta. Já um CV = 3,64 % indica que a dispersão dos dados em relação
à média é pequena.

27
1.10 Medidas de assimetria e curtose
As medidas de assimetria caracterizam como e quanto à distribuição de frequências se

afasta da condição de simetria.
Dentre os vários estimadores da assimetria, tem-se o coeficiente de assimetria de Pearson,
dado por:
x  Mo
As ( P )  , onde se As(P) = 0, a distribuição é simétrica;
s
se As(P) > 0, a distribuição é assimétrica positiva;
se As(P) < 0, a distribuição é assimétrica negativa.
Para a variável renda familiar utilizada no item 1.8.2 (b), o coeficiente de assimetria é dado por:
x  Mo 6,7  6,8
As ( P)    0,045 , portanto, a distribuição tem uma leve assimetria
s 2,24
negativa.
Quando |As(P)| < 0,15, podemos considerar a distribuição como praticamente simétrica.
Por outro lado, costuma-se considerar a assimetria como moderada se 0,15 < |As(P)| < 1, e forte
se |As(P)| > 1.
Outros coeficientes de assimetria estão disponíveis na literatura. Dentre eles o coeficiente

de assimetria de Yule, definido em função das separatrizes:
Q1  Q3  2Q2
A(Y )  .
Q3  Q1
O coeficiente de curtose de uma distribuição fornece uma medida do achatamento da

curva que a descreve.

28
Uma distribuição cuja curva tem a forma da curva 1, tem seu coeficiente de curtose
C = 0,263 e é dita mesocúrtica. Se ela tem uma curva mais afilada, como a curva 2, ela é dita
leptocúrtica e tem C < 0,263. Se a curva é mais achatada, como a curva 3, ela é dita platicúrtica e
tem coeficiente de curtose C > 0,263.
Dentre os vários coeficientes de curtose disponíveis, tem-se o coeficiente de Keley,
definido com base nas separatrizes.
Q3  Q1 dQ
C(K )   onde,
2D9  D1  D9  D1
Q3  Q1
dQ  é o desvio semi-quartil, uma medida de dispersão que, em geral, é pouco afetada
2
por valores extremos.
Para a variável renda familiar utilizada no item 1.8.2 (b) o coeficiente de curtose é dado por:
Q3  Q1 8,25  5
C(K )    0,264 .
2D9  D1  29,75  3,6
Portanto, a curva que descreve os dados tem uma tendência para a forma platicúrtica (C > 0,263).
Lembrando que esta distribuição é praticamente simétrica.
1.11 Desenho Esquemático
Resumo de cinco números
Vários são os procedimentos que adotam as separatrizes para descrever os dados. Dentre
eles, o resumo de cinco números que associa os limites inferior e superior do rol aos quartis,
fornecendo uma idéia bastante razoável da dispersão, da tendência central e da forma da
distribuição. O resumo de cinco números tem a seguinte forma:
Título
Md
Q1 Q3
l L
Gráfico de caixa (box plot)
Um dispositivo gráfico para o resumo de cinco números é o gráfico de caixa, que é

construído de acordo com o seguinte esquema.

29
Pontos discrepantes
Q3 + 3dQ
Região de Alerta
Q3 + 2dQ
Q3
Md
Q1
Q1 - 2dQ
Região de Alerta
Q1 - 3dQ
Pontos discrepantes
Obs. As linhas tracejadas seguem, abaixo e acima da caixa, até encontrar l ou L, tendo como
limites Q1 - 2dQ e Q3 + 2dQ, respectivamente.
O gráfico “box plot” mostra, a posição, a dispersão, a (as)simetria, o comprimento das

caudas (distribuição) e outliers (pontos discrepantes). A posição é resumida pela mediana, a faixa
no interior da caixa. O comprimento da caixa mostra a dQ (desvio semi-quartil). Das posições da
mediana e dos quartis vemos a (as) simetria.
O “box plot” é especialmente útil para comparação de vários grupos de dados.

30
Exemplo: Construir o resumo de cinco números e o gráfico de caixa, considerando as seguintes

observações:
6,0 2,3 4,3 8,5 3,9 5,3 6,0 4,1 11,3 3,8
4,1 2,2 4,2 4,6 7,7 5,0 6,9 3,0 6,5 4,9
4,1 4,1 6,0 2,5 13,8 7,2 6,0 7,1 5,0 8,3
2,6 3,5 6,0 5,8 4,4 4,4 3,5 4,3 3,8 4,1
Como vamos utilizar as separatrizes, é de grande auxílio, a ordenação dos dados. Então,
fazendo o rol temos:
2,2 2,3 2,5 2,6 3,0 3,5 3,5 3,8 3,8 3,9
4,1 4,1 4,1 4,1 4,1 4,2 4,3 4,3 4,4 4,4
4,6 4,9 5,0 5,0 5,3 5,8 6,0 6,0 6,0 6,0
6,0 6,5 6,9 7,1 7,2 7,7 8,3 8,5 11,3 13,8
n 40 n
Cálculo da mediana: n é par, logo   20 e  1  20  1  21 .
2 2 2
Portanto,
4,4  4,6
Md   4,5.
2
Cálculo do Q1: o 1º quartil (dados não agrupados) é a média aritmética dos elementos de ordem
n 40 n
  10 e  1  10  1  11 .
4 4 4
Portanto,
3,9  4,1
Q1   4,0 .
2
De modo análogo, Q3 é a média dos elementos de ordem: 
3n 3(40) 3n
  30 e  1  30  1  31 .
4 4 4
Portanto,
6,0  6,0
Q3   6,0 .
2

31
Logo, o resumo de cinco números fica
Resumo de Cinco Números

4,5
4,0 6,0
2,2 13,8
e o desvio semi-quartil (dQ)
Q3  Q1 6,0  4,0
dQ    1,0 .
2 2
Assim, o limite superior do rol, L = 13,8 parece ser um valor discrepante dos demais.
Os valores 8,3 e 8,5 estão na região de alerta, pois,
Q1 – 2dQ = 4 – 2(1) = 2
Q1 – 3dQ = 4 – 3(1) = 1 e
Q3 + 2dQ = 6 + 2(1) = 8
Q3 + 3dQ = 6 + 3(1) = 9
e devem ser vistos com cautela. Já os valores 11,3 e 13,8 que estão além do ponto crítico
Q3+3dQ são candidatos a valores discrepantes e devem ser estudados. Detalhes sobre o assunto
podem obtidos em Tukey (1977), entre outros.


Anal Exp Dados

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Anal Exp Dados

Enviado por

Direitos autorais:

Formatos disponíveis

UNIOESTE - Universidade Estadual do Oeste do Paraná

CURSO: C. Computação - 1ºAno

1 ANÁLISE EXPLORATÓRIA DE DADOS

1.1 Estatística descritiva e inferencial

1.2 Etapas de uma pesquisa

1.3 Terminologia estatística

Amostra: é um subconjunto da população.

Parâmetro: é uma característica descritiva dos elementos da população, como por

1.4 Tipos de Variáveis

A estatística trabalha com informações referentes a conjunto de dados observados. Estes

As variáveis são classificadas em dois grupos: variáveis quantitativas e variáveis

Exemplos: a) Número de filhos em casais residentes em uma determinada cidade.

Variáveis quantitativas contínuas: podem teoricamente assumir qualquer valor de um

Exemplos: a) Idade de pessoas residentes em uma determinada cidade.

Variáveis qualitativas: são usadas para descrever qualidades, categorias, etc.

Estatística – Prof. Wilson Alves de Oliveira

Obs. As variáveis qualitativas são classificadas em ordinais e nominais.

Variáveis Bidimensionais ou multidimensionais

Podem ocorrer, em problemas práticos, que tenhamos interesse em estudar,

(X, Y) = {(65, 175), (82, 181), ... , (70, 172)}.

1.5 Representações estatísticas

Conceitos dos elementos de uma tabela estatística.

A tabela estatística é composta de elementos essenciais e complementares. Os elementos

Os elementos complementares são: Fonte, Chamada e Nota.

Fonte é a indicação da entidade responsável pelo fornecimento ou elaboração das

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017

O gráfico é uma forma de apresentação dos dados, cujo objetivo é o de produzir, no

a) Simplicidade: o gráfico deve ser destituído de detalhes de importância secundária.

Principais tipos de gráficos

1 Gráficos em colunas ou em barras

É a representação de uma tabela por meio de retângulos dispostos verticalmente (em

Estatística – Prof. Wilson Alves de Oliveira

2 Gráficos em colunas múltiplas

Este gráfico é geralmente empregado quando queremos representar, simultaneamente,

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017

Estatística – Prof. Wilson Alves de Oliveira

BALANÇA COMERCIAL - BRASIL – JANEIRO A JUNHO DE 2017

Estatística – Prof. Wilson Alves de Oliveira

Exemplo: Dada a tabela:

LICENCIAMENTO TOTAL DE AUTOMÓVEIS

1.6 Distribuição de Frequências

Alguns conceitos fundamentais

População é um conjunto de indivíduos ou objetos que apresentam pelo menos uma

Amostra – Considerando-se a impossibilidade, na maioria das vezes, do tratamento de

Os procedimentos para a representação das distribuições de frequências são dados a

13. Histograma. É a representação gráfica de uma distribuição de frequências por meios de

Exemplo: Dado o rol de 50 notas, formar uma distribuição de frequências e construir o

Número de classes (K): K  1  3,22 log 50  1  3,22(1,7)  7 ;

Logo, a distribuição de frequências será:

Estatística – Prof. Wilson Alves de Oliveira

1.7 Ramos e folhas

Exemplo: Considere os dados referentes aos salários de 36 empregados de certa companhia.

4,00 8,74 13,23

Algumas informações que se obtém deste ramo e folhas são:

a) Há um destaque para o valor 23,30;

Utilizando os dados da tabela 1.

3. Faça uma tabela de distribuição de frequências e o histograma para as variáveis salário e

4. Repita o exercício 2 para a variável região de procedência, utilizando um outro tipo de

3,67 1,82 3,73 4,10 4,30

Construa o diagrama de ramo e folhas e comente os resultados.

Tabela 1. Informações sobre estado civil, grau de instrução, salário, idade e

Estatística – Prof. Wilson Alves de Oliveira

1.8 Medidas de Posição