Escolar Documentos
Profissional Documentos
Cultura Documentos
NOTAS DE AULA
Uma introdução à análise exploratória de dados e métodos estatísticos
Programa resumido
1. Estatísticas descritivas;
2. Métodos gráficos;
3. Tipos de variáveis e medidas de associação.
1. Cálculo de probabilidades;
2. Variáveis aleatórias (discretas e contínuas) e as distribuições binomial e normal;
Referência principal: BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva,
2004. 526 p.
1
O que é Estatística?
2
Como isso funciona?
Técnicas
de
Amostragem
/
Amostra
População
O
Características
Análise
descritiva
Conclusões
sobre as o Informações
características contidas
Inferência nos dados
da população estatística
3
AMOSTRAGEM
Exemplos:
- Pesquisas de mercado;
- Ensaios clínicos.
4
ESTATÍSTICA DESCRITIVA
♦ O que é um modelo?
5
Figura 1: Relação entre consumo e rendimento.
ou, ainda,
D = M + R. (1)
Note que a parte R é aleatória e é tão importante quanto a parte
M. A análise dos resíduos constitui uma parte fundamental de todo
trabalho estatístico. Basicamente, são os resíduos que nos dizem se o
modelo é adequado ou não para representar os dados.
6
PROBABILIDADE
7
INFERÊNCIA ESTATÍSTICA
8
1 Análise Exploratória de Dados
1. Medidas-resumo;
2. Técnicas gráficas.
9
1.1 Tipos de variáveis
10
Tabela 1: Informações sobre 36 empregados da seção de orçamentos da Companhia MB.
N estado_civil grau_instrucao n_filhos salario idade_anos idade_meses reg_procedencia
1 solteiro ensino fundamental 4.00 26 3 interior
2 casado ensino fundamental 1 4.56 32 10 capital
3 casado ensino fundamental 2 5.25 36 5 capital
4 solteiro ensino médio 5.73 20 10 outra
5 solteiro ensino fundamental 6.26 40 7 outra
6 casado ensino fundamental 0 6.66 28 0 interior
7 solteiro ensino fundamental 6.86 41 0 interior
8 solteiro ensino fundamental 7.39 43 4 capital
9 casado ensino médio 1 7.59 34 10 capital
10 solteiro ensino médio 7.44 23 6 outra
11 casado ensino médio 2 8.12 33 6 interior
12 solteiro ensino fundamental 8.46 27 11 capital
13 solteiro ensino médio 8.74 37 5 outra
14 casado ensino fundamental 3 8.95 44 2 outra
15 casado ensino médio 0 9.13 30 5 interior
16 solteiro ensino médio 9.35 38 8 outra
17 casado ensino médio 1 9.77 31 7 capital
18 casado ensino fundamental 2 9.80 39 7 outra
19 solteiro superior 10.53 25 8 interior
20 solteiro ensino médio 10.76 37 4 interior
21 casado ensino médio 1 11.06 30 9 outra
22 solteiro ensino médio 11.59 34 2 capital
23 solteiro ensino fundamental 12.00 41 0 outra
24 casado superior 0 12.79 26 1 outra
25 casado ensino médio 2 13.23 32 5 interior
26 casado ensino médio 2 13.60 35 0 outra
27 solteiro ensino fundamental 13.85 46 7 outra
28 casado ensino médio 0 14.69 29 8 interior
29 casado ensino médio 5 14.71 40 6 interior
30 casado ensino médio 2 15.99 35 10 capital
31 solteiro superior 16.22 31 5 outra
32 casado ensino médio 1 16.61 36 4 interior
33 casado superior 3 17.26 43 7 capital
34 solteiro superior 18.75 33 7 capital
35 casado ensino médio 2 19.40 48 11 capital
36 casado superior 3 23.30 42 2 interior
11
Algumas variáveis do banco de dados apresentam como possíveis
realizações uma qualidade (ou atributo) do indivíduo pesquisado.
12
As variáveis qualitativas podem ser
13
1.2 Medidas-Resumo: Variáveis quantitativas
14
1.2.1 Medidas de posição
md(X ) = x( n+1 ).
2
16
Exercício 1. Considere os dados da Companhia MB. Obtenha as medidas
resumo de posição (média, moda, mediana, máximo e mínimo) para a
variável salário (X ) e número de filhos (Y ). Note que alguns indivíduos
não apresentam resposta para a variável X . Considere como 0 o valor da
variável para estes indivíduos. Se necessário, considere as informações
36
X 36
X
xi = 33 e yi = 400.4.
i=1 i=1
17
Nota: Em alguns casos, a média, como medida de posição, não
é adequada. Você consegue exemplificar uma situação em que isso
aconteça?
18
1.2.2 Medidas de dispersão
xi − x, i = 1, . . . , 5.
19
Algumas medidas de dispersão são apresentas a seguir.
dq = q3 − q1 .
20
Exercício 3. Calcule a variância s2 e o desvio padrão s para as obser-
vações do grupo A, C e D. O que você pode observar?
21
1.3 Distribuições de Frequências
22
1.3.1 Tabela de frequências para variáveis qualitativas
23
Nota: Usaremos a seguinte notação:
24
1.3.2 Tabela de frequências para variáveis quantitativas
25
1.4 Análise Gráfica
26
1.4.1 Gráficos para variáveis qualitativas
♦ Gráfico em barras
ensino médio
Frequência
10
ensino fundamental
5
0
Frequência
0.20
0.15
Frequência
0.10
0.05
0.00
28
♦ Gráfico de composição em setores (“pizza”)
ensino fundamental
29
1.4.2 Gráficos para variáveis quantitativas
♦ Dot plot
0 1 2 3 4 5
Número de filhos
30
2. Qual a moda da variável número de filhos?
31
♦ Histograma
• Classes iguais
2. Construir um retângulo para cada classe, com base igual
ao tamanho da classe e altura proporcional à frequência da
classe (ni).
• Classes desiguais
2. A base (∆i) do retângulo é igual ao tamanho da classe;
3. Área do retângulo igual a frequência relativa da classe (fi);
4. A altura será dada por: h = fi/∆i (h é a densidade de
frequência).
32
A Figura 5 apresenta o histograma para a variável salário.
0.10
0.08
Densidade de frequência (h)
0.06
0.04
0.02
0.00
0 5 10 15 20 25
Salário
33
♦ Box plot
_ LS
3
dq
2
_ q3
dq _ q2 = mediana
_ q1
3
dq
2
_ LI
2. A partir do retângulo, para cima, segue uma linha até o ponto mais
remoto que não exceda LS = q3 +(1, 5)dq, chamado limite superior;
35
Algumas observações:
36
Resumo
Medidas de
posição e
<
de dispersão
5
Dotplot
Variáveis / / Box plot
quantitativas Gráficos
)
Histograma
#
Distribuição de
:
frequências
de5 setores
Variáveis /
qualitativas Gráficos
)
em barras
37
Exercício 6. Considere o estudo das notas de 100 alunos de uma de-
terminada turma. A Figura 8 aprensenta o histograma e o box plot das
notas desses alunos e a Tabela 4 apresenta algumas medidas resumo
para essa variável..
Tabela 4: Medidas resumo para a nota dos alunos.
x(1) q1 q2 x q3 x(n)
0.30 1.80 2.52 2.94 3.75 8.61
30
8
25
6
20
Frequência
15
4
10
2
5
0
0 2 4 6 8 10
Responda:
1. Qual a variável de interesse (resposta)?
39