Você está na página 1de 26

Universidade de São Paulo - USP

Instituto de Matemática e Estatística - IME


Curso de Verão 2020

NOTAS DE AULA
Uma introdução à análise exploratória de dados e métodos estatísticos

Descrição: A análise exploratória de dados. O cálculo de probabilidades e as distribuições binomial e


normal. Estimando médias e proporções.
Carga horária: 40h

Programa resumido

• A análise exploratória de dados

1. Estatísticas descritivas;
2. Métodos gráficos;
3. Tipos de variáveis e medidas de associação.

• O cálculo de probabilidades e as distribuições binomial e normal

1. Cálculo de probabilidades;
2. Variáveis aleatórias (discretas e contínuas) e as distribuições binomial e normal;

• Estimando médias e proporções

1. Conceitos básicos de inferência estatística;


2. Estimação pontual e intervalos de confiança para a média;
3. Estimação pontual e intervalos de confiança para a proporção.

Referência principal: BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva,
2004. 526 p.

1
O que é Estatística?

• Origem relacionada com a coleta e construção de tabelas de dados


para o governo.

• A situação evoluiu: a coleta de dados representa somente um dos


aspectos da Estatística.

• No século XIX, o desenvolvimento do cálculo de probabilidade e


outras metodologias matemáticas, tais como a técnica de Mínimos
Quadrados, foram fundamentais para o desenvolvimento da Esta-
tística.

• No século XX a Estatística desenvolve-se como uma área espe-


cífica do conhecimento a partir do desenvolvimento da Inferência
Estatística, metodologia que faz uso da Teoria das Probabilidades
e com ampla aplicação em ciências experimentais.

• A Estatística hoje consiste em uma metodologia científica para ob-


tenção, organização e análise de dados oriundos das mais variadas
áreas das ciências experimentais, cujo objetivo principal é auxiliar
a tomada de decisões em situações de incerteza.

2
Como isso funciona?

Técnicas
de
Amostragem
/
Amostra
População
O
Características

Análise
descritiva

Conclusões
sobre as o Informações
características contidas
Inferência nos dados
da população estatística

3
AMOSTRAGEM

Associada à coleta de dados, a tecnologia da amostragem desen-


volveu um conjunto de técnicas para obtenção de um subconjunto de
indivíduos (amostra) de uma população de interesse.
Esse conjunto de técnicas está associado, basicamente, a

1. quantidade de indivíduos necessários para o estudo (tamanho da


amostra);

2. como obter esses indivíduos (método de amostragem);

3. como obter as respostas para o meu estudo (elaboração de ques-


tionário).

Exemplos:

- Pesquisas de mercado;

- Pesquisas de opinião pública;

- Ensaios clínicos.

4
ESTATÍSTICA DESCRITIVA

Essa é a parte da Estatística que esta interessada na redução, análise


e interpretação dos dados sob consideração. Nessa abordagem tenta-
remos obter dos dados a maior quantidade possível de informação, que
indique modelos plausíveis a serem utilizados numa fase posterior, a
análise confirmatória de dados (ou inferência estatística).

♦ O que é um modelo?

Definimos modelo como uma aproximação da realidade. Esse modelo


pode ser matemático ou não.

Exemplo 1. Imagine que estejamos estudando a relação entre rendi-


mentos e gastos de consumo de um conjunto de indivíduos. Podemos
obter um gráfico como o da Figura 1. O que se espera, intuitivamente,
é que os gastos de um indivíduo estejam diretamente relacionados com
os seus rendimentos, de modo que é razoável supor uma “relação linear”
entre essas duas quantidades. Os pontos da Figura 1 não estão todos,
evidentemente, sobre uma reta; essa seria o nosso padrão ou modelo.
A diferença entre os dados e o modelo constitui os resíduos.

5
Figura 1: Relação entre consumo e rendimento.

Podemos escrever, então,

Dados = Modelo + Resíduo

ou, ainda,
D = M + R. (1)
Note que a parte R é aleatória e é tão importante quanto a parte
M. A análise dos resíduos constitui uma parte fundamental de todo
trabalho estatístico. Basicamente, são os resíduos que nos dizem se o
modelo é adequado ou não para representar os dados.

Uma análise exploratória de dados busca, essencialmente, fornecer


informações para estabelecer (1).

6
PROBABILIDADE

A teoria das probabilidades auxilia na modelagem de fenômenos ale-


atórios, ou seja, aqueles em que está presente a incerteza.

É uma ferramenta fundamental para a inferência estatística.

7
INFERÊNCIA ESTATÍSTICA

Conjunto de técnicas que permite, a partir de dados amostrais, tirar


conclusões sobre a populaçãode interesse, controlando erros.

8
1 Análise Exploratória de Dados

A análise exploratória de dados pode ser feita através de duas formas:

1. Medidas-resumo;

2. Técnicas gráficas.

Os métodos gráficos têm encontrado um uso cada vez maior devido ao


seu forte apelo visual. Os gráficos são utilizados para diversos fins:

∗ buscar padrões e relações;

∗ confirmar (ou não) certas expectativas que se tinha sobre os dados;

∗ descobrir novos fenômenos;

∗ confirmar (ou não) suposições feitas sobre os procedimentos esta-


tísticos usados; e

∗ apresentar resultados de modo mais rápido e fácil.

9
1.1 Tipos de variáveis

Exemplo 2. Um pesquisador está interessado em fazer um levantamento


sobre alguns aspectos socioeconômicos dos empregados da seção de
orçamentos da Companhia MB. Usando informações obtidas do depar-
tamento pessoal, ele elaborou a Tabela 1.

Para cada elemento investigado numa pesquisa, tem-se associado um


(ou mais de um) resultado correspondendo à realização de uma carac-
terística (ou características). No exemplo em questão, considerando-se
a característica (variável) estado civil, para cada empregado pode-se
associar uma das realizações, solteiro ou casado (note que poderia ha-
ver outras possibilidades, como separado, divorciado, mas somente as
duas mencionadas foram consideradas no estudo).
Podemos atribuir uma letra, digamos X, para representar tal variável.

Observando os dados da amostra, responda os itens que seguem.

1. Qual o tamanho da amostra?

2. Sugira uma forma para a realização da amostragem, considerando


esse contexto.

3. Discuta a obtenção da resposta para a variável salário (que é dada


em número de salários minímos).

10
Tabela 1: Informações sobre 36 empregados da seção de orçamentos da Companhia MB.
N estado_civil grau_instrucao n_filhos salario idade_anos idade_meses reg_procedencia
1 solteiro ensino fundamental 4.00 26 3 interior
2 casado ensino fundamental 1 4.56 32 10 capital
3 casado ensino fundamental 2 5.25 36 5 capital
4 solteiro ensino médio 5.73 20 10 outra
5 solteiro ensino fundamental 6.26 40 7 outra
6 casado ensino fundamental 0 6.66 28 0 interior
7 solteiro ensino fundamental 6.86 41 0 interior
8 solteiro ensino fundamental 7.39 43 4 capital
9 casado ensino médio 1 7.59 34 10 capital
10 solteiro ensino médio 7.44 23 6 outra
11 casado ensino médio 2 8.12 33 6 interior
12 solteiro ensino fundamental 8.46 27 11 capital
13 solteiro ensino médio 8.74 37 5 outra
14 casado ensino fundamental 3 8.95 44 2 outra
15 casado ensino médio 0 9.13 30 5 interior
16 solteiro ensino médio 9.35 38 8 outra
17 casado ensino médio 1 9.77 31 7 capital
18 casado ensino fundamental 2 9.80 39 7 outra
19 solteiro superior 10.53 25 8 interior
20 solteiro ensino médio 10.76 37 4 interior
21 casado ensino médio 1 11.06 30 9 outra
22 solteiro ensino médio 11.59 34 2 capital
23 solteiro ensino fundamental 12.00 41 0 outra
24 casado superior 0 12.79 26 1 outra
25 casado ensino médio 2 13.23 32 5 interior
26 casado ensino médio 2 13.60 35 0 outra
27 solteiro ensino fundamental 13.85 46 7 outra
28 casado ensino médio 0 14.69 29 8 interior
29 casado ensino médio 5 14.71 40 6 interior
30 casado ensino médio 2 15.99 35 10 capital
31 solteiro superior 16.22 31 5 outra
32 casado ensino médio 1 16.61 36 4 interior
33 casado superior 3 17.26 43 7 capital
34 solteiro superior 18.75 33 7 capital
35 casado ensino médio 2 19.40 48 11 capital
36 casado superior 3 23.30 42 2 interior

11
Algumas variáveis do banco de dados apresentam como possíveis
realizações uma qualidade (ou atributo) do indivíduo pesquisado.

sexo, educação, estado civil

Enquanto outras apresentam como possíveis realizações números re-


sultantes de uma contagem ou mensuração.

número de filhos, salário, idade

As variáveis do primeiro tipo são chamadas de qualitativas, e as do


segundo tipo, quantitativas.

12
As variáveis qualitativas podem ser

1. nominal: para a qual não existe nenhuma ordenação nas possíveis


realizações.

2. ordinal: para a qual existe uma ordem nos seus resultados.

As variáveis quantitativas pode ser

1. discreta: cujos possíveis valores formam um conjunto finito ou enu-


merável de números, e que resultam, freqüentemente, de uma con-
tagem, como por exemplo número de filhos.

2. contínua: cujos possíveis valores pertencem a um intervalo de nú-


meros reais e que resultam de uma mensuração, como por exemplo
estatura e peso de um indivíduo.

Cite exemplos de outras variáveis e classifique-as.

13
1.2 Medidas-Resumo: Variáveis quantitativas

O objetivo é utilizar um ou mais valores para resumir informações de


um conjunto de dados.

♦ Medidas de posição: São medidas associadas a localização (ou


posição) dos valores observados da variável. Algumas medidas de
posição são: mínimo, máximo, média, moda, mediana, Quantil de
ordem p.

♦ Medidas de dispersão: São medidas que sumarizam a variabili-


dade de um conjunto de observações e que nos permite, por exem-
plo, comparar conjuntos diferentes de valores segundo algum cri-
tério estabelecido. Algumas medidas de dispersão são: amplitude,
intervalo-interquartil, variância, desvio padrão.

14
1.2.1 Medidas de posição

1. Mínimo: menor valor do conjunto de valores, denotado por x(1).

2. Máximo: maior valor do conjunto de valores, denotado por x(n).

3. Média (aritmética): soma das observações dividida pelo número


delas. Considere um conjunto de dados denotado por x1, . . . , xn,
então a média, que denotaremos por x, é dada por
n
1X
x= xi .
n
i=1

4. Moda: valor mais frequente do conjunto de valores.

5. Mediana: é a realização que ocupa a posição central da série


de observações, quando estão ordenadas em ordem crescente. Se
temos o conjunto de dados de uma variável X que estão ordenados
da forma x(1), . . . , x(n), então

• Se n é ímpar, a mediana, denotada aqui por md(X ), é

md(X ) = x( n+1 ).
2

• Se n é par, a mediana é dada por


x( n ) + x( n +1)
md(X ) = 2 2
.
2
6. Quantil de ordem p: será indicado aqui por q(p), em que p é uma
proporção qualquer, 0 < p < 1, e é tal que 100p% das observações
são menores do que q(p). Indicamos abaixo alguns quantis e seus
nomes particulares:
15
• q(0, 25) = q1 : 1o Quartil = 25o Percentil;
• q(0, 50) = q2 : Mediana = 2o Quartil = 50o Percentil;
• q(0, 75) = q3 : 3o Quartil = 75o Percentil;
• q(0, 40) : 4o Decil;
• q(0, 95) : 95o Percentil.

16
Exercício 1. Considere os dados da Companhia MB. Obtenha as medidas
resumo de posição (média, moda, mediana, máximo e mínimo) para a
variável salário (X ) e número de filhos (Y ). Note que alguns indivíduos
não apresentam resposta para a variável X . Considere como 0 o valor da
variável para estes indivíduos. Se necessário, considere as informações
36
X 36
X
xi = 33 e yi = 400.4.
i=1 i=1

A média, moda e mediana são próximas?

17
Nota: Em alguns casos, a média, como medida de posição, não
é adequada. Você consegue exemplificar uma situação em que isso
aconteça?

Exercício 2 (Para casa). Considere os dados da Companhia MB e ob-


tenha os quantis q(0, 25), q(0, 50) e q(0, 75) para a variável número de
filhos. Em caso de dúvida, consulte Bussab & Morettin (2010, p. 42).

18
1.2.2 Medidas de dispersão

Embora as medidas de posição apresentem grande utilidade, elas es-


condem toda a informação sobre a variabilidade do conjunto de observa-
ções. Suponha as seguintes observações de 5 variáveis que representam
as notas de alunos por grupo.

grupo A (variável X): 3, 4, 5, 6, 7

grupo B (variável Y): 1, 3, 5, 7, 9

grupo C (variável Z): 5, 5, 5, 5, 5

grupo D (variável W): 3, 5, 5, 7

grupo E (variável V): 3, 5, 5, 6, 6

Observe que x = y = z = w = v = 5. A identificação de cada uma


destas séries por sua média (5, em todos os casos) nada informa sobre
suas diferentes variabilidades.
As principais medidas de dispersão buscam estudar o quanto as
observações variam com relação a média. Intuitivamente, estamos inte-
ressados em avaliar as quantidades (por exemplo, para o grupo A)

xi − x, i = 1, . . . , 5.

Neste caso, esses desvios são: –2, –1, 0, 1, 2. Poderíamos pensar em


P
estudar a soma dos desvios, isto é, 5i=1(xi − x), mas essa soma sempre
será zero (independente dos dados em análise).

19
Algumas medidas de dispersão são apresentas a seguir.

1. Amplitude: amplitude do conjunto de observações, denotada aqui


por A e definida por
A = x(n) − x(1).

2. Intervalo-interquartil: denotado por dq e definido como a diferença


entre o terceiro e primeiro quartis, isto é,

dq = q3 − q1 .

3. Variância: a variância amostral de uma variável X , com observações


x1, . . . , xn, será denotada aqui por s2 e é definida por
n
1 X
s =
2
(xi − x)2.
n−1
i=1

O denominador n−1 é útil pois com ele podemos comparar conjunto


de dados com número de observações diferentes. Uma desvantagem
dessa medida, em termos de interpretação, é que sua dimensão é
igual ao quadrado da dimensão dos dados (por exemplo, se os
dados são expressos em cm, a variância será expressa em cm2).

4. Desvio padrão: será denotado por s e é definido como a raiz



quadrada da variância, isto é, s = s2. Essa medida está na
mesma dimensão dos dados e indica em média qual será o “erro”
(desvio) cometido ao tentar substituir cada observação pela medida
resumo do conjunto de dados (no caso, a média).

20
Exercício 3. Calcule a variância s2 e o desvio padrão s para as obser-
vações do grupo A, C e D. O que você pode observar?

21
1.3 Distribuições de Frequências

Os dados também podem ser resumidos por meio de tabelas de dis-


tribuição de frequências, que quantificam a frequência das distintas
categorias.
Nesse sentido, o interesse é conhecer o comportamento dessa variá-
vel, analisando a ocorrência de suas possíveis realizações. A tabela de
frequências é uma forma de dispor um conjunto de realizações, para se
ter uma idéia global sobre elas, ou seja, de sua distribuição.

22
1.3.1 Tabela de frequências para variáveis qualitativas

A Tabela 2 apresenta a distribuição de freqüências da variável grau de


instrução, usando os dados da Tabela 1.

Tabela 2: Freqüências e porcentagens dos 36 empregados da seção de orçamentos da


Companhia MB segundo o grau de instrução.
Grau de Instrução Frequência ni Proporção fi Porcentagem 100 fi
Fundamental 12 0,3333 33,33
Médio 18 0,5000 50,00
Superior 6 0,1667 16,67
Total 36 1,0000 100,00

Com base nas informações da tabela, responda:

1. Quantos empregados tem grau de instrução superior?

2. Qual a proporção de empregados com grau de instrução Médio?

3. Como é calculada a proporção fi?

4. Há perda de informação ao resumir as informações da variável grau


de instrução através da tabela de frequências?

23
Nota: Usaremos a seguinte notação:

ni: frequência absoluta de cada classe, ou categoria, da variável;

fi = ni/n: frequência relativa (ou proporção) de cada classe, sendo n o


número total de observações.

24
1.3.2 Tabela de frequências para variáveis quantitativas

A construção de tabelas de freqüências para variáveis contínuas (ou


discretas) necessita de certo cuidado.
Por exemplo, a construção da tabela de freqüências para a variá-
vel salário, usando o mesmo procedimento acima, não resumirá as 36
observações num grupo menor, pois não existem observações iguais.
A solução empregada é agrupar os dados por faixas de salário. Uma
possibilidade é apresentada na Tabela 3.
Nesta tabela, estamos usando a notação a ` b para o intervalo de
números contendo o extremo a mas não contendo o extremo b. Podemos
também usar a notação [a, b) para designar o mesmo intervalo a ` b.

Tabela 3: Freqüências e porcentagens dos 36 empregados da seção de orçamentos da


Companhia MB segundo o salário.
Classe de salários Frequência ni Porcentagem 100 fi
4,00 ` 08,00 10 27,78
8,00 ` 12,00 12 33,33
12,00 ` 16,00 8 22,22
16,00 ` 20,00 5 13,89
20,00 ` 24,00 1 2,78
Total 36 100,00

Com base nas informações da tabela, responda:

1. Há perda de informação ao resumir as informações da variável


salário através da tabela de frequências?

2. Qual a relação entre resumir informação, número de classes e in-


formação, no contexto de tabelas de frequências para variáveis con-

25
tínuas?

26

Você também pode gostar