Você está na página 1de 30

   

Geoes t a t ís t ica
Análise Exploratória dos Dados

Estatística Descritiva Univariada

Eng. de Minas João Felipe C.L. Costa


Prof. Dr. do DEMIN/PPGEM, UFRGS

Eng. de Minas Luis Eduardo de Souza


Doutorando do PPGEM, UFRGS
Estrutura da Apresentação

• Estatística descritiva e inferencial

• Tipos de dados

• Variável aleatória

• Apresentação estatística

• Distribuição de freqüências

• Medidas descritivas

• Modelos de distribuição

G
• Populações estatísticas
Estatística descritiva e inferencial
A estatística descritiva tem por objetivo descrever a realidade
observada (população ou amostra), usando métodos
numéricos e métodos gráficos e realizando comentários
simples de maneira mais informativa possível.

Pode-se dizer que a estatística descritiva ocupa-se do


tratamento de dados quantitativos (ordenação, exposição e
sumarização de registros de dados) do fenômeno em estudo.

A estatística inferencial (ou indutiva) ocupa-se em formular


inferências sobre uma população, com base em informações
contidas na amostra. Ou seja, através de técnicas inferenciais
conclui-se para o todo, a partir da observação de uma parte.
Assim, os métodos de estatística inferencial só podem ser

G
utilizados, com algum sentido, sobre dados amostrais.
Tipos de dados
A experiência diária mostra a necessidade de se fazer
generalizações sobre assuntos e circunstâncias que
freqüentemente ultrapassam as fronteiras do quotidiano
indicando que, dentro de certos limites, o conhecimento de
uma parte do todo é uma informação prática e útil que pode
ser aplicável à totalidade. Essa parte representativa do todo é
denominada amostra.

O procedimento de obtenção de uma amostra chama-se


levantamento por amostragem e é utilizado para diminuir o
custo total do levantamento de dados.

As características numéricas de uma população chama-se


parâmetros, enquanto que estatísticas são características de

G
uma amostra. Normalmente, as estatísticas são utilizadas
como base para se estimar os parâmetros populacionais.
Variável aleatória
Variável em estatística, é a atribuição de um número a
cada característica da unidade de observação, ou seja, é
uma função matemática definida na população. É
importante que se saiba distinguir entre variáveis
quantitativas e qualitativas. Uma outra distinção
importante é entre variáveis discretas e variáveis
contínuas.

Uma variável aleatória é uma variável que tem associada


a si as possibilidades de assumir seus diferentes valores
(no caso de a variável ser discreta) ou se encontrar
dentro de intervalos determinados (no caso de ser
contínua).

G
Uma variável aleatória também possui média e variância.
A sua média, também chamado valor esperado ou
esperança matemática, e que se representa por E(x), é a
média aritmética dos valores assumidos pela variável
ponderados por suas respectivas probabilidades. Quando
a variável é discreta, tais probabilidades são dadas pela
chamada função de probabilidade e, para variáveis
aleatórias contínuas, pela função distribuição de
probabilidade.

G
Apresentação estatística

Uma vez coletados, os dados


devem ser reunidos de forma
utilizável. Geralmente isso é feito
por meio de tabelas e gráficos,
constituindo a chamada
apresentação estatística.
A forma mais simples de
apresentar um banco de dados,
por exemplo, é simplesmente
listá-lo. A única informação, no
entanto, que esse tipo de
apresentação fornece é o valor da
variável em cada posição espacial.
Nenhum conhecimento quanto à

G
natureza da distribuição global é
agregado.
Distribuição de freqüências

A distribuição de freqüências de uma variável é o conjunto


das freqüências de todos os diferentes valores observados
da variável. O perfil da distribuição de freqüências ajuda a
identificar a forma (o padrão, o tipo) de distribuição da
variável.

Quando a variável for contínua ou quando houver um


grande número de valores observados diferentes, deve-se
agrupar as observações em intervalos de classe. As
freqüências, no caso, estarão associadas não a valores
individuais mas ao intervalo como um todo. Para efeitos de
cálculos, supõem-se que todos os valores observados
dentro de um mesmo intervalo sejam iguais ao respectivo
ponto médio.

G
Dados Dados
5 5
21 11
16 16
35 21
29 23
11 26
28 28
26 29
23 35

Tabela de Freqüência

Intervalos Freqüência Freqüência Freqüência Freqüência


de Classes Absoluta Relativa Percentual Acumulada
0-10 1 0.11 11 1
10-20 2 0.22 22 3
20-30 5 0.56 56 8

G
30-40 1 0.11 11 9
Total 9 1.00 100
O histograma é um diagrama de colunas justapostas tal que
a área de cada retângulo (coluna) é proporcional à
freqüência (absoluta ou relativa) da classe particular. Se os
intervalos possuírem todos igual amplitude, o histograma é
obtido desenhando-se colunas cujas alturas sejam iguais às
freqüências (absolutas ou relativas) da classe respectiva.
Uma das ferramentas estatísticas mais amplamente
utilizadas, permite representar graficamente a tabela de
freqüências.

G
• O histograma pode ser construído de maneira a
contemplar toda a distribuição dos dados ou somente uma
parte que se deseja detalhar;

• Em caso de dados espalhados em um intervalo de várias


ordens de magnitude, o uso de escala logarítmica é
recomendado  permite que se veja toda a distribuição;

• Usando intervalos de classes regulares é possível ver toda


a distribuição sem perda de detalhes;

• É útil quando se procura identificar a existência de


múltiplas populações.

G
Walker Lake data set,
variável V

Walker Lake data set,


variável U

G
Walker Lake data set,
variável U
275 dados entre 0,0 e
5190,1

Walker Lake data set,


variável U
217 dados entre 0,0 e
1000,0

G
Cluster data set

Escala aritmética (a) e


(a) logarítmica (b).

(b)

G
Walker Lake data set,
freqüência acumulada.

Cluster data set,


freqüência acumulada.

G
Medidas descritivas
Medidas de tendência central:

• Média: aritmética, é o centro de gravidade da distribuição


da variável. Requer que a variável seja quantitativa e é
pouco sensível a variações nos valores centrais, enquanto
que (e esta é sua maior desvantagem) é grandemente
afetada pelos valores extremos da variável.

1 n
m   vi
n i 1
• Mediana: é o valor que divide o conjunto de observações
exatamente ao meio, de tal maneira que o número de
observações maiores do que a mediana seja igual ao número
de observações menores do que a mediana.
G
A aplicação da mediana requer que a variável possa ser
ordenável. Uma desvantagem da mediana é ser muito
afetada por ligeiras variações nos valores centrais da
variável. Em compensação, ela permanece inalterada para
mudanças ainda que grandes nos valores extremos da
distribuição.

• Moda: é a medida de tendência central mais simples e é


aplicável a qualquer variável, seja quantitativa ou
qualitativa. É o valor médio do intervalo de freqüência com
maior quantidade de valores e é extremamente sensível a
pequenas alterações nos valores observados.

G
• Em distribuições simétricas:
Média = Mediana = Moda

• Em distribuições com assimetria positiva ou para a direita:


Moda < Mediana < Média

• Em distribuições com assimetria negativa ou para a esquerda:


Média < Mediana < Moda

G
Assimetria Simétrica Assimetria
Negativa Positiva
Medidas de localização:

• Quartis:
• Q1: valor no qual temos histograma cumulativo igual a
25%
• Q3: valor no qual temos histograma cumulativo igual a
75%

• Mínimo: valor no qual temos histograma cumulativo igual a 0%

• Máximo: valor no qual temos histograma cumulativo igual a


100%

• Quantis:
q(p) = valor no qual temos histograma cumulativo igual a p%
(divide a distribuição em duas partes)

G
M=q(0,5) Q1=q(0,25) Q3=q(0,75)
min=q(0) max=q(1)
• Box plot:

G
Medidas de espalhamento:

• Variância: é a diferença quadrática média entre os valores


observados e sua média. É muito sensível a valores extremos e é
medida na mesma unidades das amostras ao quadrado.

1 n
2   (vi  m)2
n i 1

• Desvio padrão: é igual à raiz quadrada da variância. É mais


freqüentemente usado, já que tem unidade igual à das amostras.

• Distância interquartil (IQR): não usa a média como centro da


distribuição, sendo preferido como medida de espalhamento
quando poucos valores extremos influenciam a média.

IQR = Q3 – Q1
G
Medidas de forma:
• Coeficiente de assimetria (“skewness”): extremamente sensível
a valores extremos, é dado por:

1 n 3
  (vi  m) 
 n i 1 
CS 
3

CS < 0 CS  0 CS > 0
G
Coeficiente de variação (CV): útil como medida de assimetria
para distribuições assimétricas positivas com valor mínimo
igual a 0. Fornece uma indicação do grau de dificuldade para
estimativas locais:

< 1  problema simples

CV = /m 1-2  alguma dificuldade com valores extremos,


> 2  valores extremos devem gerar grande
dificuldade na estimativa

G
Sumário estatístico

Vantagens
• Compacto e portável;
• Algumas estatísticas correspondem diretamente a
parâmetros físicos relevantes;

média = concentração esperada


Mediana = permeabilidade efetiva

• Podem ser usados como parâmetros de um modelo de


distribuição.

Desvantagens
• Freqüentemente muito condensados;
• Algumas estatísticas são fortemente influenciadas por

G
valores extremos (m, , 2, assimetria, curtosidade);
• Certas estatísticas são afetadas por vazios no meio da
distribuição (M, Q1, Q3, IQR).
Modelos de distribuição

Histograma e
sumário
estatístico

Função de densidade
de probabilidade e
dois parâmetros

G
Enquanto um modelo de distribuição fornece uma completa
descrição a partir de poucos parâmetros (usualmente apenas
dois), ele pode falhar na representação de importantes padrões
da distribuição real dos dados.

O histograma acumulado
facilita a inspeção da qualidade
do modelo de distribuição.

G
Os eixos de um gráfico de probabilidade normal são
construídos de forma que a percentagem acumulada
apresente-se como uma linha reta caso os dados se
comportem segundo uma distribuição normal.

G
De maneira análoga, um gráfico de probabilidade lognormal
permite testar a hipótese dos dados se comportarem
segundo um modelo de distribuição lognormal.

G
Populações estatísticas

O uso de qualquer procedimento estatístico assume que


os dados de alguma forma pertencem a um mesmo
grupo ou população  estacionaridade.

A meta de um dado estudo irá determinar a escolha das


populações relevantes.

A distinção entre valores extremos e outliers


necessariamente envolve informações qualitativas
normalmente não contidas nas amostras propriamente
ditas.

G
Valores extremos:
extremos valores erráticos que pertencem à solução
do problema e devem ter impacto significativo na estimativa.

Outliers:
Outliers valores normalmente elevados que não são
relevantes para a solução da meta imposta pelo estudo.

O que fazer com os valores extremos?

i. Declará-los valores errôneos e removê-los?


ii. Classificá-los como pertencentes à outra população?
iii. Levantar a hipótese de tamanho diferente da
amostra?
iv. Estratificação da região?

Utilizar parâmetros estatísticos mais robustos, que não sejam


afetados pela média. Ex.: mediana, distância entre quartis
(IQR). Trabalhar com dados transformados (ex.: log). Cuidado
ao retornar os valores ao espaço original dos dados.
G

Você também pode gostar