02 Estat Univariada

   
Geoes t a t ís t ica
Análise Exploratória dos Dados
Estatística Descritiva Univariada
Eng. de Minas João Felipe C.L. Costa

Prof. Dr. do DEMIN/PPGEM, UFRGS
Eng. de Minas Luis Eduardo de Souza

Doutorando do PPGEM, UFRGS
Estrutura da Apresentação
• Estatística descritiva e inferencial
• Tipos de dados
• Variável aleatória
• Apresentação estatística
• Distribuição de freqüências
• Medidas descritivas
• Modelos de distribuição
G
• Populações estatísticas
Estatística descritiva e inferencial
A estatística descritiva tem por objetivo descrever a realidade
observada (população ou amostra), usando métodos
numéricos e métodos gráficos e realizando comentários
simples de maneira mais informativa possível.
Pode-se dizer que a estatística descritiva ocupa-se do

tratamento de dados quantitativos (ordenação, exposição e
sumarização de registros de dados) do fenômeno em estudo.
A estatística inferencial (ou indutiva) ocupa-se em formular

inferências sobre uma população, com base em informações
contidas na amostra. Ou seja, através de técnicas inferenciais
conclui-se para o todo, a partir da observação de uma parte.
Assim, os métodos de estatística inferencial só podem ser
G
utilizados, com algum sentido, sobre dados amostrais.
Tipos de dados
A experiência diária mostra a necessidade de se fazer
generalizações sobre assuntos e circunstâncias que
freqüentemente ultrapassam as fronteiras do quotidiano
indicando que, dentro de certos limites, o conhecimento de
uma parte do todo é uma informação prática e útil que pode
ser aplicável à totalidade. Essa parte representativa do todo é
denominada amostra.
O procedimento de obtenção de uma amostra chama-se

levantamento por amostragem e é utilizado para diminuir o
custo total do levantamento de dados.
As características numéricas de uma população chama-se

parâmetros, enquanto que estatísticas são características de
G
uma amostra. Normalmente, as estatísticas são utilizadas
como base para se estimar os parâmetros populacionais.
Variável aleatória
Variável em estatística, é a atribuição de um número a
cada característica da unidade de observação, ou seja, é
uma função matemática definida na população. É
importante que se saiba distinguir entre variáveis
quantitativas e qualitativas. Uma outra distinção
importante é entre variáveis discretas e variáveis
contínuas.
Uma variável aleatória é uma variável que tem associada

a si as possibilidades de assumir seus diferentes valores
(no caso de a variável ser discreta) ou se encontrar
dentro de intervalos determinados (no caso de ser
contínua).
G
Uma variável aleatória também possui média e variância.
A sua média, também chamado valor esperado ou
esperança matemática, e que se representa por E(x), é a
média aritmética dos valores assumidos pela variável
ponderados por suas respectivas probabilidades. Quando
a variável é discreta, tais probabilidades são dadas pela
chamada função de probabilidade e, para variáveis
aleatórias contínuas, pela função distribuição de
probabilidade.
G
Apresentação estatística
Uma vez coletados, os dados

devem ser reunidos de forma
utilizável. Geralmente isso é feito
por meio de tabelas e gráficos,
constituindo a chamada
apresentação estatística.
A forma mais simples de
apresentar um banco de dados,
por exemplo, é simplesmente
listá-lo. A única informação, no
entanto, que esse tipo de
apresentação fornece é o valor da
variável em cada posição espacial.
Nenhum conhecimento quanto à
G
natureza da distribuição global é
agregado.
Distribuição de freqüências
A distribuição de freqüências de uma variável é o conjunto

das freqüências de todos os diferentes valores observados
da variável. O perfil da distribuição de freqüências ajuda a
identificar a forma (o padrão, o tipo) de distribuição da
variável.
Quando a variável for contínua ou quando houver um

grande número de valores observados diferentes, deve-se
agrupar as observações em intervalos de classe. As
freqüências, no caso, estarão associadas não a valores
individuais mas ao intervalo como um todo. Para efeitos de
cálculos, supõem-se que todos os valores observados
dentro de um mesmo intervalo sejam iguais ao respectivo
ponto médio.
G
Dados Dados
5 5
21 11
16 16
35 21
29 23
11 26
28 28
26 29
23 35
Tabela de Freqüência
Intervalos Freqüência Freqüência Freqüência Freqüência

de Classes Absoluta Relativa Percentual Acumulada
0-10 1 0.11 11 1
10-20 2 0.22 22 3
20-30 5 0.56 56 8
G
30-40 1 0.11 11 9
Total 9 1.00 100
O histograma é um diagrama de colunas justapostas tal que
a área de cada retângulo (coluna) é proporcional à
freqüência (absoluta ou relativa) da classe particular. Se os
intervalos possuírem todos igual amplitude, o histograma é
obtido desenhando-se colunas cujas alturas sejam iguais às
freqüências (absolutas ou relativas) da classe respectiva.
Uma das ferramentas estatísticas mais amplamente
utilizadas, permite representar graficamente a tabela de
freqüências.
G
• O histograma pode ser construído de maneira a
contemplar toda a distribuição dos dados ou somente uma
parte que se deseja detalhar;
• Em caso de dados espalhados em um intervalo de várias

ordens de magnitude, o uso de escala logarítmica é
recomendado  permite que se veja toda a distribuição;
• Usando intervalos de classes regulares é possível ver toda

a distribuição sem perda de detalhes;
• É útil quando se procura identificar a existência de

múltiplas populações.
G
Walker Lake data set,
variável V

variável U
G
variável U
275 dados entre 0,0 e
5190,1

variável U
217 dados entre 0,0 e
1000,0
G
Cluster data set
Escala aritmética (a) e

(a) logarítmica (b).
(b)
G
freqüência acumulada.
Cluster data set,

freqüência acumulada.
G
Medidas descritivas
Medidas de tendência central:
• Média: aritmética, é o centro de gravidade da distribuição

da variável. Requer que a variável seja quantitativa e é
pouco sensível a variações nos valores centrais, enquanto
que (e esta é sua maior desvantagem) é grandemente
afetada pelos valores extremos da variável.
1 n
m   vi
n i 1
• Mediana: é o valor que divide o conjunto de observações
exatamente ao meio, de tal maneira que o número de
observações maiores do que a mediana seja igual ao número
de observações menores do que a mediana.
G
A aplicação da mediana requer que a variável possa ser
ordenável. Uma desvantagem da mediana é ser muito
afetada por ligeiras variações nos valores centrais da
variável. Em compensação, ela permanece inalterada para
mudanças ainda que grandes nos valores extremos da
distribuição.
• Moda: é a medida de tendência central mais simples e é

aplicável a qualquer variável, seja quantitativa ou
qualitativa. É o valor médio do intervalo de freqüência com
maior quantidade de valores e é extremamente sensível a
pequenas alterações nos valores observados.
G
• Em distribuições simétricas:
Média = Mediana = Moda
• Em distribuições com assimetria positiva ou para a direita:

Moda < Mediana < Média
• Em distribuições com assimetria negativa ou para a esquerda:

Média < Mediana < Moda
G
Assimetria Simétrica Assimetria
Negativa Positiva
Medidas de localização:
• Quartis:
• Q1: valor no qual temos histograma cumulativo igual a
25%
• Q3: valor no qual temos histograma cumulativo igual a
75%
• Mínimo: valor no qual temos histograma cumulativo igual a 0%
• Máximo: valor no qual temos histograma cumulativo igual a

100%
• Quantis:
q(p) = valor no qual temos histograma cumulativo igual a p%
(divide a distribuição em duas partes)
G
M=q(0,5) Q1=q(0,25) Q3=q(0,75)
min=q(0) max=q(1)
• Box plot:
G
Medidas de espalhamento:
• Variância: é a diferença quadrática média entre os valores

observados e sua média. É muito sensível a valores extremos e é
medida na mesma unidades das amostras ao quadrado.
1 n
2   (vi  m)2
n i 1
• Desvio padrão: é igual à raiz quadrada da variância. É mais

freqüentemente usado, já que tem unidade igual à das amostras.
• Distância interquartil (IQR): não usa a média como centro da

distribuição, sendo preferido como medida de espalhamento
quando poucos valores extremos influenciam a média.
IQR = Q3 – Q1
G
Medidas de forma:
• Coeficiente de assimetria (“skewness”): extremamente sensível
a valores extremos, é dado por:
1 n 3
  (vi  m) 
 n i 1 
CS 
3
CS < 0 CS  0 CS > 0
G
Coeficiente de variação (CV): útil como medida de assimetria
para distribuições assimétricas positivas com valor mínimo
igual a 0. Fornece uma indicação do grau de dificuldade para
estimativas locais:
< 1  problema simples
CV = /m 1-2  alguma dificuldade com valores extremos,

> 2  valores extremos devem gerar grande
dificuldade na estimativa
G
Sumário estatístico
Vantagens
• Compacto e portável;
• Algumas estatísticas correspondem diretamente a
parâmetros físicos relevantes;
média = concentração esperada

Mediana = permeabilidade efetiva
• Podem ser usados como parâmetros de um modelo de

distribuição.
Desvantagens
• Freqüentemente muito condensados;
• Algumas estatísticas são fortemente influenciadas por
G
valores extremos (m, , 2, assimetria, curtosidade);
• Certas estatísticas são afetadas por vazios no meio da
distribuição (M, Q1, Q3, IQR).
Modelos de distribuição
Histograma e
sumário
estatístico
Função de densidade
de probabilidade e
dois parâmetros
G
Enquanto um modelo de distribuição fornece uma completa
descrição a partir de poucos parâmetros (usualmente apenas
dois), ele pode falhar na representação de importantes padrões
da distribuição real dos dados.
O histograma acumulado
facilita a inspeção da qualidade
do modelo de distribuição.
G
Os eixos de um gráfico de probabilidade normal são
construídos de forma que a percentagem acumulada
apresente-se como uma linha reta caso os dados se
comportem segundo uma distribuição normal.
G
De maneira análoga, um gráfico de probabilidade lognormal
permite testar a hipótese dos dados se comportarem
segundo um modelo de distribuição lognormal.
G
Populações estatísticas
O uso de qualquer procedimento estatístico assume que

os dados de alguma forma pertencem a um mesmo
grupo ou população  estacionaridade.
A meta de um dado estudo irá determinar a escolha das

populações relevantes.
A distinção entre valores extremos e outliers

necessariamente envolve informações qualitativas
normalmente não contidas nas amostras propriamente
ditas.
G
Valores extremos:
extremos valores erráticos que pertencem à solução
do problema e devem ter impacto significativo na estimativa.
Outliers:
Outliers valores normalmente elevados que não são
relevantes para a solução da meta imposta pelo estudo.
O que fazer com os valores extremos?
i. Declará-los valores errôneos e removê-los?

ii. Classificá-los como pertencentes à outra população?
iii. Levantar a hipótese de tamanho diferente da
amostra?
iv. Estratificação da região?
Utilizar parâmetros estatísticos mais robustos, que não sejam

afetados pela média. Ex.: mediana, distância entre quartis
(IQR). Trabalhar com dados transformados (ex.: log). Cuidado
ao retornar os valores ao espaço original dos dados.
G

02 Estat Univariada

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

02 Estat Univariada

Enviado por

Direitos autorais:

Formatos disponíveis

   

Estatística Descritiva Univariada

Eng. de Minas João Felipe C.L. Costa

Eng. de Minas Luis Eduardo de Souza

• Estatística descritiva e inferencial

Pode-se dizer que a estatística descritiva ocupa-se do

A estatística inferencial (ou indutiva) ocupa-se em formular

O procedimento de obtenção de uma amostra chama-se

As características numéricas de uma população chama-se

Uma variável aleatória é uma variável que tem associada

Uma vez coletados, os dados

A distribuição de freqüências de uma variável é o conjunto

Quando a variável for contínua ou quando houver um

Intervalos Freqüência Freqüência Freqüência Freqüência

• Em caso de dados espalhados em um intervalo de várias

• Usando intervalos de classes regulares é possível ver toda

• É útil quando se procura identificar a existência de

Walker Lake data set,

Walker Lake data set,

Escala aritmética (a) e

Cluster data set,

• Média: aritmética, é o centro de gravidade da distribuição

• Moda: é a medida de tendência central mais simples e é

• Em distribuições com assimetria positiva ou para a direita:

• Em distribuições com assimetria negativa ou para a esquerda:

• Mínimo: valor no qual temos histograma cumulativo igual a 0%

• Máximo: valor no qual temos histograma cumulativo igual a

• Variância: é a diferença quadrática média entre os valores

• Desvio padrão: é igual à raiz quadrada da variância. É mais

• Distância interquartil (IQR): não usa a média como centro da

< 1  problema simples

CV = /m 1-2  alguma dificuldade com valores extremos,

média = concentração esperada

• Podem ser usados como parâmetros de um modelo de

O uso de qualquer procedimento estatístico assume que

A meta de um dado estudo irá determinar a escolha das

A distinção entre valores extremos e outliers

O que fazer com os valores extremos?

i. Declará-los valores errôneos e removê-los?

Utilizar parâmetros estatísticos mais robustos, que não sejam

Você também pode gostar