Escolar Documentos
Profissional Documentos
Cultura Documentos
Geoes t a t ís t ica
Análise Exploratória dos Dados
• Tipos de dados
• Variável aleatória
• Apresentação estatística
• Distribuição de freqüências
• Medidas descritivas
• Modelos de distribuição
G
• Populações estatísticas
Estatística descritiva e inferencial
A estatística descritiva tem por objetivo descrever a realidade
observada (população ou amostra), usando métodos
numéricos e métodos gráficos e realizando comentários
simples de maneira mais informativa possível.
G
utilizados, com algum sentido, sobre dados amostrais.
Tipos de dados
A experiência diária mostra a necessidade de se fazer
generalizações sobre assuntos e circunstâncias que
freqüentemente ultrapassam as fronteiras do quotidiano
indicando que, dentro de certos limites, o conhecimento de
uma parte do todo é uma informação prática e útil que pode
ser aplicável à totalidade. Essa parte representativa do todo é
denominada amostra.
G
uma amostra. Normalmente, as estatísticas são utilizadas
como base para se estimar os parâmetros populacionais.
Variável aleatória
Variável em estatística, é a atribuição de um número a
cada característica da unidade de observação, ou seja, é
uma função matemática definida na população. É
importante que se saiba distinguir entre variáveis
quantitativas e qualitativas. Uma outra distinção
importante é entre variáveis discretas e variáveis
contínuas.
G
Uma variável aleatória também possui média e variância.
A sua média, também chamado valor esperado ou
esperança matemática, e que se representa por E(x), é a
média aritmética dos valores assumidos pela variável
ponderados por suas respectivas probabilidades. Quando
a variável é discreta, tais probabilidades são dadas pela
chamada função de probabilidade e, para variáveis
aleatórias contínuas, pela função distribuição de
probabilidade.
G
Apresentação estatística
G
natureza da distribuição global é
agregado.
Distribuição de freqüências
G
Dados Dados
5 5
21 11
16 16
35 21
29 23
11 26
28 28
26 29
23 35
Tabela de Freqüência
G
30-40 1 0.11 11 9
Total 9 1.00 100
O histograma é um diagrama de colunas justapostas tal que
a área de cada retângulo (coluna) é proporcional à
freqüência (absoluta ou relativa) da classe particular. Se os
intervalos possuírem todos igual amplitude, o histograma é
obtido desenhando-se colunas cujas alturas sejam iguais às
freqüências (absolutas ou relativas) da classe respectiva.
Uma das ferramentas estatísticas mais amplamente
utilizadas, permite representar graficamente a tabela de
freqüências.
G
• O histograma pode ser construído de maneira a
contemplar toda a distribuição dos dados ou somente uma
parte que se deseja detalhar;
G
Walker Lake data set,
variável V
G
Walker Lake data set,
variável U
275 dados entre 0,0 e
5190,1
G
Cluster data set
(b)
G
Walker Lake data set,
freqüência acumulada.
G
Medidas descritivas
Medidas de tendência central:
1 n
m vi
n i 1
• Mediana: é o valor que divide o conjunto de observações
exatamente ao meio, de tal maneira que o número de
observações maiores do que a mediana seja igual ao número
de observações menores do que a mediana.
G
A aplicação da mediana requer que a variável possa ser
ordenável. Uma desvantagem da mediana é ser muito
afetada por ligeiras variações nos valores centrais da
variável. Em compensação, ela permanece inalterada para
mudanças ainda que grandes nos valores extremos da
distribuição.
G
• Em distribuições simétricas:
Média = Mediana = Moda
G
Assimetria Simétrica Assimetria
Negativa Positiva
Medidas de localização:
• Quartis:
• Q1: valor no qual temos histograma cumulativo igual a
25%
• Q3: valor no qual temos histograma cumulativo igual a
75%
• Quantis:
q(p) = valor no qual temos histograma cumulativo igual a p%
(divide a distribuição em duas partes)
G
M=q(0,5) Q1=q(0,25) Q3=q(0,75)
min=q(0) max=q(1)
• Box plot:
G
Medidas de espalhamento:
1 n
2 (vi m)2
n i 1
IQR = Q3 – Q1
G
Medidas de forma:
• Coeficiente de assimetria (“skewness”): extremamente sensível
a valores extremos, é dado por:
1 n 3
(vi m)
n i 1
CS
3
CS < 0 CS 0 CS > 0
G
Coeficiente de variação (CV): útil como medida de assimetria
para distribuições assimétricas positivas com valor mínimo
igual a 0. Fornece uma indicação do grau de dificuldade para
estimativas locais:
G
Sumário estatístico
Vantagens
• Compacto e portável;
• Algumas estatísticas correspondem diretamente a
parâmetros físicos relevantes;
Desvantagens
• Freqüentemente muito condensados;
• Algumas estatísticas são fortemente influenciadas por
G
valores extremos (m, , 2, assimetria, curtosidade);
• Certas estatísticas são afetadas por vazios no meio da
distribuição (M, Q1, Q3, IQR).
Modelos de distribuição
Histograma e
sumário
estatístico
Função de densidade
de probabilidade e
dois parâmetros
G
Enquanto um modelo de distribuição fornece uma completa
descrição a partir de poucos parâmetros (usualmente apenas
dois), ele pode falhar na representação de importantes padrões
da distribuição real dos dados.
O histograma acumulado
facilita a inspeção da qualidade
do modelo de distribuição.
G
Os eixos de um gráfico de probabilidade normal são
construídos de forma que a percentagem acumulada
apresente-se como uma linha reta caso os dados se
comportem segundo uma distribuição normal.
G
De maneira análoga, um gráfico de probabilidade lognormal
permite testar a hipótese dos dados se comportarem
segundo um modelo de distribuição lognormal.
G
Populações estatísticas
G
Valores extremos:
extremos valores erráticos que pertencem à solução
do problema e devem ter impacto significativo na estimativa.
Outliers:
Outliers valores normalmente elevados que não são
relevantes para a solução da meta imposta pelo estudo.