Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatstica Bsica
Alexandre Diniz
Tcnica
Modo de fazer de forma mais hbil, mais segura e mais perfeita algum tipo de atividade, arte ou
ofcio.
Conhecimento
Conhecer estabelecer uma relao entre a pessoa que conhece e o objeto que passa a ser
conhecido.
No processo do conhecimento, o sujeito se apropria do objeto processando-o mentalmente
Conhecer = transformar o objeto em conceito, reconstituindo-lhe em sua mente (semitica).
Tipos de conhecimento:
. vulgar ou emprico;
. filosfico;
. teolgico/dogmtico;
. cientfico.
Dois mtodos de raciocnio cientfico:
induo e deduo.
Induo
Deduo
Estatstica
Populao
Amostragem
Probabilidade
. Impossvel fazer inferncias estatsticas sem utilizar alguns resultados da teoria de
probabilidades.
. Embora intimamente associada estatstica, tem suas caractersticas prprias.
Escala nominal
Escala ordinal
Utilizada quando os fenmenos ou observaes podem ser arranjados segundo uma ordenao
(grandeza, preferncia, importncia, distncia, etc..).
Ex: expresses qualitativas arranjadas segundo uma ordem:
. hierarquia dos nveis educacionais: primeiro, segundo e terceiro graus;
. nveis de renda: renda baixa, media e alta;
. hierarquia urbana;
. padro de habitao;
. preferncia locacional;
. escala de dureza dos minerais.
Possvel quando se desenvolve uma seqncia qualitativa na qual lgico colocar um fato antes
do outro.
. No deve fazer operaes aritmticas
Ex: classificao de hotis em nveis hierrquicos.
No se pode dizer que um hotel quatro estrelas duas vezes melhor do que um hotel duas
estrelas.
Sabe-se que os quatro estrelas so melhores, mo no existe meios de se quantificar esta
diferena na escala ordinal.
Caractersticas:
. possvel calcular a freqncia de cada classe, para indicar a classe modal;
. Classes so mutuamente excludente;
. Pode-se calcular coeficientes de correlao - Spearman e Kendall (estatstica no paramtrica).
Escala intervalar
Caractersticas:
. Tem todas as caractersticas de uma escala ordinal, porm os intervalos entre os valores so
conhecidos exatamente e assim cada observao pode receber um valor numrico preciso.
. A extenso de cada intervalo sucessivo constante:
i.e. numerao dos anos, variaes de altitude atravs de curvas de nvel e escalas de
temperatura;
. O ponto zero de uma escala de intervalo arbitrrio e no indica ausncia da caracterstica
medida.
. A falta de zero absoluto uma desvantagem, pois no possvel afirmar que uma temperatura de
20 C duas vezes mais quente do que uma de 10 C.
. Adapta-se a todas as operaes aritmticas usuais, desde que seja mantida a ordem dos objetos
e as diferenas relativas entre elas.
. A mdia e o desvio padro podem ser calculados.
Escala de razo
Caractersticas:
. Mais precisa de todas
. Tem todas as caractersticas de uma escala de intervalo, com a vantagem de que o ponto zero
representa uma origem verdadeira (zero indica ausncia de fenmeno).
Ex: escala mtrica, idades e pesos de pessoas, distncia, produo, renda per capita, rea
cultivada, capacidade, etc.
. Todas as operaes so possveis;
. Pode-se calcular qualquer razo entre duas medidas ou dois valores.
Ex:: densidade demogrfica de zero pessoas por km2 = nenhuma pessoa est na rea.
Ex: densidade de 30 pessoas por km2 = indica que existem trs vezes mais do que 10/km2.
. Qualquer teste estatstico paramtrico ou no paramtrico pode ser utilizado.
Observaes
Mdia aritmtica
. Medida de tendncia central mais utilizada;
. familiar para a maioria das pessoas;
Mediana
Moda
Amplitude total
e 4, 5, 7, 8, 11
. no se tem informao alguma sobre a distribuio dos dados dentro do intervalo ou sobre o
nmero de valores que esto perto da mdia.
. a amplitude uma boa medida de disperso para conjuntos de dados pequenos, porm para
conjuntos maiores a medida desaconselhvel.
Sx =
xi-mdia)
O desvio padro a raiz da mdia dos quadrados dos desvios em relao mdia do conjunto e
uma medida do desvio dos valores individuais em relao ao valor central do conjunto de dados ou
a raiz quadrada da varincia.
Se os valores esto prximos uns dos outros, a soma dos quadrados pequena.
Se os valores esto distantes uns dos outros, a soma dos quadrados grande.
Nos casos em que os dados so tirados de uma amostra e se queremos estimar o desvio padro
da populao da qual a amostra foi tirada, aconselhvel substituir o denominador por n-1. Com
mais de 30 dados o resultado quase idntico.
Para comparar a variabilidade entre diversos conjuntos de dados que tm mdias bem diferentes,
o coeficiente de variao uma medida melhor , indicando a variao relativa.
Facilmente obtido dividindo-se o desvio padro pela mdia da distribuio.
V=s/x
Como tanto desvio padro, quanto mdia so dados na mesma unidade, V um nmero
independente de unidades de medida.
Uma desvantagem = no utilizvel se a mdia est prxima de zero;
. fato que ocorre raramente nos dados geogrficos, exceto em relao temperatura e
precipitao.
1.5 Probabilidade:
. Impossvel fazer inferncias estatsticas sem utilizar alguns resultados da teoria de
probabilidades.
. Embora intimamente associada estatstica, tem suas caractersticas prprias.
. Busca quantificar a incerteza existente em determinada situao,
Dado 2
10
1
2
3
4
5
6
1
2
3
4
5
6
Distribuio normal
. Distribuio de probabilidade.
. A mais importante das distribuies contnuas de probabilidade.
. A curva em forma de sino.
. Tem sua origem associada aos erros de mensurao.
. Quando se efetuam repetidas mensuraes de determinada grandeza com um aparelho
equilibrado, no se chega ao mesmo resultado todas as vezes.
. Obtm-se um conjunto de valores que oscilam, de modo aproximadamente simtrico, em torno do
valor verdadeiro.
. Ao construir um histograma desses valores e o correspondente polgono de freqncia, obtm-se
uma poligonal aproximadamente simtrica.
. Supunha-se anteriormente que todos os fenmenos devessem ajustar-se a uma curva em forma
de sino. Caso contrrio, suspeitava-se de alguma anormalidade no processo de coleta de dados.
11
Principais caractersticas:
1. mdia da distribuio "
2. desvio padro #
3.
[
"
Propriedades:
68,26% das ocorrncias encontram-se entre +/- 1#
95,44% das ocorrncias encontram-se entre +/- 2#
99,74% das ocorrncias encontram-se entre +/- 3#
99,99% das ocorrncias encontram-se entre +/- 4#
A probabilidade de v.a . normal x estar entre a e b igual a rea sob a curva e acima do segmento
horizontal
12
Parmetro x Estatstica
O objetivo da estatstica inferencial fazer generalizaes sobre a populao com base em uma
amostra retirada da prpria populao.
Portanto, faz-se necessrio diferenciar as caractersticas da populao e da amostra
Parmetros
Estatsticas
Observaes
13
Ho verdadeira
No rejeitar Ho
Correto
Rejeitar Ho
W L
Ho falsa
(
W L
Correto
Tomada de deciso.
Bibliografia:
14
Soares, Jos; Farias, Alfredo; Csar, Cibele. 1991. Introduo Estatstica. Rio de Janeiro,
Guanabara Koogan.
15
Grfico de disperso
9
Rwanda
8
Somalia
Burkina
Faso
Afghanistan
Ethiopia
Burundi Uganda
Oman
Gambia
Tanzania
Cambodia
Liberia
Zambia
Syria
Pakistan
Nigeria
Senegal
Kenya Haiti
Botswana
Bangladesh
IraqSaudi Arabia
Libya
Iran
Cameroon
Cent. Afri.R
Jordan
Honduras
Guatemala
U.Arab Em.
South Africa
Nicaragua
Paraguay
Bolivia
Kuwait
Bahrain
Gabon
Morocco
El Egypt
Salvador
Uzbekistan
Malaysia
Lebanon
Philippines
Vietnam
Mexico
Costa Rica EcuadorTurkey Armenia
Peru
Venezuela
Panama
Domincan R.
Azerbaijan
Indonesia
Argentina Israel
Brazil
ChileUruguay
Colombia
N. Korea
Georgia
Thailand
Sweden
USA
New
ZealandIceland
Norway
Estonia
Ireland Poland
Lithuania
Latvia
Cuba
Belarus
AustraliaUK
Singapore
China
Romania Finland
Ukraine
Russia
Canada Denmark
BulgariaFrance
Hungary
Barbados Croatia
S. KoreaJapan
Switzerland
NetherlandsBelgium
Austria
Greece
Portugal
Germany
Spain
Hong Kong
Italy
4
3
2
India
1
0
20
40
60
80
100
120
Em outras palavras:
. importante conhecer o impacto que um aumento em X ter em Y (coeficiente de regresso);
. tambm necessrio mensurar a representatividade da relao, ou o quo bem a linha de
regresso define a distribuio de pontos do diagrama de disperso (coeficiente de correlao).
16
Onde,
&
isima observao;
Xi o valor de X para a isima observao;
ayx o termo interceptor (ponto da linha de regresso que cruza o eixo dos Y)
L
Y D
<
(Variao)
Desvio padro
2
Sy =
y
Covarincia
COVyx = (
xi - mdia de X) (Yi mdia de Y))
N
17
b=
(xi-mdia de x) (yi-mdia de y)
2
xi-mdia de x)
ou
b= COVyx
2
Sy
A covariao indica o tamanho conjunto dos desvios de Y e X de suas respectivas mdias,
enquanto a variao indica o tamanho dos desvios em Xi. Portanto, quanto maior a covarincia,
maior ser o impacto de X sobre Y.
O clculo de covarincias e varincias envolve os valores individuais de Yi e Xi, em termos de suas
distncias das suas respectivas mdias. uma caracterstica do mtodo dos quadrados mnimos
que a reta de regresso passe pelos ponto de interseo da mdia de x e de y.
Isto ajuda na determinao de a:
a = mdia de Y b(mdia de X)
Obs:
. A covarincia uma medida absoluta e pode ser positiva ou negativa
. A varincia s pode ser positiva
Coeficiente de correlao ( r )
Os dois parmetros da equao de regresso indicam a forma da relao entre Y e X, mas diz
pouco sobre o grau de acuidade das estimativas de Y. Para tal, utiliza-se um parmetro
associado: coeficiente de correlao.
Existem muitos coeficientes de correlao estatstica, mas trabalhar-se- com o coeficiente de
correlao de Pearson.
r=
>
>
Covariao em X e Y
Raiz quadrada do produto da variao total em X e Y
Duas funes:
1. Examina o grau de associao de duas variveis.
Mede at que ponto so interdependentes ou covariantes.
2. Determina a direo da correlao.
Varia de 1 a +1.
18
r =1
Correlao positiva perfeita
Quanto maiores os valores de x, maiores sero os valores de y
r = -1
Correlao negativa perfeita
Quanto maiores os valores de x, menores sero os valores de y
r=0
Ausncia de relao linear
Coeficiente de determinao (r )
O coeficiente linear de correlao r yx, compara a varincia na varivel dependente Y com a
reduo na varincia daquela varivel, quando uma varivel independente X utilizada para
estimar os valores de Y.
A proporo da variao total em Y explicada por X varia de 0 a 1.
2
r=
&i- mdia de Y)
2
Yi- mdia de Y)
variao explicada
variao total
19
Consideraes
. Dificilmente se encontra associaes perfeitas (r = +1 ou 1)
. Alto valor de r no significa necessariamente uma relao causal (sorvete e criminalidade)
. Pode ser utilizada para verificao quantitativa de provveis relaes
. Revela o grau de relao estatstica, mas no explica o porque da relao
. Coeficiente de correlao nulo (r=0), no indica ausncia de relao - indica ausncia de relao
linear
. Presena de um ou dois valores extremos podem influenciar fortemente os valores de r
Significncia
Vrios trabalhos que se utilizaram de regresso e/ou correlao utilizam a frase com 5% de
significncia.
Testes de significncia estatstica so utilizados para inferir caractersticas de uma populao, com
base em uma amostra. Os testes so vlidos apenas se:
. a amostra aleatria;
. a populao foi completamente especificada.
A correlao de 0.89 estatisticamente significante a 5%
Isto indica que existe a chance de 95% de que a relao observada na amostra seja verdadeira
para a populao.
Testes de significncia esto ligados a probabilidade de que os resultados observados na
amostras no sejam relacionados populao.
Em regresso, existe um modelo para a populao
<
;
'
ryx = correlao
! Yi - mdia de Y) /n
2
yx)
(Sy )
2
yx)
(Sy )
20
Existem:
(N-1) graus de liberdade na varincia total
k graus de liberdade na varincia explicada, sendo k o nmero de variveis independentes
n-k-1 graus de liberdade na varincia no explicada
2
Onde,
Sey erro padro residual da regresso
Sx desvio padro de X
N nmero de observaes
Programa informa automaticamente o nvel de significncia associado aos valores de T.
Resduos
Quando as observaes deixam de cair na linha de regresso, o coeficiente de correlao indica o
grau de ajustamento da linha de regresso no conjunto de pontos. Isto no indica, nem o sucesso
da equao, ao estimar uma observao em particular, nem a variao existente em torno dos
valores estimados de Y. Para tal, verifica-se os resduos da regresso, definidos por:
Res Yi = Yi - &i
O valor residual
Utilizados para identificar observaes que esto mais distantes da linha de maior ajustamento.
Pode indicar casos discrepantes, ou sugerir o uso de outras variveis independentes que podem
ser levadas em considerao na melhoria do modelo.
Resduos positivos valor estimado menor do que o valor real valor subestimado
Resduos negativos valor estimado maior do que o valor real - valor superestimado
Pr-requisito da correlao e regresso
. Variveis intervalares ou de razo
. Linearidade
Anlise de regresso constri uma linha que melhor define a distribuio de pontos;
Correlao testa a robustez desta linha, em relao a distribuio de pontos;
Caso no sejam lineares curvilinhas transformaes.
21
. Normalidade
variveis normalmente distribudas;
resduos normalmente distribudos (Yi- &i);
. Varincias iguais
. Autocorrelao
valores de X so independentes entre si;
. Variveis independentes, sejam de fato independentes.
Onde,
&0.12 o valor estimado de Y a partir das variveis independentes X1 e X2;
a0.12 o valor interceptor (ponto do plano de regresso que cruza o eixo dos Y, onde X1=X2=0);
b01.2, b02.1 so os coeficientes de regresso parciais, indicando a inclinao das relaes entre Y0; e
X1 e X2, respectivamente, enquanto a(s) outra(s) varivel (is) /so mantida(s) constante(s);
(
22
Correlao parcial
Trabalha os dados de tal maneira, que se pode verificar o efeito de uma varivel, como se as
outras no estivessem presentes na anlise.
r01.23-n indica a correlao parcial entre a varivel dependente (Y0) e uma varivel independente X1,
mantendo o efeito das outras variveis independentes (X2, X3, Xn) constantes.
Um nmero infinito de variveis pode ser controlado.
Os nmeros antes do ponto indicam as variveis ativas, ao passo que as colocadas direita do
ponto indicam as variveis que esto sendo controladas.
r01.2 indica a correlao entre Y0 e X1, tendo removido o efeito das relaes Y0= f(x2) e a relao X1
= f(x2). Essas remoes so produzidas ao regressarmos:
Y0 em X2 e
X1 em X2 e
Ento, fazendo a regresso dos resduos dessas regresses:
r01.2 = r01-(r02)(r12)
2
02
2
12
23
2
1.23
2
12
+ r
2
13.2
(1-r
2
12)
Bibliografia:
Blalock, Hubert. 1973. Social Statistics. New York, Mcgraw-Hill.
Gregory, S. 1973. Statistical Methods and the Geographer. London, Longman.
Hammond, Robert e McCullagh, Patrick. 1974. Quantitative Techniques in Geography An
Introduction. Oxford, Clarendon Press.
Hoel, Paul. 1981. Estatstica Elementar. So Paulo, Atlas.
Johnston, R. 1992. Multivariate Statistical Analysis Geography. New York. Longman Scientific &
Technical.
King, Leslie. 1969. Statistical Analysis in Geography. Englewood Cliffs, Prentice-Hall Inc.
Martins, Gilberto e Donaire, Denis. 1979. Princpios de Estatstica. So Paulo, Atlas.
Montgomery, Douglas e Peck, Elizabeth 1992. Introduction to Linear Regression Analysis. New
York, John Wiley & Sons, INC.
Rummel, R. J. 1970. Applied Factor Analysis. Evanston, Northwestern University Press.
Soares, Jos; Farias, Alfredo; Csar, Cibele. 1991. Introduo Estatstica. Rio de Janeiro,
Guanabara Koogan.
24
Incio da anlise
Matriz de dados:
Uma lista de p variveis e n valores, obtidos em uma amostra.
Amostra
1
2
N
Variveis
X1
X11
X12
X1n
X2
X21
X22
X2n
X3
X31
X32
X3n
Xp
Xp1
Xp2
Xpn
O modelo
As variveis ou atributos (X1, X2... Xp) so definidas como combinaes lineares de k
componentes/fatores no observveis (S 1, S2,...Sk), comuns a todas as variveis, e um fator
especfico (Ei) para cada varivel:
X1= f (S1+S2 .....Sn)+/- E1
X2= f (S1+S2 .....Sn) +/- E2
Xp= f F(S1+S2....Sk)+/-Ep
1
Consultar item 2.0 da apostila para discusso sobre coeficiente de correlao de Pearson.
25
26
Autovalor x 1000 .
Soma dos p autovalor
Rotao
A rotao mantm a informao total presente nos componentes/fatores originais, mas faz nova
atribuio das variveis originais aos fatores;
27
Bibliografia:
Dillon, William R. 1984. Multivariate Analysis, Methods and Applications. New York,John Wiley &
Sons, Inc.
Drumond, Ftima. Anlise Dimensional. Departamento de Estatstica. Icex/UFMG
Faissol, Speridio 1972. Anlise Fatorial: problemas e aplicaes na geografia, especialmente nos
estudos urbanos. Revista Brasileira de Geografia. 34 (4): 77-100.
1972. A Estrutura Urbana Brasileira: uma viso ampliada no contexto do
processo brasileiro de desenvolvimento econmico. Revista Brasileira de Geografia. 34 (3):19-123.
Johnston, R. 1992. Multivariate Statistical Analysis in Geography. New York. Longman Scientific &
Technical.
Rummel, R. J. 1970. Applied Factor Analysis. Evanston, Northwestern University Press.
28