Você está na página 1de 10
RegressGo e correlagéo linear simples na Geografia BARBARA-CHRISTINE NENTWIG SILVA @ Este trabalho corresponde a uma continuaciio do artigo “Méto- dos Quantitativos Aplicados em Geografia: uma introducéo”, (Geografia, 3(6), 1978). Ao invés de apresentarmos de uma sé vez 0 numeroso conjunto de métodos quantitativos avancados aplicados em Geografia, optamos, nesta oportunidade, por dis- cutir esses métodos separadamente, evitando a elaboracio de trabalho demasiadamente extenso. Entretanto, os objetivos e a maneira de apresentaco sfio os mesmos do artigo anterior, quais sejam, os de contribuir para 0 desenvolvimento do ensino e da pesquisa geogréfica no Brasil, através de andlise acess{vel da metodologia quantitativa. ‘As analises de correcdo e regresso simples so técnicas im- portantes para a interpretac&o dos dados e fenémenos geogré- fieos envolvendo, ao mesmo tempo, duas varidveis ao invés de ‘uma 86, objeto de nossa preocupacao em artigo anterior (Nen- twig Silva, 1978). Além disto, 0 conhecimento destas andlises necessério para o emprego de outras técnicas mais avancadas, como, por exemple, a andlise fatorial, 1. CONCEITO DE REGRESSAO A nossa pergunta, na andlise de regressiio, é se & possivel, saindo de uma varigvel, predizer a outra, ou seja, predizer que valor de uma variével ¥ corresponde a um valor dado de uma vyarlavel X, Normalmente X 6 a variével independente, ¥ a varié- vel dependente. Segundo Sokal e Rohif (1969), em regresso 0 objetivo é estimar o relactonamento de uma variével com a outra, exprimindo uma em termos de uma fungdo linear (ou mais eomplexa) da outra. Podemos chegar a esse objetivo através dos seguintes pasos: depois de ter colecionado os dados para as duas vatiaveis sobre (x) Professor-Adjunto do Instituto de Geoclénclas da Universidade Federal da Bahia (Depto. de Geografia) Geografia, 4(8): 83-101, outubro 1979 83 ‘as quais queremos testar 0 relacionamento, podemos, como se- gundo passo, representar graficamente as duas varidveis utili- zando o sistema de coordenadas cartesianas. Cada par de valores X,, Yj 6 indicado através de um ponto, Muitas vezes, como 6 ‘0 taso no grafico 1, o resultado, denominado diagrama de dis- persao, mostra na Geografia uma quantidade de pontos indi- cando que, com maiores valores de X, os valores de Y aumentam também, A impressdo visual d4 uma primeira indicacdo da rela~ co, no nosso caso, uma relacdo linear entre as duas varidveis que deve agora ser expressa sob forma matemiética. Figura 1 — Diagrama de dispersio (dados da Tab. 1) Queremos tragar através dos pontos marcados uma linha reta de tal maneira que saindo de X conseguimos os melhores valo- res de predic&o de Y. Seria muito subjetivo tracar esta linha de ajustamento & mo livre, Diversos pesquisadores fariam linhas retas diferentes e, consequentemente, teriam equacées também diferentes. A linha reta tracada com a equacéo ¥ = a + bX 84 deve ter a caracteristica de ser a melhor reta de ajustamento, ‘onde, como é definido, a soma dos quadrados de todos os des- vios ‘verticais dos valores reais da linha reta é um minimo (2(%; — ¥,)? = mfnimo, Trabalhamos com 3 (y, —¥, )? porque a soma dos desvios © (¥y— Yj) seria zero. A reta resul- tante 6a chamada reta de minimo quadrado (iig. 2). 5 1 ' ' t ! 1 1 1 1 i t i 1 1 t t i 1 1 t 1 I It 1 I 1 t 1 1 1 voriével x wigura 2 — Desvios vertleals da reta de regressio (dados da Tab. 1). Na funco linear, a 6 0 interceptor sobre o eixo Y, ou seja, o valor de Y quando X 6 zero, sendo que a pode ser positivo, como na figura 2, negativo ou zero. Por sua vez, b & responsavel pela inclinaedo da linha reta, podendo ser positivo ou negativo. E chamado de coeficiente de regressao. Na figura 2 desenhamos todos os desvios verticais de uma linha. Os desvios abaixo da linha sio negativos, os acima, posi- tivos. Seria, teorieamente, poss{vel desenhar uma quantidade de 85 retas, fazendo cada vez 0 mesmo céleulo para achat (¥j—Y4)? um minimo, ‘Temos um outro meio através da determinagao dos parame- tros a e b segundo as equacées normais: na +b Xj = 32 ¥y a) ark +bPX =H A primeira equaco normal (1) é calculada multiplicando cada equacao de observacao pelo coeficiente de a (que é 1) e somando as equacées (tab. 1 e 2). Na segunda equacdo normal (2) multi- plica-se 0s membros de cada equacdo de observagao pelo respec- tivo coeficiente de b, somando as equagées em seguida (tab. 3). TABELA 1 TABELA 2 x y 10 24 24 +b C10 20 43 43 b (20) 29 33 33 +b (29 33 4 4. +b (33) 38 29 29 +b (38) 42 50 50 +b (42) 4a 46 46 +b (4 50 39 39 +b (50) 53 58 58 D538) 56 49 49 +b (58) 5.0 36 6 = la + b (60) 54 5a 54= la +b (60) 58 56 56 = 1a + b (68) 72 14 T4 = la +b C72 76 66 66 = la +b (76) 80 52 52= la +b (80) 85 60 80 = ia + b (85) 9.0 10 70 = ia +b (90) 100 62 62= 1a +b C100) 1073) 94.2 942 = 198 + bors) ne + bEXp 86 TABELA 3 240 19a + b 1,00) 800 oa + be 400) S57 29a + DC Bat) 1353, 3a + b¢ 10,80) 102 = 38a + b¢ 1448) 2400 = 42a + b¢ 17,64) 21,62 4a + be 2209) 3950 50a + BC 25,00) 30,74 Ba + bt 28,09) 2148 58a + b( 31,36) 2160 = 60a + b¢ 36,00) 3456 = 64a + b¢ 40,96) 38,08, gga + bt 48,24) 53,28 Ta + b¢ 5180) 50,16 qga + DC 57/76) 41/60 80a 4/00) ‘51,00 Ba 72,25) 63,00 90a 81,00) 6200 = 10,02 + b(100,00) 580,70 = 1070a + (712,97) EK,Yp= sR, + b Ux Segundo a equacéio (2) podemos escrever: BXY, — bax? a= 2X substituir na equacdo (1). BX, — b SX} n "+ pax, BX n 3X¥, nb 3x} ———— - ———_ + 3x BX 2X n 2X¥y n b2x? ——_ — 8% = —— — b3x BX fBX; n SX,¥j— BY, BX, =n b 3X} — b (BX)? 1 BSXy¥j— SYBX, = b (nBx} — (3X)?) a BYY— Bx, 3Y n 2X} — (BX)? ‘Assim, as equagées (1) e (2) podem ser reescritas da seguinte forma: 87 BXY- PRYY/n b SE (3) EP qExyn a=Y—bx (4) Com a determinagéio de ae b podemos achar ¥ = a seja, a linha do minimo quadrado. ‘Na Geografia, as observacdes raramente se colocam de forma exata sobre uma linha de regressio, ou seja, é raro que elas te- nham um relacionamento linear perfeito. Normalmente Y 6 86 parcialmente explicado através de X. Isto, segundo Norcliffe (1977), ocorre em funego de duas razées principais: a) os fend- menos que 0 gedgrafo estuda so geralmente de cardter multi- variado, ou seja, ume dada varidvel é influenciada através de muitas outras varlaveis de tal maneira que uma variavel inde- pendente, X, é 86 responsével para uma parte da variacdo em Y. Nessa situacdo podemos aplicar a regresséo multipla ¢ a varié- vel é substitufda através de um vetor de variavels, Xj, de tal maneira que ¥ > X1, Xo, Kg ....., Xp 5) Por outro lado, embora alguma variagéo em um fenémeno possa ser logicamente atribuida a um conjunto de variaveis explanatérias, sobra um componente impredizivel de forma ine- rente que é atribufdo a acontecimentos acidentais como sejam enchentes, abaixamento da temperatura ou mortes inesperadas numa familia, Devemos ressaltar que é fundamental saber e determinar que variavel numa determinada pesquisa é a variével independente equal a dependente, porque a regresso de Y para X nao é idén- tica com a de X para Y. A determinacdo da varidvel depen- dente ou independente deve ser decidida individualmente, na pesquisa. Em Geografia temos poucos exemplos onde as varid~ veis independentes e dependentes poderiam ser trocadas. A dependéncia da drea de pastagens artificiais com relacéo a quantidade bovinos/ha ou a dependéncia de bovinos/ha com relaco @ pastagens artificlais seria um exemplo de varidveis que podem ser dependentes ou independentes. Se X for a variével dependente e Y a independente devers mos fazer a minimizagéo da soma dos quadrados dos desvios norizontais em vez dos verticais, o que equivale 4 uma troca dos eixos X e ¥ (fig. 3). $6 no caso rarissimo de se tratar de uma relacio perfeita entre as duas varidveis, as retas do mfnimo quadrado coincidiriam; nos outros casos terfamos retas dife- rentes (fig. 4). bX, ou 88 1,32020 + 1,40696 Figura 3 — Regressio de x para y com desvios horizonatis da linha de regressdo (dados da ‘Tab. 1). Na regressiio de Y para X e de X para Y as retas passam pelo ponto X, ¥. Isto pode ser provado se escrevemos a formula (1) da seguinte maneira: EX, zy b fas n n =x Ly Assim, temos a indicac&io que o ponto se coloca n n sobre a linha de regressio e que, por consequéncia, a linha passa pelo ponto Xe ¥. 89 R= -4,32020 + 1,408967 Figura 4 — Retas de regressio de y part x nee ssressflo de y para x e de x para y (dados da ‘Se queremos determinar, numa pesquisa, segundo as formu- las para a e }, a regressio de Y para X, precisamos calcular =X, VEY, VK, Yj, EY Xe, ( UX,)2, Xe ¥. A melhor ma- noire de Proceder é construir uma tabela na forma expressa na. 90 TABELA 4 — CALCULO DA REGRESSAO LINEAR SIMPLES PARA 08 DADOS DA TABELA 1 x ¥ =m 10 2A 1,00) 20 43 400 29 33 sat 33 4a 1089 38 29 1444 42 50 1164 an 46 22,09 50 39 25,00 53 53 28,09 56 49 3136 60 36 36,00 8a 54 4096 68 56 46,24 12 4 514 78 66 51,76 80 52 64,00 85 80 72.25 90 70 81,00 100 2 100,00 1073) 94,2 T1297 Segundo as férmulas (3) ¢ (4) temos: 580,70 — 107,3.94,2/19 712,97 — 11513.29/19 4,95789 — 0,45528.5,04737 Assim, para 0 exemplo em questao a reta do minimo quadrado tem a equaco Y = 2,38676 + 0,45528X Oserva-se @ esta altura um fato muito importante, mas pouco mencionado, qual seja, a necessidade de realizar os cAlculos com grande numero de algarismos para achar a reta do minimo qua- drado, mesmo sabendo que do ponto de vista matemético este procedimento nfio é desejavel. A necessidade apontada decorre da constatagdo de que, somente calculando com o ntimero de algarismos recomendaveis, erros de arredondamento influencia- riam fortemente o valor dos parametros a e b. = 0,45528 a 2,38676 ot LIMITES DE CONFIANGA Depois de determinada a equagéo de regressio devemos pen- sar como construir os limites de confianca em torno da reta. Quase sem excecdo, a bibliografia existente refere-se a limites de confianca constantes, mostrados a seguir. Devemos ressaltar de novo que os valores para Y, dados atra- vés da reta de regressdo, so s6 as melhores estimativas. Assim, € desejvel calcular o erro padrao da estimativa de Y para X para poder indicar até que ponto os valores observados diferem provavelmente da estimativa da linha de regressio. O calcul & feito através da seguinte maneira: depois de ter sido determi- nado para cada valor de Xo valor estimado de Y, através da equacdo de regresso, subtraimos 0 valor estimado do valor ob- servado, recebemos os assim chamados residuos, que, no grafico, so as distdncias verticais entre cada observacao e a linha de regressio. O desvio padrao dos residuos mostra 0 desvio dos valores de Y em torno da linha de regressio. A férmula seria: = = ¥pt Pee ane 6) a n-2 Dividimos por n—2, porque dois graus de liberdade sao perdi- dos com a estimativa de a e b. Calculamos, assim, o erro padréo das estimativas. ‘No nosso caso, aplicando a formula acima, encontramos como resultado o seguinte valor: | 12.4621 ee * ‘VV 17 Com este valor de sy.x podemos colocar limites de confianca e desenhé-los no gréfico. As retas paralelas 4 reta de regressao de Y para X podem ser construfdas com as respectivas distan- cias de sy. x, 25y.x, 38y.x. Podemos determinar, se temos mui tos valores com uma distribuigéo mais ou menos normal, que com 68,26% de probabilidade os valores observadores nao séo mais distantes da linha de regress que + 1sy.x, com 95,44% de probabilidade os valores nao diferem de mais de + 2sy.x € com 99,74% de probabilidade nfo mais de + 3sy.x. Ou. em outras palavras, recebemos limites de confianca em relaco ao+ valores estimados através da linha de regressao. Estes limites de confianga em forma de linhas paralelas em torno da reta de regressio sio mostrados na maioria dos traba- Thos geograficos (Gregory, 1968; King, 1969; Toyne e Newby, = 0,85565 92 1971; Yeates, 1974; Taylor, 1977). Entretanto, , 1974; i » alguns autor 1978; Noreliffe, 1977) propéem, para detinir o erro padréo de. um valor estimado ao .ongo da reta de regressdo, intervalos de confiancga que, com mais distancia de X, so maiores, isto que a exatidao da estimativa etravés da réta de regressdo dimi nua com mais distancia de X. Os limites de confianca formam limites de confianca de forma hiperbélica quando 08 erros de jostragem nas estimativas dos parametros de regri a levados em consideragao. * aoe Os limites de confianca de forma hiperbélica tem um efeito importante no célculo de tendéncias, Neste caso os valores de X Tepresentam o tempo. Isto ocorre, por exemplo, quando que- remos fazer predigdes sobre o futuro desenvolvimento de uma vopulagao utilizando a analise de regresséo que se baseia sobre um determinado periodo colocado sobre 0 xo X, Se queremos fazer predicdes para um futuro mais distante, menos exatidao podemos esperar e, por consequéncia, menos util é a nossa pre- digdo para fins de ‘andllse e planejamento. O erro padrao da estimativa de ¥ 6: (X—X)2 + (6) n 2% KX) & preciso determinar sy para muitos valores de X. Par dete a poder colocar os limites de confianca para jy, 0 valor parsmbésieo que corresponde ao valor estimado ¥,, ao nivel de confianca di por exemplo 95%, sy 6 multiplicado com t 5 (encontrado nas tabelas estatisticas sobre valores criticos da distribuicdo / de Stu- dent, correspondendo a um teste bilateral), com n—2 graus ds Uberdade. No nosso exemplo da tabela 1 o valor critico de t, com 17 graus de liberdade, no nivel de confianga de 95% 6 2,110, a io intervalo de predigéo - tea predicéo para uma nova observa. @ A tabela 5 mostra para o nosso exemplo os respectivos valo- res de Y, do intervalo de confianca e do intervalo d Eles foram colocados no gratico 5° sheers 93 y voridvel x Figura 5 — Reta de regresséo com o Intervalo de confianga e o inter- vaio de predigo, ao nivel de confianga de 95% (dados da Tab. 1). Umites de confianca Umites de predicdo y 120 nivel de 95% ‘ao nivel de 95% 2,84208 315277 1,98181 46417 ogise1 3.20732 4.05678 253786 5.25597 1,88867 37707107 434069 3.07345 5.62045 ‘1779369 4.11682 sear7t 3,59193 5.99600 2123665 41682 seam 3150193 5,99600 2123665 4779408 3181380 6.16841 2'an0e7 4.97255 408081 6'38627 2166689 5,09248 423384 651892 2)80740 521834 438114 8.65805 2,94643 5,35000 4/52206 6778867 3.08399 511846 553717 469971 6g7178 3.26510 3,30085 5/13507 4/88603 715762 3,44358 5/4288 5.94312 5,02220 1734587 3161945 566478 6.15974 5.16882 1753682 29274 5,84689 6,38326 5.31052 7773080 3,30348 8)02900 661222 54578 792629 43171 6.25668 6.90827 5,60001 8.17470 4.33858 6.49428 ‘720107 5,76739 8142683 454173 6.93958 "7/g0480 607482 94161 4.99751 3. ANALISES DOS RESIDUOS Podemos, como mencionamos anteriormente, verificar cada ponto de observacdo da varidvel dependente em relac&o ao valor predito, indicado através da linha de regressio, e calculat os residuos, Yres, = (¥j — Yj). Considerando que, na Geografia, os valores séio muitas vezes relacionados a areas, ¢ interessante mapear os residuos e desta~ car as areas com valores reais acima da predicio ou abaixo da predicdo, Pequenos residuos indicam que existe grande corres- pondéncia entre o valor predi:o e 0 valor observado, Se temos uma correlacdo perfeita, ndo temos residuos. A carta mostraria claramente onde temos valores reais acima da predig&o, abaixo ou onde a predieao corresponde a realidade. O pesquisador deve tentar explicar este fenomero e tentar ‘encontrar possiveis outras varidveis desconhecidas que influenciam a variével depen- dente, A andlise dos residuos dé infclo a uma outra parte da pesquisa, tornando necesséria a formulacdo de novas hipdteses que nesta fase devem ser testadas para, finalmente, serem acei- tas ou rejeitadas, De interesse particular para a Geografia sao os residuos que caem fora do intervalo de contianga de, por exemplo, 95%. 4, CON ‘EITO DE CORRELAGAO Depois de ter sido detcrminada a reta de regresstio, podemos, através da anélise de correlaeao, medir o grau de associacéo entre as duas varidveis, Contrariamente & anéise de regressao, nao mais exprimimos uma como funeao linear da outra. Na andlise de correlacio nao existe mais esta distincdo entre a variavel dependente e a independente, Falamos da correlagéo entre X e ¥ e examinamos particularmente até que grau duas variaveis so interdependentes ou covariam, isto é, variam jun- tas, e determinamos a diregio dessa covariacéo. ‘A nossa preocupacdo, agora, é a de como medir a intensidade da relacdo entre duas varidveis, Existem muitos coeficientes de correlagdo na estatistica, sendo que 0 coeficiente de correlacio produto-momento (product moment correlation coefficient) de Karl Pearson, conhecido como r, é 0 mais utilizado. Ele é wma medida em forma de indice para indicar 0 grau de associacao Tnear entre duas varidveis, com dados na escala de intervalo ou de razéo. Como sabemos, cada ponto num grafico pode ser determinado pelas suas coordenadas, mas, por outro lado, podemos também. determind-lo em termos de seus desvios de X e Y, ou seja, em termos de (—X) e (X,¥,—Y¥). Assim, se temos duas varidveis, 95 Xe Y, a chamada covariacéo de Xe ¥ & 2K ¥ (Xi). (Yj-¥) e a covariancia € A covariancia tem muita semelhanca com a variancia, A pri- meira é medida absoluta e pode ser positiva, ou, contrariamente & variancia, negativa. Sendo o coeficiente de correlagdo uma medida padronizada, isto é, independente da escala original mensuragao, devemos dividir a covaridincia pelo desvio padrao da varidvel X e Y. Em termos matemiticos escrevemos (8) ou Pe VEE i —X)4) (HY) © coeficiente de correlagéo é medida relativa da _correlacdo entre as duas varidveis, Para 0 uso do computador é preferivel utilizar a formula (10), conseguida de maneira andloga & expli- cada por nés para a variancia e o desvio padrdo (Nentwig Silva, 1978: (9) nYX¥y — (2X) (ZY) re eee Vin =x} —(2X)4) In FY? © coeficiente de correlacdo pode variar entre +1¢e—1. Ble 6 positivo se com valores crescentes de X 0s valores de Y aumen- tam; é negativo se com crescentes valores de X os valores de Y diminuem (fig. 6c e 6d). Assim, r = +1 indica; perfeita associa- co positiva (fig. 6a); r = —1 perfeita associacdo negativa. ‘Se r =0 nao temos correlacao entre as duas variaveis (fig. 6b) © grafico mostra claramente como 0 coeficiente de correlacao muda segundo os diagramas de disperséo diferentes, Segundo ‘Toyne e Newby (1971), pode-se falar, em termos gerais, de alto grau de correlacao se temos um indice de ~ 0,7 até 1,0, de cor- Telagdo substancial, tendo um indice de + 0,4 até 0,7, de baixo grau de correlagdo se indice ¢ entre 1 0,2 até 0,4, e abaixo £0,2 a correlacdo é negligenciavel. (10) 96 Se r =0 as duas retas de regressfio (de Y para X e de X para Y) cortam-se com Angulo de 90°. Se r=1, as duas retas coinci- dem e 0 Angulo torna-se zero. Maior o valor de r, menor o Angulo entre as duas linhas de regresséo. ? 7 . 6 ¢ . . ‘ 2% 3 oe 2 2 oTEST IIa w OT ETI IIIT 0) CORRELAGHO PERFEITA bINENHUMA CORRELAGAO 2} re ore of ra-o,74 7 ? . * * o * 2 °, °. oT EST ET te TEiTesT Tew €) CORRELAGAO LINEAR Positiva 4) corReLagio Linear negariva Figura 6 — Exemplos de diagremas de correlagio. Como mencionamos anteriormente, praticamente néo se en- contra na Geografia uma associagdo perfeita resultando em um coeficiente de correlacio r=l, Por outro lado, devemos tomar cuidado na interpretacéo do coeficiente. Um alto valor de r no significa necessariamente que a relacdo indicada seja real, do ponto de vista geogrético. Pode-se tratar da chamada falsa cor- relaggo: as duas varidveis podem aparecer correlacionadas por 7 acaso e ndo porque existe um associacdo entre elas. Por outro lado, pode acontecer que as duas varidveis dependem de uma terceita, sendo que as duas em questdo nao possuem relacdo entre elas, Como exemplo, Fliri (1969), cita a frequéncia de nas- cimentos e 0 aparecimento de cegonhas. O coeficiente de cor- relacdo pode ser também alto porque o tamanho da amostra é pequeno. A anélise de correlacio deve ser utilizada particularmente para a verificacdo quantitativa das provaveis relagdes. O valor do eceficiente de correlac&o indica unicamente 0 grat de rela~ cdo estatistica e ndo indica unicamente o grau de trabalho do geégrafo encontrar a explicacdo, a causa do fenémeno, Por outro lado, devemos ainda destacar que um coeficiente de correlacdo zero nfo indica necessariamente que no hé rela- go entre as duas varidveis, # possivel que se trate de um outro tipo de correlacdo que nao seja linear, como a parabélica, Neste caso, 0 coeficiente de correlacéio indica unicamente que nao ha correlacdo linear. Se fosse construido um grafico de disper- so, como aconselhamos anteriormente, poderiamos rapidamen- te ver se se trata de uma correlacdo ndo linear ou de nenhuma correlacéo. Voltando para o nosso exemplo da tabela 1, caleulamos 0 coe- ficiente de correlagéo segundo a formula (10). Tendo j4 deter- minado na tabela 4 =X = 1073; ¥ Yj = 942; = xy 712,97; EX\¥i = 580,70, 2 S— 11513,29, falta s6 calcular "5 ¥}2 que € 501,66 e (5 Yj)? — 8873,64. Assim, para o nossy exemplo da tabela 1 poderemos escrevel (19). (680,70)—(107,3) (94,2) r [(49) . (712,97) —11513,29] . [ (19) . (501,66) —8873,64] 11033,30—10107,66 r [13546,43—11513,29] . [9531,54—8873,64] 825,64 r= [2033,14] . [657,90] 925,64 r=——_ 1156,55, r= 0,80 98 Para este exemplo 0 coeficiente de correlacdo é de 0,80, indi- cando estatisticamente um alto grau de ‘correlagdo positiva entre as duas variéveis. Queremos ainda destacar que o coeficiente de correlagdo é © mesmo, néo importando que a varlével X seja designada na andlise de regressdo como a variavel independente e a varidvel Y a dependente, ou o contrério, O quadrado do coeficiente de correlacéio chama-se coeficient= de determinacao (r2 e & expresso em porcentagem. Ele varia entre 0% e 100% devendo sem sempre positivo, O coeficiente indica a proporcdo da variagéo de Y explicada pela regressao, 0% indica que nenhuma variacdo em Y é associada com X € 100% indica que toda a vatiagéo em Y é associada com a varia- go em X. Para o nosso exemplo da tabela 1, 1? = 64, 0 que quer dizer que 64% da variaro em ¥ é associada com X. Podemos definir o coeficiente de determinagao também como © quociente entre a parte da variacao explicada através da reta de regressao e a variacao total. 2 (Y-¥)? , sendo que a raiz quadrada de 1? 0 coe- a ficiente de correlacéo. . A pergunta agora é quando é que o coeficiente de correla- 40 6 ainda significative? Formulamos a hipdtese de nulidade, Ho, que diz que 0 coeficiente observado aconteceu por acaso. A hipétese alternativa ¢ a de que o coeficiente ¢ maior do que se poderia esperar caso acontecesse por acaso. Sé uma das duas hipéteses é certa. Fazemos 0 teste através da distribuicéo 1 de Student com n—2 graus de liberdade: ry m2 Vi-r No nosso exemplo da tabela 1 temos: ,80\) 17 n ye 0, t= \/1—0,64 3,30 pe econ 0,60 t= 550 | © valor calculado de t é comparado com os valores eriticos da distribuicdo de t ja tabelados para diversos graus de liberdade e niveis de significancia (Taylor, 1977, p. 346; Noreliffc, 1977, p. 191). Para rejeitar a hipétese Ho os valores computados de~ ‘vem ser maiores do que 0s valores indicados na tabela. Podemos rejeltar para 0 nosso exemplo a hipdtese Ho a0 nivel de 0,1% e concluir que 0 coeficiente de correlacdo é altamente signi- ficativo. ‘Temos uma outra possibilidade mais répida para testar a significdncia da correlacdo. Foram jé tabelados os valores cri- ticos do coeficiente de correlagdo para diversos graus de libe: dade e niveis de significdncia, Para ser significante, ac nivel da significdncia escolhida, o valor absoluto de r calcuilado deve igual ou maior do que 0 valor tabelado (Bahrenberg e Giese, 1975, p. 293). Devemos ainda considerar um fato importante, O cosficient de correlacéo foi desenvolvido de uma distribuigao normal bidi mensional. Se temos outras distribuicées ele nao é claramente interpretavel e a interpretacdo deve ser feita com cuidado, A pressuposicdo da normalidade é necessiria se queremos fa- zer inferéncia estatistica, Em caso de acentuado desvio da nor- malidade podemos transformar os dados, por exemplo, através de logaritmos, para conseguir a pressuposi¢éo da normalidade. Concluindo, as anélises de regressdo e de correlacdo apresen- tam-se como métodos de pesquisa de inegével valor por possibi- litar ndo somente a verificacio de relacoes entre variaveis e para testar hipoteses, inas particularmente pelo seu valor pre- ditivo, contribuindo para a obtencdo de resultados objetivos. # preciso destacat também, com relacéo A analise de regressio, que 2 mesma néo deve se constituir em um fim em si mesma mas levar o pesquisador, especialmente através da anilise e mapeamento de residuos, a formular ciclicamente novas hipo- tese a serem testadas com 0 objetivo de tentar explicar a tota- lidade do fendmeno. Deve-se observar que tratamos neste artigo da anilise de re- gressio ¢ de correlacdo linear simples, onde so sO utilizadas duas variveis. Se queremos pesquisar como uma variével de- pende de duas ou mais varidveis, e examinar a relagdo entre um niimero de varidveis, entramos no assunto de regressio ¢ de correlagéo miltipla, a ser tratado separadamente. BIBLIOGRAFIA Bahrenberg, G. ¢ Giese, B, (1915). Stalistisehe Mehoden und ihre Anwen- dung in der Geographie. Stuttgart: Teubner, Fllri, F. (1969). Statistit und Diagramm. Braunschwelng: Westermann, Gregory, 8. (1968). Statistical methods and the geographer. 2.* ed. 100 London: Longman. Haworth, J. e Vineent, P. (1974), Calculation of prediction limits in linear regression. Area, 6(2):113-116, Hoffmann, R.e Vielra, 8. (1977). Andlise de regressdo: uma introduedo ‘a Econometria, So 'Paulo-HUCITEC ¢ EDUSP. King, L. J. (1969), Sattisticai analysis in geopraphy. Englewood Cliffs: Prentice-Hall, Mark, D. M, Peucker, Th, K, (1978). Regression analysis and geographic models. Le Géograpke Canadien, 22(1) 51-66. Nentwig Silva, B, C. (1978). Métodos quantitativos aplicados em Geo- grafla: uma introducio. Geografia, 8(6) 33-73. Noreliffe, G. B. (1977). Inferential statistics for geographers: an in~ troduciion. London: Hutckinson. sokaal, R. Re Rohlf, F, J. (1369), Biometry: The principles and practice ‘of statistics in Diologieal resedrch. San Francisco: Freeman. spiegel, M. R. (1974). Estatistica, Rio de Janciro: McGraw-Hill ‘Taylor, P. J, (1977), Quantitative methods in geography: an introduction to spatial analysis. Boston: Houghton Mifflin, ‘Toyne, P. ¢ Newby, P. T. (1971). Technigues in human geography. Basin~ stoke: Macmillan. ‘Yeates, M, (1974), An introduction to quantitative analysis in numan geography. New York: MasGraw-Hill ABSTRACT Simple linear regression and correlation analysis. This work analyses the use of simple regression and correlation in Geography as a con- tinuation of the author's effort in discussing the quantitative methods in his publication, First! of all, the concept of regression is analysed, followed by the construction of the confidence limits, the study of the residuals and, finally, the concept of correlation. Using a theoretical example, the author shows the utilization and the Importance of such methods in geographical research, 101

Você também pode gostar