Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introduo
1
Esse um debate polmico na Estatstica. Para o leitor interessado em aprofundar seus
conhecimentos na rea ver Aldrich (1995), Andres, Tejedor e Mato (1995), Blyht
(1994), Carroll (1961), Devlin, Gnanadesikan e Kettering (1975), Kronmal (1993),
Muddapur (1988), Niles (1921), OBrien (1979), Pearson, Fisher e Inman (1994),
Rodgers e Nicewander (1988), Schield (1995) e Stigler (1989). Para uma aplicao
prtica utilizando o SPSS ver Pallant (2007). Para uma aplicao prtica utilizando o
STATA ver Pollock (2006).
2
Para se aprofundar nesse debate sugerimos o seguinte: Almond (1990), Collier,
Seawright e Munck (2004), Geddes (2003), Gerring (2001), King, Keohane e Verba
(1994), Marsh e Stoker (2002) e Van Evera (1997).
3
Como nosso principal objetivo pedaggico, procuramos minimizar a formalizao
algbrica dos conceitos. Para o leitor interessado em um maior grau de detalhamento
tcnico sugerimos conferir a bibliografia citada.
1 xi X yi Y
r ( )( )
n 1 sx sy
4
O modelo linear esta baseado na funo linear, um caso particular da funo afim, que
tem domnio de (f: ) definida por f(x) = ax para todo x a R onde a 0.
5
Uma associao entre duas variveis pode ser descrito por outros modelos, como por
exemplo, o quadrtico: f: definida f(x) = ax+b+c, onde existem nmeros reais,
6
Para acompanhar o debate ver Aldrich (1995), Haig (2007) e Kozak (2009).
7
Correlao no deve ser confundida com relao de causa e efeito (causalidade). Para
uma anlise mais detalhada ver Asher (1983), Blalock (1971), Holland (1986) e Rubin
(1974).
8
Para uma discusso mais detalhada ver Carroll (1961).
x
z
9
O desvio padro uma medida de disperso dos valores em torno da mdia. Quanto
maior o seu valor, maior o grau de heterogeneidade dos casos vis--vis o valor da
mdia. Quanto menor, mais homognea a distribuio dos casos em torno do termo
mdio.
N (, )
10
Para dados categricos deve-se utilizar a correlao de Kendalls tau-b ou Spearman.
Para uma abordagem prtica ver Pallant (2007). Para uma discusso mais aprofundada
ver Tabachnick e Fidell (2007).
11
Existem diferentes testes para estimar a normalidade da distribuio dos dados. Por
exemplo, no teste de Kolmogorov-Smirnov um resultado no significativo (p>0,05)
indica normalidade. Outros testes de normalidade incluem Anderson-Darling, Cramer-
von Mises e Shapiro-Wilk. Graficamente, a normalidade pode ser observada a partir de
histogramas e Q-Q plots. Agradecemos ao parecerista annimo por nos lembrar desse
detalhe.
12
Em estatstica a hiptese nula (Ho) descreve o comportamento esperado de um
determinado conjunto de dados. No teste de hiptese, o pesquisador procura estimar em
que medida as evidncias coletadas permitem rejeitar a hiptese nula em funo da
hiptese alternativa Ha (em geral a hiptese de pesquisa) ou no. Por exemplo, suponha
que a Ho: =10. A hiptese alternativa (Ha) pode assumir que: Ha >10; Ha <10 (teste
unicaldal) ou Ha 10 (teste bicaudal).
Tabela 01 - Variveis X e Y
ID X Y
1 29 0,49
2 40 1,59
3 54 1,69
4 55 1,82
5 72 3,10
Mdia 50 1,738
Zx X 1 X
Sx
onde X1 representa o valor da observao 01 (29), X representa a mdia
(50) e Sx indica o valor do desvio padro (16,32). O mesmo deve ser feito
para Y. Depois disso, o pesquisador deve somar o produto cruzado dos
valores padronizados de X e Y (Zx * Zy). A tabela abaixo ilustra esse
procedimento.
13
Esses dados foram retirados de Moore (2007).
ID Zx Zy Zx *
1 -1,286 -1,345 1,730
2 -0,613 -0,160 0,098
3 0,245 -0,052 -0,013
4 0,306 0,008 0,027
5 1,348 1,46 1,978
1 xi X yi Y
r ( )( )
n 1 sx sy
14
Rodgers e Nicewander (1988) apresentam 13 diferentes frmulas para estimar o
coeficiente de correlao.
15
Na prtica, o pesquisador no precisa se preocupar em calcular essa medida j que os
diferentes pacotes estatsticos fazem isso de forma rpida e eficiente. No entanto,
consideramos importante entender a rationale do procedimento. Para uma excelente
introduo ao coeficiente de correlao ver Chen e Popovic (2002). Para um site
bastante informativo ver http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm.
Observao X1-3 Y1 Y2 Y3 X4 Y4
1 10 8,04 9,14 7,46 8 6,58
2 8 6,95 8,14 6,77 8 5,76
3 13 7,58 8,74 12,74 8 7,71
4 9 8,81 8,77 7,11 8 8,84
5 11 8,33 9,26 7,81 8 8,47
6 14 9,96 8,10 8,84 8 7,04
7 6 7,24 6,13 6,08 8 5,25
8 4 4,26 3,10 5,39 19 12,50
9 12 10,84 9,13 8,15 8 5,56
10 7 4,82 7,26 6,42 8 7,91
11 5 5,68 4,74 5,73 8 6,89
16
Para outros exemplos nesse sentido ver Magnusson e Mouro (2003). Agradecemos
ao parecerista annimo por essa observao pontual.
17
importante lembrar que muitas vezes um outlier pode representar simplesmente um
erro de digitao.
18
Ver Tufte (1976). O livro pode ser eletronicamente acessado a partir do seguinte
endereo: http://www.edwardtufte.com/tufte/
19
Essa relao tem sido tradicionalmente utilizada pelo professor Jorge Alexandre no
curso intensivo de Metodologia Quantitativa (MQ) em Cincias Sociais da UFMG. Por
consider-lo um excelente exemplo optamos por utiliz-lo. De acordo com o Houaiss, o
termo gulodice proveniente da alterao da palavra gulosice e remonta ao sculo XV.
No nordeste brasileiro a palavra gulodice usualmente utilizada para designar pessoas
que comem de forma excessiva.
20
Um dos objetivos centrais da estatstica fazer inferncias vlidas para a populao a
partir de dados amostrais. nesse sentido que a significncia estatstica, assim como o
intervalo de confiana, uma medida de incerteza a respeito de uma determinada
estimao. Para Moore (2007), a probabilidade, estimada assumindo que Ho
verdadeira, de que a estatstica assumiria um valor extremo ou maior do que foi de fato
observado chamado de p valor (Moore, 2007: 368). O p valor apresenta a
probabilidade dos valores encontrados a partir de dados amostrais serem representativos
dos parmetros populacionais, dado que a hiptese nula verdadeira. Quanto menor o
seu valor, maior a confiana do pesquisador em rejeitar a hiptese nula. No outro
oposto, valores altos do p indicam que a hiptese nula no pode ser rejeitada. Em
cincias sociais, comum adotar trs diferentes patamares para analisar o p valor: 0,1
(significativo no nvel de 10%); 0,05 (significativo no nvel de 5%) e 0,01 (significativo
no nvel de 1%). Para uma discusso sobre o assunto ver Blalock (1967), Carver (1978,
1993), Daniel (1998), McLean e Ernest (1998) e Sawilowsky (2003).
21
Incumbent um termo utilizado para designar os polticos que j ocupam um cargo na
Cmara dos Deputados.
22
Ver apndice para mais detalhes.
optado por inserir o controle em sua anlise. Em outras palavras, seja por
um motivo teoricamente orientado (incluso do controle), seja pela
excluso de uma das observaes 1990 ou 2006 (motivo aleatrio falta
de dados, por exemplo), o pesquisador poderia chegar ao mesmo
resultado ou a uma concluso diametralmente oposta. Para Geddes
(2003), relaes que parecem existir entre causas e efeitos em amostras
pequenas selecionadas a partir da varivel dependente podem
desaparecer e mesmo mudar de direo quando mais casos que
contemplam a amplitude da variao na varivel dependente so
examinados (Geddes, 2003:129). A tabela a seguir apresenta as
diferentes concluses possveis a partir da anlise desses dados:
23
Ver o trabalho seminal de Fisher (1921). Para um trabalho sobre as diferentes
contribuies de Fisher ver Anderson (1996).
2. Concluso
Por um lado, estima-se que o coeficiente de correlao de Pearson e
suas derivaes so escolhidos em 95% dos casos para descrever o
padro de relacionamento entre variveis ou para fazer inferncias
vlidas para a populao a partir de dados amostrais (Chen e Popovic,
2002: 09). Por outro, Carroll (1961) afirma que o coeficiente de
correlao geralmente utilizado de forma inapropriada (Carroll, 1961:
01) Mas o que significa dizer que duas variveis esto correlacionadas?
O principal objetivo desse artigo pedaggico. Procuramos apresentar as
principais propriedades do coeficiente de correlao de Pearson (r), suas
respectivas aplicaes e limites a partir de uma abordagem descritiva.
Alm disso, queremos chamar a ateno dos pesquisadores para as
aplicaes e os limites dessa medida na formulao dos seus desenhos de
pesquisa. Concordamos fortemente com a afirmao de que no a
estatstica que determina se relaes causais podem ser ou no
alcanadas (Chen e Popovic, 2002: 07). No entanto, acreditamos tambm
que o que distingue o conhecimento cientfico de outras formas de
conhecimento exatamente a utilizao sistemtica e rigorosa do
mtodo. Nesse sentido, compreender melhor o significado do coeficiente
de correlao de Pearson (r) um passo fundamental para lidar com os
problemas enfrentados pelos cientistas sociais em geral e pelos cientistas
polticos, em particular. Dessa forma, independente do que ser servido,
fil (explicao) ou picanha (interpretao), preciso que o chef
tenha habilidade suficiente para preparar esses pratos, caso contrrio,
corre-se o risco de oferecer um guizado de fil ou ensopado de picanha.
Apndice
Desvio padro
1
s ( xi X ) 2
n 1
Mdia
X
x1 x 2 ... xn 1 xi
n n
Padronizao
x
z
Correlao
1 xi X yi Y
r ( )( )
n 1 sx sy
Correlao parcial
Referncias Bibliogrficas
HAIR Jr., Joseph F.; ANDERSON, Ralph E.; TATHAM, Ronald T. &
BLACK, Willian C. (2005), Anlise Multivariada de Dados. Porto
Alegre, Bookman.
HOLLAND, Paul. W. (1986), Statistics and Causal Inference. Journal
of American Statistical Association, 81, 396: 945-960.
KENNEDY, Peter. (2009), A Guide to Econometrics. Boston: MIT Press.
KING, Garry. (2001), How not to lie with statistics: avoiding common
mistakes in quantitative political science. Disponvel em:
http://gking.harvard.edu/#
KING, Garry.; KEOHANE, Robert. & VERBA, Sidney. (1994),
Designing social inquiry: scientific inference in qualitative
research. Princeton: Princeton University Press.
KLECKA, William R. (1980), Discriminant Analysis. Beverly Hills,
Sage.
KOZAK, Marcin. (2009), What is strong correlation?. Teaching
Statistics, 31: 85-86.
KRONMAL, Richard A. (1993), Spurious Correlation and the Fallacy
of the Ratio Standard Revisited. Journal of the Royal Statistical
Society, 156, 3: 379-392.
LEEX (2009). Almanaque de dados eleitoriais. Disponvel em:
http://www.ucam.edu.br/leex/
MAGNUSSON, William E. & MOURO, Guilherme. (2003),
Estatstica sem Matemtica. Londrina, Editora Planta.
McLEAN, James E. & ERNEST, James M. (1998), The Role of
Statistical Significance Testing In Educational Research.
Research in the Schools, 5, 2: 15-22.
MOORE, David S. & McCABE, George. (2004), Introduction to the
practice of statistics. New York, Freeman.
MOORE, David S. (2007), The Basic Practice of Statistics. New York,
Freeman.
MUDDAPUR, M. V. (1988), A Simple Test for Correlation Coefficient
in a Bivariate Normal Distribution. The Indian Journal of
Statistics, 50, 1: 60-68.
NILES, Henry E. (1921), Correlation, Causation and Wrights theory of
Path Coefficients. Genetics, 7: 258.
O'BRIEN, Robert M. (1979), The Use of Pearson's with Ordinal Data.
American Sociological Review, 44, 5: 851-857.
OSBORNE, Jason & WATERS, Elaine. (2002), Four assumptions of
multiple regression that researchers should always test. Practical
Assessment, Research & Evaluation, 8, 2. Disponvel em:
http://PAREonline.net/getvn.asp?v=8&n=2