Você está na página 1de 209

UNIVERSIDADE FEDERAL DO PARAN

ANLISE DE CORRELAO: ABORDAGEM TERICA E DE


CONSTRUO DOS COEFICIENTES COM APLICAES

CURITIBA
2004

SACHIKO ARAKI LIRA

ANLISE DE CORRELAO: ABORDAGEM TERICA E DE


CONSTRUO DOS COEFICIENTES COM APLICAES

Dissertao apresentada ao Curso de PsGraduao em Mtodos Numricos em


Engenharia dos Setores de Cincias
Exatas e de Tecnologia da Universidade
Federal do Paran, como requisito parcial
obteno do Grau de "Mestre em
Cincias".
Orientador: Prof. Dr. Anselmo Chaves Neto

CURITIBA
2004

ii

AGRADECIMENTOS

Ao orientador e amigo Prof. Anselmo Chaves Neto, pelos conhecimentos


transmitidos desde o curso da graduao, pelo incentivo para fazer o Mestrado e pela
orientao na realizao deste trabalho.
Aos professores, colegas e amigos do Programa de Curso de PsGraduao em Mtodos Numricos em Engenharia.
Ao Prof. Fernando Lang da Silveira, da Universidade Federal do Rio Grande
do Sul, que, mesmo sem me conhecer pessoalmente, gentilmente enviou-me seus
trabalhos e sugeriu-me algumas leituras sobre diversas questes relacionadas ao tema.
Ao Instituto Paranaense de Desenvolvimento Econmico e Social (Ipardes),
que me apoiou na deciso de fazer o Curso de Mestrado, e possibilitou a utilizao do
software SAS e dos microdados da Pesquisa Mensal de Emprego (PME).
Ana Rita Barzick Nogueira e Estelita S. de Matias, que muito me
ajudaram na editorao e reviso final do texto.
Maria Luiza Pillati Loureno, pela orientao quanto s normas para as
referncias citadas no trabalho.
minha sobrinha Josiane, pela valiosa contribuio na localizao de
livros e trabalhos na biblioteca da UFRGS.
Ao meu esposo Herbert, pelo apoio irrestrito, pelo incentivo, carinho e
compreenso em todos os momentos, no s durante o desenvolvimento deste
trabalho, mas desde o momento em que decidi fazer o Curso de Mestrado.
Aos meus filhos Herbert Jnior e Bernard, pela compreenso nos
momentos em que estive ausente.
A todas as pessoas que, direta ou indiretamente, estiveram presentes na
realizao deste trabalho.

iii

SUMRIO

LISTA DE TABELAS ........................................................................................................

viii

LISTA DE QUADROS.......................................................................................................

ix

LISTA DE GRFICOS ......................................................................................................

RESUMO...........................................................................................................................

xi

ABSTRACT.......................................................................................................................

xii

1 INTRODUO ..............................................................................................................

1.1 PRELIMINARES.........................................................................................................

1.2 OBJETIVOS ...............................................................................................................

1.3 JUSTIFICATIVA .........................................................................................................

1.4 RESUMO HISTRICO...............................................................................................

1.5 APRESENTAO DOS CAPTULOS........................................................................

2 REVISO DE LITERATURA ........................................................................................

2.1 VARIVEL QUALITATIVA, QUANTITATIVA E ESCALAS ........................................

2.2 VARIVEL ALEATRIA.............................................................................................

2.3 PARMETROS ..........................................................................................................

2.4 DISTRIBUIES DE PROBABILIDADES .................................................................

10

2.4.1 Distribuio Discreta................................................................................................

10

2.4.1.1 Distribuio de Bernoulli.......................................................................................

10

2.4.2 Distribuies Contnuas...........................................................................................

11

2.4.2.1 Distribuio normal univariada .............................................................................

12

2.4.2.2 Distribuio 2 (qui-quadrado).............................................................................

14

2.4.2.3 Distribuio t de Student ....................................................................................

16

2.4.2.4 Distribuio F de Snedecor ..................................................................................

17

2.4.2.5 Distribuio normal multivariada ..........................................................................

19

2.5 ESTIMADORES DOS PARMETROS ......................................................................

24

2.6 MTODOS DE ESTIMAO DOS PARMETROS ..................................................

26

2.6.1 Mtodo de Mxima Verossimilhana.......................................................................

26

2.6.2 Mtodo dos Momentos ............................................................................................

27

2.7 TESTES PARAMTRICOS E NO-PARAMTRICOS..............................................

28

2.7.1 Testes Paramtricos................................................................................................

28

2.7.2 Testes No-Paramtricos........................................................................................

28

2.7.2.1 Testes de aderncia .............................................................................................

28

3 MEDIDAS DE CORRELAO .....................................................................................

30

iv

3.1 INTRODUO ...........................................................................................................

30

3.2 MEDIDAS DE CORRELAO ENTRE DUAS VARIVEIS.......................................

33

3.2.1 Coeficiente de Correlao Linear de Pearson e a Distribuio Normal


Bivariada .................................................................................................................

34

3.2.1.1 Estimadores de mxima verossimilhana ..........................................................

35

3.2.1.2 Suposies bsicas para a utilizao do Coeficiente de Correlao Linear


de Pearson ..........................................................................................................

39

3.2.1.3 Interpretao do Coeficiente de Correlao Linear de Pearson .........................

41

3.2.1.4 Fatores que afetam o Coeficiente de Correlao Linear de Pearson .................

45

3.2.1.5 Distribuio Amostral do Coeficiente de Correlao Linear de Pearson.............

50

3.2.1.6 Teste de hiptese para = 0 .............................................................................

62

3.2.1.7 Transformao Z de Fisher .................................................................................

66

3.2.1.8 Teste de hiptese para 0 ..............................................................................

69

3.2.1.9 Intervalo de confiana para .............................................................................

69

3.2.1.10 Confiabilidade ...................................................................................................

70

3.2.1.10.1 Confiabilidade de instrumentos de medida.....................................................

70

3.2.1.10.1.1

Correo de atenuao do coeficiente de correlao................................

76

3.2.1.10.1.2

Aplicao da correo de atenuao .........................................................

78

3.2.1.10.1.3

Aplicao da correo para restrio em variabilidade.............................

79

3.2.1.10.2 Confiabilidade em Sistemas de Engenharia ...................................................

80

3.2.1.10.2.1

Confiabilidade estrutural.............................................................................

81

3.2.1.10.2.2

Confiabilidade de sistemas ........................................................................

82

3.2.1.11 Teste de normalidade (Gaussianidade) ............................................................

84

3.2.2 Coeficiente de Correlao Bisserial ........................................................................

86

3.2.2.1 Introduo ............................................................................................................

86

3.2.2.2 Estimador do Coeficiente de Correlao Bisserial e do erro padro....................

87

3.2.2.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Bisserial ....

88

3.2.2.4 Aplicao do Coeficiente de Correlao Bisserial................................................

89

3.2.3 Coeficiente de Correlao Ponto Bisserial ..............................................................

91

3.2.3.1 Introduo ............................................................................................................

91

3.2.3.2 Estimador do Coeficiente de Correlao Ponto Bisserial e do erro padro .........

91

3.2.3.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Ponto


Bisserial................................................................................................................

94

3.2.3.4 Coeficiente de Correlao Ponto Bisserial e teste de mdias..............................

94

3.2.3.5 Aplicao do Coeficiente de Correlao Ponto Bisserial .....................................

95

3.2.4 Coeficiente de Correlao Tetracrico ....................................................................

96

3.2.4.1 Introduo ............................................................................................................

96

3.2.4.2 Estimador do Coeficiente de Correlao Tetracrico e do erro padro ...............

97

3.2.4.3 Suposies bsicas para a utilizao do Coeficiente de Correlao


Tetracrico ........................................................................................................... 100
3.2.4.4 Aplicao do Coeficiente de Correlao Tetracrico ........................................... 100
3.2.5 Coeficiente de Correlao de Spearman ................................................................ 101
3.2.5.1 Introduo ............................................................................................................ 101
3.2.5.2 Estimador do Coeficiente de Correlao de Spearman e significncia................ 102
3.2.5.3 Suposies para a utilizao do Coeficiente de Correlao de Spearman.......... 104
3.2.5.4 Aplicao do Coeficiente de Correlao de Spearman........................................ 104
3.2.6 Coeficiente de Correlao por Postos de Kendall................................................... 106
3.2.6.1 Introduo ............................................................................................................ 106
3.2.6.2 Estimador do Coeficiente de Correlao por Postos de Kendall e significncia....... 106
3.2.6.3 Aplicao do Coeficiente de Correlao por Postos de Kendall .......................... 107
3.2.7 Coeficiente de Correlao Phi................................................................................. 108
3.2.7.1 Introduo ............................................................................................................ 108
3.2.7.2 Estimador do Coeficiente de Correlao Phi e significncia ................................ 108
3.2.7.3 O Coeficiente de Correlao Phi e a Anlise de Agrupamento............................ 111
3.2.7.4 Aplicao do Coeficiente de Correlao Phi ........................................................ 111
3.2.8 Coeficiente de Contingncia.................................................................................... 112
3.2.8.1 Introduo ............................................................................................................ 112
3.2.8.2 Estimador do Coeficiente de Contingncia e significncia................................... 113
3.2.8.3 Aplicao do Coeficiente de Contingncia ........................................................... 114
3.2.9 Coeficiente de Correlao Eta................................................................................. 115
3.2.9.1 Introduo ............................................................................................................ 115
3.2.9.2 Estimador do Coeficiente de Correlao Eta e significncia................................ 116
3.2.9.3 O Coeficiente de Correlao Eta e a Anlise de Varincia .................................. 117
3.2.9.4 Aplicao do Coeficiente de Correlao Eta ........................................................ 117
3.2.10 Resumo dos Coeficientes de Correlao entre Duas Variveis............................ 118
3.3 MEDIDAS DE CORRELAO ENTRE DIVERSAS VARIVEIS............................... 119
3.3.1 Matriz de Correlaes ............................................................................................. 119
3.3.1.1 Anlise de Componentes Principais..................................................................... 119
3.3.1.1.1 Introduo ......................................................................................................... 119
3.3.1.1.2 Aplicao da Anlise de Componentes Principais ............................................ 121
3.3.1.2 Anlise Fatorial..................................................................................................... 122
3.3.1.2.1 Introduo ......................................................................................................... 122
vi

3.3.1.2.2 Aplicao da Anlise Fatorial ............................................................................ 126


3.3.2 Coeficiente de Correlao Mltipla e Parcial........................................................... 128
3.3.2.1 Introduo ............................................................................................................ 128
3.3.2.2 Suposies para a utilizao do Coeficiente de Correlao Mltipla................... 129
3.3.2.3 Estimador do Coeficiente de Correlao Mltipla ................................................ 130
3.3.2.4 Aplicao do Coeficiente de Correlao Mltipla ................................................. 136
3.3.3 Anlise de Correlao Cannica ............................................................................. 138
3.3.3.1 Introduo ............................................................................................................ 138
3.3.3.2 Aplicao da Anlise de Correlao Cannica .................................................... 140
4 RESULTADOS E DISCUSSO .................................................................................... 143

4.1 INTRODUO ........................................................................................................... 143


4.2 COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL E
TETRACRICO ......................................................................................................... 143
4.2.1 Clculo dos Coeficientes de Correlao ................................................................. 146
4.2.2 Comparao dos Erros Padro ............................................................................... 149
4.2.3 Comparao dos Coeficientes de Correlao Estimados ....................................... 150
4.3 AVALIAO DOS RESULTADOS ............................................................................. 151
CONCLUSES E RECOMENDAES ........................................................................... 153
REFERNCIAS ................................................................................................................. 155
APNDICE 1 - DISTRIBUIES AMOSTRAIS DO COEFICIENTE DE CORRELAO
LINEAR DE PEARSON

( ) ....................................................................

158

APNDICE 2 - DISTRIBUIES AMOSTRAIS DE Z ...................................................... 162


APNDICE 3 - TESTE DE NORMALIDADE .................................................................... 165
APNDICE 4 - APLICAO DO COEFICIENTE DE CORRELAO PONTO
BISSERIAL .............................................................................................. 172
APNDICE 5 - CLCULO

DOS

COEFICIENTES

DE

CORRELAO

DE

SPEARMAN E POR POSTOS DE KENDALL ......................................... 177


APNDICE 6 - PROGRAMAS UTILIZADOS ................................................................... 179
ANEXO 1 - CO-RELATIONS AND THEIR MEASUREMENT, CHIEFLY FROM
ANTHROPOMETRIC DATA ......................................................................... 186
ANEXO 2 - VALORES CRTICOS DO COEFICIENTE DE CORRELAO ................... 195

vii

LISTA DE TABELAS

1 COEFICIENTES DE CONFIABILIDADE E DE CORRELAO ENTRE OS ESCORES DAS


PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999.............................................
2

COEFICIENTE DE CORRELAO ENTRE OS ESCORES DA PROVA DE REDAO E OUTRAS


PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999.............................................

79
80

POPULAO MIGRANTE TOTAL E ECONOMICAMENTE ATIVA NAS ATIVIDADES URBANAS,


SEGUNDO MICRORREGIES DO PARAN - 1970.................................................................................. 105

SITUAO OCUPACIONAL DA POPULAO ECONOMICAMENTE ATIVA SEGUNDO GNERO,


NA RMC - AGOSTO 2003 ............................................................................................................................ 112

COEFICIENTE DE CORRELAO ENTRE VARIVEIS DAS EQUAES DE INFILTRAO E


PORCENTAGEM DE ARGILA E SILTE, EM JOO PESSOA .................................................................... 137

COEFICIENTES DE REGRESSO E CORRELAO MLTIPLA.............................................................. 138

viii

LISTA DE QUADROS

1 VALORES DE V1 E V2 SEGUNDO TAMANHO DA AMOSTRA ................................................................

67

2 ESTATSTICAS DA VARIVEL ALEATRIA X, SEGUNDO A ORDEM CRESCENTE...............................

85

3 COEFICIENTES DE CORRELAO DE PEARSON E BISSERIAL ENTRE A PONTUAO


TOTAL E RESPOSTA DE CADA ITEM, NO TESTE DE INTERPRETAO DE TEXTO DA 3.
SRIE, DAS ESCOLAS MUNICIPAIS DE ANDIR .....................................................................................

90

4 MATRIZ DE CORRELAO TETRACRICA SEGUNDO ITENS DO TESTE ALRGICO......................... 101


5 RESUMO DOS COEFICIENTES DE CORRELAO ENTRE DUAS VARIVEIS...................................... 118
6 MATRIZ DE CORRELAO ENTRE AS BANDAS LANDSAT-TM EM MACURUR - OUTUBRO 1987 ......... 121
7 AUTOVALORES E AUTOVETORES SEGUNDO COMPONENTES PRINCIPAIS ...................................... 122
8 NMERO DE FAXINAIS, SEGUNDO MUNICPIOS DA REGIO CENTRO-SUL DO PARAN AGOSTO 1997-JULHO 1998 ....................................................................................................................... 126
9 RANQUEAMENTO DOS FAXINAIS DA REGIO CENTRO-SUL DO PARAN - AGOSTO 1997JULHO 1998................................................................................................................................................. 127
10 CORRELAES CANNICAS ENTRE AS VARIVEIS DO GRUPO 1 E GRUPO 2 ................................. 142
11 CORRELAES CANNICAS ENTRE AS VARIVEIS DO GRUPO 2 E GRUPO 3 ................................. 142
12 PARMETROS UTILIZADOS NO PROCESSO DE SIMULAO PARA A OBTENO DAS
AMOSTRAS NORMAIS BIVARIADAS ......................................................................................................... 144
13 MDIA, DESVIO PADRO E MEDIANA DAS VARIVEIS ALEATRIAS X E Y, SEGUNDO O
TAMANHO DA AMOSTRA ........................................................................................................................... 144
14 DESVIOS PADRO DAS VARIVEIS X E Y, RAZO F E VALOR-P, SEGUNDO O TAMANHO DA
AMOSTRA.................................................................................................................................................... 145

) E ERRO PADRO, SEGUNDO O


15 COEFICIENTE DE CORRELAO LINEAR DE PEARSON (
TAMANHO DA AMOSTRA ........................................................................................................................... 147

b ) E ERRO PADRO,
16 COEFICIENTE DE CORRELAO BISSERIAL (

SEGUNDO

TAMANHO DA AMOSTRA .......................................................................................................................... 148

t ) E
17 COEFICIENTE DE CORRELAO TETRACRICO (

ERRO

PADRO, SEGUNDO O

TAMANHO DA AMOSTRA ........................................................................................................................... 149


18 ERROS PADRO DOS COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL
E TETRACRICO, SEGUNDO O TAMANHO DA AMOSTRA................................................................... 150
19 COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL E TETRACRICO E
ERROS RELATIVOS PERCENTUAIS, BISSERIAL E TETRACRICO, SEGUNDO O TAMANHO
DA AMOSTRA.............................................................................................................................................. 151

ix

LISTA DE GRFICOS

CORRELAO LINEAR POSITIVA PERFEITA ENTRE AS VARIVEIS X E Y..........................................

31

CORRELAO LINEAR NULA ENTRE AS VARIVEIS X E Y ...................................................................

31

CORRELAO LINEAR NEGATIVA PERFEITA ENTRE AS VARIVEIS X E Y ........................................

31

CORRELAO NO-LINEAR ENTRE AS VARIVEIS X E Y.....................................................................

32

DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON PARA


= 0,80 ......................................................................................................................................................

58

DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON PARA


= 0,80 ...................................................................................................................................................

58

DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON PARA = 0 .........

60

DISTRIBUIO AMOSTRAL DE Z PARA = 0,80 ...................................................................................

68

DISTRIBUIO AMOSTRAL DE Z PARA = 0 ........................................................................................

68

RESUMO
A Anlise de Correlao uma ferramenta importante para as diferentes reas do
conhecimento, no somente como resultado final, mas como uma das etapas para a
utilizao de outras tcnicas de anlise. Dentre as principais tcnicas que utilizam o
Coeficiente de Correlao esto a Anlise de Confiabilidade, a Anlise da Estrutura de
Varincia-Covarincia e o Teste de Normalidade ou Gaussianidade. importante,
desse modo, conhecer teoricamente os diferentes mtodos e as suposies bsicas
requeridas para a sua utilizao de forma adequada. Este trabalho apresenta os
mtodos de Anlise de Correlao, envolvendo variveis medidas em nvel intervalar,
nominal e ordinal e a Anlise de Correlao Cannica. Os Coeficientes de Correlao
Simples abordados no trabalho foram: Coeficiente Linear de Pearson, Coeficiente de
Correlao Bisserial, Coeficiente de Correlao Ponto Bisserial, Coeficiente de
Correlao Tetracrico, Coeficiente de Correlao Eta, Coeficiente de Correlao de
Spearman, Coeficiente de Correlao por Postos de Kendall, Coeficiente de
Correlao Phi e Coeficiente de Contingncia. O presente trabalho discutiu alguns
estudos realizados em diferentes reas de pesquisa, os quais mostram as aplicaes
dos diferentes coeficientes de correlao.
Palavras-chave: Coeficiente de Correlao; Medida de Associao; Anlise da
Estrutura de Varincia-Covarincia.

xi

ABSTRACT
Different research areas consider Correlation Analysis to be an important tool not
only as a final result, but also as one of the steps of other analysis techniques.
Among the main techniques making use of a Correlation Coefficient we can mention
Reliability Analysis, Variance-covariance Structure Analysis and Normality or
Gaussian Test. Thus, theoretically it is important to know different methods and the
basic assumptions required to using such methods adequately. The present work
shows Correlation Analysis methods involving variables measured at interval,
nominal and ordinal levels, and Canonical Correlation Analysis. This work addresses
the following Simple Correlation Coefficients: Pearson Linear Correlation Coefficient,
Biserial Correlation Coefficient, Point Biserial Correlation Coefficient, Tetrachoric
Correlation Coefficient, Eta Correlation Coefficient, Spearman Correlation Coefficient,
Kendall Rank Correlation Coefficient, Phi Correlation Coefficient and Contingency
Coefficient. The present work discusses some studies, carried out in different
research areas, showing different uses of different correlation coefficients.
Key words: Correlation Coefficient; Association Measure; Variance-covariance
Structure Analysis.

xii

1.1

INTRODUO

PRELIMINARES
A Anlise de Correlao e a Anlise de Regresso so mtodos estatsticos

amplamente utilizados para estudar o grau de relacionamento entre variveis.


A Anlise de Correlao fornece um nmero, indicando como duas
variveis variam conjuntamente. Mede a intensidade e a direo da relao linear ou
no-linear entre duas variveis. um indicador que atende necessidade de se
estabelecer a existncia ou no de uma relao entre essas variveis sem que, para
isso, seja preciso o ajuste de uma funo matemtica. No existe a distino entre a
varivel explicativa e a varivel resposta, ou seja, o grau de variao conjunta entre
X e Y igual ao grau de variao entre Y e X.

J a anlise de regresso, alm de medir a associao entre uma varivel


resposta Y e um conjunto de variveis independentes (X1, X2,..., Xp), tambm estima os
parmetros do comportamento sistemtico entre as mesmas. Necessita a especificao
da forma funcional que relaciona a varivel resposta s outras covariveis.
Quando o objetivo estudar a relao entre as variveis, nem sempre
necessrio um detalhamento como o da Anlise de Regresso, mas apenas determinar
o grau de relacionamento entre as variveis analisadas. Conforme descreve SIEGEL
(1975, p. 220): O estabelecimento da existncia de uma correlao entre duas variveis

pode constituir o objetivo precpuo de uma pesquisa (...). Mas tambm representar
apenas um passo, ou estgio, de uma pesquisa com outros objetivos, como, por
exemplo, quando empregamos medidas de correlao para comprovar a confiabilidade
de nossas observaes".
Dado um conjunto de variveis, pode haver somente uma relao
numrica, sem relao causal. Diz-se, neste caso, que a correlao entre as
variveis envolvidas espria, devido apenas coincidncia.

Para o desenvolvimento terico da Anlise de Correlao, so feitas


determinadas suposies sobre as variveis envolvidas na anlise. Na Anlise de
Regresso, as suposies so com relao aos erros do modelo ajustado.
Entretanto, na prtica, nem sempre possvel atender a tais suposies.
Quando as suposies no forem atendidas para a Anlise de Correlao,
so possveis os seguintes procedimentos:
-

utilizar os mtodos no-paramtricos;

adequar os dados s suposies atravs de uma transformao das


variveis envolvidas na anlise.

Foram abordadas, no presente trabalho, a Anlise de Correlao Simples


Linear e No-linear, Linear Mltipla, Anlise de Componentes Principais, Anlise
Fatorial e Correlao Cannica.
A Anlise de Correlao amplamente utilizada em Anlise de Confiabilidade, Anlise da Estrutura de Varincia-Covarincia e Teste de Normalidade
(Gaussianidade).

1.2

OBJETIVOS
Os objetivos deste trabalho foram:
a) Apresentar a teoria da Anlise de Correlao;
b) Discutir os principais mtodos e as suposies bsicas de cada
mtodo;
c) Comparar, mediante simulao, o Coeficiente de Correlao Linear de
Pearson com os Coeficientes de Correlao Bisserial e Tetracrico;
d) Apresentar as principais utilidades da Anlise de Correlao com
aplicaes.

Considerando que se trata de um assunto bastante amplo, o objetivo no


foi o de esgotar, mas de esclarecer algumas questes tericas, de forma a contribuir
na utilizao adequada dos mtodos discutidos na literatura que aborda o tema.
Assim, procurou-se fazer um detalhamento terico das tcnicas.

1.3

JUSTIFICATIVA
A Anlise de Correlao uma ferramenta importante para as diferentes

reas do conhecimento, no somente como resultado final, mas como uma das
etapas para a utilizao de outras tcnicas de anlise.
A importncia de conhecer teoricamente e em conjunto os diferentes
mtodos e as suposies bsicas requeridas por parte de cada um deles
fundamental, para que no se utilize medida de correlao inadequada.
comum o uso do Coeficiente de Correlao Linear de Pearson, por ser o
mais conhecido, mas em muitas situaes isto se d sem que se tenha a clareza de
que este coeficiente mede a relao linear entre duas variveis.
J alguns mtodos de uso mais restrito, tais como o Coeficiente de
Correlao Bisserial, Ponto Bisserial e o Tetracrico, so pouco abordados nas
literaturas clssicas de Estatstica.
Ao apresentar os diferentes mtodos de Anlise de Correlao e as
suposies bsicas para a sua utilizao, pretendeu-se contribuir para o uso
adequado de cada um deles, ilustrando com algumas aplicaes, atravs de
trabalhos j realizados em diferentes reas do conhecimento.

1.4

RESUMO HISTRICO
A teoria da anlise de correlao teve incio na segunda metade do

sculo XIX. Francis Galton (1822-1911) foi quem usou pela primeira vez os termos
correlao e regresso. Publicou em 1869 o livro Hereditary Genius, sobre a teoria
da regresso (SCHULTZ e SCHULTZ, 1992).

Galton adotou o termo regresso quando observou que filhos de homens


altos no so, em mdia, to altos quanto os pais, mas os filhos de homens baixos so,
em mdia, mais altos do que os pais. Deve-se a Galton a forma grfica de representar
as propriedades bsicas do coeficiente de correlao. O termo co-relao foi proposto
por Galton, pela primeira vez, em 1888 (SCHULTZ e SCHULTZ, 1992).
A correlao foi observada analisando-se medidas antropomtricas e
definida da seguinte forma1: Two organs are said to be co-related or correlated,
when variations in the one are generally accompanied by variations in the other, in
the same direction, while the closeness of the relation differs in different pairs of
organs. (GALTON, 1889, p. 238).
Seu aluno, Karl Pearson, desenvolveu a frmula matemtica que usamos
hoje e que tem seu nome em homenagem. O smbolo do coeficiente de correlao
amostral r vem da primeira letra da palavra regresso, em reconhecimento a Galton
(SCHULTZ e SCHULTZ, 1992).
No anexo 1, encontra-se o artigo sobre co-relao escrito pelo autor, na
ntegra.2

1.5

APRESENTAO DOS CAPTULOS


No segundo captulo, apresenta-se uma rpida reviso de literatura sobre

alguns conceitos, distribuies de probabilidades discreta e contnua, estimadores


de mxima verossimilhana e de momentos, testes paramtricos e noparamtricos, importantes para o desenvolvimento do terceiro captulo.

1Dois

rgos so ditos correlacionados quando a variao de um deles geralmente


acompanhada pela variao do outro, e na mesma direo, enquanto a proximidade da relao difere
em diferentes pares de rgos.
2O

artigo foi obtido no endereo eletrnico: <http://www.mugu.com/galton>.

O terceiro captulo trata da questo central deste trabalho, sendo


apresentados, alm da Teoria Estatstica da Correlao, os diferentes Mtodos de
Correlao para variveis medidas em nvel intervalar, ordinal e nominal, e suas
suposies bsicas e a Anlise de Correlao Cannica. Discutem-se, ainda, as
principais utilidades dos diferentes Mtodos de Anlise de Correlao com suas
aplicaes, atravs de trabalhos realizados em diversas reas do conhecimento.
No quarto captulo so feitas comparaes entre o Coeficiente de
Correlao Linear de Pearson e os Coeficientes de Correlao Tetracrico e
Bisserial, a partir de diferentes tamanhos de amostras, geradas por meio do
processo de simulao.
Finalmente, faz-se recomendaes para a utilizao dos diferentes
Mtodos de Anlise de Correlao envolvendo duas variveis e a possibilidade da
utilizao do Coeficiente de Correlao Linear de Pearson mesmo em situaes que
no envolvam variveis medidas em nvel intervalar.

2.1

REVISO DE LITERATURA

VARIVEL QUALITATIVA, QUANTITATIVA E ESCALAS


Toda pesquisa envolve construes tericas que o pesquisador deseja

comprovar. Para isso faz-se necessria a definio de variveis, atravs das quais
pode-se aferir as questes de interesse. Assim, possvel entender que a varivel
uma primeira forma de operacionalizar a construo terica. E pode-se afirmar que a
varivel uma caracterstica que pode ser medida. Uma varivel pode se apresentar
das seguintes formas, quanto aos valores assumidos:
1.o Escala nominal: aquela que permite o agrupamento da unidade de
observao (unidade da pesquisa) de acordo com uma classificao
qualitativa em categorias definidas, ou seja, consiste simplesmente em
nomear ou rotular, no sendo possvel estabelecer graduao ou
ordenamento. Ao se trabalhar com essa escala, cada unidade de
observao deve ser classificada em uma e somente uma categoria,
isto , deve ser mutuamente excludente. Citando um exemplo bastante
comum, considerando que X seja a varivel produo diria de peas
de automveis de uma determinada indstria, possvel classificar as
peas em perfeitas e defeituosas. Neste caso, a varivel X assume as
categorias perfeita e defeituosa, sendo denominada dicotmica.
Quando assume mais de duas categorias denominada politmica.
2.o Escala ordinal: permite o agrupamento da unidade de observao de
acordo com uma ordem de classificao. A escala ordinal fornece
informaes sobre a ordenao das categorias, mas no indica a
grandeza das diferenas entre os valores. Considerando a produo
diria das mquinas de uma fbrica de peas de equipamentos
eletrnicos, possvel classific-las em: primeira em produo,
segunda em produo, terceira em produo, e assim por diante.

3.o Escala intervalar: ocorre quando as unidades de observao, alm de


estarem numa ordem de classificao, possibilitam quantificar as
diferenas entre elas. Quando o zero est includo como uma medida,
chamada escala de razo. Como exemplo, seja a varivel X o nmero
de peas de automveis defeituosas produzidas diariamente numa certa
indstria, essa varivel pode assumir valores: 0, 1, 2, 3, ..., 1.000.
Sempre que possvel, prefervel utilizar a medida de escala de razo,
pois a partir desta pode-se transformar em escala intervalar, ordinal ou nominal, no
ocorrendo o inverso.
De acordo com o nvel de mensurao, a varivel pode ser classificada em
qualitativa ou quantitativa. Varivel qualitativa aquela cujo nvel de mensurao
nominal ou ordinal, enquanto a quantitativa aquela em que o nvel de mensurao
intervalar ou de razo.
A varivel quantitativa pode ser discreta ou contnua, sendo a primeira
resultante de contagem, assumindo somente valores inteiros, e a ltima de
medies, assumindo qualquer valor no campo dos nmeros reais.
Outra diferena entre os dois tipos de variveis est na interpretao de
seus resultados. A varivel discreta assume exatamente o valor a ela atribudo. Por
exemplo, quando se diz que uma mquina produziu 100 peas durante o dia, isto
significa dizer que a mquina produziu exatamente 100 peas no dia.
J a interpretao de um valor de uma varivel contnua a de ser um
valor aproximado, por no existirem instrumentos de medida capazes de medir com
preciso absoluta, e mesmo porque pode no haver interesse em se determinar um
valor contnuo com tanta preciso, considerando todas as suas casas decimais.
Portanto, se a varivel de interesse for o dimetro externo de uma pea, e este for
de 10,76 mm, o valor exato pode ser um valor entre 10,775 mm e 10,777 mm.

2.2

VARIVEL ALEATRIA
Varivel aleatria aquela cujo valor numrico no conhecido antes da

sua observao. Esta tem uma distribuio de probabilidades associada, o que


permite calcular a probabilidade de ocorrncia de certos valores.
A funo p(x), que associa as probabilidades aos valores da varivel,
chamada de funo de probabilidade (f.p.), no caso da varivel aleatria discreta, e
de funo densidade de probabilidade (f.d.p.), para varivel aleatria contnua.
Existem distribuies tericas de probabilidades para variveis discretas e
contnuas, que sero descritas adiante.

2.3

PARMETROS
O parmetro uma medida que descreve de forma reduzida uma

caracterstica, representada pela varivel, da populao ou universo. O parmetro


normalmente desconhecido, e deseja-se estim-lo atravs de dados amostrais.
Populao ou universo composto pelos distintos elementos (unidades
populacionais) que apresentam pelo menos uma caracterstica em comum, aos
quais os resultados do estudo devero ser inferidos.
importante distinguir a populao-alvo da populao amostrada, que
aquela da qual selecionada a amostra para o estudo. A populao-alvo ou
populao-objetivo aquela da qual se desejam informaes, e que deve coincidir
com a amostrada, porm algumas vezes, por razes de operacionalidade ou
comodidade, a populao amostrada mais restrita que a populao-objetivo. Neste
caso, deve-se ter claro que os resultados fornecidos pela amostra so vlidos para a
populao amostrada (COCHRAN, 1965).
A esperana matemtica E(X) de uma varivel aleatria X, que a mdia
da distribuio, definida, em CHAVES NETO (2003), por:
E( X) =

x P (X = x )
i

i=1

(2.1)

para varivel aleatria discreta, e por


E( X) =

(2.2)

xf ( x )dx

para varivel aleatria contnua.


A varincia da varivel aleatria, representada por V( X) ou 2 , definida
por:
V( X) = 2 = E(X E( X)) = E( X 2 ) [E( X)] 2
2

(2.3)

onde:

E( X 2 ) = x i2 PX ( X = x i )

(2.4)

i=1

para varivel aleatria discreta, e


E( X 2 ) =

x 2 f ( x ) dx

(2.5)

para varivel aleatria contnua.


Segundo MOOD, GRAYBILL e BOES (1974), se X uma varivel aleatria, o
r-simo momento3 de X, representado por mr , definido como mr = E( X r ) , se a
esperana existe. Observe-se que se r = 1 , tem-se m1 = E( X) = x , a mdia aritmtica.
Se X uma varivel aleatria, o r-simo momento centrado em "a"
definido como E [( X a)r ] . Se a = x , o r-simo momento centrado em x ser
m r = E [( X x )r ] . Fazendo r = 2 , obtm-se a varincia de X, como se pode verificar:
m 2 = E [( X x ) 2 ]

(2.6)

Uma funo que representa todos os momentos chamada funo


geradora de momentos (f.g.m.). A f.g.m., representada por mx(t) ou m(t), dada por:

3O

mtodo de estimao de parmetros, denominado Mtodo dos Momentos, foi uma das
contribuies de Karl Pearson.

10

[ ] e

m( t ) = E e tx =

tx

p( x )

(2.7)

x =0

se a varivel aleatria discreta, e por

[ ]

m( t ) = E e tx =

e tx f ( x ) dx

(2.8)

se a varivel aleatria contnua.


Conforme apresentado em MOOD, GRAYBILL e BOES (1974), se a funo
geradora de momentos existe, ento m( t ) continuamente diferencivel em alguma
vizinhana da origem. Calculando-se a diferencial da funo geradora de momentos
r vezes em relao a t, e fazendo t=0, tem-se:
r m(t)
t

t=0

[ ]

= E X r = mr

(2.9)

Se r = 1, tem-se E( X) = m1 (0) , e para r = 2 , E( X 2 ) = m2 (0) .


Portanto, uma vez conhecida a f.g.m. da distribuio da varivel aleatria,
a derivada primeira da f.g.m. em relao a t, no ponto t=0, fornece a E( X) , ou seja, a
mdia da distribuio, e a derivada segunda a E( X 2 ) .

2.4

DISTRIBUIES DE PROBABILIDADES

2.4.1

Distribuio Discreta
Dentre as distribuies de probabilidades discreta cita-se a de Bernoulli,

importante para o desenvolvimento do estimador do Coeficiente de Correlao Ponto


Bisserial, a ser tratada na seo 3.2.3.
2.4.1.1

Distribuio de Bernoulli
Uma varivel aleatria X tem distribuio de Bernoulli, segundo CHAVES

NETO (2003), se assume somente um de dois valores, 1 ou 0. A probabilidade de

assumir o valor 1 e a de assumir 0 (1 ) , ou seja:

11

PX ( X = 1) =

e PX ( X = 0) = 1

(2.10)

A funo de probabilidade (f.p.) de X dada por:

PX ( X = x ) = x (1 )1 x , x = 0, 1

, 0 < <1

(2.11)

Resultado 2.1: Os parmetros da distribuio de Bernoulli so: E( X) = e


V( X) = (1 ) .

Prova:

A esperana matemtica de uma varivel aleatria discreta definida por:


E( X) =

x P (X = x )
i

i=1

logo, E( X) = 0 0 (1 )

] + 1 [ (1 ) ] =
0

(2.12)

A varincia de uma varivel aleatria definida por: V( X) = E( X 2 ) [E( X)]

onde: E(X 2 ) = X i2PX (X = X i )


i=1

logo, E( X 2 ) = 0 2 0 (1 )

] + 1 [ (1 ) ] =
2

portanto, V( X) = [] = (1 ) .
2

(2.13)

Uma das aplicaes da Distribuio de Bernoulli est na anlise de


discriminao de um item, onde a resposta ao item certo ou errado.

2.4.2

Distribuies Contnuas
Dentre as distribuies contnuas, uma das mais importantes a

distribuio normal ou distribuio de Gauss.

12

Adolph Quetelet, estatstico belga, foi o primeiro a aplicar a curva normal


de probabilidade em 18704. Quetelet demonstrou que medidas antropomtricas de
amostras aleatrias de pessoas formavam uma curva normal. Ele utilizou o termo
lhomme moyen (o homem mdio) para exprimir a descoberta de que a maioria dos

indivduos se concentra em torno da mdia (centro da distribuio), e medida que


se afasta encontra-se um nmero cada vez menor (SCHULTZ e SCHULTZ, 1992).
A distribuio de muitas estatsticas de testes normal (Gaussiana) ou segue
alguma forma que derivada da distribuio normal, tais como t, 2 (qui-quadrado) e F.

2.4.2.1 Distribuio normal univariada


Uma varivel aleatria X tem distribuio normal ou distribuio Gaussiana,
segundo CHAVES NETO (2003), quando a sua funo densidade de probabilidade
(f.d.p.) dada por:
1

f X ( X) =

1
2

( ) , < <
X

, >0, < x <

(2.14)

Resultado 2.2: Os parmetros da distribuio normal univariada so: E( X) =

V( X) = 2 .

Prova:

A esperana matemtica de uma varivel aleatria contnua definida por:


E( X) =

E( X) =

xf ( x )dx

Fazendo z =

4Esta

( ) dx

1 X 2

, tem-se que dz =

dx

informao foi obtida no site:


http://stat-www.berkeley.edu/users/nrabbee/stat2/lecture5.pdf

13

E( X) =

E( X) =

E( X) =

( z + )

1
2

( z + ) e

1 2
z
2
dz

1 2
z
2
dz

1 2

z
0 + e 2 dz

2
1

=
e
dz
=

144424443
=1

(2.15)

A varincia obtida atravs de: V( X) = E( X 2 ) [E( X)]2

onde: E( X 2 ) = x 2 f ( x )dx

logo, E( X ) = x
2

Fazendo z =

( ) dx

1 x 2
2

, tem-se que dz =
1

ento: E( X 2 ) = ( z + ) 2

E( X ) =

E( X ) =

1
2
1
2

Fazendo: ze

z e
2

Para calcular

1 2
z
2

v = e

z e

= dv

1
z
2

1 2
z
2
dz

+ 2

1 2
z
2
dz

( z + 2z + ) e
2

dx

1 2
z
2
dz

1 2
z
2
dz

1 2
z
2
dz

+
ze
e

2
2

14442444
3
144
42444
3
=0
=1

1 2
z
2
dz

, faz-se integrao por partes.

z=u

dz = du

14

Obtm-se:

1
2

1 2
z
1

2
2 z
z e 2
z e 2 dz = 2

1
2

1 2
z
2
e
dz

E( X 2 ) = 2 (0 + 1) + 2 = 2 + 2
V( X) = 2 + 2 2 = 2

(2.16)

Quando se tem mdia=0 e varincia=1, a distribuio chamada normal


padro e representada pela varivel aleatria contnua Z. Ento,
X
Z=
~ N (0,1)

f z ( z) =

1
2

z2
e 2

(2.17)

zR

(2.18)

A Distribuio Normal tem grandes aplicaes na inferncia estatstica,


como testes de hipteses e intervalos de confiana.

2.4.2.2 Distribuio 2 (qui-quadrado)


Uma varivel aleatria X tem distribuio 2 , segundo CHAVES NETO
(2003), se sua funo densidade de probabilidade (f.d.p.) dada por:

1 1 1
fx (x) = x 2 e 2 , x > 0 , > 0
( 2 ) 2

Resultado 2.3: Os parmetros da distribuio 2 so: E( X) = e V( X) = 2


Prova: Tem-se que:

(2.19)

15

E( X) =

xf ( x )dx =

1
E( X) =
2 2 (2 )

x
2 2 (2 )

1 x
2 dx

xx 2 e

1 x
x 2 e 2 dx

2 2 (2 )

x 2 e

A funo gama generalizada definida por:

x
2 dx

xm e

ax n

m +1

n
dx = m+1
na

(2.20)

Assim, tem-se que:

+ 1 1
2
1
1

=
E( X) =


+1

2 2 1 1 2 2 2
2
2
2


2 2

1 2

2

+1

E( X) =

1
2 2 .2 2

(2.21)

A varincia da varivel X obtida por: V( X) = E( X 2 ) [E( X)]2

onde: E( X ) = x f ( x )dx = x
2

E( X ) =

22

2 2
2

1 x
x 2 e 2 dx

x>0

+1 x
x 2 e 2 dx

0
442443
1
Gama generalizada
2

+ 1 + 1 1

1
1
2
2

2
E( X ) =

+1+1


2
2 2 1 1 2
2 2
2


2

Portanto, V( X) = 2 + 2 2 = 2


+ 1
2 2

1 2

2

+2

= 2 + 2

(2.22)

16

Dentre as aplicaes da Distribuio Qui-quadrado cita-se a construo de


intervalos de confiana para varincias e testes de hipteses.

2.4.2.3 Distribuio t de Student


Uma varivel aleatria X tem distribuio t com graus de liberdade se
sua funo densidade de probabilidade (f.d.p.) dada por:
( + 1)

fX (x) =

, x R , > 0

1
( +1)
2

(2.23)

x
1 +

2
2

Resultado 2.4: Os parmetros da distribuio t so: E(T ) = 0 e V(T ) =

, >2

Prova:
Z

A distribuio t dada por T =

Tem-se que f ( z ) =

1
2

1 2
z
2

onde Z ~ N(0,1) e U ~ 2v

U
V

, z R

(2.24)

1 1 1
fx (x) = x 2 e 2 , x > 0 , > 0
( 2 ) 2

Z
1
= V E
= V E [Z] E

U V
U
U

Ento E(T ) = E

mas, E 1 =
U

f (u) du =

1 2
E
=

2
2

1
2

( )
2

u
2

du =


2 , portanto E(T ) =
v
2
2

A varincia dada por: V (T ) = E (T 2 ) [E (T )]2

u 2 e 2 du
0
1442443

gama generalizada
2

1
V 0E
=0
U

(2.25)

17
2

Z
1
onde: E(T ) = E
= VE Z 2 E
U
U V

[ ]

[ ]=

EZ

1 2
z
2
dz

e,

z e

1 2
z
2
dz

1 2
z
2
dz

z e
0
1
44244
3

=1

gama generalizada

mas,

1
E =
U

1
f (u)du =
u

22

(
)
u
2

u
2 du

22

u
2 du

u e
0
44244
3
1
gama generalizada
2

2

ento, E =
, portanto E (T 2 ) = 1
e V(T) =
.
=
2 2
2
U 2

(2.26)

Dentre as utilizaes da Distribuio t, citam-se os testes de hipteses e


intervalos de confiana para amostras pequenas (n < 30) e testes de hipteses para
coeficiente de correlao amostral.

2.4.2.4 Distribuio F de Snedecor


A varivel aleatria X tem distribuio F de Snedecor com 1 e 2 graus de
liberdade se sua funo densidade de probabilidade (f.d.p.) dada por:
1

( 1 + 2 ) 1
2
2
fx (x) =

1 2
2 2

x2

1
1 + 2

1
x
1 +
2

x R , 1, 2 > 0

(2.27)

Resultado 2.5: Os parmetros da distribuio F de Snedecor so:


E( X) =

2 2

2 > 2

e V( X ) =

2 22 ( 1 + 2 2)

1 ( 2 2) 2 ( 2 4 )

2 > 4

Prova:

Seja

X=

U 1
~ F1, 2
V 2

U 1 2 U
E
=
V 2 1 V

ento E( X) = E

(2.28)

18

E( X) =

2
1
E [U].E
1
V

E(U) = 1

1
1
E =
2
V
2 2 2
2

1 22 2 V2
v
e dv
v

1
E =
V

1

2 2

2
1

2 2
2

v
2

dv

0 4
1
4244
3

gama generalizada

2
( 2 2 )
2
2
2
2

2 1 1
1
1

E =
=

2 2
2 2
V
2
2

Ento, tem-se que E(X ) =

2
2
1
=
1
1 2 2 2 2

V( X) = E( X 2 ) [E( X)]

U 2 2 U 2 2
1
1
= 2 E 2 = 2 E U 2 E 2
E( X 2 ) = E

V
V 1

V
2

[ ]

( )

E U 2 = u 2 f (u)du = u 2
0

( )

E U2 =

( )

E U2 =

1

1 2
2

1 1
2

e 2 du

1 + 1
u

1
2
2
u
e
du
1 21
0
2
142
4 43
4
2
Gama generalizada

1
1
1 2 2
2

+ 1 1 + 1

2
2
= ( + 2)
1
1
1
+2
2
1

2

(2.29)

19

1
E 2 =
V

1
E 2 =
V

1
2
2 2 2
2

1

2 2
2

1
v

2
2

v
2

2
2

dv =

v
2

dv

2 2
2

1

2 2
2

2
2

1

2

2
2

( 2 4)( 2 2)

E X2 =

22
1
1 ( 1 + 2)
2
( 2 4 )( 2 2)
1

V( X) =

22
2 22 ( 2 + 1 2 )
22
1
(
)
+
2

1
1
( 2 4 )( 2 2) ( 2 2)2 1 ( 2 4 )( 2 2)2
12

( )

(2.30)

Dentre as aplicaes da Distribuio F possvel citar a anlise de


varincia (ANOVA) e anlise de regresso.
2.4.2.5 Distribuio normal multivariada
A funo densidade de probabilidade da distribuio normal multivariada
uma generalizao da normal univariada para p 2 dimenses (JOHNSON e
WICHERN, 1988).

Relembrando a funo densidade de probabilidade da distribuio normal


univariada, apresentada na seo 2.4.2.1, que :
f X ( X) =

( ),

1 X 2

< < , > 0, < x <

esta notao poder ser estendida para o caso multivariado. O termo


2

X
= (X ) 2

( )

(X )

pode ser generalizado para o vetor X de dimenso p 1

de observaes de vrias variveis como X 1 (X ) . O vetor de dimenso


p 1 representa o valor esperado do vetor aleatrio X e a matriz de dimenso
p p sua matriz de varincia-covarincia. Assume-se que a matriz simtrica
definida positiva e, ento, a expresso X 1 X o quadrado da distncia

generalizada de X at .

) (

20

A funo densidade da distribuio normal multivariada obtida


substituindo a distncia univariada pela distncia generalizada multivariada. Quando
isto feito, a constante (2)1/ 2 ( 2 )

1 / 2

deve ser substituda para uma constante que

represente o volume sob a superfcie da funo densidade multivariada. Isto pode


ser feito, conforme descrito em JOHNSON e WICHERN (1988), quando esta
constante for (2)p / 2

1 / 2

, onde p a dimenso do vetor aleatrio X = [X1, X 2 ,..., Xp ] .

A funo densidade de probabilidade ser dada por:

f X ( X) =

(2)p / 2 1/ 2

1
X 1 X

, < X i < , i = 1, 2,..., p

(2.31)

R p , definida no negativa.
Representa-se esta funo densidade por Np (, ) , onde a matriz de
varincia-covarincia, ou seja, V( X) = E [( X ) ( X )] e E ( X) =
Os estimadores de mxima verossimilhana de e so apresentados a
seguir, conforme demonstrados em JOHNSON e WICHERN (1988, p.140):

= X

onde S =

1
=
n

1
n 1

(X
n

j=1

(n 1)S
X Xj X =
n

)(

(X X)(X X)

(2.32)

(2.33)

j =1

A distribuio normal bivariada um caso particular da multivariada para


p = 2.
Se as variveis aleatrias X e Y, normalmente distribudas, tm distribuio
normal bivariada, ento sua funo densidade de probabilidade (f.d.p.) dada por:
fX,Y ( X, Y ) =

1
2XY

X X 2
1
X X Y Y Y Y

+
exp
2

2
X Y Y
1 2
2(1 ) X

X R , Y R , X R , Y R , X R+ , Y R+ e 1 1

(2.34)

21

A funo geradora de momentos desta distribuio, conforme apresentada


em MOOD, GRAYBILL e BOES (1974), :
m ( t 1, t 2 ) = e

t1 X + t 2 Y +

1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2

(2.35)

Tem-se, assim, os seguintes resultados:


Resultado 2.6: As mdias (parmetros) das variveis aleatrias X e Y, com

distribuio normal bivariada, so X e Y , respectivamente.


Prova:

Calculando-se a derivada primeira da funo geradora de momentos em


relao a t1, no ponto t1 e t2 iguais a zero, tem-se:
E ( X) =

m( t 1, t 2 )
t 1

E ( X) = e

t1 X + t 2 Y +

t1, t 2 = 0

1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2

X + t 1 X + t 2 X Y
2

t 1, t 2 = 0

E ( X) = X

(2.36)

Da mesma forma, calculando-se a derivada primeira da funo geradora de


momentos em relao a t2, no ponto t1 e t2 iguais a zero, tem-se:

E (Y) =

m(t 1, t 2 )
t 2

E (Y) = e

t1 X + t 2 Y +

E (Y) = Y

t1, t 2 = 0

1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2

Y + t 22Y + t1XY

t1, t 2 = 0

(2.37)

22

Resultado 2.7: As varincias (parmetros) das variveis aleatrias X e Y, com

distribuio normal bivariada, so 2X e 2Y , respectivamente.


Prova:

Calculando-se a derivada segunda da funo geradora de momentos em


relao t 1 , no ponto t 1 e t 2 iguais a zero, tem-se:
E (X2 ) =

2 m ( t 1, t 2 )
t 12

t1, t 2 = 0

E(X 2 ) = 2X + 2X

Tem-se que V(X) = E(X 2 ) [E(X)]2 , logo


V(X) = 2X

(2.38)

Da mesma forma, obtm-se:


E(Y 2 ) = 2Y + 2Y e V(Y) = 2Y

(2.39)

Resultado 2.8: O coeficiente de correlao (parmetro) entre as variveis aleatrias


X

e Y, com distribuio normal bivariada, igual a

= x, y =

, definida por:

COV( X, Y )

XY

Prova:

A covarincia de X e Y dada por:


E[(X X )(Y Y )] = E[XY X X Y Y + X Y ] = E[XY] X Y

(2.40)

Para se obter momentos conjunto, diferencia-se m( t 1, t 2 ) , r vezes em


relao a t 1 e s vezes em relao a t 2 e faz-se t 1 e t 2 iguais a zero.
Ento, tem-se que: E ( XY ) =
E(XY ) = X Y + X Y

2 m( t 1, t 2 )
t 1t 2

t 1, t 2 = 0

23

E(XY ) X Y = X Y

E [(X X )(Y Y )] = X Y

onde o coeficiente de correlao entre X e Y e pode-se escrever:

= x, y =

COV( X, Y )

(2.41)

XY

Resultado 2.9: O Coeficiente de Correlao populacional varia entre 1 e +1, ou

seja, 1 1.
Prova: A correlao entre duas variveis X e Y definida por:

= x, y =

COV ( X, Y )

XY

onde: X o desvio padro de X;

Y o desvio padro de Y;
COV( X, Y ) a covarincia entre X e Y.

A varincia de qualquer valor sempre positiva, por definio. Assim:


Y
X
+
V
0
X Y

(2.42)

Usando a propriedade da varincia, tem-se:


X
Y
X Y
V
,
+ V
+ 2COV
0

X
Y
X Y
1

2
X

V( X) +

1+ 1+
1+

XY

XY =

XY

COV( X, Y ) 0

COV( X, Y )

XY

V( Y ) +

2
Y

COV( X, Y )

XY

COV( X, Y ) 0

24

De forma anloga:
X
Y
0

V
X Y
X
V
X
1

2
X

V( X) +

1+ 1
1

Y
+ V

Y
1

XY

x,y =

X Y
2COV
,

X Y

V( Y )

2
Y

XY

COV( X, Y ) 0

COV( X, Y ) 0

COV( X, Y )

XY

(2.43)

COV( X, Y )

XY

Portanto:
1 x, y 1

2.5

(2.44)

ESTIMADORES DOS PARMETROS


No caso das distribuies de probabilidades tericas descritas na seo

anterior (2.4), os parmetros podero ser estimados atravs de estimador ou estatstica.


Estimador ou estatstica uma funo dos valores da amostra, ou seja, uma
varivel aleatria, pois depende dos elementos selecionados para compor a amostra.
Deve-se sempre levar em conta as qualidades de um estimador. Um bom
estimador deve possuir as seguintes propriedades:
1.o Ser no-viciado, ou seja, E(T ) =

onde T = estimador
= parmetro

2.o Ser eficiente (mnima varincia)


Tendo dois estimadores T1 e T2 , a serem utilizados para estimar o mesmo
parmetro , T1 ser dito mais eficiente que T2 se para um mesmo tamanho de

25

] [

amostra E (T1 )2 < E (T2 )2 , sendo T1 e T2 estimadores no-viciados de . Esta


condio indica que a varincia de T1 menor que a varincia de T2 .
3.o Ser consistente

Um estimador dito consistente se lim P( T ) = 0 , > 0 .


n

Se o estimador for no-viciado, a condio de consistncia equivale a dizer


que sua varincia tende a zero quando n tende a crescer infinitamente, ou seja,
lim V(T ) = 0 e lim E(T ) = , onde o parmetro.
n

Isto significa dizer que, medida que se aumenta o tamanho da amostra (n),
a diferena entre a estimativa e o parmetro diminui, chegando a coincidir quando
n = N (tamanho da populao).
4.o Ser suficiente
O estimador ou estatstica suficiente para estimar um parmetro
quando uma funo dos valores da amostra, e resume todas as informaes que a
mesma tem sobre o parmetro. Portanto, um estimador suficiente aquele que
depende somente dos dados amostrais.
Uma forma simples de obter-se estatsticas suficientes usar propriedades
das distribuies da famlia exponencial uniparamtrica ou k-paramtrica, conforme
definies apresentadas em CHAVES NETO (2002a).
Definio 1: Uma varivel aleatria em R possui distribuio da famlia exponencial

uniparamtrica se a sua funo de probabilidade (f.p.) ou funo densidade de


probabilidade (f.d.p.) da forma f ( x / ) = {exp[c()T( x ) + d() + S( x )] }I A ( x ) , onde ,
intervalo aberto de R e o conjunto A = {x / f ( x / ) > 0} independente de , com I
sendo a funo indicadora.
Definio 2: A famlia de distribuio {P ; } dita famlia exponencial com k

parmetros ou k-paramtrica se existem as funes de valor real c 1, c 2 ,..., c k e d() ,


e, ainda, T1, T2 ,..., Tk , funes de varivel real, e tambm S, definidas em R n , e um
conjunto A R n , tal que a f.d.p. (ou f.p.) P pode ser escrita na forma:

26

p( X, ) = exp c i ()Ti ( X ) + d() + S( X ) I A ( X )


i=1

Pelo Teorema da Fatorizao o vetor T( X) = [T1 ( X ),..., Tk ( X)] suficiente para


= (1, 2 ,..., k ) .

Teorema da Fatorizao ou de Neyman-Fisher: Seja uma amostra aleatria

[X1, X 2 ,..., Xn ]

de uma distribuio f ( x; ) , . A estatstica T( X) suficiente para

se e somente se existe funo g( t, ) , definida para todo t e para todo , e


h ( X)

definida em R n tal que: P ( X,) = g (T ( X ),) h ( X ) .


Cita-se, ainda, o Teorema da Famlia Exponencial para Estatsticas

Suficientes e Completas:
Seja

{P

/ }

uma

famlia

exponencial

p( X, ) = exp c i ()Ti ( X ) + d( ) + S( X ) I A ( X ) .
i=1

C = [C 1 (), C 2 (),..., C k ()]

Suponha

k-paramtrica
que

dada

por

variao

de

tenha um interior no-vazio. Ento T( X ) = [T1( X ),..., Tk ( X )]

uma estatstica suficiente e completa.

2.6

MTODOS DE ESTIMAO DOS PARMETROS


Diferentes mtodos foram desenvolvidos para a estimao dos parmetros.

Citam-se os mtodos de mxima verossimilhana e o dos momentos.

2.6.1

Mtodo de Mxima Verossimilhana


Tem-se que X a varivel aleatria, e o parmetro. A funo de

verossimilhana L a funo onde passa a ser a varivel e X uma informao


dada, de forma que L(, X ) = p(, X ) .
No mtodo da mxima verossimilhana, procura-se achar o valor u( x ) do
parmetro que maximiza L(, X ) para cada valor de X. Sendo possvel isso, u( x ) o
estimador de mxima verossimilhana de .

27

Sendo a funo logaritmo natural (ln) uma funo estritamente crescente, o


valor mximo de p(, X ) ir ocorrer no mesmo ponto do valor mximo de ln[L(, X )] .

()

Existindo o estimador de mxima verossimilhana , deve-se verificar:


ln[p(, X )]
= 0 em =

Deve-se citar um teorema importante para a obteno do estimador de


mxima verossimilhana, apresentado em CHAVES NETO (2002a):
Teorema da Famlia Exponencial para Estimador de Mxima Verossimilhana

i=1

Seja p( X, ) = exp c i ()Ti ( X) + d() + S( X) I A ( X) ,


denota o interior da variao de c(),

XA,

e seja C que

{c 1(), c 2 (), c 3 (),..., c k ()} .

Se as equaes:

E Ti ( X ) = Ti ( X ) para i = 1, 2, 3,..., k tm soluo = 1 ( X), 2 ( X ),..., k ( X ) para as quais

{c ( ( X)), c
1

} C ,

2 ( ( X )),..., c k ( ( X ))

ento

o nico estimador de mxima

verossimilhana de .
2.6.2

Mtodo dos Momentos


um mtodo para obter estimadores de parmetros, baseado na

combinao do momento amostral com a correspondente distribuio de momentos.


Seja mj = E(X j ) , que representa o j-simo momento de X no ponto 0.
Seja Mj o j-simo momento amostral dado por:
Mj =

1
n

j
i

, j = 1, 2, 3,..., k

i=1

Formando as equaes:
Mj = mj = f (1, 2 ,..., k ) , j = 1, 2, 3,..., k

Admitindo-se que tem soluo nica, j ( X1, X 2 ,..., X k ) , j = 1, 2, 3,..., k . Estes


k

estimadores, soluo do sistema de equaes, so os estimadores dos

parmetros pelo mtodo dos momentos.

28

2.7
2.7.1

TESTES PARAMTRICOS E NO-PARAMTRICOS


Testes Paramtricos
Quando possvel conhecer a distribuio de probabilidades terica da

varivel em estudo, pode-se estimar os parmetros e realizar testes de hipteses


para os mesmos de forma otimizada. Estes testes so conhecidos como testes
paramtricos.
Os testes paramtricos incluem o requisito de que a varivel em anlise
tenha distribuio de probabilidade conhecida. Tambm supem que a varivel tenha
sido medida no mnimo em nvel intervalar, e para alguns casos h a necessidade de
as variveis envolvidas terem as varincias homogneas (homocedasticidade).

2.7.2

Testes No-Paramtricos
Um teste no-paramtrico quando no h suposies formuladas sobre a

natureza ou a forma das distribuies populacionais. Estes testes so chamados


tambm de testes livres de distribuio. Dentre os testes no-paramtricos citam-se
os de aderncia.

2.7.2.1 Testes de aderncia


A hiptese a ser testada refere-se forma da distribuio da populao.
Admite-se, por hiptese, que a distribuio da varivel em estudo siga o
comportamento de uma distribuio terica de probabilidade, na populao.
Dentre os testes de aderncia mais comuns cita-se o Qui-quadrado e de
Kolmogorov-Smirnov.
No mtodo de Kolmogorov-Smirnov a estatstica do teste a maior
diferena observada entre a funo de distribuio acumulada da distribuio terica
e a da varivel em estudo.

29

O teste consiste na verificao do valor

d = max F( x ) G( x )

e da

comparao com um valor crtico tabelado em funo do nvel de significncia ( ) e


o tamanho da amostra (n). O teste unilateral, rejeitando-se a hiptese H0 de que a
varivel em estudo segue a distribuio de probabilidade ajustada na populao, se
d for maior que o valor crtico.

No mtodo qui-quadrado calcula-se a estatstica atravs da expresso:


2 =

(foi f ei )2

i=1

f ei

(2.45)

onde: 2 o qui-quadrado calculado;


foi a freqncia observada de uma determinada classe ou valor da varivel;
fei a freqncia esperada, segundo modelo testado, dessa classe ou valor

da varivel;
n=

i=1

foi =

ei

o nmero de observaes da amostra;

i=1

k o nmero de classes ou valores distintos observados na amostra.

O teste tambm unilateral e rejeita-se H0 quando o valor de 2 calculado


for superior ao valor crtico.

30

3.1

MEDIDAS DE CORRELAO

INTRODUO
Em estudos que envolvem duas ou mais variveis, comum o interesse

em conhecer o relacionamento entre elas, alm das estatsticas descritivas


normalmente calculadas.
A medida que mostra o grau de relacionamento entre duas variveis, como
se viu no Captulo 2, chamada de coeficiente de correlao. tambm conhecida
como medida de associao, de interdependncia, de intercorrelao ou de relao
entre as variveis.
Diferentes formas de correlao podem existir entre as variveis. O caso
mais simples e mais conhecido a correlao simples, envolvendo duas variveis, X
e Y. A relao entre duas variveis ser linear quando o valor de uma pode ser
obtido aproximadamente por meio da equao da reta. Assim, possvel ajustar
uma reta da forma Y = + X aos dados. Neste caso, a correlao linear simples.
Entretanto, quando no for possvel o ajuste da equao anterior, no
significa que no existe correlao entre elas. Poder haver correlao no-linear
entre as mesmas.
Uma forma simples de verificar o tipo de correlao existente entre duas
variveis atravs do grfico chamado diagrama de disperso. Trata-se de um
grfico onde so representados os pares ( X i , Yi ) , i = 1, 2,..., n , onde n = nmero total
de observaes. Os grficos 1, 2, 3 e 4 representam o diagrama de disperso entre
as variveis X e Y.
O mtodo que permite estudar as relaes ou associaes conhecido
como Anlise de Correlao. Esta anlise mostra o grau de relacionamento entre as
variveis,

fornecendo

um

nmero,

indicando

como

as

variveis

variam

conjuntamente. No h a necessidade de definir as relaes de causa e efeito, ou


seja, qual a varivel dependente e a independente. Os diagramas de disperso a
seguir mostram os tipos de correlaes entre duas variveis.

31
GRFICO 1 - CORRELAO LINEAR POSITIVA PERFEITA ENTRE
AS VARIVEIS X E Y
Y

1200
1000
800
600
400
200
0
-200

-100

-200 0

100

200

300
X

-400

FONTE: A autora

GRFICO 2 - CORRELAO LINEAR NULA ENTRE AS VARIVEIS


X EY
Y

250
200
150
100
50
0
-40

-20

-50 0

20

40

60

-100

80
X

-150

FONTE: A autora

GRFICO 3 - CORRELAO LINEAR NEGATIVA PERFEITA ENTRE


AS VARIVEIS X E Y
Y

200
100
0
-400

-200

-100
-200
-300
-400
-500

FONTE: A autora

200

400

600

800
X

32
GRFICO 4 - CORRELAO NO-LINEAR ENTRE AS VARIVEIS X E Y
18

16
14
12
10
8
6
4
2
0
-20

-10

10

20

30

40

50
X

FONTE: A autora

Quando a anlise envolve grande nmero de variveis e h interesse em


conhecer a correlao duas a duas, comum a construo de uma matriz de
correlaes. Esta uma matriz formada pelas correlaes entre as variveis X i e
X j , i j , fora da diagonal e 1 na diagonal, indicando a correlao das variveis Xi e
X j , sendo i = j .

Pode ocorrer, ainda, situao onde se tem dois conjuntos de variveis, um


composto por uma varivel (Y) e o outro com p variveis (X1, X2, ..., Xp), e se deseja
analisar a correlao entre a varivel Y e a varivel X i , i = 1, 2,..., p . Neste caso a
correlao chamada de mltipla e calculada por R =

SQRegr
SQ Total

, detalhada na seo

3.3.2. Evidentemente, o relacionamento entre Y e X1, X2, ..., Xp pode ser expresso
pelo hiperplano Y = 0 + 1 X1 + 2 X 2 + ... + p X p , admitindo relao linear entre Y e X1,
X2, ..., Xp.

Ainda, se o interesse analisar a correlao entre dois conjuntos de


variveis, Xi , i = 1, 2,..., p e Yj , j = 1, 2,..., q sendo p q , possvel utilizar a tcnica de
Anlise Multivariada, conhecida como Anlise de Correlao Cannica.
possvel, resumidamente, reunir os mtodos de Anlise de Correlao,
os quais foram tratados neste trabalho em: Anlise de Correlao Simples Linear e
No-linear, Anlise de Correlao Linear Mltipla e Anlise de Correlao Cannica.

33

Antes de aplicar qualquer mtodo estatstico paramtrico necessrio


verificar

se

as

suposies

(tais

como

Gaussianidade,

homocedasticidade,

independncia) do modelo esto sendo razoavelmente satisfeitas, atravs de uma


anlise exploratria dos dados. Para SIQUEIRA (1983), a falha de uma das
suposies altera o nvel de significncia do teste estatstico. O pesquisador pode
pensar estar testando, por exemplo, a um nvel de significncia de 5%, e na
realidade estar testando a um nvel maior. Alm disso, possvel causar perda de
preciso das estimativas obtidas.

3.2

MEDIDAS DE CORRELAO ENTRE DUAS VARIVEIS


Para McNEMAR (1969), as situaes mais freqentes, na prtica, para as

quais as medidas de correlao simples so necessrias, podem ser agrupadas


como se segue:
a) ocorrem medida contnua para uma varivel e duas categorias para a
outra varivel;
b) ambas as variveis so dicotomizadas;
c) ocorrem trs ou mais categorias para uma varivel e duas ou mais para
a segunda;
d) ocorrem trs ou mais categorias para uma varivel e uma medida
contnua para outra;
e) quando os dados so postos (ranks);
f) as duas variveis so contnuas.
Segundo DOWNIE e HEATH (1959), existem situaes em que o
relacionamento entre as duas variveis no linear, ou uma delas no contnua,
ou o nmero de pares das medidas muito pequeno. Ento, para cada uma dessas
situaes h necessidade de uma medida adequada de associao entre as
variveis.

34

3.2.1

Coeficiente de Correlao Linear de Pearson e a Distribuio Normal


Bivariada
O mtodo usualmente conhecido para medir a correlao entre duas

variveis o Coeficiente de Correlao Linear de Pearson, tambm conhecido como


Coeficiente de Correlao do Momento Produto. Este foi o primeiro mtodo de
correlao, estudado por Francis Galton e seu aluno Karl Pearson, em 18975
(SCHULTZ e SCHULTZ, 1992).
Este coeficiente de correlao utilizado na Anlise de Componentes
Principais, Anlise Fatorial, Anlise de Confiabilidade, entre outras, que sero
apresentadas neste trabalho.
O coeficiente de correlao populacional (parmetro) e sua estimativa
amostral esto intimamente relacionados com a distribuio normal bivariada,
definida na seo 2.4.2.5.
Considerando a populao normal bivariada, onde X uma varivel
normalmente distribuda, com mdia x e desvio padro x , e Y varivel tambm
normalmente distribuda com mdia y

e desvio padro y , a expresso

matemtica da distribuio (funo densidade de probabilidade) dada pela


expresso abaixo, conforme j apresentada na seo 2.4.2.5 do Captulo 2.
fX,Y ( X, Y ) =

1
2XY 1 2

exp
2
2(1 )

X Y Y
X Y

Y
2

(3.1)

onde a variao dos parmetros :

R , R , R + , R + e 1 +1
X

Essa funo contm os parmetros obtidos no Captulo 2: X , Y , 2X ,

2Y e , onde o coeficiente de correlao para a populao normal bivariada, e


varia entre 1 e +1. O coeficiente de correlao definido como:

5Esta

informao foi obtida no site: www.ime.br/~abe/cronologiajaneiro02.doc

35

X,Y = =

COV ( X, Y )

XY

X,Y
XY

(3.2)

A covarincia uma medida que expressa a variao conjunta de duas


variveis, cuja expresso dada por:
COV ( X, Y ) = E [(X X )(Y Y )]

(3.3)

Ela depende da escala das medidas, o que impossibilita a idia de como


as duas variveis esto relacionadas. Quando se padroniza as variveis tem-se o
coeficiente de correlao, conforme expresso (3.2) acima, ou seja,

COV( X, Y )

XY

E [(X X )(Y Y )]

XY

X X Y Y
= E

= COV (Z X , Z Y )
X Y

(3.4)

e, claro, a noo de associao entre as varveis percebida mais facilmente.


3.2.1.1

Estimadores de mxima verossimilhana

Os estimadores de mxima verossimilhana dos parmetros X , Y , 2X ,

e so obtidos pelo resultado a seguir.


2

Resultado 3.1: Sejam n pares de observaes

[(x 1, y 1 ), (x 2 , y 2 ),..., (x n , y n )]

do vetor

aleatrio [X, Y ] que se distribui conforme a distribuio normal bivariada, ou seja,

[X, Y ] ~ (, ) , com
2

f X,Y ( X, Y ) =

2
= [ X , Y ] e = X
Y X
1

2 X Y

X Y
e f.d.p. igual a
2Y

X X 2
1
X X Y Y Y Y
exp

+

2
X Y Y
2(1 ) X
1 2

Ento, os estimadores de mxima verossimilhana dos parmetros so:

X = X , Y = Y , 2X =

1
n

(X
n

i =1

2Y =
X ,

1
n

(Y Y )
n

i=1

36

(X

)(

X Yi Y

i =1

(X X) (Y Y )
n

i =1

i =1

Prova: A f.d.p. na forma da funo distribuio de probabilidade conjunta dada

por:
n

n X 2

n X X Y Y
X
i
2 i
exp 1 i
2

2
(
1
)

i
1
i
1
=
=
x
X
Y

1
fX, Y ( X, Y ) =
2 1 2
X Y

n Yi Y

i =1
Y

Passando para a forma da famlia exponencial:

fX, Y ( X, Y ) = exp n ln 2 X Y 1 2

2
(
1

2 )

n

i =1

n
X
2

X
i =1

1
f X, Y ( X, Y ) = exp n ln 2 X Y 1 2

2(1 2 ) 2X

1
2(1 2 ) 2Y

i =1

(1 ) X Y

Xi

i =1

(1 2 ) 2Y

i =1

X
2

(1 ) X Y

2
i

i =1

n 2Y

2(1 2 ) 2Y

i =1

Y
i

Y
n
+

Y
i =1

(1 2 ) 2X

i =1

Y
i

n 2X
2(1 2 ) 2X

(1 2 ) X Y

X Y

i i

i =1

(1 ) X Y
n X Y
2

Pelo teorema da famlia exponencial k-paramtrica (definio 2 da seo


2.5) para estatsticas suficientes, tem-se que:
c 1 ( ) =

c 2 ( ) =

c 3 ( ) =

c 4 ( ) =

c 5 ( ) =

X
(1 2 ) 2X

Y
(1 2 ) 2Y

1
2(1 2 ) 2X
1
2(1 2 ) 2Y

(1 2 ) X Y

Y
(1 2 ) X Y
X
(1 2 ) X Y

T1 ( X ) =

i=1

T2 ( Y ) =

i=1

T3 ( X ) =

2
i

i=1

T4 ( Y ) =

i=1

T5 ( X, Y ) =

X Y

i i

i=1

37

Aplicando o Teorema da Famlia Exponencial para Estimador de Mxima


Verossimilhana (seo 2.6.1) para a obteno dos estimadores:
E[Ti ( X )] = Ti ( X)

Estimador de Mxima Verossimilhana (EMV) para X


n

T1 ( X) =

i=1

E[T1 ( X)] =

i=1

n X =

i=1

X =

i=1

=X

(3.5)

Estimador de Mxima Verossimilhana (EMV) para Y


T2 ( Y ) =

i=1

E[T2 ( Y )] =

i=1

n Y =

i=1

Y =

i=1

=Y

Estimador de Mxima Verossimilhana (EMV) para 2X


T3 ( X) =

2
i

i=1

E[T3 ( X)] =

X
i =1

2
i

(3.6)

38

[V( X ) + E
n

] X
n

(Xi ) =

i=1

2
i

i=1

n 2X + n 2X =

2
i

i=1

2X = X i2 n 2X = (X i X )
n
n
1

i=1

i=1

(3.7)

Estimador de Mxima Verossimilhana (EMV) para 2Y

T4 ( Y ) =

i=1

E[T4 ( Y )] =

i=1

[V( Y ) + E
n

] Y

( Yi ) =

i =1

i =1

n 2Y + n 2Y =

2
i

i =1

2Y = Yi2 n 2Y = (Yi Y )
n
n
1

i=1

i=1

Estimador de Mxima Verossimilhana (EMV) para


T5 ( X, Y ) =

X Y

i i

i=1

E[T5 ( X, Y )] = T5 ( X, Y )
n

E X i Yi =
i=1

X Y

i i

i=1

i=1

i=1

[E( X i )E( Yi ) + cov( X i , Yi )] = X i Yi


n

i=1

i =1

[E( X i )E( Yi ) + X Y ] = X i Yi
n X Y + n X Y =

X Y
i

i=1

(3.8)

39
n

X,Y =

i=1

X Y
n

(X
n

X,Y =

i=1

Xi

i=1

X
n

(X
n

nXY

X i Yi

i=1

)(

Yi

)(

Yi

)
(3.9)

X Y
n

Yi

i=1

(X
n

Y
n

)(

Yi

i=1

(X
n

i =1

) (
n

Yi

(3.10)

i=1

Ento, pelo Teorema da Famlia Exponencial para Estimador de Mxima


Verossimilhana, o nico estimador de mxima verossimilhana de .
Fazendo x i = X i X e y i = Yi Y a expresso acima poder ser escrita da
seguinte forma:
n

X,Y =

x y
i

x y

i =1

i =1

x i2
n

i =1

x y
i

i =1

X Y
n

y i2
n

i =1


i =1

x i2

(3.11)
y i2

i =1

Este coeficiente de correlao tambm chamado de "coeficiente de


correlao do momento produto", porque calculado multiplicando-se os escores Z
de duas variveis (produto de duas variveis) e ento calcula-se a mdia (momento)
do produto de um grupo de n observaes (CHEN e POPOVICH, 2002).
n

X,Y =

Z
i=1

x i Z Yi

(3.12)

onde:
Z Xi =

Xi X

e Z Yi =

Yi Y

3.2.1.2 Suposies bsicas para a utilizao do Coeficiente de Correlao Linear


de Pearson
A suposio bsica para a utilizao deste coeficiente de que o
relacionamento entre as duas variveis seja linear, ou seja, adequado para medir o
relacionamento linear.

40

A segunda hiptese de que as variveis envolvidas sejam aleatrias e


que sejam medidas no mnimo em escala intervalar.
Uma terceira hiptese de que as duas variveis tenham uma distribuio
normal bivariada conjunta, o que equivale a dizer que para cada X dado, a varivel Y
normalmente distribuda. Esta hiptese necessria para fazer inferncias
estatsticas (teste de hiptese e intervalo de confiana), sendo dispensvel quando
se tratar de estudos amostrais.
Esta ltima hiptese imprescindvel para amostras pequenas, segundo
BUNCHAFT e KELLNER (1999), e diminui a importncia medida que aumenta o

tamanho da amostra, o que justificado pelo Teorema Central do Limite para


distribuies multivariadas apresentado em JOHNSON e WICHERN (1988, p.145).
Segundo SNEDECOR e COCHRAN (1980), na prtica muitas vezes a
distribuio bivariada de interesse est longe de ser normal. Assim, possvel fazer
uma transformao de variveis de forma que se aproxime da distribuio normal
bivariada conjunta. Assim, torna-se possvel estimar na nova escala. Um dos objetivos
das transformaes, segundo SIQUEIRA (1983), a correo da no-normalidade e
tambm a homogeneizao da varincia das variveis envolvidas na anlise.
As transformaes so lineares quando envolvem apenas uma mudana
de origem e/ou de escala, podendo-se citar, como exemplo, a padronizao de uma
varivel ( Z ) . Este tipo de transformao no afeta as caractersticas essenciais de
uma anlise estatstica (SIQUEIRA, 1983). A transformao linear no afeta a
heterogeneidade das varincias, e se a varivel Y no normal, uma transformao
linear de Y no ser normal. Entretanto, as transformaes mais importantes so as
no-lineares, em que um certo incremento na escala original normalmente no
corresponde ao mesmo incremento na nova escala, que o fator responsvel pelo
efeito da correo dos desvios das suposies.
Uma caracterstica importante na transformao que esta mantenha a
relao de ordem, ou seja, que a ordenao das observaes seja preservada. Uma

41

transformao g( Y ) chamada monotnica estritamente crescente se para y > y


implica necessariamente que g( y ) > g( y ).
As transformaes no-lineares usuais so: logartmica (qualquer base,
embora as mais utilizadas sejam a base 10 e a natural), raiz quadrada, recproca

1
z = e angular arc sen y .
y

3.2.1.3 Interpretao do Coeficiente de Correlao Linear de Pearson


Na prtica, o coeficiente ( ) interpretado como um indicador que

+ X , onde
descreve a interdependncia entre as variveis X e Y, com a forma Y =

e so constantes.
A interpretao do coeficiente quando

= 1 de que existe correlao

linear perfeita entre as variveis X e Y. A correlao linear perfeita positiva quando

= 1 e linear perfeita negativa quando = 1. Quando se tem = 0 , no existe


correlao linear entre as variveis X e Y.
Entretanto, na prtica ocorrem diferentes valores de ( ) . A interpretao
do valor de depende muito dos objetivos de sua utilizao e as razes pelas quais
este calculado. Segundo CALLEGARI-JACQUES (2003, p. 90), o coeficiente de
correlao pode ser avaliado qualitativamente da seguinte forma:
se 0,00 < < 0,30 , existe fraca correlao linear;
se 0,30 < 0,60 , existe moderada correlao linear;
se 0,60 < 0,90 , existe forte correlao linear;
se 0,90 < 1,00 , existe correlao linear muito forte.
Resultado 3.2: A relao existente entre o coeficiente da correlao estimado ( ) e

o coeficiente angular estimado ( ) pode ser expressa conforme apresentada a

seguir:
S
Y,X = Y,X X

SY

(3.13)

42

onde: x i = X i X
n

Sx =

e y i = Yi Y
n

x i2

i=1

e SY =

n 1

2
i

i=1

n 1

Prova:

Resolvendo as equaes normais6 da reta pelo mtodo dos mnimos


quadrados,

tem-se que Y,X =

n
n

X i Yi
i =1 i =1
n

X i Yi
n
i =1

Xi
i =1
n

X i2
n
i =1

x y
i

i =1
n

(3.14)
x i2

i =1

A expresso (3.11) poder ser escrita como Y,X =


n

se os denominadores (n 1) , com S x =

x i2

i=1

n 1

e SY =

x y
i

i=1

(n - 1) S x S Y

, utilizando-

2
i

i=1

n 1

Esta expresso poder ser escrita como se segue:


n

X Y nXY
i

Y,X =

i =1

(3.15)

(n - 1) S X S Y

6Equaes

normais da reta:

Yi = n 0 + 1

i =1
n

i =1

i =1

X i Yi = 0

i =1

X i + 1

X
i =1

2
i

43

A expresso (3.13) poder ser escrita da seguinte forma:


n

X,Y =

X Y nXY
i

i =1

X i2

nX

(3.16)

i =1

Substituindo a expresso (3.15) em (3.16) e dividindo por (n - 1), tem-se:

(n - 1) S X S Y Y,X S X S Y
Y,X S Y
Y,X = Y,Xn
=
=
2

(X X)

SX

S XS Y

i =1

S
Portanto: Y,X = Y,X X
SY

O coeficiente de correlao de X e Y o mesmo que Y e X. O valor absoluto


do coeficiente no afetado por qualquer transformao linear de X ou Y. Para
ANDERBERG (1973), o coeficiente de correlao

invariante frente s

transformaes lineares e quase-invariante em relao s transformaes


monotnicas.
Outra forma de interpretar o Coeficiente de Correlao em termos de 2 ,
denominado Coeficiente de Determinao ou de Explicao. Quando multiplicado
por 100, o 2 = R 2 fornece a percentagem da variao em Y (varivel dependente),
que pode ser explicada pela variao em X (varivel independente), ou seja, o
quanto de variao comum s duas variveis.
Resultado 3.3: A variao total da varivel resposta Y definida como

(Y Y )
n

i=1

pode ser decomposta em variao no-explicada mais a variao explicada pelo


modelo Y = f(X) + , e pode ser escrita sob a forma:

(Y Y ) = (Y Y ) + (Y Y )
n

i=1

i=1

i=1

(3.17)

44

Prova:

Fazendo:

Y = Yi Y + Yi Yi

Yi

e elevando ambos os membros ao quadrado, tem-se:

(Y Y ) = [(Y Y )+ (Y Y )]
2

Desenvolvendo o binmio e fazendo o somatrio, obtm-se:

(Y Y ) = (Y Y )
n

i=1

(Y Y )(Y Y ) + (Y Y )
n

+2

i=1

i=1

i=1

Tem-se que mostrar que 2

(Y Y )(Y Y )= 0
i

i=1

(Yi Yi ) = i

Sabe-se que
Ento

(Y Y )
n

=2

i=1

Mas

(Y ) 2 Y
i

i=1

= 0

i=1

i=1

i i

=2

i=1

i i

= 2 0

i=1

i i

= 2 1

i=1

i i

= 2 1

i=1

i=1

+ 2 X
i

i=1

X (Y
n

1 X i

i =1

+ 1 X i

i=1

i=1

X = 0 ,
i

pois

i=1

X i (Yi 0 1 X i ) =

[X Y X X ]= X Y X X
n

i=1

i=1

i=1

i=1

2
i

= 0

Pois a 2. equao normal do sistema de equaes do mtodo dos


mnimos quadrados (ver nota de rodap referente ao resultado 3.2).
Logo:

(Y Y ) = (Y Y ) + (Y Y )
n

i=1

i =1

i=1

45

Os desvios

(Y Y ) tm um padro definido, enquanto (Y Y ) comportam-se


i

de forma imprevisvel ou casual. O coeficiente entre a variao explicada (VE) pelo


modelo e a variao total (VT) chamado de coeficiente de determinao ( 2 ) , como
apresentado a seguir:

2X,Y =
R 2 =

(
n

Yi

i=1

(Y Y )
n

VE
VT

SQ

Regr

SQ

(3.18)

Total

i=1

Este coeficiente indica a proporo da variao total de Y explicada pelo


ajuste do modelo.

(Y Y )
n

O valor de R = X,Y =

i =1

(Y Y )
n

o coeficiente de correo mltipla,

i =1

quando se tem o modelo Y = f ( x ) + = f (X1, X 2 ,...,X p ) + .

3.2.1.4 Fatores que afetam o Coeficiente de Correlao Linear de Pearson


Dentre os fatores que afetam a intensidade do coeficiente de correlao ,
bem como a preciso ao estimar a correlao populacional , podem ser citados o
tamanho da amostra, principalmente quando pequena, os outliers (valores
discrepantes), a restrio da amplitude de uma das variveis ou de ambas e erros de
medidas.
Os outliers afetam o coeficiente de correlao, principalmente quando a
amostra pequena. Quando a amostra grande, eles tm menor efeito sobre o
coeficiente de correlao. Estes podem ser detectados na anlise exploratria de
dados, atravs de teste e grficos prprios.
A restrio da amplitude de uma das variveis ou de ambas pode ocorrer
quando o pesquisador seleciona amostra homognea para o estudo. Este fator
conhecido como restrio da variabilidade. Quando a amostra homognea, o

46

valor do coeficiente de correlao tende a diminuir, pois um dos fatores que


influenciam na intensidade da correlao a variabilidade da amostra. Quanto maior
a variabilidade das variveis envolvidas na anlise, maior a correlao entre elas.
McNEMAR (1969), SILVEIRA e PINENT (2001) e CHEN e POPOVICH (2002)

expem o coeficiente de correlao sem a restrio da variabilidade, isto , o


coeficiente de correlao para o grupo total, com base no coeficiente de correlao
do grupo restrito. Um exemplo de aplicao pode ser encontrado na seo
3.2.1.10.1.3.
Resultado 3.4: O estimador do coeficiente de correlao sem a restrio da

X,Y
variabilidade expresso por: (X,Y )T =

S XT
SX

X,Y + X,Y
1
2

ou (X,Y )T =

X,Y S X

XT

(3.19)

S
S

S X 1 X,Y 1
2

X T

(3.20)

S
S

onde:
(X,Y )T o coeficiente de correlao entre as variveis X e Y estimado para o grupo
total;
X,Y

o coeficiente de correlao entre as variveis X e Y do grupo restrito;

SX

o desvio padro da varivel X do grupo restrito;

S XT

o desvio padro da varivel X do grupo total.

Prova:

Deve-se considerar duas suposies bsicas, que so a linearidade da


regresso de Y em X e a homocedasticidade da distribuio normal bivariada. Com
base na suposio de linearidade possvel igualar a declividade da linha de
regresso do grupo restrito declividade da linha de regresso do grupo total,
considerando as duas regresses paralelas.

47

S
S
Sabe-se, do resultado 3.2, que = X , portanto = Y e se as duas
SY

SX

regresses so paralelas possvel a seguinte igualdade:


X,Y

S YT
SY
= ( X,Y )T
SX
S XT

(3.21)

A suposio de homocedasticidade implica a igualdade dos erros padro


da estimativa (S) das duas regresses. O erro padro da estimativa, que ser
discutido no resultado 3.9, pode ser obtido atravs de:
S = S Y 1 2

Igualando-se os erros padro, tem-se:


S Y 1 2X,Y = S YT 1 2(X,Y )T

(3.22)

onde:
(X,Y )T o coeficiente de correlao entre as variveis X e Y estimado para o grupo
total;
X,Y

o coeficiente de correlao entre as variveis X e Y do grupo restrito;

SX

o desvio padro da varivel X do grupo restrito;

S XT

o desvio padro da varivel X do grupo total;

SY

o desvio padro da varivel Y do grupo restrito;

SYT

o desvio padro da varivel Y do grupo total.


De (3.21) tem-se:

YT

X,Y S Y S X

(X, Y ) S X

(3.23)

De (3.22) segue-se que:


S 2Y (1 2X,Y ) = S 2YT (1 2(X,Y )T )

(3.24)

48

Substituindo o valor de S YT (3.23) em (3.24) tem-se:


2

S S
X,Y Y X T
S 2Y (1 2X,Y ) =
( X,Y ) S X
T

(1 2( X,Y ) )
T

Dividindo ambos os membros por S 2Y tem-se:


(1 2X,Y ) =

(1

2
X,Y

2
X,Y

)=

(2X,Y )T =

2X,Y S 2XT

(1 2(X,Y )T )

(2X,Y )T S 2X
2X,Y S 2XT

2( X,Y )T S 2X

2X,Y S 2XT
2

SX

2X,Y S 2XT 2(X,Y )T


2(X,Y )T S 2X

2X,Y S 2XT

2(X,Y )T S 2X

2X,Y S 2XT
2

S X X,Y S X + X,Y S XT

Dividindo por S 2X obtm-se:


2X,Y
2( X,Y )T =

S2XT
S2X

1 X,Y + X,Y

Portanto: (X,Y )T =

S2XT
S2X

X,Y
2

S XT
SX
2

1 X,Y + XY

S2XT
S2X

Os erros de medidas, devido a uma medio incorreta das variveis, por


diversas razes, tambm tm efeito sobre a correlao. BROWNLEE (1960)
apresenta os efeitos de erros de medidas no coeficiente de correlao.

49

Resultado 3.5: O coeficiente de correlao entre as variveis observadas X e

Y ( X,Y ), com erros de medidas, menor do que o coeficiente de correlao entre


as variveis verdadeiras X e Y ( X ,Y ).
Prova:

Representando-se por X e Y as verdadeiras variveis e por X e Y as


variveis observadas, com erros de medidas, tem-se:
X = X + u
Y = Y + v

onde u e v so os erros de medidas, normalmente distribudas com mdia zero e


varincia u2 e 2v . Assumindo que os erros so independentes entre si e de X e Y,
tem-se: Cov[u, v ] = Cov[X, u] = Cov[Y, v ] = Cov[X, v ] = Cov [Y, u] = 0
Supondo, por convenincia, que

tm mdia zero, ento

E[X] = E[Y ] = 0 e
V [X ] = V [X] + V[u]
V [Y ] = V [Y ] + V [v ]
Cov[X , Y ] = E[X Y ] E[X ] E[Y ] = E[XY] + E[uv ] + E[Xv ] + E[Yu]
Cov[X , Y ] = E[XY] E[X] E[Y ] = Cov[X, Y ]

A correlao entre as variveis observadas X e Y ser:

X,Y =

X,Y =

Y,X =

Cov [X , Y ]

V[X ] V [Y ]

Cov[X, Y ]

(V[X] + V[u])(V[Y ] + V[v ])

X,Y

V [u]
V[v ]
1 +
1 +

V [X]
V [Y ]

Y,X

V [u]
V[v ]
1 +
1 +

V [X]
V [Y ]

ou

(3.25)

(3.26)

50

evidente que o coeficiente de regresso Y,X tambm afetado, pois


existe relao entre e , como apresentado a seguir:
S
V [Y ]
Y,X = Y,X Y = Y,X
SX

(3.27)

V[X]

Substituindo (3.26) em (3.27) tem-se:


V[Y ]
Y, X
Y,X = Y,X
=
V [X ]

Y,X =

V [Y ]
V [X ]

V[u]
V[v ]

1 +
1 +
V [X]
V [Y ]

YX

V [u]
1 +

V [X]

(3.28)

Se X medido com erro, ento o coeficiente de regresso das variveis


observadas um estimador viesado do coeficiente de regresso das verdadeiras
variveis X e Y . No entanto, se X medido sem erro, ento Y,X = Y,X .
A presena de erro em Y no causa vis no coeficiente de regresso,
como se pode observar na expresso (3.28).

3.2.1.5 Distribuio Amostral do Coeficiente de Correlao Linear de Pearson


Como qualquer outra estatstica, esperado que difira do seu parmetro .
A distribuio de no simtrica; esta depende do tamanho de e do tamanho da
amostra (GUILFORD, 1950).
Fisher7, em 1915, citado por ANDERSON (1958, p. 69), foi quem
desenvolveu a distribuio de . Hotelling8, em 1953, citado por ANDERSON (1958,
p. 69), fez um estudo exaustivo e recomendou a forma apresentada a seguir.

7FISHER,

R. A. Frequency distribution of the values of the correlation coefficient in samples


from an indefinitely large population. Biometrika, v. 10, p. 507-521, 1915.

51

Resultado 3.6: O coeficiente de correlao , estimado a partir da amostra de

tamanho n, proveniente de distribuio normal bivariada com 0, distribudo


com funo densidade de probabilidade dada por:

) =
f (

(n 2) (n 1)(1

n 1
) 2 (1

n
1

2 n (1 ) 2
2

n 4
) 2

1 (

+ 1) 9
+ 1) 2
(
1 +
+
+ ...
4 2n 1 16 2(2n 1)(2n + 1)

(3.29)

Prova:

A funo densidade de probabilidade da distribuio normal bivariada,


conforme apresentada na seo 2.4.2.5, :
f X,Y ( X, Y ) =

1
2 X Y

X
1

exp

2
2
1
2(1 ) X

X X

2
X

Y Y

Y Y
+
Y

onde: X R , Y R , 2X R + , 2Y R + e 1 +1
Fazendo: t =

e u=

ento, tem-se que:

f ( t, u) =

1
exp
t 2 2tu + u 2
2
2

2 1
2(1 )

f ( t, u) =

1
(u t )2 + 1 2 t 2
exp
2
2(1 )
2 1

) ]

(u t )2
1 2 t 2
f ( t, u) =
exp

2(1 2 )
2(1 2 )
2 1 2
1

8HOTELLING,

Harold. New light on the correlation coefficient and its transforms. J. Roy.
Stat. Soc. , B, v. 15, p. 193-225, 1953.

52

u t

Fazendo v =

, para v = u tem-se = 0

(1 2 )

v
t
v2 t2
1
1 2 2
e ento f ( t, u) =
=
e e
exp
2
2 2
2

Assim, t e v so variveis normais padro e portanto

2
i

~ n2 .

i=1

Fazendo uma transformao ortogonal de v i para um novo conjunto de


variveis 1, 2 ,..., N , onde se escolhe
1

1 =

u i t i

vi =

i =1

(1 )
2

i=1

(1

)
i=1

u i t i
=
n

n
(1 2 )

(u t )

Ento, tem-se
2

u t
n
n 2
1
i
i2 = v i2 = i
u
2

ui t i + 2
=

i
2
2
(1 ) i=1
i=1
i=1
i=1 (1 )
i=1

i2 =
i=1
n

2
i

i=1

)(

n
n
2
u
u
2

ui u t i t + 2

i
2
(1 ) i=1
i=1

1
(1 2 )

[S

2
2

i=1

2
i

i=1

2
2
+ nu 2nut + 2 nt

S 2 S1 + 2 S12 + 12
2

S12 =

onde

(t
n

(t t )
n

S 22 =

i=1

(u
n

i=1

portanto,
n

i= 2

2
i

1
(1

[S
)

2
2

S 2 S1 + 2 S12 com distribuio n21


2

Escolhe-se agora 2 =

1
S1

(t
n

t v i , que ortogonal a 1 .

i=1

Substituindo o valor de v i em 2 tem-se:

(3.30)

53

1
S1

2 =

u t
1
i
i
=
2
2
(1 ) S1 (1 )

(t t )
n

i=1

(t
n

2 =

S 1 (1 2 )

)[(

i =1

S2
S 1S 2
1 =

S 1
(1 2 ) S 1

1
(1 2 )

t (u i t i )

)(

n t t u u
n
ti t
i
i

2
S1
S1
i =1
(1 ) i=1

)]

) (

i=1

t ui u t i t =

2 =

(t
n

[ S

S 1

Tem-se, ento, que:

22 =

1
1 2

[ S
2

S1S 2 + 2 S12
2

2
2

De (3.30) e (3.31) tem-se que:

(3.31)

2
i

i= 3

2
i

i=3

1
(1

[
)

S 22

S 2 S1 +
2

Alm disso, S12 = t i t

S12

2
i

22

i= 2

] [

S 2 S1

(1 2 )

2
S 22 1
(1 )
2

~ n22

~ n21

i=1

Tem-se trs variveis independentes:

1
b=
2
c=

f (a ) =

1
2

1
2

a2
2

(1 2 )

=
2
i

(t
n

S 1

2
S2 1
2

2 (1 2 )

i =3

i=1

[ S

a = 2 =

S12
2

~ N(0,1)

2
~ n
2

(3.32)

2
~ n
1

f.d.p da distribuio normal padro apresentada na seo 2.4.2.1.

54

1
1
f (b) =

n 2 2

n2
2

n 4
2

b
2

f.d.p da distribuio Qui-quadrado ( 2 ) apresentada

na seo 2.4.2.2.
1
f (c ) =

n 1 2

2
1

n 1
2

n 3
2

c
2

f.d.p da distribuio Qui-quadrado ( 2 ) apresentada

na seo 2.4.2.2.
a, b e c so independentes, portanto:

f (a, b, c ) = f (a)f (b)f (c ) =

f (a, b, c ) =

n3
2

n 2 n 1
2

2 2

S 22 (1
2 )
=
2
2 (1 )

S2
= 1
2

f (a, b, c ) =

f (a, b, c ) =

a2

Mas tem-se que:

n 4
2

n 3
2

n4
2

n 3
2

n2
2

n4
2

b e

b
2

1

n 1 2

2
1

n 4
2

S1n3
n 3
2 2

2)
S n2 4 (1
n 4
2 2 (1

S n2 4 S1n3 e

2 (1 2 )

n3

c 2e

n 4
2

n4
) 2

, portanto

n 2 n 1
2

2 2
n 4
2

n 1
2

a2
+b + c
2

a2
1
S1S 2
+b+c =
S12 + S 22 2
2
2
2(1 )

2)
(1

1

n 2 2

2
1

n 4
2

7
2

S n2 4 (1
n 4
2 2 (1

2 )

n 4
2

n 4
2
) 2

2
2
S1 + S 2 2

2(1 2 )

S1n3
n 3
2 2

S1S 2

n 2 n 1

2 2

2
2
S1 + S 2 2

2(1 2 )

S1S 2

c
2

55

Trocando-se as variveis a, b, c por , S1, S 2 . De (3.32), o Jacobiano de


transformao :
S2
a, b, c
2 3 / 2
= (1 )
J =
S 22

,
S
S
1,
2

0
S1

(1 2 )S 2 = (1 2 ) 3 / 2 S 1S 22
0

ento,

, S 1, S 2 ) =
f (

)
(1

n4

S 1S 22 S n2 4 S1n 3
n4
3
2
2 2
2

2 (1 )

(1 ) 2

1
2 (1 2 )

7
2

2
S 1

S 1 S 2
+ S 22 2

n 2 n 1

2 2

A funo densidade de obtida integrando em relao a S1 e S 2 no


intervalo de zero a .

) =
f (

(1

n 4
) 2

1
2
2
S1S 2

S1 + S 2 2
n2 n2
2(1 2 )
S 2 S1
n 1
7
n
n 2 n 1
2 2

) 2 2

2 (1

dS 1dS 2

2 2

Devido dificuldade para calcular a integral, FISHER9, citado por KENNY e


KEEPING (1951, p. 219), utilizou a seguinte transformao:
S 1 = 1/ 2 e / 2
S 2 = 1 / 2 e / 2

1 1/ 2

2
J=
1
e / 2 1/ 2
2

e / 2

9FISHER,

1/ 2 e / 2

1
2

1/ 2 e / 2

R. A. Frequency distribution of the values of the correlation coefficient in samples


from an indefinitely large population. Biometrika, v. 10, p. 507-521, 1915.

56

O Jacobiano de transformao igual a -1/2, portanto:

f (S 1, S 2 / , ) =

(1

n4
) 2

1/ 2

/ 2 n 2

1/ 2

/ 2

n2

2 2 (1 2 )

2)
(1

f (S1, S 2 / , ) =

n 4
2

2 2 (1

n2

2(1 2 )

n 1
7
n
2 2 2

2(1 2 )

7
n 1
n
2 2
) 2 2

1 / 2 e / 2

1 / 2 e / 2 1 / 2 e / 2
+ 1 / 2 e / 2 2

n 2 n 1

2 2

( e + e 2

n 2 n 1

2 2

1 z
e + e z = cosh( z ) , e pela Frmula de Duplicao de
2
2

1
n
n

Legendre 2 n3

= (n 2) , ento
2 2

Tem-se que

f (S1, S 2 / , ) =

(1

n4
) 2

n2

2(1 2 )

) =
f (

) =
f (

) =
f (

(1

(1

n 4
) 2

n 4
2

(n 2)

n 4
) 2

n 1
2 2
)

n 4
) 2

n2

(n 2)(1

d d

(n 2 )
)
(cosh

n2

(12 )

(n 1)(1 2 )n1

(cosh )
(n 2 )

n 1
2 2
)

n 1

(n 2)

n 4
) 2 (1

(n 2)

(12 )

n 1
2 2
)

(n 1)(1 2 ) n1

n 1
2

)
(cosh

2(1

n 1
2 2
)

2(1

) =
f (

(1

2(1

2(1

) =
f (

2)
(1

)
(cosh
(12 )

n 1
) 2

d d

(cosh )

n 1

(cosh )
0

n 1

(3.33)

57

A integral pode ser expressa como uma funo hipergeomtrica,


apresentada em KENNEY e KEEPING (1951, p. 219):

(cosh )

n 1

1 1 2n 1
+ 1
(n 1)

) (n3 / 2 ) F ; ;
(1
;
1
2 2
2
2

(n )
2

1/ 2

(3.34)

A funo hipergeomtrica tem a seguinte soluo:


F(a; b; c; z ) = 1 +

ab
a(a + 1)b(b + 1) 2
z+
z + ...
1! c
2! c(c + 1)

(3.35)

e f ( ) pode ser escrita na forma de srie convergente, como segue:

) =
f (

(n 2)(n 1)(1 )
2

n 1
2

)
(1
2

n
1

) 2
2 n (1
2

n4
2

+ 1)
+ 1) 2
(
1 (
9
1 +
+
+ ...
4 2n 1
16 2(2n 1)(2n + 1)

Para valores altos e positivos de , a distribuio assimtrica negativa, e


no caso de serem altos e negativos, a distribuio assimtrica positiva, como
mostram os grficos a seguir.
Para um mesmo valor de , quanto menor o tamanho da amostra maior a
assimetria da distribuio. medida que aumenta o tamanho da amostra, tende para
uma distribuio simtrica.
Os grficos 5 e 6 apresentam a distribuio amostral de para amostra
de tamanho n = 29 e = 0,80 e = 0,80 , respectivamente. A escolha do tamanho
da amostra foi arbitrria. Os clculos para a obteno dos valores de f ( )
encontram-se no Apndice 1.

58

(I) n = 29 e = 0,80
GRFICO 5 - DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON
PARA = 0,80

7,0
6,0

Freqncia

5,0
4,0
3,0
2,0
1,0
0,0
0,40

0,45

0,50

0,55

0,60

0,65

0,70

0,75

0,80

0,85

0,90

0,95

1,00

Coeficiente de correlao

FONTE: A autora

(II) n = 29 e = 0,80
GRFICO 6 - DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON
PARA = 0,80
7,0
6,0

Freqncia

5,0
4,0
3,0
2,0
1,0
0,0
-1,00 -0,96 -0,93 -0,89 -0,85 -0,81 -0,78 -0,74 -0,70 -0,66 -0,63 -0,59 -0,55 -0,51 -0,48 -0,44 -0,40
Coeficiente de correlao

FONTE: A autora

59

Resultado 3.7: O coeficiente de correlao , estimado a partir da amostra de

tamanho n, proveniente de distribuio normal bivariada com = 0 , distribudo


com funo densidade de probabilidade dada por:

1
2)
(n 1)(1
2

) =
f (
1

(n 2 )
2

n 4
2

(3.36)

Prova:

Tem-se, da expresso (3.33), que:

) =
f (

2)
(n 2)(1

n 4
2 (1

2 )

n 1
2

(cosh )
0

=
2

n 1

(n 2)(1

n4
) 2

(n 1) 1 1 2n 1 1
F ; ;
; =
1 2 2
2
2 2
(n )
2

1/ 2

ento,

(cosh )
0

logo, f ( ) =

n 1

=
2

(n 2)(1

1/ 2

n 4
) 2

(n 1)
1
(n )
2

(n 1)
1
(n )
2

2 ) (n 4 ) / 2 2 ( 3 / 2) n
(n 2)(1
2

1
(n ) 2 ( 3 / 2 ) n
2
2
n

2

(n 1) 2 ( 3 / 2)n
n

2

(n 1)
n

2

(cosh )

1
(n ) 2 ( 3 / 2 ) n
1 1 2n 1 1
2
F ; ;
; =
2
2
2
2 2
n

Pois,

) =
f (

1/ 2

n 1

Mas se = 0 , tem-se que: f ( ) =

(cosh )

n 1

1
(n )2 ( 3 / 2 ) n
2
2
n

2

60

Pela frmula de duplicao de Legendre tem-se que:


n
n 1
(n 1) = 2 n2

2 2

Assim,

) =
f (

) =
f (

)
(n 2)(1
2

(n 4 ) / 2

3 / 2 n

2 ) (n 4 ) / 2 2 1
(n 2)(1

1 / 2

n2

n n 1

2 2
n

2

n 1
n 1

2 (n 4 ) / 2

(
n
2
)(
1
)

2
2

=
(n 2) n 2
n
2

2
2
2

2 ) (n 4 ) / 2
(n 1)(1
2

) =
f (
1

(n 2 )
2

Segundo BRYANT (1960), quando = 0 a distribuio simtrica, embora


no exatamente Gaussiana. O grfico 7 mostra a distribuio amostral de para
amostra de tamanho n = 29. Manteve-se o mesmo tamanho de amostra dos grficos
5 e 6, para possibilitar a comparao entre os mesmos. Os clculos de f( )
encontram-se no Apndice 1.
GRFICO 7 - DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON
PARA = 0
2,5

Freqncia

2,0
1,5
1,0
0,5
0,0
-1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Coeficiente de correlao

FONTE: A autora

61

Resultado 3.8: Se = 0 , a distribuio amostral de ser simtrica com


1
2 =

) = 0 ,
E(

n 1

e =

(3.37)

n 1

Prova:

A curva de freqncias de Pearson tipo II, citado por ELDERTON (1953, p. 51a),
apresentada a seguir, simtrica tendo a mdia como origem, que coincide com a
moda e portanto E( y ) = 0 .
y 2
f ( y ) = y 0 1
a

A funo densidade de uma curva de freqncias de Pearson do tipo II,


como se pode observar na comparao de ambas. Como j apresentada no
resultado 3.7, a f.d.p. de quando = 0 :
1

2 ) (n 4 ) / 2
(n 1)(1
2

) =
f (
1

(n 2 )
2

(n 1)
2
y
2

Fazendo y 0 =
, 2 =
1

a
(n 2)
2

e m = (n 4) / 2 , as duas funes

so equivalentes. Portanto, a f.d.p. de simtrica com E( ) = 0 .


O estimador da varincia obtido atravs de V( ) = E( 2 ) [E( )]

E( 2 ) =

-1

f( )d , apresentados na seo 2.3.

1
Fazendo 2 = x , ento = x 1/2 e d = x 1/2 dx e tem-se 1 1 ento
2

0 x 1.

62

1
(n 1)(1 x) (n 4 )/2
2
1 1/2

Portanto: E( 2 ) = 2E(X) = 2 1 x
x dx
2
0
1

(n 2 )
2

(n 1)
1
(n 4 ) / 2
2

2 ) = 2E( X) =
x 1/ 2 (1 x )
dx
E(
0
1

1
4
4
4
4
2
4
4
4
4
3
(n 2 )
2

Funo Beta

A funo beta definida por:


B(a, b) =

a 1

(1 x)

b 1

dx =

Tem-se que a =

(a)(b)
(a + b)

, a > 0, b > 0

(3.38)

3
n2
e b=
, portanto:
2
2

(n 1)
2

2 ) = 2E( X) = 2
E(
1

(n 2 )
2

3 n2

2 2
3 n 2
+

2
2

1
1 1

(n 1)
(n 1)
(n 2 )
2
2
2
2
2

=
= 1

2 ) = 2E( X) =
E(
(n 1)
1

n + 1
n 1 1

(n 2 )

(n 1)

2
2 2
2 = E( 2 ) [E( )] =
e
2

1
1
0 =
n 1
n 1

1
n 1

3.2.1.6 Teste de hiptese para = 0


A forma simtrica da distribuio quando = 0 torna possvel testar a
hiptese H 0 : = 0 contra a hiptese H1 : 0 , atravs da distribuio t de Student.

63

Resultado 3.9: A estatstica para testar a hiptese H0 : = 0 contra H1 : 0 , tem

distribuio t com n - 2 graus de liberdade, ou seja:


t=

n 2
~ t n2
2
1

(3.39)

Prova:

Testar a hiptese H0 : = 0 equivale a testar a hiptese de que H 0 : = 0 ,


devido relao entre os dois coeficientes, como j apresentado no resultado 3.2.
n

S
= X
SY

SX

onde S X =

2
i

i=1

n 1

Xi

= Xi X

2
i

i =1

SY =

S
= Y

e portanto

e y i = Yi Y

n 1

Das equaes normais da reta pelo mtodo dos mnimos quadrados


n

obtm-se (expresso 3.14): =

xy
i=1
n

x
i=1

onde x i = X i X e y i = Yi Y

2
i

A expresso acima pode ser reescrita como:

x (Y Y )

xy
i=1
n

x
i=1

i=1

2
i

i=1

Sabe-se que

2
i

i=1

x i Yi Y

2
i

xi
n

i=1

wi =

i=1

x
i=1
n

=0

x i2

i=1

w
i=1

2
i

2
i

i=1

n 2
xi

i=1

1
n

x
i=1

2
i

(3.40)

= 0 e fazendo w i =

i=1

i=1

i=1

x i2

, tem-se:

64
n

w i Xi =

i=1

(
n

) w x

w i xi + X =

i=1

+X

i=1

wi =

i=1

x x
i

w ixi =

i=1

i=1
n

=1

x i2

i =1

A expresso (3.40) poder ser reescrita da seguinte forma:


n

i =1

i =1

= w i Yi = w i ( + X i + i ) , pois tem-se do modelo de regresso


linear simples que Y = + X +
n

i =1

i =1

i =1

i =1

e, portanto, = w i + w i X i + w i i = + w i i
A esperana e a varincia de sero:
E( ) = E( +

w i i ) = E() +

i =1

w E( )
i

(3.41)

i =1

Porm, tem-se no modelo de regresso linear simples as seguintes


suposies sobre os erros:
E( i ) = 0

(3.42)

V( i ) = 2

(3.43)

Assim, substituindo (3.42) em (3.41) tem-se:


E( ) = E() =
n

i =1

i=1

i=1

e V( ) = V( + w i i ) = V() + w i2 V( i ) = w i2 V( i )

Substituindo (3.43) e o valor de

w
i=1

2
i

1
n

i =1

V( ) =

2
n

i =1

x i2

, portanto

x i2

em (3.44) tem-se:

(3.44)

65

2
~ N ,
n

2
xi
i=1

[Y ( + X )]
n

1
Mas S 2 =
n2

y i2 2

i=1

x
i =1

n2

i=1

2
i

o estimador no-

viesado de 2 (WONNACOTT e WONNACOTT, 1978, p. 50),


n

S
e 2 = 2 Y
S
X

=
2

2
i

i =1
n

ento
x i2

i =1

2 x i2
i=n

S2 =

Tem-se que U =

2 x i2
i=1

n2
(n 2)S 2

2
=

1
2

i=1

n2
n

2
i

t=

~ n22 (NETER, et. al.,1996, p. 75) e

Z
U
n2

~ t n2

(JAMES, 1981, p. 85)

Ento, U =

(n 2)S 2

Fazendo Z =

2
n

x
i =1

2
i

(n 2)

2 1
2 x i 2 1

i=1

n2

~ N(0,1) , ento

n
1

2 x i2 2 1

i=1

~ 2
n 2

66

t=

Z
U
n2

( ) n 2

2 1
2 2 x i 2 1

i=1

2
i

( ) n 2
1

2 2 1

i =1

t=

( ) n 2

t=

2
1
2

n 2
2
1

( ) n 2

, mas se = 0 ento

~ t n2

3.2.1.7 Transformao Z de Fisher


Devido s divergncias entre a distribuio amostral de e a distribuio
normal e as limitaes para interpretao, Ronald A. Fisher desenvolveu uma
estatstica em que qualquer valor de pode ser transformado. Esta estatstica
chamada de Z, que no a distribuio normal padronizada (GUILFORD, 1950).
Z=

1 1 +

ln
= tanh 1

2 1

(3.45)

onde ln o logaritmo natural.


A mdia e a varincia da distribuio amostral de Z apresentada a seguir
e se encontra em KENNEY e KEEPING (1951, p. 222):
E( Z) =

1 1+
ln
+
2 1 2n 1

(3.46)

V( Z ) =

4 2
1
+
n 1 2 (n 1) 2

(3.47)

Fazendo k =
forma a seguir:

4 2
, a varincia (expresso 3.47) pode ser escrita na
2

67

1
k
1+

n 1 n 1

V1 =

(3.48)

A expresso (3.48) se aproxima de V2 =

1
quando k = 2 e medida
n 1 k

que o tamanho da amostra (n) aumenta, como se pode observar no quadro 1:


QUADRO 1 - VALORES DE V1 E V2 SEGUNDO TAMANHO DA AMOSTRA
TAMANHO DA AMOSTRA
(n)

V1 =

1
n 1

20
30
50
100
200

1 + n 1

0,05817
0,03686
0,02124
0,01031
0,00508

V2 =

1
n 1 2
0,05882
0,03704
0,02128
0,01031
0,00508

FONTE: A autora

Para valores de n moderado, verificando-se a igualdade das expresses


apresentada no quadro, possvel utilizar os estimadores para varincia e erro
padro apresentados a seguir:

2Z =

1
n3

Z =

1
n3

(3.49)

Em 1938, DAVID10, citado por ANDERSON (1958, p. 75), fez algumas


comparaes entre as probabilidades tabeladas e calculadas, assumindo Z como
sendo distribuio Gaussiana. Segundo a autora, para n > 25 possvel tratar Z
como normalmente distribuda com mdia E( Z) =

2Z =

1 1+
ln
e varincia
+
2 1 2n 1

1
.
n3

A funo densidade de probabilidade da distribuio normal ou Gaussiana


j foi apresentada na seo 2.4.2.1.

10DAVID,

F. N. Tables of the ordinates and Probability Integral of the Distribution of the


Correlation Coefficient in Small Samples. Biometrika, 1938.

68

Para n > 25 , como discutido anteriormente, a distribuio de Z ter a


seguinte f.d.p.: f (Z) =

1
Z 2

1 Z E(Z)

2
Z

Os grficos 8 e 9 mostram a distribuio amostral de Z para as situaes


apresentadas nos grficos 5 (n = 29 e = 0,80) e 7 (n = 29 e = 0) , mostrando as
distribuies amostrais de . Os clculos para a obteno dos f(Z) encontram-se no
Apndice 2.
(I) Para n = 29 e = 0,80
GRFICO 8 - DISTRIBUIO AMOSTRAL DE Z PARA = 0,80
2,5

Freqncia

2,0
1,5
1,0
0,5
0,0
0,00

0,20

0,40

0,60

0,80

1,00

1,20

1,40

1,60

1,80

2,00
Z

FONTE: A autora

(II) Para n = 29 e = 0
GRFICO 9 - DISTRIBUIO AMOSTRAL DE Z PARA = 0

Freqncia

2,5
2,0
1,5
1,0
0,5
0,0
-1,00

-0,80

-0,60 -0,40

-0,20

0,00

0,20

0,40

0,60

0,80
Z

FONTE: A autora

1,00

69

3.2.1.8 Teste de hiptese para 0


A transformao abordada anteriormente til, tambm, quando se deseja
testar a hiptese H0 : = 0 contra H1 : 0 .
Neste caso, pode-se usar o teste Z, calculado atravs de Z =

Z Z

, que

aproximadamente normal (BRYANT, 1960); os valores de Z e Z podem ser


obtidos atravs das expresses a seguir:
Z =

1 1 +
ln
2 1

Z =

1 1 +
ln
2 1

(3.50)

onde o parmetro populacional que se est testando e a estimativa


amostral.
Ainda, a significncia da diferena de coeficientes de correlao de duas
amostras pode ser testada por:
H 0 : 1 2 = 0
H1 : 1 2 0

A estatstica do teste definida por:

Z=

Z1 Z 2

+
2
Z1

2
Z2

Z1 =
onde

1
n1 3

e Z2 =

1
n2 3

(3.51)

Os valores de Z1 e Z 2 podem ser obtidos substituindo-se os valores de 1


e 2 na expresses a seguir:
Z1 =

1 1 + 1
ln

2 1 1

Z2 =

1 1 + 2
ln

2 1 2

3.2.1.9 Intervalo de confiana para


Os limites de confiana, de nvel 1 para o parmetro , apresentados
em BRYANT (1960), podem ser obtidos atravs de:

70

Z < Z < Z + Z 2 Z ] = 1
P [ Z Z 2

(3.52)

onde Z o valor de Z correspondente ao valor do coeficiente de correlao


amostral, e Z 2 o valor da rea sob a distribuio normal padro para um nvel de
significncia de 2 .
A partir dos limites de confiana obtidos para Z , obtm-se os limites para ,
fazendo:

Z
Z 1 = Z Z 2

Z
Z 2 = Z + Z 2

Ento, o intervalo de confiana para ser obtido a partir da expresso

1 < < 2 = 1 , onde 1 e 2 sero obtidos a partir de:


P
1 =

3.2.1.10

2 Z 1

2 Z 1

1
+1

2 =

2 Z 2

2 Z 2

+1

(3.53)

Confiabilidade

3.2.1.10.1

Confiabilidade de instrumentos de medida

A Anlise de Correlao bastante til em instrumentos de avaliao,


particularmente os de educao (testes), quando se est estudando a confiabilidade
do instrumento.
Entende-se por confiabilidade em educao a consistncia dos escores
obtidos pelos examinandos (alunos) em determinado teste.
Um instrumento confivel quando um aluno obtm grau X no teste, hoje,
e dias aps obtm um grau muito prximo daquele. Esta consistncia expressa a
confiabilidade do teste. Para medir a confiabilidade utiliza-se a Anlise de
Correlao.
Resultado 3.10:

O coeficiente de confiabilidade estimado pelo coeficiente de correlao.

71

Prova:

Considerando que cada medida possa ser avaliada em dois momentos


distintos, tem-se, ento, duas observaes para cada elemento ou indivduo.
Supondo que ambas so referentes a uma mesma caracterstica e ambas sujeitas a
erro, ento possvel escrever, conforme apresentado em FERGUSON (1981):
X1i = X i + e1i

(3.54)

X 2i = X i + e 2i

(3.55)

onde: X1i a primeira medida obtida para indivduo i;


X 2i a segunda medida obtida para indivduo i;
Xi a medida verdadeira do indivduo i;
e1i o erro da primeira medida do indivduo i;
e 2i o erro da segunda medida do indivduo i.

Assim, possvel escrever os modelos:

(X1i ) = (X i ) + e1i
(X 2 i ) = (X i ) + e 2 i
e fazendo o produto das duas equaes tem-se:

(X1i )(X 2i ) = {[(X i ) + e1i ] [(X i ) + e 2i ]}


(X1i )(X 2i ) = [(X i )2 + (X i ) e 2i + e1i (X i ) + e1i e 2i ]
e fazendo o somatrio e dividindo por N1 2 , obtm-se:

(X1i )(X 2i ) [(X i )2 + (X i ) e 2i + e1i (X i ) + e1i e 2i ]


N

i=1

N1 2

(X
i=1

1i

N1 2

)(X 2i )

N1 2

i=1

(X
i=1

) +
2

(X
i=1

) e 2i +

e (X
1i

i=1

N1 2

) +

e
i=1

1i

e 2i

72

E, ainda, supondo que os erros sejam aleatrios e no correlacionados


com a verdadeira medida, os trs ltimos termos da expresso acima so iguais a
zero e 1 = 2 = . Assim, obtm-se:
N

i=1

i=1

(X1i )(X 2i ) (X i )2
N1 2

1 X2

N1 2

2
i
2

i 2
2

, logo

i2
2

(3.56)

onde: X1 X2 o coeficiente de confiabilidade;


i2 a varincia verdadeira;
2 a varincia observada.

Como se pode observar, X1X2 o coeficiente de correlao entre as duas


medidas, que representa o coeficiente de confiabilidade. Quando as medidas
referem-se s amostras, o coeficiente de confiabilidade ser obtido a partir de:

1 X2

S i2
S2

(3.57)

onde: X1 X2 o coeficiente de confiabilidade amostral;


S i2 a varincia amostral verdadeira;
S 2 a varincia amostral observada.

possvel ainda considerar um teste constitudo por n itens, aplicado a


uma amostra de N indivduos. Seja P1, P2 ,..., Pn o nmero total de escores obtidos em
cada um dos itens, pelos N indivduos. A proporo mdia de acertos do item i
pi =

Pi
, e a varincia S i2 = p i (1 p i ) = p i qi .
N

Representando-se por X1 , X 2 ,..., X N o total de acertos (escores) de N


indivduos, tem-se:

73
N

X=

j =1

, a mdia de escores do teste

(X
N

j=1

S 2X =

, a varincia de escores do teste

N 1

Em testes constitudos por diferentes itens, cada item est correlacionado


com os outros itens. Assim, possvel obter a varincia total S 2X atravs de
S 2X =

2
i

+2

i=1

n 1

S S
ij

onde ij o Coeficiente de Correlao Phi, que

, mas S i2 = p i (1 p i ) = p i qi

i=1 j=i+1

ser apresentado na seo 3.2.7


S 2X

2
i

n 1

S S

=2

i=1

ij

i=1 j =i+1

n 1

e S 2X p i qi = 2 ij S i S j
i =1

i=1 j=i+1

Segundo GUILFORD (1950), a verdadeira varincia est na covarincia


(expresso direita da igualdade da equao acima). Assim, a verdadeira varincia
poder ser definida como se segue:
S 2V = S 2X

p q
i

i=1

dividindo-se a expresso acima por S 2X

XX =

S 2V
S 2X

S 2X
=

p q

i =1
S 2X

, que o mtodo de consistncia interna, descrito

no item d, a seguir.

A partir dos modelos apresentados foram desenvolvidos diferentes


mtodos para estimar a confiabilidade:

74

a) Mtodo do Teste-Reteste
Neste mtodo, o mesmo instrumento de medida aplicado em duas
ocasies distintas para a mesma amostra. Calcula-se, ento, o
Coeficiente de Correlao Linear de Pearson para o conjunto de medidas.
O tempo decorrido entre a aplicao dos testes importante, pois quanto
maior o tempo transcorrido entre os dois testes menor a correlao. O
teste freqentemente utilizado para calcular a confiabilidade de testes
escritos, sendo conhecido como coeficiente de estabilidade.
b) Mtodo da Forma Paralela
tambm conhecido como forma equivalente. Neste mtodo,
administra-se um teste da forma A para um grupo de pessoas, e
imediatamente aps administra-se um teste da forma B, com o
mesmo contedo. As duas formas so feitas com os mesmos tipos de
itens. O Coeficiente de Correlao Linear de Pearson calculado para
o conjunto de escores dos dois testes.
c) Mtodo Split-Half
Sua vantagem que necessita somente de um conjunto de dados. Neste
mtodo, normalmente considera-se o nmero de acertos das questes
pares e o nmero de acertos das questes mpares. Ou, ainda, as duas
primeiras questes para o primeiro escore, as duas seguintes para o
segundo escore, e assim alternadamente. No aconselhvel fazer a
diviso dos itens exatamente ao meio, pois comum as primeiras
questes serem mais fceis do que as ltimas. O Coeficiente de
Correlao Linear de Pearson calculado para o conjunto de escores.
d) Mtodo de Consistncia Interna
Este mtodo era inicialmente utilizado para escores dicotmicos, como,
por exemplo, 1 para certo e zero para errado. Conforme citado por
FERGUSON (1981, p. 438), KUDER e RICHARDSON desenvolveram um

mtodo para obter o coeficiente de confiabilidade usando estatstica de


teste de itens. Uma estimativa da confiabilidade dada por:

75

XX =

n
n 1

S 2X

p i qi

i=1
S 2X

n
1
=
n 1

p q
i

i=1

S 2X

(3.58)

onde: XX o coeficiente de confiabilidade de KUDER e RICHARDSON;


n o nmero de itens;

(escj esc )
N

S 2X a varincia de escores do teste obtida por: S 2x =

j =1

N 1

N o total de examinados (participantes do teste);


escj o total de escores do teste para cada examinando;
esc a mdia dos escores do teste;
n

p q

i i

a soma do produto de propores de acertos e erros em cada item i.

i=1

Lee Cronbach generalizou a expresso de KUDER e RICHARDSON para o


caso em que os itens no so todos dicotmicos (CRONBACH, 1951). Esta
expresso recebeu o nome de alfa de Cronbach, apresentada a seguir:
n
=
n 1

S2

2
i

i=1
2

S i2

n
1 i=1 2
=
n 1
S

(3.59)

onde: o coeficiente alfa de CRONBACH;


n o nmero de itens;

(escj esc )
N

S 2 a varincia dos escores do teste obtida por: S 2 =

j =1

N 1

N o total de examinados (participantes do teste);


escj o total de escores do teste para cada examinando;
esc a mdia dos escores do teste;

(escij esc )
N

S i2 a varincia dos escores no item i obtida por: S i2 =


escij o escore do examinando j no item i;
esc i a mdia dos escores do item i.

j =1

N 1

76

3.2.1.10.1.1

Correo de atenuao do coeficiente de correlao

Uma importante utilizao do coeficiente de confiabilidade, apresentada


por GUILFOD (1950) e FERGUSON (1981), para solucionar o problema de erros de
medida.
importante considerar a possibilidade de erros de medida das variveis
envolvidas. Tais erros, j descritos, tm influncia direta no coeficiente de
correlao. Os erros normalmente tendem a diminuir o coeficiente de correlao
entre as duas variveis.
Resultado 3.11: O estimador do coeficiente de correlao corrigido ou desatenuado

conforme a expresso a seguir:

X,Y =

X,Y
X,X Y,Y

(3.60)

onde: X,Y o coeficiente de correlao corrigido ou desatenuado;

X,Y o coeficiente de correlao entre as variveis X e Y (observadas);


X,X o coeficiente de confiabilidade da varivel X (observada);
Y,Y o coeficiente de confiabilidade da varivel Y (observada).
Prova:

Sejam as variveis observadas:


X = X + u
Y = Y + v

onde: X e Y so as variveis observadas;


X e Y so as variveis verdadeiras (sem erros de medidas);
u e v so os erros de medidas das variveis X e Y, respectivamente.

O coeficiente de correlao entre as variveis observadas X e Y


conforme a expresso (3.11) do resultado 3.1:

77
n

X,Y =

i=1

( X i X ) 2
n

( X i X ) ( Yi Y )

i =1

i=1

( Yi Y ) 2
n

x y
i=1

X Y
n

As variveis observadas podem ser substitudas pelas verdadeiras, mais


os erros de medidas.
Utilizaram-se as seguintes notaes para cada uma das variveis:
x i = X i X , y i = Yi Y , x i = X i X e y i = Yi Y .

Reescrevendo a expresso anterior tem-se:


n

X,Y =

(x
i=1

X,Y =

+ u i )( y i + v i )

X Y
n

xiyi +

i =1

i =1

xivi +

(x y
i

+ x i v i + y iu i + u i v i )

i =1

y iui +

i =1

X Y
n
n

u v
i

i =1

X Y
n

Supondo que os erros sejam independentes entre si e de x e y, tem-se


n

X,Y =

xiyi

i =1

X Y
n

ento X,Y =

, mas X,Y =

x y
i

x y

e portanto

i=1

X Y
n

X,Y n X Y
=

i =1

X,Y n X Y
Y
X,Y X
=
X Y
n

X

Tem-se, do resultado 3.10 (expresso 3.57), que o coeficiente de


confiabilidade medido pela razo entre a varincia verdadeira e a varincia
observada da varivel X. Assim, tem-se

X,X e
=

Y,Y
=

escrever a expresso como segue:


X,Y = X,Y X,X

Y,Y , e portanto X,Y =

X,Y
X,X

Y,Y

e possvel

78

3.2.1.10.1.2 Aplicao da correo de atenuao


A aplicao descrita a seguir refere-se ao trabalho realizado por SILVEIRA
e PINENT (2001), cujo objetivo foi estudar a validade e o poder decisrio da redao
em concursos de ingresso universidade no Brasil.
O estudo foi elaborado com os dados dos participantes do Concurso
Vestibular de 1999 da Universidade Federal do Rio Grande do Sul (CV-UFRGS) e da
Pontifcia Universidade Catlica do Rio Grande do Sul (CV-PUCRS). O total de
candidatos foi de 35.787 e 10.547, respectivamente da UFRGS e da PUCRS. Destes,
6.516 candidatos participaram dos dois concursos, os quais foram objeto do estudo.
Os candidatos do CV-UFRGS receberam o total de escores entre zero e
trinta para cada uma das nove provas a que se submeteram, mais o escore final da
redao, entre zero e vinte. Com relao aos candidatos do CV-PUCRS, os
candidatos receberam o total de escores em quatro pares de provas (Biologia e
Qumica, Fsica e Matemtica, Histria e Geografia, Lngua Estrangeira e Literatura
Brasileira), acrescidos das provas de Lngua Portuguesa e de Redao. Para os
pares de provas os escores variaram entre zero e cinqenta, para Lngua
Portuguesa de zero a vinte e cinco, e para a prova de Redao entre zero e quatro.
A tabela 1 apresenta os resultados obtidos, pelos autores, de coeficientes
de confiabilidade11 das provas nos CV-UFRGS e CV-PUCRS, os coeficientes de

[(1 )S ]
n

11Os

onde:

autores utilizaram a seguinte expresso:

y = 1

2
i

i =1

S 2y

y = coeficiente de confiabilidade do escore obtido da soma de dois ou mais escores X i


i = coeficiente de confiabilidade do escore X i
y = escore total ou y =

x
i =1

S i2 = varincia do escore Xi
S 2y = varincia do escore y

79

Correlao Linear de Pearson entre os escores obtidos nos dois concursos para
cada par de provas e o coeficiente de correlao desatenuado.
TABELA 1 - COEFICIENTES DE CONFIABILIDADE E DE CORRELAO ENTRE OS ESCORES DAS
PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999
COEFICIENTE DE CONFIABILIDADE
PROVA
PUCRS
Biologia e Qumica
Matemtica e Fsica
Histria e Geografia
Lngua Estrangeira e
Lngua Brasileira
Lngua Portuguesa
Nmero total de acertos
nas 9 provas

UFRGS

COEFICIENTE DE COEFICIENTE DE
CORRELAO DE
CORRELAO
PEARSON
DESATENUADO

0,84
0,84
0,83

0,79
0,84
0,79

0,80
0,78
0,80

0,98
0,93
0,99

0,81
0,66

O,84
0,69

0,79
0,52

0,96
0,92

0,95

0,96

0,92

0,96

FONTE: SILVEIRA e PINENT (2001)

Conforme os autores, os coeficientes de confiabilidade das provas da


PUCRS e UFRGS que versam sobre os mesmos contedos (por exemplo, biologia e

qumica, matemtica e fsica, etc.) so semelhantes, aproximadamente iguais aos


coeficientes de correlao linear de Pearson.
Os coeficientes de correlao desatenuado ou corrigido so prximos de
um, indicando que as provas do CV-UFRGS e do CV-PUCRS medem os mesmos
contedos.

3.2.1.10.1.3 Aplicao da correo para restrio em variabilidade


No trabalho apresentado na seo 3.2.1.10.1.2, de SILVEIRA e PINENT (2001),
pode-se encontrar a aplicao da Correo para a Restrio em Variabilidade
(resultado 3.4), quando apresentam os coeficientes de correlao para os 6.516
candidatos das duas universidades, obtidos a partir de estatsticas de um grupo menor
de candidatos.
No CV-UFRGS, as redaes so avaliadas somente quando o candidato faz
mais de 108 acertos (40%) do total de 270 questes de escolha mltipla. Do total de

80

6.516 candidatos comuns aos dois concursos, 4.184 tiveram a redao avaliada no
CV-UFRGS.

A partir do grupo composto por 4.184 candidatos, foram estimados os


coeficientes de correlao dos escores na redao do CV-UFRGS de todos os
candidatos (6.516), com as demais provas dos dois concursos, incluindo a redao
do CV-PUCRS (tabela 2).

TABELA 2 - COEFICIENTE DE CORRELAO ENTRE OS ESCORES DA PROVA DE REDAO E


OUTRAS PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999

PROVA

COEFICIENTE DE CORRELAO ENTRE OS ESCORES


DA PROVA DE REDAO E OUTRAS PROVAS
CV-UFRGS

Biologia e Qumica - PUCRS


Biologia e Qumica - UFGRS
Matemtica e Fsica - PUCRS
Matemtica e Fsica - UFRGS
Histria e Geografia - PUCRS
Histria e Geografia - UFRGS
Lngua Estrangeira e Lngua Brasileira - PUCRS
Lngua Estrangeira e Lngua Brasileira - UFRGS
Lngua Portuguesa - PUCRS
Lngua Portuguesa - UFRGS
Redao - PUCRS
Redao - UFRGS

CV-PUCRS

0,29
0,28
0,24
0,20
0,32
0,29
0,47
0,49
0,49
0,55
0,41

0,39
0,38
0,36
0,34
0,40
0,38
0,47
0,46
0,44
0,46
0,41

FONTE: SILVEIRA e PINENT (2001)

Os coeficientes de correlao apresentados na tabela 2 so relativamente


baixos, podendo indicar que, segundo os autores, a questo de redao avalia
aspectos independentes aos que so medidos em questo de mltipla escolha.
Ainda, os autores concluem que h fortes indcios de que a confiabilidade
dos escores de redao pequena, de forma que a correlao entre a redao e
outra prova no poder ser grande.

3.2.1.10.2 Confiabilidade em Sistemas de Engenharia


O objetivo da confiabilidade em sistemas de engenharia avaliar a segurana
de um sistema. Assim, tem-se a avaliao da probabilidade de no haver falha durante
a sua vida til, atendendo aos objetivos para os quais o sistema foi projetado.

81

3.2.1.10.2.1

Confiabilidade estrutural

A avaliao da probabilidade de falha tem como base a funo de


performance do sistema, conhecida como funo de estado limite, ou funo de
falha ou margem de segurana, representada por g( X) , onde X o vetor de
variveis aleatrias envolvidas na anlise. A avaliao da probabilidade de falha
usualmente identificada como anlise de confiabilidade estrutural.
Sendo f x ( X) a funo densidade de probabilidades conjunta das variveis
aleatrias X , a probabilidade de falha pode ser obtida atravs de:
P(falha) =

f x ( X)dx onde F indica o domnio de falha (g( X) 0) .

A avaliao da expresso acima no simples, pois envolve a avaliao


de uma integral n-dimensional com domnio (g( X) 0) , onde n o nmero de
variveis aleatrias de X . Em funo da dificuldade, mtodos alternativos so
utilizados. Citem-se dois mtodos analticos bastante utilizados:
(i) First Order Reliability Method (FORM): Quando se tem uma funo de
falha linear, a confiabilidade pode ser obtida atravs da distncia da
funo at a origem.
Neste mtodo, as variveis aleatrias X , com distribuies quaisquer,
podendo ser dependentes ou no entre si, so transformadas em
variveis normais padres X , estatisticamente independentes.
(ii) Second Order Reliability Method (SORM): A diferena deste mtodo
para o anterior est na aproximao feita para a superfcie de falha.
Neste mtodo, faz-se uma aproximao por uma superfcie no-linear
(quadrtica), em vez de linear.
Os mtodos FORM e SORM assumem implicitamente (HALDAR e
MAHADEVAN, 2000) que as variveis ( X1, X2 ,..., Xn ) so no correlacionadas. Deve-se,
inicialmente, portanto, obter a matriz de correlao dessas variveis. Considerando a
funo de estado limite g (X1, X2 ,..., Xn ) , a matriz de covarincia ser representada como:

82

2X1
cov (X 1, X 2 )

2X2
cov (X 2 , X1 )
[C] =
...
...

cov (X n , X 1 ) cov (X n , X 2 )

... cov (X1, X n )

... cov (X 2 , X n )

...
...

...
2Xn

Definindo as variveis padronizadas como: Xi =

(3.61)

X i Xi

(i = 1, 2,..., n) , ento

a matriz [C] ser:


1

[C] = X...2 ,X1

Xn ,X1

X ,X
1

1
...

X ,X
n

... X1,Xn

... X2 ,Xn
...
...

...
1

(3.62)

onde Xi ,X j o coeficiente de correlao entre X i e X j .


Os mtodos FORM e SORM podero ser utilizados se as variveis
( X1, X 2 ,..., X n ) forem transformadas para variveis no-correlacionadas. Em grande

parte dos problemas prticos, as variveis correlacionadas podem ser transformadas


em no-correlacionadas atravs de uma transformao ortogonal da forma:
Y = L1( X) onde L a matriz triangular inferior obtida pela fatorao de Cholesky da

matriz [C] (HALDAR e MAHADEVAN, 2000).

3.2.1.10.2.2

Confiabilidade de sistemas

Existem situaes em que mais de uma funo de performance ou estado


limites envolvida. Neste caso possvel calcular a probabilidade de falha para
cada modo ou componente, usando o mtodo FORM, e depois calcular a
probabilidade do sistema como um todo, levando-se em conta a contribuio de
cada um dos componentes.
Um sistema chamado em srie quando a falha de um de seus
componentes leva a falhar o sistema. A probabilidade de falha de um sistema em
srie pode ser obtida atravs de (UFRJ. COPPE. PEC):

83

Pi = ( i )

(3.63)

Pij = ( i , j , ij )

(3.64)

onde: i , j so os ndices de confiabilidade de cada um dos componentes;

ij

a correlao entre os dois componentes, ou seja, ij = i j , onde i e j


so os vetores normais nos pontos de mnimo de cada um dos
componentes;

a funo cumulativa de probabilidade normal padro;

(,, ) a funo cumulativa bidimensional normal padro dada por:

( )

i , j , ij = ( i ) j +

ij
0

( i, j , z )dz

(3.65)

e (,, ) a funo densidade de probabilidade bidimensional padro dada por:


(x, y, ) =

1
2 1 2

1 x 2 + y 2 2
exp
1 2
2

(3.66)

Um sistema chamado em paralelo quando a falha do sistema ocorre aps


a falha de todos os seus componentes ou modos.
A probabilidade de falha de um sistema em paralelo, utilizando o mtodo
FORM, para o caso de dois componentes, pode ser obtida atravs de:
Pij = ( i , j , ij )

onde: i , j so os ndices de confiabilidade de cada um dos componentes;

ij a correlao entre os dois componentes, ou seja, ij = i j , onde i e j


so os vetores normais nos pontos de mnimo de cada um dos componentes;
(

a funo cumulativa de probabilidade normal padro;

(,, ) a funo cumulativa bidimensional normal padro dada por:

i , j , ij = ( i ) j +

ij
0

( i , j , z )dz

84

e (,, ) a funo densidade de probabilidade bidimensional padro dada


por:
1

(x, y, ) =

2 1 2

1 x 2 + y 2 2
exp
1 2
2

, conforme j apresentado

anteriormente.

3.2.1.11

Teste de normalidade (Gaussianidade)


FILLIBEN (1975) prope o teste de normalidade de uma varivel atravs do

clculo do coeficiente de correlao, utilizando a mediana da distribuio normal


padronizada.
O autor apresenta algumas vantagens de se utilizar a mediana, em vez da
mdia, pois segundo ele esta ltima medida apresenta algumas propriedades
indesejveis, tais como: a tcnica de integrao para o clculo da mdia varia
drasticamente de uma distribuio para outra; para algumas distribuies, as mdias
so difceis de serem obtidas ou requerem grande tempo de clculo e precisam ser
aproximadas e, ainda, em algumas distribuies, a mdia pode no ser definida.
A proposta apresentada para o clculo do coeficiente de correlao :

(X
n

)(

X Mi M

i =1

(X
n

i =1

) (M M)
2 n

(3.67)
2

i =1

Os valores de Mi necessrios para o clculo da estatstica so os


inversos da funo densidade acumulada da distribuio N(0,1) de m i , ou seja,
Mi = 1 (m i ) . Os valores de

mi

podem ser obtidos atravs da expresso

apresentada a seguir:
1 mn
para i = 1

m i = (i 0,3175 ) /(n + 0,365 ) para i = 2, 3,..., n 1

0,51/ n
para i = n

(3.68)

85

Os valores de m i correspondem s reas sob a curva normal e, os de Mi ,


aos respectivos valores de z (distribuio normal padro).
Para um exemplo prtico, considere-se uma amostra aleatria com n = 200
observaes obtida atravs do processo de simulao. A varivel aleatria
normalmente distribuda com mdia igual a 92,84155 e varincia igual a (57,98319 )2 .
Os resultados da simulao so apresentados resumidamente a seguir. A amostra
aleatria e as estatsticas calculadas encontram-se no Apndice 3.
Os valores da varivel so ordenados em ordem crescente e os m i so
obtidos conforme a expresso apresentada anteriormente.
Calculou-se inicialmente o m 200 = 0,5 (1/ 200 ) = 0,99654 , e, aps, obteve-se o
m1 = 1 m 200 = 1 0,99654 = 0,00346 . A partir de m 2 , at m199 , basta substituir o valor de
i em: (i 0,3175 ) /(n + 0,365 ) . O m 2 ser obtido por: (2 0,3175 ) /( 200 + 0,365 ) = 0,00840 ;
m 3 = (3 0,3175 ) /( 200 + 0,365 ) = 0,01339 e assim at m199 (quadro 2).

Para m1 = 0,00346 , o valor de z correspondente -2,70 (reas sob a curva


normal); para m 2 = 0,00840 , o valor de z -2,39 e assim at m 200 = 0,99654 , cujo valor
de z correspondente 2,70.
QUADRO 2 - ESTATSTICAS DA VARIVEL ALEATRIA X, SEGUNDO
A ORDEM CRESCENTE

i
1
2
3

Xi

-66,08907
-55,34452
-54,64370
4
-33,28091
5
-29,60415
6
-14,42701
7
-10,38914
8
-9,61244
9
-8,57903
10
-7,46465
11
-5,66421
.
.
.
.
.
.
196
200,60562
197
211,89209
198
212,51855
199
222,03666
200
247,78060
FONTE: A autora

( X i X)
-158,93062
-148,18607
-147,48525
-126,12246
-122,44570
-107,26856
-103,23069
-102,45399
-101,42058
-100,30620
-98,50576
.
.
.
107,76407
119,05054
119,67700
129,19511
154,93905

mi
0,00346
0,00840
0,01339
0,01838
0,02337
0,02836
0,03335
0,03834
0,04333
0,04832
0,05332
.
.
.
0,97663
0,98162
0,98661
0,99160
0,99654

Mi
-2,70067
-2,39106
-2,21471
-2,08842
-1,98865
-1,90547
-1,83369
-1,77029
-1,71329
-1,66137
-1,61348
.
.
.
1,98865
2,08842
2,21471
2,39106
2,70067

86

Foram obtidos os seguintes valores, necessrios para o clculo de :


X = 92,84155 ; M = 0 ;

(X

X)(Mi ) = 11. 424,30554 ;

i=1

(X
n

= 669. 048,10709 ;

i=1

M
i=1

2
1

= 195,55906

A expresso (3.67) pode ser apresentada de forma resumida, pois M = 0 .

(X
n

X Mi

i=1

(X
n

i=1

) M
2

(3.69)
2
i

i=1

Substituindo os valores na expresso acima, obtm-se o coeficiente de


correlao = 0,99876 . Este coeficiente superior ao valor crtico (quadro A.2.1 do
Anexo 2) igual a 0,98700, para nvel de significncia de 5%. Portanto, aceita-se a
hiptese H0 de que a varivel aleatria X normalmente distribuda.

3.2.2

Coeficiente de Correlao Bisserial

3.2.2.1 Introduo
O Coeficiente de Correlao Bisserial uma estimativa do Coeficiente de
Correlao Linear de Pearson entre uma varivel contnua X e uma varivel latente
YL (contnua e normal), subjacente varivel dicotmica Y (LORD e NOVICK, 1967),

(FERGUSON, 1976) e (WHERRY, 1984).


Uma aplicao possvel deste coeficiente na anlise de itens (questes
que geram escores dicotmicos do tipo certo ou errado) de uma prova; utiliza-se
ento a hiptese de que, subjacente resposta de cada item, exista uma varivel
latente, contnua e normal, que determina o resultado (certo ou errado, zero ou um)
no item. O Coeficiente Bisserial estima o Coeficiente de Pearson entre o escore total
na prova ( X) e a varivel latente, subjacente ao item.

87

De acordo com GUILFORD (1950), o Coeficiente Bisserial utilizado em


situaes em que ambas as variveis correlacionadas so passveis de ser medidas
como contnuas, mas, por alguma razo, uma delas foi reduzida a duas categorias.
Esta reduo pode ser em conseqncia de ser a nica forma de obteno dos
dados, como, por exemplo, a situao em que o aluno foi aprovado ou reprovado,
conforme algum critrio.
Quando uma das variveis (Y) medida como dicotmica, ou seja,
reduzida a duas categorias por alguma razo, e a outra contnua, o Coeficiente de
Correlao Bisserial ( b ) utilizado, descrito em GUILFORD (1950), DOWNIE e
HEATH (1959), McNEMAR (1969) e BUNCHAFT e KELLNER (1999).

3.2.2.2 Estimador do Coeficiente de Correlao Bisserial e do erro padro

b =

Xp X t p

St
y

b =

Xp X q p q

St
y

ou

(3.70)
(3.71)

onde: b o Coeficiente de Correlao Bisserial;


Xp a mdia dos valores de X para o grupo superior (grupo cujos valores de

X esto acima do ponto de dicotomizao da varivel Y);


X q a mdia dos valores de X para o grupo inferior (grupo cujos valores de X

esto abaixo do ponto de dicotomizao da varivel Y);


X t a mdia total de X da amostra;
S t o desvio padro total de X da amostra;
p a proporo de casos do grupo superior (grupo cujos valores de X esto

acima do ponto de dicotomizao da varivel Y);


q a proporo de casos do grupo inferior (grupo cujos valores de X esto

abaixo do ponto de dicotomizao da varivel Y);


y a ordenada da distribuio normal no ponto de dicotomizao (p) da
varivel Y. Inicialmente obtm-se o valor de z, correspondente rea
menor ou igual a p e calcula-se y = f (z), dada por f (z) =

Z2
2

88

Erro padro do Coeficiente de Correlao Bisserial:

b =

pq
b2

y
n

(3.72)

onde: b o erro padro;

b2 o quadrado do Coeficiente de Correlao Bisserial;


n o nmero de observaes da amostra.

Para testar a hiptese nula de que b = 0 o estimador do erro padro ser:

b =

pq
y
n

(3.73)

3.2.2.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Bisserial


As suposies bsicas para a utilizao da Correlao Bisserial so
apresentadas em GUILFORD (1950), McNEMAR (1969) e BUNCHAFT e KELLNER
(1999). A primeira que a varivel Y seja medida como dicotmica, porm existindo
uma varivel normal e contnua, subjacente a ela. Como segunda suposio, a
varivel X deve ser contnua.
Segundo GUILFORD (1950), a utilizao das quantidades p, q, e y, na
expresso (3.70) e (3.71), est diretamente associada distribuio normal da
varivel subjacente varivel dicotmica. No sendo normalmente distribuda,
recair numa estimativa no confivel da correlao.
Finalmente, a varivel Y deve ser dicotomizada (ao ser medida) em um
ponto mais prximo possvel da mediana.
Quando b = 0,00 , o erro padro de b pelo menos 25% maior que de ,
para o mesmo tamanho de amostra. medida que p se aproxima de 1,0 ou 0,0, a
razo

pq
torna-se maior. Para p = 0,94 , o valor da ordenada y igual a 0,1200 e
y

89

esta razo igual a 2,0. Para p = 0,5 , o valor de y 0,3989 , e a razo assume o
menor valor, igual a 1,25. Esta , segundo GUILFORD (1950), a razo pela qual se
recomenda que a dicotomizao de Y seja feita mais prxima da mediana.
GUILFORD ainda se refere diferena entre as mdias para o clculo do

Coeficiente de Correlao Bisserial, como pode ser visto em (3.71). A diferena no


muito estvel, a no ser que as amostras sejam grandes. Segundo ele, mesmo
que a amostra seja de 1.000 casos, se apenas 1% dos casos estiver em uma das
categorias (0 ou 1), a mdia baseada em 10 casos, o que no favorvel para
realizar estimativas com base nessa mdia.
Comparando-se as caractersticas das duas correlaes, a de Pearson e a
Bisserial, sempre que possvel prefervel utilizar a primeira, principalmente quando
a amostra pequena (GUILFORD, 1950).

3.2.2.4 Aplicao do Coeficiente de Correlao Bisserial


A aplicao descrita a seguir refere-se ao trabalho realizado por CHAVES
NETO e TURIM (2003). O objetivo do estudo foi abordar as teorias da avaliao

educacional, tanto a Teoria Clssica, quanto a Teoria de Resposta ao Item (TRI) nos
seus vrios aspectos.
Para CHAVES NETO e TURIM (2003), o instrumento de medida educacional
um dos aspectos mais importantes da avaliao escolar. E, para eles, os bons
instrumentos de avaliao normalmente tm as seguintes propriedades: validade,
confiabilidade, objetividade e praticabilidade.
Ainda, desejvel, segundo os autores, que os itens que compem o
instrumento tenham as caractersticas do grau de discriminao e de dificuldade,
conhecidos a priori. Assim, possvel classificar os examinandos (alunos) em trs
grupos: bom, mdio e fraco.
Foram aplicados testes avaliativos em 5 escolas da rede municipal, do
perodo matutino, envolvendo as disciplinas de Lngua Portuguesa e Matemtica, do

90

municpio de Andir. Participaram todos os alunos devidamente matriculados nas 3.a e


4.a sries do ensino fundamental regular, num total de aproximadamente 1.400 alunos.
O teste de Lngua Portuguesa, aplicado nas 3a. e 4a. sries, compreendeu
trs partes:
-

parte I: interpretao de textos;

parte II: produo de textos;

parte III: leitura de textos.

A discriminao de cada item foi estimada tanto pela Teoria de Resposta


ao Item (TRI), quanto pela Teoria Clssica. Na anlise utilizando a Teoria Clssica, a
estimao da discriminao do item foi feita calculando-se o Coeficiente de
Correlao Bisserial e o Coeficiente de Correlao de Pearson.
O quadro 3 apresenta os Coeficientes de Correlao de Pearson e
Bisserial, calculados entre a pontuao total ( X) e resposta de cada item ( Y ) , no
teste de interpretao de texto dos alunos da 3.a srie, totalizando 369 examinandos
(alunos).
QUADRO 3 - COEFICIENTES DE CORRELAO DE PEARSON E BISSERIAL
ENTRE A PONTUAO TOTAL E RESPOSTA DE CADA ITEM, NO
TESTE DE INTERPRETAO DE TEXTO DA 3. SRIE, DAS
ESCOLAS MUNICIPAIS DE ANDIR
TOTAL DE
ALUNOS
ACERTOS
EXAMINANDOS
01
369
311
02
369
292
03
369
208
04
369
237
05
369
150
06
369
202
07
369
126
08
369
272
09
369
233
10
369
268
11
369
296
12
369
294
13
369
221
14
369
187
15
369
314
16
369
226
17
369
261
18
369
261
19
369
268
20
369
306
FONTE: CHAVES NETO e TURIM (2003)
NMERO DO
ITEM

COEFICIENTE DE CORRELAO
Pearson
0,356
0,325
0,471
0,492
0,476
0,469
0,382
0,451
0,540
0,495
0,433
0,551
0,505
0,423
0,207
0,366
0,433
0,523
0,511
0,451

Bisserial
0,539
0,460
0,593
0,631
0,602
0,589
0,494
0,609
0,691
0,663
0,620
0,785
0,640
0,530
0,317
0,466
0,573
0,692
0,684
0,669

91

Quanto maior o coeficiente de correlao, maior a discriminao do item.


Observa-se, no quadro, que o item de maior discriminao o 12, pois apresenta
Coeficiente de Correlao Bisserial igual a 0,785.

3.2.3

Coeficiente de Correlao Ponto Bisserial

3.2.3.1 Introduo
Embora seja usada normalmente como medida de correlao entre
escores e itens de testes, a Correlao Ponto Bisserial pode ser empregada em
outras situaes, onde a varivel dicotmica pode ser, a ttulo de exemplo, gnero
masculino ou feminino, pessoas normais ou neurticas, etc.
O Coeficiente de Correlao Ponto Bisserial ( pb )

derivado do

Coeficiente de Correlao de Pearson. Este mtodo indicado quando uma das


variveis (Y) dicotmica e a outra contnua.
Conforme apresentado em FERGUSON (1981), a Correlao Ponto Bisserial
fornece uma medida da relao entre uma varivel contnua, como escores de testes, e
outra varivel com duas categorias ou dicotmicas, como aprovado ou reprovado.
Segundo GUILFORD (1950), DOWNIE e HEATH (1959) e FERGUSON
(1981), a Correlao Ponto Bisserial a Correlao do Momento Produto. Se se
atribuir 1 para observaes de uma categoria e zero para outra, e se calcular o
Coeficiente de Correlao do Momento Produto, o resultado ser o Coeficiente
Ponto Bisserial. Ele interpretado da mesma forma que .

3.2.3.2 Estimador do Coeficiente de Correlao Ponto Bisserial e do erro padro


O estimador do Coeficiente de Correlao Ponto Bisserial foi obtido a partir
do estimador do Coeficiente de Correlao Linear de Pearson, conforme
apresentado em GUILFORD (1950).

92

Fazendo x i = X i X e y i = Yi Y , o estimador do coeficiente linear de


Pearson (resultado 3.1):
n

i=1

x y
2
i

i=1

(X
n

2
i

i=1

xiyi

i=1

) (Y Y )
n

x y
i

i =1

xiyi

i=1

x y
n

(3.74)

i =1

X uma varivel aleatria contnua e Y uma varivel aleatria com


distribuio de Bernoulli, tem-se, ento, que, por convenincia:

(X
n

x =

i=1

= Sx

S y = pq , onde p = e q = (1 - ) da distribuio de Bernoulli (conforme

resultado 2.1).
Desenvolvendo (3.74) tem-se:

x y = (X
n

i=1
n

xiyi =

i=1
n

)(

X Yi Y

i=1

[X Y X Y XY + XY ]
n

i=1

xiyi =

i=1

X Y nXY
i

(3.75)

i=1

Substituindo (3.75) em (3.74) tem-se:


n

X Y nXY
i

i =1

nS x pq

mas

X Y
i

i=1

e n X Y = n X p = n p X , ento,

np X p np X
nS x pq

= np X p

93

Dividindo por n, tem-se:

p Xp p X
Xp X p
=
=
S x pq

S x pq

Dividindo por p , tem-se que

(X X) p
= p
pb

Sx

ou

(3.76)

X Xq
pb = p
pq
Sx

onde: pb o Coeficiente de Correlao Ponto Bisserial;


Xp a mdia dos valores de X para o grupo superior (grupo cuja varivel Y

assume valor 1);


X a mdia total de X da amostra;
S x o desvio padro total de X da amostra;
p a proporo de casos do grupo superior (grupo cuja varivel Y assume

valor 1);
q a proporo de casos do grupo inferior (grupo cuja varivel Y assume

valor 0).

Erro padro do Coeficiente de Correlao Ponto Bisserial:

=
pb

2
1 pb

n2

(3.77)

pb o erro padro;
onde:
2
pb
o quadrado do Coeficiente de Correlao Ponto Bisserial;

n o nmero de observaes da amostra.

A relao existente entre os Coeficientes de Correlao Bisserial e Ponto


Bisserial apresentada em GUILFORD (1950):

94

b = pb

pq
y

e pb = b

y
pq

3.2.3.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Ponto


Bisserial
Sendo o Coeficiente de Correlao Ponto Bisserial igual ao Coeficiente de
Correlao do Momento Produto, a suposio de relao linear.
O que difere este coeficiente do Coeficiente de Correlao Bisserial que,
neste, a varivel Y originalmente dicotmica, no necessitando ser contnua e nem
normalmente distribuda

(BUNCHAFT e KELLNER, 1999). Este mtodo mais

utilizado do que o Coeficiente de Correlao Bisserial, pois no exige que a varivel


Y tenha distribuio normal na populao. Havendo qualquer dvida a respeito da
distribuio da varivel dicotmica, deve-se utilizar este coeficiente.

3.2.3.4 Coeficiente de Correlao Ponto Bisserial e teste de mdias


O clculo do Coeficiente de Correlao Ponto Bisserial pode ser
comparado ao teste de hipteses para diferena de duas mdias (GUILFORD, 1950)
e (CHEN e POPOVICH, 2002). A varivel contnua (X) representa a caracterstica de
interesse para o estudo e a varivel dicotmica (Y) representa os grupos. Quando
testada a hiptese de que H0 : pb = 0 , isto equivale a testar a hiptese de que
H0 : 1 2 = 0 . Aceitando-se a hiptese H0 : pb = 0 , pode-se concluir que as

mdias dos grupos so iguais.


possvel testar as hipteses H0 : pb = 0 e H1 : pb 0 utilizando-se a
estatstica t, pois o Coeficiente de Correlao Ponto Bisserial o Coeficiente de
Correlao Linear de Pearson. A estatstica do teste foi obtida no resultado 3.9, dada
por:
t=

n 2
~ t n2
2
1

95

onde: t a estatstica do teste;

pb = o coeficiente de correlao amostral;


n o nmero de observaes da amostra.

3.2.3.5 Aplicao do Coeficiente de Correlao Ponto Bisserial


Os dados utilizados foram obtidos a partir da Pesquisa Mensal de Emprego
(PME) na Regio Metropolitana de Curitiba (RMC). A PME uma pesquisa domiciliar
de periodicidade mensal que tem por objetivo acompanhar a situao do mercado
de trabalho na RMC. So pesquisadas mensalmente cerca de 10.000 pessoas com
10 anos e mais de idade.
As variveis da anlise foram a renda recebida no trabalho principal pelas
pessoas ocupadas na semana de referncia, na condio de empregados com
carteira de trabalho assinada no setor privado, no grupo de atividade relativa a
intermediao financeira e atividades imobilirias, aluguis e servios prestados s
empresas, com 11 anos ou mais de estudo e que trabalharam entre 35 e 45 horas,
na semana de referncia e gnero. Tem-se uma situao em que uma varivel
medida em nvel intervalar e outra dicotmica. Os dados referentes a esta aplicao
encontram-se no Apndice 4.
Tendo em vista que a varivel renda no normalmente distribuda, fez-se
uma transformao logartmica na varivel, pois, conforme descreve SIQUEIRA
(1983), a transformao logartmica reduz a varincia, mesmo que a varivel original
seja bastante heterognea, e muitas vezes esta transformao tambm resolve o
problema da no-normalidade, pois deixa a nova varivel mais prxima da normal.
Aps a transformao, calculou-se o Coeficiente de Correlao Ponto
Bisserial e o Coeficiente de Correlao Linear de Pearson entre as variveis
logaritmo natural da renda (ln renda) e gnero. O coeficiente estimado foi

pb = = 0,21544 , significativo para = 0,02 . Evidentemente que as estimativas so


iguais, pois trata-se do mesmo coeficiente de correlao.

96

Calculou-se tambm o Coeficiente Linear de Pearson entre a varivel


original renda e gnero. O coeficiente estimado foi = 0,18412 , significativo para

= 0,04 .
Cabe destacar que o objetivo foi mostrar que, embora a varivel renda no
seja normalmente distribuda e tenha sofrido uma transformao logartmica, os
resultados no sofreram grandes alteraes, o que mostra a propriedade do
Coeficiente de Correlao de Pearson ser quase-invariante frente s transformaes
monotnicas (ANDERBERG , 1973).

3.2.4

Coeficiente de Correlao Tetracrico

3.2.4.1 Introduo
O Coeficiente de Correlao Tetracrico uma estimativa do Coeficiente
de Correlao Linear de Pearson entre uma varivel latente ( X L ) e uma varivel
latente ( YL ) (ambas contnuas e normais), subjacentes s variveis dicotmicas
X e Y efetivamente observadas (LORD e NOVICK, 1967), (FERGUSON, 1976) e
(WHERRY, 1984).
O Coeficiente de Correlao Tetracrico utilizado na aplicao da Teoria
de Resposta ao Item (TRI). Para determinar a dimensionalidade de uma medida, um
dos ndices utilizados com base na Anlise Fatorial a partir da matriz dos
Coeficientes de Correlao Tetracrico. possvel encontrar um maior detalhamento
sobre o assunto em NOJOSA (2001).
As literaturas iniciais sobre a anlise de dados categricos tratavam este
coeficiente como ndice de associao. O assunto causou intenso debate entre
estatsticos, como Karl Pearson e G. Udny Yule, sobre como medir a associao. Karl
Pearson pensou na tabela de classificao cruzada de uma distribuio contnua
bivariada. O Coeficiente de Correlao Tetracrico uma medida de associao para
variveis contnuas, porm transformadas em tabela 2x2 (AGRESTI, 1990).

97

Esse coeficiente utilizado, segundo DOWNIE e HEATH (1959), McNEMAR


(1969) e BUNCHAFT e KELLNER (1999), para se relacionar duas variveis X e Y
contnuas, mas dicotomizadas (ao serem medidas) pelo pesquisador, por alguma razo.

3.2.4.2 Estimador do Coeficiente de Correlao Tetracrico e do erro padro


Apresenta-se, a seguir, a equao tetracrica. A demonstrao para a
obteno desta equao, a partir da transformao da distribuio normal bivariada
em variveis dicotmicas, pode ser encontrada em ELDERTON (1953, p. 175).

)(

)(

)(

2
2
2
2
4
2
4
2
ad bc
2 zz
3 z 1 z 1
4 z z 3 z 3
5 z 6z + 3 z 6z + 3

+
t
t
t
t
t
2
6
24
120
yy n 2

+ 6t

)(

)(

z z 4 10z 2 + 15 z z 4 10z 2 + 15
z 6 15z 4 + 45z 2 15 z 6 15z 4 + 45z 2 + 15
+ 7t
+ ...
720
5040

(3.78)

Aps a dicotomizao das variveis X e Y, obtm-se a tabela 2x2, como se


segue:
Varivel X
1

TOTAL

Varivel 1

a+b

c+d

a+c

b+d

TOTAL

p=

(c + d)
(a + b)
e q=
= 1 p
n
n

(3.79)

p' =

(b + d)
(a + c)
e q' =
= 1 p'
n
n

(3.80)

n = a + b + c + d (total de observaes)

Assim, tem-se que:


a,b,c,d so as freqncias da tabela 2x2;
z o valor correspondente rea menor ou igual a p. Por exemplo, se p = 0,50,
ento tem-se que z = 0 (tabela de reas sob a curva normal);

98

z o valor correspondente rea menor ou igual a p . Se p = 0,50, ento tem-se


que z = 0;
y o valor da ordenada no ponto p e pode ser obtida fazendo-se y = f(z) =
Para o exemplo citado, se z = 0, ento y = f (0) =

e 0
2

= 0,39894

Z2
2

(tabela de

ordenadas da curva normal);


y o valor da ordenada no ponto p e pode ser obtida fazendo-se y = f ( z) =

Z2
2

GUILFORD (1950) apresenta uma soluo aproximada do clculo do

Coeficiente de Correlao Tetracrico, ignorando os termos de grau superior a 2, na


expresso (3.78):

ad bc
zz
= t + 2t
2
2
yyn

(3.81)

onde: t o Coeficiente de Correlao Tetracrico;


a,b,c,d so as freqncias da tabela 2x2;
z o valor correspondente rea menor ou igual a p;
z o valor correspondente rea menor ou igual a p ;
y o valor da ordenada no ponto p;
y o valor da ordenada no ponto p ;
n = (a + b + c + d) o nmero de observaes da amostra.

Chamando o primeiro termo da expresso (3.81) de c; o coeficiente de t


de b ; e

zz
de a, tem-se uma equao do 2. grau:
2
a 2t + b t + c = 0

que poder ser resolvida atravs de: t =

(3.82)
b b 2 4ac
2a

99

Uma outra expresso apresentada em GUILFORD (1950), utilizando o


cosseno12:
180 bc

t = cos

ad + bc

(3.83)

Quando o produto bc igual a ad, o ngulo 90 o e o cosseno igual a


zero, conseqentemente t = 0 .
Erro Padro aproximado do Coeficiente de Correlao Tetracrico:
p q p q

t =

y y n

sen 1
t
1
1
o
90

2
t

(3.84)

t o erro padro;
onde:
t o Coeficiente de Correlao Tetracrico;
t o arco seno de t ;
sen 1
n = (a + b + c + d) o nmero de observaes da amostra.

Para testar a hiptese de que t = 0 , o que poder ser feito atravs da


estatstica t =

t
, o erro padro poder ser calculado considerando apenas a

t

primeira parte da expresso (3.84), como apresenta McNEMAR (1969):

t =

p q p q
y y n

12Conforme

(3.85)

demonstrado em WONNACOTT e WONNACOTT (1978), existe uma relao


e o cos , = cos e 1 cos +1 .
entre o Coeficiente de Correlao

100

3.2.4.3 Suposies bsicas para a utilizao do Coeficiente de Correlao


Tetracrico
As suposies bsicas para a utilizao do Coeficiente de Correlao
Tetracrico so de que as variveis X L e YL (latentes) devem ser contnuas e
normalmente distribudas, relacionadas linearmente; ainda, X e Y devem ser
dicotomizadas (ao serem medidas) o mais prximo possvel mediana.
O Coeficiente de Correlao Tetracrico ( t ) menos confivel que o de
Pearson, sendo que sua variabilidade cerca de 50% maior (GUILFORD, 1950),
quando = 0 . Para obter a mesma confiabilidade13 para o Coeficiente de Correlao
Tetracrico que a obtida no Coeficiente de Correlao de Pearson, necessrio o
dobro do tamanho da amostra. Recomenda-se que se utilizem amostras superiores
a 300.

3.2.4.4 Aplicao do Coeficiente de Correlao Tetracrico


FACHEL (1986) apresenta exemplos de aplicao do Coeficiente de

Correlao Tetracrico a partir de dados empricos. Dentre eles, cita-se o que ela
denomina de Weinreich data. Uma amostra foi composta de 802 pacientes, e estes
foram submetidos a um teste alrgico, em que a resposta para cada um dos 5 itens
(causas de alergia) nenhuma reao ou reao positiva. Os Coeficientes de
Correlao Tetracrico foram obtidos para cada par de diferentes causas de alergia e
a matriz de correlao tetracrica apresentada no quadro 4. Os 5 tipos de itens do
teste alrgico foram: 1) onion couch; 2) fescue grass; 3) couch grass; 4) cock's foot
grass; 5) rye grass.

13A

confiabilidade, aqui, usada como sinnimo de erro padro.

101
QUADRO 4 - MATRIZ DE CORRELAO TETRACRICA SEGUNDO ITENS DO TESTE
ALRGICO
ITENS
Fescue grass
Couch grass
Cocks foot grass
Rye grass

ONION
COUCH

FESCUE
GRASS

COUCH
GRASS

0,90
0,88
0,91
0,81

1,00
0,89
0,87
0,87

0,89
1,00
0,88
0,85

COCKS
FOOT GRASS
0,87
0,88
1,00
0,81

FONTE: FACHEL (1986)


NOTA: Assumindo que as variveis so realmente contnuas e normais.

O quadro acima indica que existe alta correlao entre os cinco itens do
teste alrgico. Um paciente que apresenta reao positiva a um tipo de item
tambm apresenta para os demais. A correlao maior entre os itens onion couch
e cock's foot grass, com t = 0,91. Em seguida, entre os itens onion couch e fescue
grass, com t = 0,90. Os itens que apresentam correlaes menores so rye grass

com os itens onion couch ( t = 0,81) e cock's foot grass ( t = 0,81) .

3.2.5

Coeficiente de Correlao de Spearman

3.2.5.1 Introduo
Este coeficiente o mais antigo e tambm o mais conhecido para variveis
mensuradas em nvel ordinal, chamado tambm de Coeficiente de Correlao por
Postos de Spearman, designado rho e representado por s . Quando as amostras
so pequenas, este mtodo deve ser usado, segundo GUILFORD (1950), em
substituio ao Coeficiente de Correlao do Momento Produto. conveniente para
nmero de pares menor que 30 e quando os dados j esto ordenados.
Para as variveis cuja mensurao em nvel ordinal, pode-se citar os
Coeficientes de Correlao Ordinal de Spearman e Postos de Kendall.
importante enfatizar, segundo BUNCHAFT e KELLNER (1999), que as
correlaes ordinais no podem ser interpretadas da mesma maneira que as
correlaes de Pearson. Inicialmente, no mostram necessariamente tendncia
linear, mas podem ser consideradas como ndices de monotonicidade, ou seja, para

102

aumentos positivos da correlao, aumentos no valor de X correspondem a


aumentos no valor de Y, e para coeficientes negativos ocorre o oposto. O quadrado
do ndice de correlao no pode ser interpretado como a proporo da varincia
comum s duas variveis.

3.2.5.2 Estimador do Coeficiente de Correlao de Spearman e significncia


Seu estimador foi derivado a partir do estimador do Coeficiente de
Correlao Linear de Pearson, conforme apresentado em SIEGEL (1975).
n

x y
i

i=1

(3.86)

x y
2
i

i=1

2
i

i=1

onde: x i = X i X
y i = Yi Y

Pode-se escrever:

i=1

n(n + 1)
onde n = postos = 1, 2, 3,..., n
2

Os quadrados dos postos so: 12 , 2 2 , 3 2 ,..., n 2


n

Ento

2
i

i=1

Assim,

Xi

i=1

i=1

i=1

i=1

X i
i=1

X i2
n

[n(n + 1) / 2]
n(n + 1)(2n + 1)

6
n

(n 2 + n)(2n + 1) n(n 2 + 2n + 1)

6
4

n3 n
12

Xi

Xi

i=1
n

(X X) =
n

Xi

i=1

n(n + 1)(2n + 1)
6

(3.87)

103

Da mesma forma, obtm-se que:


n

n3 n
12

y2 =

i=1

(3.88)

Fazendo a diferena de postos:


di = x i y i

elevando ao quadrado tem-se:


di2 = (x i y i ) = x i2 2x i y i + y i2
2

fazendo o somatrio:
n

2
i

x + y

i=1

2
i

i=1

2
i

i=1

x y
i

(3.89)

i =1

fazendo s =

x y
i

i=1

, tem-se que

x y
2
i

i =1

s
xi yi =

i=1

2
i

y
i =1

x i2

2
i

(3.90)

i=1

i=1

substituindo (3.87), (3.88) e (3.90) em (3.89) tem-se:


n3 n
2
s
d 2i = 2

i=1
12
n

y
i =1

x i2

2
i

i=1

Assim, obtm-se:
n

s = 1

2
i

i=1

n(n 2 1)

onde: s o Coeficiente de Correlao de Spearman;


di a diferena entre as ordenaes;
n o nmero de pares de ordenaes.

(3.91)

104

Quando a seleo dos elementos que compem a amostra feita de forma


aleatria, a partir de uma populao, possvel determinar se as variveis em
estudo so associadas, na populao. Ou seja, possvel testar a hiptese de que
as duas variveis esto associadas na populao.
Para amostras superiores a 10, segundo SIEGEL (1975), a significncia de
um valor obtido de s pode ser verificada atravs de t calculado pelo estimador
apresentado a seguir.

s
t=

n2

2s
1

~ t n2

(3.92)

onde: t a estatstica do teste;

s o Coeficiente de Correlao de Spearman;


n o nmero de pares de ordenaes.

Para n grande (n 10 ) , a expresso acima tem distribuio t de Student


com n-2 graus de liberdade.

3.2.5.3 Suposies para a utilizao do Coeficiente de Correlao de Spearman


Segundo SIEGEL (1975), o Coeficiente de Correlao de Spearman uma
medida que exige que as duas variveis se apresentem em escala de mensurao
pelo menos ordinal, de forma que os elementos (indivduos ou objetos) em estudo
formem duas sries ordenadas.

3.2.5.4 Aplicao do Coeficiente de Correlao de Spearman


A aplicao apresentada a seguir refere-se ao trabalho de MENEZES,
FAISSOL e FERREIRA (1978), que utilizaram o Coeficiente de Correlao de

Spearman para analisar a correlao entre populao total migrante de destino


urbano e origem rural e populao economicamente ativa nas atividades urbanas,

105

denominadas de X e Y, respectivamente. Tomaram como unidades observacionais


as microrregies homogneas do Estado do Paran. Os dados apresentados na
tabela 3 so referentes ao Censo Demogrfico de 1970.

TABELA 3 - POPULAO MIGRANTE TOTAL E ECONOMICAMENTE ATIVA


NAS ATIVIDADES URBANAS, SEGUNDO MICRORREGIES DO
PARAN - 1970

MICRORREGIO
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724

POPULAO MIGRANTE
TOTAL
(X)

POPULAO
ECONOMICAMENTE
ATIVA NAS ATIVIDADES
URBANAS (Y)

42 116
2 448
250
137
1 845
14 796
750
613
3 580
623
7 401
28 528
7 172
86 938
39 501
36 216
32 740
45 510
26 437
1 387
40 978
27 713
3 637
6 268

226 657
21 064
690
803
10 792
48 967
3 304
2 434
11 085
2 455
13 957
45 664
9 219
111 618
47 809
37 141
34 848
42 589
29 485
2 482
48 198
23 832
17 125
14 318

FONTE: MENEZES, FAISSOL e FERREIRA (1978)


NOTA: Populao migrante total de destino urbano e origem rural.

O Coeficiente de Correlao de Spearman obtido foi de 0,92, indicando que


existe forte correlao entre a populao migrante e economicamente ativa,
considerando as microrregies. Os clculos encontram-se no Apndice 5 do trabalho.

106

3.2.6

Coeficiente de Correlao por Postos de Kendall

3.2.6.1 Introduo
O Coeficiente de Correlao por Postos de Kendall ( ) uma medida de
correlao utilizada para dados ordinais, como no caso do Coeficiente de Correlao
de Spearman. Ambas as variveis devem ser medidas no mnimo em nvel ordinal,
de forma que seja possvel atribuir postos a cada uma das variveis.

3.2.6.2

Estimador do Coeficiente de Correlao por Postos de Kendall e


significncia
O estimador do Coeficiente de Correlao por Postos de Kendall definido

como apresentado a seguir:

S
1
n(n 1)
2

(3.93)

onde: o Coeficiente de Correlao por Postos de Kendall;


n o nmero de elementos aos quais se atriburam postos em X e Y;
S a soma do nmero de postos da varivel Y direita que so superiores

menos o nmero de postos direita que so inferiores.


Para o clculo do Coeficiente de Correlao por Postos de Kendall ordena-se
inicialmente uma das variveis em ordem crescente de postos e o S correspondente
a cada elemento ser obtido fazendo o nmero de elementos cujo posto superior
ao que se est calculando menos o nmero de elementos cujo posto inferior ao
mesmo.
Encontra-se, no Apndice 5, o clculo detalhado do exemplo de aplicao
da seo 3.2.6.3.

107

Quando n maior que 10, de acordo com SIEGEL (1975), pode ser
considerado distribudo normalmente com mdia ( ) igual a zero e desvio padro

) dado por:
=

2(2n + 5)
9n(n 1)

e pode-se obter Z =

(3.94)

, que tem distribuio normal com mdia zero e varincia

unitria. A significncia de z pode ser obtida mediante a tabela da distribuio


normal.
Ainda, o autor faz uma comparao entre Coeficiente de Correlao de
Spearman e Coeficiente de Correlao por Postos de Kendall. Os valores numricos
no so iguais, quando calculados para os mesmos pares de postos, e no so
comparveis numericamente. Contudo, pelo fato de utilizarem a mesma quantidade
de informao contida nos dados, ambos tm o mesmo poder de detectar a
existncia de associao na populao, e rejeitaro a hiptese da nulidade para um
mesmo nvel de significncia.

3.2.6.3 Aplicao do Coeficiente de Correlao por Postos de Kendall


MENEZES, FAISSOL e FERREIRA (1978) calcularam o Coeficiente de

Correlao de Kendall para os dados apresentados na tabela 3. O Coeficiente de


Correlao obtido foi de 0,79. Apesar de inferior ao obtido pelo mtodo do
Coeficiente de Correlao de Spearman, indica que h correlao entre as duas
variveis. Segundo SIEGEL (1975), tanto s como apresentam o mesmo poder na
rejeio da hiptese de que no h correlao entre as duas variveis (H0 ) e tem
eficincia de 91% quando comparados ao . Os clculos vm apresentados no
Apndice 5.

108

3.2.7

Coeficiente de Correlao Phi

3.2.7.1 Introduo
O Coeficiente de Correlao Phi utilizado na aplicao da Teoria de
Resposta ao Item (TRI). Para determinar a dimensionalidade de uma medida, um
dos ndices utilizados com base na Anlise Fatorial a partir da matriz dos
coeficientes de Correlao Phi. possvel encontrar um maior detalhamento sobre o
assunto em NOJOSA (2001).
Este coeficiente tambm utilizado na anlise de confiabilidade, j
apresentada na seo 3.2.1.10.1.
Em algumas situaes, as variveis so medidas em nvel nominal ou por
categorias discretas e expressas em forma de freqncias. Nesses casos, no
possvel a utilizao de nenhum dos mtodos vistos anteriormente.
O Coeficiente de Correlao Phi deve ser utilizado quando ambas as variveis
correlacionadas so dicotomizadas (ao serem medidas) ou genuinamente dicotmicas.
George Udny Yule publicou, em 1912, no Journal of Royal Statistical Society, um artigo
sobre o Coeficiente de Correlao Phi. Yule acreditava que era possvel definir um
coeficiente sem assumir a distribuio contnua. Ele defendia que variveis como
vacinado e no vacinado, ou morreu e sobreviveu", so inerentemente discretas e
que mesmo o melhor coeficiente considerando distribuio normal poderia somente
dizer como essas variveis hipotticas se correlacionariam entre si (AGRESTI, 1990).

3.2.7.2 Estimador do Coeficiente de Correlao Phi e significncia


O Estimador do Coeficiente de Correlao Phi foi obtido a partir do
estimador do Coeficiente Linear de Pearson, bastando fazer com que a varivel X
tambm seja dicotmica e distribuda conforme apresentada a seguir:

109
Varivel X
1

TOTAL

Varivel 1

np

nq

np '

n q'

TOTAL

Tem-se, da expresso (3.76), que:

pb =

(X

Xp =

mas

p=

X
Sx

(a + b)
n

p
q

a
a
=
np a + b

n p ' n q'
n n

Xq =

c
c
=
nq c + d

(3.96)

(c + d)

e q=

X = p X p + qX q =

Sx =

(3.95)

(3.97)

(a + b)
n

(c + d) c = (a + c )
a
+
(a + b) n (c + d)
n

(a + c ) (b + d) 1
=
(a + c )(b + d)
n
n
n

(3.98)

(3.99)

Ento, substituindo as expresses (3.96), (3.97), (3.98) e (3.99) em (3.95),


tem-se:

a
(a + c )

(a + b)
n
=
1
(a + c )(b + d)
n

na (a + b )(a + c )
(a + b)
n(a + b)
=
(a + c ) 1 (a + c )(b + d)
n

(a + b)
(a + c )

(a + b )
(a + b ) (a + c )(b + d) (a + c )

na (a + b )(a + c )
=

(ad bc )
(a + b)(a + c)(b + d)(c + d)

onde: o Coeficiente de Correlao Phi;


a,b,c,d so as freqncias da tabela 2x2;
n = (a + b + c + d) o nmero de observaes da amostra.

(3.100)

110

O coeficiente Phi est relacionado com 2 para a tabela 2x2, dada pela
expresso a seguir, como apresentada em FERGUSON (1981):

2
n

ou 2 = n 2

(3.101)

Por essa razo, pode-se testar a significncia de calculando o valor de

2 = n 2 e comparando com o valor de 2 , com 1 grau de liberdade (FERGUSON,


1981).
Os valores de variam entre -1 e +1. Entretanto, para BUNCHAFT e
KELLNER (1999) suficiente que a e d indiquem ou concordncia ou discordncia,

o mesmo acontecendo com b e c.


Devido crescente utilizao do Coeficiente Phi, particularmente
relacionado com intercorrelao em teste de item, tornou-se importante conhecer o
valor mximo que esse coeficiente pode assumir. O valor mximo do Coeficiente de
Correlao Phi pode ser calculado atravs de:
p q
mx = j i
q j p i

onde p i p j 0,5

(3.102)

onde: mx o valor mximo do Coeficiente de Correlao Phi;


pi a maior proporo marginal da tabela de contingncia 2x2;
p j a maior proporo marginal na outra varivel;
qi e q j so seus complementares.

Quando pi = p j o valor mximo de igual a 1.


Quando obtiver um valor do Coeficiente de Correlao Phi negativo, este
pode ser comparado com o valor de Phi mnimo, dado por:
q q
min = i j
p i p j

onde p i p j

(3.103)

111

onde: min o valor mnimo do Coeficiente de Correlao Phi;


pi a menor proporo marginal da tabela de contingncia 2x2;
p j a menor proporo marginal na outra varivel;
qi e q j so seus complementares.

Quando p i = p j o valor mnimo de igual a -1.

3.2.7.3 O Coeficiente de Correlao Phi e a Anlise de Agrupamento


A Anlise de Agrupamento uma tcnica de estatstica multivariada que
permite agrupar unidades semelhantes com base nas distncias ou similaridades.
Quando as unidades observacionais so agrupadas, a proximidade
normalmente indicada por algum tipo de distncia. Entretanto, as variveis so
usualmente agrupadas com base nos coeficientes de correlao ou em outras
medidas de avaliao.
Conforme apresentado em CHAVES NETO (2002b), quando as variveis
so binrias pode-se obter uma tabela de contingncia. Para cada par de variveis,
existem n objetos categorizados, conforme se mostra a seguir:

Varivel i
TOTAL

1
0

Varivel k
1
0
a
b
c
d
a+c
b+d

TOTAL
a+b
c+d
n

Como uma medida de similaridade entre i e k, poder ser tomado o


coeficiente de correlao obtido atravs de:

(ad bc )
(a + b)(a + c )(b + d)(c + d)

3.2.7.4 Aplicao do Coeficiente de Correlao Phi


Os dados utilizados para a aplicao a seguir foram obtidos a partir da
Pesquisa Mensal de Emprego (PME) na Regio Metropolitana de Curitiba (RMC).

112

Dentre os diversos indicadores disponibilizados pela PME, foram


escolhidas duas variveis dicotmicas, uma delas indicando a situao ocupacional
das pessoas (pessoas com trabalho e pessoas desempregadas, ou seja, aquelas
pessoas sem trabalho, e que efetivamente procuraram trabalho no perodo de
referncia da pesquisa) e a outra que caracteriza o gnero (masculino e feminino). A
seguir, apresenta-se a tabela 2X2.
TABELA 4 - SITUAO OCUPACIONAL DA POPULAO ECONOMICAMENTE ATIVA
SEGUNDO GNERO, NA RMC - AGOSTO 2003
SITUAO
OCUPACIONAL

GNERO
Homem

Ocupados
Desempregados
TOTAL

2 896
221
3 117

Mulher
2 157
251
2 408

TOTAL
5 053
472
5 525

FONTE: PME - IPARDES/IBGE


NOTA: A tabulao dos dados foi feita pela autora.

O Coeficiente de Correlao Phi obtido foi = 0,05913 com significncia


< 0,005 , indicando que existe correlao, embora muito pequena, ou seja, existe uma

fraca tendncia no sentido de que a incidncia de desemprego entre as mulheres seja


maior do que entre homens.
evidente que ao calcular o Coeficiente de Correlao Linear de Pearson
para as variveis dicotmicas, obtm-se o mesmo valor, pois trata-se do mesmo
coeficiente.

3.2.8

Coeficiente de Contingncia

3.2.8.1 Introduo
Quando se pretende relacionar dados em nvel nominal, dispostos em
tabelas politmicas, utiliza-se o coeficiente de contingncia C. Este no exige
nenhuma suposio quanto forma da distribuio populacional dos escores, sendo
necessrio, apenas, que a varivel seja medida em nvel nominal.

113

Este coeficiente no pode ser comparado a qualquer outro coeficiente de


correlao, podendo-se comparar vrios coeficientes de contingncia quando estes
forem provenientes de tabelas de mesmas dimenses.
Outra limitao de C que os dados devem satisfazer aos requisitos para
o clculo de 2 . Conforme descrito em SIEGEL (1975), a prova 2 somente pode
ser utilizada adequadamente se menos de 20% das clulas apresentam freqncia
esperada ( fe ) menor que 5, sendo que nenhuma clula deve ter freqncia esperada
menor que 1.

3.2.8.2

Estimador do Coeficiente de Contingncia e significncia


O estimador do Coeficiente de Contingncia conforme apresentado a

seguir:
C=

2
n + 2

(3.104)

onde: C o Coeficiente de Contingncia;

2 o qui-quadrado calculado para os dados;


n o nmero de elementos da amostra.
O 2 calculado atravs de:
n

(foi f ei )2

i=1

f ei

2 =

(3.105)

onde: fo a freqncia observada;


fe a freqncia esperada.

O valor mximo do Coeficiente de Contingncia nunca atinge a unidade,


mesmo que as variveis sejam perfeitamente correlacionadas, embora seja nulo
quando no h correlao.
O valor de C mx poder ser calculado se o nmero de linhas (l ) for igual
ao nmero de colunas (c), atravs de:

114

C mx =

l 1
l

(3.106)

Para verificar se o valor observado de C indica existncia de associao


entre duas variveis na populao, utiliza-se o valor de 2 observado com
gl=( l -1)(c-1). Se 2 calculado para a amostra for significativo, a um certo nvel de
significncia, pode-se concluir que a associao entre as duas variveis diferente
de zero.

3.2.8.3 Aplicao do Coeficiente de Contingncia


O trabalho discutido a seguir, intitulado Cumplimento del rgimen teraputico
y su relacin con las caractersticas biolgicas y sociales del indivduo con insuficincia
renal crnica terminal en hemodilisis, foi desenvolvido por TOBO et al. (1995).

O estudo foi realizado com amostra de 68 pessoas com insuficincia renal


crnica terminal, que se submeteram a hemodilise em 3 unidades da cidade de
Cali, Colmbia, no perodo de setembro a outubro de 1994. O objetivo foi determinar
a relao entre as caractersticas biolgicas e psicolgicas com o cumprimento do
regime teraputico.
A seleo da amostra foi aleatria e o tamanho determinado por meio de
uma prova estatstica para estudos descritivos, com 94% de confiana e 6% de
margem de erro.
O estudo consistiu no clculo de estatsticas descritivas, teste 2 (Quiquadrado), Coeficiente de Correlao Phi e Coeficiente de Contigncia (C).
As informaes foram obtidas mediante um questionrio, com trs
enfoques: dados de identificao, caractersticas sociais e biolgicas e cumprimento
do regime teraputico.
As caractersticas sociais e biolgicas contempladas foram: idade, sexo,
enfermidade associada, limitao fsica, escolaridade, estado civil, tempo de
hemodilise, opinio sobre a doena e tratamento, condio socioeconmica e apoio
familiar.

115

Alguns dos resultados alcanados foram: (i) a escolaridade relaciona-se


significativamente com os nveis sricos de nitrognio urico, potssio, clcio,
fsforo e albumina, sendo o coeficiente de contingncia resultante igual a C = 0,32 ,
indicando uma correlao moderada; (ii) a associao entre o tempo de hemodilise
e o cumprimento da terapia dialtica apresentou Coeficiente de Contingncia igual a
C = 0,35 , indicando que a correlao entre estas variveis moderada, ou seja,

quanto menor o tempo de hemodilise, maior o cumprimento desta terapia; (iii) a


associao entre as variveis conhecimento da doena e do tratamento e volume
total de sangue teve um resultado estatisticamente significativo, apresentando
coeficiente igual a = 0,31 .

3.2.9

Coeficiente de Correlao Eta

3.2.9.1 Introduo
O coeficiente de correlao a ser calculado quando se tem uma varivel
quantitativa Y e outra varivel categrica ou nominal X, conforme descrito em
SILVEIRA (1999), o Coeficiente de Correlao Eta. Este resulta sempre em um

valor no intervalo fechado 0 e 1.


Conforme descreve FERGUSON (1981) e CHEN e POPOVICH (2002), a
Correlao Eta tem sido apresentada como a medida apropriada para descrever a
relao no-linear entre duas variveis. Se uma das variveis - digamos, a
independente - uma varivel nominal, e a outra varivel intervalar ou de razo, a
idia de linearidade ou no-linearidade praticamente no tem sentido.
Para DOWNIE e HEATH (1959), o coeficiente correto quando a relao
entre dois conjuntos de dados curvilnea o Coeficiente Eta. Os valores de Eta e

devem ser idnticos, quando a relao linear. Se a relao curvilnea, Eta


maior que , e a diferena entre os dois indica o grau de distncia da linearidade.
Conforme apresenta CHEN e POPOVICH (2002), o Coeficiente Eta
tambm um caso especial de . Se os valores de Y (varivel nominal) forem
substitudos pela mdia de X, correspondente a cada categoria, o resultado ser
equivalente ao .

116

3.2.9.2

Estimador do Coeficiente de Correlao Eta e significncia


O estimador do Coeficiente de Correlao Eta a raiz quadrada da

expresso a seguir:
soma de quadrados entre grupos
soma de quadrados total

2y,x =

(3.107)

O erro padro do quadrado do Coeficiente Eta dado por:

2
y, x

1 2y,x

nk

(3.108)

2y,x o erro padro do quadrado do Coeficiente Eta;


onde:
2y,x o quadrado Coeficiente Eta;
n o nmero de observaes da amostra;
k o nmero de categorias da varivel nominal.

Na Anlise da Varincia (ANOVA) a um critrio de classificao ou


experimento de um fator so envolvidas duas variveis, sendo que a varivel
independente normalmente do tipo nominal e a dependente medida em nvel
intervalar ou de razo.
Na ANOVA, a soma de quadrados total dividida em soma de quadrados
entre grupos e soma de quadrados dentro dos grupos. A soma de quadrados entre
grupos a parte da variao atribuda varivel independente, e dentro dos grupos
a outros fatores.
A Correlao Eta ao quadrado a razo entre a soma de quadrados entre
grupos e a soma de quadrados total, equivalente ao 2 do modelo de regresso
linear simples14.

14
2

= variao explicada/variao total.

117

Para

testar

significncia

do

Coeficiente

de

Correlao

Eta

( H0 : = 0 e H1 : 0 ), usa-se a razo F (que exatamente a razo F da ANOVA),


dada por:

2y,x /(k 1)
F=
(1 2y,x ) /(n k )

(3.109)

onde: F a estatstica do teste;


k o nmero de categorias da varivel nominal;
n o nmero total de observaes.

3.2.9.3 O Coeficiente de Correlao Eta e a Anlise de Varincia


A Anlise de Varincia utilizada para testar a hiptese de diferena entre
duas ou mais mdias. A hiptese a ser testada ser H0 : 1 = 2 = 3 = ... = k .
possvel, atravs do Coeficiente de Correlao Eta, testar a hiptese de
diferena entre duas ou mais mdias. Neste caso, a varivel nominal ou ordinal
assume duas ou mais categorias. Da mesma forma que no caso anterior, a hiptese
a ser testada ser de H0 : = 0 .
Rejeitando-se a hiptese de que a correlao igual a zero, est-se
aceitando a hiptese de que pelo menos uma das mdias diferente. Para
identificar qual mdia difere das demais, pode-se utilizar, entre outros, os testes de
Diferena Mnima Significante (DMS), Duncan e Scheff, abordados em SNEDECOR e
COCHRAN (1980).

3.2.9.4 Aplicao do Coeficiente de Correlao Eta


A aplicao apresentada a seguir refere-se ao trabalho realizado por
SILVEIRA (1999), em que se utilizou o Coeficiente de Correlao Eta para estudar a

relao entre o desempenho na prova de Biologia do Concurso Vestibular de 1999

118

da Universidade Federal do Rio Grande do Sul, e o tipo de ensino mdio cursado


pelos candidatos.
O desempenho na prova de Biologia, de um total de 35.463 candidatos, foi
correlacionado com o tipo de ensino mdio que cursaram, a saber: noprofissionalizante, profissionalizante, magistrio, militar e supletivo. A prova de
Biologia era composta de 30 itens de mltipla escolha, com resposta nica.
O Coeficiente de Correlao Eta obtido foi = 0,27 , o que indica a
existncia de alguma relao entre as variveis. Foi possvel tambm observar,
atravs dos resultados, que os candidatos que cursaram o ensino mdio em escolas
militares apresentaram, em mdia, melhor desempenho, com mdia em torno de 15
acertos. Por outro lado, os que cursaram o supletivo tiveram o pior desempenho,
com mdia em torno de 9 acertos.

3.2.10

Resumo dos Coeficientes de Correlao entre Duas Variveis


Apresenta-se, no quadro 5, o resumo dos diferentes mtodos para

obteno do coeficiente de correlao entre duas variveis.


QUADRO 5 - RESUMO DOS COEFICIENTES DE CORRELAO ENTRE DUAS VARIVEIS
COEFICIENTE SMBOLO
Pearson

Ponto Bisserial

pb

Bisserial

b
t

Tetracrico
Phi
Spearman

VARIVEIS

INTERVALO
DE VARIAO

1 1
1 pb 1

Contnua

Contnua

Contnua

Dicotmica

1 b 1
1 t 1
1 1

Contnua

Contnua, mas dicotomizada

Contnua, mas dicotomizada

Contnua, mas dicotomizada

Dicotmica

Dicotmica

Dados em ranks ou
passveis de serem
transformados
Dados em ranks
Nominal

Dados em ranks ou
passveis de serem
transformados
Dados em ranks
Nominal
Contnua ou discreta; pode
assumir valores nominais ou
outros tipos de valores

1 s 1

Kendall
Contingncia

1 1
0 C<1

Eta

0 1

FONTE: DOWNIE e HEATH (1959)

Contnua

119

3.3

3.3.1

MEDIDAS DE CORRELAO ENTRE DIVERSAS VARIVEIS

Matriz de Correlaes
Quando se tem p > 2 variveis, e o interesse conhecer as correlaes

existentes entre as variveis, duas a duas, ou seja, X i com X j , i j . A partir de


coeficientes simples obtm-se a matriz de correlaes, representada da seguinte forma:
1

21
= 31
...

n1

12
1

13
23

...

1
...

32
n2

n3

...
...
...
...
...

1p
2p
3p matriz de correlao populacional
...

(3.110)

A matriz um parmetro populacional estimado por:


1

21
= 31
...

n1

12
1

32
...

n2

13
23
1
...

n3

...
...
...
...
...

1p
2p
3p
...

matriz de correlao amostral

(3.111)

Uma das principais aplicaes da matriz de correlao est na anlise da


estrutura de varincia-covarincia de um vetor aleatrio X .

3.3.1.1 Anlise de Componentes Principais


3.3.1.1.1 Introduo
Uma das importantes aplicaes no estudo da Anlise de Covarincia e
Correlao est a Anlise de Componentes Principais. Como se sabe, a matriz
(covarincia) ou (correlao) resume a estrutura de associao entre as p
variveis de um vetor aleatrio X .
A partir de ou de inicia-se o procedimento da Anlise de
Componentes Principais, conforme descrita a seguir.

120

Seja o vetor aleatrio X = [X1, X 2 ,..., X p ] , que tem a matriz de covarincia

, com autovalores 1 2 ... p 0 . Considerando-se as seguintes combinaes


lineares:
Y1 = e 1 X = e11 X1 + e 21 X 2 + ... + e p1 X p
Y2 = e 2 X = e12 X1 + e 22 X 2 + ... + e p2 X p

...

...

...

+ ...

+ .. . + ...

(3.112)

Yp = e p X = e1p X 1 + e 2p X 2 + ... + e pp X p

com i = 1, 2,..., p
As componentes principais so as combinaes lineares Y1, Y2 ,..., Yp , no
correlacionadas, cujas varincias so to grandes quanto possvel.
A primeira componente principal a combinao linear l 1 X , que maximiza
Var (l 1 X) , sujeito a l 1 l 1 = 1 . A segunda componente a combinao linear l 2 X ,

que maximiza Var (l 2 X) , sujeito a l 2 l 2 = 1 e COV(l 1 X, l 2 X) = 0 , e assim at a


i-sima componente principal.
Ento, conforme descrito em JOHNSTON e WICHERN (1988), tem-se:
Var ( Yi ) = e i e i

= i

COV( Yi , Yk ) = e i e k = 0

i = 1, 2,..., p

(3.113)

i k = 1, 2,..., p

(3.114)

Os pares ( 1, e1 ), ( 2 , e 2 ),..., ( p , e p ) , com 1 2 ... p 0 , so os pares de


autovalores e autovetores de . possvel calcular os coeficientes de correlao
entre as componentes Yi e as variveis X k , atravs de:

( Yi , X k ) =

COV( Yi , X k )
Var ( Yi )Var ( X k )

i e ki
i

kk

e ki i

kk

i, k = 1, 2,..., p

(3.115)

As componentes principais podem ser obtidas, ainda, a partir da matriz de


correlao , obtendo-se os autovalores e autovetores e as componentes, exatamente

121

da mesma forma como foi descrita acima, apenas substituindo por e , quando se
trata de amostra, substituindo por S e .
Os escores obtidos para cada unidade observacional e para cada cada
uma das componentes principais podem ser utilizados como dados de entrada, ou
seja, variveis independentes, para a anlise de regresso mltipla.

3.3.1.1.2 Aplicao da Anlise de Componentes Principais


A aplicao apresentada a seguir refere-se ao trabalho desenvolvido por
ALMEIDA

FILHO

(2001),

cujo

objetivo

foi

estudar

possibilidade

de

microexsudao de hidrocarbonetos ter criado alteraes mineralgicas e/ou


associaes rocha-solo-vegetao, na regio localizada no Estado da Bahia,
municpio de Macurur, regio de influncia da cidade de Paulo Afonso. Para
viabilizar o estudo, foram analisadas imagens do Landsat Thematic Mapper (TM).
Foram utilizadas imagens multiespaciais do dia 7 de outubro de 1987. A
seleo de conjunto de imagens mais antigas (sem cobertura de nuvens), conforme
descreve o autor, visou minimizar possveis influncias de atividade antrpica na
cobertura vegetal.
Segundo o autor, uma caracterstica marcante das imagens multiespaciais
que as informaes referentes a distintas bandas so muitas vezes redundantes,
fazendo com que as correlaes entre elas sejam elevadas. O quadro 6 apresenta
os coeficientes de correlaes entre as bandas.
QUADRO 6 - MATRIZ DE CORRELAO ENTRE AS BANDAS LANDSAT-TM EM
MACURUR - OUTUBRO 1987
BANDAS
TM1
TM2
TM3
TM4
TM5
TM7

TM1

TM2

TM3

TM4

TM5

TM7

1,000
0,902
0,840
0,715
0,689
0,728

0,902
1,000
0,946
0,851
0,764
0,812

0,840
0,946
1,000
0,841
0,863
0,898

0,715
0,851
0,841
1,000
0,711
0,715

0,689
0,764
0,863
0,711
1,000
0,959

0,728
0,812
0,898
0,715
0,959
1,000

FONTE: ALMEIDA FILHO (2001)

122

Utilizou-se a tcnica de Anlise de Componentes Principais para evitar as


correlaes entre as bandas e separar as informaes que so especficas de cada
banda espectral. Os autovalores e autovetores obtidos a partir da matriz de
covarincia encontram-se no quadro 7.
QUADRO 7 - AUTOVALORES E AUTOVETORES SEGUNDO COMPONENTES PRINCIPAIS
COMPONENTE
PRINCIPAL
1
2
3
4
5
6

AUTOVALORES
Abs.
2 683
581
491
223
89
44

AUTOVETORES
TM1

68
13
11
5
2
1

0,083
0,116
0,199
0,249
0,610
0,711

TM2
0,187
0,304
0,344
0,311
0,458
0,699

TM3

TM4

TM5

TM7

0,332
0,300
0,430
0,412
-0,642
0,199

0,302
0,771
-0,454
-0,324
0,019
0,063

0,640
-0,383
-0,522
0,409
0,042
0,045

0,595
-0,255
0,423
-0,631
0,065
0,019

FONTE: ALMEIDA FILHO (2001)

A anlise se concentrou nas componentes 3, 4 e 5, que embora tenham


totalizado apenas 18% da variao dos dados, segundo o autor, as informaes
espectrais contidas nessas componentes, isentas das contribuies de albedo
(componente 1) e da cobertura vegetal (componente 2), esto relacionadas ao
comportamento espectral de feies do terreno.
Conforme analisa o autor, a componente 3 pode ser entendida como
expressando respostas de solo, enquanto a componente 4 sugere influncia de
resposta espectral de argilas, podendo tambm estar sendo influenciada pelo
material barbontico.
A componente 5 denominada pelas bandas do visvel, podendo-se inferir,
como afirma o autor, a contribuio de material limontico.

3.3.1.2 Anlise Fatorial


3.3.1.2.1 Introduo
Uma aplicao importante da Anlise de Covarincia e Correlao est na
tcnica conhecida como Anlise Fatorial. Esta tcnica parte da matriz de covarincia

ou de correlao , que resume a estrutura de relacionamento entre as variveis.

123

Ento, da matriz de dados X de ordem n x p, onde n o nmero de observaes e p


o nmero de variveis, obtm-se a matriz de covarincia ou de correlao de
ordem pxp. A partir da inicia-se a tcnica de Anlise Fatorial, descrita
a seguir.
O objetivo principal da anlise fatorial descrever a estrutura de
covarincia dos relacionamentos do conjunto com p variveis atravs de variveis
no observveis chamadas fatores.
Supondo que as variveis possam ser agrupadas por suas correlaes,
tem-se grupos cujas variveis so altamente correlacionadas entre si, porm com
correlaes relativamente baixas com as variveis de outros grupos, podendo-se,
assim, dizer que cada grupo de variveis representa um fator.
Seja X o vetor aleatrio com p componentes, ento X ~ (, ) . O modelo
fatorial postula, segundo CHAVES NETO (2002), que X linearmente dependente de
algumas variveis aleatrias no observveis F1, F2 ,..., Fm , chamadas fatores comuns
e p fontes de variao aditivas, 1, 2 ,..., p , chamadas erros, ou fatores especficos.
Assim, tem-se o modelo na forma matricial, como segue:
X = LF +

(3.116)

onde L a matriz de carregamentos dos fatores, e o elemento da i-sima linha e


j-sima coluna, coeficiente l ij , chamado de carregamento do j-simo fator na
i-sima varivel.
Os desvios X1 1, X 2 2 ,..., X p p so expressos em termos de p + m
variveis aleatrias: F1, F2 ,..., Fm , 1, 2 ,..., p , que no so observveis. A diferena
entre este modelo e o de regresso mltipla est, justamente, no fato de que as
variveis independentes (Fi ) i= 1, 2,..., n no so observveis.
Assumem-se algumas suposies:
E(F) = 0

(3.117)

COV(F) = E(FF ) = I (matriz identidade)

(3.118)

124

E() = 0

(3.119)

COV() = E( ) = (matriz das varincias especficas)

(3.120)

COV(,F) = E( F) = 0

(3.121)

Ento, o modelo

com m = p

X = LF + chamado modelo fatorial ortogonal e

pode ser escrito como: X = + LF + .


A parte da varincia da i-sima varivel aleatria X, devida contribuio
dos m fatores comuns, chamada de comunalidade, e a parte devida ao fator
especfico chamada de varincia especfica. Assim, tem-se:
V( X i ) = V( i + l i1F1 + l i2F2 + ... + l imFm + i )

(3.122)

V( X i ) = l 2i1 + l 2i2 + ... + l 2im + i

(3.123)

Fazendo h i2 = l 2i1 + l 2i2 + ... + l 2im , tem-se V( Xi) = h i2 + i , i = 1,2,..., p , onde hi2
a comunalidade e i a varincia especfica.
O modelo fatorial ortogonal procura representar de forma adequada o
conjunto de dados, atravs de um nmero menor de fatores. A matriz de covarincia S
um estimador da matriz populacional desconhecida e , geralmente, usada, pois
no se conhece o parmetro , ou, ainda, o estimador de , , usado quando se
faz a anlise a partir da matriz de correlao.
Conforme apresentado em JOHNSTON e WICHERN (1988), se os
elementos fora diagonal de S (matriz de covarincia amostral) so baixos, ou na
matriz de correlao amostral so praticamente nulos, as variveis no so
relacionadas e a anlise fatorial no til. Contudo, se S significativamente
diferente de uma matriz diagonal, ento possvel utilizar o modelo fatorial. Para tal
deve-se estimar os carregamentos l ij e as varincias especficas i . A estimao
poder ser feita pelo mtodo das Componentes Principais, que o preferido, ou pelo
mtodo da Mxima Verossimilhana.
A matriz de carregamentos estimados l ij dada por:
L = 1 e1, 2 e 2 ,..., m e m

(3.124)

125

onde 1, 2 ,..., m so os autovalores de S e e1, e 2 ,..., e m , os autovetores e m o


nmero de fatores, quando se faz a anlise a partir de S ou, ento, tem-se
estimativas equivalentes quando a anlise a partir de .
As varincias especficas so estimadas por:

...

...

...

...

...

...

0
i = S ii
com
...
p

j =1

i = 1
l 2ij ou

2
ij

(3.125)

j =1

Na Anlise Fatorial, a interpretao dos fatores ser facilitada pela rotao


dos mesmos. A rotao poder ser ortogonal (com independncia dos fatores
extrados) ou oblquos (os fatores so correlacionados). Na rotao ortogonal, os
mtodos mais utilizados so o quartimax e o varimax. O primeiro mtodo procura
maximizar a carga fatorial de uma varivel com um fator e minimizar com os outros
fatores. J o segundo mtodo busca, inversamente, simplificar as colunas da matriz
de cargas fatoriais, isto , procura definir mais claramente quais variveis esto
associadas com um determinado fator e quais no esto. Mais detalhes podero ser
obtidos em FACHEL (1976) e JOHNSON e WICHERN (1988).
Em muitas aplicaes, os valores estimados dos fatores comuns,
denominados escores fatoriais, so importantes e se necessita obter.
Os escores fatoriais so estimativas dos valores para os vetores fatoriais
aleatrios no observveis F j , j = 1, 2,..., m . Uma tcnica bastante utilizada na
estimao o mtodo dos mnimos quadrados ponderados, desenvolvido por
Bartlett, embora existam outras, tais como a da Regresso e a da Regresso para
Fatores Correlacionados.
O estimador dos escores fatorais pelo mtodo de Mnimos Quadrados
Ponderados para o j-simo fator dado por:

f j = L L L x j x
1

(3.126)

A Anlise Fatorial pode ser utilizada a partir da matriz de covarincia , ou de


correlao , como j se citou. Se o estudo for realizado a partir dos dados amostrais,
tem-se a matriz de varincia e de correlao amostral S e , respectivamente.

126

Em FACHEL (1986) so apresentadas as diferentes matrizes de correlao


que so utilizadas como dados de entrada (input), na anlise fatorial, estando,
dentre elas, as matrizes formadas pelos coeficientes tetracrico e Phi. Faz-se uma
comparao entre diferentes mtodos de Anlise Fatorial e a Anlise Fatorial de
Bartholomew, para dados categricos.

3.3.1.2.2 Aplicao da Anlise Fatorial


A aplicao apresentada a seguir refere-se ao trabalho realizado por
FURTADO (1999), cujo objetivo foi fazer um ranqueamento (hierarquizao) de reas

especialmente

protegidas,

chamadas

de

faxinais

do

Estado

do

Paran,

considerando as variveis avaliadas pelo Instituto Ambiental do Paran (IAP).


Os faxinais so entendidos, de acordo com o Decreto Estadual no.
3.446/97, conforme descreve o autor, como um sistema tradicional, caracterstico da
regio Centro-Sul do Paran, que tem como caracterstica marcante o uso coletivo
da terra para a produo animal e a conservao ambiental.
As informaes levantadas neste trabalho referem-se ao ano agrcola de
agosto de 1997 a julho de 1998. Os questionrios foram aplicados s famlias e
lideranas locais. O universo de famlias foi de 1.947 e foram aplicados os
questionrios em uma amostra de 316 famlias, tendo sido adotada uma preciso da
estimativa de 5,5%, considerando-se um nvel de confiana de 95%.
Os dados foram coletados atravs da aplicao de questionrios s
famlias selecionadas para compor a amostra, que se distribuem em 20 faxinais
pertencentes a 4 municpios. Os faxinais esto localizados conforme mostra o
quadro 8, apresentado a seguir:
QUADRO 8 - NMERO DE FAXINAIS, SEGUNDO MUNICPIOS
DA REGIO CENTRO-SUL DO PARAN AGOSTO 1997-JULHO 1998
MUNICPIO
Prudentpolis
Rebouas
Irati
Boa Ventura de So Roque
FONTE: FURTADO (1999)

NMERO DE FAXINAIS
14
3
2
1

127

Criou-se uma matriz composta de 20 linhas e 80 colunas, em que 20 o


nmero de faxinais e 80 o nmero de variveis. As descries das variveis
podero ser encontradas detalhadamente em FURTADO (1999) e FURTADO e
CHAVES NETO (2003).

Estimou-se a matriz de correlao das variveis e, em seguida, os pares de


autovalores e autovetores dessa matriz. Considerando os autovalores superiores a 1,
foram escolhidos 17 fatores, que correspondem a um grau de explicao de 97,764%.
A matriz de carregamentos fatoriais foi obtida a partir de autovalores e
autovetores associados. Utilizou-se o mtodo varimax normal para a obteno da
matriz de carregamentos fatoriais rotacionados e, aps, foram determinadas as
comunalidades e as varincias especficas de cada varivel.
Os escores fatoriais foram estimados pelo mtodo de mnimos quadrados
ponderados. Os escores de cada Faxinal foram obtidos ponderando-os pela
importncia de cada fator, ou seja, pelo autovalor.
O quadro a seguir apresenta o ranqueamento dos faxinais estudados. Os
escores brutos foram obtidos atravs de mdia aritmtica dos 17 escores fatoriais,
ponderada pelos autovalores da matriz de correlao. Na seqncia, os escores
foram colocados na escala entre 0 e 2.
QUADRO 9 - RANQUEAMENTO DOS FAXINAIS DA REGIO CENTRO-SUL DO
PARAN - AGOSTO 1997-JULHO 1998
FAXINAL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

So Pedro
Iva - Anta Gorda
Ponte Nova
Linha Braslia
Patos Velhos
Papanduva de Baixo
Queimadas
Cachoeira do Palmital
Rio dos Couros
Rio do Meio
Tijuco Preto
Paran - Anta Gorda
Guanabara
Salto
Taboozinho
Dos Mellos
Marmeleiro de Baixo
Dos Krieger
Marmeleiro de Cima
Rio Bonito

FONTE: FURTADO (1999)

ESCORES BRUTOS
406,0385
255,5732
163,4198
150,4757
116,3825
92,0459
71,1442
62,9660
2,5779
-9,2271
-11,4835
-19,0331
-71,2905
-101,9150
-105,5850
-113,3440
-123,3310
-202,2800
-264,0430
-299,0920

ESCORES
PADRONIZADOS
1,8000
1,4586
1,2495
1,2201
1,1427
1,0875
1,0401
1,0215
0,8845
0,8577
0,8526
0,8355
0,7169
0,6474
0,6391
0,6215
0,5988
0,4197
0,2795
0,2000

128

3.3.2

Coeficiente de Correlao Mltipla e Parcial

3.3.2.1 Introduo
O Coeficiente de Correlao Mltipla indica o grau de relacionamento entre
as variveis independentes representado pelo vetor X , onde X = [X1, X 2 , X 3 ,..., X p ] e
a varivel dependente (Y).
Os princpios gerais do mtodo para a Correlao Mltipla constituem
apenas uma extenso direta dos conceitos e raciocnios apresentados para o
Coeficiente Linear de Pearson.
A Correlao Mltipla no simplesmente a soma de correlaes da
varivel dependente com as independentes tomadas separadamente (GUILFORD,
1950). Uma das razes que as variveis independentes so normalmente
intercorrelacionadas, conhecidas tambm como multicolineares. Quando as
intercorrelaes forem iguais a zero, ento o quadrado do coeficiente de correlao
mltipla ser a soma dos quadrados dos coeficientes de cada varivel independente
com a dependente.
A Correlao Mltipla aumenta quando aumenta o tamanho da correlao
entre as variveis dependentes e independentes e quando o tamanho das
intercorrelaes entre as variveis independentes diminui (GUILFORD, 1950).
Da mesma forma que a anlise de correlao simples e a regresso
simples esto ligadas, a correlao e regresso mltipla tambm esto.
A anlise de regresso mltipla tratada atravs do modelo linear geral:
Y = X +

onde: Y o vetor das observaes (respostas) de dimenso n;


X a matriz de dados de ordem n p ;

vetor dos parmetros de dimenso p ;

vetor dos erros de dimenso n .

(3.127)

129

comum que algumas ou todas as variveis explicativas (independentes)


estejam correlacionadas umas com as outras, o que dificulta isolar suas influncias
separadamente e obter uma estimativa razoavelmente precisa de seus efeitos relativos.
Uma das formas de resolver a multicolinearidade atravs da utilizao de
componentes principais (NETER et al., 1996), uma vez que as componentes
principais so combinaes lineares independentes. Mais uma vez necessita-se da
matriz de correlao, agora das variveis explicativas.
A anlise de componentes principais procura, segundo CHAVES NETO
(2002b), explicar a estrutura de varincia-covarincia da matriz de dados a partir de
combinaes lineares no correlacionadas das p variveis originais. Freqentemente,
a maior parte da variabilidade do conjunto de variveis pode ser explicada por um
nmero menor, k, de componentes principais. As k componentes principais contm
quase a mesma quantidade de informaes que as p variveis originais. possvel,
assim, utilizar as componentes principais em substituio das variveis originais.

3.3.2.2 Suposies para a utilizao do Coeficiente de Correlao Mltipla


A primeira suposio para a utilizao da Correlao Mltipla que as
variveis sejam aleatrias. Como segunda suposio, deve-se considerar que as
relaes entre as variveis sejam lineares e, finalmente, as varincias sejam iguais
(homocedasticidade) e as distribuies condicionais todas normais.
Uma vez que existe relao entre a anlise de correlao mltipla e
regresso mltipla, possvel, atravs da segunda, obter-se o coeficiente de
correlao mltipla. Neste caso, as suposies sobre o erro do modelo de regresso
mltipla devem ser consideradas. As suposies usuais sobre a componente so
as seguintes:
(i)

E (i) = 0

, i = 1, 2, ..., n

(3.128)

(ii)

VAR (i) = 2

, i = 1, 2, ..., n

(3.129)

(iii) COV (i, j) = 0 , i, j = 1, 2, ..., n, i j

(3.130)

130

Conforme descrito em SIQUEIRA (1983), para fazer inferncias estatsticas


(teste de hipteses e estimao por intervalos) necessrio atender suposio de
que:
(iv) i ~ N (0, 2),

i = 1, 2, ..., n

(3.131)

Quando as suposies no so atendidas, possvel fazer alguma


transformao nas variveis, conforme j apresentado na seo 3.2.1.2.

3.3.2.3 Estimador do Coeficiente de Correlao Mltipla


Seja Y a varivel dependente e X 1 e X 2 as independentes. O modelo de
regresso linear poder ser escrito sob a forma:
Yi = 0 + 1 X1i + 2 X 2 i + i ,

i = 1, 2, 3,... , n

(3.132)

A estimativa do modelo poder ser escrita na forma:


Yi = b 0 + b1X1i + b 2 X 2 i + i

(3.133)

onde tem-se que i = Yi Yi , que representa o erro.


A soma de quadrados dos erros representada pela expresso a
seguir:
n

2
i

i=1

(Y Y ) = (Y b
n

i=1

b1 X1i b 2 X 2 i

(3.134)

i=1

Derivando-se parcialmente a expresso acima em relao a b 0 e


igualando-se a zero, tem-se:
n

(Y b

b 1 X 1i b 2 X 2 i = 0

i=1

Y nb
i

i=1
n

i=1

b1

= nb 0 + b 1

1i

i=1

i =1

2i

i=1

b2

1i

+ b2

X
i =1

2i

=0

131

Dividindo por n tem-se:


Y = b 0 + b1 X1 + b 2 X 2

(3.135)

Subtraindo (3.135) de (3.133) tem-se:


y i = 1x 1i + 2 x 2 i

Escrevendo a soma de quadrados dos erros na forma:

i=1

i=1

i2 = y i 1x 1i 2 x 2 i

Derivando-se parcialmente em relao a 1 e 2 tem-se as duas equaes


normais:
n

i2

= 2

i=1

x 1i y i + 1

i=1

x 12i + 2

i=1

1i x 2i

i=1

i2

= 2

i=1

x 2i y i + 1

i=1

x 1i x 2i + 2

i =1

2
2i

i=1

Logo:
n

x 1i y i = 1

i=1
n

x 12i + 2

i=1

x 2i y i = 1

i=1

1i x 2i

i=1

x 1i x 2i + 2

i=1

2
2i

i=1

Resolvendo as equaes tem-se:

1 =

1 =

y i x 1i
i =1

i=1

x 12i

i=1


x 22i

i=1

Y,X Y,X X ,X
1

1 ( X ,X
1

x 22i

y i x 2i
i=1

SY
S X1

i=1

x
i=1

x 1i x 2i

1i x 2i

(3.136)

132

2 =

y i x 2i
i=1


x 12i
i=1

n

x 12i

i=1

i=1


2 = Y,X Y,X X2,X
1 ( X ,X )
2

x 22i

i=1

y i x 1i

1i x 2i

i=1

x 1i x 2i
i=1

SY

(3.137)

S X2

A varincia do erro dada por:

S2 =

Mas

1
n 1

2
(y i y i )

1
n 1

i=1

2
i

i=1

i=1

i=1

i2 = i y i 1x 1i 2 x 2 i
n

Ento tem-se que (n 1) S 2 = i y i 1x 1i 2 x 2 i


i=1

i=1

i=1

i=1

Logo (n 1) S 2 = i y i 1 i x 1i 2 i x 2i ,
mas

x
i

1i

i=1

2
i

i=1
n

i=1

y
i

i=1

2
i

i=1

= 0 , ento

2i

i=1

y (y
n

1x 1i 2 x 2 i

2
i

1 y i x 1i 2 y i x 2i

i=1

2
i

y
i=1

i =1

i=1

Tem-se que: = 1
2

i2
i =1
n

= 1

y i2

i=1

e, 2 =

i=1

y i2 1

y i x 1i 2

i=1

x 2i

i=1

2
i

i=1

1 y i x 1i + 2 y i x 2i
i=1

i =1

i =1

y i2

(3.138)

133

Substituindo (3.136) e (3.137) em (3.138) tem-se:

2Y,X ,X =
1

2Y,X + 2Y,X 2 Y,X Y,X X ,X


1

X1,X2
1

(3.139)

Portanto, o estimador do Coeficiente de Correlao Mltipla entre trs


variveis obtido atravs de:

Y,X ,X =
1

2X ,Y + 2X ,Y 2 X ,Y X ,Y X ,X
2X ,X
1
1

(3.140)

Ou ainda, atravs da raiz quadrada do coeficiente de determinao ou


explicao, dada por:

SQ Re gr

(3.141)

SQ Total

Quando se tratar de amostras pequenas, deve-se fazer a seguinte


correo (BUNCHAFT e KELLNER, 1999):

c2 = 1 (1 2 )

(n 1)
(n m)

logo:

c = 1 (1 2 )

(n 1)
(n m)

(3.142)

onde: c o coeficiente de correlao corrigido;

o coeficiente de correlao;
n o tamanho da amostra (nmero de observaes da amostra);
m o nmero de variveis correlacionadas.

Quanto maior a amostra e menor o nmero de variveis, menor ser a


diferena entre os coeficientes. Uma amostra pequena, bem como um nmero
grande de variveis, levam ao aumento do coeficiente de correlao.

134

A significncia do Coeficiente de Correlao Mltipla calculada atravs


da razo F:
F=

2 / k
2 ) /(n k 1)
(1

(3.143)

onde: 2 o coeficiente de determinao;


n o tamanho da amostra (nmero de observaes da amostra);
k o nmero de variveis independentes.

J o Coeficiente de Correlao Parcial usado quando se deseja conhecer


a correlao entre duas variveis quaisquer, quando os efeitos das outras variveis
forem controlados, ou seja, desconsiderados. Para representar a correlao
amostral entre as variveis X1 e X2, controlando X3, utiliza-se a correlao parcial
com notao 12,3 . Esta notao pode se estender a qualquer nmero de variveis
controladas, acrescentando-se, direita da vrgula, as outras variveis.
Para calcular o coeficiente 12,3 , elimina-se a influncia linear de X 3 de X1
e de X 2 . Sejam as regresses lineares entre X1 e X 3 e X 2 e X 3 dadas por:
X1i = a13 + b13 X 3 i + u i

(3.144)

X 2 i = a 23 + b 23 X 3 i + u i

(3.145)

Escrevendo-as nas formas de desvios, tem-se:


x 1i = 13 x 3 i + u i
x 2 i = 23 x 3 i + u i

Os resduos no explicados de X1 e X 2 das regresses so dados por:


u i = X1i a13 b13 X 3 i = x 1i 13 x 3 i
v i = X 2 i a 23 b 23 X 3 i = x 2 i 23 x 3 i

135

O coeficiente de correlao entre X1 e X 2 , com X 3 fixo, obtido


calculando-se o coeficiente de correlao simples entre ui e v i , ou seja:
n

u v
i

12,3 =

i =1

(3.146)

u v
2
i

i=1

2
i

i=1

u i e v i so resduos (erros) das regresses de mnimos quadrados,

portanto tm mdias iguais a zero. Assim, possvel escrever:

(x
n

12,3 =

1i

)(

13 x 3 i x 2 i 23 x 3 i

i=1

(3.147)

u i2

i=1

v i2

i=1

Tem-se da expresso (3.18) na seo 3.2.1.3, que:

(Y Y )
n

2X, Y =

i =1

(Y Y )
n

(Y Y )
n

= 1

(Y Y )
n

i=1

2
i

= 1

i =1

i =1

Portanto:

i =1

2
i

i =1
n

(3.148)
y i2

i =1

y (1 )
n

2
i

2
X,Y

i=1

Da mesma forma tem-se que:


n

u i2 =

i=1

(
n

12,3
x 12i 1

i=1

v i2 =

i=1

x (1 )
n

2
2i

2
2,3

i =1

S
S
Tem-se ainda que 13 = 13 1 e 23 = 23 2 , logo:
S3

12,3 =

i =1

13
x 1i x 2 i

S1
S3

S3

23
x 2i x 3i

i =1
n

x x
i =1

2
1i

i=1

2
2i

S2
S3

13 23
x 1i x 3 i +

i=1

2
13
1

223
1

S1 S 2
S3 S3

x
i =1

2
3i

136

12,3 =

12 nS1S 2 13 23
nS1S 2
2
13
nS 1S 2 1

223
1

Desse modo, o Coeficiente de Correlao Parcial pode ser obtido atravs de:

12,3 =

12 13 23
(1 132 )(1 223 )

(3.149)

A expresso acima representa o Coeficiente de Correlao Parcial de


primeira ordem entre as variveis X1 e X 2 , com X 3 fixa.

3.3.2.4 Aplicao do Coeficiente de Correlao Mltipla


A aplicao apresentada refere-se ao trabalho de LIMA e SILANS (1999), que
estudaram a variabilidade espacial da infiltrao e dos parmetros hidrodinmicos do
solo das equaes de Philip e de Green e Ampt, apresentadas a seguir.
A Equao de Philip dada pela expresso: I = St 1/ 2 + At
onde: I a lmina de gua infiltrada no solo (cm);
S a absortividade (cm / min 1/ 2 ) ;
t o tempo (min);

A a constante da equao de Philip.

E a Equao de Green e Ampt, dada por: I = K o t (h f h o ) ln1

(h f h o )
I

onde: I a lmina de gua infiltrada no solo (cm);


K o condutividade hidrulica saturao (cm/min);
h f a suco na frente de umedecimento do solo (cm);
h o a carga hidrulica acima do plano representada pela superfcie

do solo (cm);
a diferena entre a umidade volumtrica da frente de umi-

dificao e a umidade volumtrica inicial do solo (cm 3 / cm 3 ) .

137

A parcela selecionada para o estudo situa-se na Fazenda Experimental da


2

EMEPA, em Joo Pessoa. Demarcou-se uma rea de 5.000 m , e foi traada uma

malha retangular com espaamento de 15 m, com um total de 32 ns. Em cada n


efetuaram-se testes de infiltrao com durao de 90 minutos, com infiltrmetro
duplo-anel de carga constante. Utilizando-se o mtodo gravimtrico-padro,
determinaram as umidades volumtricas de amostras coletadas antes e depois do
teste de infiltrao. O peso especfico aparente do solo seco foi determinado a partir
de amostras nos 20 primeiros centmetros do solo. Tambm a anlise
granulomtrica foi efetuada em ponto de medio, e obtida a porcentagem da frao
de argila + silte.
Foram calculados os coeficientes de correlao simples entre a
porcentagem de argila + silte e as demais variveis das equaes de infiltrao de
Philip e Green e Ampt, conforme apresentada na tabela 5.
TABELA 5 - COEFICIENTE DE CORRELAO ENTRE VARIVEIS DAS EQUAES DE INFILTRAO E
PORCENTAGEM DE ARGILA E SILTE, EM JOO PESSOA
VARIVEL
DEPENDENTE

VARIVEIS DAS EQUAES DE INFILTRAO

COEFICIENTE
DE
CORRELAO

Teor da umidade do solo, aps o teste de infiltrao


-0,16
Absortividade
-0,32
Porcentagem
Constante
da
equao
de
Philip
0,09
(argila + silte)
Condutividade hidrulica na superfcie em regime permanente de infiltrao
0,02
Variao do teor de umidade volumtrica
-0,09
FONTE: LIMA E SILANS (1999)
NOTAS: Equaes de Philip e Green e Ampt.
A rea selecionada para o estudo situa-se na fazenda experimental da Empresa de Estudos e
Pesquisas Agropecurias do Estado da Paraba, em Joo Pessoa.

Segundo os autores, no existem correlaes significativas entre o fator


textual (porcentagem de argila + silte) e as propriedades hidrodinmicas do solo
(variveis das equaes de infiltrao).
Utilizando a Correlao Mltipla, os autores procuraram detectar a
existncia de uma possvel direo privilegiada das propriedades fsicas e
hidrodinmicas do solo. Foi utilizado um sistema de referncia ortogonal, onde o
eixo das ordenadas orientado na direo longitudinal da malha. Procuraram
estabelecer a relao linear da seguinte forma: W = aX + bY + c .

138

Na tabela 6 apresentam-se os coeficientes de regresso e correlao


mltipla, obtidos pelos autores.
TABELA 6 - COEFICIENTES DE REGRESSO E CORRELAO MLTIPLA

VARIVEL DEPENDENTE

Porcentagem de argila + silte


Teor da umidade do solo, aps o teste de infiltrao
Absortividade
Constante da equao de Philip
Condutividade hidrulica na superfcie em regime
permanente de infiltrao
Variao do teor de umidade volumtrica
FONTE: LIMA E SILANS (1999)

COEFICIENTES DE REGRESSO
a
-0,01
0,00
0,09
0,09

b
0,04
0,00
-0,02
0,02

c
1,35
0,24
3,94
1,50

0,09
0,00

0,01
0,00

2,17
0,17

COEFICIENTE
DE
CORRELAO
MLTIPLA
0,82
0,35
0,43
0,59
0,57
0,30

Os resultados da tabela acima indicam que a porcentagem de argila + silte


fortemente correlacionada com a direo ( w, x, y = 0,82) . possvel observar,
ainda, que 67,0% (coeficiente de explicao) da varincia da porcentagem de argila
+ silte na parcela explicada pela posio do ponto de amostragem (direo).
Aproximadamente 35% das varincias da constante da Equao de Philip (A) e
condutividade hidrulica na superfcie (K 0 ) so explicadas pela posio do ponto de
amostragem, mas sem a indicao de uma direo previlegiada, verificada atravs
dos coeficientes de correlao mltipla iguais a w, x, y = 0,59

e w, x, y = 0,57 ,

respectivamente.

3.3.3

Anlise de Correlao Cannica

3.3.3.1 Introduo
A anlise de correlao cannica uma tcnica para a identificao e
quantificao da associao entre dois grupos de variveis. Conforme descrito em
CHAVES NETO (2002b), o objetivo dessa tcnica determinar as combinaes

lineares U = c 1 X e V = c 2 Y tais que tenham a maior correlao possvel. A Anlise


de Correlao Cannica pode ser entendida como uma extenso da Anlise de

139

Regresso Mltipla. Na Anlise de Regresso Mltipla, as variveis formam o


conjunto das covariveis X (variveis independentes) com p variveis e a varivel
resposta Y (varivel dependente). No problema de Anlise de Regresso, a
soluo est em achar a combinao linear X que altamente correlacionada
com Y e na anlise de correlao cannica o conjunto Y contm p 1 variveis,
devendo-se achar os vetores c 1 e c 2 para os quais a correlao entre U = c 1 X e
V = c 2 Y mxima.

Tem-se interesse em medir a associao entre os dois grupos de variveis.


O primeiro grupo de p variveis representado pelo vetor aleatrio X (p 1) e o
segundo de q variveis Y (q 1) , sendo p q .
Tem-se para os vetores aleatrios:
E( X) = 1 ; COV (X ) = 11 ; E( Y ) = 2 ; COV (Y ) = 22 ; COV (X, Y ) = 12 = 21

Sejam as combinaes lineares:

U = c1 X

e V = c 2 Y

Ento Corr(U, V ) =

[(

)(

Onde: E U U V V

COV (U, V )
V(U)V( V )

)]

[(

)(

E UU V V

)]

V(U)V( V )

(3.150)

= E U c 1 1 V c 2 2 = c 1 12 c 2

V(U) = V(c 1 X) = c 1 COV( X) = c 1 11 c 1

V( V ) = V(c 2 Y ) = c 2 COV( Y ) = c 2 22 c 2

Portanto, Corr(U, V ) =

c 1 12 c 2

c 1 11 c 1 c 2 22 c 2

(3.151)

O primeiro par de variveis cannicas so as combinaes lineares U1, V1 ,


com varincia unitria que maximiza a correlao (3.151).
O segundo par de variveis cannicas so as combinaes lineares, com
varincia unitria, que maximiza a correlao (3.151) entre todas as escolhas que

140

no so correlacionadas com o primeiro par de variveis cannicas. E assim, at a


k-sima varivel cannica.
Sendo os vetores X e Y de dimenso p e q com matrizes de covarincias 1 e

2 , respectivamente, e covarincia cruzada 12 , com combinaes lineares U = c 1 X e

V = c 2 Y . A correlao mxima Corr(U,.V ) alcanada em Corr(U, V ) = 1 com

c 1 = e111/ 2 e c 2 = f 1 21/ 2 , onde e1 o autovetor correspondente ao maior


autovalor 1

de 11/ 2 12 21 2111/ 2 com p autovalores 1 2 ... p


2

e p

autovetores e k , k = 1, 2, 3,..., p . J f 1 o autovetor correspondente ao maior autovalor


de 21/ 2 21 11 12 12/ 2 que tem q autovetores f k correspondentes aos autovalores

1 2 ... q .
2

As variveis cannicas Uk com k = 1, 2, 3,..., p so da forma Uk = ek 111 / 2 X , e


as variveis cannicas Vk com k = 1, 2, 3,..., p , da forma Vk = f k 221/ 2 Y . Sendo
1 / 2
a k = e k 11
tem-se que Uk = ak X e sendo

1/ 2
bk = f k 22
tem-se Vk = bk Y e so

formados os pares de variveis cannicas U1 e V1 , U2 e V2 , ..., Up e Vp , sendo que


a mxima correlao cannica obtida para o primeiro par.
Assim, a correlao entre U1 e V1 dada por: Corr(U1, V1 ) = 1 = 1 . Da
2

mesma forma at k-simas variveis cannicas, quando se tem:


Corr(Uk , Vk ) = k = k

(3.152)

As matrizes de covarincias podem ser substitudas pelas matrizes de


correlao . Em se tratando de estudos a partir de dados amostrais, a matriz de
covarincia e de correlao sero R e , respectivamente. As correlaes
cannicas sero obtidas da mesma forma, a partir da matriz de covarincia ou de
correlao.

3.3.3.2

Aplicao da Anlise de Correlao Cannica


A aplicao apresentada a seguir refere-se ao trabalho de FEY NETO (1999),

que utilizou a Anlise de Correlao Cannica, com o objetivo de estimar o grau de

141

associao entre o grupo de variveis que representam as caractersticas da qualidade


do papel, e o que representa as caractersticas da matria-prima (madeira) e as
caractersticas do processo (pasta). O objetivo da pesquisa era identificar o grupo de
variveis mais fortemente relacionado com a qualidade (madeira ou pasta).
O trabalho foi realizado com dados levantados em uma indstria de
fabricao de papel, PISA - Papel de Imprensa S.A., no perodo de 23 de julho de
1998 a 31 de maro de 1999.
So duas as etapas fundamentais na elaborao do papel. A primeira etapa
consiste no recebimento da matria-prima, em que esta picada e transformada em
cavaco. Na segunda etapa, o cavaco produzido na etapa anterior transformado em
pasta, e por sucessivas operaes obtm-se o papel. O problema est na
identificao das etapas que tm maior influncia na qualidade do papel.
Foram definidas as variveis que caracterizam cada uma das etapas e a
qualidade do papel, conforme descritas a seguir.
Grupo 1 - Variveis que caracterizam a madeira

Totalizam um conjunto de 15 variveis: densidade bsica; umidade; resina;


espessura da fibra 4 mm; espessura da fibra 6 mm; espessura da fibra 8 mm;
espessura da fibra 18 mm; comprimento dos cavacos finos; comprimento dos
cavacos palitos; comprimento do cavaco > 45 mm; comprimento do cavaco < 45 mm;
largura da fibra; dimetro do lmem; comprimento da fibra e espessura da fibra.
Grupo 2 - Variveis que caracterizam a qualidade

So 5 as variveis deste grupo: alvura, trao, rasgo, densidade e csf.


Grupo 3 - Variveis que caracterizam a elaborao da pasta

Este grupo composto por 27 variveis: produo; cs-04; csf-04; gapte-04;


gapde-04; presso Te-04; presso De-04; diluio-04; presso de operao do
disco -04; potncia-04; cee-04; durabilidade disco externo-04; durabilidade disco
interno estator-04; durabilidade disco interno rotor-04; cs-05; csf-05; gapte-05;

142

gapde-05; presso Te-05; presso De-05; diluio-05; presso de operao do


disco-05; potncia-05; cee-05; durabilidade disco externo-05; durabilidade disco
interno; estator-05 e durabilidade disco interno rotor-05.
Foi inicialmente obtida a matriz de correlao, a partir das correlaes
simples para cada par de variveis do grupo 1 (caractersticas da madeira), em
seguida para o grupo 2 (caractersticas da qualidade do papel), e finalmente entre as
variveis dos grupos 1 e 2.
A partir da matriz de correlao foram obtidas as seguintes correlaes
cannicas entre variveis do grupo 1 (caractersticas da madeira) e grupo 2
(caractersticas da qualidade do papel):
QUADRO 10 - CORRELAES CANNICAS ENTRE AS VARIVEIS DO GRUPO 1 E GRUPO 2

0,734628

3
0,48529

0,44777

5
0,3558

0,30075

FONTE: FEY NETO (1999)

Da mesma forma, foi obtida a matriz de correlao, a partir das correlaes


simples para cada par de variveis do grupo 3 (caractersticas da elaborao da
pasta) e a matriz de correlao entre cada par de variveis dos grupos 2 e 3.
As correlaes cannicas entre as variveis dos grupos 2 e 3 vm
apresentadas a seguir:
QUADRO 11 - CORRELAES CANNICAS ENTRE AS VARIVEIS DO GRUPO 2 E GRUPO 3

0,979863

0,909272

0,707575

0,621093

0,515732

FONTE: FEY NETO (1999)

As correlaes cannicas entre os grupos de variveis que representam as


caractersticas do processo de elaborao da pasta (grupo 3) e qualidade do papel
(grupo 2) so superiores s correlaes entre os grupos de variveis referentes
madeira (grupo 1) e qualidade do papel (grupo 2). O que significa que a qualidade do
papel depende mais fortemente das variveis do processo de produo (elaborao
de pasta) do que das variveis que caracterizam a matria-prima (papel).

143

4.1

RESULTADOS E DISCUSSO

INTRODUO
O objetivo deste captulo foi fazer a comparao entre os coeficientes de

correlao estimados pelo mtodo de Correlao Linear de Pearson e os mtodos


de Correlao Bisserial e Tetracrico, utilizando amostras de diferentes tamanhos e
mediana como ponto de dicotomizao. As amostras foram obtidas pelo processo de
simulao.
Utilizou-se o programa disponibilizado pelo Statistical Analysis Software
(SAS), para obter as amostras com distribuies normais bivariadas. Os programas
encontram-se no Apndice 6.
Para o clculo do Coeficiente de Correlao Linear de Pearson utilizou-se
a Procedure Correlation (PROC CORR). O Coeficiente de Correlao Bisserial foi
calculado atravs do programa desenvolvido tambm no SAS, e o Coeficiente de
Correlao Tetracrico foi obtido atravs da opo PLCORR, disponvel na
Procedure Frequency (PROC FREQ). Este procedimento adota o mtodo iterativo

para o clculo do Coeficiente de Correlao Tetracrico, atravs do algoritmo de


Newton-Raphson, permitindo definir o nmero mximo de iteraes e o critrio de
convergncia.

4.2

COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL E


TETRACRICO
Para avaliar os mtodos de Correlao de Pearson, Bisserial e Tetracrico,

utilizaram-se amostras com distribuies normais bivariadas, de diferentes tamanhos


e

parmetros, obtidas pelo processo de simulao. O quadro 12 apresenta os

tamanhos de amostra e parmetros adotados. No quadro 13 esto apresentadas as


mdias, desvios padro e as medianas das variveis X e Y.

144
QUADRO 12 - PARMETROS UTILIZADOS NO PROCESSO DE SIMULAO PARA A OBTENO
DAS AMOSTRAS NORMAIS BIVARIADAS
NMERO
DA
AMOSTRA

TAMANHO
DA
AMOSTRA

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

SEMENTE

100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000

123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123

PARMETROS

2X
10
5
5
40
15
30
20
15
20
5
80
60
80
60
30
45
35
15
65
10
90

4
2
3
5
5
8
7
5
10
2
25
35
30
25
20
25
15
9
30
6
30

2Y

20
20
20
50
20
20
25
25
35
20
70
50
75
45
45
30
70
25
55
14
60

4
2
3
5
5
8
7
5
10
2
25
35
30
25
20
25
15
9
30
6
30

0,90
-0,80
0,40
0,85
-0,70
0,30
0,80
-0,90
0,25
0,80
-0,75
0,35
0,80
-0,85
0,70
0,90
0,80
0,75
0,85
0,70
0,90

FONTE: A autora

QUADRO 13 - MDIA, DESVIO PADRO E MEDIANA DAS VARIVEIS ALEATRIAS X E Y, SEGUNDO O


TAMANHO DA AMOSTRA
AMOSTRA

TAMANHO
DA
AMOSTRA

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
FONTE: A autora

100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000

VARIVEL X
Mdia
9,9202
4,9436
4,9309
39,8386
14,8386
29,7958
19,9017
14,9169
19,8825
4,9445
79,8038
59,7679
79,8360
59,8503
29,9193
44,8611
34,8761
14,9222
64,8446
9,95013
89,9673

Desvio
Padro
1,7577
1,2429
1,5222
2,1135
2,1135
2,6734
2,9462
2,1096
2,9835
1,3392
4,7347
5,6022
5,2155
4,7611
4,3006
4,9314
3,8223
2,9479
5,4385
2,4390
5,4623

VARIVEL Y
Mediana
9,8322
4,8814
4,8547
39,7528
14,7528
29,6873
19,8717
14,8916
19,8467
4,93319
79,7638
59,7205
79,7644
59,7849
29,8879
44,8338
34,8867
14,9211
64,8399
9,92922
89,9417

Mdia
19,8159
19,9359
19,7680
49,7350
19,9398
19,6461
24,8569
25,0352
34,8463
19,9088
69,9646
49,6130
74,6442
44,9471
44,7371
29,6962
39,7716
24,8472
54,7883
13,9267
59,9408

Desvio
Padro
1,8250
1,2252
1,6310
2,1916
2,1338
2,8529
2,6341
2,0558
3,1624
1,3715
4,7565
5,8221
5,3334
4,7972
4,4488
4,9960
3,8559
2,9957
5,4910
2,4621
5,5036

Mediana
19,7586
19,9187
19,6763
49,6677
19,9827
19,5381
24,8305
25,0609
34,9224
19,8967
69,9133
49,5430
74,5860
45,0081
44,7477
29,6922
39,7339
24,7976
54,7473
13,9141
59,9822

145

Verificou-se, inicialmente, a homogeneidade das varincias das amostras


atravs de testes de hipteses.
A hiptese H0 : 2 = 2 contra H1 : 2X 2Y
X

foi testada pela razo F

definida como:
F=

S12

onde: F a estatstica do teste;

S 22

(4.1)

S12 a varincia da primeira amostra;


S 22 a varincia da segunda amostra.

O quadro 14 apresenta os desvios padro da varivel X e Y, a razo F e o


valor-p.
QUADRO 14 - DESVIOS PADRO DAS VARIVEIS X E Y, RAZO F E VALOR-P,
SEGUNDO O TAMANHO DA AMOSTRA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000

SX
1,7577
1,2429
1,5222
2,1135
2,1135
2,6734
2,9462
2,1096
2,9835
1,3392
4,7347
5,6022
5,2155
4,7611
4,3006
4,9314
3,8223
2,9479
5,4385
2,4390
5,4623

Sy
1,8250
1,2252
1,6310
2,1916
2,1338
2,8529
2,6341
2,0558
3,1624
1,3715
4,7565
5,8221
5,3334
4,7972
4,4488
4,9960
3,8559
2,9957
5,4991
2,4621
5,5036

F
0,9276
1,0291
0,8711
0,9308
0,9811
0,8781
0,8980
1,0531
0,8900
0,9534
0,9909
0,9259
0,9563
0,9850
0,9345
0,9743
0,9826
0,9684
0,9778
0,9813
0,9851

VALOR-P
0,7093
0,8867
0,4935
0,6138
0,8929
0,3599
0,3527
0,6551
0,3143
0,5940
0,9183
0,3900
0,4798
0,8110
0,1897
0,5606
0,6617
0,3791
0,4769
0,5055
0,4520

FONTE: A autora

Os valores-p referentes aos testes de hipteses para verificar a


homogeneidade das varincias, apresentados no quadro acima, so todos
superiores a 0,05; portanto, aceita-se a hiptese H0 de que as varincias so iguais
para todos os tamanhos de amostra.

146

Tem-se, ento, as variveis X e Y com distribuio normal bivariada e


varincias homogneas.

4.2.1

Clculo dos Coeficientes de Correlao


Os quadros 15, 16 e 17 apresentam os coeficientes de correlao obtidos

pelos mtodos de Pearson, Bisserial e Tetracrico, calculados para os diferentes


tamanhos de amostras. Utilizou-se a mediana como ponto de dicotomizao da
varivel Y, para o mtodo de Coeficiente de Correlao Bisserial e das variveis X e
Y para o mtodo de Coeficiente de Correlao Tetracrico.

Os estimadores utilizados para os clculos dos coeficientes de correlao e


os erros padro j foram apresentados no Captulo 3 e transcritos a seguir.
A distribuio amostral do Coeficiente Linear de Pearson ( ) discutida na
seo 3.2.1.5, assimtrica quando o parmetro populacional () diferente de
zero, dificultando a sua interpretao. Para resolver este problema, Ronald A. Fisher
desenvolveu a estatstica Z, discutida na seo 3.2.1.7. Contudo, no existem
estatsticas equivalentes a Z, para os mtodos de Correlao Bisserial e Tetracrico.
Portanto, para os clculos dos erros padro, considerou-se o coeficiente de
correlao populacional (parmetro) iguais a zero, para os trs mtodos.
Calculou-se tambm o erro relativo percentual, com o objetivo de avaliar os
erros entre o Coeficiente de Correlao Linear de Pearson e o Coeficiente de
Correlao Bisserial e entre o Coeficiente de Correlao Linear de Pearson e o
Coeficiente de Correlao Tetracrico, para diferentes tamanhos de amostras.

a) Estimadores do Mtodo de Coeficiente de Correlao Linear de Pearson


I) Coeficiente de Correlao
n

(X

X )( Yi Y )

i =1

(X
i =1

X)

(4.2)

(Y Y)
i

i =1

147

II) Erro padro

1
n -1

(4.3)

QUADRO 15 - COEFICIENTE DE CORRELAO LINEAR DE PEARSON ( )


E ERRO PADRO, SEGUNDO O TAMANHO DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000

0,89704
-0,76775
0,43492
0,84261
-0,66200
0,32073
0,80669
-0,88534
0,31393
0,79475
-0,73125
0,35775
0,78949
-0,83720
0,68755
0,89782
0,79524
0,74349
0,84814
0,70072
0,90049

0,10050
0,10050
0,10050
0,07089
0,07089
0,07089
0,05783
0,05783
0,05783
0,04477
0,04477
0,04477
0,03164
0,03164
0,02583
0,02237
0,02000
0,01826
0,01581
0,01414
0,01000

FONTE: A autora

b) Estimadores do Mtodo de Coeficiente de Correlao Bisserial


I) Coeficiente de correlao
X X p
b = p t
St
y

(4.4)

II) Erro padro

pq
y
=
n

(4.5)

148
QUADRO 16 - COEFICIENTE DE CORRELAO BISSERIAL ( b ) E ERRO
PADRO, SEGUNDO O TAMANHO DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000

b
0,94610
-0,78635
0,45559
0,89507
-0,69485
0,37090
0,85043
-0,88661
0,27665
0,83054
-0,71946
0,29871
0,81672
-0,82284
0,68462
0,90806
0,80552
0,74258
0,85946
0,70337
0,90574

0,12533
0,12534
0,12534
0,08862
0,08862
0,08863
0,07236
0,07236
0,07236
0,05605
0,05605
0,05605
0,03963
0,03963
0,03236
0,02803
0,02507
0,02288
0,01982
0,01773
0,01253

FONTE: A autora

c) Estimadores do Mtodo de Coeficiente de Correlao Tetracrico


I) Coeficiente de correlao
2
2
ad bc
2 zz
3 ( z 1) ( z 1)

+
+
=
t
t
t
2
6
yy n 2

+ ....

(4.6)

II) Erro padro

=
t

p q p q
y y n

(4.7)

149

( t ) E

QUADRO 17 - COEFICIENTE DE CORRELAO TETRACRICO

ERRO PADRO, SEGUNDO O TAMANHO DA AMOSTRA


NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000

t
0,95110
-0,68450
0,58780
0,89100
-0,63740
0,36810
0,85540
-0,85540
0,30900
0,83750
-0,68450
0,33280
0,84090
-0,79780
0,69970
0,91400
0,80750
0,74590
0,85830
0,70260
0,90850

0,15705
0,15714
0,15712
0,11103
0,11114
0,11112
0,09079
0,09079
0,09068
0,07013
0,07020
0,07027
0,04956
0,04962
0,04055
0,03521
0,03131
0,02863
0,02481
0,02217
0,01565

FONTE: A autora

4.2.2

Comparao dos Erros Padro


O quadro 18 apresenta a comparao dos erros padro estimados pelos trs

mtodos. interessante observar que a razo entre os erros padro dos Coeficientes
de Correlao Bisserial e de Pearson aproximadamente de 1,25, ou seja, o primeiro
25% superior, confirmando o que foi observado por GUILFORD (1950) e apresentado
na seo 3.2.2.3. Em relao razo entre os erros padro dos Coeficientes de
Correlao Tetracrico e de Pearson, esta de aproximadamente 1,56, ou seja, o
erro padro do Coeficiente de Correlao Tetracrico cerca de 56% superior ao de
Pearson, tambm observado por GUILFORD (1950), discutido na seo 3.2.4.3.

150
QUADRO 18 - ERROS PADRO DOS COEFICIENTES DE CORRELAO LINEAR DE PEARSON,
BISSERIAL E TETRACRICO, SEGUNDO O TAMANHO DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

TAMANHO
DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000


0,10050
0,10050
0,10050
0,07089
0,07089
0,07089
0,05783
0,05783
0,05783
0,04477
0,04477
0,04477
0,03164
0,03164
0,02583
0,02237
0,02000
0,01826
0,01581
0,01414
0,01000

0,12533
0,12534
0,12534
0,08862
0,08862
0,08863
0,07236
0,07236
0,07236
0,05605
0,05605
0,05605
0,03963
0,03963
0,03236
0,02803
0,02507
0,02288
0,01982
0,01773
0,01253

0,15705
0,15714
0,15712
0,11103
0,11114
0,11112
0,09079
0,09079
0,09068
0,07013
0,07020
0,07027
0,04956
0,04962
0,04055
0,03521
0,03131
0,02863
0,02481
0,02217
0,01565

1,24702
1,24706
1,24708
1,25014
1,25014
1,25024
1,25115
1,25129
1,25120
1,25203
1,25204
1,25207
1,25269
1,25261
1,25295
1,25314
1,25311
1,25285
1,25333
1,25333
1,25330

/
t

1,56261
1,56352
1,56334
1,56632
1,56777
1,56756
1,56989
1,56989
1,56800
1,56663
1,56826
1,56970
1,56652
1,56843
1,57003
1,57407
1,56543
1,56796
1,56919
1,56762
1,56471

FONTE: A autora

4.2.3

Comparao dos Coeficientes de Correlao Estimados


As comparaes entre os Coeficientes de Correlao Linear de Pearson e

os Coeficientes de Correlao Bisserial e Tetracrico foram feitas atravs do clculo


do erro relativo percentual. Este erro indica relativamente o quanto o Coeficiente de
Correlao Bisserial e o Tetracrico diferem do Coeficiente de Correlao Linear de
Pearson.
O erro relativo percentual foi obtido pela expresso:

b) =
erp(

)
100

t) =
erp(

100

(4.8)

onde:
erp ( b )

o erro relativo percentual do Coeficiente de Correlao Bisserial em


relao ao Coeficiente de Correlao Linear de Pearson

151

erp ( t )

o erro relativo percentual do Coeficiente de Correlao Tetracrico em


relao ao Coeficiente de Correlao Linear de Pearson

o Coeficiente de Correlao Linear de Pearson estimado


b o Coeficiente de Correlao Bisserial estimado
t o Coeficiente de Correlao Tetracrico estimado
O quadro 19 apresenta os erros relativos percentuais entre o Coeficiente
de Correlao Bisserial e o de Pearson e entre os do Coeficiente de Correlao
Tetracrico e de Pearson.
QUADRO 19 - COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL E TETRACRICO E
ERROS RELATIVOS PERCENTUAIS, BISSERIAL E TETRACRIcO, SEGUNDO O TAMANHO
DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000

0,89704
-0,76775
0,43492
0,84261
-0,66200
0,32073
0,80669
-0,88534
0,31393
0,79475
-0,73125
0,35775
0,78949
-0,83720
0,68755
0,89782
0,79524
0,74349
0,84814
0,70072
0,90049

b
0,94610
-0,78635
0,45559
0,89507
-0,69485
0,37090
0,85043
-0,88661
0,27665
0,83054
-0,71946
0,29871
0,81672
-0,82284
0,68462
0,90806
0,80552
0,74258
0,85946
0,70337
0,90574

t
0,95110
-0,68450
0,58780
0,89100
-0,63740
0,36810
0,85540
-0,85540
0,30900
0,83750
-0,68450
0,33280
0,84090
-0,79780
0,69970
0,91400
0,80750
0,74590
0,85830
0,70260
0,90850

erp( b )
5,46910
2,42266
4,75260
6,22589
4,96224
15,64244
5,42216
0,14345
11,87526
4,50330
1,61231
16,50314
3,44906
1,71524
0,42615
1,14054
1,29269
0,12240
1,33469
0,37818
0,58302

erp( t )
6,02649
10,84337
35,15129
5,74287
3,71601
14,76943
6,03826
3,38175
1,57041
5,37905
6,39316
6,97414
6,51180
4,70616
1,76714
1,80214
1,54167
0,32415
1,19792
0,26830
0,88952

FONTE: A autora

4.3

AVALIAO DOS RESULTADOS


A anlise do quadro 19 mostra que tanto o Coeficiente Correlao Bisserial

quanto o Coeficiente de Correlao Tetracrico diferem do Coeficiente Linear de

152

Pearson para todos os tamanhos de amostra, sendo o erro relativo percentual maior
para amostras de tamanho menor.
Para todos os tamanhos de amostra os Coeficientes de Correlao
Bisserial e o Tetracrico fornecem estimativas maiores do que o Coeficiente de
Correlao Linear de Pearson. Embora os erros relativos diminuam medida que se
aumenta o tamanho da amostra, devemos considerar que os erros padro dos
Coeficientes de Correlao Bisserial so aproximadamente 25% superiores aos do
Coeficiente de Correlao Linear de Pearson e os do Coeficiente de Correlao
Tetracrico, em torno de 56% superiores.
importante destacar que estas so as situaes ideais, em que se tem
distribuies normais bivariadas com varincias homogneas, o que na prtica
dificilmente ocorre, e, ainda, utilizando as medianas como pontos de dicotomizao.
Para a utilizao dos Coeficientes de Correlao Bisserial e Tetracrico
necessrio que se atenda suposio da existncia de variveis subjacentes
(latentes) s variveis medidas como dicotmicas, normalmente distribudas, caso
contrrio no possvel a sua utilizao.
Dentre os trs mtodos discutidos, prefervel, sempre que possvel,
utilizar o Coeficiente de Correlao Linear de Pearson.

153

CONCLUSES E RECOMENDAES

O Coeficiente de Correlao Linear de Pearson, conhecido tambm como


Coeficiente de Correlao do Momento Produto, , sem dvida, o mais importante e
o mais utilizado, como as aplicaes apresentadas no Captulo 3.
As Tcnicas de Anlise Multivariada, como a Anlise Fatorial, Anlise de
Componentes Principais e Anlise Cannica, utilizam a matriz de correlaes,
constituda a partir de Coeficientes Linear de Pearson, para cada par de variveis
envolvidas na anlise.
As Anlises de Confiabilidade em Sistemas de Engenharia e de
Instrumentos de Medidas tambm fazem uso do Coeficiente de Correlao Linear de
Pearson.
Comprovou-se que possvel a utilizao do Coeficiente Linear de
Pearson em situaes que envolvem duas variveis dicotmicas, uma varivel
dicotmica e outra medida em nvel intervalar e duas variveis medidas em nvel
ordinal. Os Coeficientes de Correlao Ponto Bisserial, Correlao Phi e Correlao
de Spearman fornecem a mesma estimativa do Coeficiente de Correlao Linear de
Pearson, pois os seus estimadores so derivados deste ltimo.
J no caso dos Coeficientes de Correlao Bisserial e Tetracrico, s so
possveis as suas utilizaes se existirem variveis subjacentes (latentes) s variveis
medidas como dicotmicas, normalmente distribudas. Observou-se que os erros
padro destes coeficientes so superiores aos do Coeficiente de Correlao Linear de
Pearson. Alm disso, as estimativas dos coeficientes de correlao tambm so
maiores se comparadas s do Coeficiente de Correlao Linear de Pearson.
Quando se tratar de amostras pequenas (normalmente consideradas para
n < 30 ), deve-se verificar a suposio da normalidade das variveis envolvidas na

anlise. possvel verificar a normalidade das variveis utilizando o mtodo


apresentado na seo 3.2.1.11 (Teste de Normalidade).
Em situaes que no atendem suposio da normalidade das variveis
possvel fazer alguma transformao, como as apresentadas na seo 3.2.1.2.

154

Ainda, possvel utilizar o recurso dos ranks (atribuindo uma ordem aos dados) e
utilizar o Coeficiente de Correlao Linear de Pearson.
Apresenta-se a seguir, de forma resumida, as situaes em que se pode
utilizar cada um dos mtodos de coeficientes de correlao envolvendo duas
variveis, discutidos neste trabalho.
a) Coeficiente de Correlao Linear de Pearson: este mtodo pode ser
utilizado em situaes que envolvem variveis medidas em nvel
intervalar e ordinal e variveis dicotmicas.
b) Coeficiente de Correlao Bisserial: pode ser empregado quando se
tem uma varivel medida em nvel intervalar e outra dicotmica ou
dicotomizada (ao serem medidas), porm a suposio da existncia de
uma varivel normalmente distribuda, subjacente varivel dicotmica,
deve ser atendida.
c) Coeficiente de Correlao Ponto Bisserial: trata-se do Coeficiente de
Correlao Linear de Pearson, quando calculado para uma varivel
dicotmica e outra medida em nvel intervalar.
d) Coeficiente de Correlao Tetracrico: este mtodo deve ser utilizado
quando se tem duas variveis dicotmicas ou dicotomizadas (ao serem
medidas), porm a suposio da existncia de variveis normalmente
distribudas, subjacentes s variveis dicotmicas, deve ser atendida;
e) Coeficiente de Correlao de Spearman: o Coeficiente de Correlao
Linear de Pearson quando se tem duas variveis medidas em nvel
ordinal.
f)

Coeficiente de Correlao por Postos de Kendall: as duas variveis


envolvidas na anlise so medidas em nvel ordinal.

g) Coeficiente de Correlao Phi: o Coeficiente de Correlao Linear de


Pearson quando se tem duas variveis dicotmicas.
h) Coeficiente de Contingncia: as duas variveis so medidas em nvel
nominal.
i)

Coeficiente de Correlao Eta: uma varivel medida em nvel


intervalar e a outra em nvel nominal.

155

REFERNCIAS
AGRESTI, Alan. Categorical data analysis. New York: J. Wiley & Sons, 1990. 557p.
ALMEIDA FILHO, Raimundo. Processamento digital de imagens Landsat-TM na deteco
de reas de microexsudao de hidrocarbonetos, regio da Serra do Tona, Bahia. In:
SIMPSIO BRASILEIRO DE SENSORIAMENTO REMOTO, 10., 2001, Foz do Iguau.
Anais. So Jos dos Campos: INPE, p. 235-242, 2001.
ANDERBERG, Michael R. Cluster analysis for applications. New York: Academic Press,
1973. 359p.
ANDERSON, T. W. An introduction to multivariate statistical analysis. New York: J.
Wiley & Sons, 1958. 375p.
BROWNLEE, K. A. Statistical theory and methodology in science and engineering. New
York: J. Wiley & Sons, 1960. 570p.
BRYANT, Edward C. Statistical analysis. New York: McGraw-Hill Book, 1960. 303p.
BUNCHAFT, Guenia; KELLNER, Sheilah R.O. Estatstica sem mistrios. 2.ed. Petrpolis:
Vozes, 1999. v.2, 303p.
CALLEGARI-JACQUES, Sidia M. Bioestatstica: princpios e aplicaes. Porto Alegre:
Artemed, 2003. 255p.
CHAVES NETO, Anselmo. Probabilidade e estatstica matemtica II. Curitiba: UFPR, 1.o
semestre de 2002a. Notas de aula.
CHAVES NETO, Anselmo. Anlise multivariada aplicada pesquisa. Curitiba: UFPR, 2.o
semestre de 2002b. Notas de aula.
CHAVES NETO, Anselmo. Probabilidade e estatstica matemtica I. Curitiba: UFPR, 1.o
semestre de 2003. Notas de aula.
CHAVES NETO, Anselmo; TURIM, Maria Elisa. Anlise de itens pela teoria clssica da
avaliao e TRI em dados reais do ensino fundamental. In:SEMINRIO IASI DE
ESTATSTICA APLICADA, 9., Anais. Rio de Janeiro, 2003.
CHEN, Peter Y.; POPOVICH, Paula M. Correlation: parametric and nonparametric
measures. London: Sage, 2002. 95p.
COCHRAN, William G. Tcnicas de amostragem. Rio de Janeiro: Fundo de Cultura,
1965. 555p.
CRONBACH, Lee J. Coefficient alpha and the internal structure of testes. Psychometrika, v.
16, n. 3, p. 297-333, Sept. 1951.
DOWNIE, N. M.; HEATH, R. W. Basic statistical methods. New York: Harper & Brothers,
1959. 289p.

156

ELDERTON, William P. Frequency curves and correlation. 4.ed. Washington: Harren Press,
1953. 272p.
FACHEL, Jandyra M. G. Anlise fatorial. So Paulo, 1976. 81p. Dissertao (Mestrado) IME, USP.
FACHEL, Jandyra M. G. The C-type distribution as an underlying model for categorical
data and its use in factor analysis. London, 1986. 235p. Tese (Doutorado).
FERGUSON, G. A. Statistical analysis in psycology and education. Tokyo: McGraw-Hill
Kogagusha, 1976.
FERGUSON, George A. Statistical analysis in psychology and education. 5.ed. New
York: McGraw-Hill book, 1981. 549p.
FEY NETO, Emlio Rudolfo. Anlise de correlao cannica aplicada em sistema de
produo contnuo. Curitiba, 1999. 150p. Dissertao (Mestrado) - Departamento de
Informtica, Curso de Informtica Aplicada, PUC-PR.
FILLIBEN, James J. The Probability plot correlation coefficient test for normality.
Technometrics, v. 17, n. 1, p. 111-117, Feb. 1975.
FURTADO, Emerson Marcos. Automao do ranqueamento qualitativo de reas
especialmente protegidas do Estado do Paran atravs da anlise fatorial.Curitiba,
1999. 220 p. Dissertao (Mestrado) - Setor de Cincias Exatas, UFPR.
FURTADO, Emerson Marcos; CHAVES NETO, Anselmo et al. Ranqueamento de faxinais do
Estado do Paran. Revista de Cincias Exatas e Naturais, v.5, n.1, jan.-jun. 2003.
GALTON, Francis. Correlations and their measurement, chiefly from antropometric data.
Nature, p. 238, 3 Jan. 1889.
GUILFORD, J. P. Fundamental statistics in psychology and education. 4.ed. New York:
McGraw-hill Book, 1950. 605p.
HALDAR, A.; MAHADEVAN, S. Probability, reliability and statistical methods in
engineering design. New York: J. Willey & Sons, 2000. 320p.
JAMES, Barry R. Probabilidade: um curso em nvel intermedirio. Rio de Janeiro: Instituto
de Matemtica Pura e Aplicada, 1981. 304p.
JOHNSON, Richard A.; WICHERN, Dean W. Applied multivariate statistical analysis. 2.
ed. New Jesery: Prentice Hall International, 1988. 607p.
KENNEY, J. F.; KEEPING, E. S. Mathematics of statistics. 2.ed. Princeton, Van
Nostrand, 1951. 429p.
LIMA, Ccero A. G.; SILANS, Alain P. de. Variabilidade espacial da infiltrao de gua no
solo. Pesquisa Agropecuria Brasileira, Braslia, v. 34, n. 12, p. 2311-2320, dez. 1999.
LORD, F. e NOVICK, M. R. Statistical theories of mental test scores. Reading: AddisonWesley, 1967. 568p.

157

McNEMAR, Quinn. Psychological statistics. 4. ed. New York: J. Wiley & Sons, 1969. 529p.
MENEZES, Antnio C. F.; FAISSOL, Speridio; FERREIRA, Marilourdes L. Anlise da
matriz geogrfica: estruturas e inter-relaoes. In: IBGE. Tendncias atuais da geografia
urbano/regional: teorizao e quantificao. Rio de Janeiro, 1978. p. 67-109.
MOOD, Alexander M.; GRAYBILL, Franklin A.; BOES, Duane C. Introduction to the theory
of statistics. 3. ed. Singapore: McGraw-Hill Book, 1974. 564p.
NETER, John et al. Applied linear statistical models. New York: McGraw-Hill, 1996. 1408p.
NOJOSA, Ronald T. Modelos multidimensionais para a teoria da resposta ao item.
Recife, 2001. 66p. Dissertao (Mestrado), UFPE.
NUNNALLY, Jum C. Introduccion a la medicion psicologica. Buenos Aires: McGraw-Hill,
1970. 619 p.
SCHULTZ, Duane P.; SCHULTZ, Sydney Ellen. Histria da psicologia moderna. 16. ed.
So Paulo: Cultrix, 1992. 439 p.
SIEGEL, Sidney. Estatstica no-paramtrica: para as cincias do comportamento. So
Paulo: McGraw-Hill do Brasil, 1975. 350 p.
SILVEIRA, Fernando L. Um exemplo de anlise multivariada aplicada pesquisa
quantitativa em ensino de cincias: explicando o desempenho dos candidatos ao concurso
vestibular de 1999 da Universidade Federal do Rio Grande do Sul. Investigaes em
Ensino de Cincias, Porto Alegre, v. 4, n. 2, p. 161-180, 1999.
SILVEIRA, Fernando L.; PINENT, Carlos E. C. A questo de redao no concurso vestibular
universidade: validade e poder decisrio. Estudos em Avaliao Educacional, So
Paulo, v. 24, p. 147-162, 2001.
SIQUEIRA, Arminda Lucia. Uso de transformao em anlise de varincia e anlise de
regresso. So Paulo, 1983. 154p. Dissertao (Mestrado), USP/IME.
SNEDECOR, George W.; COCHRAN, William G. Statistical methods. 7.ed. Ames: Iowa
Sate University, 1980. 507p.
TOBO, Natividad et al. Cumplimiento del rgimen teraputico y su relacin con las
caractersticas biolgicas y sociales del individuo con insuficiencia renal crnica terminal en
hemodilisis. Colombia Mdica, Colombia, v. 26, p. 141-145, 1995.
UFRJ.COPPE.PEC. COC796-Confiabilidade estrutural. Mtodos analticos para anlise
de confiabilidade. Disponvel em: http://www.ufrj/coppe/Coc796.doc Acesso em: 2 semestre
de 2003.
WANNACOTT, Ronald J.; WANNACOTT, Thomas H. Econometria. 2.ed. So Paulo: Livros
Tcnicos e Cientficos, 1978. 424p.
WHERRY, R. J. Contributions to correlational analysis. Orlando: Academic Press,
1984. 463p.

158

APNDICE 1 - DISTRIBUIES AMOSTRAIS DO COEFICIENTE DE

)
CORRELAO LINEAR DE PEARSON (

159

DISTRIBUIES AMOSTRAIS DO COEFICIENTE DE CORRELAO LINEAR DE

)
PEARSON (

(I) PARA QUANDO 0


A funo densidade de probabilidade de para quando 0 conforme
apresentado no resultado 3.6:
2 (n 1)/2

f( ) =

2 (n 4)/2

(n 1)(n 1)(1 )
(1 )
1

(n 3/2)
2 n (1 )
2

1 ( + 1)
9
( + 1) 2
+
1 +

4 2n 1
16 2(2n 1)(2n + 1)

Considerando a amostra de tamanho n = 29 e = 0,80 tem-se:


f( ) =

2 14
2 25/2
(27) (28)(1 0,8 ) (1 )
57
55/2
2
(1 0,8 )
2

2 25/2

f( ) =

0,00000125 6(1 )
55/2
(1 0,8 )

1 (0,8 + 1)
9 (0,8 + 1) 2
+
+
1

4
57
16 2 57 59

(0,8 + 1) 9 (0,8 + 1) 2
+
1 +

228
2 53 808

Substituindo valores para , obtm-se os correspondentes para f( ) . Para


a construo do grfico 5, utilizou-se intervalo para igual a 0,0125, iniciando em
0,20. A tabela a seguir apresenta alguns valores como exemplo.
TABELA A.1.1 - COEFICIENTE

DE

CORRELAO

LINEAR

PEARSON ( ) E RESPECTIVO VALOR DE f( )

0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
FONTE: A autora

DE

f( )
0,00009
0,00074
0,00577
0,04373
0,30834
1,78533
5,72350
1,94955
0,00000

160

Considerando a amostra de tamanho n=29 e = 0,80 tem-se:


f( ) =

2 14
2 25/2
(27) (28)(1 ( 0,8) ) (1 )
57
55/2
2
(1 ( 0,8) )
2

2 25/2

f( ) =

0,00000125 6(1 )
55/2
(1 + 0,8 )

1 ( 0,8 + 1)
9 ( 0,8 + 1) 2
+
+
1

4
57
16 2 57 59

( 0,8 + 1) 9 ( 0,8 + 1) 2
+
+
1

228
2 53 808

Substituindo valores para , obtm-se os correspondentes para f( ) .


Alguns valores so apresentados na tabela a seguir. Para a construo do grfico 6,
o intervalo utilizado para foi de 0,0125 e o valor inicial igual a -1,0.
TABELA A.1.2 - COEFICIENTE DE CORRELAO LINEAR DE
PEARSON ( )E RESPECTIVO VALOR DE

-1,00
-0,90
-0,80
-0,70
-0,60
-0,50
-0,40
-0,30
-0,20

f( )

f( )
0,00000
1,94955
5,72350
1,78533
0,30834
0,04373
0,00577
0,00074
0,00009

FONTE: A autora

(II) PARA QUANDO = 0


A funo densidade de probabilidade de para quando = 0 conforme
apresentada no Resultado 3.7 :

1
(n 1)
2

f( ) =
(1 2 )(n 4)/2
1

(n 2)
2

Considerando o tamanho da amostra n = 29 e substituindo na expresso


acima tem-se:

161

(28)
[14]
2

f( ) =
(1 2 ) 25/2 =
(1 2 ) 25/2 = 2,0563864(1 2 ) 25/2
1

(27)
(27)
2

Substituindo valores para , obtm-se os correspondentes para f( ) .


Alguns valores so apresentados na tabela a seguir. Para a construo do grfico 7,
o intervalo utilizado para foi de 0,05, iniciando em -1,0.
TABELA A.1.3 - COEFICIENTE DE CORRELAO LINEAR DE
PEARSON ( ) E RESPECTIVO VALOR DE

-1,0
-0,8
-0,6
-0,4
-0,2
-0,0
0,2
0,4
0,6
0,8
1,0
FONTE: A autora

f( )

f( )
0,00000
0,00001
0,00776
0,23231
1,23300
2,05386
1,23300
0,23231
0,00776
0,00001
0,00000

162

APNDICE 2 - DISTRIBUIES AMOSTRAIS DE Z

163

DISTRIBUIES AMOSTRAIS DE Z

Conforme apresentado na seo 3.2.1.7, a funo densidade de Z, para


n > 25 :
1 Z E( Z )
2

f(Z) =

Z 2

com:
E( Z ) =

1 1 +

ln
+

2 1 2n 1

Z =

1
n3

Assim, para amostra de tamanho n = 29 e = 0 tem-se:


E( Z ) =

2Z =

1 1 0
+
=0
ln
2 1 57

1
29 3

Z = 0,1961

Portanto, f(Z) ser:


f(Z) =

1
0,1961 2

Z
1
2 0,1961

= 2,0344e

Z
1
2 0,1961

A tabela a seguir mostra alguns valores de z e os correspondentes f(Z) .


Para a construo do grfico 8, utilizou-se intervalo para Z igual a 0,05, iniciando-se
em -1,0.
TABELA A.2.1 - VARIVEL Z E RESPECTIVO VALOR DE
Z
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
FONTE: A autora
NOTA: Z a transformao de Fisher.

f(Z)

f(Z)
0,00000
0,00049
0,01886
0,25407
1,20939
2,03340
1,20939
0,25407
0,01886
0,00049
0,00000

164

Para amostra de tamanho n = 29 e = 0,80 , tem-se:


E( Z ) =

2Z =

1 1 + 0,8 0,8
+
= 1,1126
ln
2 1 0,8 57

1
29 3

Z = 0,1961

Portanto, f(Z) ser:


f(Z) =

1
0,1961

1 Z 1,1126
2
0,1961

= 2,0344e

1 Z 1,1126
2
0,1961

Alguns valores de f(Z) , para cada valor de Z so apresentados na tabela a


seguir. Para a construo do grfico 9, utilizou-se o valor inicial para Z igual a 0,00, e
o intervalo de 0,05.
TABELA A.2.2 - VARIVEL Z E RESPECTIVO VALOR DE
Z
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
FONTE: A autora
NOTA: Z a transformao de Fisher.

f(Z)

f(Z)
0,00000
0,00004
0,00276
0,06679
0,57101
1,72521
1,84205
0,69506
0,09268
0,00437
0,00007
0,00000

165

APNDICE 3 - TESTE DE NORMALIDADE

166

1 AMOSTRA ALEATRIA GERADA PELO PROCESSO DE SIMULAO

O quadro abaixo apresenta a amostra aleatria de 200 observaes


gerada atravs do processo de simulao.
QUADRO A.3.1 - VARIVEL ALEATRIA X GERADA PELO PROCESSO DE SIMULAO
ORDEM

VARIVEL X

ORDEM

VARIVEL X

ORDEM

VARIVEL X

ORDEM

VARIVEL X

ORDEM

VARIVEL X

72,18700

41

8,12555

81

212,51855

121

147,14338

161

17,44974

42

41,55470

82

169,85026

122

97,03626

162

164,82585
183,53943

102,67841

43

3,79202

83

162,01862

123

152,89828

163

102,36524

160,48252

44

68,67889

84

95,32578

124

80,69527

164

97,12284

156,10761

45

87,18117

85

89,10925

125

45,33027

165

192,85433

186,05545

46

90,57455

86

114,40728

126

149,25564

166

86,61525

-33,28091

47

70,92790

87

87,57117

127

56,41797

167

52,21369

75,88585

48

211,89209

88

29,93820

128

118,89907

168

139,81303

150,32126

49

-8,57903

89

-10,38914

129

119,56322

169

88,44523

10

28,14476

50

47,75729

90

135,38656

130

71,27952

170

147,19482

11

50,34857

51

-55,34452

91

113,87657

131

64,31710

171

113,34344

12

-5,66421

52

170,06952

92

123,60274

132

12,50440

172

170,38835

13

-14,42701

53

17,33324

93

100,95450

133

200,60562

173

82,21271

14

34,25275

54

52,39952

94

31,49187

134

57,27668

174

35,14380

15

45,68360

55

131,43197

95

158,33893

135

93,82323

175

2,83909

16

-29,60415

56

115,13586

96

71,57206

136

75,88139

176

-54,64370

17

57,19621

57

137,97809

97

41,96438

137

247,78060

177

94,77852

18

66,37334

58

122,36154

98

43,01682

138

159,11080

178

105,75475

19

96,55177

59

12,17640

99

64,97641

139

138,33079

179

88,00390

20

68,53239

60

26,51864

100

63,61176

140

163,60119

180

100,22796

21

70,68852

61

127,86369

101

59,66748

141

99,52077

181

103,46104

22

68,26653

62

107,06764

102

136,56805

142

119,34963

182

171,66572

23

164,18793

63

36,36909

103

117,73961

143

75,02128

183

93,77593

24

84,22407

64

75,50692

104

54,93497

144

20,61910

184

26,46274

25

78,57517

65

96,36600

105

162,07885

145

159,93437

185

11,16490

26

60,26039

66

120,23667

106

-9,61244

146

72,82231

186

99,72138

27

199,44387

67

96,76804

107

119,83202

147

15,87099

187

142,26056

28

137,47769

68

37,98617

108

82,48876

148

131,79823

188

4,50761

29

222,03666

69

194,55137

109

91,33751

149

132,91981

189

54,84214
118,31782

30

52,32523

70

116,28309

110

52,37297

150

112,97667

190

31

182,04153

71

93,04538

111

58,22274

151

111,61737

191

76,86138

32

-1,29427

72

135,47110

112

136,56193

152

52,70658

192

69,75953

33

119,18111

73

137,27243

113

133,97053

153

129,49351

193

79,84534

34

139,52272

74

53,35424

114

114,55931

154

118,41611

194

64,37847

35

196,45927

75

37,30127

115

127,71663

155

149,20216

195

44,05315

36

84,26704

76

151,22657

116

180,31494

156

-66,08907

196

125,10860

37

59,66748

77

21,73399

117

106,01921

157

114,97364

197

92,29407

38

126,80775

78

1,70204

118

121,98375

158

171,15971

198

159,75330

39

67,64586

79

128,83419

119

192,75883

159

-7,46465

199

103,68259

40

131,42624

80

124,75075

120

70,20881

160

91,54767

200

92,19966

FONTE: A autora
NOTA: Mdia = 92,84155 e Desvio Padro=57,98319

167

2 TESTE DE NORMALIDADE

O mtodo utilizado para testar a normalidade da varivel aleatria X foi o


proposto por FILLIBEN (1975). O quadro A.3.2 apresenta as estatsticas da varivel
aleatria X necessrias para a aplicao do mtodo proposto.
QUADRO A.3.2 - ESTATSTICAS DA VARIVEL ALEATRIA X
continua
OR-

X i ORDE-

DEM

NADA

mi

Mi

(X X)

(X X) M

(X X)

Mi2

- 66,08907

0,00346

-2,70067

-158,93062

429,21915

25 258,94075

7,29362

- 55,34452

0,00840

-2,39106

-148,18607

354,32178

21 959,11020

5,71717

- 54,64370

0,01339

-2,21471

-147,48525

326,63705

21 751,89783

4,90494

- 33,28091

0,01838

-2,08842

-126,12246

263,39666

15 906,87395

4,36150

- 29,60415

0,02337

-1,98865

-122,44570

243,50163

14 992,94851

3,95473

- 14,42701

0,02836

-1,90547

-107,26856

204,39702

11 506,54314

3,63082

- 10,38914

0,03335

-1,83369

-103,23069

189,29308

10 656,57456

3,36242

- 9,61244

0,03834

-1,77029

-102,45399

181,37327

10 496,81928

3,13393

- 8,57903

0,04333

-1,71329

-101,42058

173,76286

10 286,13327

2,93536

10

- 7,46465

0,04832

-1,66137

-100,30620

166,64571

10 061,33299

2,76015

11

- 5,66421

0,05332

-1,61348

-98,50576

158,93707

9 703,38399

2,60332

12

- 1,29427

0,05831

-1,56912

-94,13582

147,71039

8 861,55188

2,46214

13

1,70204

0,06330

-1,52765

-91,13951

139,22927

8 306,40958

2,33371

14

2,83909

0,06829

-1,48865

-90,00246

133,98216

8 100,44211

2,21608

15

3,79202

0,07328

-1,45179

-89,04953

129,28121

7 929,81811

2,10769

16

4,50761

0,07827

-1,41681

-88,33394

125,15240

7 802,88428

2,00735

17

8,12555

0,08326

-1,38348

-84,71600

117,20289

7 176,80000

1,91402

18

11,16490

0,08825

-1,35161

-81,67665

110,39497

6 671,07453

1,82685

19

12,17640

0,09324

-1,32107

-80,66515

106,56430

6 506,86580

1,74523

20

12,50440

0,09823

-1,29171

-80,33715

103,77230

6 454,05705

1,66851

21

15,87099

0,10322

-1,26342

-76,97056

97,24614

5 924,46651

1,59623

22

17,33324

0,10822

-1,23605

-75,50831

93,33204

5 701,50430

1,52782

23

17,44974

0,11321

-1,20964

-75,39181

91,19694

5 683,92443

1,46323

24

20,61910

0,11820

-1,18404

-72,22245

85,51427

5 216,08173

1,40195

25

21,73399

0,12319

-1,15919

-71,10756

82,42717

5 056,28454

1,34372

26

26,46274

0,12818

-1,13504

-66,37881

75,34260

4 406,14591

1,28832

27

26,51864

0,13317

-1,11153

-66,32291

73,71990

4 398,72788

1,23550

28

28,14476

0,13816

-1,08863

-64,69679

70,43086

4 185,67414

1,18512

29

29,93820

0,14315

-1,06628

-62,90335

67,07258

3 956,83096

1,13695

30

31,49187

0,14814

-1,04445

-61,34968

64,07667

3 763,78276

1,09088

31

34,25275

0,15313

-1,02310

-58,58880

59,94220

3 432,64703

1,04673

32

35,14380

0,15812

-1,00222

-57,69775

57,82584

3 329,02991

1,00444

33

36,36909

0,16311

-0,98176

-56,47246

55,44240

3 189,13830

0,96385

34

37,30127

0,16811

-0,96166

-55,54028

53,41086

3 084,72227

0,92479

35

37,98617

0,17310

-0,94199

-54,85538

51,67322

3 009,11229

0,88735

36

41,55470

0,17809

-0,92267

-51,28685

47,32083

2 630,34059

0,85132

37

41,96438

0,18308

-0,90369

-50,87717

45,97719

2 588,48604

0,81666

38

43,01682

0,18807

-0,88503

-49,82473

44,09638

2 482,50334

0,78328

39

44,05315

0,19306

-0,86668

-48,78840

42,28393

2 380,30760

0,75113

40

45,33027

0,19805

-0,84861

-47,51128

40,31854

2 257,32136

0,72014

41

45,68360

0,20304

-0,83081

-47,15795

39,17929

2 223,87189

0,69025

42

47,75729

0,20803

-0,81328

-45,08426

36,66612

2 032,59015

0,66142

43

50,34857

0,21302

-0,79599

-42,49298

33,82398

1 805,65302

0,63360

44

52,21369

0,21801

-0,77893

-40,62786

31,64626

1 650,62270

0,60673

168
QUADRO A.3.2 - ESTATSTICAS DA VARIVEL ALEATRIA X
OR-

X i ORDE-

DEM

NADA

45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97

52,32523
52,37297
52,39952
52,70658
53,35424
54,84214
54,93497
56,41797
57,19621
57,27668
58,22274
59,66748
59,66748
60,26039
63,61176
64,31710
64,37847
64,97641
66,37334
67,64586
68,26653
68,53239
68,67889
69,75953
70,20881
70,68852
70,92790
71,27952
71,57206
72,18700
72,82231
75,02128
75,50692
75,88139
75,88585
76,86138
78,57517
79,84534
80,69527
82,21271
82,48876
84,22407
84,26704
86,61525
87,18117
87,57117
88,00390
88,44523
89,10925
90,57455
91,33751
91,54767
92,19966

mi

Mi

(X X)

0,22301
0,22800
0,23299
0,23798
0,24297
0,24796
0,25295
0,25794
0,26293
0,26792
0,27291
0,27791
0,28290
0,28789
0,29288
0,29787
0,30286
0,30785
0,31284
0,31783
0,32282
0,32781
0,33281
0,33780
0,34279
0,34778
0,35277
0,35776
0,36275
0,36774
0,37273
0,37772
0,38271
0,38770
0,39270
0,39769
0,40268
0,40767
0,41266
0,41765
0,42264
0,42763
0,43262
0,43761
0,44260
0,44760
0,45259
0,45758
0,46257
0,46756
0,47255
0,47754
0,48253

-0,76207
-0,74545
-0,72904
-0,71282
-0,69678
-0,68093
-0,66524
-0,64971
-0,63434
-0,61912
-0,60404
-0,58906
-0,57425
-0,55956
-0,54499
-0,53054
-0,51619
-0,50196
-0,48782
-0,47378
-0,45983
-0,44597
-0,43217
-0,41848
-0,40486
-0,39132
-0,37785
-0,36445
-0,35112
-0,33785
-0,32463
-0,31148
-0,29837
-0,28532
-0,27229
-0,25933
-0,24642
-0,23354
-0,22071
-0,20791
-0,19515
-0,18241
-0,16971
-0,15703
-0,14438
-0,13173
-0,11912
-0,10653
-0,09396
-0,08141
-0,06886
-0,05633
-0,04381

-40,51632
-40,46858
-40,44203
-40,13497
-39,48731
-37,99941
-37,90658
-36,42358
-35,64534
-35,56487
-34,61881
-33,17407
-33,17407
-32,58116
-29,22979
-28,52445
-28,46308
-27,86514
-26,46821
-25,19569
-24,57502
-24,30916
-24,16266
-23,08202
-22,63274
-22,15303
-21,91365
-21,56203
-21,26949
-20,65455
-20,01924
-17,82027
-17,33463
-16,96016
-16,95570
-15,98017
-14,26638
-12,99621
-12,14628
-10,62884
-10,35279
-8,61748
-8,57451
-6,22630
-5,66038
-5,27038
-4,83765
-4,39632
-3,73230
-2,26700
-1,50404
-1,29388
-0,64189

(X X) M

continua

(X X)

30,87627
30,16730
29,48385
28,60901
27,51397
25,87494
25,21697
23,66476
22,61126
22,01892
20,91114
19,54152
19,05021
18,23111
15,92994
15,13336
14,69236
13,98718
12,91172
11,93721
11,30033
10,84115
10,44238
9,65936
9,16309
8,66892
8,28007
7,85828
7,46814
6,97814
6,49884
5,55066
5,17213
4,83907
4,61687
4,14414
3,51552
3,03513
2,68080
2,20984
2,02035
1,57191
1,45518
0,97772
0,81725
0,69427
0,57626
0,46834
0,35069
0,18456
0,10357
0,07288
0,02812

1 641,57187
1 637,70566
1 635,55748
1 610,81551
1 559,24735
1 443,95487
1 436,90852
1 326,67690
1 270,58999
1 264,85970
1 198,46174
1 100,51866
1 100,51866
1 061,53174
854,38040
813,64403
810,14670
776,46581
700,56594
634,82260
603,93142
590,93507
583,83395
532,77947
512,24075
490,75657
480,20789
464,92097
452,39104
426,61028
400,76982
317,56189
300,48926
287,64690
287,49563
255,36571
203,52949
168,90137
147,53202
112,97216
107,18018
74,26090
73,52216
38,76676
32,03986
27,77686
23,40282
19,32760
13,93003
5,13927
2,26212
1,67412
0,41202

Mi2
0,58075
0,55570
0,53150
0,50811
0,48550
0,46367
0,44254
0,42212
0,40239
0,38331
0,36486
0,34699
0,32976
0,31311
0,29701
0,28147
0,26645
0,25196
0,23797
0,22447
0,21144
0,19889
0,18677
0,17513
0,16391
0,15313
0,14277
0,13282
0,12329
0,11414
0,10538
0,09702
0,08902
0,08141
0,07414
0,06725
0,06072
0,05454
0,04871
0,04323
0,03808
0,03327
0,02880
0,02466
0,02085
0,01735
0,01419
0,01135
0,00883
0,00663
0,00474
0,00317
0,00192

169
QUADRO A.3.2 - ESTATSTICAS DA VARIVEL ALEATRIA X
OR-

X i ORDE-

DEM

NADA

98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150

92,29407
93,04538
93,77593
93,82323
94,77852
95,32578
96,36600
96,55177
96,76804
97,03626
97,12284
99,52077
99,72138
100,22796
100,95450
102,36524
102,67841
103,46104
103,68259
105,75475
106,01921
107,06764
111,61737
112,97667
113,34344
113,87657
114,40728
114,55931
114,97364
115,13586
116,28309
117,73961
118,31782
118,41611
118,89907
119,18111
119,34963
119,56322
119,83202
120,23667
121,98375
122,36154
123,60274
124,75075
125,10860
126,80775
127,71663
127,86369
128,83419
129,49351
131,42624
131,43197
131,79823

mi

Mi

0,48752
0,49251
0,49750
0,50250
0,50749
0,51248
0,51747
0,52246
0,52745
0,53244
0,53743
0,54242
0,54741
0,55240
0,55740
0,56239
0,56738
0,57237
0,57736
0,58235
0,58734
0,59233
0,59732
0,60231
0,60730
0,61230
0,61729
0,62228
0,62727
0,63226
0,63725
0,64224
0,64723
0,65222
0,65721
0,66220
0,66719
0,67219
0,67718
0,68217
0,68716
0,69215
0,69714
0,70213
0,70712
0,71211
0,71710
0,72209
0,72709
0,73208
0,73707
0,74206
0,74705

-0,03129
-0,01878
-0,00627
0,00627
0,01878
0,03129
0,04381
0,05633
0,06886
0,08141
0,09396
0,10653
0,11912
0,13173
0,14438
0,15703
0,16971
0,18241
0,19515
0,20791
0,22071
0,23354
0,24642
0,25933
0,27229
0,28532
0,29837
0,31148
0,32463
0,33785
0,35112
0,36445
0,37785
0,39132
0,40486
0,41848
0,43217
0,44597
0,45983
0,47378
0,48782
0,50196
0,51619
0,53054
0,54499
0,55956
0,57425
0,58906
0,60404
0,61912
0,63434
0,64971
0,66524

(X X)
-0,54748
0,20383
0,93438
0,98168
1,93697
2,48423
3,52445
3,71022
3,92649
4,19471
4,28129
6,67922
6,87983
7,38641
8,11295
9,52369
9,83686
10,61949
10,84104
12,91320
13,17766
14,22609
18,77582
20,13512
20,50189
21,03502
21,56573
21,71776
22,13209
22,29431
23,44154
24,89806
25,47627
25,57456
26,05752
26,33956
26,50808
26,72167
26,99047
27,39512
29,14220
29,51999
30,76119
31,90920
32,26705
33,96620
34,87508
35,02214
35,99264
36,65196
38,58469
38,59042
38,95668

(X X) M

continua

(X X)

0,01713
-0,00383
-0,00586
0,00616
0,03638
0,07773
0,15441
0,20900
0,27038
0,34149
0,40227
0,71154
0,81953
0,97301
1,17135
1,49551
1,66941
1,93710
2,11563
2,68478
2,90844
3,32236
4,62674
5,22164
5,58246
6,00171
6,43457
6,76465
7,18474
7,53213
8,23079
9,07410
9,62621
10,00784
10,54965
11,02258
11,45600
11,91706
12,41103
12,97926
14,21615
14,81786
15,87862
16,92911
17,58522
19,00613
20,02702
20,63014
21,74100
22,69196
24,47581
25,07258
25,91554

0,29973
0,04155
0,87307
0,96370
3,75187
6,17142
12,42177
13,76576
15,41735
17,59562
18,32948
44,61203
47,33211
54,55911
65,82002
90,70074
96,76389
112,77365
117,52823
166,75083
173,65082
202,38175
352,53156
405,42321
420,32765
442,47223
465,08088
471,66127
489,82958
497,03643
549,50598
619,91358
649,04053
654,05832
678,99455
693,77262
702,67851
714,04785
728,48568
750,49281
849,26805
871,43004
946,25105
1 018,19729
1 041,16276
1 153,70300
1 216,27147
1 226,55056
1 295,47041
1 343,36645
1 488,77860
1 489,22081
1 517,62322

Mi2
0,00098
0,00035
0,00004
0,00004
0,00035
0,00098
0,00192
0,00317
0,00474
0,00663
0,00883
0,01135
0,01419
0,01735
0,02085
0,02466
0,02880
0,03327
0,03808
0,04323
0,04871
0,05454
0,06072
0,06725
0,07414
0,08141
0,08902
0,09702
0,10538
0,11414
0,12329
0,13282
0,14277
0,15313
0,16391
0,17513
0,18677
0,19889
0,21144
0,22447
0,23797
0,25196
0,26645
0,28147
0,29701
0,31311
0,32976
0,34699
0,36486
0,38331
0,40239
0,42212
0,44254

170
QUADRO A.3.2 - ESTATSTICAS DA VARIVEL ALEATRIA X
OR-

X i ORDE-

DEM

NADA

151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200

132,91891
133,97053
135,38656
135,47110
136,56193
136,56805
137,27243
137,47769
137,97809
138,33079
139,52272
139,81303
142,26056
147,14338
147,19482
149,20216
149,25564
150,32126
151,22657
152,89828
156,10761
158,33893
159,11080
159,75330
159,93437
160,48252
162,01862
162,07885
163,60119
164,18793
164,82585
169,85026
170,06952
170,38835
171,15971
171,66572
180,31494
182,04153
183,53943
186,05545
192,75883
192,85433
194,55137
196,45927
199,44387
200,60562
211,89209
212,51855
222,03666
247,78060

TOTAL
FONTE: A autora

mi

Mi

(X X)

0,75204
0,75703
0,76202
0,76701
0,77200
0,77699
0,78199
0,78698
0,79197
0,79696
0,80195
0,80694
0,81193
0,81692
0,82191
0,82690
0,83189
0,83689
0,84188
0,84687
0,85186
0,85685
0,86184
0,86683
0,87182
0,87681
0,88180
0,88679
0,89178
0,89678
0,90177
0,90676
0,91175
0,91674
0,92173
0,92672
0,93171
0,93670
0,94169
0,94668
0,95168
0,95667
0,96166
0,96665
0,97164
0,97663
0,98162
0,98661
0,99160
0,99654

0,68093
0,69678
0,71282
0,72904
0,74545
0,76207
0,77893
0,79599
0,81328
0,83081
0,84861
0,86668
0,88503
0,90369
0,92267
0,94199
0,96166
0,98176
1,00222
1,02310
1,04445
1,06628
1,08863
1,11153
1,13504
1,15919
1,18404
1,20964
1,23605
1,26342
1,29171
1,32107
1,35161
1,38348
1,41681
1,45179
1,48865
1,52765
1,56912
1,61348
1,66137
1,71329
1,77029
1,83369
1,90547
1,98865
2,08842
2,21471
2,39106
2,70067

40,07736
41,12898
42,54501
42,62955
43,72038
43,72650
44,43088
44,63614
45,13654
45,48924
46,68117
46,97148
49,41901
54,30183
54,35327
56,36061
56,41409
57,47971
58,38502
60,05673
63,26606
65,49738
66,26925
66,91175
67,09282
67,64097
69,17707
69,23730
70,75964
71,34638
71,98430
77,00871
77,22797
77,54680
78,31816
78,82417
87,47339
89,19998
90,69788
93,21390
99,91728
100,01278
101,70982
103,61772
106,60232
107,76407
119,05054
119,67700
129,19511
154,93905

0,00000

(X X) M

continua

(X X)

27,28988
28,65785
30,32694
31,07865
32,59136
33,32266
34,60855
35,52992
36,70865
37,79292
39,61411
40,70925
43,73731
49,07202
50,15014
53,09113
54,25118
56,43128
58,51464
61,44404
66,07824
69,83855
72,14270
74,37442
76,15304
78,40874
81,90842
83,75221
87,46246
90,14045
92,98285
101,73390
104,38210
107,28445
110,96196
114,43615
130,21727
136,26636
142,31586
150,39877
165,99958
171,35090
180,05588
190,00278
203,12753
214,30503
248,62754
265,04986
308,91327
418,43925
11 424,30554

1 606,19509
1 691,59331
1 810,07820
1 817,27886
1 911,47196
1 912,00714
1 974,10344
1 992,38534
2 037,30759
2 069,27131
2 179,13199
2 206,32030
2 442,23893
2 948,68916
2 954,27838
3 176,51879
3 182,54998
3 303,91750
3 408,81101
3 606,81128
4 002,59484
4 289,90729
4 391,61401
4 477,18280
4 501,44701
4 575,30134
4 785,46755
4 793,80424
5 006,92720
5 090,30649
5 181,74000
5 930,34201
5 964,15994
6 013,50679
6 133,73479
6 213,25038
7 651,59463
7 956,63712
8 226,10613
8 688,83187
9 983,46361
10 002,55693
10 344,88827
10 736,63270
11 364,05545
11 613,09561
14 173,03199
14 322,58525
16 691,37744
24 006,11041

Mi2
0,46367
0,48550
0,50811
0,53150
0,55570
0,58075
0,60673
0,63360
0,66142
0,69025
0,72014
0,75113
0,78328
0,81666
0,85132
0,88735
0,92479
0,96385
1,00444
1,04673
1,09088
1,13695
1,18512
1,23550
1,28832
1,34372
1,40195
1,46323
1,52782
1,59623
1,66851
1,74523
1,82685
1,91402
2,00735
2,10769
2,21608
2,33371
2,46214
2,60332
2,76015
2,93536
3,13393
3,36242
3,63082
3,95473
4,36150
4,90494
5,71717
7,29362

669 048,10709 195,55906

171

As hipteses a serem testadas:


H0 : A varivel aleatria X normalmente distribuda
H1 : A varivel aleatria X no normalmente distribuda

O coeficiente de correlao calculado atravs da seguinte expresso:

(X
n

(X
n

i =1

Tem-se que:

) M
n

, pois M = Mi =0 (ver total da 4.a coluna, do quadro acima)

2
i

i=1

2
i

i =1

(X
n

i =1

i =1

X Mi = 11. 424,30554 ;

(X

X = 669. 048,10709 ;

i =1

= 195,55906

i=1

Substituindo-se os valores na expresso acima, obtm-se o valor

= 0,99876 , superior ao valor crtico igual a 0,98700 (Quadro A.2.1 do Anexo 2),
para nvel de significncia de 5%. Portanto, aceita-se a hiptese H0 de que a
varivel aleatria X normalmente distribuda.

172

APNDICE 4 - APLICAO DO COEFICIENTE DE CORRELAO


PONTO BISSERIAL

173

ARQUIVO DE DADOS

O arquivo de dados utilizado para os clculos apresentado no quadro a


seguir.
QUADRO A.4.1 - RENDA DAS PESSOAS OCUPADAS, SEGUNDO GNERO, NA RMC - AGO 2003
continua
RENDA
RENDA
OBS.
GNERO
OBS.
GNERO
(R$ 1,00)
(R$ 1,00)
1
350
1
64
450
1
2
600
1
65
2 900
1
3
900
1
66
600
1
4
2 300
1
67
1 000
1
5
500
1
68
1 500
1
6
350
1
69
320
0
7
800
1
70
530
0
8
4 000
1
71
400
0
9
1 500
1
72
360
0
10
1 000
1
73
1 000
0
11
350
1
74
400
0
12
700
1
75
400
0
13
1 000
1
76
800
0
14
800
1
77
650
0
15
400
1
78
1 000
0
16
500
1
79
900
0
17
800
1
80
240
0
18
380
1
81
400
0
19
591
1
82
300
0
20
3 000
1
83
500
0
21
900
1
84
300
0
22
600
1
85
1 000
0
23
2 300
1
86
900
0
24
900
1
87
2 200
0
25
2 500
1
88
900
0
26
400
1
89
400
0
27
1 400
1
90
3 000
0
28
2 000
1
91
700
0
29
2 200
1
92
450
0
30
1 500
1
93
330
0
31
1 000
1
94
2 000
0
32
1 500
1
95
1 200
0
33
500
1
96
480
0
34
1 700
1
97
500
0
35
1 800
1
98
1 700
0
36
4 000
1
99
250
0
37
2 500
1
100
590
0
38
1 500
1
101
1 600
0
39
680
1
102
800
0
40
400
1
103
600
0
41
500
1
104
1 900
0
42
470
1
105
500
0
43
1 200
1
106
4 000
0
44
900
1
107
350
0
45
1 000
1
108
900
0
46
3 500
1
109
900
0
47
500
1
110
240
0

174
QUADRO A.4.1 - RENDA DAS PESSOAS OCUPADAS, SEGUNDO GNERO, NA RMC - AGO 2003
concluso
RENDA
RENDA
OBS.
GNERO
OBS.
GNERO
(R$ 1,00)
(R$ 1,00)
48
350
1
111
1 500
0
49
1 200
1
112
2 000
0
50
2 400
1
113
1 200
0
51
800
1
114
2 100
0
52
600
1
115
300
0
53
3 000
1
116
800
0
54
520
1
117
1 500
0
55
800
1
118
740
0
56
400
1
119
900
0
57
600
1
120
800
0
58
1 200
1
121
600
0
59
350
1
122
340
0
60
1 300
1
123
280
0
61
1 000
1
124
860
0
62
1 500
1
125
600
0
63
810
1
FONTE: PME-IPARDES/IBGE
NOTAS: Pessoas ocupadas na condio de empregados com carteira de trabalho assinada no setor
privado, no grupo de atividades relativa a intermediao financeira e ativiades imobilirias,
aluguis e servios prestados s empresas, com 11 anos ou mais de estudo e que
trabalharam entre 35 e 45 horas, na semana de referncia.
A varivel gnero assume os valores 0 e 1, sendo: 1= masculino; 0=feminino.

ESTATSTICAS DESCRITIVAS DA VARIVEL RENDA

TABELA A.4.1 - ESTATSTICAS DESCRITIVAS DA RENDA DAS PESSOAS OCUPADAS SEGUNDO


GNERO E TOTAL NA RMC - AGOSTO 2003
ESTATSTICAS DESCRITIVAS

GNERO
Homem
68,00
350,00
4 000,00
1 212,51
900,00
910,19

Mulher

TOTAL

Tamanho da amostra
57,00
125,00
Mnimo (R$ 1,00)
240,00
240,00
Mximo (R$ 1,00)
4 000,00
4 000,00
Mdia (R$ 1,00)
901,93
1 070,89
Mediana (R$ 1,00)
700,00
800,00
Desvio Padro (R$ 1,00)
729,73
843,55
FONTE: PME IPARDES/IBGE
NOTAS: Pessoas ocupadas na condio de empregados com carteira de trabalho assinada no setor
privado, no grupo de atividades relativa a intermediao financeira e ativiades imobilirias, aluguis
e servios prestados s empresas, com 11 anos ou mais de estudo e que trabalharam entre 35 e
45 horas, na semana de referncia.

TESTE DE NORMALIDADE DA VARIVEL RENDA


H0 : a varivel renda provm de uma distribuio normal
H1 : a varivel renda no provm de uma distribuio normal

175

Estatsticas de Kolmogorov:
DN = 0,221489
Valor-p aproximado = 0,00000943433
Concluso: Sendo o valor-p menor que 0,05, podemos rejeitar H0 e concluir
que a distribuio da varivel em estudo no provm de uma distribuio normal.

TRANSFORMAO DA VARIVEL RENDA

Tendo em vista que a varivel renda no normalmente distribuda, fez-se


uma transformao logartmica (base e) na varivel, e testou-se a hiptese da
normalidade.
H0 : a varivel ln renda provm de uma distribuio normal
H1 : a varivel ln renda no provm de uma distribuio normal

Estatsticas de Kolmogorov:
DN = 0,086597
Valor-p aproximado = 0,307337
Concluso: Sendo o valor-p maior que 0,05, pode-se aceitar H0 e concluir
que a distribuio da varivel em estudo provm de uma distribuio normal.

CLCULO DOS COEFICIENTES DE CORRELAO

O Coeficiente Linear de Pearson foi obtido utilizando-se a Procedure


Correlation (PROC CORR) disponvel no Statistical Software Analysis (SAS) e o

Coeficiente de Correlao Ponto Bissserial, utilizando-se o programa que se


encontra no Apndice 6.

176
QUADRO A.4.2 - COEFICIENTES DE CORRELAO PONTO BISSERIAL E LINEAR DE
PEARSON ENTRE AS VARIVEIS EM ESTUDO
VARIVEIS

COEFICIENTE DE CORRELAO PONTO BISSERIAL

pb

Significncia

COEFICIENTE DE CORRELAO LINEAR DE PEARSON

Significncia

Renda e gnero

0, 18412

0,04

0,18412

0,04

Ln de renda e gnero

0,21544

0,02

0,21544

0,02

FONTE: PME - IPARDES/IBGE


NOTAS: Pessoas ocupadas na condio de empregados com carteira de trabalho assinada no setor
privado, no grupo de atividades relativa a intermediao financeira e ativiades imobilirias,
aluguis e servios prestados s empresas, com 11 anos ou mais de estudo e que
trabalharam entre 35 e 45 horas, na semana de referncia.

Observa-se no quadro acima que as estimativas dos dois coeficientes de


correlao so exatamente iguais, o que correto, pois trata-se do mesmo
coeficiente.

177

APNDICE 5 - CLCULO DOS COEFICIENTES DE CORRELAO DE


SPEARMAN E POR POSTOS DE KENDALL

178

1 CLCULO DOS COEFICIENTES DE CORRELAO DE SPEARMAN E POR


POSTOS DE KENDALL
TABELA A.5.1 - POPULAO MIGRANTE TOTAL E ECONOMICAMENTE ATIVA NAS ATIVIDADES URBANAS, POSTO
DE X E Y, ELEMENTOS SUPERIORES E INFERIORES E S
MICRORREGIES

POPULAO

POPULAO

MIGRANTE

ECONOMICAMENTE

TOTAL (X)

ATIVA (Y)

POSTO DE X POSTO DE Y
(1)

(2)

ELEMENT0S ELEMENTOS
SUPERIORES INFERIORES
(3)

(4)

S
(5)

704

137

803

22

21

703

250

690

22

22

708

613

2 434

21

21

710

623

2 455

20

20

707

750

3 304

18

17

720

1 387

2 482

18

18

705

1 845

10 792

16

15

702

2 448

21 064

13

11

709

3 580

11 085

14

13

723

3 637

17 125

10

12

11

724

6 268

14 318

11

11

11

713

7 172

9 219

12

12

12

711

7 401

13 957

13

10

11

11

706

14 796

48 967

14

22

-6

719

26 437

29 485

15

15

722

27 713

23 832

16

14

712

28 528

45 664

17

19

717

32 740

34 848

18

16

716

36 216

37 141

19

17

715

39 501

47 809

20

20

721

40 978

48 198

21

21

701

42 116

226 657

22

24

-2

718

45 510

42 589

23

18

714

86 938

111 618

24

23

TOTAL

216

FONTE DOS DADOS: Menezes, Faissol e Ferreira (1978)


NOTAS: Populao migrante total de destino urbano e origem rural. As colunas (1), (2), (3), (4) e (5) foram elaboradas pela
autora.

O Coeficiente de Correlao de Spearman calculado a partir dos postos foi


s = 0,922609 . Este coeficiente o Coeficiente de Correlao Linear de Pearson.

Coeficiente de Correlao por Postos de Kendall obtido foi:


=

216
0,5 24 23

= 0,782609

179

APNDICE 6 - PROGRAMAS UTILIZADOS

180

1 PROGRAMA PARA GERAR AMOSTRA NORMAL BIVARIADA

O Programa que deu origem a este, foi obtido no site:


www.sas.com_>service and support_>tecnical support_

data a500;

keep x y;
m1=5; m2=20; v1=2; v2=10; ro=0.80;
do i=1 to 500; /* tamanho da amostra */
x=m1+sqrt(v1)*rannor(123);
y=(m2+ro*(sqrt(v2)/sqrt(v1))*(x-m1))+ sqrt(v2*(1-ro**2))*rannor(123);
output;
end;
run;
2 PROGRAMAS PARA OS CLCULOS DOS COEFICIENTES DE CORRELAO

2.1 COEFICIENTE DE CORRELAO BISSERIAL


O Programa que deu origem a este, foi obtido no site:
www.sas.com_>service and support_>tecnical support_
****************************************************************
* ESTE PROGRAMA CALCULA O COEFICIENTE DE CORRELAO BISSERIAL *
****************************************************************
data arq;

set dados;
if y>=116854 then dicoty=1 /* ponto de dicotomizao*/;
else dicoty=0;
run;

181

* calcula a proporo da varivel dicotmica,desvio padro e n *;


proc means data=arq noprint;

var dicoty x;
output out=temp(keep=p stdx n) mean=p std=stdy stdx n=n;
run;

* ordena a varivel dicotmica*;


proc sort data=arq;

by descending dicoty;
run;

*calcula a mdia da varivel continua *;


proc means data=arq noprint;

by notsorted dicoty;
var x;
output out=out2 mean=m1;
run;

* organiza a mdia calculada acima *;


proc transpose data=out2 out=out3(rename=(col1=mx1 col2=mx0));

var m1;
run;

* calcula o coeficiente de correlao bisserial *;


data out4;

set out3(drop= _name_);


run;

182

*calcula o coeficiente bisserial *;


data out5;

merge temp out4;


z=probit(1-p);
y=exp(-z*z/2)/sqrt(2*arcos(-1));
bis=p*(1-p)*(mx1-mx0)/stdx/y;
rbis=((((sqrt(p*(1-p))/y)-(bis*bis)))/sqrt(n));
run;

proc print data=out5;

title1 ' correlao bisserial';


var bis rbis p u mx1 mx0;
format bis rbis p u mx1 mx0 comma15.4;
run;

2.2 COEFICIENTE DE CORRELAO TETRACRICO

*******************************************************
* ESTE PROGRAMA CALCULA O COEFICIENTE DE CORRELAO *
* TETRACRICO *
*******************************************************
* define o ponto de dicotomizao*;
data arq;

set dados;
if y>=23.2831 then dicoty=1;
else dicoty=0;
if x>=6.98211 then dicotx=1;
else dicotx=0;
run;

183

proc freq data=arq;

title1 'ponto de dicotomizao: mediana';


tables dicotx*dicoty / measures chisq plcorr converge=0.0001
maxiter=200;
run;

2.3 COEFICIENTE DE CORRELAO PONTO BISSERIAL


O Programa que deu origem a este, foi obtido no site:
www.sas.com_>service and support_>tecnical support_
*****************************************************************
* PROGRAMA PARA CALCULAR O COEFICIENTE DE CORRELAO PONTO *
* BISSERIAL

*****************************************************************;
*define a varivel dicotmica*;
data arq;

set dados;
dicoty=y;
x=x;
run;

* calcula a proporo da varivel binria,


desvio padro da varivel continua, e n *;

proc means data=arq noprint;

var dicoty x;
output out=temp(keep=p stdx n) mean=p std=stdy stdx n=n;
run;

184

* ordena a varivel dicotmica *;


proc sort data=arq;

by descending dicoty;
run;

*calcula a mdia da varivel continua *;


proc means data=arq noprint;

by notsorted dicoty;
var x;
output out=out2 mean=m1;
run;

* organiza o arquivo gerado acima*;


proc transpose data=out2 out=out3(rename=(col1=mx1 col2=mx0));

var m1;
run;

* calcula o coeficiente ponto bisserial *;


data out4;

set out3(drop= _name_);


run;
proc corr data=arq noprint outp=temp1;

var dicoty x;
run;

* retira o coeficiente ponto bisserial da matriz *;


data temp2(keep=pbis);

set temp1(rename=(x=pbis));
if _TYPE_='CORR' and dicoty<>1 then output;
run;

185

*calculo do coeficiente de correlao ponto bisserial *;


data out5;

merge temp2 temp out4;


if pbis=1 then delete;
rpbis=sqrt(((1-(pbis*pbis)))/(n-2));
keep mx1 mx0 p pbis rpbis;
run;

proc print data=out5;

title1 'correlao ponto bisserial';


var pbis rpbis p mx1 mx0;
format pbis rpbis p mx1 mx0 comma10.6;
run;

186

ANEXO 1 - CO-RELATIONS AND THEIR MEASUREMENT, CHIEFLY


FROM ANTHROPOMETRIC DATA

187

www.mugu.com/galton/statistician.html

CO-RELATIONS AND THEIR MEASUREMENT, CHIEFLY FROM


ANTHROPOMETRIC DATA
By FRANCIS GALTON, F.R.S.
Received December 5, 1888.
[Proceedings of the Royal Society of London 45 (1888), 135-145.]
"Co-relation or correlation of structure" is a phrase much used in biology, and not least in
that branch of it which refers to heredity, and the idea is even more frequently present than the phrase;
but 1 am not aware of any previous attempt to define it clearly, to trace its mode of action in detail, or
to show how to measure its degree.
Two variable organs are said to be co-related when the variation of the one is
accompanied on the average by more or less variation of the other, and in the same direction. Thus
the length of the arm is said to be correlated with that of the leg, because a person with a long arm has
usually a long log, and conversely. If the correlation be close, then a person with a very long arm
would usually have a very long leg; if it be moderately close, then the length of the leg would usually
be only long, not very long; and if there were no correlation at all then the length of the leg would on
the average be mediocre. It is easy to see that correlation must be the consequence of the variations
of the two organs being partly due to common causes. If they were wholly due to common causes, the
correlation would be perfect, as is approximately the case with the symmetrically disposed parts of the
body. If they were in no respect due to common causes, the co-relation would be nil. Between these
two extremes are an number of intermediate cases, and it will be shown how the closeness of
correlation in any particular case admits of being expressed by a simple number.
To avoid the possibility of misconception, it is well to point out that the subject in hand has
nothing whatever to do with the average proportions between the various limbs, in different races,
which have been often discussed from early times up to the present day, both by artists and by
anthropologists. The fact that the average ratio between the stature and the cubit is as 100 to 37, or
thereabouts, does not give the slightest information about the nearness with which they vary together.
It would be an altogether erroneous inference to suppose their average proportion to be maintained so
that when the cubit might be expected to be one-twentieth longer than the average cubit, the stature
might be expected to be one-twentieth greater than the average stature, and conversely. Such a
supposition is easily shown to be contradicted both by fact and theory.
The relation between the cubit and the stature will be shown to be such that for every inch,
centimetre, or other unit of absolute length that the cubit deviates from the mean length of cubits, cubits,
the stature will on the average deviate from the mean length of statures to the amount of 2.5 units, and in
the same direction. Conversely, for each unit of deviation of stature, the average deviation of the cubit
will he 0.26 unit. These relations are not numerically reciprocal, but the exactness of the co-relation
becomes established when we have transmuted the inches or other measurement of the cubit and of the
stature into units dependent on their respective scales of variability. We thus cause a long cubit and an
equally long stature, as compared to the general run of cubits and statures, to be designated by an

188

identical scale-value. The particular unit that I shall employ is the value of the probable error of any single
measure in its own group. In that of the cubit, the probable error is 0.56 inch = 1.42 cm.; in the stature it
is 1.75 inch = 4.44 cm. Therefore the measured lengths of the cubit in inches will be transmuted into
terms of a new scale in which each unit = 0.56 inch, and the measured lengths of the stature will be
transmuted into terms of another new scale in which each unit is 1.75 inch. After this has been done, we
shall find the deviation of the cubit as compared to the mean of the corresponding deviations of the
stature, to be as 1 to 0.8. Conversely, the deviation of the stature as compared to the mean of the
corresponding deviations of the cubit will also be as l to 0.8. Thus the existence of the co-relation is
established, and its measure is found to be 0.8.
Now as to the evidence of all this. The data were obtained at my anthropometric laboratory
at South Kensington. They are of males of 21 years and upwards, but as a large proportion of them
were students, and barely 21 years of age, they were not wholly full-grown; but neither that fact nor the
small number of observations is prejudicial to the conclusions that will be reached. They were
measured in various ways, partly for the purpose of this inquiry. It will be sufficient to give some of
them as examples. The exact number of 350 is not preserved throughout, as injury to some limb or
other reduced the available number by 1, 2, or 3 in different cases. After marshalling the measures of
each limb in the order of their magnitudes, I noted the measures in each series that occupied the
positions of the first, second and third quarterly divisions. Calling these measures in any one series
Q1, M and Q3, I take M, which is the median or middlemost value, as that whence the deviations are to
be measured, and [1/2]{Q3Q3}=Q as the probable error of any single measure in the series. This is
practically the same as saying that one-half of the deviations fall within the distance of

Q from the

mean value, because the series run with fair symmetry. In this way I obtained the following values of M
and Q, in which the second decimal must be taken as only roughly approximate. The M and Q of any
particular series may be identified by a suffix, thus Mc, Qc might stand for those of the cubit, and Mi, Qi
for those of the stature.

Table I.
M
Inch.

Q
Cubit.

Inch.

Cubit.

Head length

7.62

19.35

0.19

0.48

Head breadth

6.00

15.24

0.18

0.46

67.20

170.69

1.75

4.44

4.54

11.53

0.15

0.38

Stature
Left middle finger
Left cubit

18.05

45.70

0.56

1.42

Height of right knee

20.50

52.00

0.80

2.03

NOTE.-The head length is its maximum length measured from the notch between and just
below the eyebrows. The cubit is measured from the hand prone and without taking off the coat; it is the
distance between the elbow of the bent left arm and the tip of the middle finger. The height of the knee is
taken sitting when the knee is bent at right angles, less the measured thickness of the heel of the boot.
Tables were then constructed, each referring to a different pair the above elements, like
Tables II and III, which will suffice as examples of the whole of them. It will be understood that the Q
value is a universal unit applicable to the most varied measurements, such as breathing capacity,
strength, memory, keenness of eyesight, and enables them to be compared together on equal terms

189

notwithstanding their intrinsic diversity. It does not only refer to measures of length, though partly for
the sake of compactness, it is only those of length that will be here given as examples. It is
unnecessary to extend the limits of Table II, as it includes every line and column in my MS table that
contains not less than twenty entries. None of the entries lying within the flanking lines and columns of
Table II were used.

Table II.
Length of left cubit in inches, 348 adult males.
Stature in
inches.

Under
16.5

16.5

17.0

17.5

18.0

18.5

19.0

and

and

and

and

and

and

under under under under under under


17.0

17.5

18.0

18.5

19.0

19.5

15

Total
19.5

cases.

and
above

71 and above

..

..

..

30

70

..

..

..

13

11

..

30

69

..

25

15

..

50

68

..

14

48

67

..

15

28

..

61

66

..

18

15

..

..

48

65

..

10

12

..

..

36

64

..

11

..

..

..

21

Below 64

12

10

..

..

..

34

Totals

25

49

61

102

55

38

348

The measures were made and recorded to the nearest tenth of an inch. The heading of 70
inches of stature includes all records between 69.5 and 70.4 inches; that of 69 includes all between
68.5 and 69.4, and so on.

190

Table III.
Stature Ms = 67.2 inches; Qs = 1.75 inch. Left Cubit Mc = 18.05 inches; Qc = 0.56 inch.

No. of Stature.
Cases

Deviation from Ms reckoned in


Mean of
Corresponding
Inches.
Units of Qc.
left
cubits.
Units of Q,.
Observed. Smoothed.

Deviation from Ms
reckoned in
Inches.

inches.

inches.

Smoothed
Values
Added to
Multiplied
Mc.
by Qc.

30

70.0

+2.8

+1.60

18.8

+0.8

+1.42

+1.30

+0.73

18.8

50

69.0

+1.8

+1.03

18.3

+0.3

+0.53

+0.84

+0.47

18.5

38

68.0

+0.8

+0.46

18.2

+0.2

+0.36

+0.38

+0.21

18.3

61

67.0

-0.2

-0.11

18.1

+0.1

+0.18

-0.08

-0.04

18.0

48

66.0

-1.2

-0.69

17.8

-0.2

-0.36

-0.54

-0.30

17.8

36

65.0

-2.2

-1.25

17.7

-0.3

-0.53

-1.00

-0.56

17.5

21

64.0

-3.2

-1.83

17.2

-0.8

-1.46

-1.46

-0.80

17.2

No. of
cases.

Left
cubit.

Deviation from Mc
reckoned in
Inches.

Units of
Qc.

inches.

Deviation from Ms, reckoned in


Mean of
Inches
Units of Qs.
corresponding
statures.
Observed. Smoothed.

Smoothed
values
Added to
Multiplied
Ms
by Qs.

inches.

38

19.25

+1.20

+2.14

70.3

+3.1

+1 8

+1.70

+3.0

70.2

55

18 75

+0.70

+1.25

68.7

+1.5

+0.9

+1.00

+1.8

69.0

102

18.25

+0.20

+0.36

67.4

+0.8

+0.1

+0.28

+0.5

67.7

61

17.75

-0.30

-0.53

86.3

-0.9

-0.5

-0.43

-0.8

66.4

98

17.25

-0.80

-1.43

66.0

-2.2

-1.3

-1.15

-2.0

65.2

26

18.75

-1.30

-2.31

63.7

-3.S

-2.0

-1.85

-3.2

64.0

The values derived from Table II, and from other similar tables, are entered in Table III,
where they occupy all the columns up to the three last, the first of which is headed "smoothed." These
smoothed values were obtained by plotting the observed values, after transmuting them as above
described into their respective Q units, upon a diagram such as is shown in the figure. The deviations
of the "subject" are measured parallel to the axis of y in the figure, and those of the mean of the
corresponding values of the "relative" are measured parallel to the axis of x. When the stature is taken
as the subject, the median positions of the corresponding cubits, which are given in the successive
lines of Table III, are marked with small circles. When the cubit is the subject, the mean positions of
the corresponding statures are marked with crosses. The firm line in the figure is drawn to represent
the general run of the small circles and crosses. It is here seen to be a straight line, and it was
similarly found to be straight in every other figure drawn from the different pairs of co-related variables
that I have as yet tried. But the inclination of the line to the vertical differs considerably in different
cases. In the present one the inclination is such that a deviation of 1 on the part of the subject,
whether it be stature or cubit, is accompanied by a mean deviation on the part of the relative, whether
it be cubit or stature, of 0.8. This decimal fraction is consequently the measure of the closeness of the
correlation. We easily retransmute it into inches. If the stature be taken as the subject, then Qs is
associated with Qc0.8; that is, a deviation of 1.75 inches in the one with 0.56 0.8 of the other. This is
the same as 1 inch of stature being associated with a mean length of cubit equal to 0.26 inch.

191

Conversely, if the cubit he taken as the subject, then Qc is associated with Qs0.8; that is, a deviation
of 0.56 inch in the one with 1.750.8 of the other. This is the same as 1 inch of cubit being associated
with a mean length of 2.5 inches of stature. If centimetre be read for inch the same holds true. Six
other tables are now given in a summary form, to show how well calculation on the above principle
agrees with observation.

Table IV.
Mean of corresponding
No.

Length

statures.

Mean of corresponding
No.

of

of

of

cases.

head.

cases.

lengths of head.
Height

Observed. Calculated.

Observed. Calculated.

32

7.90

68.5

68.1

26

70.5

7.72

7.75

41

7.80

67.2

67.8

30

69.5

7.70

7.72

46

7.70

67.6

67.5

50

68.5

7.65

7.68

52

7.60

66.7

67.2

49

67.5

7.65

7.64

58

7.50

66.8

66.8

56

66.5

7.57

7.60

34

7.40

66.0

66.5

43

65.5

7.57

7.69

26

7.30

66.7

66.2

31

64.5

7.54

7.65

Mean of corresponding
No.
of

lengths of left
Height.

middle finger.

cases.

Length

Mean of corresponding

No.

of left

statures.

of

middle

cases.

finger.

Observed. Calculated.

Observed. Calculated.

30

70.5

4.71

4.74

23

4.80

70.2

69.4

50

69.5

4.55

4.68

49

4.70

68.1

68.5

37

68.5

4.57

4.62

62

4.60

68.0

67.7

62

67.5

4.58

4.56

63

4.50

67.3

66.9

48

66.5

4.59

4.50

57

4.40

66.0

66.1

37

65.5

4.47

4.44

35

4.30

65.7

65.3

20

64.5

4.33

4.38

Mean of corresponding
No.

Left

of

middle

lengths of left cubit.

cases. finger.

Mean of corresponding
No.

Length

lengths of left middle

of

of left

finger.

cases.

cubit.

Observed. Calculated.

Observed. Calculated.

23

4.80

18.97

18.80

29

19.00

4.76

4.75

50

4.70

18.55

18.49

32

18.70

4.64

4.69

62

4.60

18.24

18.18

48

18.40

4.60

4.62

62

4.50

18.00

17.87

70

18.10

4.56

4.55

57

4.40

17.72

17.55

37

17.80

4.49

4.48

34

4.30

17.27

17.24

31

17.50

4.40

4.41

28

17.20

4.37

4.34

24

16.90

4.32

4.28

192

Mean of corresponding
No.

Length

of

of

cases.

head.

breadths of head.

Mean of corresponding
No.

Breadth

of

of

cases.

head.

Observed. Calculated.

lengths of head.

Observed. Calculated.

32

7.90

6.14

6.12

27

6.30

7.72

7.84

41

7.80

6.05

6.08

36

6.20

7.72

7.75

46

7.70

6.14

6.04

53

6.10

7.65

7.65

52

7.60

5.98

6.00

58

6.00

7.68

7.60

34

7.40

5.96

5.91

37

5.80

7.55

7.50

26

7.30

5.85

5.87

30

5.70

7.45

7.46

No.

Height

of

of

cases.

knee.

Mean of corresponding
No.
of

heights of knee.
Stature.

cases.

Mean of corresponding

Observed. Calculated.

statures.

Observed. Calculated.

30

70.0

21.7

21.7

23

22.2

70.5

70.6

50

69.0

21.1

21.3

32

21.7

69.8

69.6

38

68.0

20.7

20.9

50

21.2

68.7

68.6

61

67.0

20.5

20.5

68

20.7

67.3

67.7

49

66.0

20.2

20.1

74

20.2

66.2

66.7

36

65.0

19.7

19.7

41

19.7

65.5

65.7

26

19.2

64.3

64.7

No.

Height

Mean of corresponding
No.

heights of knee.

Mean of corresponding

of

Left

of

of

cases.

cubit.

cases.

knee.

Observed. Calculated.

left cubit.

Observed. Calculated.

29

19.0

21.5

21.6

23

22.25

18.98

18.97

32

18.7

21.4

21.2

30

21.75

18.68

18.70

48

18.4

20.8

20.9

52

21.25

18.38

18.44

70

17.1

20.7

20.6

69

20.75

18.15

18.17

37

17.8

20.4

20.2

70

20.25

17.75

17.90

31

17.5

20.0

19.9

41

19.75

17.55

17.63

28

17.2

19.8

19.6

27

19.25

17.02

17.36

23

16.9

19.3

19.2

From Table IV the deductions given in Table V can be made; but they may be made
directly from tables of the form of Table III, whence Table IV was itself derived.

193

Table V.
In units of Q.

In units of ordinary
measure.

Subject.

Relative.

Stature

Cubit

Cubit

Stature

Stature

Head length

Head length

Stature

Stature

Middle finger

Middle finger

Stature

Middle finger

Cubit

Cubit

Middle finger

Head length

Head breadth

Head breadth

Head length

Stature

Height of knee

r.
0.8

0.35

0.7

0.85

0.45

0.9

{(1 )}

As 1 to

=.

to
0.6

0.93

0.72

0.61

0.89

0.44

Height of knee Stature


Cubit

Height of knee

Height of knee Cubit

0.8

0.60

f.
0.26

0.45

2.5

1.4

0.38

1.63

3.2

0.17

0.06

0.10

8.2

1.26

3.13

0.34

0.21

0.09

0.43

0.16

0.48

0.17

0.41

0.35

1.20

0.77

1.14

0.64

0.56

0.45

When the deviations of the subject and those of the mean of the relatives are severally
measured in units of their own Q, there is always a regression in the value of the latter. This is precisely
analogous to what was observed in kinship, as I showed in my paper read before this Society on
``Hereditary Stature'' (`Roy. Soc. Proc.,' vol. 40, 1886, p. 42). The statures of kinsmen are co-related
variables; thus, the stature of the father is correlated to that of the adult son, and the stature of the adult
son to that of the father; the stature of the uncle to that of the adult nephew, and the stature of the adult
nephew to that of the uncle, and so on; but the index of correlation which is what I there called
``regression,'' is different in the different cases. In dealing with kinships there is usually no need to
reduce the measures to units of Q, because the Q values are alike in all the kinsmen, being of the same
value as that of the population at large. It however happened that the very first case that I analysed was
different in this respect. It was the reciprocal relation between the statures of what I called the ``midparent'' and the son. The mid-parent is an ideal progenitor, whose stature is the average of that of the
father on the one hand and of that of the mother on the other, after her stature had been transmuted into
its male equivalent by the multiplication of the factor of 1.08. The Q of the mid-parental stature was found
to be 1.2, that of the population dealt with was 1.7. Again, the mean deviation measured in inches of the
statures of the sons was found to be two-thirds of the deviation of the mid-parents, while the mean
deviation in inches of the mid-parent was one-third of the deviation of the sons. Here the regression,

194

when calculated in Q units, is in the first case from [ 1/1.2] to [ 2/3]1.7=1 to 0.47, and in the second
case from [ 1/1.7] to [ 1/3][ 1/1.2]=1 to 0.44 which is practically the same.
The rationale of all this will be found discussed in the paper on ``Hereditary Stature,'' to
which reference has already been made, and in the appendix to it by Mr. J. D. Hamilton Dickson. The
entries in any table, such as Table II, may be looked upon as the values of the vertical ordinates to a
surface of frequency, whose mathematical properties were discussed in the above-mentioned
appendix, therefore I need not repeat them here. But there is always room for legitimate doubt whether
conclusions based on the strict properties of the ideal law of error would be sufficiently correct to be
serviceable in actual cases of correlation between variables that conform only approximately to that
law. It is therefore exceedingly desirable to put the theoretical conclusions to frequent test, as has
been done with these anthropometric data. The result is that anthropologists may now have much less
hesitation than before, in availing themselves of the properties of the law of frequency of error.
I have given in Table V a column headed {(1r2)}=f. The meaning of f is explained in the
paper on ``Hereditary Stature.'' It is the Q value of the distribution of any system of x values, as x1, x2,
x3, &c., round the mean of all of them, which we may call X. The knowledge of f enables dotted lines to
be drawn, as in the figure above, parallel to the line of M values, between which one half of the x
observations, for each value of y, will be included. This value of f has much anthropological interest of
its own, especially in connexion with M. Bertillon's system of anthropometric identification, to which I
will not call attention now.
It is not necessary to extend the list of examples to show how to measure the degree in
which one variable may be correlated with the combined effect of n other variables, whether these be
themselves correlated or not. To do so, we begin by reducing each measure into others, each having the
Q of its own system for a unit. We thus obtain a set of values that can be treated exactly in the same way
as the measures of a single variable were treated in Tables II and onwards. Neither is it necessary to
give examples of a method by which the degree may be measured, in which the variables in a series
each member of which is the summed effect of n variables, may be modified by their partial correlation.
After transmuting the separate measures as above, and then summing them, we should find the
probable error of any one of them to be n if the variables were perfectly independent, and n if they were
rigidly and perfectly co-related. The observed value would be almost always somewhere intermediate
between these extremes, and would give that information that is wanted.
To conclude, the prominent characteristics of any two correlated variables, so far at least
as I have as yet tested them, are four in number. It is supposed that their respective measures have
been first transmuted into others of which the unit is in each case equal to the probable error of a since
single measure in its own series. Let y=the deviation of the subject, whichever of the two variables may
be taken in that capacity; and let x1, x2, x3, &c., be the corresponding deviations of the relative, and let
the mean of these be X. Then we find: (1) that y=rX for all values of y; (2) that r is the same, whichever
of the two variables is taken for the subject; (3) that r is always less than 1; (4) that r measures the
closeness of correlation.

195

ANEXO 2 - VALORES CRTICOS DO COEFICIENTE DE CORRELAO

196
QUADRO A.2.1 - VALORES CRTICOS DO COEFICIENTE DE CORRELAO SEGUNDO NVEIS DE
SIGNIFICNCIA E TAMANHO DA AMOSTRA
TAMANHO
DA AMOSTRA
3
4
5

TAMANHO
DA AMOS0,100
TRA
0,891
32
0,894
33
0,902
34

NVEIS DE SIGNIFICNCIA
0,010

0,025

0,050

0,869
0,822
0,822

0,872
0,845
0,855

0,879
0,868
0,879

6
7
8
9
10

0,835
0,847
0,859
0,868
0,876

0,868
0,876
0,886
0,893
0,900

0,890
0,899
0,905
0,912
0,917

0,911
0,916
0,924
0,929
0,934

11
12
13
14
15

0,883
0,889
0,895
0,901
0,907

0,906
0,912
0,917
0,921
0,925

0,922
0,926
0,931
0,934
0,937

16
17
18
19
20

0,912
0,916
0,919
0,923
0,925

0,928
0,931
0,934
0,937
0,939

21
22
23
24
25

0,928
0,930
0,933
0,936
0,937

26
27
28
29
30
31

NVEIS DE SIGNIFICNCIA
0,010

0,025

0,050

0,100

0,949
0,950
0,951

0,959
0,960
0,960

0,966
0,967
0,967

0,972
0,973
0,973

35
36
37
38
39

0,952
0,953
0,955
0,956
0,957

0,961
0,962
0,962
0,964
0,965

0,968
0,968
0,968
0,970
0,971

0,974
0,974
0,974
0,975
0,976

0,938
0,941
0,944
0,947
0,950

40
41
42
43
44

0,958
0,958
0,959
0,959
0,960

0,966
0,967
0,967
0,967
0,968

0,972
0,972
0,973
0,973
0,973

0,977
0,977
0,978
0,978
0,978

0,940
0,942
0,945
0,947
0,950

0,952
0,954
0,956
0,958
0,960

45
46
47
48
49

0,961
0,962
0,963
0,963
0,964

0,969
0,969
0,970
0,970
0,971

0,974
0,974
0,974
0,975
0,975

0,978
0,979
0,979
0,980
0,980

0,942
0,944
0,947
0,949
0,950

0,952
0,954
0,955
0,957
0,958

0,961
0,962
0,964
0,965
0,966

50
55
60
65
70

0,965
0,967
0,970
0,972
0,974

0,972
0,974
0,976
0,977
0,978

0,977
0,978
0,980
0,981
0,982

0,981
0,982
0,983
0,984
0,985

0,939
0,941
0,943
0,945
0,947

0,952
0,933
0,955
0,956
0,957

0,959
0,960
0,962
0,962
0,964

0,967
0,968
0,969
0,969
0,970

75
80
85
90
95

0,975
0,976
0,977
0,978
0,979

0,979
0,980
0,981
0,982
0,983

0,983
0,984
0,985
0,985
0,986

0,986
0,987
0,987
0,988
0,989

0,948

0,958

0,965

0,971

100

0,981

0,984

0,987

0,989

FONTE: FILLIBEN (1975)