Você está na página 1de 16

Traduzido do Inglês para o Português - www.onlinedoctranslator.

com

Introdução ao artigoGraus de liberdade.

O artigo de Walker, HWGraus de liberdade. Jornal de Educação


Psicologia. 31(4) (1940) 253-269, foi transcrita do original por Chris Olsen, George
Washington High School, Cedar Rapids, Iowa. Chris fez todas as tentativas para reproduzir a
"aparência" do artigo, bem como o próprio artigo, e não tentou de forma alguma atualizar
os símbolos para uma notação mais "moderna". Três erros tipográficos foram encontrados
no artigo. Esses erros são observados nos parágrafos abaixo. O artigo, exceto pela
paginação e colocação de diagramas, é como aparece originalmente. As páginas transcritas
não são numeradas para evitar confusão com paginação no artigo original.

Erros tipográficos:

(1) Na seção sobret-distribuição (a 7ª dessas notas) a última frase deve ser “A curva é sempre
simétrica, mas émenosatingiu o pico do que o normal quando n é pequeno”.

(2) Na seção “(b) Variação dos Valores Regressados sobre a Média Total” (a 12ª página do
s
estas notas)sxesyestão invertidos na expressãoS% -My=rx(X−M) x . Deveria
sy
s
lerS% -M=ryy(X−M x )
sx

(3) Na seção “Testes Baseados na Razão de Duas Variações” (a 14ª página destes
s2(1-r) r2(N−2)
2
s2r2
notas), a segunda frase, “podemos dividir por obtendo .”
1 N−2 1-r2
s2r2 s2(1-r2) r2(N−2)
deve ler-se “podemos dividir por obtendo .”
1 N−2 1-r2

Outra possível confusão para os ouvidos modernos pode vir na seção intitulada "F-
distribuição ez-distribuição." Oz-distribuição mencionada NÃO é a distribuição normal
padronizada, mas é uma distribuição conhecida como "Fisher'szdistribuição."

Um problema potencial na leitura deste arquivo (além de não ter o Word!) é --[que]-- as
equações, que foram inseridas usando MathType da Design Science. Chris usou o Math
Type 4.0 e, se você tiver menos, pode ser um problema. Um programa de leitura Math
Type pode ser baixado da web. --[www.mathtype.com. Siga os caminhos para
“suporte.”]--
Graus de liberdade.Revista de Psicologia Educacional . 31(4) (1940) 253-269

GRAUS DE LIBERDADE

HELENA M. WALKER

Professor Associado de Educação, Teachers College, Columbia University

Um conceito de importância central para a teoria estatística moderna que poucos livros
didáticos tentaram esclarecer é o de "graus de liberdade". Para o matemático que lê os
artigos originais nos quais a teoria estatística está agora fazendo avanços tão rápidos, o
conceito é familiar e não precisa de explicação particular. Para quem não conheceN
geometria tridimensional ou quem sabe as contribuições para a teoria moderna de
amostragem apenas de fontes de segunda mão, como livros didáticos, esse conceito muitas
vezes parece quase místico, sem significado prático.

Tippett, um dos poucos escritores de livros didáticos que tentam fazer qualquer explicação geral
do conceito, começa seu relato (p. 64) com a frase: "Esta concepção degraus de liberdadenão é
totalmente fácil de alcançar, e não podemos tentar uma justificação completa disso aqui; mas
mostraremos sua razoabilidade e o ilustraremos, esperando que, como resultado da familiaridade
com seu uso, o leitor o aprecie." Não apenas a maioria dos textos omite todas as menções ao conceito,
mas muitos realmente fornecem fórmulas e procedimentos incorretos por ignorarem isto.

No trabalho dos estatísticos modernos, o conceito de graus de liberdade não é encontrado


antes do artigo "Student" de 1908, foi explicitado pela primeira vez pelos escritos de RA Fisher,
começando com seu artigo de 1915 sobre a distribuição do coeficiente de correlação, e só dentro
de uma década recebeu reconhecimento geral. No entanto, o conceito era familiar para Gauss e
seus associados astronômicos. Em seu trabalho clássico sobre oTeoria da Combinação de
Observações(Theoria Combinationis Observationum Erroribus Minimis Obnoxiae) e também em
um trabalho generalizando a teoria dos mínimos quadrados com referência à combinação de
observações (Ergänzung zur Theorie der den kleinsten Fehlern unterworfen Combination der
Beobachtungen, 1826), ele afirma tanto em palavras quanto em fórmulas que o número de
observações deve ser diminuído pelo número de incógnitas estimadas a partir dos dados para
servir como divisor na estimativa do erro padrão

de um conjunto de observações, ou em nossa terminologiaσ=


2 ∑x 2

Onderé o número de
N−r
parâmetros a serem estimados a partir dos dados.

O presente artigo é uma tentativa de preencher a lacuna entre a teoria matemática e a prática
comum, para afirmar da forma mais simples possível quais graus de liberdade representam, por que o
conceito é importante e como o número apropriado pode ser prontamente determinado. O
tratamento foi feito o mais não técnico possível, mas este é um caso em que a noção matemática é
mais simples do que qualquer interpretação não matemática dela. O papel
será desenvolvido em quatro seções: (I) A liberdade de movimento de um ponto no espaço
quando sujeito a certas condições limite, (II) A representação de uma amostra estatística
por um único ponto noNespaço tridimensional, (III) A importância do conceito de graus de
liberdade, e (IV) Ilustrações de como determinar o número de graus de liberdade
apropriados para uso em certas situações comuns.

I. A LIBERDADE DE MOVIMENTO DE UM PONTO NO ESPAÇO QUANDO SUJEITO


PARA CERTAS CONDIÇÕES LIMITANTES

Como introdução preliminar à ideia, pode ser útil considerar a liberdade de movimento possuída
por certos objetos familiares, cada um dos quais é tratado como se fosse um mero ponto móvel sem
tamanho. Uma gota de óleo deslizando ao longo de uma mola helicoidal ou uma conta em um fio tem
apenas um grau de liberdade, pois só pode se mover em um caminho unidimensional, não importa
quão complicada seja a forma desse caminho. Uma gota de mercúrio em uma superfície plana tem
dois graus de liberdade, movendo-se livremente em uma superfície bidimensional. Um mosquito
movendo-se livremente no espaço tridimensional tem três graus de liberdade.

Considerado como um ponto em movimento, um trem se move para trás e para frente em um
caminho linear que é um espaço unidimensional situado em um espaço bidimensional, a superfície da
Terra, que por sua vez está dentro de um universo tridimensional. Uma única coordenada, distância
de alguma origem, é suficiente para localizar o trem em qualquer momento. Se considerarmos um
universo quadridimensional em que uma dimensão é de tempo e as outras três dimensões de espaço,
serão necessárias duas coordenadas para localizar o trem, distância em unidades lineares de uma
origem espacial e distância em unidades de tempo de uma origem de tempo . A trajetória do trem que
tinha apenas uma dimensão em um universo espacial tem duas dimensões em um universo espaço-
tempo.

Uma canoa ou um automóvel se move sobre uma superfície bidimensional que se encontra sobre
um espaço tridimensional, é uma seção de um espaço tridimensional. A qualquer momento, a posição
da canoa, ou auto, pode ser dada por duas coordenadas. Referido a um universo espaço-tempo
quadridimensional, três coordenadas seriam necessárias para dar sua localização, e seu caminho seria
um espaço de três dimensões, repousando sobre uma das quatro.

No mesmo sentido, um avião tem três graus de liberdade no universo usual do espaço, e só pode
ser localizado se três coordenadas forem conhecidas. Estes podem ser latitude, longitude e altitude;
ou pode ser altitude, distância horizontal de alguma origem e um ângulo; ou pode ser uma distância
direta de alguma origem e dois ângulos de direção. Se considerarmos um dado instante de tempo
como uma seção através do universo espaço-tempo, o avião se move em uma trajetória
quadridimensional e pode ser localizado por quatro coordenadas, as três anteriormente nomeadas e
uma coordenada de tempo.

Os graus de liberdade que estamos considerando referem-se ao movimento de um ponto, ou


liberdade de translação. Na mecânica liberdade derotaçãoseria igualmente importante. Um ponto,
que tem apenas posição e nenhum tamanho, pode ser transladado, mas não girado. Uma canoa real
pode virar, um avião real pode girar em torno de seu eixo ou fazer um mergulho de nariz e, portanto,
esses corpos reais têm graus de liberdade de rotação e de translação. O paralelismo
entre os problemas de amostragem que estamos prestes a discutir e o movimento dos
corpos no espaço pode ser trazido mais claramente discutindo a liberdade de translação, e
desconsiderando a liberdade de rotação, e isso foi feito a seguir.

Se você for solicitado a escolher um par de números (x, y) aleatoriamente, você tem total
liberdade de escolha em relação a cada um dos dois números, tem dois graus de liberdade. O
par de números pode ser representado pelas coordenadas de um ponto localizado nax, y plano,
que é um espaço bidimensional. O ponto é livre para se mover em qualquer lugar na direção
horizontal paralela àxx'eixo, e também é livre para se mover em qualquer lugar na direção
vertical, paralela àaa'eixo. Existem duas variáveis independentes e o ponto tem dois graus de
liberdade.

Agora suponha que você seja solicitado a escolher um par de números cuja soma seja 7. É
evidente que apenas um número pode ser escolhido livremente, sendo o segundo fixado assim
que o primeiro for escolhido. Embora existam duas variáveis na situação, há apenas uma
variável independente. O número de graus de liberdade é reduzido de dois para um pela
imposição da condiçãox + y = 7. O ponto não está agora livre para se mover em qualquer lugar
noxyplano, mas é constrangido a permanecer na linha cujo gráfico éx + y = 7, e esta linha é um
espaço unidimensional situado no espaço bidimensional original.

Suponha que você seja solicitado a escolher um par de números tal que a soma de seus
quadrados seja 25. Novamente, é evidente que apenas um número pode ser escolhido
arbitrariamente, sendo o segundo fixado assim que o primeiro for escolhido. O ponto
representado por um par de números deve estar em um círculo com centro na origem e raio 5.
Este círculo é um espaço unidimensional situado no plano bidimensional original. O ponto pode
se mover apenas para frente ou para trás ao longo desse círculo e tem apenas um grau de
liberdade. Havia dois números a serem escolhidos (N =2) sujeito a uma relação limitante (r =1) e o
número resultante de graus de liberdade éN−r=2 − 1 = 1.

Suponha que imponhamos simultaneamente as duas condiçõesx + y=7 ex2+y2= 25. Se


resolvemos essas equações algebricamente, obtemos apenas duas soluções possíveis,x=3,y=4, ou x=4,
y=3. Nenhuma variável pode ser escolhida à vontade. O ponto, uma vez livre para se mover em duas
direções, agora é limitado pela equaçãox+y=7 para se mover apenas ao longo de uma reta
reta, e é limitado pela equaçãox2+y2= 25 para se mover apenas ao longo do
circunferência de um círculo, e pelos dois juntos é confinado à interseção dessa
linha e círculo. Não há liberdade de movimento para o ponto.N=2 er = 2.O número
de graus de liberdade éN−r=2 − 2 = 0 .

Considere agora um ponto (x, y, z) no espaço tridimensional (N = 3). Se nenhuma restrição for colocada
em suas coordenadas, ele pode se mover com liberdade em cada uma das três direções, tem três graus de
liberdade. Todas as três variáveis são independentes. Se definirmos a restrição x+y+z=c,Ondecé qualquer
constante, apenas dois dos números podem ser escolhidos livremente, apenas
duas são observações independentes. Por exemplo, deixex−y−z= Se agora escolhermos,
10 . dizer,x=7 ey=9, entãozé forçado a ser - 12.A equação x−y−z=cé o
equação de um plano, um espaço bidimensional cortando o espaço tridimensional original.
b
despaço imensional, e um ponto situado neste espaço tem dois graus de liberdade. N−r=3 −
1 = 2.gSe as coordenadas do (x, y, z) são feitos para estar em conformidade com o
doençax2+y2+z2=k,o ponto será forçado a repousar sobre a superfície de uma esfera cuja
centro está na origem e cujo raio é k.A superfície de uma esfera é um
espaço dimensional. (N =3, r =1, N−r=3 − 1 = 2.).

Se ambas as condições são impostas simultaneamente, o ponto pode estar apenas na


interseção da esfera e do plano, ou seja, ele pode se mover apenas ao longo da circunferência de
um círculo, que é uma figura unidimensional situada no espaço original de três dimensões. (N−r=
3 − 2 = 1.) Considerado algebricamente, notamos que resolver o par de equações em três
variáveis nos deixa uma única equação em duas variáveis. Pode haver total liberdade de escolha
para um deles, nenhuma liberdade para o outro. Existe um grau de liberdade.

A condiçãox = y = zé realmente um par de condições independentes,x = yex = z, a


condiçãoy = zsendo derivado dos outros dois. Cada uma delas é a equação de um plano, e
sua interseção dá uma linha reta que passa pela origem fazendo ângulos iguais com os
três eixos. Sex = y = z, é claro que apenas uma variável pode ser escolhida arbitrariamente,
há apenas uma variável independente, o ponto é restrito a se mover ao longo de uma
única linha, há um grau de liberdade.

Essas ideias devem ser generalizadas paraNmaior que 3, e essa generalização é


necessariamente abstrata. Uma tentativa muito ardente de visualizar o resultado só leva à
confusão. Qualquer conjunto deNnúmeros determinam um único pontoNespaço dimensional,
cada número fornecendo um dosNcoordenadas desse ponto. Se nenhuma relação for imposta
a esses números, cada um é livre para variar independentemente dos outros, e o número de
graus de liberdade éN. Cada relação necessária imposta a eles reduz o número de graus de
liberdade em um. Qualquer equação do primeiro grau conectando Nvariáveis é a equação do
que pode ser chamado de hiperplano (melhor não tentar visualizar!) e é um espaço deN−1
dimensões. Se, por exemplo, considerarmos apenas pontos
tal que a soma de suas coordenadas é constante,∑X=c, limitamos o ponto a
umN−1 espaço. Se considerarmos apenas pontos tais que∑ (X−M)2=k, o lugar é o
superfície de uma hiperesfera com centro na origem e raidus igual ak.Esta superfície
é chamado o lugar geométrico do ponto e é um espaço deN−rdimensões dentro do
originalNespaço. O número de graus de liberdade seriaN−r.

II. A REPRESENTAÇÃO DE UMA AMOSTRA ESTATÍSTICA POR UM PONTO DE


N-ESPAÇO DIMENSIONAL

Caso existamNnúmeros podem ser representados por um único ponto em um espaço deNdimensões,
obviamente uma amostra estatística deNcasos podem ser assim representados por um único ponto amostral.
Este dispositivo, empregado pela primeira vez por RA Fisher em 1915 em um artigo célebre (“Frequency
distribuição dos valores do coeficiente de correlação em amostras de uma população
indefinidamente grande”) tem sido extremamente frutífera e deve ser compreendida por aqueles
que esperam acompanhar os desenvolvimentos recentes.
Consideremos um espaço amostral deNdimensões, com a origem tomada na
verdadeira média populacional, que chamaremos de µ para queX1−µ=x1,X2−µ=x2, etc., onde
X1,X2,...XNsão as pontuações brutas doNindivíduos da amostra. DeixarMseja o meio
eso desvio padrão de uma amostra deNcasos. Qualquer conjunto deNobservações determina
um único ponto de amostra, como S. Este ponto temNgraus de liberdade se nenhuma condição
for imposta às suas coordenadas.

Todas as amostras com a mesma média serão representadas por pontos de amostra
situados no hiperplano(X1−µ)+(X2−µ)+ ... +(XN−µ)=N(M−µ), ou∑X=NM,um espaço
doN−1 dimensões.

Se todos os casos em uma amostra fossem exatamente uniformes, o ponto amostral estaria sobre a linha
(X1−µ)=(X2−µ)=(X3−µ)= ... =(XN−µ)=M−µque é a linha OR na Fig. 1, um
linha fazendo ângulos iguais com todos os eixos coordenados. Esta linha corta o plano
∑X=NMem ângulos retos em um ponto que podemos chamarUMA. Portanto,UMAé um ponto cuja
coordenadas são cada uma igual aM−µ.Por uma relação geométrica bem conhecida,

Figura 1
)2
2
SO=(X1−µ) 2 +(X2−µ) 2 + ... +(X N−µ

OA2=N(M−µ)
2

SO2=OA2+COMO2

COMO2=∑ (X−µ) 2−N(M−µ) 2 =∑X2−NM2=Ns2

OUMA M−µ
Portanto,OA=(M−µ)NeCOMO=s N. A proporção é assim eé
SO s
proporcional à razão entre a quantidade pela qual uma média amostral se desvia da média
populacional para seu próprio erro padrão. A flutuação dessa razão de amostra para
amostra produz o que é conhecido comot-distribuição.

Para calcular a variabilidade das pontuações em uma amostra em torno de uma média
populacional que é conhecidaa priori,estão disponíveisNgraus de liberdade porque o ponto
S se move emNespaço dimensional sobreO; mas para calcular a variabilidade desses
mesmos escores sobre a média de sua própria amostra, estão disponíveis apenasN−1 grau
de liberdade, porque um grau foi gasto no cálculo dessa média, de modo que o pontoSse
move sobreUMAem um espaço de apenasN−1dimensões.

Fisher usou esses conceitos espaciais para derivar a distribuição amostral do coeficiente de
correlação. A derivação completa está fora do escopo deste artigo, mas alguns aspectos são de
interesse aqui. quando temosNindivíduos cada um medido em dois traços, é costume
representar oNpares de números por um diagrama de correlação deNpontos no espaço
bidimensional. Os mesmos dados podem, no entanto, ser representados por dois pontos em N
espaço tridimensional, um ponto representando oNvalores deXe o outro oNvalores deS. Neste
quadro de referência o coeficiente de correlação pode ser mostrado como sendo igual ao
cosseno do ângulo entre os vetores para os dois pontos, e terN−2 graus de liberdade.

III. A IMPORTAÇÃO DO CONCEITO

Se a curva normal descrevesse adequadamente todas as distribuições amostrais, como


alguns tratados elementares parecem sugerir, o conceito de graus de liberdade seria
relativamente sem importância, pois esse número não aparece na equação da curva normal,
sendo a forma da curva a mesmo, não importa o tamanho da amostra. Em certas outras
distribuições de amostragem importantes - como por exemplo a Poisson - a mesma coisa é
verdade, que a forma da distribuição é independente do número de graus de liberdade
envolvidos. A análise estatística moderna, no entanto, faz muito uso de várias distribuições de
amostragem muito importantes para as quais a forma da curva muda com o tamanho efetivo da
amostra. Nas equações de tais curvas, o número de graus de liberdade aparece como parâmetro
(chamadonnas equações a seguir) e as tabelas de probabilidade construídas a partir dessas
curvas devem ser inseridas com o valor correto den. Se for cometido um erro na determinaçãona
partir dos dados, o valor de probabilidade errado será obtido da tabela, e a significância do teste
empregado será interpretada erroneamente. o
distribuição qui-quadrado, at-distribuição eFezdistribuições são agora comumente usadas
mesmo em trabalhos elementares, e a tabela para cada uma delas deve ser inserida com o
valor apropriado den.

Vejamos agora algumas dessas equações para ver o papel desempenhado nelas pelo
número de graus de liberdade. Nas fórmulas a seguir,Crepresenta uma constante cujo valor
é determinado de forma a tornar a área total sob a curva igual à unidade. Embora essa
constante envolva o número de graus de liberdade, ela não precisa ser considerada na
leitura de tabelas de probabilidades, pois, sendo um multiplicador constante, não afeta a
proporção de área sob determinado segmento da curva, mas serve apenas para alterar a
escala de toda a figura.

Curva Normal.

- x2 -
---
- 2σ2--
y=C e1- -

O número de graus de liberdade não aparece na equação e, portanto, a forma da curva é


independente dela. As únicas variáveis a serem mostradas em uma tabela de probabilidade são
x/areiayou alguma função deycomo um valor de probabilidade.

Qui-quadrado.

n−2 x2
y=C2( χ2 )

2 e 2

O número de graus de liberdade aparece no expoente. Quandon=1, a curva é


x2

em forma de J. Quandon=2, a equação se reduz ay=2C e2e tem a forma de
metade positiva de uma curva normal. A curva é sempre positivamente assimétrica, mas comon
aumenta, torna-se cada vez mais próximo do normal, e torna-se aproximadamente normal quandoné
30 ou mais. Uma tabela de probabilidade deve levar em conta três variáveis, o tamanho do Qui-
quadrado, o número de graus de liberdade e o valor de probabilidade relacionado.

t-distribuição

(n+1)
- t2- − 2
y=C3-1+ -
- n-

O número de graus de liberdade aparece tanto no expoente quanto na fração t2/n.o


curva é sempre simétrica, mas é mais pontiaguda do que o normal quandoné
pequena. Esta curva também se aproxima da forma normal comonaumenta. Uma tabela de valores
de probabilidade deve ser inserida com o valor calculado dete também com o valor adequado den.
Alguns valores selecionados mostrarão a comparação entre as estimativas de significância lidas de
uma tabela da curva normal e umat-tabela.

Para uma curva normal, a proporção da área em ambas as caudas da curva além de 3s é
. 0027. Para umt-distribuição a proporção é a seguinte:

n 1 2 5 10 20
p . 204 . 096 . 030 . 014 . 007

Novamente, para uma curva normal, o ponto tal que 0,01 da área está nas caudas está a
2,56 s da média.

Parat-distribuição, a posição deste ponto é a seguinte:

n 1 2 3 5 10 20 30
x/σ 63,6 9,9 5,8 4,0 3.2 2,8 2,75

Distribuição F e distribuição z

n1- 2

F2 en1z
y=C4 n1+n2
e y=C5 n1+n2
(n1F+n) 2 2
(n e
1 2z+ 2 n ) 2

Em cada uma dessas equações, que fornecem as tabelas utilizadas nos problemas de
análise de variância, ocorre não apenas o valor calculado deF(ou dez), mas também os dois
parâmetrosn1en2,n1sendo o número de graus de liberdade para o quadrado médio em
o numerador deFen2o número de graus de liberdade para isso no denominador.
Como uma tabela de probabilidade deve ser inserida com todos os três, essa tabela geralmente
mostra os valores apenas para valores de probabilidade selecionados. As tabelas publicadas por
Fisher fornecem valores para p= .05,p= .01, ep= .001; os da Snedecor dãop= .05 ep=01.
Distribuição de Amostragem de r.

Esta é uma equação complicada que envolve como parâmetros a verdadeira


correlação na população, ?; a correlação observada na amostra,r; e o número de graus
de liberdade. Seρ= 0 a distribuição é simétrica. Seρ≠0 ené grande, a distribuição
torna-se normal. Seρ≠0 ené pequena a curva é definitivamente enviesada. de DavidTabelas
do Coeficiente de Correlação(Emitido pelo Biometrika Office, University College, Londres,
1938) deve ser inserido com todos os três parâmetros.

4. DETERMINANDO O NÚMERO APROPRIADO DE GRAUS DE


LIBERDADE

Uma regra universal é válida: o número de graus de liberdade é sempre igual ao


número de observações menos o número de relações necessárias obtidas entre essas
observações. Em termos geométricos, o número de observações é a dimensionalidade do
espaço original e cada relação representa uma seção através desse espaço restringindo o
ponto amostral a um espaço de uma dimensão inferior. Impor uma relação sobre as
observações equivale a estimar um parâmetro a partir delas.
Por exemplo, a relação∑X=NMindica que a média da população
foi estimado a partir de observações. O número de graus de liberdade também é igual ao
número de observações independentes, que é o número de observações originais menos
o número de parâmetros estimados a partir delas.

Erro padrão de uma média. --Isto éσsignifica=σ Nquando s é conhecido por


população. Como s raramente é conhecidoa priori, geralmente somos obrigados a fazer
uso do desvio padrão observado na amostra, que chamaremos des. Nesse caso
σsignificaBs N−1 , um grau de liberdade sendo perdido porque desvios foram tomados
em torno da média amostral, de modo que impomos uma relação limite,
∑X=NM,e assim restringiu o ponto de amostra a um hiperplano deN−1
dimensões.

Sem qualquer referência à geometria, pode ser mostrado por uma solução algébrica
que s NBσN−1. (O símboloBdeve ser lido "tende a igual" ou "aproximado".)

Qualidade do ajuste da curva normal a um conjunto de dados.--O número de observações é o


número de intervalos na distribuição de freqüência para o qual uma freqüência observada é
comparada com a freqüência esperada na suposição de uma distribuição normal. Se essa curva
normal tiver uma média arbitrária e um desvio padrão previamente acordados, o número de
graus de liberdade com os quais entramos na tabela Qui-quadrado para testar a qualidade do
ajuste é um a menos que o número de intervalos. Neste caso, uma restrição é
imposta; nomeadamente∑f=∑f'Ondefé uma observação ef'uma frequência teórica. Se,
porém, como é mais comum, a curva teórica é feita de acordo com os dados observados em
sua média e desvio padrão, duas restrições adicionais são impostas; nomeadamente
∑f X=∑f'Xe∑f(X−M) 2=∑f'(X−M) 2, de modo que o número de graus de
liberdade é três a menos que o número de intervalos comparados. É claro que quando as
curvas são feitas para concordar em média e desvio padrão, a discrepância entre as
frequências observadas e teóricas será reduzida, portanto, o número de graus de liberdade
em relação aos quais essa discrepância é interpretada também deve ser reduzido.

Relacionamento em uma Tabela de Contingência.--Suponha que desejamos testar a


existência de uma relação entre o traçoUMA, para o qual existem três categorias, e
característicasB, para a qual existem cinco, como mostrado na Fig. 2. Temos quinze células na
tabela, dando-nos quinze observações, visto que uma "observação" é agora a frequência em uma
única célula. Se quisermos perguntar se há evidência suficiente para acreditar que na população
da qual esta amostra é extraídaUMAeBsão independentes, precisamos conhecer as frequências
celulares que seriam esperadas sob essa hipótese. Há então quinze comparações a serem feitas
entre frequências observadas e frequências esperadas. Mas. todas as quinze dessas
comparações são independentes?

Se tivéssemosa prioriinformações sobre como as características seriam distribuídas


teoricamente, então todas as comparações de células, exceto uma, seriam independentes, sendo
a última frequência de célula fixada para perfazer o total apropriado de cento e cinquenta, e os
graus de liberdade seriam 15 − 1 = 14 . Esta é a situação que Karl Pearson tinha em mente
quando desenvolveu seu teste Qui-quadrado de bondade de ajuste, e a Tabela XII no Vol. eu dele
Tabelas para Estatísticos e Biometristasé feito na suposição de que o número de graus de
liberdade é um a menos que o número de observações. Para usá-lo quando não for o caso,
simplesmente reajustamos o valor dencom que entramos na mesa.

Na prática quase nunca temosa prioriestimativas de frequências teóricas, mas


deve obtê-las a partir das próprias observações, impondo restrições ao número de
observações independentes e reduzindo os graus de liberdade disponíveis para
estimar a confiabilidade. Neste caso, se estimarmos as frequências teóricas do
dados, estimaríamos a frequênciaf'11=(20)(40)/150 e outros de forma semelhante.
Obter as frequências de células esperadas das frequências marginais observadas impõe
as seguintes relações:

(uma)f11+ f21+ f31+ f41+ f51= 40


f12+ f22+ f32+ f42+ f52= 60
f13+ f23+ f33+ f43+ f53= 50
(b)f11+ f12+ f13= 20
f21+ f22+ f23= 20
f31+ f32+ f33= 35
f41+ f42+ f43= 30
f51+ f52+ f53= 50
(c)f11+ f21+ ... + f51+ f12+ ... +f53= 150
UMA1 UMA2 UMA3 UMA1 UMA2 UMA3
B1 12 3 5 20 B1 f11 f12 f13 20
B2 3 6 11 20 B2 f21 f22 f23 20
B3 3 30 2 35 B3 f31 f32 f33 35
B4 9 14 7 30 B4 f41 f42 f43 30
B5 13 7 25 45 B5 f51 f52 f53 45
40 60 50 150 40 60 50 150

FIGO. 2-Distribuição de frequência conjunta observada FIGO. 3.--Frequências marginais observadas de


buição de dois traçosUMAeB. dois traçosUMAeB.

À primeira vista, parece haver nove relacionamentos, mas é imediatamente aparente que
(c) não é novo, pois pode ser obtido somando as três (a) equações ou as cinco (b) equações. Além
disso, qualquer um dos oito restantes pode ser obtido pela manipulação apropriada dos outros
sete. Existem, então, apenas sete relações independentes necessárias impostas às frequências
das células, exigindo que elas somem os totais marginais observados. Desta forman=15 − 7 = 8 e
se calcularmos o Qui-quadrado, devemos entrar na tabela do Qui-quadrado com oito graus de
liberdade. O mesmo resultado pode ser obtido observando que duas entradas em cada linha e
quatro em cada coluna podem ser escolhidas arbitrariamente e não há liberdade de escolha para
as entradas restantes.

Em geral, em uma tabela de contingência, sec=número de colunas er=número de linhas, o


número de graus de liberdade én= bc−1gbr−1goun=rc−br+c−1g.
Variação em uma Tabela de Correlação.--Suponha que temos um diagrama de dispersão com
ccolunas, sendo as frequências nas várias colunasn1,n2,...nc,os valores médios deSpara o
colunas sendom1,m2,...mc,e os valores de regressão deSestimado deX
neu
serS%%
1,S%,...S c.Assim, para qualquer coluna, a soma dosSé
2 ∑ fY=n
1
eu meu.Para o
c neu
mesa inteiraN=n1+n2+ ... +nc,NM=∑ ∑fY,de modo aNM=n m +n m + ... +n m .
1 1 2 2 c c
1 1
Agora podemos estar interessados na variância de todas as pontuações sobre a média total, de
todas as pontuações sobre suas próprias médias de coluna, de todas as pontuações sobre a linha de
regressão, de valores regredidos sobre a média total, de médias de coluna sobre o total média, ou de
médias de coluna sobre a linha de regressão, e podemos estar interessados em comparar duas
dessas variâncias. É necessário saber quantos graus de liberdade estão disponíveis para tais
comparações.
(uma)Variação Total.--Para a variância de todas as pontuações sobre a média total, isso é
1 N
s2= ∑ (S−M) 2, temosNobservações e apenas uma restrição; nomeadamente,
N 1
∑fY=NM.Assim existemN−1 grau, de liberdade.
(b)Variação dos valores regredidos sobre a média total.--A equação para a regressão
s
valores sendoS% -My=rx(X−M), ficax claro que assim quexé conhecido,yé também
sy
conhecido. O ponto de amostra pode se mover apenas em uma linha reta. Existe apenas um grau de
liberdade disponível para a variância dos valores regredidos.

(c)Variação de pontuações sobre a linha de regressão.--HáNresiduais da forma


S−S%e sua variância é o quadrado do erro padrão de estimativa, ous2 y(1-r 2 xy ).
HáNobservações e duas restrições; nomeadamente,

∑f(S−S%)=0
e

∑f(S−S%)=Ns
2
2 y (1-r 2 xy ).
Assim existemN−2 graus de liberdade disponíveis.

(d)Variação das pontuações sobre as médias das colunas.--Se de cada pontuação não subtrairmos o
valor de regressão, mas a média da coluna em que se encontra, a variância do
( )
os resíduos assim obtidos serãos2y 1-E2 onde E é a razão de correlação obtida de
a amostra. HáNtais resíduos. Para cada coluna temos a restrição
neu
∑fY=n eu meu,fazercrestrições em tudo. O número de graus de liberdade para
1
variância dentro das colunas é, portanto,N−c.

(e)Variação das médias da coluna sobre a média total--Para calcular esta variância temos
cobservações,ou seja, os meios deccolunas, restritas pela relação única
c
NM=∑neumeu,e por isso temc−1 grau de liberdade. A própria variação pode ser
1

provou sers2 yE,e2 representa a variação entre as médias das colunas,

(f)Variação das Médias da Coluna sobre a Linha de Regressão.--Se para cada coluna encontramos o
diferençameu−S%euentre a média da coluna e o valor de regressão e, em seguida, encontre
1c
∑ ) , o resultado serás2(y E−2r)que
2
f (m − Seu
2
eu% eu é uma variação que representa a
N 1
afastamento dos meios da linearidade. Existe uma diferença para cada coluna,
dando-noscobservações, e essas observações são restritas pelas duas relações
c c

∑ feu(meu−S%eu
)=0 e∑fm− % ( )=Ns (E−r).
2
2 2
eu S
eu eu 2 y Portanto, temosc−2
1 1
graus de liberdade.

O esquema a seguir mostra essas relações de forma resumida:

Fonte de variação Fórmula Graus de


Liberdade
(d) Pontuações sobre as médias das colunas .................. s2(1-E2) N−c
c−1
(e)Médias sobre a média total ......................... .. s2E2
(um total .................................… … … … … .. s2 N−1

(c) Pontuações sobre a linha de regressão.........


(b) Valores regredidos sobre a média total ....... s2(1-r2) N−2
1
sr2 2
s2 N−1
(um total .............................… … … … … …

(d) Pontuações sobre as médias das colunas … … ..… ..


s2(1-E2) N−c

(f)Coluna significa sobre a linha de regressão ..... s2(E2−r2)


c−2
(c) Pontuações sobre a linha de regressão ................... s2(1-r2) N−2
1
(b)Valores regredidos sobre a média total .......
s2r2
(f)Coluna significa sobre a linha de regressão ..... s2(E2−r2) c−2
s2E2 c−1
(e)Coluna significa sobre a média total… .. (b)
Valores regredidos sobre a média total… .. s2r2 1
s2(E2−r2) c−2
(f) Coluna significa sobre a linha de regressão… .
s2(1-E2) N−c
(d) Pontuações sobre as médias das colunas… … …
… .. (uma) Total… … … … … … … … … … … … … .. s2 N−1

É evidente que essas variâncias têm relações aditivas e que seus respectivos graus de
liberdade têm exatamente as mesmas relações aditivas.
Testes baseados na razão de duas variações.--De qualquer par dessas variâncias aditivas,
podemos fazer um teste estatístico importante. Assim, para testar se existe correlação linear
s2(1-r) r2(N−2)
2
s2r2
na população ou não, podemos dividir por obtendo . Para
1 N−2 1-r2
testar se existe uma relação mensurável pela razão de correlação na população,
s2E2 s2(1-E2) E2 N−c
podemos dividir por obtendo ⋅ . Para testar se
c−1 N−c 1-E2 c−1
s2(E2−r2) s2r2 E2−r2
correlação é linear, podemos dividir por obtendo ou pode
c−2 1 r2(c−2)
s2(E2−r2) s2(1-E2) E2−r2 N−c
dividir por obtendo ⋅ . Em cada caso, o resultado
c−2 N−c 1-E2 c−2
O valor é referido à tabela F da Snedecor que deve ser inserida com o número apropriado de
graus de liberdade para cada variação. Ou podemos encontrar o logaritmo da razão para a base
e, pegue a metade dele e refira o resultado ao teste de Fisherz-tabela, que também deve ser
inserida com o número apropriado de graus de liberdade para cada variância.

Correlação Parcial.--Para um coeficiente de correlação de ordem zero, existemN−2 graus de


liberdade. Isso é óbvio, uma vez que uma linha de regressão reta pode ser ajustada a quaisquer
dois pontos sem resíduos, e as duas primeiras observações não fornecem nenhuma estimativa
do tamanho de r. Para cada variável que é mantida constante em uma correlação parcial, um
grau de liberdade adicional é perdido, de modo que para um coeficiente de correlação dopª
ordem, os graus de liberdade sãoN−p−2 . Isso coloca um limite sobre o número de
inter-relações que podem ser obtidas a partir de uma pequena amostra. Como ilustração extrema,
suponha que vinte e cinco variáveis tenham sido medidas para uma amostra de apenas vinte e cinco
casos, e todas as intercorrelações computadas, bem como todas as possíveis correlações parciais - as
parciais de vigésima terceira ordem serão necessariamente ou + 1 ou − 1 e, portanto, não têm sentido.
Cada parcial será associada a 25 − 23 − 2 graus de liberdade. Se
σ2(1-r2)
os parciais não foram +1 ou -1 a variância do erro se tornaria infinito, um
N− p−2
situação fantástica.
BIBLIOGRAFIA

Dawson, S.:Uma Introdução à Computação da Estatística. Universidade de Londres


Imprensa,1933, pág. 114. NãoDiscussão geral. Dá regra paraχ2só.
Ezequiel, M.:Métodos de Análise de Correlação. John Wiley & Sons, 1930, p. 121. Fisher, RA:
"Distribuição de frequência dos valores do coeficiente de correlação em
amostras de uma população indefinidamente grande."Biometrika,Vol. x, 1915, págs.
507-521.Primeira aplicação da geometria n-dimensional à teoria da amostragem.
Fisher, RA:Métodos Estatísticos para Trabalhadores de Pesquisa.Oliver e Boyd. Isso tem agora
passou por sete edições. O termo "graus de liberdade" não aparece no índice, mas
o conceito ocorre constantemente ao longo do livro.
Goulden, CH:Métodos de EstatísticaAnálise. John Wiley and Sons, Inc., 1939.Ver
índice.
Guilford, J.P.:Métodos Psicométricos.McGraw-Hill, 1936, p. 308.
Mills, FC:Métodos Estatísticos Aplicados à Economia e Negócios. Henry Holt & Co.,
2ª ed., 1938. Ver índice.
Rider, PR: "Um levantamento da teoria de pequenas amostras."Anais da Matemática. Vol.
xxxi, 1930, pp. 577-628. Publicado como uma monografia separada pela Princeton University
Press, $ 1,00. Dá uma abordagem geométrica para distribuições de amostragem.
Cavaleiro, PR:Uma introdução aos métodos estatísticos modernos.John Wiley e Filhos,
Inc., 1939. Ver índice. Embora não haja uma explicação geral do significado dos graus
de liberdade, este livro fornece uma explicação cuidadosa e detalhada de como o
número de graus de liberdade pode ser encontrado em uma grande variedade de
situações. Snedecor, GW:Métodos estatísticos.Collegiate Press, Inc., 1937, 1938. Ver
índice. Snedecor, GW:Cálculo e Interpretação da Análise de Variância e
Covariância.Collegiate Press, Inc., 1934, pp. 9-10.
Tippett, LHC:Os Métodos de Estatística.Williams and Norgate, Ltd., 1931. Um dos
as poucas tentativas de tratar o conceito de graus de liberdade em termos gerais, mas
sem fundo geométrico, são feitas nas páginas 64-65.
Yule e Kendall:Introdução à Teoria da Estatística.Charles Griffin & Co.
Londres, 1937, pp. 415-416, 436.

Você também pode gostar