Você está na página 1de 32

Cano, I. “Medidas em Ciências Sociais” em de Mello e Souza, A.

Avaliação Educacional (org.) Editora Vozes. 2005. pg. 63-89

MEDIDAS EM CIÊNCIAS SOCIAIS


Ignacio Cano (UERJ)

1. Introdução: alguns conceitos básicos.


Medir, de acordo com a primeira acepção do Aurélio, quer dizer ―determinar ou
verificar, tendo por base uma escala fixa, a extensão, medida ou grandeza de, comensurar‖.
De uma forma mais geral, medir é atribuir um valor a um objeto em função de uma
dimensão determinada. Assim, cada objeto pode ser medido em múltiplas dimensões.
Estabelece-se, dessa forma, uma correspondência entre o conjunto dos objetos e o
conjunto dos valores, de forma que cada objeto está associado a um único valor. Isto não
impede que um valor esteja associado a múltiplos objetos. Por exemplo, se estamos
medindo a dimensão ―anos de escolaridade‖ cada pessoa terá um único valor nessa variável
—não poderá ter, digamos, 5 e 6 anos de escolaridade—, mas haverá, é claro, muitas
pessoas com 5 anos de escolaridade. Esse tipo de relação entre dois conjuntos em que cada
elemento do conjunto original se corresponde com um único elemento do conjunto imagem
denomina-se, em matemática, uma aplicação.
Mensurar é uma atividade que todos nós realizamos freqüentemente no dia a dia,
muitas vezes sem sermos cientes disso, e muitos dos nossos julgamentos quotidianos —se o
clima está quente, se o trânsito está engarrafado, etc.— estão baseados numa mensuração
prévia. Na atividade científica, a mensuração é uma tarefa da maior importância, pois é
anterior a qualquer tentativa de descrever ou explicar a realidade. As pesquisas costumam
começar, de fato, pela mensuração das variáveis relevantes. O que será medido, e ainda
como será feita a mensuração, está determinado pela teoria que antecede à pesquisa.
Todavia, quando os erros de mensuração são grandes, as próprias conclusões da
pesquisa podem ficar comprometidas. Por isso, é crucial obter medidas de qualidade,
mesmo que nem todas as pesquisas lhe dediquem a este tema a devida atenção.

1
Muitos manuais vinculam a mensuração com a atribuição de um número, mas, na
verdade, o valor conferido não precisa ser um número. Nas pesquisas qualitativas também
há um processo de mensuração. Assim, quando se assinala que um grupo social apresenta
um consenso sobre um determinado valor cultural, há uma quantificação implícita da
extensão dessa crença —ela é compartilhada pela grande maioria—, mesmo que sem
utilização de números. Em última análise, não há uma diferenciação radical, nem
epistemológica nem metodológica, entre as técnicas quantitativas e as qualitativas, apenas
ênfases diferentes e graus diversos de precisão na mensuração.
Antes de contemplar a possibilidade de mensurar um conjunto de objetos é preciso
possuir uma definição teórica clara da dimensão que será objeto da medição. E é
necessário, também, gerar um instrumento de medida que mensure apenas a dimensão
perseguida e não outras. Numa linguagem mais técnica, diríamos que o instrumento deve
respeitar o princípio da unidimensionalidade. Muitas medidas em ciências sociais
apresentam problemas, justamente, por mensurar simultaneamente, de forma escondida,
mais de uma dimensão. Essa não é uma questão trivial, pois uma dimensão teórica pode
estar, por sua vez, composta por várias sub-dimensões, como o coeficiente de inteligência
pode ser calculado a partir de sub-coeficientes de inteligência espacial, numérica e verbal.
Nesse caso, desde que o conceito teórico inclua esses subcomponentes e a relação entre eles
respeite certos requisitos teóricos e empíricos, não haveria ruptura da unidimensionalidade.
Um conceito importante para a mensuração é o de unidade de análise, que indica o
tipo de objeto que será medido. Uma mesma linha de pesquisa, digamos a relação entre a
renda e o rendimento escolar, pode ser realizada com diversas unidades de análise. É
possível usar o país —e verificar se os países com maior renda per cápita são os que
apresentam melhores médias de desempenho nos testes internacionais—, podemos tomar a
escola como unidade de análise —e analisar se as escolas com mais meios e situadas em
áreas mais ricas da cidade obtêm melhores médias nas avaliações—, e podemos também
utilizar ainda a família ou o aluno —e comprovar se os alunos de origem social mais
favorável conseguem os melhores resultados na prova. A unidade da análise costuma ser
não apenas a unidade sobre a qual são feitas as mensurações, mas também,
conseqüentemente, aquela utilizada nas análises e nas interpretações.

2
Cumpre dizer que os testes de uma mesma hipótese com diferentes unidades de
análise não apresentam necessariamente os mesmos resultados. A utilização de uma
unidade para a interpretação dos dados diferente da unidade de análise em que os dados
foram coletados denomina-se na literatura com o nome de falácia ecológica, e pode levar a
erros sérios. Num dos exemplos históricos desse problema, pesquisas sobre conduta
eleitoral concluíram que os negros nos EUA possuíam um padrão de voto diferente dos
brancos, em função do fato de que os setores censitários em que a população negra tinha
um peso maior apresentavam uma conduta eleitoral diferenciada. No entanto, análises mais
detalhadas mostraram que esses setores possuíam características próprias que
determinavam, por um lado, um voto diferente dos seus moradores e, por outro, uma alta
proporção de população negra. Porém, isto não significava que os negros desses distritos
votassem diferente dos brancos que moravam neles. Isto aconteceu porque, embora a
unidade de análise era o setor censitário, houve uma tentativa de interpretar os resultados
em função de diferenças entre indivíduos, não entre setores.
Outro elemento importante é a unidade em que a escala será mensurada. Algumas
variáveis possuem unidades quase óbvias, como reais ou salários mínimos para renda, ou
anos de escolaridade para educação. No entanto, muitas outras variáveis não contam com
uma unidade ―natural‖ de escala e precisam trabalhar com unidades arbitrárias. Esse é o
caso do desempenho escolar e da grande maioria das variáveis psicológicas e atitudinais.
Dentro dos testes educativos e psicológicos há ainda dois tipos:
a) aqueles que são avaliados e interpretados em relação a um critério pré-definido,
como é o caso das provas para certificação. Nesses casos, a pessoa, para passar o teste, deve
demonstrar um certo nível de proficiência previamente determinado, que é completamente
independente do desempenho dos outros alunos. O teste para conseguir carteira de
motorista é um exemplo. Nesse caso, as unidades da escala são adaptadas para se ajustar
aos conteúdos mínimos exigíveis.
b) aqueles que são avaliados e interpretados em função de uma norma grupal, ou
seja em função do desempenho coletivo. Exemplos desse tipo do teste são encontrados nos
testes de inteligência, e em alguns vestibulares ou concursos públicos. Neles não existe uma
lista de conteúdos mínimos para passar o teste, o que é avaliado é a posição do indivíduo
em relação ao conjunto para, a partir daí, extrair uma nota. Assim, uma inteligência igual à

3
média da população representa um QI de 100. Uma forma de resolver a arbitrariedade
dessas escalas é, justamente, utilizar os percentis como unidade, ou seja, dar uma nota a
cada indivíduo que seja igual à percentagem de sujeitos com um resultado no teste inferior
ou igual à dele. Entretanto, há vestibulares ou concursos em que existe de fato uma lista de
conteúdos mínimos a ser exigida e que, portanto, corresponderiam ao primeiro caso (testes
avaliados segundo um critério). Todavia, em outras ocasiões os concursos são avaliados de
acordo com uma norma grupal, mas há também um ponto de corte (uma pontuação
mínima) por baixo do qual o candidato é reprovado, o que nos remete à noção de critério.
Nesses casos, poderíamos falar de uma situação intermediária entre critério e norma.

2. Níveis de Mensuração.
O tipo de análise a que uma variável pode ser submetida depende do que se conhece
como ―nível de mensuração‖, conceito popularizado pelos trabalhos de Stevens (1951;
1959). Os níveis de mensuração são quatro: nominal, ordinal, de intervalo e de razão. O
primeiro é o mais grosseiro e o último é aquele com maior número de propriedades. Os
níveis são cumulativos, de forma que cada um deles possui todas as propriedades dos níveis
anteriores.

Nível Nominal: nesse nível, o conjunto dos casos é simplesmente classificado em


categorias. Os valores da variável constituem, justamente, as categorias de classificação.
Esses valores são arbitrários e não podem ser ordenados de acordo com a dimensão
mensurada. Isto é, os valores expressam naturezas diferentes em vez de graus diferentes de
uma dimensão. Por exemplo, a variável ―partido pelo qual votou nas últimas eleições‖ pode
ter como valores os seguintes: PSDB, PFL, PT, etc. Cada partido pode receber um código
numérico (1: PSDB; 2: PFL; 3: PT, etc.). Mas a ordenação pode ser qualquer uma, já que os
valores são arbitrários. Assim, poderíamos ter dado o valor 1 ao PT e o 2 ao PSDB, porque
na verdade não há uma ordenação dos casos em relação à dimensão. O PSDB não é ―mais‖
nem ―menos‖ partido do que o PFL. Religião, tipo de escola (privada, pública), e CEP de
residência são outros exemplos de variáveis nominais. Vale lembrar que

4
não importa se os valores são numéricos —caso do CEP— ou alfanuméricos —caso da
religião—; o que determina o nível nominal é o caráter arbitrário desses valores. Em função
disso, os números servem apenas como códigos de identificação e não podem ser
submetidos a operações aritméticas.
O sistema de categorias usado deve cumprir duas condições básicas:
a) As categorias devem ser exaustivas, ou seja, precisam incluir qualquer valor da
variável que possa aparecer. Por exemplo, se os valores da variável religião
fossem ―católico‖, ―evangélico‖ e ―espírita‖, o sistema não seria exaustivo
porque uma pessoa de religião judaica não teria nenhum valor para representá-
la. É por isso que costuma se acrescentar uma categoria residual —―outra‖ ou
―outro‖— que garanta que todos os valores serão incluídos. Espera-se que a
categoria residual ―outros‖ inclua apenas um número reduzido de casos. Quando
a categoria ―outros‖ representa uma grande proporção dos casos, o sistema de
categorias não será muito útil analiticamente, mesmo que seja exaustivo. Nesse
caso, recomenda-se a análise dos casos contidos nessa categoria residual para
tentar formular, a partir dela, outras categorias mais específicas.
b) categorias mutuamente excludentes. Todo caso deve ser passível de ser incluído
em apenas uma categoria, não em várias. Imaginemos um sistema de categorias
para a variável ―ocupação‖ com os seguintes valores: trabalhador manual,
trabalhador não manual, profissional, funcionário, empresário, outra. O sistema
não é mutuamente excludente porque, por exemplo, um médico que trabalha
num hospital público é ao mesmo tempo um profissional e um funcionário.
Uma vez que dispomos de um sistema de categorias exaustivo e mutuamente
excludente, a operação cognitiva a ser realizada é um simples julgamento de identidade,
que determine se o objeto é realmente igual, na dimensão mensurada, à categoria escolhida;
ou, em outras palavras, se todos os objetos incluídos dentro da categoria podem ser
considerados equivalentes nessa dimensão.

Nível Ordinal: aqui os valores manifestam uma ordenação em função da dimensão


medida e, portanto, não são arbitrários. Um valor apresenta uma magnitude maior ou menor
nessa dimensão. No entanto, as diferenças ou intervalos entre os valores não podem ser

5
comparados entre si. Um exemplo de uma variável ordinal seria a classe social, com os
valores: A, B, C, D y E. Obviamente, a classe A é superior à classe B e esta última é
superior à classe C, de forma que não poderíamos alterar a ordem das classes a vontade e
colocá-las de qualquer outra forma, digamos: A,D,B,E,C. Poderíamos, isso sim, inverter a
lista, começando pela classe mais baixa (E) e acabando pela mais alta (A), mas mantendo a
mesma ordenação no sentido inverso. Entretanto, não podemos dizer que a diferença entre
as classes A e C seja a mesma que entre as classes C e E. Isso significa que, mesmo que
concedamos um código numérico a cada classe —A=1, B=2, C=3, D=4, E=5— não
podemos, a rigor, submeter esses números a operações aritméticas como soma e subtração.
Assim, a média de ―classe‖ de todos os sujeitos seria um conceito de interpretação
problemática, justamente porque não há garantias de que os intervalos entre os valores
sejam constantes.
A ordenação fixa dos valores implica que eles cumprem a propriedade métrica da
transitividade. Assim, se a classe A é superior à B e essa, por sua vez, é maior do que C,
isto significa que, necessariamente, A é superior à C.
Esse nível contém mais informação do que o precedente, pois nos permite concluir
que um valor não é apenas diferente dos outros, mas também se é superior ou inferior.
Entretanto, não sabemos em quanto é superior ou inferior, nem sequer se um valor está
próximo ou distante de outro.
Outros exemplos de variáveis ordinais são as escalas de acordo-desacordo —
1:concordo muito; 2:concordo; 3: nem concordo nem discordo; 4:discordo; 5: discordo
muito— ou as faixas de renda: 1: até R$500; 2: mais de R$500 até R$1.000; 3: mais de
R$1.000 até R$5.000; 4: mais de R$5.000.

Nível Intervalar: nesse nível os valores podem ser ordenados e as diferenças ou


intervalos entre eles podem ser mensurados e comparados. O exemplo clássico é a
temperatura numa escala Celsius. Obviamente, uma temperatura de 20 Co é mais quente
que outra de 10 Co, mas também é possível afirmar que a diferença entre essas duas é a
mesma que a diferença entre 40 Co e 30 Co: 10 graus. A única propriedade que fica
faltando nesse nível é a existência de um zero absoluto, que possa ser interpretado como
―ausência da dimensão‖. Assim, o zero numa variável intervalar é arbitrário e, portanto,
poderia ter sido colocado em algum outro lugar da escala. No caso da temperatura na escala

6
Celsius, o 0 está colocado, convencionalmente, no ponto de congelamento da água, mas
poderia ter sido diferente. De fato, na escala Farenheit o ponto de congelamento da água
está situado em 32 graus. De qualquer forma, o zero não indica ―ausência de temperatura‖.
A possibilidade de comparar as diferenças entre os valores permite que eles sejam
submetidos a operações de soma e subtração. Assim, uma variável intervalar, além da
transitividade, cumpre também a propriedade métrica da aditividade, que determina que o
valor (número) associado ao objeto A somado ao valor associado ao objeto B deve ser igual
ao valor associado à combinação de A e B. Por exemplo, a temperatura média de uma
localidade pode ser obtida através da soma da temperatura de todos os dias do ano, dividida
sobre 365. Para tanto, os graus podem somados pois cada grau representa a mesma
diferença de temperatura, independentemente do ponto da escala. A diferença entre –31 C o
e –30 C o é a mesma que a distância entre –8 C o e –7 C o. Em outras palavras, a partir do
nível intervalar as unidades de mensuração podem ser interpretadas como constantes ao
longo de toda a escala, pois um incremento na unidade de medida representa sempre o
mesmo incremento na dimensão procurada. Em termos gráficos, é como se o nosso
instrumento de medição pudesse ser comparado a uma régua, com unidades constantes
independentes do contexto.
Entretanto, a ausência de um zero não arbitrário impede que os valores sejam
submetidos a operações de multiplicação e divisão. Por isso, a razão entre dois valores não
é interpretável, nem é constante ao mudar de escala. Imaginemos, por exemplo, que em
Manaus a temperatura é de 30 Co, no Rio de Janeiro de 15 Co e em Curitiba de 0 Co.
Poderemos muito bem dizer que a diferença de temperatura entre Manaus e o Rio é de 15
Co, mas não fará muito sentido dizer que a temperatura em Manaus é o dobro. A falta de
senso dessa afirmação fica evidente se mudamos a escala para Farenheit. As temperaturas
em Farenheit seriam as seguintes: Manaus:86 Fo; Rio:59 Fo; Curitiba: 32 Fo. Como se pode
comprovar, a diferença entre Rio e Manaus e entre Rio e Curitiba continua sendo constante,
e equivale agora a 27 Fo (15 Co). Porém, o valor de Manaus, que era aparentemente o dobro
do Rio quando considerado em graus Celsius, agora parece ser bem menos do que o dobro.
Ou seja, a razão entre valores não é constante em relação a mudanças de escala, dado que o
zero pode mudar de lugar. Esse zero não é absoluto nem significa ausência de calor.

7
Muitas das escalas de medição em psicologia e em educação são construídas para
serem escalas intervalares. Pensemos numa prova de conhecimento padronizada. Se ela está
bem elaborada, a diferença entre quem tirou 8 pontos e quem tirou 6 pontos deveria ser, em
termos de conhecimento, igual à diferença entre quem obteve 6 pontos e quem atingiu 4.
No entanto, isto não significa que possamos concluir que o aluno com 8 pontos possui o
dobro de conhecimento daquele com 4 pontos. Para poder afirmar isso, teríamos que
garantir que o zero indica ausência total de conhecimento, o que não faz muito sentido.
Com efeito, a colocação do zero depende da dificuldade relativa de cada prova e muda de
uma prova para outra. O coeficiente de inteligência é outra variável que pode ser
considerada intervalar.

Nível de Razão: nesse nível, os valores podem ser ordenados, as diferenças entre
eles são comensuráveis e existe, ainda, um zero não arbitrário. Ou seja, possui todas as
propriedades do nível intervalar —incluindo a transitividade e a aditividade— e uma a
mais: a do ponto de origem não arbitrário. Mesmo quando a escala mudar, o zero
permanece no mesmo lugar. Pensemos na variável renda. Ela pode ser medida em unidades
diferentes —em real, em dólar, em euro—, o que determinará valores diferentes para uma
mesma pessoa, exceto se ela não possuir renda, em cujo caso o valor será sempre zero
independentemente da moeda. Isto porque renda zero significa ausência de renda e,
portanto, não muda de uma escala para outra. Esse ponto de origem fixo permite que os
valores possam ser submetidos a operações de multiplicação e divisão, e não apenas de
soma e subtração. Agora, a idéia de ―o dobro‖ da renda faz sentido. Todavia, se uma pessoa
possui o dobro da renda que outra, nós podemos mudar a escala —de real para euro,
digamos— e a renda continuará sendo o dobro. Em outras palavras, a razão entre dois
valores é constante e imune a mudanças de escala.
Nas ciências físicas e naturais há muitas variáveis que são de razão: distância,
tempo, peso, etc. Mas nas ciências sociais também há exemplos numerosos, como idade,
anos de escolaridade, número de filhos, etc.

Uma mesma variável pode ser medida em vários níveis de mensuração. Quando
fazemos uma prova de conhecimentos, por exemplo, podemos ter como resultado:

8
a) aprovado ou reprovado, o que seria uma variável nominal;
b) um conceito (A, B, C, D ou E), que equivaleria a uma variável ordinal;
c) uma nota (de 0 a 10) o que, mantidas certas condições, poderia ser considerado
uma variável intervalar.
Assim, uma variável não está associada, necessariamente, a um nível de mensuração
determinado. Ao contrário, pode vir mensurada em níveis diferentes. O ideal é sempre
utilizar o nível de mensuração mais alto possível. Ou seja, trabalhar com variáveis de razão
sempre que possível. Quanto maior for o nível de mensuração, maior u número de
propriedades e mais amplas e precisas as análises passíveis de serem aplicadas. No entanto,
esse nível de mensuração deve ser sustentado pelo fenômeno e pelo instrumento. Se
assumirmos um nível de mensuração superior ao que se depreende dos dados estaremos
fadados a sérios erros na análise e na interpretação. O exemplo mais grosseiro é a tentativa
de tratar como variável intervalar uma variável nominal, digamos tirando a média de uma
variável numérica mas nominal, como o CEP, para concluir que o grupo A tem CEP maior
do que o grupo B. É óbvio que isto não teria nenhum sentido. Menos absurda seria a idéia
de tratar como intervalar uma variável ordinal e calcular, por exemplo, a média das faixas
de renda (1: até R$500; 2: mais de R$500 até R$1.000; 3: mais de R$1.000 até R$5.000; 4:
mais de R$5.000). Nesse caso, dizer que a renda média do grupo A (2,4, por exemplo) é
superior à do grupo B (2,2) também não é facilmente interpretável, visto que as unidades da
renda em faixas não são equivalentes em termos de renda. De fato, se dispusermos da renda
medida em reais —variável de razão— essa diferença da média a favor do grupo A poderia
se manter, desaparecer ou inclusive se inverter, caso o grupo B tivesse mais pessoas com
renda muito alta.
Assumir um nível de mensuração inferior ao que permitem os dados equivale,
simplesmente, a desperdiçar informação. Se dispusermos da nota na prova, e quisermos ver
que características dos alunos favorecem um melhor desempenho, comparar na análise
apenas os alunos aprovados com os reprovados é jogar fora muita informação e perder
precisão. Assim, existe muita diferença entre o aluno que conseguiu 5 e aquele que tirou 10
pontos na prova, mesmo que ambos estejam aprovados.

9
A importância fundamental do nível de mensuração na hora da análise é que ele
determina o tipo de estatísticas que podem ser usadas. O poder, a precisão e a sensibilidade
dos testes que podem ser usados com variáveis de razão, por exemplo, são muito superiores
aos dos testes com variáveis nominais. Como os níveis são cumulativos, os mais
avançados podem usar as estatísticas dos níveis inferiores, mas não vice-versa.
O exemplo mais simples é o das medidas de tendência central. Cada um dos níveis
pode usar as seguintes medidas.

TABELA 1
Nível de Mensuração Medidas de Tendência Central cabíveis

Nominal Moda

Ordinal Moda Mediana

Intervalar Moda Mediana Média

De Razão Moda Mediana Média

No nível nominal, dado que os valores são arbitrários, apenas a moda é calculável.
Ou seja, só podemos saber qual é a categoria com maior número de casos. Quando os
valores podem ser ordenados —nível ordinal— é possível usar a mediana, que revela qual é
o valor que divide o conjunto de casos em duas metades de igual freqüência: 50% dos casos
possuem um valor inferior ou igual a ela, e o 50% restante, um valor superior.
Por fim, a partir do nível intervalar é possível submeter os valores a operações de
soma e subtração, visto que os intervalos entre eles são constantes, e isso permite calcular a
média.
De um modo genérico, os testes estatísticos de maior poder e precisão, chamados
paramétricos, estão restringidos aos níveis intervalar e de razão. A estatística paramétrica
parte de uma série de supostos relativos ao universo total dos casos de interesse. Esse
universo supõe-se que apresenta uma certa distribuição, que pode ser resumida numa série
de parâmetros. Através das estatísticas calculadas sobre uma amostra é então possível

10
estimar os valores desses parâmetros. Exemplos típicos são a Análise de Variância como
teste de significância ou o cálculo de intervalos de confiança para a média populacional a
partir da média amostral.
Quando a distribuição da população total não cumpre determinadas propriedades ou
simplesmente é desconhecida, ou quando os supostos dos testes paramétricos não são
satisfeitos, resta a possibilidade de aplicar o que se conhece como estatísticas não-
paramétricas. Nelas, os requisitos relativos à distribuição do universo são menores ou
inexistentes. Exemplos desse tipo de estatísticas são o teste de Chi-quadrado como teste de
significância para a independência de duas variáveis nominais ou o teste do sinal para ver
se há alguma associação na sucessão de casos de uma variável nominal ordenados
temporalmente.
As variáveis mensuradas no nível nominal e ordinal, também conhecidas como
variáveis categóricas, só podem se utilizar, a princípio, dessas estatísticas não paramétricas.
A falta de equivalência entre os intervalos dos valores inviabiliza o cálculo de estatísticas
simples como a média e faz com que os supostos distribucionais sejam insustentáveis,
impossibilitando desse modo a aplicação de estatísticas paramétricas.

A rigor, os níveis de mensuração não deveriam ser assumidos a priori pelo


pesquisador, mas comprovados a posteriori através do teste empírico das propriedades
exigíveis de cada um (ver, por exemplo, Cliff, 1993). Assim, não é porque peçamos a um
sujeito que avalie uma instituição de 0 a 10 —sendo 0 a pior avaliação possível e 10 a
melhor possível— que podemos concluir automaticamente que a sua resposta pode ser
considerada uma escala de razão. É preciso mostrar que a mensuração possui,
empiricamente, as propriedades do nível que lhe foi atribuído inicialmente.
No entanto, é comum que uma variável que a princípio é ordinal seja tratada como
intervalar e seja submetida aos cálculos próprios desse último tipo. Por exemplo, escalas de
acordo-desacordo —1:concordo muito; 2:concordo; 3: nem concordo nem discordo;
4:discordo; 5: discordo muito— são tratadas como pontuações intervalares. Ainda muito
mais comum é tratar as pontuações de uma prova como intervalares, mesmo na ausência de
evidência empírica que prove que a diferença entre 2 e 3 é a mesma do que entre 8 e 9. Isto
tem provocado até hoje uma controvérsia considerável entre os que rejeitam esses

11
procedimentos como distorcidos e os que os defendem. É claro que existe um certo grau de
distorção em assumir um nível de mensuração que não possui comprovação empírica, mas
vários estudos mostram que, na maioria dos casos, transformações das variáveis que
respeitem a ordenação original dos casos —denominadas tecnicamente transformações
monotônicas— provocam um grau de distorção muito pequeno nas estatísticas mais usadas
(Abelson & Tukey, 1963; Labovitz, 1967). Isto apoiaria a opção de tratar escalas ordinais
como intervalares. Nessa discussão, uma posição interessante é articulada por autores como
Nunnally (1978). Eles argumentam que se bem a maioria das medidas usadas em psicologia
ou educação não têm mostrado a rigor os requisitos necessários para serem consideradas
intervalares —por carecer de evidências empíricas sobre a igualdade dos intervalos
considerados—, não é menos certo que elas em geral contém mais informação do que a
simples ordenação dos casos. Assim, muitas vezes não podemos demonstrar que a diferença
entre uma nota de 9 e uma nota de 8 seja exatamente a mesma do que a diferença entre 2 e
3 pontos. Entretanto, há um alto grau de probabilidade de que a diferença entre 2 e 3 seja
menor do que a diferença entre 3 e 6. Portanto, mesmo sem comprovar equivalência
perfeita dos intervalos, esses números nos transmitem informação sobre a intensidade das
diferenças e não simplesmente sobre a ordenação dos valores. Ou seja, poderíamos
considerar que essa variável está numa situação intermediária entre uma escala ordinal e
uma escala intervalar, o que justificaria, sob determinadas condições, a tentativa de aplicar
estatísticas intervalares.

3. Operacionalização de conceitos.

Algumas variáveis podem ser medidas de forma óbvia, com ajuda de um simples
instrumento, como a altura ou o peso de uma pessoa. Outras podem ser medidas com uma
pergunta de fácil resposta, como o número de filhos. Ainda outras precisam de perguntas e
explicações mais detalhadas, como os anos de escolaridade ou a renda. Mas há outras
variáveis cuja mensuração está longe de ser trivial e não pode ser resolvida com um
aparelho ou uma pergunta; entre elas, por exemplo, a agressividade de uma pessoa, o
conhecimento de um aluno ou o grau de democracia de um país.

12
Com efeito, muitos conceitos teóricos em ciências sociais não podem ser
mensurados diretamente. Para fazê-lo, é preciso recorrer a medidas indiretas. A tradução de
um conceito teórico numa ou em várias variáveis mensuráveis é chamada de
operacionalização. Só quando o conceito estiver operacionalizado em variáveis que
possam ser medidas será possível realizar uma pesquisa sobre o mesmo.
Num artigo clássico de grande repercussão, Lazarsfeld (1965) descreve quatro fases
no processo de operacionalização:
1. Representação teórica ou definição do conceito. Imaginemos que a meta é
mensurar o conceito de democracia —entendida como um continuum entre os
extremos de ditadura e democracia plena— em cada país. Em primeiro lugar,
seria preciso explicitar o conceito de democracia.
2. Especificação ou mapeamento das dimensões que compõem o conceito. No
nosso exemplo, haveríamos de enumerar quais são os componentes principais da
democracia. Por exemplo: a) liberdades de expressão, reunião e associação; b)
escolha dos cargos executivos e legislativos por eleição; c) existência de um
estado de direito; d) independência dos poderes executivo, legislativo e judicial;
e) respeito aos direitos das minorias.
3. Escolha de indicadores para cada dimensão anteriormente mencionada. Digamos
que, para o caso da liberdade de expressão, um indicador poderia ser a
proporção dos meios escritos e audiovisuais que emitem opiniões críticas em
relação às decisões de governo.
4. Síntese dos diversos indicadores num índice final que consiga mensurar,
finalmente, o conceito.

Um indicador é justamente uma variável operativa usada para mensurar,


indiretamente, um conceito que não admite mensuração direta. Quando o conceito pode ser
medido diretamente, como o peso, não faz sentido falar em indicadores. Setenta e cinco
quilogramas não é um indicador do peso de uma pessoa, é o próprio peso, desde que a
balança utilizada tenha um grau de precisão aceitável. Já a taxa de analfabetismo é um
indicador do nível educacional de uma população, pois ele não pode ser medido
diretamente.

13
Como o indicador é uma medida indireta, ele sempre conterá uma certa quantidade
de erro. Em última análise, praticamente toda mensuração está sujeita a algum grau de erro,
mas a mensuração indireta dos indicadores representa uma nova fonte de erros. O erro
introduzido pela mensuração indireta pode ser aleatório sistemático1. Como cada indicador
é apenas uma mensuração imperfeita, recomenda-se a utilização de múltiplos indicadores
para mensurar um fenômeno. A princípio, quanto maior o número de indicadores, melhor
será a medida. Isto produzirá uma diminuição do erro final de mensuração, desde que cada
um dos indicadores usados tenha características diferentes e, portanto, limitações
diferentes. Pode-se esperar que, por terem tendências diferentes, os erros de um conjunto de
indicadores se anulem, o que resultará numa mensuração de maior qualidade.
A palavra índice é usada muitas vezes de forma intercambiável com indicador. A
rigor, um índice é uma síntese de vários indicadores. Em conseqüência, o índice costuma
ser mensurado em unidades mais abstratas, normalmente arbitrárias, distantes das
mensurações originais dos indicadores. Por exemplo, o Índice de Desenvolvimento
Humano elaborado pelo Programa das Nações Unidas para o Desenvolvimento, que tem
como limite inferior o 0 e como limite superior o 1, não apresenta uma unidade conhecida.
Um valor de, digamos, 0,55 não tem interpretação para além da comparação com outros
valores conhecidos. Já a renda per cápita, um dos indicadores que o compõem, está medida
na unidade convencional de dólar por habitante e é diretamente interpretável.
O fato de aglutinar valores diferentes num valor único apresenta uma dificuldade
adicional quando os diferentes indicadores estão mensurados em unidades diferentes. O
Índice de Desenvolvimento Humano está composto por três tipos de indicadores:
- um indicador de saúde operacionalizado pela expectativa de vida ao nascer
- um indicador de educação mensurado pela taxa de analfabetismo e pela taxa de
escolarização dos alunos de primeiro grau
- um indicador de renda, operacionalizado pela renda per cápita transformada.
O primeiro indicador está medido em anos, o segundo em percentual (de analfabetos
ou de crianças na escola) e o terceiro em dólares per cápita. A integração dessas três escalas

1
Ver epígrafe sobre validade e confiabilidade.

14
numa só precisa de algum procedimento de homogeneização. O mais comum é padronizar 2
cada uma das variáveis e calcular a média entre as variáveis padronizadas, visto que após a
padronização elas têm uma média e um desvio padrão comuns. É também possível dar um
peso diferencial a cada variável padronizada em função da sua relevância teórica. Por
exemplo, poderíamos decidir que a saúde, por ser a dimensão mais importante, deveria ter
um peso duplo em relação à educação e à renda, e calcular então uma média ponderada
dessa forma.
No caso específico do Índice de Desenvolvimento Humano, a estratégia usada para
agregar várias dimensões é a de intrapolar os valores em função dos mínimos e máximos
encontrados entre todos os países:

(Valor original — Valor mínimo absoluto)


Valor Transformado da Variável para um país= ———————————————————
(Valor máximo absoluto — Valor mínimo absoluto)

Essa operação de intrapolar equivale a alterar a escala original dos indicadores, de


acordo com uma regra de conversibilidade, para convertê-los a uma nova escala. Assim, o
resultado dessa intrapolação é que todos os indicadores possuem um limite máximo de 1 e
mínimo de 0, e portanto podem ser comparados e integrados num cálculo aritmético sem
problemas.
No Brasil, o Instituto de Pesquisas Econômicas Aplicadas (IPEA) realizou uma
adaptação do IDH para que pudesse ser calculado para cada município do país (IPEA,
2003), o chamado IDH-M.

Uma taxa é um tipo particular de indicador. A taxa, definida num sentido estrito
como se usa por exemplo em demografia, equivale à proporção dos elementos que
experimentam um fenômeno ao longo de um período determinado, normalmente um ano,
sobre a totalidade dos membros expostos a esse fenômeno.
Ela pode ser expressa em unidades diferentes, tanto maiores quanto mais
infreqüente for o fenômeno. Assim, a taxa de reprovação —número de reprovados dividido

2
Padronizar é efetuar uma transformação que consiste em subtrair de cada valor a média da variável e dividi-
lo pelo desvio padrão. As novas variáveis resultantes dessa transformação possuem média 0 e desvio padrão
1.

15
pelo número total de pessoas que fizeram a prova— costuma ser expressa em percentual. Já
a taxa de natalidade é contabilizada pelo número de nascimentos por 1.000 habitantes. A
taxa de homicídio, uma ocorrência mais rara do que o nascimento, é medida em vítimas por
100.000 habitantes. E as taxas de doenças genéticas raras são calculadas em casos por
milhão de nascimentos. O objetivo dessas diferentes escalas é manter um número que seja
fácil de manipular, sem excessivos zeros ou decimais. Se mensurássemos o homicídio por
meio de uma taxa percentual, o resultado seria um valor do tipo 0, 027 para cada cem
habitantes. Cada disciplina decide, por convenção e em função destas considerações, qual
será exatamente a escala a ser usada para cada dimensão.
Uma taxa assim definida tem como valor mínimo o 0 —nenhum dos elementos
expostos acabou sofrendo o fenômeno— e como valor máximo a escala utilizada: 100 se
for um percentual, 1.000 se for casos por 1.000 habitantes, etc. Dessa forma, a taxa pode
ser entendida também como uma probabilidade de ocorrência ou, caso se trate de um
fenômeno negativo, como uma estimativa do risco de vir a sofrê-lo.
Uma taxa é basicamente uma razão entre dois valores. O numerador contém os
casos que experimentam o fenômeno e o denominador deve representar o conjunto de casos
expostos a esse fenômeno. A dificuldade mais comum para calcular uma taxa de boa
qualidade é conseguir um denominador que inclua todos os elementos expostos e nenhum a
mais.
Por exemplo, a taxa bruta de natalidade é calculada dividindo o número de
nascimentos anuais numa certa área sobre a população residente nessa área. No entanto,
muitas pessoas —entre elas homens, crianças e senhoras idosas— não estão expostas à
possibilidade de terem filhos. Por isso, uma taxa mais refinada é a taxa de natalidade
específica para mulheres de 15 a 45 anos: ela divide os nascimentos anuais sobre essa
população, que é a que pode ter filhos.
Em outros casos, a busca de um denominador mais ajustado é um pouco mais
complicada. A taxa de escolarização bruta no ensino fundamental divide o número de
matrículas neste nível de ensino pelo número de crianças na faixa etária de 7 a 14 anos. Isto
porque espera-se que uma criança comece a primeira série com 7 anos e acabe a oitava
série com 14. No entanto, há muitas crianças de mais de 14 anos que ainda estão
matriculadas no ensino fundamental, por causa da repetência ou do atraso no ingresso.

16
Essas crianças entrariam a fazer parte do numerador, mas não do denominador. Todavia, é
possível, quando o problema da repetência é intenso, que essa taxa atinja valores superiores
a 100%, que a princípio não deveriam existir. Para evitar essa situação, calcula-se uma taxa
de escolarização líquida em que o número de matrículas de alunos de 7 a 14 anos é
dividido sobre a população de 7 a 14 anos. Desse modo, todos os alunos do denominador
têm uma chance teórica de serem incluídos no numerador e o limite superior da taxa volta a
ser 100%.
Uma ressalva importante para a elaboração de taxas é que elas não devem ser
calculadas para áreas muito pequenas, com escasso número de casos, porque isto provocará
uma grande flutuação aleatória que afetará a taxa sem nenhuma correspondência com o
fenômeno real. Imaginemos que a taxa bruta de natalidade está situada em 20 por 1.000. Se
calcularmos a taxa para unidades muito pequenas, digamos um quarteirão com 250
habitantes, a expectativa é, supondo que o quarteirão seja representativo da população
geral, que haverá ao redor de 5 nascimentos ao ano. Na prática, não haverá exatamente 5
nascimentos a cada ano. Um ano poderá haver 3 e outro 7. O resultado dessas flutuações
naturais em números pequenos será um impacto drástico na taxa que passará a ser
extremamente alta ou extremamente baixa, dando a impressão de uma mudança profunda
que na verdade é simples fruto do acaso. Nessas situações, sugere-se usar unidades
territoriais maiores até atingir um número maior ou, quando isto não for possível, calcular a
taxa média anual a partir de um período de vários anos que consiga dar mais estabilidade.
Em geral, recomenda-se não calcular taxas para unidades territoriais com menos casos do
que a própria unidade em que a taxa vem expressada. Por exemplo, se a taxa de natalidade
é expressa em casos por 1.000 habitantes, é preferível não calculá-la para áreas que
contiverem menos de 1.000 habitantes.
Isto vale também para os percentuais. Não é recomendável calcular percentuais para
totais inferiores a 100. A interpretação de um percentual é a de que a cada 100 casos, x se
comportarão de uma certa forma. Se não temos nem sequer 100 casos, é difícil saber como
esses 100 se comportariam a partir de uma amostra menor. É claro que não há grandes
problemas se o número for pelo menos próximo de 100, mas calcular percentuais de totais
como 20 (e inclusive, às vezes, com vários decimais!) produz um resultado muito instável e
transmite uma informação enganosa.

17
Existem outros tipos de taxas que não podem ser interpretadas do mesmo modo. Por
exemplo, a taxa de crescimento considera o incremento de unidades experimentado ao
longo de um certo período, dividido pelo total no momento inicial. A taxa de juros é outro
exemplo. Nestes casos, a taxa não tem limite superior nem inferior (é possível uma taxa de
crescimento negativa ou superior a 100%) e não pode ser interpretada como probabilidade
nem como cálculo do risco. Todavia, esse tipo de taxa continua sendo uma razão em que
uma certa quantidade (no numerador) é comparada ou ponderada em relação a outra (no
denominador).

Uma outra forma de operacionalizar uma variável, além da taxa, é a chance (em
inglês, odds). Se a probabilidade e a taxa são a divisão dos casos que cumprem um requisito
sobre o total de casos, a chance é a razão dos casos que cumprem esse requisito sobre os
casos que não o cumprem. Por exemplo, se de 100 alunos que fizeram a prova 80 foram
aprovados e 20 foram reprovados, a taxa de aprovação seria igual a 80% (e a probabilidade
de aprovar seria igual a 0,8), enquanto que as chances de aprovar seriam de 4 a 1 (80
dividido sobre 20) ou, simplesmente, 4. Assim, uma chance de 4 significa que a
probabilidade de aprovar é quatro vezes superior à de reprovar. Esse é um conceito familiar
para os apostadores, que calculam as chances como o dinheiro que receberão em caso de
vitória dividido pelo dinheiro que pagam para apostar. Em ciências sociais, ele tem várias
aplicações. Existem diversas pesquisas em que a variável dependente é justamente a chance
de um fato acontecer (casos em que o fato acontece sobre casos em que acontece um outro
desenlace)3.
Uma noção complementar é a de razão de chance (em inglês, odds ratio), que
equivale à divisão da chance de um grupo sobre a de outro. Se, de um total de 100
mulheres, 80 mulheres forem aprovadas num teste e, entre os homens, 60 forem aprovados
de um total de 90, as chances de aprovação seriam, respectivamente, 4 (80 sobre 20) e 2 (60
sobre 30). A razão de chance de aprovação das mulheres em relação aos homens é de 2 (4
sobre 2). Isso quer dizer que as mulheres têm duas vezes mais chances de serem aprovadas

3
Um caso relativamente comum é a utilização dos chamados ―modelos logit‖ em que a variável dependente é
o logaritmo da razão entre os casos de ocorrência de um fenômeno e os casos de ausência do mesmo. Por
exemplo, a variável a ser explicada poderia ser o logaritmo da razão entre os alunos que alcançaram a oitava
série 7 anos depois da sua entrada na primeira série, e os alunos que repeteram ou abandonaram.

18
do que os homens. Daria no mesmo dizer que a razão de chance de aprovação dos homens
em relação às mulheres é de 0,5. Observe-se que uma razão de chance igual a 1 indica
igualdade entre os dois grupos, enquanto um valor superior a 1 mostra uma vantagem na
chance do primeiro grupo e um valor inferior a 1 revela uma vantagem na chance do
segundo grupo. A razão de chance é uma estatística bastante sintética porque um único
número serve para comparar o desempenho de 2 grupos. Por outro lado, a razão de chance
já não nos diz nada sobre se as chances de cada um dos grupos são altas ou baixas, apenas
como elas se comparam entre si.

19
4. Qualidade da mensuração: validade e confiabilidade.

Como já foi mencionado, a operacionalização de conceitos em variáveis não


costuma gerar uma mensuração perfeita. Diversos tipos de erros podem acontecer. As duas
propriedades principais de qualquer mensuração são validade e confiabilidade. A validade
de uma medida é o grau de certeza de que ela está realmente medindo o conceito que
pretende mensurar.
Quando a medida se afasta do conceito, isto pode ser devido a dois tipos de
problemas:
a) ela mensura, ao menos parcialmente, uma dimensão diferente da proposta. Isto
ocorre, por exemplo, quando a medida mensura simultaneamente duas dimensões,
quebrando o princípio de unidimensionalidade. Pensemos numa tentativa de medir renda
exclusivamente em função da posse de bens, isto é, do consumo. Pessoas com alta
poupança terão o seu indicador de renda subestimado, pois a medição é na verdade de
consumo e não de renda;
b) ela apresenta uma imprecisão grande, de forma que o resultado da mensuração
varia independentemente do fenômeno em si. Imaginemos uma prova de conhecimentos
baseada numa única pergunta. A pergunta pode representar bem a disciplina, mas uma nota
baseada numa única pergunta estará influenciada em boa medida pela sorte. O aluno pode
conhecer a matéria relativamente bem, mas ter dúvidas no ponto abordado pela pergunta.
Ou, ao contrário, pode saber esse ponto, mas desconhecer o resto da matéria.
Por sua vez, essas duas possibilidades correspondem a dois tipos de erros:
1. Erro aleatório. É aquele que acontece com a mesma intensidade e probabilidade
nas duas direções, para mais e para menos. Pensemos numa balança que às vezes dá um
peso superior ao real e outras vezes registra um peso inferior. Em termos matemáticos, isto
significa que a expectância matemática dos erros é igual a zero, pois os erros se cancelam, e
a expectância matemática da mensuração é o valor correto. Assim, se repetíssemos a
mensuração muitas vezes e tirássemos a média, obteríamos o valor certo, visto que os erros,
como já foi dito, se compensam uns aos outros.
Uma das fontes de erros aleatórios nas pesquisas são os erros de codificação, de
digitação, de transcrição, etc. A princípio, esses erros podem acontecer em qualquer direção

20
e deverão provocar um menor grau de precisão nas medidas sem no entanto empurrar os
resultados numa direção determinada.
2. Erro sistemático. É aquele que não acontece com a mesma intensidade e
probabilidade nas duas direções. Imaginemos uma balança que sempre pesa 1 kg. a mais do
valor certo. Se repetirmos a mensuração muitas vezes e calcularmos a média de todas essas
mensurações, continuaremos a obter 1 kg. a mais. Isto porque os erros tendem a acontecer
numa direção e, portanto, não se anulam uns aos outros. A conseqüência é que a
expectância matemática dos erros é diferente de zero e a expectância matemática das
mensurações não é o valor certo. A diferença entre o valor correto e a expectância
matemática das mensurações (a média de múltiplas mensurações) se denomina viés. A
existência do viés, diferentemente do erro aleatório, não pode ser minimizada simplesmente
através do aumento da amostra.
Um exemplo clássico de viés foi a pesquisa efetuada por uma revista chamada
Literary Digest para predizer o resultado da eleição para presidente dos EUA em 1936. A
revista enviou um questionário sobre a intenção de voto a 10 milhões de pessoas, cujos
endereços foram obtidos a partir de listagens telefônicas e de registros de automóveis. Mais
de 2 milhões de pessoas enviaram de volta o questionário preenchido, e a revista concluiu
que o candidato republicano, Landon, venceria as eleições. No entanto, o candidato
democrata, Roosevelt, conseguiu ao redor de 60% dos votos no dia da eleição. O problema
central era que proprietários de automóveis e de telefones eram um grupo de maior renda
do que a população geral naqueles anos de depressão econômica, e eles tendiam a favorecer
o candidato republicano. A grande maioria da classe baixa, que não tinha acesso a carro ou
a telefone e apresentava uma preferência pelos candidatos democratas, ficou fora da
amostra. Assim, mesmo com uma amostra de tamanho gigantesco, o viés de super-
representação da classe alta (e, portanto, de sub-representação da classe baixa) iria levar
fatalmente a conclusões erradas. Mesmo que as 10 milhões de pessoas tivessem retornado o
questionário, o erro teria continuado o mesmo, pois o viés não pode ser resolvido
aumentando o tamanho da amostra. Para efetuar uma predição acertada teria bastado uma
amostra muito menor (2 ou 3 mil pessoas, por exemplo), desde que nela estivessem
representados todos os setores sociais com um peso aproximado ao que eles tinham na
população geral.

21
Em geral, tenta-se evitar a todo custo medidas que contenham viés, enquanto que o
erro aleatório costuma ser mais tolerado, até porque pode ser minimizado aumentando o
tamanho da amostra. Entretanto, em algumas ocasiões pode ser preferível uma medida com
um viés pequeno e pouco erro aleatório do que uma medida não enviesada, mas com uma
grande quantidade de erro aleatório.
Em suma, para uma medida ser válida ela precisa apresentar um baixo nível de erro
aleatório e de erro sistemático, de forma que possamos ter certeza de que ela mede o
conceito que pretende.

A confiabilidade —às vezes também chamada fidedignidade— é o grau de


estabilidade e de consistência, ou seja, o grau de precisão de uma medida. Se medirmos o
mesmo objeto várias vezes seguidas deveremos obter o mesmo resultado. Da mesma forma,
se medidos dois objetos iguais, o resultado também deve ser igual. Enquanto a validade da
medida depende de uma ausência relativa de erro aleatório e de erro sistemático, a
confiabilidade é afetada apenas pelo erro aleatório. Uma medida confiável é uma medida
com um erro aleatório pequeno. Uma medida confiável não é automaticamente válida, pois
ela pode conter um viés. Imaginemos uma balança que sempre pesa, exatamente, dois
quilogramas a mais do valor correto. Ela é confiável, visto que múltiplas pesadas do mesmo
objeto darão o mesmo resultado, mas não é válida devido ao erro sistemático.
Nesse sentido, a confiabilidade é um pré-requisito da validade; uma condição
necessária, mas não suficiente para atingir a validade. Assim, uma medida não confiável
não pode ser válida, mas uma medida inválida pode ser confiável.
Uma definição mais técnica da confiabilidade é a proporção da variância da medida
que corresponde a uma variação genuína no fenômeno, ou seja, à proporção da variância
que resta uma vez eliminado o erro aleatório.
Um tipo de confiabilidade aplicado a perguntas de resposta aberta é a confiabilidade
interjuízes. Assim, uma amostra das respostas a uma pergunta aberta é estudada e
submetida a uma análise de conteúdo. Essa análise permite gerar um conjunto de categorias
de resposta, de acordo com o conteúdo encontrado e com o interesse teórico da pesquisa. O
passo seguinte é codificar todas as respostas abertas usando esse novo sistema de
categorias. No entanto, como as categorias foram criadas, ao menos em parte, em função

22
das respostas obtidas e não apenas em função de critérios teóricos, a definição de cada
categoria e os seus limites em relação a outras categorias nem sempre estão claros. Por isso,
é possível que diferentes codificadores, mesmo usando o mesmo sistema de códigos,
codifiquem uma mesma reposta de forma diversa. Para medir a confiabilidade interjuízes,
calcula-se a proporção de codificações convergentes entre si (número de acordos) sobre o
total de codificações realizadas (número de acordos mais o número de desacordos).
Todavia, é possível refinar o cálculo dessa confiabilidade descontando a proporção de
acordos que seriam esperáveis ao acaso (ver Cohen, 1960).

4.1. Mensurando a confiabilidade.


Existem, basicamente, três formas de medir a confiabilidade:
a) a repetição da medida para verificar se os resultados das diferentes mensurações são
convergentes;
b) a aplicação de medidas equivalentes, cujo resultado possa ser comparado entre si;
c) a análise da consistência que os diversos componentes da própria medida
apresentam entre si.

A repetição da medição duas vezes (o clássico método do teste-reteste) para ver se


os resultados coincidem consiste na aplicação prática da noção central de que, se uma
medida for confiável, a mensuração repetida de um mesmo objeto deve apresentar o mesmo
resultado. Pensemos numa escala que mede valores da dimensão individualismo-
coletivismo. Se aplicarmos duas vezes a mesma escala a um grupo de pessoas, cada uma
delas deveria atingir uma pontuação igual, ou muito similar, nas duas ocasiões. Isto quer
dizer, em termos estatísticos, que as duas mensurações devem apresentar um altíssimo nível
de correlação.
O problema com essa estratégia é que a aplicação da medida na primeira ocasião
pode ter um impacto na segunda. O caso mais óbvio é o de uma prova de conhecimento. Se
a mesma prova é aplicada uma segunda vez, os alunos que já fizeram esta prova a
realizarão com mais rapidez e é ainda possível que tenham procurado aprender como
resolver aquelas questões que deixaram em branco da vez anterior. Em suma, o resultado
tenderá a ser melhor do que na primeira vez, não porque a prova não seja confiável, mas

23
porque o respondente aprendeu com a aplicação inicial. Isto, que é evidente no caso de
testes de conhecimento ou de inteligência, pode acontecer também com medidas atitudinais
ou de outro tipo. Se uma pessoa respondeu uma série de perguntas relativas a uma escala de
racismo, é possível que reflita sobre as mesmas de forma que, numa nova aplicação, ela
tenda a mudar suas respostas, provavelmente de forma que sejam mais condizentes com o
que a pessoa acha que os outros esperam ouvir. Portanto, uma primeira mensuração pode
ter um impacto sobre uma segunda, o que se conhece como ―efeito do teste‖.
Uma forma de tentar diminuir esse efeito é afastar no tempo as duas mensurações.
Por exemplo, se a segunda aplicação do teste de inteligência acontece 9 meses depois da
primeira, talvez os sujeitos tenham esquecido dos itens e, portanto, o impacto da primeira
aplicação sobre a segunda tenha se diluído. No entanto, se a distância temporal pode ajudar
a atenuar esse efeito, ela abre por outro lado a porta para que mudanças genuínas no
fenômeno tenham acontecido no intervalo. Continuando com o exemplo, a criança terá
amadurecido e aumentado a sua inteligência nove meses depois, de forma que a divergência
dos resultados pode não ter nada a ver com problemas de confiabilidade.

Os problemas com a estratégia de repetir a mensuração levaram à segunda


possibilidade, a de aplicar duas mensurações equivalentes, para ver se as duas atingem
resultados semelhantes. Como as medidas não são iguais, evita-se em teoria a possibilidade
de que a primeira aplicação interfira na segunda. Por outro lado, dado que as medidas são
equivalentes, é exigível um resultado convergente entre elas. A principal dificuldade dessa
abordagem reside na obtenção de duas medidas realmente equivalentes, sem a qual não faz
sentido analisar a relação entre elas como uma medida de confiabilidade.
Um exemplo desse proceder é o método das duas metades. Imaginemos um teste de
conhecimento, dividido em duas metades de forma que a dificuldade e as habilidades
contempladas pelas perguntas da primeira metade sejam iguais às da segunda metade. Para
melhorar a comparabilidade, essas duas metades não serão aparentes no teste, de modo que
as perguntas da primeira e da segunda metade terão a sua ordem sorteada e aparecerão
indistintamente numa ordem aleatória. Dessa forma, quem responde o teste não saberá
quais perguntas se encaixam numa ou na outra metade e, inclusive, não saberá da existência
dessas duas metades. Apenas o pesquisador conhecerá como são formadas essas duas

24
metades e poderá comprovar a pontuação que o aluno atinge em cada uma delas. Essas duas
pontuações deveriam ser iguais ou muito parecidas para justificar a confiabilidade do teste.

A terceira abordagem possível na mensuração da confiabilidade, a análise da


consistência interna entre as partes da medida, não deixa de ser uma extensão da estratégia
anteriormente proposta de comparar duas metades do teste. Só que, neste caso, não é a
consistência entre duas metades que é estudada, mas a consistência entre todas as partes, ou
seja, entre todas as perguntas do teste. Supondo que o teste esteja mensurando uma única
dimensão, ou seja, supondo a unidimensionalidade, todos os itens deveriam apresentar um
resultado não igual, mas na mesma direção. Imaginemos que uma escala de autoestima
contém 10 perguntas. Espera-se que se uma pessoa que manifesta uma resposta que indica
alta autoestima a uma pergunta, fará o mesmo com as outras perguntas. Se nós observarmos
que para uma mesma pessoa 5 respostas indicam alta autoestima e as outras 5 refletem
baixa autoestima, deve-se concluir que as perguntas apresentam um sério problema e talvez
não estejam mensurando a mesma dimensão. Pode ser que estejam medindo duas
dimensões completamente diferentes, em cujo caso não constituirão uma medida confiável
de nenhuma delas. É claro que não se espera acordo perfeito entre todas as perguntas,
devido ao erro de mensuração e ao fato de que cada uma delas estará medindo aspectos
levemente diferentes da mesma dimensão. Mas os resultados não podem apontar em
direções opostas. Em termos operativos, a confiabilidade passa então a ser medida como a
correlação entre os diversos itens da escala. Quanto maior a correlação entre eles, maior
será a confiabilidade. Outro elemento importante é o número de itens. Quanto maior for o
número de itens, supondo uma correlação média constante entre eles, mais alta tende a ser a
confiabilidade da escala.
Entre os índices de confiabilidade calculados dessa forma, o mais usado é o alpha de
Cronbach (Cronbach, 1951), que é uma função linear da correlação entre os itens e do
número deles4. Seu valor máximo é 1, e o seu valor mínimo é 0. Um valor de 1 quer dizer
que a confiabilidade é perfeita e que, portanto, não há erro aleatório algum na mensuração,
o que é extremamente raro. Um valor de 0 pode ser interpretado como a ausência completa

4
A fórmula do alpha de Cronbach é a seguinte: α= [k / (k – 1)] [ 1 – ((Σ varitem i)/ varteste )] .
―k‖ é o número de itens. ―Σ varitem‖ é o somatório das variâncias de cada item. ―varteste‖ é a variância da
pontuação total no teste.

25
de confiabilidade, isto é, a medida está composta exclusivamente por erro aleatório.
Embora não existam critérios fixos, um valor de alpha superior a 0,85 é considerado como
mostrando uma confiabilidade boa ou muito boa. Valores entre 0,6 e 0,8 são lidos como
moderados e valores inferiores a 0,6 são interpretados como baixos.

4.2. Mensurando a validade.


Em geral, a validade é mais difícil de mensurar do que a confiabilidade, pois para
garantir a validade não basta mostrar que os valores são convergentes, é preciso comprovar
que eles mensuram o conceito que pretendiam.
Uma noção muito usada é a de validade aparente (em inglês, face validity). Trata-
se do grau em que a medida aparenta, a primeira vista e desde um ponto de vista teórico,
mensurar ou não a dimensão pretendida. Evidentemente, a validade aparente é apenas uma
primeira aproximação ao conceito e não garante, por si mesma, a validade da medida.
Serve, sobretudo, para descartar medidas que a primeira vista não têm muito a ver com o
conceito procurado.
Em algumas ocasiões, é possível contar com um critério objetivo e exato para
comparar a nossa medida, pois ele representa o conceito que desejamos medir. Então a
comparação da nossa medida com o critério é uma forma de medir a validade. Fala-se em
validade concordante quando tanto a medida quanto o critério estão disponíveis no mesmo
momento. Fala-se em validade preditiva quando o critério será obtido posteriormente à
medida. Na medida em que esta última coincidir com o critério ela reafirmará sua validade,
e vice-versa. O exemplo clássico é o de pesquisa eleitoral, cujo objetivo último é predizer
qual será o resultado da votação. Por isso, na medida que o resultado da pesquisa eleitoral
coincidir com a votação, ela será válida. Isto é particularmente verdadeiro para as pesquisas
de boca de urna. Uma pesquisa de intenção de voto realizada semanas antes da votação
poderia oferecer resultados diferentes dos da votação em função de uma mudança na
posição dos votantes nos últimos dias, mas qualquer diferença entre o resultado da eleição e
o da pesquisa de boca de urna só poderá ser atribuída a problemas de validade desta última.
Isso pode acontecer não apenas como conseqüência de erros técnicos na pesquisa, mas
também em função de fenômenos como o ―voto envergonhado‖, ou seja, a existência de

26
pessoas que votam em um candidato, mas não gostam de reconhecer publicamente o seu
voto e optam por se calar ou inclusive mentir na pesquisa de boca de urna.
Na maior parte das vezes, não contamos com um critério objetivo e indiscutível. Por
isso, a mensuração da validade é comumente abordada através da comparação entre várias
medidas possíveis, em vez de na comparação de uma medida com o critério. O uso de
várias técnicas possíveis para mensurar o mesmo fenômeno denomina-se triangulação. A
palavra possui a sua origem na geografia: para mensurar a distância entre dois pontos não é
preciso percorrer fisicamente essa distância; basta conhecer o ângulo e a distância entre
cada um deles e um terceiro ponto. Através da trigonometria, é possível conhecer o terceiro
lado do triângulo a partir dos outros dois e os ângulos correspondentes. Em metodologia, a
noção significa que é possível comprovar a validade de uma mensuração se diferentes
técnicas ou métodos aplicados ao mesmo fenômeno produzem conclusões equivalentes.
Quando os resultados não são convergentes, é preciso se perguntar se algumas das
características do método poderiam explicar as diferenças obtidas. Por exemplo, para
estudar conduta sexual têm sido usados tradicionalmente dois métodos: o questionário
postal, que é anônimo, e a entrevista pessoal. Dado que o questionário é anônimo não há
tantas inibições para responder abertamente. Por outro lado, como o questionário é enviado
pelo correio, a taxa de resposta é relativamente baixa e as pessoas que respondem tendem a
ser as mais interessadas na questão. Por sua vez, a entrevista apresenta uma taxa de resposta
alta, pois muito menos pessoas se recusam a responder, mas em compensação as respostas
estão mais filtradas por inibições decorrentes da resistência a revelar aspectos íntimos para
o entrevistador. O resultado de todos esses fatores é que a proporção de conduta sexual que
poderia ser chamada de heterodoxa é sempre maior nas pesquisas com questionário postal
do que nas pesquisas com entrevistas. Provavelmente, a proporção real estará numa posição
intermediária entre as estimativas das duas técnicas.
Quando os resultados das diversas técnicas são diferentes e não existe uma
explicação dessa diferença em função das próprias características das técnicas, é preciso
obter novas mensurações.
Nessa linha de tentar medir a validade de uma mensuração a partir da utilização de
diversas técnicas, destaca-se o trabalho pioneiro de Campbell e Fiske (1969) sobre o
conceito que eles denominaram a matriz multi-traço, multi-método. A idéia básica era

27
medir vários conceitos usando vários métodos5, de forma que cada conceito fosse medido
com cada um dos métodos. O resultado é um conjunto de mensurações que é igual ao
número de conceitos multiplicado pelo número de métodos. O seguinte passo é
correlacionar cada uma dessas mensurações com todas as outras, com o objetivo de obter
uma matriz de correlações: a matriz multi-traço multi-método. Imaginemos que queremos
mensurar para cada país um total de 3 conceitos: a) democracia; b) legitimidade do sistema
político; e c) avaliação do líder. Essas três dimensões seriam medidas com três métodos
diferentes: 1. através de questionários aplicados a uma amostra da população; 2. por meio
da análise da legislação do país; e 3. analisando as notícias de jornal. A matriz multi-traço
multi-método ficaria então conforme mostra a tabela seguinte6.
O resultado mais importante seria uma correlação alta das diferentes mensurações
do mesmo conceito usando métodos diferentes, que está representado na tabela sob a letra
―a‖. Esse resultado similar para todos os tipos de método é interpretado como mostra da
existência de validade convergente, e reforça a validade de todas as medidas. Em segundo
lugar, espera-se que a correlação entre as medidas de diferentes conceitos usando o mesmo
método (exemplificadas na tabela com a letra ―b‖) seja baixa. Por outro lado, se
mensurações de conceitos diferentes com o mesmo método apresentam resultados
similares, poderemos recear que é o método mais do que o conceito o que está
determinando a mensuração. Esta interferência indevida do método no resultado da medida
é conhecida como reatividade, uma grande inimiga da validade. Idealmente, essa
correlação entre medidas de conceitos diversos usando o mesmo método deveria ser igual à
correlação de conceitos diferentes usando métodos também diferentes (marcada na tabela
com a letra ―c‖). Isto poderia ser interpretado como que são os conceitos e não os métodos
que determinam o resultado. No entanto, é comum que o método tenha ao menos alguma
influência no resultado e, portanto, não é surpreendente que as correlações do tipo ―b‖
sejam superiores às do tipo ―c‖. As do tipo ―c‖ podem oscilar entre 0 —quando os
conceitos não têm nada a ver um com o outro— e um valor relativamente alto na medida
que os conceitos teóricos estiverem relacionados. No nosso exemplo, é esperável que os 3

5
O termo ―método‖ deve ser entendido aqui de forma genérica. Pode se referir a diferentes métodos de
pesquisa, a diferentes técnicas, ou simplesmente a diferentes características da forma de mensuração, como
diferentes codificadores, etc.
6
Trata-se de uma matriz triangular, pois os valores acima da diagonal principal são iguais aos valores em
baixo dela e, por isso, são omitidos.

28
conceitos —democracia, legitimidade e avaliação do líder— estejam vinculados e, em
conseqüência, que obtenhamos correlações tipo ―c‖ (diferente conceito e diferente método)
relativamente altas.
TABELA 2

Hipotética Matriz Multitraço-Multimétodo (com 3 conceitos e 3 métodos)

Método 1 Método 2 Método 3


M1A M1B M1C M2A M2B M2C M3A M3B M3C
M1A -
Método 1 M1B b -
M1C b b -
M2A a c c -
Método 2 M2B c a c b -
M2C c c a b b -
M3A a c c a c c -
Método 3 M3B c a c c a c b -
M3C c c a c c a b b -
Lenda: Conceitos: A, B e C. Métodos: 1, 2 e 3.
a: Correlações monotraço-heterométodo. b: Correlações heterotraço-monométodo.
c: Correlações heterotraço-heterométodo

Em suma, quanto mais próximas forem as correlações do tipo ―b‖ (igual método e
conceitos distintos) às do tipo ―c‖ (distinto método e conceitos diferentes), por um lado, e
quanto mais distantes elas forem das do tipo ―a‖ (mesmo conceito, método diferente), por
outro, maior será o que se conhece como validade discriminante. A origem do nome
―discriminante‖ radica em que é justamente a diferenciação de medidas de conceitos
diferentes que reforça a validade de cada uma delas. Por sua vez, quanto mais parecidas
forem as correlações do tipo ―b‖ às do tipo ―a‖ e mais distantes das do tipo ―c‖, menor será
a validade discriminante. Assim, uma baixa validade discriminante quer dizer que boa parte
da variância da mensuração está pautada pelos métodos em vez de pelos conceitos.
Um exemplo concreto de matriz multitraço-multimétodo é oferecido por Byrne e
Shavelson (1986), que medem três tipos de autoconceito entre os jovens, fazendo uso de
três instrumentos de mensuração diferentes.

29
TABELA 3

Matriz Multitraço-Multimétodo de Byrne e Shavelson (1986)

Método 1 Método 2 Método 3

M1A M1B M1C M2A M2B M2C M3A M3B M3C

M1A -
Método 1
M1B 0,384 -

M1C 0,441 0,002 -

M2A 0,662 0,368 0,353 -


Método 2
M2B 0,438 0,703 0,008 0,441 -

M2C 0,465 0,069 0,871 0,424 0,136 -

M3A 0,678 0,331 0,478 0,550 0,380 0,513 -


Método 3
M3B 0,458 0,541 0,057 0,381 0,658 0,096 0,584 -

M3C 0,414 0,027 0,825 0,372 0,029 0,810 0,582 0,135 -


Lenda: Conceitos: A, B e C. Métodos: 1, 2 e 3.

Como se pode observar na tabela, as correlações apresentam um grau razoavelmente


alto de validade convergente e discriminante, conforme ao modelo explicado acima.
Mesmo assim, é possível detectar alguma influência do método, particularmente do método
3, nos resultados.
Na verdade, a matriz multi-traço multi-método não é tanto um teste definitivo para
medir exatamente o grau de validade; é mais uma abordagem que ajuda a refletir sobre
problemas de mensuração e a aproximar a validade das nossas medidas do ideal.
Os conceitos contidos nesse tipo de matriz estão na base de desenvolvimentos
posteriores de grande importância, como as análises fatoriais confirmatórias e os modelos
de variáveis latentes.

30
5. Resumo.
Mensurar é atribuir valor a um objeto numa certa dimensão. Em geral, as medidas
devem respeitar a propriedade da unidimensionalidade e evitar mensurar várias coisas ao
mesmo tempo. Esse capítulo apresenta conceitos básicos relevantes para a mensuração de
fenômenos em ciências sociais, tais como a unidade de análise e os testes baseados em
normas ou em critérios.
O nível de mensuração de cada variável determina as propriedades da medida e
define quais análises estatísticas poderão ser usadas. Variáveis intervalares ou de razão são
analisadas com estatísticas paramétricas, enquanto que variáveis nominais ou ordinais são
comumente abordadas com testes não paramétricos.
A tradução de um conceito teórico numa variável mensurável se denomina
operacionalização, um processo que começa com definições teóricas e continua com a
eleição de indicadores que deverão ser resumidos num índice sintético. Por sua vez, os
indicadores são formas indiretas de mensurar conceitos que não admitem medição direta.
Taxas e razões de chance são exemplos de indicadores.
A utilização de indicadores, e a operacionalização de conceitos de um modo geral,
envolve quase sempre a geração de erros de mensuração.
As duas propriedades principais de uma medida são confiabilidade e validade. A
confiabilidade reside na ausência relativa de erro aleatório, ou seja, na precisão da medida.
A validade exige, além de um reduzido erro aleatório, que não existam erros sistemáticos
ou vieses significativos. Existem diversas formas de se mensurar essas duas propriedades.
Em suma, embora uma mensuração sem erros seja quase uma utopia, é fundamental
atentar para a qualidade das medidas usadas nas pesquisas, algo que nem sempre acontece.
Afinal, a qualidade de uma pesquisa não pode ir além da qualidade da mensuração das
variáveis que a compõem. Nenhuma sofisticação analítica pode resolver medidas de
qualidade deficiente.

31
Bibliografia

Abelson, R.P. & Tukey, J.W. (1963) ―Efficient utilization of non-numerical


information in quantitative analysis: General theory and the case of simple order‖ Annals of
Mathematical Statistics, vol. 34, pg. 1347-1369
Byrne, B.M. & Shavelson, R.J. (1986) ―On the structure of adolescent self-concept‖
Journal of Educational Psychology, vol. 78, pg. 474-481
Campbell, D.T. & Fiske, D.W. (1959) ―Convergent and discriminant validation by
multitrait-multimethod matrix‖ Psychological Bulletin, vol. 56(2), pg. 81-105
Cliff, N. (1993) ―What is and isn´t measurement‖ em Keren, G. & Lewis, C. A
Handbook for Data Analysis in the Behavioral Sciences Lawrence Erlbaum Associates.
Cohen, J.A. (1960) ―A coefficient of agreement for nominal scales‖ Educational
Psychology Measurement, vol.20(1), pg. 37-46
Cronbach, L.J. (1951) ―Coefficient Alpha and the internal structure of tests‖
Psychometri, vol. 16, pg. 297-334
IPEA (2003) Atlas de Desenvolvimento Humano no Brasil. IPEA-PNUD
Keeves, J.P. (1997) (ed.) Educational Research, Methodology, and Measurement.
Pergamon
Labovitz, S. (1967) ―Some observations on measurement and statistics‖ Social
Forces, vol. 46, pg. 151-160
Lazarsfeld P. (1965), " Des concepts aux indices empiriques ", em Boudon P.,
Lazarsfeld P. (eds.) Le vocabulaire des sciences sociales, Paris et la Haye, Mouton et MSH,
pg. 27-37
Nunnally, J. (1978) Psychometric Theory, 2a. edição. McGraw-Hill. Nova York
Pedhazur, E.J. & Schmelkin, L.P. (1991) Measurement, Design, and Data Analysis.
An integrated approach. Lawerence Erlbaum Associates. New Jersey.
Stevens, S.S. (1951) ―Mathematics, measurement and psychophysics‖ em Stevens,
S.S. (ed.) Handbook of experimental psychology. Wiley. New York. pg. 1-49
Stevens, S.S. (1959 ―Measurement, psychophysics, and utility‖ em Churchman,
C.W. & Ratoosh, P. Measurement: Definitions and theories. Wiley. New York. pg. 18-63

32