Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Muitos manuais vinculam a mensuração com a atribuição de um número, mas, na
verdade, o valor conferido não precisa ser um número. Nas pesquisas qualitativas também
há um processo de mensuração. Assim, quando se assinala que um grupo social apresenta
um consenso sobre um determinado valor cultural, há uma quantificação implícita da
extensão dessa crença —ela é compartilhada pela grande maioria—, mesmo que sem
utilização de números. Em última análise, não há uma diferenciação radical, nem
epistemológica nem metodológica, entre as técnicas quantitativas e as qualitativas, apenas
ênfases diferentes e graus diversos de precisão na mensuração.
Antes de contemplar a possibilidade de mensurar um conjunto de objetos é preciso
possuir uma definição teórica clara da dimensão que será objeto da medição. E é
necessário, também, gerar um instrumento de medida que mensure apenas a dimensão
perseguida e não outras. Numa linguagem mais técnica, diríamos que o instrumento deve
respeitar o princípio da unidimensionalidade. Muitas medidas em ciências sociais
apresentam problemas, justamente, por mensurar simultaneamente, de forma escondida,
mais de uma dimensão. Essa não é uma questão trivial, pois uma dimensão teórica pode
estar, por sua vez, composta por várias sub-dimensões, como o coeficiente de inteligência
pode ser calculado a partir de sub-coeficientes de inteligência espacial, numérica e verbal.
Nesse caso, desde que o conceito teórico inclua esses subcomponentes e a relação entre eles
respeite certos requisitos teóricos e empíricos, não haveria ruptura da unidimensionalidade.
Um conceito importante para a mensuração é o de unidade de análise, que indica o
tipo de objeto que será medido. Uma mesma linha de pesquisa, digamos a relação entre a
renda e o rendimento escolar, pode ser realizada com diversas unidades de análise. É
possível usar o país —e verificar se os países com maior renda per cápita são os que
apresentam melhores médias de desempenho nos testes internacionais—, podemos tomar a
escola como unidade de análise —e analisar se as escolas com mais meios e situadas em
áreas mais ricas da cidade obtêm melhores médias nas avaliações—, e podemos também
utilizar ainda a família ou o aluno —e comprovar se os alunos de origem social mais
favorável conseguem os melhores resultados na prova. A unidade da análise costuma ser
não apenas a unidade sobre a qual são feitas as mensurações, mas também,
conseqüentemente, aquela utilizada nas análises e nas interpretações.
2
Cumpre dizer que os testes de uma mesma hipótese com diferentes unidades de
análise não apresentam necessariamente os mesmos resultados. A utilização de uma
unidade para a interpretação dos dados diferente da unidade de análise em que os dados
foram coletados denomina-se na literatura com o nome de falácia ecológica, e pode levar a
erros sérios. Num dos exemplos históricos desse problema, pesquisas sobre conduta
eleitoral concluíram que os negros nos EUA possuíam um padrão de voto diferente dos
brancos, em função do fato de que os setores censitários em que a população negra tinha
um peso maior apresentavam uma conduta eleitoral diferenciada. No entanto, análises mais
detalhadas mostraram que esses setores possuíam características próprias que
determinavam, por um lado, um voto diferente dos seus moradores e, por outro, uma alta
proporção de população negra. Porém, isto não significava que os negros desses distritos
votassem diferente dos brancos que moravam neles. Isto aconteceu porque, embora a
unidade de análise era o setor censitário, houve uma tentativa de interpretar os resultados
em função de diferenças entre indivíduos, não entre setores.
Outro elemento importante é a unidade em que a escala será mensurada. Algumas
variáveis possuem unidades quase óbvias, como reais ou salários mínimos para renda, ou
anos de escolaridade para educação. No entanto, muitas outras variáveis não contam com
uma unidade ―natural‖ de escala e precisam trabalhar com unidades arbitrárias. Esse é o
caso do desempenho escolar e da grande maioria das variáveis psicológicas e atitudinais.
Dentro dos testes educativos e psicológicos há ainda dois tipos:
a) aqueles que são avaliados e interpretados em relação a um critério pré-definido,
como é o caso das provas para certificação. Nesses casos, a pessoa, para passar o teste, deve
demonstrar um certo nível de proficiência previamente determinado, que é completamente
independente do desempenho dos outros alunos. O teste para conseguir carteira de
motorista é um exemplo. Nesse caso, as unidades da escala são adaptadas para se ajustar
aos conteúdos mínimos exigíveis.
b) aqueles que são avaliados e interpretados em função de uma norma grupal, ou
seja em função do desempenho coletivo. Exemplos desse tipo do teste são encontrados nos
testes de inteligência, e em alguns vestibulares ou concursos públicos. Neles não existe uma
lista de conteúdos mínimos para passar o teste, o que é avaliado é a posição do indivíduo
em relação ao conjunto para, a partir daí, extrair uma nota. Assim, uma inteligência igual à
3
média da população representa um QI de 100. Uma forma de resolver a arbitrariedade
dessas escalas é, justamente, utilizar os percentis como unidade, ou seja, dar uma nota a
cada indivíduo que seja igual à percentagem de sujeitos com um resultado no teste inferior
ou igual à dele. Entretanto, há vestibulares ou concursos em que existe de fato uma lista de
conteúdos mínimos a ser exigida e que, portanto, corresponderiam ao primeiro caso (testes
avaliados segundo um critério). Todavia, em outras ocasiões os concursos são avaliados de
acordo com uma norma grupal, mas há também um ponto de corte (uma pontuação
mínima) por baixo do qual o candidato é reprovado, o que nos remete à noção de critério.
Nesses casos, poderíamos falar de uma situação intermediária entre critério e norma.
2. Níveis de Mensuração.
O tipo de análise a que uma variável pode ser submetida depende do que se conhece
como ―nível de mensuração‖, conceito popularizado pelos trabalhos de Stevens (1951;
1959). Os níveis de mensuração são quatro: nominal, ordinal, de intervalo e de razão. O
primeiro é o mais grosseiro e o último é aquele com maior número de propriedades. Os
níveis são cumulativos, de forma que cada um deles possui todas as propriedades dos níveis
anteriores.
4
não importa se os valores são numéricos —caso do CEP— ou alfanuméricos —caso da
religião—; o que determina o nível nominal é o caráter arbitrário desses valores. Em função
disso, os números servem apenas como códigos de identificação e não podem ser
submetidos a operações aritméticas.
O sistema de categorias usado deve cumprir duas condições básicas:
a) As categorias devem ser exaustivas, ou seja, precisam incluir qualquer valor da
variável que possa aparecer. Por exemplo, se os valores da variável religião
fossem ―católico‖, ―evangélico‖ e ―espírita‖, o sistema não seria exaustivo
porque uma pessoa de religião judaica não teria nenhum valor para representá-
la. É por isso que costuma se acrescentar uma categoria residual —―outra‖ ou
―outro‖— que garanta que todos os valores serão incluídos. Espera-se que a
categoria residual ―outros‖ inclua apenas um número reduzido de casos. Quando
a categoria ―outros‖ representa uma grande proporção dos casos, o sistema de
categorias não será muito útil analiticamente, mesmo que seja exaustivo. Nesse
caso, recomenda-se a análise dos casos contidos nessa categoria residual para
tentar formular, a partir dela, outras categorias mais específicas.
b) categorias mutuamente excludentes. Todo caso deve ser passível de ser incluído
em apenas uma categoria, não em várias. Imaginemos um sistema de categorias
para a variável ―ocupação‖ com os seguintes valores: trabalhador manual,
trabalhador não manual, profissional, funcionário, empresário, outra. O sistema
não é mutuamente excludente porque, por exemplo, um médico que trabalha
num hospital público é ao mesmo tempo um profissional e um funcionário.
Uma vez que dispomos de um sistema de categorias exaustivo e mutuamente
excludente, a operação cognitiva a ser realizada é um simples julgamento de identidade,
que determine se o objeto é realmente igual, na dimensão mensurada, à categoria escolhida;
ou, em outras palavras, se todos os objetos incluídos dentro da categoria podem ser
considerados equivalentes nessa dimensão.
5
comparados entre si. Um exemplo de uma variável ordinal seria a classe social, com os
valores: A, B, C, D y E. Obviamente, a classe A é superior à classe B e esta última é
superior à classe C, de forma que não poderíamos alterar a ordem das classes a vontade e
colocá-las de qualquer outra forma, digamos: A,D,B,E,C. Poderíamos, isso sim, inverter a
lista, começando pela classe mais baixa (E) e acabando pela mais alta (A), mas mantendo a
mesma ordenação no sentido inverso. Entretanto, não podemos dizer que a diferença entre
as classes A e C seja a mesma que entre as classes C e E. Isso significa que, mesmo que
concedamos um código numérico a cada classe —A=1, B=2, C=3, D=4, E=5— não
podemos, a rigor, submeter esses números a operações aritméticas como soma e subtração.
Assim, a média de ―classe‖ de todos os sujeitos seria um conceito de interpretação
problemática, justamente porque não há garantias de que os intervalos entre os valores
sejam constantes.
A ordenação fixa dos valores implica que eles cumprem a propriedade métrica da
transitividade. Assim, se a classe A é superior à B e essa, por sua vez, é maior do que C,
isto significa que, necessariamente, A é superior à C.
Esse nível contém mais informação do que o precedente, pois nos permite concluir
que um valor não é apenas diferente dos outros, mas também se é superior ou inferior.
Entretanto, não sabemos em quanto é superior ou inferior, nem sequer se um valor está
próximo ou distante de outro.
Outros exemplos de variáveis ordinais são as escalas de acordo-desacordo —
1:concordo muito; 2:concordo; 3: nem concordo nem discordo; 4:discordo; 5: discordo
muito— ou as faixas de renda: 1: até R$500; 2: mais de R$500 até R$1.000; 3: mais de
R$1.000 até R$5.000; 4: mais de R$5.000.
6
Celsius, o 0 está colocado, convencionalmente, no ponto de congelamento da água, mas
poderia ter sido diferente. De fato, na escala Farenheit o ponto de congelamento da água
está situado em 32 graus. De qualquer forma, o zero não indica ―ausência de temperatura‖.
A possibilidade de comparar as diferenças entre os valores permite que eles sejam
submetidos a operações de soma e subtração. Assim, uma variável intervalar, além da
transitividade, cumpre também a propriedade métrica da aditividade, que determina que o
valor (número) associado ao objeto A somado ao valor associado ao objeto B deve ser igual
ao valor associado à combinação de A e B. Por exemplo, a temperatura média de uma
localidade pode ser obtida através da soma da temperatura de todos os dias do ano, dividida
sobre 365. Para tanto, os graus podem somados pois cada grau representa a mesma
diferença de temperatura, independentemente do ponto da escala. A diferença entre –31 C o
e –30 C o é a mesma que a distância entre –8 C o e –7 C o. Em outras palavras, a partir do
nível intervalar as unidades de mensuração podem ser interpretadas como constantes ao
longo de toda a escala, pois um incremento na unidade de medida representa sempre o
mesmo incremento na dimensão procurada. Em termos gráficos, é como se o nosso
instrumento de medição pudesse ser comparado a uma régua, com unidades constantes
independentes do contexto.
Entretanto, a ausência de um zero não arbitrário impede que os valores sejam
submetidos a operações de multiplicação e divisão. Por isso, a razão entre dois valores não
é interpretável, nem é constante ao mudar de escala. Imaginemos, por exemplo, que em
Manaus a temperatura é de 30 Co, no Rio de Janeiro de 15 Co e em Curitiba de 0 Co.
Poderemos muito bem dizer que a diferença de temperatura entre Manaus e o Rio é de 15
Co, mas não fará muito sentido dizer que a temperatura em Manaus é o dobro. A falta de
senso dessa afirmação fica evidente se mudamos a escala para Farenheit. As temperaturas
em Farenheit seriam as seguintes: Manaus:86 Fo; Rio:59 Fo; Curitiba: 32 Fo. Como se pode
comprovar, a diferença entre Rio e Manaus e entre Rio e Curitiba continua sendo constante,
e equivale agora a 27 Fo (15 Co). Porém, o valor de Manaus, que era aparentemente o dobro
do Rio quando considerado em graus Celsius, agora parece ser bem menos do que o dobro.
Ou seja, a razão entre valores não é constante em relação a mudanças de escala, dado que o
zero pode mudar de lugar. Esse zero não é absoluto nem significa ausência de calor.
7
Muitas das escalas de medição em psicologia e em educação são construídas para
serem escalas intervalares. Pensemos numa prova de conhecimento padronizada. Se ela está
bem elaborada, a diferença entre quem tirou 8 pontos e quem tirou 6 pontos deveria ser, em
termos de conhecimento, igual à diferença entre quem obteve 6 pontos e quem atingiu 4.
No entanto, isto não significa que possamos concluir que o aluno com 8 pontos possui o
dobro de conhecimento daquele com 4 pontos. Para poder afirmar isso, teríamos que
garantir que o zero indica ausência total de conhecimento, o que não faz muito sentido.
Com efeito, a colocação do zero depende da dificuldade relativa de cada prova e muda de
uma prova para outra. O coeficiente de inteligência é outra variável que pode ser
considerada intervalar.
Nível de Razão: nesse nível, os valores podem ser ordenados, as diferenças entre
eles são comensuráveis e existe, ainda, um zero não arbitrário. Ou seja, possui todas as
propriedades do nível intervalar —incluindo a transitividade e a aditividade— e uma a
mais: a do ponto de origem não arbitrário. Mesmo quando a escala mudar, o zero
permanece no mesmo lugar. Pensemos na variável renda. Ela pode ser medida em unidades
diferentes —em real, em dólar, em euro—, o que determinará valores diferentes para uma
mesma pessoa, exceto se ela não possuir renda, em cujo caso o valor será sempre zero
independentemente da moeda. Isto porque renda zero significa ausência de renda e,
portanto, não muda de uma escala para outra. Esse ponto de origem fixo permite que os
valores possam ser submetidos a operações de multiplicação e divisão, e não apenas de
soma e subtração. Agora, a idéia de ―o dobro‖ da renda faz sentido. Todavia, se uma pessoa
possui o dobro da renda que outra, nós podemos mudar a escala —de real para euro,
digamos— e a renda continuará sendo o dobro. Em outras palavras, a razão entre dois
valores é constante e imune a mudanças de escala.
Nas ciências físicas e naturais há muitas variáveis que são de razão: distância,
tempo, peso, etc. Mas nas ciências sociais também há exemplos numerosos, como idade,
anos de escolaridade, número de filhos, etc.
Uma mesma variável pode ser medida em vários níveis de mensuração. Quando
fazemos uma prova de conhecimentos, por exemplo, podemos ter como resultado:
8
a) aprovado ou reprovado, o que seria uma variável nominal;
b) um conceito (A, B, C, D ou E), que equivaleria a uma variável ordinal;
c) uma nota (de 0 a 10) o que, mantidas certas condições, poderia ser considerado
uma variável intervalar.
Assim, uma variável não está associada, necessariamente, a um nível de mensuração
determinado. Ao contrário, pode vir mensurada em níveis diferentes. O ideal é sempre
utilizar o nível de mensuração mais alto possível. Ou seja, trabalhar com variáveis de razão
sempre que possível. Quanto maior for o nível de mensuração, maior u número de
propriedades e mais amplas e precisas as análises passíveis de serem aplicadas. No entanto,
esse nível de mensuração deve ser sustentado pelo fenômeno e pelo instrumento. Se
assumirmos um nível de mensuração superior ao que se depreende dos dados estaremos
fadados a sérios erros na análise e na interpretação. O exemplo mais grosseiro é a tentativa
de tratar como variável intervalar uma variável nominal, digamos tirando a média de uma
variável numérica mas nominal, como o CEP, para concluir que o grupo A tem CEP maior
do que o grupo B. É óbvio que isto não teria nenhum sentido. Menos absurda seria a idéia
de tratar como intervalar uma variável ordinal e calcular, por exemplo, a média das faixas
de renda (1: até R$500; 2: mais de R$500 até R$1.000; 3: mais de R$1.000 até R$5.000; 4:
mais de R$5.000). Nesse caso, dizer que a renda média do grupo A (2,4, por exemplo) é
superior à do grupo B (2,2) também não é facilmente interpretável, visto que as unidades da
renda em faixas não são equivalentes em termos de renda. De fato, se dispusermos da renda
medida em reais —variável de razão— essa diferença da média a favor do grupo A poderia
se manter, desaparecer ou inclusive se inverter, caso o grupo B tivesse mais pessoas com
renda muito alta.
Assumir um nível de mensuração inferior ao que permitem os dados equivale,
simplesmente, a desperdiçar informação. Se dispusermos da nota na prova, e quisermos ver
que características dos alunos favorecem um melhor desempenho, comparar na análise
apenas os alunos aprovados com os reprovados é jogar fora muita informação e perder
precisão. Assim, existe muita diferença entre o aluno que conseguiu 5 e aquele que tirou 10
pontos na prova, mesmo que ambos estejam aprovados.
9
A importância fundamental do nível de mensuração na hora da análise é que ele
determina o tipo de estatísticas que podem ser usadas. O poder, a precisão e a sensibilidade
dos testes que podem ser usados com variáveis de razão, por exemplo, são muito superiores
aos dos testes com variáveis nominais. Como os níveis são cumulativos, os mais
avançados podem usar as estatísticas dos níveis inferiores, mas não vice-versa.
O exemplo mais simples é o das medidas de tendência central. Cada um dos níveis
pode usar as seguintes medidas.
TABELA 1
Nível de Mensuração Medidas de Tendência Central cabíveis
Nominal Moda
No nível nominal, dado que os valores são arbitrários, apenas a moda é calculável.
Ou seja, só podemos saber qual é a categoria com maior número de casos. Quando os
valores podem ser ordenados —nível ordinal— é possível usar a mediana, que revela qual é
o valor que divide o conjunto de casos em duas metades de igual freqüência: 50% dos casos
possuem um valor inferior ou igual a ela, e o 50% restante, um valor superior.
Por fim, a partir do nível intervalar é possível submeter os valores a operações de
soma e subtração, visto que os intervalos entre eles são constantes, e isso permite calcular a
média.
De um modo genérico, os testes estatísticos de maior poder e precisão, chamados
paramétricos, estão restringidos aos níveis intervalar e de razão. A estatística paramétrica
parte de uma série de supostos relativos ao universo total dos casos de interesse. Esse
universo supõe-se que apresenta uma certa distribuição, que pode ser resumida numa série
de parâmetros. Através das estatísticas calculadas sobre uma amostra é então possível
10
estimar os valores desses parâmetros. Exemplos típicos são a Análise de Variância como
teste de significância ou o cálculo de intervalos de confiança para a média populacional a
partir da média amostral.
Quando a distribuição da população total não cumpre determinadas propriedades ou
simplesmente é desconhecida, ou quando os supostos dos testes paramétricos não são
satisfeitos, resta a possibilidade de aplicar o que se conhece como estatísticas não-
paramétricas. Nelas, os requisitos relativos à distribuição do universo são menores ou
inexistentes. Exemplos desse tipo de estatísticas são o teste de Chi-quadrado como teste de
significância para a independência de duas variáveis nominais ou o teste do sinal para ver
se há alguma associação na sucessão de casos de uma variável nominal ordenados
temporalmente.
As variáveis mensuradas no nível nominal e ordinal, também conhecidas como
variáveis categóricas, só podem se utilizar, a princípio, dessas estatísticas não paramétricas.
A falta de equivalência entre os intervalos dos valores inviabiliza o cálculo de estatísticas
simples como a média e faz com que os supostos distribucionais sejam insustentáveis,
impossibilitando desse modo a aplicação de estatísticas paramétricas.
11
procedimentos como distorcidos e os que os defendem. É claro que existe um certo grau de
distorção em assumir um nível de mensuração que não possui comprovação empírica, mas
vários estudos mostram que, na maioria dos casos, transformações das variáveis que
respeitem a ordenação original dos casos —denominadas tecnicamente transformações
monotônicas— provocam um grau de distorção muito pequeno nas estatísticas mais usadas
(Abelson & Tukey, 1963; Labovitz, 1967). Isto apoiaria a opção de tratar escalas ordinais
como intervalares. Nessa discussão, uma posição interessante é articulada por autores como
Nunnally (1978). Eles argumentam que se bem a maioria das medidas usadas em psicologia
ou educação não têm mostrado a rigor os requisitos necessários para serem consideradas
intervalares —por carecer de evidências empíricas sobre a igualdade dos intervalos
considerados—, não é menos certo que elas em geral contém mais informação do que a
simples ordenação dos casos. Assim, muitas vezes não podemos demonstrar que a diferença
entre uma nota de 9 e uma nota de 8 seja exatamente a mesma do que a diferença entre 2 e
3 pontos. Entretanto, há um alto grau de probabilidade de que a diferença entre 2 e 3 seja
menor do que a diferença entre 3 e 6. Portanto, mesmo sem comprovar equivalência
perfeita dos intervalos, esses números nos transmitem informação sobre a intensidade das
diferenças e não simplesmente sobre a ordenação dos valores. Ou seja, poderíamos
considerar que essa variável está numa situação intermediária entre uma escala ordinal e
uma escala intervalar, o que justificaria, sob determinadas condições, a tentativa de aplicar
estatísticas intervalares.
3. Operacionalização de conceitos.
Algumas variáveis podem ser medidas de forma óbvia, com ajuda de um simples
instrumento, como a altura ou o peso de uma pessoa. Outras podem ser medidas com uma
pergunta de fácil resposta, como o número de filhos. Ainda outras precisam de perguntas e
explicações mais detalhadas, como os anos de escolaridade ou a renda. Mas há outras
variáveis cuja mensuração está longe de ser trivial e não pode ser resolvida com um
aparelho ou uma pergunta; entre elas, por exemplo, a agressividade de uma pessoa, o
conhecimento de um aluno ou o grau de democracia de um país.
12
Com efeito, muitos conceitos teóricos em ciências sociais não podem ser
mensurados diretamente. Para fazê-lo, é preciso recorrer a medidas indiretas. A tradução de
um conceito teórico numa ou em várias variáveis mensuráveis é chamada de
operacionalização. Só quando o conceito estiver operacionalizado em variáveis que
possam ser medidas será possível realizar uma pesquisa sobre o mesmo.
Num artigo clássico de grande repercussão, Lazarsfeld (1965) descreve quatro fases
no processo de operacionalização:
1. Representação teórica ou definição do conceito. Imaginemos que a meta é
mensurar o conceito de democracia —entendida como um continuum entre os
extremos de ditadura e democracia plena— em cada país. Em primeiro lugar,
seria preciso explicitar o conceito de democracia.
2. Especificação ou mapeamento das dimensões que compõem o conceito. No
nosso exemplo, haveríamos de enumerar quais são os componentes principais da
democracia. Por exemplo: a) liberdades de expressão, reunião e associação; b)
escolha dos cargos executivos e legislativos por eleição; c) existência de um
estado de direito; d) independência dos poderes executivo, legislativo e judicial;
e) respeito aos direitos das minorias.
3. Escolha de indicadores para cada dimensão anteriormente mencionada. Digamos
que, para o caso da liberdade de expressão, um indicador poderia ser a
proporção dos meios escritos e audiovisuais que emitem opiniões críticas em
relação às decisões de governo.
4. Síntese dos diversos indicadores num índice final que consiga mensurar,
finalmente, o conceito.
13
Como o indicador é uma medida indireta, ele sempre conterá uma certa quantidade
de erro. Em última análise, praticamente toda mensuração está sujeita a algum grau de erro,
mas a mensuração indireta dos indicadores representa uma nova fonte de erros. O erro
introduzido pela mensuração indireta pode ser aleatório sistemático1. Como cada indicador
é apenas uma mensuração imperfeita, recomenda-se a utilização de múltiplos indicadores
para mensurar um fenômeno. A princípio, quanto maior o número de indicadores, melhor
será a medida. Isto produzirá uma diminuição do erro final de mensuração, desde que cada
um dos indicadores usados tenha características diferentes e, portanto, limitações
diferentes. Pode-se esperar que, por terem tendências diferentes, os erros de um conjunto de
indicadores se anulem, o que resultará numa mensuração de maior qualidade.
A palavra índice é usada muitas vezes de forma intercambiável com indicador. A
rigor, um índice é uma síntese de vários indicadores. Em conseqüência, o índice costuma
ser mensurado em unidades mais abstratas, normalmente arbitrárias, distantes das
mensurações originais dos indicadores. Por exemplo, o Índice de Desenvolvimento
Humano elaborado pelo Programa das Nações Unidas para o Desenvolvimento, que tem
como limite inferior o 0 e como limite superior o 1, não apresenta uma unidade conhecida.
Um valor de, digamos, 0,55 não tem interpretação para além da comparação com outros
valores conhecidos. Já a renda per cápita, um dos indicadores que o compõem, está medida
na unidade convencional de dólar por habitante e é diretamente interpretável.
O fato de aglutinar valores diferentes num valor único apresenta uma dificuldade
adicional quando os diferentes indicadores estão mensurados em unidades diferentes. O
Índice de Desenvolvimento Humano está composto por três tipos de indicadores:
- um indicador de saúde operacionalizado pela expectativa de vida ao nascer
- um indicador de educação mensurado pela taxa de analfabetismo e pela taxa de
escolarização dos alunos de primeiro grau
- um indicador de renda, operacionalizado pela renda per cápita transformada.
O primeiro indicador está medido em anos, o segundo em percentual (de analfabetos
ou de crianças na escola) e o terceiro em dólares per cápita. A integração dessas três escalas
1
Ver epígrafe sobre validade e confiabilidade.
14
numa só precisa de algum procedimento de homogeneização. O mais comum é padronizar 2
cada uma das variáveis e calcular a média entre as variáveis padronizadas, visto que após a
padronização elas têm uma média e um desvio padrão comuns. É também possível dar um
peso diferencial a cada variável padronizada em função da sua relevância teórica. Por
exemplo, poderíamos decidir que a saúde, por ser a dimensão mais importante, deveria ter
um peso duplo em relação à educação e à renda, e calcular então uma média ponderada
dessa forma.
No caso específico do Índice de Desenvolvimento Humano, a estratégia usada para
agregar várias dimensões é a de intrapolar os valores em função dos mínimos e máximos
encontrados entre todos os países:
Uma taxa é um tipo particular de indicador. A taxa, definida num sentido estrito
como se usa por exemplo em demografia, equivale à proporção dos elementos que
experimentam um fenômeno ao longo de um período determinado, normalmente um ano,
sobre a totalidade dos membros expostos a esse fenômeno.
Ela pode ser expressa em unidades diferentes, tanto maiores quanto mais
infreqüente for o fenômeno. Assim, a taxa de reprovação —número de reprovados dividido
2
Padronizar é efetuar uma transformação que consiste em subtrair de cada valor a média da variável e dividi-
lo pelo desvio padrão. As novas variáveis resultantes dessa transformação possuem média 0 e desvio padrão
1.
15
pelo número total de pessoas que fizeram a prova— costuma ser expressa em percentual. Já
a taxa de natalidade é contabilizada pelo número de nascimentos por 1.000 habitantes. A
taxa de homicídio, uma ocorrência mais rara do que o nascimento, é medida em vítimas por
100.000 habitantes. E as taxas de doenças genéticas raras são calculadas em casos por
milhão de nascimentos. O objetivo dessas diferentes escalas é manter um número que seja
fácil de manipular, sem excessivos zeros ou decimais. Se mensurássemos o homicídio por
meio de uma taxa percentual, o resultado seria um valor do tipo 0, 027 para cada cem
habitantes. Cada disciplina decide, por convenção e em função destas considerações, qual
será exatamente a escala a ser usada para cada dimensão.
Uma taxa assim definida tem como valor mínimo o 0 —nenhum dos elementos
expostos acabou sofrendo o fenômeno— e como valor máximo a escala utilizada: 100 se
for um percentual, 1.000 se for casos por 1.000 habitantes, etc. Dessa forma, a taxa pode
ser entendida também como uma probabilidade de ocorrência ou, caso se trate de um
fenômeno negativo, como uma estimativa do risco de vir a sofrê-lo.
Uma taxa é basicamente uma razão entre dois valores. O numerador contém os
casos que experimentam o fenômeno e o denominador deve representar o conjunto de casos
expostos a esse fenômeno. A dificuldade mais comum para calcular uma taxa de boa
qualidade é conseguir um denominador que inclua todos os elementos expostos e nenhum a
mais.
Por exemplo, a taxa bruta de natalidade é calculada dividindo o número de
nascimentos anuais numa certa área sobre a população residente nessa área. No entanto,
muitas pessoas —entre elas homens, crianças e senhoras idosas— não estão expostas à
possibilidade de terem filhos. Por isso, uma taxa mais refinada é a taxa de natalidade
específica para mulheres de 15 a 45 anos: ela divide os nascimentos anuais sobre essa
população, que é a que pode ter filhos.
Em outros casos, a busca de um denominador mais ajustado é um pouco mais
complicada. A taxa de escolarização bruta no ensino fundamental divide o número de
matrículas neste nível de ensino pelo número de crianças na faixa etária de 7 a 14 anos. Isto
porque espera-se que uma criança comece a primeira série com 7 anos e acabe a oitava
série com 14. No entanto, há muitas crianças de mais de 14 anos que ainda estão
matriculadas no ensino fundamental, por causa da repetência ou do atraso no ingresso.
16
Essas crianças entrariam a fazer parte do numerador, mas não do denominador. Todavia, é
possível, quando o problema da repetência é intenso, que essa taxa atinja valores superiores
a 100%, que a princípio não deveriam existir. Para evitar essa situação, calcula-se uma taxa
de escolarização líquida em que o número de matrículas de alunos de 7 a 14 anos é
dividido sobre a população de 7 a 14 anos. Desse modo, todos os alunos do denominador
têm uma chance teórica de serem incluídos no numerador e o limite superior da taxa volta a
ser 100%.
Uma ressalva importante para a elaboração de taxas é que elas não devem ser
calculadas para áreas muito pequenas, com escasso número de casos, porque isto provocará
uma grande flutuação aleatória que afetará a taxa sem nenhuma correspondência com o
fenômeno real. Imaginemos que a taxa bruta de natalidade está situada em 20 por 1.000. Se
calcularmos a taxa para unidades muito pequenas, digamos um quarteirão com 250
habitantes, a expectativa é, supondo que o quarteirão seja representativo da população
geral, que haverá ao redor de 5 nascimentos ao ano. Na prática, não haverá exatamente 5
nascimentos a cada ano. Um ano poderá haver 3 e outro 7. O resultado dessas flutuações
naturais em números pequenos será um impacto drástico na taxa que passará a ser
extremamente alta ou extremamente baixa, dando a impressão de uma mudança profunda
que na verdade é simples fruto do acaso. Nessas situações, sugere-se usar unidades
territoriais maiores até atingir um número maior ou, quando isto não for possível, calcular a
taxa média anual a partir de um período de vários anos que consiga dar mais estabilidade.
Em geral, recomenda-se não calcular taxas para unidades territoriais com menos casos do
que a própria unidade em que a taxa vem expressada. Por exemplo, se a taxa de natalidade
é expressa em casos por 1.000 habitantes, é preferível não calculá-la para áreas que
contiverem menos de 1.000 habitantes.
Isto vale também para os percentuais. Não é recomendável calcular percentuais para
totais inferiores a 100. A interpretação de um percentual é a de que a cada 100 casos, x se
comportarão de uma certa forma. Se não temos nem sequer 100 casos, é difícil saber como
esses 100 se comportariam a partir de uma amostra menor. É claro que não há grandes
problemas se o número for pelo menos próximo de 100, mas calcular percentuais de totais
como 20 (e inclusive, às vezes, com vários decimais!) produz um resultado muito instável e
transmite uma informação enganosa.
17
Existem outros tipos de taxas que não podem ser interpretadas do mesmo modo. Por
exemplo, a taxa de crescimento considera o incremento de unidades experimentado ao
longo de um certo período, dividido pelo total no momento inicial. A taxa de juros é outro
exemplo. Nestes casos, a taxa não tem limite superior nem inferior (é possível uma taxa de
crescimento negativa ou superior a 100%) e não pode ser interpretada como probabilidade
nem como cálculo do risco. Todavia, esse tipo de taxa continua sendo uma razão em que
uma certa quantidade (no numerador) é comparada ou ponderada em relação a outra (no
denominador).
Uma outra forma de operacionalizar uma variável, além da taxa, é a chance (em
inglês, odds). Se a probabilidade e a taxa são a divisão dos casos que cumprem um requisito
sobre o total de casos, a chance é a razão dos casos que cumprem esse requisito sobre os
casos que não o cumprem. Por exemplo, se de 100 alunos que fizeram a prova 80 foram
aprovados e 20 foram reprovados, a taxa de aprovação seria igual a 80% (e a probabilidade
de aprovar seria igual a 0,8), enquanto que as chances de aprovar seriam de 4 a 1 (80
dividido sobre 20) ou, simplesmente, 4. Assim, uma chance de 4 significa que a
probabilidade de aprovar é quatro vezes superior à de reprovar. Esse é um conceito familiar
para os apostadores, que calculam as chances como o dinheiro que receberão em caso de
vitória dividido pelo dinheiro que pagam para apostar. Em ciências sociais, ele tem várias
aplicações. Existem diversas pesquisas em que a variável dependente é justamente a chance
de um fato acontecer (casos em que o fato acontece sobre casos em que acontece um outro
desenlace)3.
Uma noção complementar é a de razão de chance (em inglês, odds ratio), que
equivale à divisão da chance de um grupo sobre a de outro. Se, de um total de 100
mulheres, 80 mulheres forem aprovadas num teste e, entre os homens, 60 forem aprovados
de um total de 90, as chances de aprovação seriam, respectivamente, 4 (80 sobre 20) e 2 (60
sobre 30). A razão de chance de aprovação das mulheres em relação aos homens é de 2 (4
sobre 2). Isso quer dizer que as mulheres têm duas vezes mais chances de serem aprovadas
3
Um caso relativamente comum é a utilização dos chamados ―modelos logit‖ em que a variável dependente é
o logaritmo da razão entre os casos de ocorrência de um fenômeno e os casos de ausência do mesmo. Por
exemplo, a variável a ser explicada poderia ser o logaritmo da razão entre os alunos que alcançaram a oitava
série 7 anos depois da sua entrada na primeira série, e os alunos que repeteram ou abandonaram.
18
do que os homens. Daria no mesmo dizer que a razão de chance de aprovação dos homens
em relação às mulheres é de 0,5. Observe-se que uma razão de chance igual a 1 indica
igualdade entre os dois grupos, enquanto um valor superior a 1 mostra uma vantagem na
chance do primeiro grupo e um valor inferior a 1 revela uma vantagem na chance do
segundo grupo. A razão de chance é uma estatística bastante sintética porque um único
número serve para comparar o desempenho de 2 grupos. Por outro lado, a razão de chance
já não nos diz nada sobre se as chances de cada um dos grupos são altas ou baixas, apenas
como elas se comparam entre si.
19
4. Qualidade da mensuração: validade e confiabilidade.
20
e deverão provocar um menor grau de precisão nas medidas sem no entanto empurrar os
resultados numa direção determinada.
2. Erro sistemático. É aquele que não acontece com a mesma intensidade e
probabilidade nas duas direções. Imaginemos uma balança que sempre pesa 1 kg. a mais do
valor certo. Se repetirmos a mensuração muitas vezes e calcularmos a média de todas essas
mensurações, continuaremos a obter 1 kg. a mais. Isto porque os erros tendem a acontecer
numa direção e, portanto, não se anulam uns aos outros. A conseqüência é que a
expectância matemática dos erros é diferente de zero e a expectância matemática das
mensurações não é o valor certo. A diferença entre o valor correto e a expectância
matemática das mensurações (a média de múltiplas mensurações) se denomina viés. A
existência do viés, diferentemente do erro aleatório, não pode ser minimizada simplesmente
através do aumento da amostra.
Um exemplo clássico de viés foi a pesquisa efetuada por uma revista chamada
Literary Digest para predizer o resultado da eleição para presidente dos EUA em 1936. A
revista enviou um questionário sobre a intenção de voto a 10 milhões de pessoas, cujos
endereços foram obtidos a partir de listagens telefônicas e de registros de automóveis. Mais
de 2 milhões de pessoas enviaram de volta o questionário preenchido, e a revista concluiu
que o candidato republicano, Landon, venceria as eleições. No entanto, o candidato
democrata, Roosevelt, conseguiu ao redor de 60% dos votos no dia da eleição. O problema
central era que proprietários de automóveis e de telefones eram um grupo de maior renda
do que a população geral naqueles anos de depressão econômica, e eles tendiam a favorecer
o candidato republicano. A grande maioria da classe baixa, que não tinha acesso a carro ou
a telefone e apresentava uma preferência pelos candidatos democratas, ficou fora da
amostra. Assim, mesmo com uma amostra de tamanho gigantesco, o viés de super-
representação da classe alta (e, portanto, de sub-representação da classe baixa) iria levar
fatalmente a conclusões erradas. Mesmo que as 10 milhões de pessoas tivessem retornado o
questionário, o erro teria continuado o mesmo, pois o viés não pode ser resolvido
aumentando o tamanho da amostra. Para efetuar uma predição acertada teria bastado uma
amostra muito menor (2 ou 3 mil pessoas, por exemplo), desde que nela estivessem
representados todos os setores sociais com um peso aproximado ao que eles tinham na
população geral.
21
Em geral, tenta-se evitar a todo custo medidas que contenham viés, enquanto que o
erro aleatório costuma ser mais tolerado, até porque pode ser minimizado aumentando o
tamanho da amostra. Entretanto, em algumas ocasiões pode ser preferível uma medida com
um viés pequeno e pouco erro aleatório do que uma medida não enviesada, mas com uma
grande quantidade de erro aleatório.
Em suma, para uma medida ser válida ela precisa apresentar um baixo nível de erro
aleatório e de erro sistemático, de forma que possamos ter certeza de que ela mede o
conceito que pretende.
22
das respostas obtidas e não apenas em função de critérios teóricos, a definição de cada
categoria e os seus limites em relação a outras categorias nem sempre estão claros. Por isso,
é possível que diferentes codificadores, mesmo usando o mesmo sistema de códigos,
codifiquem uma mesma reposta de forma diversa. Para medir a confiabilidade interjuízes,
calcula-se a proporção de codificações convergentes entre si (número de acordos) sobre o
total de codificações realizadas (número de acordos mais o número de desacordos).
Todavia, é possível refinar o cálculo dessa confiabilidade descontando a proporção de
acordos que seriam esperáveis ao acaso (ver Cohen, 1960).
23
porque o respondente aprendeu com a aplicação inicial. Isto, que é evidente no caso de
testes de conhecimento ou de inteligência, pode acontecer também com medidas atitudinais
ou de outro tipo. Se uma pessoa respondeu uma série de perguntas relativas a uma escala de
racismo, é possível que reflita sobre as mesmas de forma que, numa nova aplicação, ela
tenda a mudar suas respostas, provavelmente de forma que sejam mais condizentes com o
que a pessoa acha que os outros esperam ouvir. Portanto, uma primeira mensuração pode
ter um impacto sobre uma segunda, o que se conhece como ―efeito do teste‖.
Uma forma de tentar diminuir esse efeito é afastar no tempo as duas mensurações.
Por exemplo, se a segunda aplicação do teste de inteligência acontece 9 meses depois da
primeira, talvez os sujeitos tenham esquecido dos itens e, portanto, o impacto da primeira
aplicação sobre a segunda tenha se diluído. No entanto, se a distância temporal pode ajudar
a atenuar esse efeito, ela abre por outro lado a porta para que mudanças genuínas no
fenômeno tenham acontecido no intervalo. Continuando com o exemplo, a criança terá
amadurecido e aumentado a sua inteligência nove meses depois, de forma que a divergência
dos resultados pode não ter nada a ver com problemas de confiabilidade.
24
metades e poderá comprovar a pontuação que o aluno atinge em cada uma delas. Essas duas
pontuações deveriam ser iguais ou muito parecidas para justificar a confiabilidade do teste.
4
A fórmula do alpha de Cronbach é a seguinte: α= [k / (k – 1)] [ 1 – ((Σ varitem i)/ varteste )] .
―k‖ é o número de itens. ―Σ varitem‖ é o somatório das variâncias de cada item. ―varteste‖ é a variância da
pontuação total no teste.
25
de confiabilidade, isto é, a medida está composta exclusivamente por erro aleatório.
Embora não existam critérios fixos, um valor de alpha superior a 0,85 é considerado como
mostrando uma confiabilidade boa ou muito boa. Valores entre 0,6 e 0,8 são lidos como
moderados e valores inferiores a 0,6 são interpretados como baixos.
26
pessoas que votam em um candidato, mas não gostam de reconhecer publicamente o seu
voto e optam por se calar ou inclusive mentir na pesquisa de boca de urna.
Na maior parte das vezes, não contamos com um critério objetivo e indiscutível. Por
isso, a mensuração da validade é comumente abordada através da comparação entre várias
medidas possíveis, em vez de na comparação de uma medida com o critério. O uso de
várias técnicas possíveis para mensurar o mesmo fenômeno denomina-se triangulação. A
palavra possui a sua origem na geografia: para mensurar a distância entre dois pontos não é
preciso percorrer fisicamente essa distância; basta conhecer o ângulo e a distância entre
cada um deles e um terceiro ponto. Através da trigonometria, é possível conhecer o terceiro
lado do triângulo a partir dos outros dois e os ângulos correspondentes. Em metodologia, a
noção significa que é possível comprovar a validade de uma mensuração se diferentes
técnicas ou métodos aplicados ao mesmo fenômeno produzem conclusões equivalentes.
Quando os resultados não são convergentes, é preciso se perguntar se algumas das
características do método poderiam explicar as diferenças obtidas. Por exemplo, para
estudar conduta sexual têm sido usados tradicionalmente dois métodos: o questionário
postal, que é anônimo, e a entrevista pessoal. Dado que o questionário é anônimo não há
tantas inibições para responder abertamente. Por outro lado, como o questionário é enviado
pelo correio, a taxa de resposta é relativamente baixa e as pessoas que respondem tendem a
ser as mais interessadas na questão. Por sua vez, a entrevista apresenta uma taxa de resposta
alta, pois muito menos pessoas se recusam a responder, mas em compensação as respostas
estão mais filtradas por inibições decorrentes da resistência a revelar aspectos íntimos para
o entrevistador. O resultado de todos esses fatores é que a proporção de conduta sexual que
poderia ser chamada de heterodoxa é sempre maior nas pesquisas com questionário postal
do que nas pesquisas com entrevistas. Provavelmente, a proporção real estará numa posição
intermediária entre as estimativas das duas técnicas.
Quando os resultados das diversas técnicas são diferentes e não existe uma
explicação dessa diferença em função das próprias características das técnicas, é preciso
obter novas mensurações.
Nessa linha de tentar medir a validade de uma mensuração a partir da utilização de
diversas técnicas, destaca-se o trabalho pioneiro de Campbell e Fiske (1969) sobre o
conceito que eles denominaram a matriz multi-traço, multi-método. A idéia básica era
27
medir vários conceitos usando vários métodos5, de forma que cada conceito fosse medido
com cada um dos métodos. O resultado é um conjunto de mensurações que é igual ao
número de conceitos multiplicado pelo número de métodos. O seguinte passo é
correlacionar cada uma dessas mensurações com todas as outras, com o objetivo de obter
uma matriz de correlações: a matriz multi-traço multi-método. Imaginemos que queremos
mensurar para cada país um total de 3 conceitos: a) democracia; b) legitimidade do sistema
político; e c) avaliação do líder. Essas três dimensões seriam medidas com três métodos
diferentes: 1. através de questionários aplicados a uma amostra da população; 2. por meio
da análise da legislação do país; e 3. analisando as notícias de jornal. A matriz multi-traço
multi-método ficaria então conforme mostra a tabela seguinte6.
O resultado mais importante seria uma correlação alta das diferentes mensurações
do mesmo conceito usando métodos diferentes, que está representado na tabela sob a letra
―a‖. Esse resultado similar para todos os tipos de método é interpretado como mostra da
existência de validade convergente, e reforça a validade de todas as medidas. Em segundo
lugar, espera-se que a correlação entre as medidas de diferentes conceitos usando o mesmo
método (exemplificadas na tabela com a letra ―b‖) seja baixa. Por outro lado, se
mensurações de conceitos diferentes com o mesmo método apresentam resultados
similares, poderemos recear que é o método mais do que o conceito o que está
determinando a mensuração. Esta interferência indevida do método no resultado da medida
é conhecida como reatividade, uma grande inimiga da validade. Idealmente, essa
correlação entre medidas de conceitos diversos usando o mesmo método deveria ser igual à
correlação de conceitos diferentes usando métodos também diferentes (marcada na tabela
com a letra ―c‖). Isto poderia ser interpretado como que são os conceitos e não os métodos
que determinam o resultado. No entanto, é comum que o método tenha ao menos alguma
influência no resultado e, portanto, não é surpreendente que as correlações do tipo ―b‖
sejam superiores às do tipo ―c‖. As do tipo ―c‖ podem oscilar entre 0 —quando os
conceitos não têm nada a ver um com o outro— e um valor relativamente alto na medida
que os conceitos teóricos estiverem relacionados. No nosso exemplo, é esperável que os 3
5
O termo ―método‖ deve ser entendido aqui de forma genérica. Pode se referir a diferentes métodos de
pesquisa, a diferentes técnicas, ou simplesmente a diferentes características da forma de mensuração, como
diferentes codificadores, etc.
6
Trata-se de uma matriz triangular, pois os valores acima da diagonal principal são iguais aos valores em
baixo dela e, por isso, são omitidos.
28
conceitos —democracia, legitimidade e avaliação do líder— estejam vinculados e, em
conseqüência, que obtenhamos correlações tipo ―c‖ (diferente conceito e diferente método)
relativamente altas.
TABELA 2
Em suma, quanto mais próximas forem as correlações do tipo ―b‖ (igual método e
conceitos distintos) às do tipo ―c‖ (distinto método e conceitos diferentes), por um lado, e
quanto mais distantes elas forem das do tipo ―a‖ (mesmo conceito, método diferente), por
outro, maior será o que se conhece como validade discriminante. A origem do nome
―discriminante‖ radica em que é justamente a diferenciação de medidas de conceitos
diferentes que reforça a validade de cada uma delas. Por sua vez, quanto mais parecidas
forem as correlações do tipo ―b‖ às do tipo ―a‖ e mais distantes das do tipo ―c‖, menor será
a validade discriminante. Assim, uma baixa validade discriminante quer dizer que boa parte
da variância da mensuração está pautada pelos métodos em vez de pelos conceitos.
Um exemplo concreto de matriz multitraço-multimétodo é oferecido por Byrne e
Shavelson (1986), que medem três tipos de autoconceito entre os jovens, fazendo uso de
três instrumentos de mensuração diferentes.
29
TABELA 3
M1A -
Método 1
M1B 0,384 -
30
5. Resumo.
Mensurar é atribuir valor a um objeto numa certa dimensão. Em geral, as medidas
devem respeitar a propriedade da unidimensionalidade e evitar mensurar várias coisas ao
mesmo tempo. Esse capítulo apresenta conceitos básicos relevantes para a mensuração de
fenômenos em ciências sociais, tais como a unidade de análise e os testes baseados em
normas ou em critérios.
O nível de mensuração de cada variável determina as propriedades da medida e
define quais análises estatísticas poderão ser usadas. Variáveis intervalares ou de razão são
analisadas com estatísticas paramétricas, enquanto que variáveis nominais ou ordinais são
comumente abordadas com testes não paramétricos.
A tradução de um conceito teórico numa variável mensurável se denomina
operacionalização, um processo que começa com definições teóricas e continua com a
eleição de indicadores que deverão ser resumidos num índice sintético. Por sua vez, os
indicadores são formas indiretas de mensurar conceitos que não admitem medição direta.
Taxas e razões de chance são exemplos de indicadores.
A utilização de indicadores, e a operacionalização de conceitos de um modo geral,
envolve quase sempre a geração de erros de mensuração.
As duas propriedades principais de uma medida são confiabilidade e validade. A
confiabilidade reside na ausência relativa de erro aleatório, ou seja, na precisão da medida.
A validade exige, além de um reduzido erro aleatório, que não existam erros sistemáticos
ou vieses significativos. Existem diversas formas de se mensurar essas duas propriedades.
Em suma, embora uma mensuração sem erros seja quase uma utopia, é fundamental
atentar para a qualidade das medidas usadas nas pesquisas, algo que nem sempre acontece.
Afinal, a qualidade de uma pesquisa não pode ir além da qualidade da mensuração das
variáveis que a compõem. Nenhuma sofisticação analítica pode resolver medidas de
qualidade deficiente.
31
Bibliografia
32