Você está na página 1de 12

REA TEMTICA

Ensino e Pesquisa
em Administrao
e Contabilidade

Sobre Confiabilidade e Validade


Gilberto de Andrade Martins

Professor Titular do Departamento de Contabilidade da FEA/USP.


Coordenador do Curso de Bacharelado em Cincias Contbeis da FEA/USP. [martins@usp.br]

Recebido em 10/Agosto/2005
Aprovado em 20/Fevereiro/2006

RESUMO
Para medir, avaliar ou quantificar informaes financeiras, patrimoniais, de auditorias, arbitragens e controladoria, peculiares ao setor privado ou pblico, o profissional ou pesquisador precisar atentar para os critrios
de significncia e preciso dos instrumentos de medidas
que ir utilizar: validade, ou validez e confiabilidade ou
fidedignidade. O critrio da validade diz respeito capacidade do instrumento em medir de fato o que se prope
medir, enquanto a confiabilidade est relacionada com a
constncia dos resultados obtidos quando o mesmo indivduo, ou objeto avaliado, medido ou quantificado mais
do que uma vez. Sem a devida ateno a essas caractersticas, as medidas coletadas, ou as aferies patrimoniais
no sero merecedoras de crdito e de significncia. Este
artigo tem o objetivo de apresentar, explicar, exemplificar
e discutir critrios para indicao do grau de confiabilidade:
tcnica do teste-reteste; tcnica de formas equivalentes;
metades partidas (split-half); confiabilidade a partir de avaliadores; coeficiente alfa de Cronbach, bem como tcnicas para evidenciao da validade: validade aparente; de
contedo; de critrio; de constructo e validade total. So
mostradas ilustraes dos critrios de avaliao e evidenciao da confiabilidade e validade nas Cincias Contbeis.
PALAVRAS CHAVE
Confiabilidade; Validade; Medidas; Cincias Contbeis;
Avaliao.
ABSTRACT
In order to assess, evaluate or quantify financial, equity,
auditing and controllership oriented data related both to
private and public sectors, the practioner or the researcher
has to pay close attention to the significance and accurateness
criteria of the research tools he is about to employ: validity
and reliability. The validity criterion refers to the instrument
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

capacity of assessing what it intends to assess; reliability


deals with the constancy of results when the same individual
or object is assessed, evaluated or quantified more than
once. This article is aimed at explaining and discussing
examples of proper criteria to indicate the reliability level:
test-retest, equivalent form techniques, split-half, reliability
based on evaluators, Cronbachs alpha coefficient, as well
as techniques towards validity evaluation: apparent validity,
content validity, criterion validity, construct and total
validity. Different illustrations of the criteria for assessing
validity and reliability in the Accounting field are shown.
KEY WORDS
Reliability; Validity; Measures; Accounting; Assessment.

1. INTRODUO
O primeiro passo para elaborao de um instrumento de medidas definir o que deve ser medido e
como deve ser medido. Respostas a tais perguntas
podem ser obtidas pela realizao de pesquisa
exploratria com objetivo de verificar os tipos de
dados que realmente se referem questo, ou constituem indicadores adequados da medida, bem como
a melhor forma de obt-los. A construo de qualquer instrumento de medidas seja um questionrio, um teste, ou outra tcnica de aferio exige a
observncia de cuidados sem os quais no se poder
ter segurana quanto aos seus resultados. O sucesso
de um instrumento de medidas obtido quando se
conseguem resultados merecedores de crditos para
a soluo de um problema de pesquisa ou relatrio
de trabalho profissional.
Neste artigo pretende-se apresentar, explicar,
exemplificar e discutir critrios de exigncias de

GILBERTO DE ANDRADE MARTINS

medidas provenientes de instrumentos de coleta de


dados, e tcnicas de aferio, para que se possa aceitlos como geradores de boas medidas. Ainda que divergindo em alguns pontos, os autores so unnimes,
em apontar dois critrios fundamentais de um bom
instrumento de medidas: confiabilidade ou fidedignidade, e validade, ou validez. Registre-se tambm a
pluralidade de nomes dados aos critrios de significao de medidas, da um alerta ao leitor quando da
anlise e entendimento dessa matria. Por exemplo,
h autores que substituem a palavra confiabilidade
por preciso, outros denominam consistente ao instrumento de medidas que neste texto denominamos
confivel.(GRESSLER, 1989)
Toda medida deve reunir dois requisitos essenciais: confiabilidade e validade. Medidas confiveis
so replicveis e consistentes, isto , geram os mesmos resultados. Medidas vlidas so representaes
precisas da caracterstica que se pretende medir.
Confiabilidade e validade so requisitos que se aplicam
tanto s medidas derivadas de um teste, instrumento
de coleta de dados, tcnicas de aferio, quanto ao delineamento da investigao a pesquisa propriamente
dita. Neste artigo discute-se a validade e confiabilidade
de medidas.
comum apresentar-se a validade de um instrumento como o seu primeiro requisito, mas, considerando-se que para ser vlida uma medida deve tambm ser confivel, no sendo verdadeira a recproca,
parece argumento razovel analisar-se a confiabilidade
antes da validade. Em outras palavras, nem todo instrumento de medidas que apresenta confiabilidade
tem validade, mas todo aquele que tem validade tambm apresenta confiabilidade. (SAMPIERI, 1996).
Para ilustrar tal entendimento podemos analisar, por
exemplo, o depoimento de uma testemunha: ela pode
manter constante o seu depoimento, sem apresentar
desvio do relato sobre o que ocorreu, isto , ser confivel, mas isso no garante que o depoimento tenha
validade, isto , expresse o que de fato ocorreu. Por
outro lado, se durante os depoimentos a testemunha no mantm constncia na sua histria, ou seja,
no consegue apresentar confiabilidade nas suas
explicaes, poderemos concluir que o depoimento
no confivel, nem to pouco apresenta validade.
2. CONFIABILIDADE

A confiabilidade de um instrumento para coleta


de dados, teste, tcnica de aferio sua coerncia,
determinada atravs da constncia dos resultados.

Em outras palavras, a confiabilidade de uma medida


a confiana que a mesma inspira. Os instrumentos
para medir fenmenos do mundo fsico, em geral,
oferecem um grau de confiana bastante elevado,
devido relativa estabilidade dos fenmenos observados. A comparao dos resultados de uma srie de
medidas de um elemento fsico, em idnticas condies, fornece um elevado coeficiente de segurana,
ou baixa margem de erro do aparelho de medio.
Nem sempre o mesmo acontece em relao s medidas de variveis do universo social onde a instabilidade dos fenmenos e fatos observados dificultam a
prpria construo de instrumentos de aferio, pois
as contnuas modificaes do ambiente tornam bem
mais difceis a determinao da constncia das medidas, isto , geralmente dificultam a obteno de um
elevado grau de confiabilidade. Ainda assim, a confiabilidade de um instrumento de medio de fenmenos sociais obtida do mesmo modo: comparao
dos resultados em situaes semelhantes e sucessivas.
Conforme explica Cozby (2003), confiabilidade de
um instrumento de medio se refere ao grau em que
sua repetida aplicao, ao mesmo sujeito ou objeto,
produz resultados iguais. Por exemplo, ao se medir
de forma constante a temperatura de uma sala climatizada, o termmetro que apresentar resultados
diferentes em cada medio deve ser considerado
no confivel, pois, sabemos que nessas condies,
no h motivo para mudanas de temperatura. Se
ocorrerem resultados alterados o instrumento de
medidas no ter a caracterstica de fidedignidade e
seus resultados no sero confiveis.
De maneira ampla, uma medida fidedigna consistente e precisa porque fornece uma medida estvel da varivel. Em outras palavras, confiabilidade
refere-se consistncia ou estabilidade de uma
medida. Para facilitar a compreenso do conceito
de confiabilidade de uma medida pode-se fazer analogia com o que se entende por um indivduo confivel. Se voc diz que algum confivel, provavelmente voc quer dizer que a pessoa fidedigna, consistente se ela diz uma coisa hoje, dir a mesma
coisa amanh. Se narrar a ocorrncia de um acontecimento, manter um relato consistente, no expressar verses do ocorrido. Um instrumento confivel
tambm manter a mesma histria em momentos
distintos. Um exemplo corriqueiro pode nos ajudar
a compreender ainda mais este conceito diz-se que
se tem um relgio confivel quando o instrumento
nos fornece o tempo preciso, raramente adiantado
ou atrasado. Segundo Selltiz (1987) uma medida confivel produzir os mesmos resultados em sucessivas
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

SOBRE CONFIABILIDADE E VALIDADE

aplicaes sobre um mesmo sujeito ou objeto. Uma


medida confivel no flutua entre uma leitura e
outra do mesmo objeto ou sujeito. Se uma medida
flutua entre uma e outra medio do mesmo objeto
ou sujeito porque h erro na mensurao. Entretanto, parte da flutuao deve ser entendida como
resultante de diferenas reais entre medidas e parte
representa erros de mensurao. O problema bsico na avaliao dos resultados de qualquer mensurao o de definir o que deve ser considerado como
diferenas reais na caracterstica medida, e o que
deve ser considerado como variaes devidas a erros
de mensurao.
O desvio padro (medida de disperso em torno
da mdia) pode ser um indicador do grau de confiabilidade de um instrumento de medidas. Assim
que: quanto menor o valor do desvio padro maior
ser o grau de confiabilidade do instrumento de medidas. Alm dessa maneira a confiabilidade de um instrumento de medidas pode ser determinada mediante
diversas tcnicas e procedimentos, sendo os mais conhecidos os seguintes:

Na primeira aplicao o respondente marcou a


alternativa (3). Porm, as alternativas despertaram
o respondente quanto s possibilidades de sobremesa. Depois de um longo tempo foi aplicado o reteste
e ao deparar com a mesma questo a pessoa escolheu a alternativa (1). O pesquisador ao comparar
as respostas pode ser induzido a afirmar que o instrumento de medidas no tem estabilidade, mas na
verdade, trata-se de uma mudana real da pessoa. Esse
efeito chamado de sub avaliao da estabilidade.
O intervalo curto entre a aplicao de um teste e
reteste tambm provoca um efeito conhecido como
superavaliao da estabilidade. Esse efeito pode ser
provocado pela lembrana das respostas que o indivduo deu no primeiro teste e depois, simplesmente
repete as respostas recordadas no reteste, ou seja,
no so respostas espontneas ou inteiramente pensadas. A Ilustrao 01 mostra os comportamentos
desses efeitos.
Ilustrao 1 Comportamento dos efeitos
de superavaliao e sub avaliao

2.1. Tcnica do teste reteste


Superavaliao

O instrumento de medidas aplicado duas vezes


a um mesmo grupo de pessoas, depois de um perodo de tempo entre as aplicaes. Se a correlao
entre os resultados das duas aplicaes fortemente positiva o instrumento pode ser considerado
confivel. Quando a varivel sob anlise apresentar
nvel intervalar de mensurao, pode-se calcular o coeficiente de correlao linear de Pearson. (SAMPIERI,
1996).
O perodo de tempo entre as medies um
fator a considerar quando da aplicao desta tcnica. Perodos longos so suscetveis s mudanas que
podem comprometer a interpretao do coeficiente
de confiabilidade obtido. Um tempo longo demais
favorece a aquisio de novas aprendizagens. Se o
perodo curto, os resultados podem ser contaminados pelo efeito memria. No caso desta tcnica o
coeficiente de confiabilidade tambm denominado coeficiente de estabilidade.
O intervalo longo entre o teste e reteste pode
provocar uma sub avaliao da estabilidade. Tal conceito poder ser melhor explicado atravs de um
exemplo: vamos supor que foi aplicado um questionrio com a seguinte pergunta: o que voc prefere como sobremesa? Com as seguintes alternativas:
(1) Sorvete, (2) Torta de morango e (3) No sei.
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

Subavaliao

Tempo
Teste

Superavaliao e
Sub avaliao

Reteste

Observa-se que, com o passar do tempo, o efeito


da superavaliao diminui enquanto o efeito da subavaliao aumenta. O leitor poder perguntar: qual
o pior dos dois efeitos? A superavaliao ou a sub
avaliao da estabilidade? A resposta a essa questo deve
ser analisada em termos da interpretao do coeficiente de estabilidade. O pesquisador estar mais seguro
com uma interpretao dos efeitos da sub avaliao
do que com a superavaliao, pois, no primeiro efeito o pesquisador concluir que h necessidade de
mais estudo sobre a medida em questo, enquanto
o segundo efeito pode dar uma falsa segurana de
estabilidade e se chegar a concluses invlidas.

GILBERTO DE ANDRADE MARTINS

Conforme explicam Camines e Zeller (1979),


para avaliar a confiabilidade pelo teste e reteste precisamos obter dois escores (medidas) de cada um
de muitos indivduos, ou objetos. Se a medida for
confivel os dois escores, para cada indivduo ou
objeto, devero ser muito semelhantes, e o coeficiente de correlao linear de Pearson positivamente elevado acima de 85%. Este critrio de avaliao da
confiabilidade s poder ser aplicado quando o nvel
de mensurao da varivel intervalar. No comum
se ter duas medidas de uma varivel para os mesmos
indivduos ou objetos, fato que limita a aplicao deste
critrio.
2.2. Tcnicas de formas equivalentes
Neste procedimento no se aplica o mesmo instrumento de medidas s mesma pessoas ou objetos,
mas duas ou mais verses equivalentes do instrumento de medidas. As verses so similares em contedo, instrues e demais caractersticas. As verses
geralmente duas so administradas a um mesmo
grupo de indivduos dentro de um perodo relativamente curto. O instrumento confivel se a correlao entre os resultados das duas aplicaes fortemente positiva, ou seja, os padres de respostas devem
variar pouco entre as aplicaes. A maior limitao
de aplicao desta tcnica que nem sempre se dispe de duas formas distintas de um instrumento de
medidas com iguais objetivos (ANASTASI,1965).

2.3. Tcnicas das metades partidas (split-half)


Contrariamente s tcnicas anteriores este procedimento requer apenas uma aplicao, ou seja,
consiste em avaliar a confiabilidade usando respostas obtidas em uma nica aplicao do instrumento
de medidas.
Para um melhor entendimento sobre a tcnica
das Metades Partidas (split-half) vamos considerar a
seguinte configurao: apresentamos aos respondentes
um instrumento de medidas com 10 questes, tais
que as questes 1 e 2 so equivalentes em contedo
e dificuldade, o mesmo raciocnio serve para as questes 3 e 4 e assim por diante. O resultado dessa diviso que temos um conjunto de questes (1,3,5,7,9)
equivalente, em termos de contedos e dificuldades,
ao conjunto de questes (2,4,6,8,10). Segundo Sampieri
(1996), o conjunto de todas as questes do teste
dividido em duas metades e as pontuaes, ou resultados, de ambas so comparados. A comparao
feita atravs do clculo do coeficiente de correlao
linear de Pearson entre o escore total de cada indivduo na primeira metade do teste e o escore total na
segunda metade do teste. Se o instrumento confivel
as pontuaes das duas metades devem estar fortemente relacionadas. Em outras palavras, um indivduo,
com baixa pontuao em uma das metades, tender
a ter tambm uma baixa pontuao na outra metade.
Quanto mais semelhantes forem os escores das duas
metades, maior ser a correlao e mais confivel o
instrumento. A confiabilidade calculada dessa maneira

Ilustrao 2 A Tcnica das Metades Partidas (Split-half).

Questes
1
2
3
4
5
6
7
8
9
10

Primeira metade
1, 3, 5, 7, 9

Resultado
1

Calcular o coeficiente
de correlao entre as
pontuaes das duas
metades.
Segunda
metade
2, 4, 6, 8, 10

Resultado
2

4
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

SOBRE CONFIABILIDADE E VALIDADE

interpretada, por alguns autores, como indicador


de consistncia interna.
Ainda, conforme Sampieri (1996) a confiabilidade
varia de acordo com o nmero de tens do instrumento de medio. Quanto mais itens maior a possibilidade de se avaliar a confiabilidade do instrumento.
Alternativamente, pesquisadores contrapem as questes impares com as pares. preciso que os totais de
escores sejam variveis com nveis de mensurao intervalar. A Ilustrao 02 mostra a prtica desta tcnica.
2.4. Confiabilidade a partir de avaliadores
H situaes de pesquisa em que diferentes avaliadores observam comportamentos e fazem medies
ou julgamentos. Se dois avaliadores (juzes) observarem o mesmo comportamento, a partir das mesmas instrues e igual treinamento, a confiabilidade
das medidas ser dada pelo clculo do coeficiente
de correlao linear de Pearson entre os escores dos
dois juizes. Para tratamento de variveis com nveis
de mensurao ordinais (quando os juizes classificam ou colocam em ordem) podem ser calculados
os coeficientes de Spearman ou de Kendall.
2.5. Coeficiente alfa de Cronbach
Conforme explicam Carmines e Zeller (1979),
este Coeficiente foi desenvolvido por J.L. Cronbach,
e o seu clculo (), alfa, carece de uma nica aplicao do instrumento de medio, produzindo valores entre 0 e 1, ou entre 0 e 100%. Quando > 70%
diz-se que h confiabilidade das medidas. A expresso do coeficiente dada por:

1
[1 + ( 1 1)]

Onde:
N
_ = nmero de itens;
r = mdia dos coeficientes de correlao linear
(Pearson) entre os itens.
0 <= a <= 1 ou 0 <= a <= 100%.
So calculadas todas as correlaes (r) entre o
escore de cada item e o escore total dos demais itens.
O valor de alfa a mdia de todos os coeficientes de
correlao. As correlaes item-total e o valor do alfa
de Cronbach so reveladoras porque fornecem inforRBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

maes sobre cada item individual. Itens que no


esto correlacionados com os demais podem ser eliminados da medida para aumentar a confiabilidade.
2.6. Coeficiente KR-20
Com finalidade semelhante ao coeficiente de
Cronbach este indicador do grau de confiabilidade
de um instrumento de medio foi desenvolvido por
Kuder e Richardson (1937). utilizado quando os
testes tm respostas dicotmicas: sim/no; 0/1
etc.(CARMINES e ZELLER, 1979).
3. VALIDADE
Em termos gerais a validade se refere ao grau em
que um instrumento realmente mede a varivel que
pretende medir. Em outras palavras, um instrumento vlido na extenso em que mede aquilo que se
prope medir. Por exemplo, um instrumento vlido
para medir a capacidade de leitura deve medir realmente essa caracterstica e no outras caractersticas, como por exemplo, conhecimento prvio. Para
facilitar a compreenso desse conceito vamos supor
que estamos interessados em medir a capacidade de
leitura de uma pessoa e para isso aplicamos um teste
simples que se resume em ler a histria dos trs
porquinhos e depois a pessoa nos conta o que leu.
Ser que esse teste mede o que realmente se prope
medir? No, necessariamente, pois podemos ter ocorrncia em que uma pessoa, que no sabe ler, sair-se
bem no teste porque j ouviu essa histria antes, ou
seja, para essa pessoa, o teste no mediu a capacidade de leitura e sim o conhecimento prvio. Outro
exemplo: quando estudantes brasileiros fazem um
teste de QI (Quociente de Inteligncia) em ingls,
tal teste muito mais uma medida da proficincia
na lngua inglesa do que uma medida (vlida) de
inteligncia, pois podemos ter estudantes brasileiros inteligentes, mas que foram mal no teste por no
compreenderem a lngua inglesa.
Conforme lembra Gressler (1989) a questo fundamental para se admitir a validade de um instrumento de medidas dada pela resposta seguinte
pergunta: Ser que se est medindo o que se cr que
deve ser medido? Se a resposta sim, sua medida
vlida, se no, no .
A validade um critrio de significncia de um
instrumento de medidas com diferentes tipos de evidncias: validade aparente, validade de contedo, vali-

GILBERTO DE ANDRADE MARTINS

dade de critrio e validade de construto (MORON,


1998). A validade da medida depende da adequao do instrumento em relao aquilo que se quer
medir. Ou seja, a adequao do instrumento depender do uso que dele se fizer. Por exemplo, existem
vrios instrumentos para medir o tempo: desde a
posio do sol, relgio de areia, relgios que marcam horas, minutos e segundos, at aqueles mais
precisos que determinam fraes de segundos. Pois
bem, a utilizao de um ou outro desses instrumentos depender do que vai se medir. Um jogo de futebol requerer um relgio que assinale at segundos,
no sendo suficiente a posio do sol para determinar o trmino da partida. Por outro lado, o controle
de uma corrida de cavalos exigir um instrumento
mais preciso, como o cronmetro. Porm o lavrador do campo saber quando hora de almoo, ou
quando seu dia de trabalho termina, pela simples
posio do sol. Ou seja, a validade de uma medida
nunca absoluta, mas sempre relativa um instrumento de medidas no simplesmente vlido, porm,
ser vlido para este ou aquele objetivo. No h validade em termos gerais.
3.1. Validade Aparente

A tcnica mais simples, porm menos satisfatria,


para avaliar a validade denominada validade aparente, que nos indica se a medida aparentemente
mede aquilo que pretende, como explica (GIL,
1999). A validade aparente no sofisticada, avalia
apenas, considerando a definio terica de uma
varivel, se a medida parece, de fato, medir a varivel
sob estudo. Isto , o procedimento usado para medir
a varivel parece ser uma definio operacional correta da varivel terica? Validade aparente avaliada por um juiz, ou grupo de juzes, que examinam
uma tcnica de mensurao e decidem se ela mede
o que seu nome sugere. A avaliao da validade aparente um processo subjetivo. Todo instrumento
deve passar pela avaliao da validade aparente. Todo
pesquisador que escolhe, ou constri, um instrumento de medidas um juiz que decide se o instrumento de fato mede a varivel que ele deseja estudar. A
validade aparente no basta para se concluir se uma
medida de fato vlida, todavia sem algum indicador positivo de validade aparente no ter sentido
avaliaes dos outros critrios de validade.
A validade aparente refere-se ao fato do instrumento de medidas parecer vlido, ou no, aos sujeitos,
ao pessoal administrativo que decide quanto ao seu

emprego, e a outros observadores no treinados tecnicamente. primeira vista o leitor poder concluir que
a validade aparente no tem muita importncia e
utilidade pois lhe falta uma construo mais tcnica.
No entanto, a validade aparente uma caracterstica
necessria porque se o instrumento de medidas parece, aos olhos dos respondentes, irrelevante, inadequado, tolo ou infantil, a falta de validade aparente poder comprometer todo o estudo. Tal situao pode ser
observada, por exemplo, em testes que inicialmente
foram desenvolvidos para crianas e que depois
foram tambm aplicados para adultos. Esses testes
enfrentaram srias resistncias e crticas dos adultos
por falta de validade aparente, pois, para adultos
pareciam irrelevantes, inadequados e infantis.
3.2. Validade de contedo Evidncias relacionadas
ao contedo
Segundo Sampieri (1996), a validade de contedo se refere ao grau em que um instrumento evidencie um domnio especfico de contedo do que
pretende medir. o grau em que a medio representa o conceito que se pretende medir. Por exemplo, uma prova de operaes aritmticas no ter
validade de contedo se incluir somente problemas
de adio e excluir problemas de subtrao, multiplicao e diviso. Um instrumento de medio deve
conter todos os itens do domnio do contedo das
variveis que pretende medir. Assim, pode parecer
que uma simples verificao do contedo do teste
suficiente para estabelecer a validade com relao a
esse objetivo, no entanto, a soluo no to simples. Uma dificuldade apresentada pelo problema
da amostragem do contedo. A rea de contedo a
ser testada precisa ser sistematicamente analisada a
fim de se assegurar que todos os aspectos fundamentais sejam, adequadamente, e em propores corretas, abrangidos pelos itens do teste. Para se ter maior
garantia da validade de contedo de um instrumento
de medidas, a rea de abrangncia do contedo deve
ser inteiramente descrita antes, e no depois da construo de um do teste, ou qualquer outro instrumento
de coleta de dados.
3.3. Validade de Critrio Evidncias relacionadas
a um critrio
Conforme Kaplan (1975), a validade de critrio
estabelece a validade de um instrumento de medio
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

SOBRE CONFIABILIDADE E VALIDADE

comparando-o com algum critrio externo. Este critrio um padro com o qual se julga a validade
do instrumento. Quanto mais os resultados do instrumento de medidas se relacionam com o padro
(critrio) maior a validade de critrio. Se o critrio
se fixa no presente, temos a validade convergente
os resultados do instrumento se correlacionam com
o critrio no mesmo momento ou ponto no tempo.
Por exemplo, um roteiro de entrevista para levantar
as preferncias eleitorais pode ser validado comparando-se os resultados da pesquisa com os resultados da eleio. Assim, quanto mais prximos os
resultados da pesquisa dos resultados das eleies,
maior o grau de validade convergente do instrumento de coleta de dados. Se o critrio se fixa no futuro
temos a validade preditiva.Segundo Sampieri (1996),
validade para predizer refere-se extenso a qual o
instrumento (geralmente teste) prediz futuros desempenhos de indivduos. Um teste tem validade para
predizer quando efetivamente indica como o objeto
em estudo desenvolver no futuro uma outra tarefa
ou incumbncia. A validade peditiva muito importante para testes que so usados com propsitos de
selecionar e classificar candidatos a concursos para
admisso, exames vestibulares etc. Conforme j explicado a validade de predizer estabelecida atravs
de correlaes dos resultados do teste com subseqente medida de um critrio. A identificao de
uma medida critrio que se adeqe ao instrumento
que est sob avaliao, geralmente, constitui desafio
ao investigador. Por exemplo, um teste para determinar a capacidade administrativa de altos executivos pode ter validade preditiva comparando-se os
resultados do teste com o futuro desempenho dos
executivos avaliados pelo referido instrumento. Alm
disso, o instrumento de medidas no deve estar relacionado a variveis que no lhe dizem respeito, ou
seja, com um falso critrio. Essa caracterstica formalmente conhecida como validade discriminante.
A comparao entre os resultados (medies) de
um instrumento com outro critrio exterior tambm
chamada de validade emprica. Conforme Cozby (2003),
quando um teste, ou instrumento, consegue distinguir
indivduos sabidamente diferentes, diz-se que o teste,
ou instrumento de medidas apresenta validade simultnea. Por exemplo, se voc estivesse desenvolvendo
um teste para medir o nvel de conscincia poltica dos
indivduos e conseguisse distinguir, pelo teste, os sabidamente de esquerda dos sabidamente de direita,
seu teste teria validade simultnea, pois alm de medir
o grau de conscincia poltica tambm conseguiria
distinguir os indivduos de esquerda e de direita.
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

A distino lgica entre validade de predio e


validade simultnea baseia-se no no tempo, mas nos
objetivos da aplicao. A validade simultnea significativa para testes empregados para o diagnstico de
situao existente, e no para a predio de resultados futuros.
Como o critrio para a validade simultnea sempre existe no momento da aplicao, poder-se-ia
perguntar: qual a funo da aplicao em tais situaes? Basicamente, esses testes apresentam um substituto mais simples, mais rpido ou menos dispendioso do que os dados do critrio. Por exemplo, se o
critrio para se concluir se um indivduo neurtico consiste na observao contnua de um paciente,
durante um perodo de duas semanas de hospitalizao, um teste capaz de selecionar os neurticos, dentre os casos duvidosos, reduziria consideravelmente
o nmero de pessoas que exigiriam essa observao
extensiva.
3.4. Validade de Constructo Evidncias Relacionadas
ao Constructo
Um constructo, ou uma construo, uma varivel, ou conjunto de variveis, isto , uma definio
operacional robusta que busca representar o verdadeiro significado terico de um conceito. Conforme explica Gressler (1989), a validade de constructo
ser dada pela resposta questo: em que medida a
definio operacional (constructo) de um conceito
de fato reflete seu verdadeiro significado terico?
A validade de constructo se refere ao grau em
que um instrumento de medidas se relacione consistentemente com outras medies assemelhadas derivadas da mesma teoria e conceitos que esto sendo
medidos.
Segundo Sampieri (1996), dificilmente a validade de constructo ser estabelecida em um nico
estudo. Ela construda por vrios estudos que investigam a teoria do constructo particular que est
sendo medido. Medidas de variveis do campo das
cincias sociais aplicadas tm vida limitada. Com o
acmulo de resultados de pesquisas, os investigadores descobrem limitaes e criam novas medidas para
corrigir possveis problemas. Esse processo leva ao
aprimoramento das medidas e a uma compreenso
mais completa das variveis subjacentes que esto
sendo estudadas.
Ainda, conforme Gressler (1989), no caso de testes da rea educacional, a validade curricular referese extenso em que a amostra representada nas

GILBERTO DE ANDRADE MARTINS

questes do teste constructo abrange a matria lecionada, ou todos os contedos curriculares. O processo
de validao de um constructo deve, necessariamente,
estar vinculado a uma teoria. No possvel levar a
cabo uma validao de constructo, a menos que exista
um marco terico que suporte o constructo em relao a outras definies.
3.5. Validade Total
A validade total, segundo Sampieri (1996) obtida
pela soma das validade de contedo, de critrio e de
constructo. Assim, a validade de um instrumento de
medio se verifica com base nessas trs evidncias.
Quanto mais evidncias de validade de contedo, validade de critrio e validade de constructo de um instrumento de medidas, maiores so as evidncias que,
de fato, est se medindo o que se pretende medir.
Como j foi explicado, um instrumento de medio pode ser confivel (apresenta confiabilidade) e
no, necessariamente, ser vlido. Um instrumento
pode ser consistente nos resultados que produz,
porm no medir aquilo que pretende. Ou seja, um
instrumento de medio para, de fato, representar
a realidade deve ser confivel e vlido.
3.5.1. Configurao Validade Total Avaliao de
Conhecimentos sobre Contabilidade
Um instrumento de medidas tem validade quando
mede o que realmente se prope medir e, conforme
exposto neste texto, h vrias formas de evidenciar
a validade que so: aparente, de contedo, de critrio e de constructo. Para exemplificar os critrios de
evidenciao da validade ser usado um instrumento de medidas bastante conhecido por todos: uma
prova para avaliao do aprendizado sobre Contabilidade. A prova contm as seguintes questes:
(1) Cite as diferenas entre o custeio direto e
indireto.
(2) O que ponto de equilbrio?
(3) O que margem de contribuio?

Com esse instrumento nos propomos medir se a


pessoa conhece, ou no, Contabilidade. Ao analisarmos as perguntas percebemos que as questes abordadas referem-se Contabilidade, portanto, essa prova tem validade aparente porque, aparentemente,
mede caractersticas que podem indicar se uma pessoa conhece, ou no, Contabilidade. O fato da pro-

va apresentar validade aparente no significa que


valida pois essa evidncia de validade muito frgil.
Ao analisar o contedo da prova, nota-se que as
questes tratam apenas de uma parte da Contabilidade, ou seja, o contedo insuficiente para medir
se uma pessoa conhece, ou no, essa disciplina.
Como o contedo da prova no suficientemente
abrangente para qualificar a caracterstica pesquisada,
essa prova no tem validade de contedo para o
objetivo proposto. Ressaltamos, mais uma vez, que a
validade de um instrumento no absoluta e sim
relativa, ou seja, essa prova no tem validade de contedo para o propsito a que se refere: avaliar se o
respondente conhece, ou no, Contabilidade. Porm,
pode vir a apresentar essa modalidade de validade se
estivssemos interessados em qualificar se uma pessoa tem, ou no, conhecimento bsico sobre Contabilidade de Custo. Para continuar com nossa analogia vamos fazer o seguinte raciocnio: se esse teste
tem capacidade de distinguir entre indivduos sabidamente distintos: as pessoas que dominam e as pessoas que no dominam Contabilidade, logo esse teste
tem validade simultnea e validade discriminante.
Admitindo-se que qualquer pessoa que acertar mais
de 90% deste teste ser aprovada no Exame de Suficincia do Conselho Federal de Contabilidade, poderemos afirmar que o teste apresenta validade preditiva,
pois tem capacidade de identificar diferenas futuras: passar, ou no passar, no Exame de Suficincia.
Por outro lado, se considerarmos que qualquer
pessoa que acertar mais de 95% do teste ser qualificada como algum com QI elevado, o teste tambm
ter validade de critrio, pois apresenta uma forte
relao com um indicador de inteligncia.
4. UMA APLICAO DOS CONCEITOS DE CONFIABILIDADE E VALIDADE NAS CINCIAS
CONTBEIS
Antes das consideraes finais vamos propor algumas reflexes sobre os conceitos de validade e de confiabilidade nas Cincias Contbeis. Mais especificamente gostaramos de buscar uma resposta questo:
de que forma esses conceitos, difundidos na metodologia de pesquisa, podem auxiliar o contador?
Para responder a essa questo vamos fazer uma
analogia dos conceitos discutidos com o mundo contbil,
ou seja, deixar de aplicar o conceito de validade e de
confiabilidade somente nos instrumentos de coleta de
dados, e responder a pergunta: Quais so os principais
instrumentos de coleta de dados de um contador?
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

SOBRE CONFIABILIDADE E VALIDADE

De acordo com Moron (1998): Os instrumentos


de coleta de dados tm a funo de ligar o que o pesquisador quer saber com a realidade, ou seja, os instrumentos de pesquisa so utilizados para ler a realidade.
Levando-se em considerao esse raciocnio podemos
afirmar que os instrumentos de coleta de dados utilizados pelos contadores so as demonstraes financeiras como balanos, demonstrativos de resultados
etc., porque atravs delas os contadores transmitem
as realidades das empresas para o mercado.
De acordo com Hendrisken (1999), com base nas
hipteses de mercado eficiente, pesquisas empricas
confirmam a viso de que o lucro contbil possui contedo informacional tanto que o mercado continua
a exigir a sua mensurao e publicao. Essa opinio
reforada pelo SFAC 1 que diz a principal preocupao da divulgao financeira o fornecimento de
informaes sobre o desempenho de uma empresa,
com base em medidas de lucro e seus componentes.
Sabemos que o lucro contbil apurado de acordo com os princpios contbeis, oferecendo, dessa
maneira, condies para se afirmar um elevado grau
de confiabilidade. Se vrios contadores trabalharem,
independentemente, com os mesmos nmeros, devem
chegar a resultados semelhantes, ou seja, o lucro contbil, determinado dessa maneira, confivel. Mas,
ser que o lucro contbil valido?
Vamos imaginar uma situao onde temos duas
empresas A e B. Ambas investiram em aes, sendo
que a empresa A comprou aes X, enquanto a empresa B comprou aes Y. Alm disso, as duas empresas
compraram a mesma quantidade e a cotao das duas
aes eram iguais na data de compra. Suponhamos
que a quantidade comprada foi um lote de 1.000 aes
cotado $ 500, ento, temos as seguintes situaes
patrimoniais:
Empresa B
Ativo

Passivo

Aes X
1.000
Lucro
500
Capital
500

Empresa A
Ativo

Passivo

Aes X
500
Capital
500

No exerccio seguinte, tanto as aes X como Y


valorizaram 100%, portanto, a cotao atingiu $ 1.000
por lote de mil. Entretanto, a empresa A no realizou
nenhum tipo de operao, enquanto a empresa B
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

vendeu suas aes, e em seguida, comprou aes da


empresa X, mesmas aes mantidas pela empresa A.
Nesta situao, o lucro orientado pelos princpios
contbeis, mostra a seguinte situao financeira das
duas empresas:
Empresa B
Ativo

Passivo

Caixa
1.000
Lucro
500
Capital
500

Empresa B
Ativo

Empresa B

Passivo

Aes X
1.000

D.E.R
Venda
Custo

1.000
(500)

Lucro

500

Empresa A
Ativo

Passivo

Aes X
500
Lucro
500
Capital
500

Capital
500

Na essncia econmica as duas empresas podem


ser consideradas exatamente iguais, pois possuem o
mesmo ativo. No entanto, a contabilidade oferece uma
viso que induz ao usurio da informao uma concluso errada de que a empresa B tem mais riqueza
que a empresa A. interessante notar que ao se elaborar tais demonstraes financeiras os princpios
contbeis foram respeitados, tais como: da realizao, do custo histrico como base de valor e da confrontao entre receitas e despesas.
Esses princpios so dotados de objetividade e
conservadorismo, pois o custo histrico foi comprovado a partir da nota fiscal e o reconhecimento da
receita na transferncia de propriedade. No reconhecer o aumento da riqueza pela simples variao
do ativo no mercado uma postura conservadora.
O lucro contbil apurado de acordo com esses
princpios extremamente objetivo e conservador
e, muitas vezes, no reflete a realidade econmicofinanceira da empresa. A partir deste simples exemplo pode-se notar que a medio da riqueza, atravs
do lucro contbil, pode no ser vlida, ou seja, dessa
forma, dependendo do propsito que se deseja, no
se est medindo aquilo que se pretende medir.

GILBERTO DE ANDRADE MARTINS

Existe um consenso quanto ao lanamento de ativos pelo seu valor de aquisio no momento da compra, no entanto, a discordncia nasce em torno de qual
valor deve ser usado at a sua baixa. Para exemplificar,
poderemos raciocinar do seguinte modo: no momento da aquisio as mercadorias so contabilizadas
pelo seu custo corrente que com o passar do tempo
torna-se custo histrico e no momento da venda as mercadorias so reavaliadas ao preo de venda, porm,
em outra conta que pode ser contas a receber ou caixa.
Percebe-se que a discusso no em torno de qual
a medida a ser usada (se de aquisio ou de venda),
mas quando us-la, ou em outras palavras, a questo
se resume em quando deve ser feita essa reavaliao.
Alguns defendem a no realizao de qualquer reavaliao at o momento da venda, enquanto outros
defendem a marcao do ativo ao mercado, trazendo
volatilidade aos demonstrativos financeiros.
A Contabilidade baseada nos custos histricos
tem vantagens como a ausncia de vis no procedimento da reavaliao, certeza relativa sobre a converso esperada em dinheiro e capacidade de medir
as despesas associadas. No entanto, ao se adotar o custo
histrico como mtrica compromete-se a validade
da medida, sobretudo, para os ativos negociados em
um mercado firme e organizado.
5. UMA CONFIGURAO CONFIABILIDADE E
VALIDADE DE UMA ESCALA DE ATITUDE
Recente estudo (Giraldi et all, 2005) desenvolveu pesquisa para levantar a atitude de um segmen-

to de consumidores estrangeiros em relao aos calados brasileiros. Lembram que atitude uma predisposio aprendida para um comportamento consistentemente favorvel ou desfavorvel em relao
a um determinado objeto. Para compreender a relao entre atitude e comportamento so elaborados
modelos que capturam dimenses subjacentes de
uma atitude a fim de melhor explicar ou prever comportamentos, no caso, de consumidores. Dentre os
modelos escolheram o de atitude de trs componentes. O componente cognitivo consiste nas cognies
do indivduo, ou seja, o conhecimento e as percepes que foram adquiridos pela combinao entre
experincia direta com o objeto de atitude e as informaes de vrias fontes. O componente afetivo representa as emoes ou sentimentos dos consumidores
em relao a um produto ou marca em particular.
Enquanto o componente conativo relaciona-se com
a probabilidade com que um indivduo ir adotar
um comportamento especfico diante do objeto de
atitude.
tarefa deveras complexa e difcil medir construtos
dessa natureza comuns nos estudos comportamentais pois uma atitude um construto que existe na
mente dos indivduos, no podendo ser observada
diretamente, como o peso ou a altura de uma pessoa. Para tanto so utilizadas escalas, geralmente do
tipo Likert, onde o respondente escolhe o ponto que
melhor expressa seu entendimento em relao
varivel que est sendo medida. Na investigao sob
anlise foram utilizados escalas com cinco pontos,
orientados por concordo totalmente at discordo
totalmente, para as seguintes dimenses:

Componentes da atitude

Afirmaes

Cognitivo

Os calados brasileiros possuem boa reputao


Os calados brasileiros so caros
Os calados brasileiros tm prestgio
Os calados brasileiros so de alta qualidade

Afetivo

Eu gosto dos calados brasileiros


Eu acho os calados brasileiros melhores do que os de outros pases
Eu admiro os calados brasileiros
Eu tenho simpatia pelos calados brasileiros

Conativo

Eu compraria calados brasileiros


Eu recomendaria calado brasileiro a um amigo
Eu prefiro calado brasileiro a calados de outros pases

10
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

SOBRE CONFIABILIDADE E VALIDADE

Cada ponto da escala tem um valor no caso


de 1 a 5. Avaliaes da confiabilidade e da validade
dessa medida de atitudes poderiam ser realizadas
da seguinte maneira.
Quanto a confiabilidade avaliada pela tcnica do
Teste-Reteste, teramos que calcular o coeficiente de
correlao entre as notas atribudas pelos respondentes em duas pocas suficientemente distantes para se
evitar efeitos memria. Se as associaes entre as duas
notas forem expressivas, poderemos afirmar que essa
escala de medida da atitude em relao aos calados
brasileiros confivel.
Se os autores do referido estudo pudessem aplicar, ao mesmo grupo de respondentes, uma outra
verso do escalonamento utilizado na primeira aplicao, poderamos dizer que o instrumento apresenta
forte grau de confiabilidade se a correlao entre os
resultados das duas aplicaes for expressivamente
positivo. Nesta situao teramos a aplicao da tcnica de formas equivalentes para se avaliar a confiabilidade.
Na configurao que estamos analisando a prtica da tcnica das metades partidas (split-half) poderia ser aplicada calculando-se a correlao entre os
escores (soma dos valores) das duas metades de questes formuladas, por exemplo, pelas questes mpares
em um grupo e pares em outra metade. Se a associao entre os escores for expressiva, poderemos dizer
que a escala de medidas tem confiabilidade.
Ainda em relao a avaliao da confiabilidade
poderamos calcular o coeficiente de Cronbach. Se
o coeficiente for superior a 0,70, poderemos afirmar
a confiabilidade da escala.
Para se ter indicaes de que o escalonamento
construdo pelos autores mede atitude em relao
aos calados brasileiros precisamos avaliar a validez
do instrumento. A validade aparente a medida
mede aquilo que pretende medir? foi garantida,
vez que os autores se apoiaram em estudos assemelhados para a construo da escala utilizada. Isto :
aparentemente o conjunto das afirmaes avaliadas
pelos respondentes mede a atitude desejada.
O aproveitamento de um construto utilizado por
outros pesquisadores oferece garantias de validade
de contedo. O construto formado pelos trs componentes j havia sido utilizado por outros pesquisadores, condio necessria para se dizer que o instrumento apresenta validade de contedo. Para se
avaliar a validade de critrio precisaramos comparar os resultados obtidos pela aplicao deste instrumento com resultados alcanados por outro instrumento j testado confivel e vlido que medisse
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006

atitude em relao aos calados brasileiros. Quanto


mais prximos fossem os resultados mais elementos
teramos para avaliar a validade de critrio. Por outro
lado a validade de construto poder ser aferida por
evidncias de que de fato o construto atitude composta por trs componentes reflete o verdadeiro
significado terico de, no caso, medir atitude em
relao a um produto: calados brasileiros.
6. CONSIDERAES FINAIS
J disse Hegel: medida uma sntese da qualidade e da quantidade. Medir determinar, tendo por
base uma escala fixa, um padro de unidade, e uma
grandeza. Para medir, avaliar ou quantificar informaes financeiras, patrimoniais, de auditorias, arbitragens e controladoria, peculiares ao setor privado ou
pblico, o profissional ou pesquisador precisar atentar para os critrios de significncia e preciso dos
instrumentos de medidas que ir utilizar: validade,
ou validez e confiabilidade ou fidedignidade.
Este texto apresentou, buscou explicaes e mostrou exemplos sobre os critrios de exigncias de medidas provenientes de testes, instrumentos de coleta de
dados, e tcnicas de aferio, para que se possa aceitlos como geradores de boas avaliaes. Medidas confiveis so replicveis e consistentes, isto , geram os
mesmos resultados em sucessivas medies, enquanto
medidas vlidas so representaes precisas da caracterstica que se pretende medir. A partir de um exemplo mostrou-se que nem todo instrumento de medidas
que apresenta confiabilidade tem validade, mas todo
aquele que tem validade tambm apresenta confiabilidade. Para avaliao da confiabilidade discutiu-se a
tcnica do Teste-Reteste: o instrumento de medidas
aplicado duas vezes a um mesmo grupo de pessoas
ou objetos, depois de um perodo de tempo entre as
aplicaes. Se a correlao entre os resultados das duas
aplicaes fortemente positiva o instrumento pode
ser considerado confivel. Outro procedimento apresentado foi o uso de formas equivalentes, isto , critrios assemelhados de aferio so aplicados aos mesmos elementos. A forte correlao entre os resultados
do instrumento que se pretende utilizar e um outro
assemelhado indicar elevado grau de confiabilidade. A tcnica das Metades Partidas (split-half) determina que o conjunto de todas as questes do teste
seja dividido em duas metades e as pontuaes das
metades sejam comparadas. A comparao feita
atravs do clculo do coeficiente de correlao linear
de Pearson entre o escore total de cada indivduo na

11

GILBERTO DE ANDRADE MARTINS

primeira metade do teste e o escore total na segunda


metade do teste. Se o instrumento confivel as pontuaes das duas metades devem estar fortemente
relacionadas. A confiabilidade poder tambm ser
avaliada por dois juizes que observam o mesmo comportamento, a partir das mesmas instrues e igual
treinamento. A confiabilidade dada pelo grau de
correlao entre os dois avaliadores. Alm disso foram
apresentados os coeficientes de Cronbach e o KR-20.
Quanto aos critrios de aferio da validade vimos as
seguintes: validade aparente tcnica simples, menos
satisfatria, que nos indica se a medida, aparentemente, mede aquilo que pretende medir. A validade de
contedo se refere ao grau em que um instrumento
evidencie um domnio especfico de contedo do que
pretende medir. o grau em que a medio representa o conceito que se deseja mensurar. A validade de
critrio estabelece a validade de um instrumento de
medio comparando-o com algum critrio externo.
Este critrio um padro com o qual se julga a validade do instrumento. Quanto mais os resultados do
instrumento de medidas se relacionam com o padro,
maior a validade de critrio. Por outro lado a validade
de constructo se refere ao grau em que um instrumento de medidas se relacione consistentemente
com outras medies assemelhadas derivadas da
mesma teoria e conceitos que esto sendo medidos.
Assim que a validade total obtida pela soma das
validades de contedo, de critrio e de constructo.
Por ltimo foram apresentadas e discutidas configuraes que ilustram aplicaes dos critrios de
confiabilidade e validade para uma situao do mundo contbil e aplicao em um escala de atitude.

7. REFERNCIAS
ANASTASI, Anne. Teste Psicolgicos: teoria e aplicao. So Paulo: EDUSP, 1965.
CARMINES, Eduard. G. &ZELLER, Richard.A.
Reliability and Validity Assessment. 3a ed., USA, Sage
Publications, 1979.
COZBY, Paul C. Mtodos de pesquisa em cincias
do comportamento. So Paulo: Atlas, 2003.
GIL, Antonio Carlos. Pesquisa Social. 5a ed. So
Paulo: Ed. Atlas, 1999.
GIRALDI, J.M.E. et all. Atitude de consumidores
estrangeiros com relao a produtos brasileiros: Uma
investigao do setor caladista no Brasil. Revista de
Gesto USP. So Paulo: v.12, n.3, p. 75-90, julho/setembro 2005.
GRESSLER, Lori Alice. Pesquisa educacional. So Paulo:
Loyola, 1989.
HENDRIKSEN, Eldon S. BREDA, Michael F. Van.
Teoria da Contabilidade. So Paulo: Atlas, 1999.
KAPLAN, Abraham. A conduta na pesquisa. So Paulo:
EDUSP,1975.
MORON, Marie Anne Macadar. Dissertao: Concepo, Desenvolvimento e Validao de Instrumentos de Coleta de Dados para Estudar a Percepo do
Processo Decisrio e as Diferenas Culturais. Porto
Alegre, 1998.
SAMPIERI, Roberto Hernndez. COLLADO, Carlos
Fernndez. LUCIO, Pilar Baptista. Metodologa de
la investigacin. Mxico: McGRAW HILL, 1996.
SELLTIZ, Claire. WRIGHTSMAN, Lawrence Samuel.
COOK, Stuart Wellford. KIDDER, Louise H. Mtodos
de pesquisa nas relaes sociais. So Paulo: EPU, 1987.

12
RBGN, So Paulo, Vol. 8, n. 20, p. 1-12, jan. / abr. 2006