Escolar Documentos
Profissional Documentos
Cultura Documentos
CAPÍTULO 5
MELHORANDO E AVALIANDO A QUALIDADE DA MENSURAÇÃO
COMPORTAMENTAL
Cooper, J. O., Heron, T. E., & Heward, W. L. (2007). Applied behavior analysis. Pearson Education
*Tradução livre
Os dados obtidos ao mensurar comportamento são a matéria prima com a qual pesquisadores
e praticantes comportamentais guiam e avaliam o seu trabalho. Analistas do comportamento aplicado
mensuram comportamentos socialmente relevantes para ajudar a determinar quais comportamentos
precisam ser mudados, detectar e comparar os efeitos de várias intervenções nos comportamentos alvos
de mudança e avaliar a aquisição, manutenção e generalização das mudanças comportamentais.
Pelo fato de que muito do que o analista do comportamento faz tanto como pesquisador
quanto como praticante depende da mensuração, preocupações sobre a legitimidade dos dados que ela
produz devem ser fundamentais. Os dados refletem significativamente a razão original para mensurar
o comportamento? Os dados representam a extensão real do comportamento como ele de fato ocorreu?
Os dados fornecem uma figura consistente do comportamento? Em outras palavras, os dados são
confiáveis?
Três amigos – John, Tim e Bill – passearam juntos de bicicleta. Ao final do passeio John
olhou para o computador montado no guidom da bicicleta e disse “Nós andamos por 68 milhas.
Excelente!” “Meu computador mostra 67.5 milhas. Bom passeio amigos!” Tim respondeu. Enquanto
desmontava a sua bicicleta e esfregava suas costas, o terceiro ciclista, Bill, disse “Caramba, estou
dolorido! Nós devemos ter pedalado por umas 100 milhas!”. Alguns dias depois, os três amigos
completaram a mesma rota. Após a segunda volta, o computador de John mostrou 68 milhas, o de Tim
leu 70 milhas, e Bill, por não estar tão dolorido quanto estava no primeiro passeio, disse que eles
tinham pedalado 90 milhas. Seguindo um terceiro passeio nas mesmas ruas, John, Tim e Bill relataram
distâncias de 68, 65 e 80 milhas, respectivamente.
O quão confiáveis eram as medidas relatadas pelos três ciclistas? Os dados de qual dos três
amigos seriam mais úteis para uma consideração científica das milhas que eles tinham pedalado? Para
ser útil cientificamente, a mensuração deve ser válida, precisa e confiável. As medidas dos três amigos
foram caracterizadas pela validade, precisão e confiabilidade?
Validade
A mensuração tem validade quando produz dados que são diretamente relevantes para o
fenômeno mensurado e para a razão dele ser mensurado. Determinar a validade da mensuração gira
2
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
em torno dessa questão básica: A dimensão relevante do comportamento que é o foco da investigação
foi mensurada diretamente e de maneira legítima?
As medidas das milhas percorridas pelos três ciclistas tem validade? Pelo fato dos ciclistas
quererem saber quanto eles percorreram em cada volta, o número de milhas percorridas era uma
dimensão relevante, ou válida, do comportamento de pedalar. Se o interesse primário dos ciclistas
fosse determinar por quanto tempo ou o quão rápido eles pedalaram, o número de milhas percorridas
não teria sido uma medida válida. O uso dos computadores das bicicletas de John e Tim para mensurar
diretamente as milhas que eles percorreram foi uma medida válida. Pelo fato de Bill ter usado uma
medida indireta (a sensibilidade relativa das suas costas) para determinar o número de milhas que ele
tinha percorrido, a validade dos dados de Bill é suspeita. Uma medida direta do comportamento de
interesse vai sempre possuir mais validade que uma medida indireta, já que uma medida diret a não
requer uma inferência sobre a sua relação com o comportamento de interesse, enquanto uma medida
indireta sempre exige essa inferência. Ainda que a dor possa estar relacionada com a distância
percorrida, pelo fato de também ser influenciada por fatores como o tempo no assento da bicicleta, a
dureza da estrada, a velocidade da volta, e quanto a pessoa tem pedalado recentemente, a dor como
uma medida das milhas percorridas tem pouca validade.
Precisão
Quando usada no contexto da mensuração, a precisão se refere a extensão com a qual o valor
observado, o rótulo quantitativo produzido ao mensurar um evento, combina com o estado real, ou
valor real, do evento como ele existe na natureza (Johnston e Pennypacker, 1993a). Em outras palavras,
a mensuração é precisa até o ponto que corresponde ao valor real da coisa mensurada. Um valor real
é uma medida obtida por procedimentos que são independentes e diferentes dos procedimentos que
produziram os dados sendo avaliados e para os quais o pesquisador tem tido “precauções especiais ou
extraordinárias para garantir que todas as possíveis fontes de erro tenham sido evitadas ou removidas”
(p.136).
O quão precisas foram as medidas dos três ciclistas sobre as milhas percorridas? Pelo fato de
cada ciclista ter obtido uma medida diferente do mesmo evento, todos os seus dados não seriam
precisos. Cético a respeito das milhas de treinamento que os três ciclistas estavam afirmando, um
amigo deles, Lee, dirigiu pelas mesmas ruas do interior com um odômetro do Departamento de
Trânsito fixado na traseira do seu carro. Ao final da rota o odômetro leu 58 milhas. Usando a medida
obtida pelo odômetro do DT como um valor real da distância da rota, Lee determinou que nenhuma
das medidas dos três ciclistas era precisa. Cada ciclista tinha superestimado a verdadeira milhagem
percorrida.
3
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Ao comparar as milhas relatadas por John, Tim e Bill com o valor real da distância da rota,
Lee descobriu que os dados não estavam apenas imprecisos, mas também estavam contaminados por
um tipo específico de erro de mensuração chamado de viés na mensuração. O viés na mensuração se
refere a um erro não aleatório na mensuração; isso é, um erro na mensuração que provavelmente vai
estar em uma direção. Quando um erro na mensuração é aleatório, as probabilidades de superestimar
ou subestimar o valor real de um evento são iguais. Pelo fato de John, Bill e Tim consistentemente
superestimar as milhas reais que eles percorreram, seus dados continham viés na mensuração.
Confiabilidade
O quão confiáveis foram as medidas dos ciclistas? Pelo fato de John ter obtido o mesmo valor,
68 milhas, cada vez que ele mensurou a mesma rota, a sua mensuração teve confiabilidade completa.
As três medidas de Tim referentes a mesma rota – 67.5, 70 e 65 milhas – diferem uma das outras por
até cinco milhas. Portanto, a medida de Tim foi menos confiável que a de John. O sistema de
mensuração do Bill foi o menos confiável de todos, produzindo valores para a mesma rota variando de
80 a até 100 milhas.
A mensuração deve ser válida e precisa para que os dados sejam dignos de confiança. Se a
mensuração não for válida, a precisão é discutível. Mensurar de maneira precisa um comportamento
que não é o foco da investigação, mensurar precisamente uma dimensão irrelevante do comportamento
alvo, ou mensurar de maneira precisa o comportamento sob circunstâncias ou em momentos não
representativos para as condições e momentos relevantes para a análise vai produzir dados inválidos.
Em contraste, os dados obtidos da mensuração de uma dimensão significativa do comportamento certo
sob momentos e circunstâncias relevantes é de pouco uso se os valores observados fornecerem uma
imagem imprecisa do comportamento. Medidas imprecisas tornam inválidos os dados obtidos por uma
mensuração válida.
A confiabilidade nunca deve ser confundida com a precisão. Ainda que o computador da
bicicleta de John tenha fornecido medidas totalmente confiáveis, também era completamente
imprecisa.
4
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Mensuração altamente confiável significa que qualquer grau de precisão (ou imprecisão)
que exista no sistema de mensuração vai ser revelado consistentemente nos dados. Se puder ser
determinado que o computador de John obtém confiavelmente valores observados maiores que os
valores reais por uma quantidade ou proporção constante, os dados devem ser ajustados para
acomodar esse grau constante de imprecisão.
Figura 1 Medição válida, precisa e confiável produz os dados mais confiáveis e úteis para a
ciência e a prática baseada na ciência
As duas próximas seções do capítulo descrevem métodos para combater ameaças comuns a
validade, precisão e confiabilidade da mensuração comportamental.
Mensuração Indireta
A mensuração indireta é às vezes usada para fazer inferências sobre eventos privados e
estados afetivos. Por exemplo, Green e Reid (1996) usaram medidas diretas de sorrisos para
representar “felicidade” em pessoas com deficiências múltiplas profundas. Entretanto, pesquisa sobre
eventos privados não necessariamente envolve mensuração indireta. Um participante da pesquisa que
tem sido treinado a observar seus próprios eventos privados está medindo o comportamento de
interesse diretamente (e.g., Kostewicz, Kubina, & Cooper, 2000; Kubina, Haertel, & Cooper, 1994).
1 Estratégias para aumentar a precisão dos autorrelatos podem ser en contradas em Critchfield, Tucker e Vuchinich
(1998) e Finney, Putnam e Boyd (1998).
6
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Artefatos de Mensuração
Mensuração Descontínua
Pelo fato do comportamento ser um fenômeno contínuo e dinâmico que ocorre e muda ao
longo do tempo, a mensuração contínua é o padrão na pesquisa comportamental. A mensuração
contínua é a mensuração conduzida de maneira que todas as instâncias da classe de respostas de
interesse são detectadas durante o período de observação (Johnston e Pennypacker, 1993ª). A
mensuração descontínua descreve qualquer forma de mensuração na qual algumas instâncias da
classe de respostas de interesse podem não ser detectadas. A mensuração descontínua – não importa
o quão precisa e confiável – pode produzir dados que são artefatos.
Um estudo por Thomson, Holmber e Baer (1974) fornece uma boa demonstração da
extensão da variabilidade artefatual em um conjunto de dados que pode ser causada pela mensuração
descontínua. Um único observador com muita experiência usou três procedimentos diferentes para
mensurar o comportamento de quatro sujeitos (dois professores e duas crianças) em um ambiente
pré-escolar durante sessões de 64 minutos. Thomson e colegas chamaram os três procedimentos de
amostra de tempo de contínuo, alternado e sequencial. Com cada procedimento de amostra de tempo,
um quarto do tempo do observador (16 minutos) foi designado para cada um dos quatro sujeitos.
Para chegar na porcentagem de variância artefatual nos dados associados com cada
programa de amostra de tempo, Thomson e colegas (1974) compararam os dados do observador com
as “taxas de fato” para cada sujeito produzidas pela mensuração contínua de cada sujeito pelas
mesmas sessões de 64 minutos. Resultados do estudo mostraram claramente que os programas
contínuos e alternados produziram as medidas mais não representativas (portanto, menos válidas)
dos comportamentos alvo (geralmente uma variância de mais d e 50% da mensuração contínua),
enquanto o procedimento de amostra sequencial produziu resultados que chegaram mais perto dos
dados obtidos a partir do registro contínuo (uma variância de 4 a 11% da mensuração contínua).
medida revele a presença ou ausência de um comportamento em um certo momento, ela pode não
ser representativa do valor típico do comportamento². Como uma regra geral, as observações devem
ser programadas de maneira frequentes ou diárias, mesmo que por apenas períodos breves.
O período de observação deve ser padronizado para fornecer uma oportunidade igual para a
ocorrência ou não ocorrência do comportamento ao longo das sessões e condições ambientais
consistentes de uma sessão de observação para a outra. Quando nenhuma dessas exigências for
alcançada, os dados resultantes podem não ser representativos e podem ser inválidos. Se os períodos
de observação são programados para momentos quando e/ou lugares nos quais a frequência do
comportamento é atípica, os dados podem não representar períodos de alto ou baixo responder. Por
exemplo, mensurar se o estudante está na tarefa durante apenas os primeiros 5 minutos da atividade
de aprendizado cooperativo em grupo em cada dia pode produzir dados que fazem com que o
comportamento na tarefa pareça maior do que ele de fato é durante a atividade inteira.
Quando os dados forem ser usados para avaliar os efeitos de uma intervenção ou tratamento,
os momentos de observação mais conservadores devem ser selecionados. Isso é, o comportamento
alvo deve ser mensurado durante esses momentos quando sua frequência de ocorrência é mais
provável de ser diferente dos resultados desejados ou previstos do tratamento. A mensuração dos
comportamentos focados para redução deve ocorrer durante momentos nos quais esses
comportamentos tem mais probabilidade de ocorrer em taxas mais altas de resposta. Inversamente,
os comportamentos focados para aumentar devem ser mensurados quando seu responder de alta
frequência for menos provável. Se uma intervenção não é planejada – como pode ser o caso em um
estudo descritivo – é importante selecionar os momentos de observação com maior probabilidade de
produzir dados que sejam representativos gerais do comportamento.
Dados que são artefatos podem ser resultado do uso de escalas de mensuração que não
conseguem detectar o alcance completo dos valores relevantes ou que são insensíveis as mudanças
2 Medidas únicas, como pré-testes e pós-testes, podem fornecer informações valiosas sobre o conhecimento e as
habilidades de uma pessoa antes e depois da instrução ou trat amento. O uso de sondas, medidas ocasionais, mas
sistemáticas, para avaliar a manutenção e generalização da mudança de comportamento é discutido no capítulo
intitulado “Generalização e manutenção da mudança de comportamento”.
9
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
significativas no comportamento. Os dados obtidos com uma escala de mensuração que não detecta
o alcance completo de performances relevantes podem sugerir incorretamente que o comportamento
não pode ocorrer em níveis acima ou abaixo das medidas obtidas porque a escala tem imposto um
chão ou um teto artificial para a performance. Por exemplo, mensurar a fluência da leitura oral de um
estudante ao entregar para ele um trecho de 100 palavras para ler em um minuto pode produzir dados
que sugerem que sua performance máxima é 100 palavras por minuto.
Uma escala de mensuração que é muito ou pouco sensível em relação a mudanças relevantes
no comportamento pode produzir dados que mostram erroneamente que uma mudança significativa
no comportamento tem (ou não tem) ocorrido. Por exemplo, usar uma medida de porcentagem de
10% na escala para avaliar os efeitos de uma intervenção para melhorar o controle de qualidade em
uma planta industrial pode não revelar mudanças importantes na performance se a melhora na
porcentagem de aparelhos corretamente fabricados a partir de uma linha de base de 92% até um
alcance de 97% para 98% for a diferença entre uma performance inaceitável e aceitável (i.e.,
lucrativa).
3 Recomendamos o uso de dispositivos de gravação automática de dados sempre que possível. Por exemplo, para medir
a quantidade de exercícios de meninos em bicicletas ergométricas, DeLuca e Holborn (1992) usaram contadores
magnéticos que registravam automaticamente o número de rotações das rodas.
10
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
10 segundos). Exigir mais prática durante o treinamento do observador, estabelecer um critério mais
alto para o domínio do código observacional e fornecer feedbacks mais constantes para os
observadores também pode reduzir possíveis efeitos negativos de uma mensuração complexa.
Vários métodos podem ser usados para treinar observadores. Esses incluem amostras de
vinhetas, descrições narrativas, sequências de vídeo, role-play e sessões de prática no ambiente em
que os dados reais vão ser coletados. Sessões de prática em ambientes naturais são especialmente
benéficas porque elas permitem que tanto o observador quanto o participante se adaptem a presença
do outro e podem reduzir os efeitos negativos da presença de observadores no comportamento do
participante. Os passos a seguir são um exemplo de uma abordagem sistemática para treinar
observadores.
11
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
O desvio do observador pode ser minimizado por uma reciclagem do observador ou sessões
amplificadas durante a investigação. Treinamento contínuo fornece a oportunidade para os
12
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Idealmente, os dados registrados pelos observadores têm sido influenciados apenas pelas
ocorrências e não ocorrências de fato do comportamento alvo que eles foram treinados para mensurar.
Na realidade, entretanto, uma variedade de influências não intencionais e indesejadas nos
observadores podem ameaçar a precisão e a confiabilidade dos dados que eles relatam. Causas
comuns desse tipo de erro de mensuração incluem suposições que um observador pode ter sobre
resultados esperados de um dado e consciência de um observador que outros estão mensurando o
mesmo comportamento.
Expectativas do Observador
Expectativas do observador que o comportamento alvo pode ocorrer em um certo nível sob
condições particulares, ou mudança quando uma mudança no ambiente tiver sido feita, representam
uma grande ameaça pra a exatidão da mensuração. Por exemplo, se um observador acredita ou supõe
que a implementação por um professor de uma economia de fichas deve diminuir a frequência de
comportamentos inadequados de um estudante, ele pode registrar menos comportamentos
inadequados durante a condição de reforçamento por fichas que ele deveria ter registrado sem ter
aquela expectativa. Dados influenciados pelas expectativas ou esforços de um observador para obter
resultados que vão satisfazer o pesquisador são caracterizados por viés na mensuração.
Reatividade do Observador
observados, o comportamento dos observadores (os dados que eles registram e relatam) pode ser
influenciado pelo conhecimento de que outros estão avaliando seus dados. Por exemplo, saber que o
pesquisador ou outro observador está olhando para o mesmo comportamento ao mesmo tempo, ou
que vai monitorar a mensuração por meio de vídeo – ou gravador de som – pode produzir reatividade
do observador. Se o observador antecipar que outro observador vai registrar o comportamento de
certa maneira, seus dados podem ser influenciados pelo que ele antecipa que o outro observador pode
registrar.
Após programar um sistema de mensuração que vai produzir uma representação válida do
comportamento alvo e treinar observadores para usá-lo de maneira que provavelmente vai produzir
dados confiáveis e precisos, as próximas tarefas do pesquisador relacionadas a mensuração são
avaliar a extensão na qual, de fato, os dados são confiáveis e precisos. Em essência, todos os
procedimentos para avaliar a precisão e a confiabilidade dos dados comportamentais implicam em
alguma forma de “mensurar o sistema de mensuração”.
Uma terceira razão para conduzir avaliações de precisão é revelar padrões consistentes de
erro na mensuração, o que pode levar para uma melhora geral ou calibragem do sistema de
mensuração. Quando o erro na mensuração é consistente no seu valor e direção, os dados podem ser
ajustados para compensar o erro. Por exemplo, saber que o computador da bicicleta de John
confiavelmente obteve uma medida de 68 milhas para uma rota com valor real de 58 milhas leva não
apenas aos ciclistas corrigirem os dados em mãos (nesse caso, confessar um para o outro e para o
amigo Lee que eles não tinham percorrido tantas milhas quanto eles tinham previamente afirmado)
mas também a calibrar o instrumento de mensuração para que medid as futuras sejam mais precisas
(nesse caso, ajustar a configuração da circunferência da roda no computador da bicicleta de John).
Uma quarta razão para conduzir avaliações de precisão é garantir aos consumidores de que
os dados são exatos. Incluir os resultados de avaliações de precisão no relatório de pesquisa ajuda os
leitores a julgarem a confiabilidade dos dados sendo oferecidos para interpretação.
Valores reais para alguns comportamentos são evidentes e universalmente aceitos. Por
exemplo, obter os valores reais de respostas corretas em áreas acadêmicas como matemática e soletrar
é bem direto. A resposta correta para o problema matemático 2 + 2 =? tem um valor real de 4, e o
Dicionário Oxford de Língua Inglesa é uma fonte de valores reais para avaliar a precisão de mensurar
a soletração de palavras em inglês5 . Ainda que não seja universal, valores reais para muitos
comportamentos de interesse socialmente relevantes que vão ser aplicados por pesquisadores e
praticantes podem ser estabelecidos condicionalmente em um contexto local. Por exemplo, a resposta
correta para a questão “nomeie os três amidos recomendados para engrossar gordura de frigideira”
em um teste dado a estudantes em uma escola culinária não tem um valor real universal. Apesar disso,
4 A hora oficial nos Estados Unidos pode ser acessada através do National Bureau of Standards e do relógio atômico
do Observatório Naval dos Estados Unidos (na verdade, 63 relógios atômicos são calculados em média para determina r
a hora oficia l): http: //tycho.usno.navy.mil /what1.html. O relógio atômico tem precisão de 1 bilionésimo de segundo
por dia, ou 1 segundo a cada 6 milhões de anos!
5 A grafia preferida de uma palavra pode mudar (por exemplo, judgement torna-se judgment), mas, em tais casos, um
novo valor verdadeiro é estabelecido.
15
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
um valor real relevante para o estudante realizar o teste pode ser encontrado nos materiais de curso
do estudante.
Valores reais para cada um dos exemplos anteriores foram obtidos por meio de fontes
independentes das medidas a serem avaliadas. Estabelecer valores reais para muitos comportamentos
estudados pela análise do comportamento aplicada é difícil porque o processo para determinar um
valor real deve ser diferente dos procedimentos de mensuração usados para obter os dados que
alguém deseja comparar ao valor real. Por exemplo, determinar valores reais para ocorrências de um
comportamento como o de crianças brincar cooperativamente é difícil porque a única maneira de
agregar valores para o comportamento é mensurá-lo com os mesmos procedimentos de mensuração
usados para produzir os dados.
Pode ser fácil confundir valores reais com valores que apenas parecem ser valores reais. Por
exemplo, suponha que quatro observadores bem treinados e com experiência vejam uma gravação de
interações do professor e do estudante. A tarefa deles é identificar o valor real de todas as instâncias
do elogio do professor contingente a conquistas acadêmicas. Cada observador assiste a gravação
independente e conta todas as ocorrências de elogios contingentes do professor. Após registrar suas
respectivas observações, os quatro observadores compartilham suas medidas, discutem acordos e
sugerem razões para os desacordos. Os observadores registram de maneira independente o elogio
contingente por uma segunda vez. Mais uma vez eles compartilham e discutem seus resultados. Após
repetir o processo de registrar e compartilhar várias vezes, todos os observadores concordam que eles
tem registrado todas as instâncias do elogio do professor. Entretanto, os observadores não produziram
um valor real do elogio do professor por duas razões: (1) Os observadores não podiam calibrar suas
mensurações do elogio do professor para um padrão independente de elogio do professor, e (2) o
processo usado para identificar todas as instâncias do elogio do professor pode ser enviesado (um
dos observadores pode ter convencido outros de que suas medidas representavam o valor real).
Quando valores reais não podem ser estabelecidos, pesquisadores devem se basear em avaliações de
confiabilidade e medidas de acordo entre observadores para avaliar a qualidade dos seus dados.
Ainda que um pesquisador ou praticante individual consiga avaliar a precisão dos dados que
ele coletou, geralmente são usados múltiplos observadores independentes. Brown, Dunne e Cooper
(1996) descreveram os procedimentos que eles usaram para avaliar a precisão da mensuração em um
estudo de compreensão de leitura oral des maneira a seguir:
16
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Em adição a descrever procedimentos usados para avaliar a precisão dos dados, pesquisadores
devem relatar o número e a porcentagem de med idas que foram checadas para precisão, o grau de
precisão encontrada, a extensão do erro na mensuração detectado, e se esses erros na mensuração foram
corrigidos nos dados. Brown e colegas (1996) usaram a seguinte narrativa para relatar os resultados da
sua avaliação de precisão:
Uma descrição completa e o relato dos resultados de uma avaliação de precisão ajudam os
leitores do estudo a avaliar a precisão de todos os dados inclusos no relatório. Por exemplo, suponha
que um pesquisador relatou que ele conduziu testes de precisão em 20% de dados aleatoriamente
selecionados, descobriu que essas medidas eram 97% precisas com 3% de erro não enviesado, e
corrigiu os dados avaliados como necessário. Um leitor do estudo saberia que 20% dos dados são
100% precisos e ficaria razoavelmente confiante de que os 80% de dados restantes (todos as medidas
que não tiveram precisão checada) seriam 97% precisos.
A mensuração é confiável quando ela produz os mesmos valores através de medidas repetidas
do mesmo evento. A confiabilidade é estabelecida quando o mesmo observador mede o mesmo
conjunto de dados repetidamente a partir de produtos de resposta arquivados como produtos
audiovisuais e outras formas de produtos permanentes. Quanto mais frequente um padrão de
observação é produzido, mais confiável é a mensuração (Thompson et al., 2000). Por outro lado, se
não forem alcançados valores observados similares com repetidas observações, os dados são
considerados não confiáveis. Isso leva a uma preocupação sobre a precisão, que é o indicador primário
de uma mensuração de qualidade.
Mas, como nós temos apontado repetidamente, dados confiáveis não são necessariamente
dados precisos. Como os ciclistas descobriram, a mensuração totalmente confiável (consistente) pode
17
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Os observadores não devem remensurar o mesmo produto permanente logo após mensurá-lo
pela primeira vez. Fazer isso pode resultar nas medidas da segunda pontuação serem influenciadas
pelo que o observador lembrou da pontuação original. Para evitar essa influência indesejada, um
pesquisador pode inserir várias redações previamente pontuadas ou colocar as gravações
aleatoriamente em uma sequência de “novos dados” sendo registrados pelos observadores.
Obter e registrar o consenso ente observadores serve para quatro propósitos distintos.
Primeiramente, um certo nível de IOA por ser usado como base para determinar a competência de
novos observadores. Como dito anteriormente, um alto grau de consenso entre um observador recém
treinado e um observador experiente fornece um indicador objetivo da extensão com a qual o novo
observador está mensurando o comportamento da mesma maneira que observadores experientes.
18
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Terceiro, sabendo que dois ou mais observadores obtiveram consistentemente dados similare s
aumenta a confiança de que a definição do comportamento alvo foi clara e não ambígua e o código e
sistema de mensuração não foram muito complicados. Quarto, para estudos que empregam múltiplos
observadores como coletores de dados, níveis altos e consistentes de IOA aumentam a confiança de
que a variabilidade dos dados não é uma função relacionada a qual observador estava de serviço em
uma determinada sessão, e, portanto, as mudanças nos dados têm mais probabilidade de refletir
mudanças reais no comportamento.
As duas primeiras razões para avaliar IOA são proativas: Elas ajudam os pesquisadores a
determinar e descrever o grau com o qual os observadores tem alcançado o critério de treinamento e
detectar possíveis desvios no uso do sistema de mensuração pelo observador. Os dois segundos
propósitos ou benefícios do IOA são como descritores somativos da consistência da medição entre os
observadores. Ao registrar os resultados das avaliações de IOA, os pesquisadores permitem com que
os consumidores julguem a confiabilidade relativa dos dados como digna de confiança e merecedora
de interpretação.
Uma avaliação válida de IOA depende de três critérios igualmente importantes. Ainda que
esses critérios talvez sejam óbvios, não é menos importante deixá-los explícitos. Dois observadores
(geralmente dois, mas pode ser mais) devem (a) usar o mesmo código d e observação e sistema de
mensuração, (b) observar e registrar o comportamento independente de qualquer influência um do
outro.
Os observadores devem ser capazes de observar o (s) mesmo (s) sujeito (s) precisamente nos
mesmos intervalos e períodos de observação. O IOA para dados obtidos por medição em tempo real
19
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Um procedimento comum e eficaz é que ambos os observadores ouçam por fones de ouvido
uma fita de áudio de pistas pré-gravadas, sinalizando o início e o fim de cada intervalo de observação.
Um dispositivo divisor de baixo custo que permite que dois fones de ouvido sejam plugados no mesmo
gravador permite que os observadores recebam dicas simultâneas de forma discret a e sem depender
um do outro.
Ao avaliar o IOA para dados obtidos de produtos permanentes, os dois observadores não
precisam medir o comportamento simultaneamente. Por exemplo, cada um dos observadores pode
assistir e registrar dados do mesmo vídeo ou fita de áudio em momentos diferentes. Procedimentos
devem ser implementados, entretanto, para garantir que cada observador assistiu ou ouviu as mesmas
fitas e que eles iniciaram e interromperam suas observações independentes precisamente no (s) mesmo
(s) ponto (s) das fitas. Garantir que dois observadores medem os mesmos eventos quando o
comportamento alvo produz produtos permanentes naturais, como atribuições acadêmicas concluídas
ou aplicativos fabricados, incluiria procedimentos como marcar claramente o número da sessão, data,
condição e nome do sujeito no produto e protegendo os produtos de resposta para garantir que eles não
sejam perturbados até que o segundo observador tenha obtido sua medida.
O terceiro ingrediente essencial para uma avaliação IOA válida é garantir que nenhum dos
observadores seja influenciado pelas medições do outro. Os procedimentos devem estar em vigor para
garantir a independência de cada observador. Por exemplo, observadores que realizam medições de
comportamento em tempo real “devem estar situados de forma que não possam ver nem ouvir quando
o outro observa e registra uma resposta” (Johnston & Penypacker, 1993a, p. 147). Os observadores
não devem estar sentados ou posicionados tão próximos uns dos outros que qualquer um dos
observadores possa detectar ou ser influenciado pelas gravações do outro observador.
Dar ao segundo observador planilhas acadêmicas ou tarefas escritas que já foram marcadas
por outro observador violaria a independência dos observadores. Para manter a independência, o
segundo observador deve pontuar fotocópias de planilhas ou tarefas não adulteradas e não marcadas,
conforme concluídas pelos participantes.
Existem vários métodos para calcular IOA, cada um dos quais fornece uma visão um pouco
diferente da extensão e natureza da concordância e discordância entre observadores (por exemplo,
Hartmann, 1977; Hawkins & Dotson, 1975; Page & Iwata, 1986; Poling, Methot, & LeSage, 1995;
Repp, Dietz, Boles, Dietz, & Repp, 1976). A seguinte explicação sobre os diferentes formatos de IOA
é organizada pelos três métodos principais para medir dados comportamentais: registro de eventos,
tempo e registro de intervalo ou amostragem de tempo. Embora outras estatísticas sejam usadas às
vezes, a porcentagem de concordância entre observadores é de longe a convenção mais comum para
relatar IOA na análise de comportamento aplicada 6. Portanto, fornecemos a fórmula para calcular uma
porcentagem de concordância para cada tipo de IOA.
Os vários métodos para calcular a concordância entre observador para dados obtidos por
registro de eventos são baseados na comparação (a) a contagem total registrada por cada observador
por período de medição, (b) as contagens registradas por cada observador durante cada uma de uma
série de intervalos menores de tempo dentro do período de medição, ou (c) cada contagem de
observador de 1 ou 0 em uma base de tentativa-por-tentativa.
IOA Contagem total7 : O indicador mais simples e bruto de IOA para dados de registro de
eventos compara a contagem total registrada por cada observador por período de medição. A IOA
contagem total é expressa como uma porcentagem de concordância entre o número total de respostas
registradas por dois observadores e é calculada dividindo a menor das contagens pela maior contagem
e multiplicando por 100, conforme mostrado por esta fórmula.
Contagem menos
100 = IOA contagem total %
Contagem maior
Por exemplo, suponha que uma trabalhadora de cuidados infantis em um ambiente residencial
registrou que Mitchell de 9 anos de idade usou linguagem profana 10 vezes durante um período de
observação de 30 minutos e que um segundo observador registrou que Mitchell praguejou 9 vezes
durante o mesmo período. A contagem total de IOA para o período de observação seria 90% (ou seja,
9 10 100 = 90%).
Deve-se ter muito cuidado ao interpretar a IOA contagem total porque um alto grau de
concordância não fornece nenhuma garantia de que os dois observadores registraram os mesmos casos
de comportamento. Por exemplo, o que se segue é uma das inúmeras maneiras que os dados relatados
pelos dois observadores que mediram o uso de linguagem profana por Mitchell podem não representar
nem perto de 90% de concordância de que mediram os mesmos comportamentos. A assistente social
poderia ter registrado todas as 10 ocorrências de linguagem profana em sua folha de dados durante os
primeiros 15 minutos do período de observação de 30 minutos, momento em que o segundo observador
registrou apenas 4 do total de 9 respostas que relatou.
6 IOA pode ser calculado por correlações produto-momento, que variam de +1,0 a -1,0. No entanto, expressar IOA por
coeficientes de correlação tem dois principais pontos negativos: (a) Coeficientes altos pode m ser alcançados se um
observador registrar consistentemente mais ocorrências do comportamento do que o outro e (b) os coeficien tes de
correlação não fornecem nenhuma garantia de que os observadores concordaram com a ocorrência de qualquer dado
exemplo de comportamento (Poling et al., 1995). Hartmann (1977) descreveu o uso de kappa (k) como uma medida de
IOA. A estatística k foi desenvolvida por Cohen (1960) como um procedimento para determinar a proporção de acordos
entre observadores que seriam esperados como resultado do acaso. No entanto, a estatística k raramente é relatada na
literatura de análise do comportamento.
7 Vários termos são usados na literatura de análise do comportamento aplicada para os mesmos métodos de cálculo de
IOA, e os mesmos termos às vezes são usados com significados diferentes. Acreditamos que os termos IOA usados
aqui representam as convenções mais usadas da disciplina. Em um esforço para apontar e preservar algumas distinções
significativas entre as variações das medidas IOA, introduzimos vários termos.
21
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
IOA Contagem exata por intervalo: A descrição mais rigorosa de IOA para a maioria dos
conjuntos de dados obtidos pelo registro de eventos é obtida pelo cálculo da contagem exata de IOA
por intervalo - a porcentagem de intervalos totais em que dois observadores registraram a mesma
contagem. Os dois observadores cujos dados são mostrados na Figura 2 registraram o mesmo número
de respostas em apenas dois dos seis intervalos, uma contagem exata por intervalo IOA de 33%.
Figura 2 Dois métodos para calcular a concordância entre os observadores (IOA) para
dados de registro de eventos computados em intervalos de tempo menores.
Intervalo
Observador 1 Observador 2 IOA por intervalo
(Tempo)
1 (1:00–1:05) /// // 2/3 = 67%
2 (1:05–1:10) /// /// 3/3 = 100%
3 (1:10–1:15) / // 1/2 = 50%
4 (1:15–1:20) //// /// 3/4 = 75%
5 (1:20–1:25) 0 / 0/1 = 0%
6 (1:25–1:30) //// //// 4/4 = 100%
Contagem Contagem
IOA Contagem média por intervalo = 65.3%
total total
IOA Contagem exata por intervalo = 33%
= 15 = 15
A seguinte fórmula é usada para calcular a contagem exata por intervalo IOA:
Nº de intervalos com 100% de IOA = IOA Contagem exata por
Nº de intervalos intervalo
22
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
A contagem total de IOA de dados de teste discretos está sujeita às mesmas limitações que a
contagem total de IOA de dados operantes livres: Ele tende a superestimar a extensão da concordância
real e não indica quantas respostas, ou quais respostas, tentativas ou itens, apresentaram problemas de
concordância. A comparação das contagens dos dois observadores de 14 e 15 tentativas sugere que
eles discordaram sobre a ocorrência de sorrir em apenas 1 de 20 tentativas. No entanto, é possível que
qualquer uma das 6 tentativas marcadas como "sem sorriso" pelo experimentador foi pontuada como
uma tentativa de "sorriso" pelo segundo observador e que qualquer uma das 5 tentativas registradas
pelo segundo observador como "sem sorriso" foi registrado como um “sorriso” pelo experimentador.
Assim, a contagem total de IOA de 93% pode superestimar amplamente a consistência real com a qual
os dois observadores mediram o comportamento da criança durante a sessão.
cada observador para a sessão ou os tempos registrados por cada observador por ocorrência do
comportamento (para medidas de duração) ou por resposta (para medidas de latência e IRT).
IOA Duração Total: é calculada dividindo-se a duração mais curta das duas relatadas pelos
observadores pela duração mais longa e multiplicando por 100.
Duração mais curta
100 = duração total IOA %
Duração mais longa
Tal como acontece com a contagem total de IOA para dados de registro de eventos, IOA de
alta duração total não fornece garantia de que os observadores registraram as mesmas durações para
as mesmas ocorrências de comportamento. Isso ocorre porque um grau significativo de desacordo entre
os tempos dos observadores de respostas individuais pode ser cancelado na soma. Por exemplo,
suponha que dois observadores registraram as seguintes durações em segundos para cinco ocorrências
de um comportamento:
R1 R2 R3 R4 R5
Observador 1 35 15 9 14 17
(duração total = 90 segundos)
Observador 2 29 21 7 14 14
(duração total = 85 segundos)
A IOA duração total para esses dados é talvez um reconfortante 94% (ou seja, 85 90 100
= 94,4%). No entanto, os dois observadores obtiveram a mesma duração para apenas uma das cinco
respostas, e seus tempos de respostas específicas variaram em até 6 segundos. Ao reconhecer esta
limitação da duração total do IOA, quando a duração total está sendo registrada e analisada como uma
variável dependente, relatar a duração total do IOA é apropriado. Quando possível, a duração total do
IOA deve ser complementada com a duração média por ocorrência do IOA, que é descrito a seguir.
IOA Duração média por ocorrência: deve ser calculada para dados de duração por ocorrência,
e é uma avaliação mais conservadora e geralmente mais significativa de IOA para dados de duração
total. A fórmula para calcular a duração média por ocorrência de IOA é semelhante à usada para
determinar a contagem média por intervalo de IOA:
Dur IOA R1 + Dur IOA R2 + Dur IOA Rn 100 = IOA duração média
n de respostas IOA duração porocorrência %
Usar esta fórmula para calcular a IOA duração média por ocorrência para os dados de tempo
dos dois observadores das cinco respostas apresentadas implicaria nas seguintes etapas:
1. Calcule IOA duração por ocorrência para cada respota: R1, 29 35 = 0,83; R2, 15
21 = 0,71; R3,7 9 = 0,78; R4, 14 14 = 1,0; e R5, 14 17 = 0,822.
2. Adicione as porcentagens IOA individuais para cada ocorrência: 0,83 + 0,71 + 0,78 +
1,00 + 0,82 = 4,143.
3. Divida a soma dos IOAs individuais por ocorrência pelo número total de respostas
para as quais dois observadores mediram a duração: 4,14 5 = 0,8284.
4. Multiplique por 100 e arredonde para o número inteiro mais próximo: 0,828 100 =
83%
24
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
Esta fórmula básica também é usada para calcular a IOA latência média por resposta ou IOA
IRT média por resposta para latência e dados IRT. Os tempos de latências ou IRTs de um observador
em uma sessão nunca devem ser adicionados e o tempo total comparado a um tempo total semelhante
obtido por outro observador como base para o cálculo de IOA para medidas de latência e IRT.
Além de relatar a concordância média por ocorrência, a avaliação IOA para dados de tempo
pode ser aprimorada com informações sobre a gama de diferenças entre os tempos dos observadores e
a porcentagem de respostas para as quais os dois observadores obtiveram medidas dentro de um certo
intervalo de erro. Por exemplo: A duração média por ocorrência de IOA para conformidade de Temple
foi de 87% (variação entre as respostas, 63 a 100%), e 96% de todos os tempos obtidos pelo segundo
observador estavam dentro de +/– 2 segundos do observador principal medidas.
Três técnicas comumente usadas por analistas de comportamento aplicados para calcular IOA
para dados de intervalo são IOA de intervalo por intervalo, IOA de intervalo pontuado e IOA de
intervalo não pontuado.
IOA intervalo por intervalo: Ao usar IOA intervalo por intervalo (às vezes referido como o
ponto a ponto e método de intervalo total), o registro do observador primário para cada intervalo é
combinado com o registro do observador secundário para o mesmo intervalo. A fórmula para calcular
IOA intervalo a intervalo é a seguinte:
Número de intervalos em acordo
100 = IOA intervalo por
Número de intervalos em acordo + Número
intervalo %
de intervalos em desacordo
Os dados hipotéticos na Figura 3 mostram o método intervalo a intervalo para cálculo de IOA
com base no registro de dois observadores que registraram a ocorrência (X) e a não ocorrência (0) do
comportamento em cada um dos 10 intervalos de observação. As fichas de dados dos observadores
mostram que eles concordaram sobre a ocorrência ou não ocorrência do comportamento por sete
intervalos (Intervalos 2, 3, 4, 5, 7, 9 e 10). Intervalo por intervalo IOA para este conjunto de dados é
70% (ou seja, 7 [7 + 3] 100 = 70%).
Para comportamentos que ocorrem em taxas baixas, o IOA de intervalo pontuado é uma
medida de concordância mais conservadora do que o IOA de intervalo a intervalo. Isso ocorre porque
o IOA de intervalo pontuado ignora os intervalos nos quais a concordância por acaso é altamente
provável. Por exemplo, usar o método intervalo a intervalo para calcular IOA para os dados na Figura
4 resultaria em uma concordância de 80%. Para evitar medidas de IOA super infladas e possivelmente
enganosas, recomendamos o uso de concordância entre observador de intervalo pontuado para
comportamentos que ocorrem em frequências de aproximadamente 30% ou menos intervalos.
intervalo não pontuado. Uma concordância é contada quando ambos os observadores registraram a não
ocorrência do comportamento no mesmo intervalo, e cada intervalo em que um observador registrou a
não ocorrência do comportamento e o outro registrou sua ocorrência é contado como uma discordância.
Por exemplo, apenas os intervalos 1, 4, 7 e 10 seriam usados no cálculo do IOA de intervalo não
pontuado para os dados na Figura 5, porque pelo menos um observador registrou a não ocorrência do
comportamento em cada um desses intervalos. Os dois observadores concordaram que o
comportamento não ocorreu nos intervalos 4 e 7. Portanto, o intervalo não pontuado IOA neste exemplo
é 50% (2 intervalos de concordância divididos pela soma de 2 intervalos de concordância mais 2
intervalos de discordância 100 = 50%).
Para comportamentos que ocorrem em taxas relativamente altas, o IOA de intervalo não
pontuado fornece uma avaliação mais rigorosa da concordância entre os observadores do que o IOA
de intervalo a intervalo. Para evitar medidas de IOA super inflacionadas e possivelmente enganosas,
recomendamos o uso de concordância interobservador de intervalo não pontuado para comportamentos
que ocorrem em frequências de aproximadamente 70% ou mais dos intervalos.
A concordância entre observador deve ser avaliada durante cada condição e fase de um estudo
e ser distribuída entre os dias da semana, horários do dia, cenários e observadores. O agendamento das
avaliações IOA desta maneira garante que os resultados fornecerão uma imagem representativa (ou
seja, válida) de todos os dados obtidos em um estudo. A prática atual e as recomendações de autores
de textos de métodos de pesquisa comportamental sugerem que o IOA seja obtido para um mínimo de
20% das sessões de um estudo e, de preferência, entre 25% e 33% das sessões (Kennedy, 2005; Poling
et al., 1995). Em geral, os estudos que usam dados obtidos por meio de medição em tempo real terão
IOA avaliado para uma porcentagem maior de sessões do que estudos com dados obtidos de produtos
permanentes.
A frequência com que os dados devem ser avaliados a concordância entre os observadores
varia de acordo com a complexidade do código de medição, o número e a experiência dos observadores,
27
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
o número de condições e fases e os resultados das próprias avaliações IOA. Avaliações IOA mais
frequentes são esperadas em estudos que envolvem sistemas de medição novos ou complexos,
observadores inexperientes e numerosas condições e fases. Se métodos adequadamente conservadores
para obtenção e cálculo de IOA revelarem altos níveis de concordância no início de um estudo, o
número e a proporção de sessões nas quais o IOA é avaliado podem diminuir à medida que o estudo
avança. Por exemplo, a avaliação IOA pode ser realizada em cada sessão no início de uma análise e,
em seguida, reduzida a um cronograma de uma vez a cada quatro ou cinco sessões.
Em geral, os pesquisadores devem obter e relatar o IOA nos mesmos níveis em que relatam e
discutem os resultados de seu estudo. Por exemplo, um pesquisador que analisa os efeitos relativos de
duas condições de tratamento em dois comportamentos de quatro participantes em dois ambientes deve
relatar os resultados de IOA em ambos os comportamentos para cada participante, separados por
condição de tratamento e ambiente. Isso permitiria aos consumidores da pesquisa julgar a credibilidade
relativa dos dados dentro de cada componente do experimento.
Métodos mais rigorosos e conservadores de cálculo de IOA devem ser usados em vez de
métodos que provavelmente superestimam a concordância real como resultado do acaso. Com os dados
de registro de eventos usados para avaliar a precisão do desempenho, recomendamos relatar o IOA
geral de avaliação tentativa-por-tentativa ou base tentativa-por-tentativa, talvez complementado com
cálculos IOA separados para respostas corretas e respostas incorretas. Para dados obtidos por intervalo
ou medição de amostragem de tempo, recomendamos complementar IOA intervalo a intervalo com
IOA de intervalo pontuado ou IOA de intervalo não pontuado, d ependendo da frequência relativa do
comportamento. Em situações em que o observador primário pontua o comportamento-alvo como
ocorrendo em aproximadamente 30% ou menos intervalos, o IOA de intervalo pontuado fornece um
suplemento conservador para o IOA de intervalo a intervalo. Inversamente, quando o observador
primário pontua o comportamento-alvo como ocorrendo em aproximadamente 70% ou mais dos
intervalos, o IOA de intervalo não pontuado deve suplementar o IOA de intervalo a intervalo. Se a taxa
na qual o comportamento alvo ocorre muda de muito baixa para muito alta, ou de muito alta para muito
baixa, entre as condições ou fases de um estudo, relatar IOA com intervalo não pontuado e intervalo
pontuado pode ser garantido.
Em caso de dúvida sobre qual forma de IOA relatar, o cálculo e a apresentação de diversas
variações ajudarão os leitores a fazer seus próprios julgamentos quanto à credibilidade dos dados. No
entanto, se a aceitação dos dados para interpretação ou tomada de decisão repousa sobre qual fórmula
para calcular IOA é escolhida, existem sérias preocupações sobre a confiabilidade dos dados que devem
ser abordadas.
necessário, apenas uma longa história de pesquisadores usando esse percentual como um referencial
de aceitabilidade e tendo sucesso em suas atividades de pesquisa” (p. 120).
Miller (1997) recomendou que o IOA deveria ser 90% ou mais para uma medida estabelecida
e pelo menos 80% para uma nova variável. Vários fatores atuantes em uma determinada situação
podem tornar um critério de 80% ou 90% muito baixo ou muito alto. A concordância interobservador
de 90% sobre o número de palavras contidas nas redações dos alunos deve levantar questões sérias
sobre a confiabilidade dos dados. IOA próximo a 100% é necessário para aumentar a credibilidade dos
dados de contagem obtidos de produtos permanentes. No entanto, alguns analistas podem aceitar dados
com um IOA médio tão baixo quanto 75% para a medição simultânea de vários comportamentos por
vários sujeitos em um ambiente complexo, especialmente se for basead o em um número suficiente de
avaliações IOA individuais com um pequeno intervalo (por exemplo, 73 a 80%).
O grau de mudança de comportamento revelado pelos dados também deve ser considerado ao
determinar um nível aceitável de concordância entre os observadores. Quando a mudança de
comportamento de uma condição para outra é pequena, a variabilidade nos dados pode representar
mais a observação inconsistente do que a mudança real no comportamento. Portanto, quanto menor a
mudança no comportamento entre as condições, mais alto deve ser o critério para uma porcentagem de
IOA aceitável (Kennedy, 2005).
As pontuações de IOA podem ser relatadas em forma de narrativa, tabela e gráfico. Qualquer
que seja o formato escolhido, é importante observar como, quando e com que frequência a
concordância entre observador foi avaliada.
Descrição narrativa: A abordagem mais comum para relatar IOA é uma descrição narrativa
simples da média e intervalo das porcentagens de concord ância. Por exemplo, Craft, Alber e Heward
(1998) descreveram os métodos e resultados das avaliações IOA em um estudo em que quatro variáveis
dependentes foram medidas da seguinte forma:
Recrutamento de alunos e elogios aos professores. Um segundo observador esteve
presente em 12 (30%) das 40 sessões do estudo. Os dois observadores observaram independente
e simultaneamente os 4 alunos, registrando o núm ero de respostas de recrutamento que emitiram
e os elogios dos professores que receberam. As notas narrativ as descritivas registradas pelos
observadores permitiram que cada episódio de recrutamento fosse identificado para fins de
concordância. A concordância entre observador foi calculada episódio a episódio dividindo -se o
número total de concordâncias pelo núm ero total de concordâncias mais discordâncias e
multiplicando por 100%. A concordância para frequência de recrutamento de alunos variou entre
os alunos de 88,2% a 100%; a concordância quanto à frequência de elogios dos professores
recrutados foi de 100% pa ra todos os 4 alunos; concordância para frequência de elogios de
professores não recrutados variou de 93,3% a 100%.
Conclusão e precisão do trabalho acadêmico. Um segundo observador registrou
independentemente a conclusão do trabalho de cada aluno e a prec isão em 10 (25%) sessões. A
concordância entre servidores para preenchimento e precisão nas planilhas de ortografia foi de
100% para todos os 4 alunos.
Tabela 1 Resultados de concordância interobservador para cada variável dependente por participante
e condição experimental
ª Não há dados disponíveis para respostas com script e elaborações na condição de desvanecimento do script,
porque a concordância entre os observadores f oi obtida depois que os scripts f oram removidos (ou seja, porque
os scripts estavam ausentes, poderia haver apenas respostas sem script).
Extraído de “Habilidades de interação social para crianças com autismo: um procedimento de desvanecimento
do script para leitores iniciantes”, por P. J. Krantz e L. E. McClannahan, 1998, Journal of Applied Behavior
Analysis, 31, p. 196. Copyright 1998 da Sociedade para a Análise Experimental do Comportamento, Inc.
Reproduzido com permissão.
uma maneira simples e direta para os pesquisadores detectar padrões na consistência (ou
inconsistência) com os quais os observadores estão medindo o comportamento que pode não ser tão
evidente na comparação de uma série de porcentagens.
Figura 6 Medidas de
plotagem obtidas por um
segundo observador em um
gráfico dos dados do
observador primário
fornecem uma representação
visual da extensão e natureza
da concordância entre
observador.
Que Abordagem Deve Ser Usada Para Avaliar A Qualidade Da Medição: Exatidão,
Confiabilidade Ou Concordância entre observador?
Depois de garantir a validade do que estão medindo e como o estão medindo, os analistas do
comportamento aplicados devem escolher avaliar a precisão da medição sempre que possível, em vez
da confiabilidade ou concordância entre os observadores. Se for possível determinar que todas as
medições em um conjunto de dados atendem a um critério de precisão aceitável, as questões
relacionadas à confiabilidade da medição e à concordância entre observador são discutíveis. Para que
os dados sejam confirmados como precisos, não é necessário realizar avaliações adicionais de
confiabilidade ou IOA.
Não há motivos para evitar que os pesquisadores usem procedimentos de avaliação múltiplos
para avaliar o mesmo conjunto de dados. Quando o tempo e os recursos permitirem, pode até ser
desejável incluir combinações de avaliações. Os analistas de comportamento aplicados podem usar
qualquer combinação possível da avaliação (por exemplo, precisão mais IOA, confiabilidade mais
IOA). Além disso, alguns aspectos do conjunto de dados podem ser avaliados quanto à precisão ou
confiabilidade, enquanto outros aspectos são avaliados com IOA. O exemplo anterior de avaliação de
precisão relatado por Brown e colegas (1996) incluiu avaliações de precisão e IOA. Observadores
independentes registraram recontagens atrasadas de alunos corretas e incorretas. Quando o IOA era
inferior a 100%, os dados para aquele aluno e sessão foram avaliados quanto à precisão. O IOA foi
usado como uma avaliação para aumentar a credibilidade e também como um procedimento para
selecionar dados a serem avaliados quanto à precisão.
Resumo
8. Artefatos de medição são dados que fornecem 17. Os pesquisadores e profissionais que avaliam
uma imagem injustificada ou enganosa do a precisão de seus dados podem (a)
comportamento devido à forma como a determinar no início de uma análise se os
medição foi realizada. Medição descontínua, dados são utilizáveis para tomar decisões
observações mal programadas e escalas de experimentais ou de tratamento, (b) descobrir
medição insensíveis ou limitantes são causas e corrigir erros de medição, (c) detectar
comuns de artefatos de medição. padrões consistentes de erro de medição que
pode levar à melhoria geral ou calibração do
Ameaças à precisão e confiabilidade da medição sistema de medição, e (d) comunicar a outros
a confiabilidade relativa dos dados.
9. A maioria das investigações em análise do 18. Avaliar a precisão da medição é um processo
comportamento aplicada usa observadores direto de calcular a correspondência de cada
humanos para medir o comportamento, e o medida, ou dado, avaliado em seu valor real.
erro humano é a maior ameaça à precisão e 19. Os verdadeiros valores para muitos
confiabilidade dos dados. comportamentos de interesse para analistas
10. Os fatores que contribuem para o erro de de comportamento aplicados são evidentes e
medição incluem sistemas de medição mal universalmente aceitos ou podem ser
projetados, treinamento de observador estabelecidos condicionalmente pelo
inadequado e expectativas sobre a aparência contexto local. Os valores reais para alguns
dos dados. comportamentos (por exemplo, jogo
11. Os observadores devem receber treinamento cooperativo) são difíceis porque o processo
sistemático e prática com o sistema de para determinar um valor verdadeiro deve ser
medição e atender aos critérios de precisão e diferente dos procedimentos de medição
confiabilidade predeterminados antes de usados para obter os dados que se deseja
coletar os dados. comparar com o valor verdadeiro.
12. O desvio do observador - mudanças não 20. Avaliar até que ponto os observadores estão
intencionais na maneira como um observador aplicando de forma confiável um sistema de
usa um sistema de medição durante uma medição válido e preciso fornece um
investigação - pode ser minimizado por indicador útil da confiabilidade geral dos
sessões de treinamento de reforço e feedback dados.
sobre a precisão e confiabilidade da medição. 21. Avaliar a confiabilidade da medição requer
13. As expectativas ou conhecimento de um um produto permanente natural ou artificial
observador sobre os resultados previstos ou para que o observador possa medir
desejados podem prejudicar a precisão e a novamente os mesmos eventos
confiabilidade dos dados. comportamentais.
14. Os observadores não devem receber feedback 22. Embora a alta confiabilidade não confirme a
sobre a extensão em que seus dados alta precisão, descobrir um baixo nível de
confirmam ou vão contra os resultados confiabilidade sinaliza que os dados são
hipotéticos ou objetivos de tratamento. suspeitos o suficiente para serem
15. O viés de medição causado pelas expectativas desconsiderados até que os problemas no
do observador pode ser evitado usando sistema de medição possam ser determinados
observadores ingênuos. e reparados.
16. A reatividade do observador é um erro de
medição causado pela consciência de um Usando a concordância entre observador para
observador de que outros estão avaliando os avaliar a medição comportamental
dados que ele relata.
23. O indicador de qualidade de medição mais
Avaliando a precisão e confiabilidade da medição comumente usados em ABA é a concordância
comportamental entre observador (IOA), o grau em que dois
ou mais observadores independentes relatam
33
Melhorando e Avaliando a Qualidade da Mensuração Comportamental
os mesmos valores observados após medir os mais longa. A duração média por ocorrência
mesmos eventos. de IOA é uma avaliação mais conservadora e
24. Pesquisadores e profissionais usam medidas geralmente mais significativa de IOA para
de IOA para (a) determinar a competência de dados de duração total e deve sempre ser
novos observadores, (b) detectar desvio do calculada para dados de duração por
observador, (c) julgar se a definição do ocorrência.
comportamento alvo é clara e o sistema não é 32. Três técnicas comumente usadas para
muito difícil de usar, e (d) convencer os calcular o IOA para dados de intervalo são
outros da credibilidade relativa dos dados IOA de intervalo por intervalo, IOA de
25. Medir IOA requer que dois ou mais intervalo pontuado e IOA de intervalo não
observadores (a) usem o mesmo código de pontuado.
observação e sistema de medição, (b) observe 33. Por estar sujeito a acordo aleatório ou
e meça o (s) mesmo (s) participante (s) e acidental entre observadores, o IOA intervalo
eventos, e (c) observe e registre o a intervalo provavelmente superestima o grau
comportamento independente da influência de acordo entre os observadores que medem
de outros observadores. comportamentos que ocorrem em taxas muito
26. Existem inúmeras técnicas para calcular IOA, baixas ou muito altas.
cada uma das quais fornece uma visão um 34. O IOA de intervalo com pontuação é
pouco diferente da extensão e natureza da recomendado para comportamentos que
concordância e desacordo entre os ocorrem em frequências relativamente
observadores. baixas; O IOA de intervalo não pontuado é
27. A porcentagem de concordância entre recomendado para comportamentos que
observadores é a convenção mais comum ocorrem em frequências relativamente altas.
para relatar IOA na ABA. 35. As avaliações IOA devem ocorrer durante
28. IOA para dados obtidos por registro de evento cada condição e fase de um estudo e ser
pode ser calculado comparando (a) a distribuídas entre os dias da semana, horários
contagem total registrada por cada do dia, cenários e observadores.
observador por período de medição, (b) as 36. Os pesquisadores devem obter e relatar IOA
contagens registradas por cada observador nos mesmos níveis em que relatam e discutem
durante cada uma de uma série de intervalos os resultados de seu estudo.
menores de tempo dentro o período de 37. Métodos IOA mais rigorosos e conservadores
medição, ou (c) a contagem de cada devem ser usados em vez de métodos que
observador de 1 ou 0 em uma base podem superestimar a concordância como
experimental. resultado do acaso.
29. A contagem total de IOA é o indicador mais 38. A convenção para IOA aceitável tem sido de
simples e bruto de IOA para dados de registro no mínimo 80%, mas não pode haver um
de eventos, e a contagem exata por intervalo critério definido. A natureza do
de IOA é a mais rigorosa para a maioria dos comportamento sendo medido e o grau de
conjuntos de dados obtidos por registro de mudança de comportamento revelado pelos
eventos. dados devem ser considerados ao determinar
30. IOA para dados obtidos por duração de um nível aceitável de IOA.
tempo, latência de resposta ou tempo entre 39. As pontuações do IOA podem ser relatadas
respostas (IRT) é calculado essencialmente em forma de narrativa, tabela e gráfico.
da mesma forma que para dados de registro 40. Os pesquisadores podem usar vários índices
de eventos. para avaliar a qualidade de seus dados (por
31. A duração total do IOA é calculada exemplo, precisão mais IOA, confiabilidade
dividindo-se a duração mais curta das duas mais IOA).
informadas pelos observadores pela duração