Você está na página 1de 15

Behav Anal Pract. Inverno de 2008; 1 (2): 4–11.

PMCID: PMC2846587
Publicado online no inverno de 2008. doi:  10.1007 / BF03391722 PMID: 22477682

Implicações práticas da confiabilidade dos dados e monitoramento


da integridade do tratamento
Timothy R Vollmer , Ph.D., BCBA e Kimberly N Sloman , Ph.D., BCBA

Kimberly N Sloman, Universidade da Flórida;

Claire St. Peter Pipkin , Ph.D., BCBA

Claire St. Peter Pipkin, West Virginia University;

Autor correspondente. 
Address correspondence to Timothy R. Vollmer, Psychology Department, University of Florida, 32611 (email:
vollmera@ufl.edu).

Copyright © 2008 ABA International

Resumo
A confiabilidade dos dados e a integridade do tratamento têm implicações importantes para a prática
clínica porque podem afetar a capacidade dos médicos de julgar com precisão a eficácia das
intervenções comportamentais. Os dados de confiabilidade e integridade também permitem que os
médicos forneçam feedback aos cuidadores e ajustem as intervenções conforme necessário.
Apresentamos as razões pelas quais as medidas de confiabilidade e integridade são fundamentais no
trabalho clínico, discutimos eventos que podem resultar em confiabilidade ou integridade diminuídas e
fornecemos vários meios eficientes para coletar dados e calcular medidas de confiabilidade e
integridade.

Descritores: Análise de dados, integridade, confiabilidade

É prática padrão registrar a confiabilidade dos dados (isto é, concordância interobservador) ao


conduzir experimentos comportamentais aplicados ( Hartmann, 1977 ). Não é uma prática padrão
registrar a integridade do tratamento em experimentos comportamentais aplicados, mas tem havido
fortes apelos para isso, junto com algumas evidências recentes de que a prática está aumentando em
frequência ( McIntyre, Gresham, DiGennaro, & Reid, 2007) No entanto, tem havido pouca discussão
sobre a importância dessas medidas na prática cotidiana de análise do comportamento. O objetivo deste
artigo é fornecer um breve histórico sobre os tipos de medidas de confiabilidade e integridade, uma
justificativa para o uso dessas medidas em ambientes clínicos e alguns métodos possíveis para coletar
dados de confiabilidade e integridade.

Vários tipos de medidas de confiabilidade podem ser tomadas, mas neste artigo estamos nos referindo
especificamente à extensão em que dois observadores concordam sobre a ocorrência ou não ocorrência
de eventos. Por exemplo, se a pessoa A registra uma ocorrência de agressão entre 14h30 e 14h35, a
pessoa B também registra uma ocorrência de agressão durante esse período? Os observadores
concordam que o episódio ocorreu ou não ocorreu? Por integridade do tratamento, queremos dizer até
que ponto os procedimentos comportamentais são conduzidos de acordo com um plano de mudança de
comportamento ( Gresham, Gansle, Noell, Cohen e Rosenblum, 1993 ). Por exemplo, se o plano de
comportamento estabelece que um reforçador deve ser aplicado após alguma instância específica de
comunicação vocal, o reforçador é realmente aplicado?

No curso de nossa prática analítica do comportamento, frequentemente avaliamos a implementação de


procedimentos comportamentais em ambientes de serviço, escolas, residências e outros ambientes.
Freqüentemente, quando começamos a detalhar o processo de coleta de dados de confiabilidade e
dados de integridade do tratamento, ouvimos algo semelhante à seguinte reclamação: “Não estamos
conduzindo pesquisas aqui. Sei que vocês são pesquisadores e para vocês esse tipo de coisa é
importante, mas estamos administrando um centro de tratamento, não realizando um experimento ”.
Esses comentários vêm de uma série de pessoas, incluindo professores, analistas do comportamento,
pais sofisticados e outros. Em outras palavras, muitas pessoas qualificadas estão conduzindo a prática
sem confiabilidade dos dados e monitoramento da integridade do tratamento. Vemos isso como uma
prática potencialmente perigosa.

A falha na coleta de medidas de confiabilidade de dados e integridade do tratamento é potencialmente


perigosa porque as decisões de mudança de vida são feitas com base na suposição de que os dados
relatados são razoavelmente precisos e com base na suposição de que os procedimentos prescritos 
foram conduzidos conforme especificado. Algumas decisões de mudança de vida que surgem a partir
dessas suposições incluem colocação residencial, o uso de procedimentos comportamentais restritivos,
mudanças ou falta de medicamentos psicotrópicos, uso de pessoal restritivo ou de mão de obra
intensiva e assim por diante. Parece claro que poucos questionariam a adequação da confiabilidade dos
dados e integridade do tratamento se o problema fosse médico e não comportamental. Considere duas
analogias médicas:

O paciente A tem convulsões graves e, portanto, é prescrito o medicamento Z como tratamento.


Os pais do paciente A são solicitados a registrar todas as ocorrências de convulsões antes da
introdução e após a introdução da medicação Z. Suponha que os pais sejam razoavelmente
diligentes e registrem com precisão as convulsões antes da medicação, mas relaxem um pouco e
se esqueçam de registrar muitas das convulsões após a introdução da medicação Z. Na próxima
consulta médica, com base nos dados dos pais, a equipe médica do Paciente A conclui que a
medicação Z foi eficaz e o paciente deve permanecer com a medicação. Na verdade, as
verificações de confiabilidade dos dados teriam mostrado que o registro das convulsões havia
diminuído e não havia nenhuma mudança real na frequência. O medicamento Z foi ineficaz, mas
os dados sugeriram o contrário.

O paciente B tem convulsões graves e, portanto, é prescrito o medicamento X como tratamento.


A enfermeira do paciente B é solicitada a administrar o medicamento X duas vezes ao dia.
Suponha que a enfermeira frequentemente se esqueça de dar a medicação, mas seus registros de
dados sobre a frequência dos episódios de convulsão são razoavelmente precisos (não mostrando
nenhuma mudança, porque a medicação não tem chance de funcionar). Na próxima consulta
médica, a equipe médica do Paciente B conclui que o Medicamento X era ineficaz e passa a
prescrever o Medicamento W como alternativa, e o Medicamento W é conhecido por ter efeitos
colaterais graves. Na verdade, o medicamento pode ter sido eficaz se administrado conforme
prescrito e agora o Paciente B está recebendo um medicamento mais perigoso.

Esses exemplos são relativamente diretos porque não é difícil entender a necessidade de (a) monitorar
com precisão uma condição médica que está sendo tratada por meio de medicamentos e (b) administrar
medicamentos com precisão. É bastante simples inserir o comportamento e os procedimentos
comportamentais em exemplos paralelos, como segue:
A pessoa C apresenta autolesão grave e, portanto, recebe uma avaliação comportamental
completa por uma equipe qualificada. Um procedimento baseado no reforço diferencial é
prescrito como resultado do resultado da avaliação. Os pais da pessoa C recebem instruções para
conduzir o procedimento e registrar os dados sobre automutilação antes e depois da
implementação do tratamento. Os pais são diligentes e razoavelmente precisos na coleta de dados
antes do tratamento, mas eles relaxam um pouco após o início do tratamento e se esquecem de
registrar muitos casos de automutilação. Na próxima reunião da equipe profissional
interdisciplinar, a equipe conclui que o tratamento comportamental foi eficaz com base nos dados
dos pais, e nenhuma alteração é feita. Na verdade, as verificações de confiabilidade dos dados
teriam mostrado que o tratamento comportamental foi ineficaz.

A pessoa D apresenta autolesão grave e, portanto, recebe uma avaliação comportamental


completa por uma equipe qualificada. Um procedimento baseado no reforço diferencial é
prescrito como resultado do resultado da avaliação. O professor da pessoa D é solicitado a
implementar o procedimento, mas frequentemente se esquece de fazê-lo e, no processo, reforça a
automutilação e coloca o comportamento alternativo em extinção. Na próxima reunião da equipe
profissional interdisciplinar, a equipe conclui que o tratamento comportamental foi ineficaz e
eles prescrevem um medicamento psicotrópico potencialmente perigoso, contenção física
contingente e pessoal extra. Na verdade, as verificações de integridade do tratamento teriam 
mostrado que o procedimento não foi implementado corretamente e pode muito bem ter sido
eficaz se conduzido com boa integridade. A pessoa agora recebe perigosas, intrusivas,

Nestes exemplos, os erros de confiabilidade dos dados resultaram em resultados de tratamento “falsos
positivos” (mostrando falsamente um bom efeito de tratamento) e os erros de integridade de tratamento
resultaram em resultados “falsos negativos” (apresentando falsamente nenhum efeito de tratamento).
Esses exemplos pretendiam destacar algumas das implicações da confiabilidade dos dados e do
monitoramento da integridade do tratamento. Nossa tese geral é que medir a confiabilidade e a
integridade é inerentemente importante. Além disso, há várias vantagens em tal abordagem que podem
ter utilidade prática no dia-a-dia. A seguir, apresentaremos alguns usos práticos da confiabilidade dos
dados e do monitoramento da integridade do tratamento.

Uso prático
Um uso prático da confiabilidade dos dados e do monitoramento da integridade do tratamento é
fornecer feedback imediato ao coletor de dados e implementador do procedimento. O feedback deve
assumir duas formas: (a) feedback positivo para o registro correto de dados e / ou implementação de
procedimento e (b) feedback corretivo para registro de dados incorreto e / ou implementação de
procedimento ( DiGennaro, Martens, & Kleinmann, 2007 ; Sulzer-Azaroff & Mayer, 1991) É claro que
os dados incorretos ou a implementação de procedimentos podem não ser a "falha" do coletor de dados
ou implementador de tratamento, como quando há definições comportamentais deficientes. Nesses
casos, o coletor de dados / implementador do procedimento não deve receber feedback positivo ou
corretivo, mas deve ser convidado a ajudar a revisar as definições e outras fontes de erro. Quando o
feedback é fornecido, recomendamos que qualquer oportunidade para feedback positivo seja
aproveitada. Por exemplo, a pessoa que monitora os dados deve evitar afirmações como “Bem, isso foi
uma perda de tempo, o comportamento nem ocorreu, então não pudemos comparar nossos dados”. Em
vez disso, se ambos os observadores não registraram uma instância de comportamento, o monitor pode
dizer: “Ótimo, ambos registramos que o comportamento não ocorreu. Isso é um acordo e hoje tivemos
sucesso.

Verificamos que se o feedback corretivo ocorrer com grande frequência em relação ao feedback
positivo, o monitor pode se tornar um estímulo aversivo condicionado. Ou seja, coletores de dados e
implementadores de tratamento podem começar a escapar ou evitar sessões de monitoramento. Por
outro lado, quando o monitor freqüentemente aponta o registro correto de dados e a implementação de
procedimentos, as sessões devem ser favoráveis ​para o coletor de dados / implementador de
procedimento primário. Pode ser importante agendar observações durante os períodos em que o
comportamento é mais provável de ocorrer, a fim de fornecer mais oportunidades de comparação e
feedback. Por exemplo, se o comportamento do alvo é mantido por fuga das instruções, a observação
deve ser agendada para sessões de instrução.

Um segundo uso prático é fornecer feedback de desempenho atrasado e cumulativo para coletores de
dados / implementadores de procedimento ( Noell et al., 2000) Essa função é semelhante ao feedback
imediato discutido acima, mas depende do recurso adicional de tendências de desempenho de longo
prazo. Com as mesmas advertências discutidas acima (como outras razões para baixa confiabilidade e
integridade, incluindo definições mal formuladas), o feedback atrasado pode assumir duas formas
gerais: (a) feedback positivo na forma de reconhecimento, promoção e elogio, ou (b ) feedback
corretivo na forma de treinamento adicional ou detalhamento adicional de procedimentos ou reuniões
de supervisor (Noell et al.). Alguns usos excelentes de feedback positivo atrasado para desempenho
cumulativo incluem reconhecimento público em uma reunião de equipe ou de pais (por exemplo, “A
Sra. Smith tem cuidado de uma criança com comportamento muito perigoso; Estou feliz em informar
que suas pontuações de confiabilidade de dados ultrapassaram 90% nos últimos três meses e suas
pontuações de implementação de tratamento foram de 100% no mês passado! ”); reconhecimento 
público por meio de prêmios; reconhecimento em um site ou em um boletim informativo ou jornal; e
assim por diante, incluindo reconhecimento privado em uma avaliação de desempenho escrita ou oral.

Um terceiro uso prático está relacionado à tomada de decisão clínica. Mudanças nos procedimentos
comportamentais devem ser informadas por dados de confiabilidade e integridade do tratamento,
conforme exemplificado pelos casos hipotéticos apresentados anteriormente. Por exemplo, se houver
um aumento nas taxas de comportamento problemático simultaneamente com melhores pontuações de
confiabilidade de dados, é possível que os coletores de dados estejam simplesmente melhorando na
coleta de dados e, portanto, as taxas aumentadas de comportamento problemático podem não
apresentar a necessidade de procedimentos alterados. No caso da integridade do tratamento, é possível
que os efeitos do tratamento insatisfatório não sejam devidos a um tratamento inadequado em si, mas
sim a um tratamento que não está sendo implementado suficientemente.figura 1mostra um exemplo
hipotético do uso de medidas de integridade para determinar a necessidade de treinamento de reforço
(para um exemplo real, consulte Vollmer, Marcus, & LeBlanc, 1994 ). Portanto, um analista do
comportamento deve estar equipado com dados de confiabilidade e integridade do tratamento sempre
que decisões clínicas críticas estiverem sendo tomadas. Se as medidas de confiabilidade e integridade
forem sólidas, boas decisões clínicas podem ser feitas com base em uma avaliação adequada dos
efeitos do tratamento ou na falta deles.

figura 1

Dados hipotéticos que mostram a interação entre a porcentagem de etapas corretas concluídas (integridade
do tratamento, mostrada nos círculos preenchidos) e o comportamento problemático da criança (mostrado
nos círculos abertos). O comportamento problemático da criança aumenta à medida que a integridade do
tratamento diminui; um treinamento de reforço (mostrado pela seta) resulta no aumento da integridade do
tratamento e na recuperação dos efeitos do tratamento.

Algumas advertências sobre confiabilidade e integridade de procedimentos


É importante observar que uma pontuação de alta confiabilidade não significa necessariamente alta
precisão. Claramente, dois observadores podem estar errados sobre a mesma coisa ( Hawkins &
Dotson, 1975 ). Além disso, como algumas medidas de confiabilidade tendem a ser mais conservadoras
ou mais liberais do que outras, não há pontuação “mágica” que indique uma boa confiabilidade. Por
causa dessas advertências relacionadas à confiabilidade dos dados, recomendamos o uso das medidas
para indicar quando algo está claramente errado. Em outras palavras, não se deve necessariamente ser
consolado por um alto percentual de concordância, mas certamente deve se preocupar com um baixo
percentual de concordância.

Uma advertência importante sobre a integridade do tratamento é que diferentes procedimentos


requerem diferentes níveis de implementação correta. Por exemplo, um erro ocasional em um
procedimento de extinção equivale a um esquema intermitente de reforço. Suponha que um pai
implemente corretamente a extinção durante 95% dos episódios de comportamento perturbador noturno
da criança. Isso significa que o comportamento é reforçado em um esquema de razão variável (VR) 20,
o que poderia manter o comportamento do problema. Assim, uma pontuação de integridade que parece
e soa “alta” pode ser muito ruim, dependendo do procedimento. Como alternativa, alguns
procedimentos podem não exigir altos níveis de integridade para serem bem-sucedidos. Por exemplo,
um erro ocasional em um esquema de reforço diferencial de comportamento alternativo (DRA) pode
não ser prejudicial se o comportamento alternativo (desejável) receber mais reforço do que o
comportamento problemático. Suponha que um pai reforce acessos de raiva em um esquema de VR 4
(75% de integridade se a intervenção prescrita não for nenhum reforço após acessos de raiva), mas
reforce os pedidos apropriados de atenção em um esquema de VR 2 (50% de integridade se a
intervenção prescrita for um reforço seguindo todos os pedidos apropriados para atenção). Como a
programação é muito mais rica para o comportamento apropriado, podemos prever, com base em
décadas de pesquisas sobre o comportamento de escolha, que a criança alocaria quase todo o
comportamento na direção do comportamento apropriado. Portanto, o que pode parecer e soar como
integridade “baixa” pode ser muito bom, dependendo do procedimento.

Uma regra prática pode ser concluir que a confiabilidade dos dados e os escores de integridade do
tratamento devem ser considerados cuidadosamente em um contexto a partir do qual esses dados são
coletados. Quão conservadora ou liberal é a medida de confiabilidade? Quão importante é registrar
todas as ocorrências de comportamento? Qual procedimento de tratamento está sendo usado? Qual é o
efeito provável de um erro de integridade do tratamento dado o procedimento usado?

Com uma ou duas exceções, escrevemos até agora pressupondo que um erro de confiabilidade ou
integridade foi cometido pelo observador / implementador primário. Isso pode ser verdade, mas pode
não ser "falha" do observador / implementador em si. Nas seções a seguir, discutiremos alguns tipos 
comuns de erros e, a seguir, alguns motivos comuns para (ou origens) desses erros.

Erros comuns de confiabilidade e integridade


Existem vários erros possíveis que podem contribuir para pontuações de baixa confiabilidade ou
integridade. Os dois erros mais básicos de confiabilidade e integridade podem ser descritos como erros
de omissão e comissão. Erros de omissão ocorrem quando observadores ou pessoal que implementa
programas comportamentais não fornecem a resposta apropriada quando ocorre um evento específico.
Para a confiabilidade dos dados, os erros de omissão podem incluir a falha em documentar uma
resposta ou evento ambiental. Para integridade do tratamento, os erros de omissão podem incluir a
falha em entregar um reforçador para uma resposta alternativa apropriada em um procedimento DRA.

Erros de comissão ocorrem quando observadores ou pessoal que implementa programas


comportamentais fornecem uma resposta em um momento inadequado. Para a confiabilidade dos
dados, os erros de comissão podem incluir o registro de um evento quando ele não ocorreu ou o
registro de um evento no lugar de um evento diferente. Por exemplo, um observador pode registrar que
uma criança se envolveu em automutilação quando, em vez disso, ela se envolveu em uma agressão.
Para a integridade do tratamento, os erros de comissão podem incluir entregar algum antecedente ou
consequência em um momento inapropriado. Por exemplo, um terapeuta pode acidentalmente aplicar
um reforçador após um comportamento problemático em uma sessão de tratamento DRA.

Alguns erros de confiabilidade e integridade podem ser mais sutis do que os descritos acima. Por
exemplo, dois observadores podem registrar a mesma resposta, mas em momentos ligeiramente
diferentes. Para ilustrar, suponha que dois observadores estejam registrando ocorrências de autolesão e
a confiabilidade seja avaliada minuto a minuto. Se o observador A registrar uma ocorrência de
automutilação no final do minuto 5 e o observador B registrar uma ocorrência de automutilação no
início do minuto 6, haverá uma falta de acordo dentro desses respectivos intervalos. Se essa
discrepância ocorrer com frequência ao longo da coleta de dados, esses erros podem resultar em
escores de baixa confiabilidade e resultados de dados diferentes. Da mesma forma, erros de integridade
podem ocorrer a qualquer momento em que houver discrepâncias entre o protocolo prescrito e a
implementação real de eventos (Peterson et al., 1982 ). Ou seja, os erros de integridade podem incluir
aplicação inadequada de reforço, bem como pequenas alterações no protocolo. Por exemplo, os erros
podem incluir a entrega de reforçadores após um atraso e a apresentação de dicas sociais, como acenos
de cabeça ou sorrisos do terapeuta.

Fontes de erros de confiabilidade e integridade


Várias causas possíveis para erros de confiabilidade e integridade foram descritas na literatura (por
exemplo, Allen & Warzak, 2000 ; Kazdin, 1977 ; Peterson et al.). Um fator principal que influencia
esses erros pode ser simplesmente o treinamento inadequado ou incompleto dos protocolos. Mais
especificamente, os observadores podem não saber preencher os formulários de coleta de dados ou usar
dispositivos de coleta de dados, e também podem cometer erros por não estarem cientes das definições
corretas de comportamento e eventos ambientais. Da mesma forma, as pessoas que implementam
programas comportamentais podem não ter informações suficientes para conduzir o protocolo.

Um segundo fator que influencia a integridade e a confiabilidade é a complexidade do protocolo. Por


exemplo, se um protocolo requer que um observador colete dados sobre várias respostas e eventos
ambientais, ele ou ela pode estar mais propenso a cometer erros de confiabilidade. Da mesma forma, os
erros de integridade podem ser mais prováveis ​em um caso em que a pessoa que implementa o
programa tem que completar várias etapas diferentes (por exemplo, uma sequência de solicitação 
detalhada) em uma variedade de respostas (por exemplo, comportamento apropriado e inadequado) ou
com vários clientes ou alunos. Portanto, é importante que tanto os observadores quanto os terapeutas
recebam instruções claras, detalhadas e gerenciáveis ​sobre o protocolo e as definições
comportamentais. Além disso, os indivíduos devem ter tempo suficiente para praticar a execução das
tarefas necessárias,

Um terceiro fator é a falha em generalizar a partir do ambiente de treinamento. Ou seja, os indivíduos


podem ser capazes de realizar as habilidades (coleta de dados ou implementação do tratamento) com
precisão nas sessões de treinamento, mas não conseguem fazê-lo no ambiente real. A generalização das
habilidades pode ser facilitada pelo treinamento de vários exemplos diferentes (por exemplo, instâncias
do comportamento) e pela realização do treinamento em vários ambientes diferentes ( Stokes & Baer, ​
1977 ).

Um quarto fator possível que influencia os erros de confiabilidade e integridade foi referido como um
“desvio” no desempenho (por exemplo, Kazdin, 1977 ). Ou seja, os indivíduos inicialmente executam
as habilidades conforme prescrito, mas depois desviam ou alteram seu comportamento em relação ao
protocolo original. O monitoramento cuidadoso dos observadores e daqueles indivíduos que
implementam programas combinados com sessões periódicas de treinamento de reforço pode ajudar a
prevenir a ocorrência de desvios.

Um quinto fator possível que influencia a confiabilidade e os erros de integridade podem ser
contingências ambientais concorrentes. Mais especificamente, pode haver reforços para desvios do
protocolo, punidores no local para a adesão ao protocolo, ou ambos. Por exemplo, um estudo de
O'Leary, Kent e Kanowitz (1975)mostraram que os observadores que receberam informações
específicas sobre a sessão (por exemplo, o comportamento deve diminuir na fase de tratamento) e
feedback (por exemplo, elogios por pontuar baixas taxas de comportamento e repreensões por pontuar
taxas mais altas de comportamento) foram tendenciosos em sua coleta de dados. Da mesma forma,
relatórios imprecisos de baixas taxas de comportamento problemático por cuidadores podem ser
acidentalmente reforçados por elogios e incentivos de um analista do comportamento, especialmente se
o analista do comportamento não estiver presente quando a coleta de dados estiver ocorrendo. Por
outro lado, os relatórios podem ser mais precisos apenas quando o cuidador está ciente de que um
analista do comportamento estava atualmente coletando dados de confiabilidade (por exemplo,
Brackett, Reid, & Green, 2007) Assim, seria importante, nessas circunstâncias, enfatizar e elogiar a
precisão da coleta de dados e abster-se de mencionar mudanças específicas de comportamento.

Erros de integridade também podem ocorrer devido a esquemas concorrentes de reforço. Por exemplo,
um analista do comportamento pode recomendar que a atenção dos pais seja dada para o
comportamento apropriado, e não para acessos de raiva. No entanto, o pai pode estar em um ambiente
(por exemplo, uma mercearia) no qual a adesão ao programa não é reforçada e pode até ser punido (por
exemplo, outros compradores olhando feios). Portanto, a prestação de atenção dos pais para acessos de
raiva é negativamente reforçada e erros de integridade futuros tornam-se mais prováveis. Enfatizar a
precisão, fornecer feedback consistente sobre o nível de integridade e fornecer reforço para altos níveis
de integridade pode ser necessário para manter altos níveis de integridade ( DiGennaro, Martens, &
Kleinmann, 2007 ).

Algumas sugestões para medidas de confiabilidade


Conforme mencionado anteriormente, diferentes métodos de cálculo da confiabilidade podem gerar
estimativas mais conservadoras ou liberais. Além disso, as medidas variam em sua facilidade de
cálculo. Assim, os profissionais podem escolher medidas com base em critérios rigorosos ou facilidade 
de cálculo são desejáveis, bem como no tipo de dados que estão disponíveis.

As medidas de confiabilidade variam de pelo menos duas maneiras: o tamanho da janela de tempo e o
tipo de dados. Janelas de tempo maiores podem tornar os cálculos mais fáceis do que as menores. Uma
das maneiras mais simples de calcular a confiabilidade é contar o número total de respostas marcadas
(ou o número total de intervalos contendo respostas, dependendo do sistema de coleta de dados) por
cada observador ao longo do período de observação, para dividir o número menor pelo maior número e
multiplicar por 100. Isso resulta em uma porcentagem geral de concordância para essa observação. As
medidas de toda a sessão são simples de entender e calcular, mas fornecem apenas uma estimativa
liberal da confiabilidade da coleta de dados. Para um exemplo extremo, um observador poderia marcar
10 ocorrências da resposta alvo e, em seguida, se distrair ou adormecer. O segundo observador pode
perder essas 10 respostas iniciais, mas depois registrar 10 outras respostas (enquanto o primeiro
observador dorme). Uma medida de confiabilidade de toda a sessão para esses dois conjuntos de dados
seria de 100%, porque ambos os observadores pontuaram 10 respostas, mas essas respostas teriam
ocorrido em momentos totalmente diferentes.

Usar intervalos mais curtos dentro de um período de observação mais longo torna os cálculos de
confiabilidade mais rigorosos e melhora a confiança de que ambos os observadores estavam
registrando a mesma instância de comportamento. O uso de intervalos mais curtos dentro da sessão é às
vezes chamado de método proporcional. Para calcular a concordância proporcional, o tempo total de
observação é dividido em unidades discretas (intervalos). Por exemplo, uma observação de 10 minutos
pode ser dividida em intervalos de 60, 10 s. Os registros dos dois observadores são comparados a cada
intervalo de 10 s. Por exemplo, se um observador registrou duas ocorrências de comportamento no
primeiro intervalo de 10 s e um segundo observador registrou três ocorrências de comportamento no
primeiro intervalo, a confiabilidade para esse intervalo seria de 66,7% (duas ocorrências divididas por
três ocorrências e multiplicadas por 100). Uma vez que a confiabilidade foi calculada para todos os
intervalos na observação, as pontuações são calculadas para obter a confiabilidade média para toda a
observação. Embora intervalos de 10 s sejam comuns em pesquisas, intervalos maiores, como 1 minuto
ou 5 minutos, podem ser mais práticos na aplicação diária.

A confiabilidade proporcional tem várias vantagens possíveis sobre a confiabilidade da sessão inteira.
Em primeiro lugar, as medidas proporcionais são mais rigorosas do que as medidas de toda a sessão.
Dividindo a sessão em unidades menores, os cálculos de intervalo por intervalo reduzem a
probabilidade de obter boa confiabilidade quando dois observadores registram respostas totalmente
diferentes (como no exemplo dado para confiabilidade da sessão inteira acima).

Outro método é o método de concordância exata, para o qual os intervalos de observação são
pontuados como uma “concordância” se ambos os observadores contaram exatamente o mesmo
número de ocorrências de comportamento. Se eles não concordarem exatamente, o intervalo é
classificado como uma "discordância". O número de acordos é então dividido pelo número total de
intervalos e convertido em uma porcentagem. Este método é ainda mais conservador do que o método
proporcional, mas às vezes pode ser excessivamente conservador. Por exemplo, quando os
observadores estão ligeiramente errados em seu tempo, o comportamento pontuado em um intervalo
para um observador e em outro intervalo para um segundo observador produz dois intervalos de
desacordo, embora ambos os observadores estivessem pontuando o mesmo evento comportamental.

Outro método de confiabilidade é usado quando o registro de intervalo parcial ou de intervalo inteiro
está em vigor. O intervalo parcial refere-se à pontuação do intervalo se o comportamento ocorrer em
qualquer ponto desse intervalo. A gravação de intervalo inteiro refere-se à pontuação do intervalo se o
comportamento ocorrer durante o intervalo. Assim, não há “contagem” de comportamento; o intervalo
é simplesmente classificado como “ocorrência” ou “não ocorrência”. No caso de registro de intervalo, a
confiabilidade pode ser calculada denotando cada intervalo como uma concordância (ambos os 
observadores registraram o comportamento ou não registraram o comportamento) ou uma discordância
(um observador registrou o comportamento enquanto o outro não). O número total de concordâncias
para a sessão é então dividido por concordâncias mais discordâncias e multiplicado por 100 para
produzir a confiabilidade média de toda a observação.

Infelizmente, os cálculos de intervalo por intervalo às vezes são impraticáveis ​ou impossíveis. Esse é o
caso se o sistema de coleta de dados não permitir a quebra dos registros em unidades menores. Por
exemplo, suponha que um professor colete dados sobre o número de vezes que um aluno levanta a mão
durante a aula fazendo marcações em um pedaço de papel. Para algumas classes, um segundo
observador (por exemplo, um consultor comportamental) também registra ocorrências de levantamento
de mãos usando contadores. Nesse caso, a confiabilidade intervalo a intervalo seria difícil de calcular
porque os registros não podem ser facilmente divididos em unidades menores; é impossível dizer
quando o professor registrou a primeira vez de levantar a mão e comparar com os dados do consultor.

Além disso, os métodos de confiabilidade intervalo a intervalo às vezes aumentam ou diminuem a


concordância com base em se o comportamento ocorre em uma taxa alta ou baixa. Voltando ao
exemplo extremo de um observador adormecer, pontuações altas de concordância podem ocorrer
devido ao fato de que não ocorreu muito comportamento. Da mesma forma, com comportamento de
alta taxa, um observador poderia essencialmente parar de assistir, mas continuar a pontuar muitos
comportamentos e obter uma pontuação alta. Para abordar essas possibilidades, é possível pontuar a
concordância nos intervalos de ocorrência apenas (ou seja, avaliando apenas os intervalos em que um
observador ou o outro pontuou a ocorrência do comportamento) e pontuar a concordância nos
intervalos de não ocorrência (ou seja, avaliando apenas aqueles intervalos em que um observador ou o
outro pontuou a não ocorrência de comportamento).

Algumas sugestões para medidas de integridade


A integridade é normalmente calculada examinando a porcentagem total de oportunidades para as quais
o procedimento foi implementado corretamente. Por exemplo, a integridade geral seria de 80% se um
pai aplicasse corretamente a extinção a três das cinco respostas indesejáveis ​e reforçasse corretamente
cinco das cinco respostas apropriadas (oito respostas corretas de um total de 10 oportunidades). Este
método é simples de explicar e calcular. Infelizmente, também agrupa diferentes tipos de integridade
(neste exemplo, reforçando o comportamento apropriado e não reforçando o comportamento
problemático); esses diferentes tipos de integridade podem afetar diferencialmente o resultado da
intervenção. Por exemplo, reforçar o comportamento problemático pode ser mais prejudicial do que
deixar de reforçar o comportamento apropriado ( St. Peter Pipkin, 2006) Examinar a integridade em
componentes individuais de uma intervenção pode ser tão importante quanto a integridade geral,
porque as intervenções podem resistir a níveis “baixos” de integridade se as contingências favorecem o
comportamento apropriado em vez do comportamento problemático. O cálculo de medidas de
integridade para componentes individuais também pode permitir que os profissionais forneçam
feedback mais focado aos cuidadores. Por exemplo, se um pai reforça consistentemente o
comportamento apropriado, mas também reforça periodicamente o comportamento problemático, as
medidas de integridade calculadas individualmente permitem que os profissionais forneçam feedback
positivo e corretivo específico (respectivamente). Essas informações específicas só estão disponíveis
em um nível quantitativo se as medidas de integridade forem separadas para cada componente da
intervenção.

Um meio de calcular a integridade em componentes individuais de uma intervenção é usar planilhas de


monitoramento de integridade nas quais cada componente é pontuado individualmente. Por exemplo,
os profissionais que usam procedimentos DRA podem registrar cada ocorrência em que o cuidador
reforçou o comportamento apropriado separadamente das ocorrências em que o cuidador aplicou
apropriadamente a extinção ao comportamento problemático. Discutimos possíveis planilhas de dados 
para calcular a integridade dessa maneira na próxima seção e fornecemos exemplos nos apêndices.

Sugestões de monitoramento e fichas técnicas


O monitoramento da confiabilidade e integridade pode ser difícil para os profissionais, principalmente
ao consultar vários casos. Para aumentar a facilidade e a eficiência, as sessões de monitoramento
podem ser relativamente breves e ocorrer de forma intermitente. Por exemplo, os profissionais podem
conduzir uma sessão de monitoramento de 10 minutos uma vez por semana com cada um de seus
clientes (por exemplo, Noell & Witt, 1998 ). Às vezes parece haver uma falsa crença de que o
monitoramento de confiabilidade e integridade deve ser contínuo ou quase contínuo; se fosse esse o
caso, o próprio monitor poderia simplesmente conduzir os procedimentos! A amostragem é muito mais
eficiente.

Durante as sessões de monitoramento, os profissionais coletam dados de confiabilidade e integridade


usando planilhas de coleta de dados feitas sob medida para a intervenção do cliente em particular. Por
exemplo, suponha que um praticante desenvolveu uma intervenção que envolveu prestar atenção dentro
de 10 segundos de levantar a mão e não atender (ou seja, ignorar) dentro de 30 segundos de gritar. A
ficha de recolha de dados para esta intervenção teria quatro secções: uma para cada caso de ocorrências
de levantar e gritar de mão, uma para assistir a levantar de mão seguinte e outra para não atender
gritaria seguinte. Na seção de ocorrências, o praticante registraria o número de oportunidades para
implementar a intervenção (neste caso, uma contagem de mãos levantadas e gritos). O número de
respostas corretas do cuidador seria registrado nas outras duas seções.Figuras 2, ​3, e ​4. Figura 2 mostra
uma folha de coleta de dados em branco, enquanto as folhas em Figuras 3 e ​4mostrar usos hipotéticos
da planilha de dados. NoFigura 3, a integridade do tratamento é calculada dividindo o número de
respostas corretas do professor (entregando e retendo a atenção após levantar a mão e gritar,
respectivamente) pelo número de respostas dos alunos e multiplicando por 100. A integridade varia ao
longo da sessão, conforme mostrado pelos números de integridade em cada bloco. A integridade geral é
obtida pela média da integridade nos intervalos de 1 minuto, e é relativamente baixa em geral (60%
para integridade de omissão e 27% para integridade de comissão).

Figura 2

Folha de dados em branco de amostra para monitorar a integridade do tratamento; a intervenção envolve
prestar atenção dentro de 10 s após levantar a mão e não atender (ou seja, ignorar) dentro de 30 s após
gritar.

Figura 3

Folha de dados de amostra para monitorar a integridade do tratamento que mostra dados hipotéticos; a
integridade do tratamento é calculada dividindo o número de respostas corretas do professor (entregando e
retendo a atenção após levantar a mão e gritar, respectivamente) pelo número de respostas dos alunos e
multiplicando por 100; a integridade geral é obtida pela média da integridade ao longo dos intervalos de 1
minuto.

Figura 4

Folha de dados de amostra para monitorar a confiabilidade que mostra dados hipotéticos coletados por um
observador secundário; a confiabilidade é calculada usando um método de concordância proporcional.

Os dados de breves sessões de monitoramento também podem ser usados ​para verificar a
confiabilidade da coleta de dados do cuidador. A comparação do registro do profissional com o registro
do cuidador pode permitir um feedback imediato ao cuidador quanto à confiabilidade da coleta de
dados e integridade da intervenção. No exemplo descrito acima, as “oportunidades” registradas
também são as contagens de levantar as mãos e gritar. O profissional pode usar uma medida de
confiabilidade de toda a sessão (conforme descrito na seção sobre medição de confiabilidade),
dividindo o menor número de respostas registradas pelo maior e multiplicando por 100, ou usar um
método de concordância proporcional. NoFigura 4, a confiabilidade é calculada usando um método de
concordância proporcional. A concordância usando este método é em média entre 78% e 85%. Se um
método menos rigoroso de cálculo de confiabilidade fosse mais apropriado, uma medida de sessão
inteira poderia ser usada, o que resultaria em pontuações médias de concordância entre 88% e 93%.

Usar folhas de dados como essas pode ser útil porque os cuidadores podem ser alertados imediatamente
se a confiabilidade for baixa. Assim, breves sessões de monitoramento poderiam ser conduzidas usando
materiais relativamente simples. Apesar da coleta de dados simplista, essas medidas fornecem
oportunidades para calcular a confiabilidade e integridade e para fornecer feedback imediato aos
cuidadores sobre o registro contínuo do comportamento e implementação de procedimentos de
mudança de comportamento.
Conclusões
A confiabilidade dos dados e a integridade do tratamento devem ser medidas na prática cotidiana da
análise do comportamento. Deixar de fazer isso pode ser perigoso e é quase impossível julgar a eficácia
dos procedimentos comportamentais sem esses dados. Além disso, a capacidade de fornecer feedback
aos coletores de dados e implementadores de procedimentos é fundamental. Erros de confiabilidade de
dados e erros de integridade de tratamento podem ser evitados por meio de um bom treinamento,
descrições sólidas de definições e procedimentos, treinamento de generalização e manutenção e
tornando os procedimentos o mais simples e parcimonioso possível. O monitoramento também deve
ser simples e parcimonioso, usando métodos eficientes, como amostragem intermitente, em vez de
monitoramento contínuo.

Um problema que provavelmente surgirá para os analistas do comportamento praticantes está


relacionado ao problema do reembolso. Resumindo, a prática de monitoramento de confiabilidade e
integridade é reembolsável? A solução para a questão do reembolso provavelmente varia de estado
para estado ou de país para país, ou de uma seguradora para outra. Em nossa opinião, entretanto, a
prática é tão importante quanto qualquer outro componente de avaliação ou terapia da análise do
comportamento aplicada. Assim, os analistas do comportamento têm justificativa para cobrar por seus
serviços mesmo quando, senão especialmente quando, estão tomando medidas para garantir boa 
confiabilidade e integridade.

Referências

Allen K. D, Warzak WJ O problema da não-adesão dos pais na análise do comportamento clínico: O


tratamento eficaz não é suficiente. Journal of Applied Behavior Analysis. 2000; 33 : 373–391.
[ Artigo grátis PMC ] [ PubMed ] [ Google Scholar ]
Brackett L, Reid D. H, Green CW Efeitos da reatividade às observações no desempenho da equipe.
Journal of Applied Behavior Analysis. 2007; 40 : 191–195. [ Artigo grátis PMC ] [ PubMed ]
[ Google Scholar ]
DiGennaro F. D, Martens B. K, Kleinmann AE Uma comparação dos procedimentos de feedback de
desempenho sobre a integridade da implementação do tratamento dos professores e o
comportamento inadequado dos alunos em salas de aula de educação especial. Journal of Applied
Behavior Analysis. 2007; 40 : 447–461. [ Artigo grátis PMC ] [ PubMed ] [ Google Scholar ]
Gresham F. M, Gansle K. A, Noell G. H, Cohen S, Rosenblum S. Tratamento integridade de estudos de
intervenção comportamental baseados na escola: 1980–1990. Revisão da psicologia escolar. 1993;
22 : 254–272. [ Google Scholar ]
Hartmann DP Considerações na escolha de estimativas de confiabilidade interobservador. Journal of
Applied Behavior Analysis. 1977; 10 : 103–116. [ Artigo grátis PMC ] [ PubMed ]
[ Google Scholar ]
Hawkins R. P, Pontuações de confiabilidade de Dotson VA que iludem: Uma viagem de Alice no País
das Maravilhas através das características enganosas de pontuações de concordância
interobservador no registro de intervalo. In: Rampa E, Semb G, editores. Análise do
Comportamento: Áreas de pesquisa e aplicação. Englewood Cliffs, New Jersey: Prentice-Hall;
1975. (Eds.) [ Google Scholar ]
Kazdin AE Artefato, parcialidade e complexidade da avaliação: o ABC da confiabilidade. Journal of
Applied Behavior Analysis. 1977; 10 : 141-150. [ Artigo grátis PMC ] [ PubMed ]
[ Google Scholar ]
McIntyre L. L, Gresham F. M, DiGennaro F. D, Reed DD Integridade do tratamento de intervenções na
escola com crianças no Journal of Applied Behavior Analysis Studies de 1991 a 2005. Journal of
Applied Behavior Analysis. 2007; 40 : 659–672. [ Artigo grátis PMC ] [ PubMed ]
[ Google Scholar ]
Noell G. H, Witt JC Rumo a uma abordagem analítica do comportamento para consulta. In: Watson T.
S, Gresham F. M, editores. Manual de terapia comportamental infantil. New York, NY: Plenum
Press; 1998. (Eds.) [ Google Scholar ]
Noell G. H, Witt J. C, LaFleur L. H, Mortenson B. P, Ranier D. D, LeVelle J. Aumentar a
implementação da intervenção na educação geral após consulta: Uma comparação de duas
estratégias de acompanhamento. Journal of Applied Behavior Analysis. 2000; 33 : 271–284.
[ Artigo grátis PMC ] [ PubMed ] [ Google Scholar ]
O'Leary K. D, Kent R. N, Kanowitz J. Shaping coleta de dados congruente com hipóteses
experimentais. Journal of Applied Behavior Analysis. 1975; 8 : 43–51. [ Artigo grátis PMC ] [
PubMed ] [ Google Scholar ]
Peterson L, Homer A. L, Wonderlich SA A integridade das variáveis ​independentes na análise do
comportamento. Journal of Applied Behavior Analysis. 1982; 15 : 477–492. [ Artigo grátis PMC ] [
PubMed ] [ Google Scholar ]
St. Peter Pipkin CC Uma investigação laboratorial dos efeitos das falhas de integridade do tratamento
em procedimentos de reforço diferencial. 2006. Tese de doutorado não publicada, University of
Florida, Gainesville.
Stokes T. F, Baer DM Uma tecnologia implícita de generalização. Journal of Applied Behavior
Analysis. 1977; 10 : 349–367. [ Artigo grátis PMC ] [ PubMed ] [ Google Scholar ] 
Sulzer-Azaroff B, Mayer GR Análise do comportamento para mudança duradoura. Fort Worth: Holt,
Rinehart, & Winston; 1991. [ Google Scholar ]
Vollmer T. R, Marcus B. A, LeBlanc L. Tratamento de autolesão e boca da mão após análise funcional
inconclusiva. Journal of Applied Behavior Analysis. 1994; 27 : 331–344. [ Artigo grátis PMC ] [
PubMed ] [ Google Scholar ]

Os artigos da Behavior Analysis in Practice são fornecidos aqui como cortesia da Association for Behavior
Analysis International

Você também pode gostar