Você está na página 1de 19

Capítulo 8

Planejamento

Após o escopo do experimento, o planejamento ocorre. O escopo determina a base para o


experimento - por que o experimento é conduzido - enquanto o planejamento se prepara para como
o experimento é conduzido.
Como em todos os tipos de atividades de engenharia, o experimento deve ser planejado e os planos
devem ser acompanhados para controlar o experimento. O resultado do experimento pode ser
perturbado, ou mesmo destruído se não for planejado adequadamente.
A fase de planejamento de um experimento pode ser dividida em sete etapas. A entrada para a fase é
a definição do objetivo do experimento, consulte o Cap. 7. Com base na definição do objetivo, a
seleção do contexto seleciona o ambiente no qual o experimento será executado. Em seguida, ocorre
a formulação da hipótese e a seleção das variáveis independentes e dependentes. A seleção dos
temas é realizada. O tipo de desenho do experimento é escolhido com base na hipótese e nas
variáveis selecionadas. A seguir, a instrumentação se prepara para a execução prática do
experimento. Por fim, a avaliação da validade visa verificar a validade do experimento. O processo
de planejamento é iterado até que um projeto de experimento completo esteja pronto. Uma visão
geral da fase de planejamento é fornecida na Fig. 8.1.

8.1 Seleção de Contexto

Para obter os resultados mais gerais em um experimento, ele deve ser executado em grandes
projetos de software reais, com equipe profissional. No entanto, conduzir um experimento envolve
riscos, por exemplo, que o novo método a ser examinado não seja tão bom quanto o esperado e
cause atrasos. Uma alternativa é executar projetos off-line em paralelo com os projetos reais. Isso
reduz os riscos, mas causa custos extras. Uma alternativa mais barata é administrar projetos com
equipes de alunos. Esses projetos são mais baratos, mais fáceis de controlar, mas mais direcionados
a um determinado contexto do que projetos compostos por profissionais com mais e várias
experiências. Além disso, esses projetos raramente tratam de problemas reais, mas sim de
problemas de tamanho de brinquedos devido a restrições de custo e tempo. Essa compensação
envolve um equilíbrio entre tornar os estudos válidos para um contexto específico ou válidos para o
domínio geral da engenharia de software, consulte a seção seguinte. 8,7. Dado esse trade-off,
experimentos com alunos como sujeitos são discutidos na literatura, por exemplo, por Hoëst et al.
[77].
Assim, o contexto do experimento pode ser caracterizado de acordo com quatro dimensões:
• Off-line vs. on-line
• Aluno x profissional
• Brinquedo vs. problemas reais
• Específico vs. Geral
Uma situação comum em um experimento é que algo existente é comparado a algo novo, por
exemplo, um método de inspeção existente é comparado a um novo [18, 136, 139]. Existem dois
problemas relacionados a este tipo de estudos. Em primeiro lugar, qual é o método existente? Tem
sido aplicado há algum tempo, mas raramente é bem documentado e não há uma aplicação
consistente do método. Em segundo lugar, aprender um novo método pode influenciar a forma
como o antigo é aplicado.
Esta e outras questões relacionadas com as quais nos preocupamos com as pessoas devem ser
levadas em consideração no planejamento de um experimento, a fim de tornar os resultados válidos.

8.2 Formulação de Hipóteses

A base para a análise estatística de um experimento é o teste de hipóteses. Uma hipótese é declarada
formalmente e os dados coletados durante o curso do experimento são usados para, se possível,
rejeitar a hipótese. Se a hipótese pode ser rejeitada, as conclusões podem ser tiradas, com base no
teste de hipótese sob determinados riscos.
Na fase de planejamento, a definição do experimento é formalizada em hipóteses.
Duas hipóteses devem ser formuladas:
Nulo Uma hipótese nula, H0, afirma que não há tendências ou padrões reais subjacentes no
ambiente do experimento; as únicas razões para as diferenças em nossas observações são
coincidências. Essa é a hipótese que o experimentador deseja rejeitar com a maior
significância possível. Um exemplo de hipótese é que um novo método de inspeção encontra
em média o mesmo número de falhas que o antigo, ou seja, H0 W μN antigo D μN novo,
onde μ denota a média e N é o número de falhas encontradas.

Alternativa Uma hipótese alternativa, Ha; H1, etc., é a hipótese a favor da qual a hipótese
nula é rejeitada. Um exemplo de hipótese é que um novo método de inspeção, em média,
encontra mais falhas do que o antigo, ou seja, H1 W μN antigo <μN novo.

Existem vários testes estatísticos diferentes descritos na literatura que podem ser usados para avaliar
o resultado de um experimento. Todas baseiam-se no fato de que as hipóteses acima são formuladas
antes que os testes estatísticos sejam escolhidos e realizados. Os testes estatísticos são elaborados na
Seção 10.3.
O teste de hipóteses envolve diferentes tipos de riscos. Ou o teste rejeita uma hipótese verdadeira ou
o teste não rejeita uma hipótese falsa. Esses riscos são chamados de erro tipo I e erro tipo II:
Erro do tipo I Ocorreu um erro do tipo I quando um teste estatístico indicou um padrão ou
relação, mesmo que na verdade não haja um padrão real. Ou seja, a probabilidade de
cometer um erro do tipo I pode ser expressa como: P .erro do tipo I / D P .rejeitar H0 j H0
verdadeiro /. Na hipótese do exemplo acima, o erro tipo I é a probabilidade de rejeitar H0,
embora os dois métodos encontrem, em média, o mesmo número de falhas.

Erro do tipo II Ocorreu um erro do tipo II quando um teste estatístico não indicou um
padrão ou relação, mesmo se realmente houver um padrão real. Ou seja, a probabilidade de
cometer um erro do tipo II pode ser expressa como: P. Erro do tipo II / D P. Não rejeitar H0 j
H0 falso). Na hipótese do exemplo acima, o erro do tipo II é a probabilidade de não rejeitar
H0 mesmo que os dois métodos tenham, em média, médias diferentes.

O tamanho dos erros depende de diferentes fatores. Um exemplo é a capacidade do teste estatístico
de revelar um padrão verdadeiro nos dados coletados. Isso é conhecido como o poder de um teste:
Potência A potência de um teste estatístico é a probabilidade de que o teste revele um
padrão verdadeiro se H0 for falso. Um experimentador deve escolher um teste com a maior
potência possível. O poder pode ser expresso como:

Poder D P .rejeitar H0 j H0 falso / D 1 - P. Tipo-II-erro)

Todos esses fatores devem ser considerados ao planejar um experimento.

8.3 Seleção de Variáveis

Antes que qualquer projeto possa começar, temos que escolher as variáveis dependentes e
independentes.
As variáveis independentes são aquelas variáveis que podemos controlar e alterar no experimento.
Escolher as variáveis certas não é fácil e geralmente requer conhecimento do domínio. As variáveis
devem ter algum efeito na variável dependente e devem ser controláveis. As escolhas das variáveis
independentes e dependentes costumam ser feitas simultaneamente ou na ordem inversa. A escolha
de variáveis independentes também inclui a escolha das escalas de medição, a faixa para as
variáveis e os níveis específicos em que os testes serão feitos.
O efeito dos tratamentos é medido na (s) variável (es) dependente (s). Freqüentemente, há apenas
uma variável dependente e, portanto, deve ser derivada diretamente da hipótese. A variável
geralmente não é diretamente mensurável e, em vez disso, temos que medi-la por meio de uma
medida indireta. Essa medida indireta deve ser validada com cuidado, pois afeta o resultado do
experimento. A hipótese pode ser refinada quando escolhemos a variável dependente. A escolha da
variável dependente também significa que a escala de medição e o intervalo das variáveis são
determinados. Uma razão para ter apenas uma variável dependente é que, se houver mais, há o risco
de que a ameaça da “pesca e da taxa de erro” à validade da conclusão se torne muito grande,
conforme descrito na Seção. 8.8.1.

8.4 Seleção de Assuntos

A seleção dos sujeitos é importante ao conduzir um experimento [144]. A seleção está intimamente
ligada à generalização dos resultados do experimento. Para generalizar os resultados para a
população desejada, a seleção deve ser representativa para essa população. A seleção de sujeitos
também é chamada de amostra de uma população.
A amostragem da população pode ser uma amostra probabilística ou não probabilística. A diferença
entre os dois é que na amostragem probabilística, a probabilidade de seleção de cada sujeito é
conhecida e na amostragem não probabilística é desconhecida. Exemplos de técnicas de
amostragem probabilística são:
• Amostragem aleatória simples: os indivíduos são selecionados de uma lista da população
de forma aleatória.
• Amostragem sistemática: O primeiro sujeito é selecionado da lista da população
aleatoriamente e, em seguida, cada n: ésima pessoa é selecionada da lista.
• Amostragem aleatória estratificada: A população é dividida em vários grupos ou estratos
com uma distribuição conhecida entre os grupos. A amostragem aleatória é então aplicada dentro
dos estratos.
Exemplos de técnicas de amostragem não probabilística são:
• Amostragem de conveniência: as pessoas mais próximas e convenientes são selecionadas
como objetos.
• Amostragem de cota: este tipo de amostragem é usado para obter indivíduos de vários
elementos de uma população. A amostragem de conveniência é normalmente usada para cada
elemento.
O tamanho da amostra também impacta os resultados ao generalizar. Quanto maior for a amostra,
menor será o erro ao generalizar os resultados. O tamanho da amostra também está intimamente
relacionado ao poder do teste estatístico, consulte a Seção 10.3.1. Existem alguns princípios gerais
para escolher o tamanho da amostra:
• Se houver grande variabilidade na população, é necessário um tamanho de amostra maior.
• A análise dos dados pode influenciar a escolha do tamanho da amostra. Portanto, é
necessário considerar como os dados devem ser analisados já na fase de projeto do experimento.

8.5 Design de experimento

Para tirar conclusões significativas de um experimento, aplicamos métodos de análise estatística nos
dados coletados para interpretar os resultados, conforme descrito no Cap. 10. Para obter o máximo
do experimento, ele deve ser cuidadosamente planejado e projetado. As análises estatísticas que
podemos aplicar dependem do projeto escolhido e das escalas de medição utilizadas, consulte o
Cap. 3. Portanto, design e interpretação estão intimamente relacionados.

8.5.1 Escolha do Design do Experimento


Um experimento consiste em uma série de testes dos tratamentos. Para obter o máximo do
experimento, a série de testes deve ser cuidadosamente planejada e projetada. O design de um
experimento descreve como os testes são organizados e executados. Mais formalmente, podemos
definir um experimento como um conjunto de testes.
Conforme descrito acima, o design e a análise estatística estão intimamente relacionados. A escolha
do design afeta a análise e vice-versa. Para projetar o experimento, temos que olhar para a hipótese
para ver qual análise estatística devemos realizar para rejeitar a hipótese nula. Com base nos
pressupostos estatísticos, por exemplo, nas escalas de medição e nos objetos e assuntos que
podemos usar, fazemos o desenho do experimento. Durante o projeto, determinamos quantos testes
o experimento deve ter para garantir que o efeito do tratamento seja visível. Um design adequado
também constitui a base para permitir a replicação. Nas duas seções a seguir, os princípios gerais de
design e alguns tipos de design padrão são apresentados.

8.5.2 Princípios Gerais de Design

Ao projetar um experimento, muitos aspectos devem ser considerados. Os princípios gerais de


design são aleatorização, bloqueio e balanceamento, e a maioria dos designs de experimentos usa
alguma combinação deles. Para ilustrar os princípios gerais de design, usamos um exemplo.
Exemplo. Uma empresa conduzirá um experimento para investigar o efeito sobre a confiabilidade
de um programa ao usar o design orientado a objetos em vez do princípio de design padrão da
empresa. O experimento usará o programa A como objeto do experimento. O desenho do
experimento é do tipo “multiteste dentro do estudo do objeto”, ver cap. 7

Randomização. Um dos princípios de design mais importantes é a randomização. Todos os


métodos estatísticos usados para analisar os dados requerem que as observações sejam de variáveis
aleatórias independentes. Para atender a esse requisito, a randomização é usada. A randomização se
aplica à alocação dos objetos, sujeitos e em que ordem os testes são realizados. A randomização é
usada para calcular a média do efeito de um fator que, de outra forma, pode estar presente. A
randomização também é usada para selecionar assuntos representativos da população de interesse.
Exemplo. A seleção das pessoas (sujeitos) será representativa dos designers da empresa, por seleção
aleatória dos designers disponíveis. A atribuição a cada tratamento (design orientado a objetos ou o
princípio de design padrão da empresa) é selecionada aleatoriamente.

Bloqueando. Às vezes, temos um fator que provavelmente tem um efeito na resposta, mas não
estamos interessados nesse efeito. Se o efeito do fator for conhecido e controlável, podemos usar
uma técnica de design chamada bloqueio. O bloqueio é usado para eliminar sistematicamente o
efeito indesejado na comparação entre os tratamentos. Dentro de um bloco, o efeito indesejado é o
mesmo e podemos estudar o efeito dos tratamentos naquele bloco. O bloqueio é usado para eliminar
o efeito indesejado no estudo e, portanto, os efeitos entre os blocos não são estudados. Essa técnica
aumenta a precisão do experimento.

Exemplo. As pessoas (assuntos) usados, para este experimento, têm experiências diferentes. Alguns
deles já usaram design orientado a objetos antes e outros não. Para minimizar o efeito da
experiência, as pessoas são agrupadas em dois grupos (blocos), um com experiência em design
orientado a objetos e outro sem.

Balanceamento. Se atribuirmos os tratamentos de forma que cada tratamento tenha o mesmo


número de sujeitos, teremos um design equilibrado. O balanceamento é desejável porque simplifica
e fortalece a análise estatística dos dados, mas não é necessário.
Exemplo. O experimento usa um desenho equilibrado, o que significa que há o mesmo número de
pessoas em cada grupo (bloco).
8.5.3 Tipos de Projeto Padrão

Nesta seção, alguns dos designs de experimentos usados com mais frequência são apresentados. Os
projetos variam de experimentos simples com um único fator a experimentos mais complexos com
muitos fatores. O projeto de experimento é discutido em profundidade por, por exemplo,
Montgomery [125] e é elaborado em mais profundidade para a engenharia de software por Juristo e
Moreno [88]. Para a maioria dos projetos, uma hipótese de exemplo é formulada e métodos de
análise estatística são sugeridos para cada projeto. Os tipos de design apresentados nesta seção são
adequados para experimentos com:
• Um fator com dois tratamentos.
• Um fator com mais de dois tratamentos.
• Dois fatores com dois tratamentos.
• Mais de dois fatores, cada um com dois tratamentos.

Um fator com dois tratamentos. Com esses experimentos, queremos comparar os dois tratamentos
entre si. O mais comum é comparar as médias da variável dependente para cada tratamento. As
seguintes notações são usadas:
μi A média da variável dependente para o tratamento i.
yij A j: ésima medida da variável dependente para o tratamento i.
Exemplo de um experimento: O objetivo é investigar se um novo método de projeto produz
software com qualidade superior ao método de projeto usado anteriormente. O fator neste
experimento é o método de design e os tratamentos são o novo e o antigo método de design. A
variável dependente pode ser o número de falhas encontradas no desenvolvimento.

Desenho totalmente aleatório. Este é um projeto de experimento básico para comparar duas médias
de tratamento. A configuração do projeto usa os mesmos objetos para ambos os tratamentos e
atribui os sujeitos aleatoriamente a cada tratamento, consulte a Tabela 8.1. Cada sujeito usa apenas
um tratamento em um objeto. Se tivermos o mesmo número de indivíduos por tratamento, o
desenho será equilibrado.

Design de comparação emparelhado. Às vezes, podemos melhorar a precisão do experimento


fazendo comparações dentro de pares correspondentes de material de experimento. Neste projeto,
cada sujeito usa ambos os tratamentos no mesmo objeto. Isso às vezes é chamado de design
cruzado. Este tipo de projeto apresenta alguns desafios, que são discutidos posteriormente em
relação ao exemplo da Seção. 10,4. Para minimizar o efeito da ordem em que os sujeitos aplicam os
tratamentos, a ordem é atribuída aleatoriamente a cada sujeito, consulte a Tabela 8.2. Este desenho
não pode ser aplicado em todos os casos de comparação, pois o sujeito pode obter muitas
informações do primeiro tratamento para realizar o experimento com o segundo tratamento. A
comparação para o experimento pode ser para ver se a diferença entre as medidas emparelhadas é
zero. Se tivermos o mesmo número de indivíduos começando com o primeiro tratamento e com o
segundo, teremos um design equilibrado.
Exemplo de hipótese:
dj D y1j - y2j e μd é a média da diferença.
H0 W μd D 0
H1 W μd ¤ 0; μd <0 ou μd> 0
Exemplos de análise: teste t pareado, teste de sinal, Wilcoxon, consulte a seção 10.3.

Um fator com mais de dois tratamentos. Como acontece com os experimentos com apenas dois
tratamentos, queremos comparar os tratamentos entre si. A comparação é freqüentemente realizada
nos meios de tratamento.
Exemplo de um experimento: O experimento investiga a qualidade do software ao usar diferentes
linguagens de programação. O fator do experimento é a linguagem de programação e os tratamentos
podem ser C, CCC e Java.

Desenho totalmente aleatório. Um delineamento inteiramente casualizado requer que o experimento


seja realizado em ordem aleatória para que os tratamentos sejam usados em um ambiente o mais
uniforme possível. O projeto usa um objeto para todos os tratamentos e os sujeitos são atribuídos
aleatoriamente aos tratamentos, consulte a Tabela 8.3.
Exemplo de hipótese, onde a é o número de sujeitos:
H0 W μ1 D μ2 D μ3 D ::: D μa
H1 W μi ¤ μj para pelo menos um par .i; j /
Exemplos de análise: ANOVA (ANalysis Of VAriance) e Kruskal-Wallis, ver
Sect. 10.3.

Projeto de bloco completo randomizado. Se a variabilidade entre os sujeitos for grande, podemos
minimizar esse efeito no resultado usando um desenho de bloco completo aleatório. Com este
projeto, cada sujeito usa todos os tratamentos e os sujeitos formam uma unidade experimental mais
homogênea, ou seja, bloqueamos o experimento nos sujeitos, consulte a Tabela 8.4. Os blocos
representam uma restrição à randomização. O desenho do experimento usa um objeto para todos os
tratamentos e a ordem em que os sujeitos usam os tratamentos são atribuídos aleatoriamente. O
design de comparação emparelhado acima é um caso especial deste design com apenas dois
tratamentos. O desenho de blocos completos ao acaso é um dos desenhos de experimentos mais
usados.
Exemplo de hipótese:
H0 W μ1 D μ2 D μ3 D ::: D μa
H1 W μi ¤ μj para pelo menos um par .i; j /
Exemplos de análise: ANOVA (ANalysis Of VAriance) e Kruskal-Wallis, ver
Sect. 10.3.

Dois fatores. O experimento fica mais complexo quando aumentamos de um fator para dois. A
única hipótese para os experimentos com um fator será dividida em três hipóteses: uma hipótese
para o efeito de um dos fatores, uma para o outro e outra para a interação entre os dois fatores.
Usamos as seguintes notações:

Projeto fatorial 2 * 2. Este desenho tem dois fatores, cada um com dois tratamentos. Neste projeto
de experimento, atribuímos indivíduos aleatoriamente a cada combinação dos tratamentos, consulte
a Tabela 8.5.
Exemplo de um experimento: O experimento investiga a compreensibilidade do documento de
design ao usar design estruturado ou orientado a objetos com base em um documento de requisitos
"bom" e um "ruim". O primeiro fator, A, é o método de design e o segundo fator, B, é o documento
de requisitos. O planejamento do experimento é um planejamento fatorial 2 * 2, pois ambos os
fatores têm dois tratamentos e todas as combinações dos tratamentos são possíveis.
Exemplo de hipótese:
H0 W "1 D" 2 D 0
H1 W pelo menos um "i ¤ 0 H0 W ˇ1 D ˇ2 D 0
H1 W pelo menos um ˇj ¤ 0 H0 W. "ˇ / ij D 0 para todo i; j
H1 W pelo menos um. "ˇ / ij ¤ 0
Exemplo de análise: ANOVA (ANalysis Of Variance), consulte a seção 10.3.
Projeto aninhado de dois estágios. Se um dos fatores, por exemplo B, no experimento for
semelhante, mas não idêntico para diferentes tratamentos do outro fator, por exemplo A, temos um
design que é denominado design aninhado ou hierárquico. Diz-se que o fator B está aninhado no
fator A. O projeto aninhado de dois estágios tem dois fatores, cada um com dois ou mais
tratamentos. O projeto e a análise do experimento são iguais aos do projeto fatorial 2 * 2, consulte a
Tabela 8.6.
Exemplo de um experimento: O experimento investiga a eficiência do teste de teste de unidade de
um programa ao usar a função ou programação orientada a objetos e se os programas são ‘sujeitos a
defeitos’ ou ‘não propensos a defeitos’. O primeiro fator, A, é a linguagem de programação e o
segundo fator, B, é a propensão a defeitos do programa. O projeto do experimento deve ser
aninhado, pois um programa funcional "sujeito a defeitos / não sujeito a defeitos" não é o mesmo
que um programa orientado a objetos "sujeito a defeitos / não sujeito a defeitos".

Mais de dois fatores. Em muitos casos, o experimento deve considerar mais de dois fatores. O
efeito na variável dependente pode, portanto, ser dependente não apenas de cada fator
separadamente, mas também das interações entre os fatores.

Essas interações podem ser entre dois ou mais fatores. Esse tipo de experimento é denominado
experimento fatorial. Esta seção fornece uma introdução aos experimentos em que cada fator tem
apenas dois tratamentos cada. Projetos onde os fatores têm mais de dois tratamentos são
apresentados por Montgomery [125].

Projeto fatorial 2k. O planejamento fatorial 2 * 2 é um caso especial do planejamento fatorial 2k, ou
seja, quando k 2. O planejamento fatorial 2k tem k fatores onde cada fator tem dois tratamentos.
Isso significa que existem 2k combinações diferentes de tratamentos. Para avaliar os efeitos dos
fatores k, todas as combinações devem ser testadas. Os assuntos são atribuídos aleatoriamente às
diferentes combinações. Um exemplo de experimento fatorial 23 é mostrado na Tabela 8.7.
As hipóteses e análises para este tipo de experimento são do mesmo tipo que para o planejamento
fatorial 2 * 2. Mais detalhes sobre os cuidados com o projeto fatorial 2k apresentados por
Montgomery [125].

Planejamento fatorial fracionário 2k. Quando o número de fatores aumenta em um experimento


fatorial 2k, o número de combinações de fatores cresce rapidamente, por exemplo, há 8
combinações para um experimento fatorial 23 e 16 para um experimento fatorial 24.
Freqüentemente, pode-se supor que os efeitos de certas interações de ordem superior são
desprezíveis e que os efeitos principais e os efeitos de interação de ordem inferior podem ser
obtidos executando uma fração do experimento fatorial completo. Este tipo de experimento é,
portanto, denominado experimento fatorial fracionário.

O projeto fatorial fracionário é baseado em três ideias:


• O princípio da dispersão do efeito: é provável que o sistema seja impulsionado
principalmente por alguns dos efeitos de interação principais e de ordem inferior.
• A propriedade de projeção: Um design mais forte pode ser obtido tomando um subconjunto
de fatores significativos do design fatorial fracionário.
• Experimentação sequencial: Um projeto mais forte pode ser obtido combinando execuções
sequenciais de dois ou mais experimentos fatoriais fracionários.

O principal uso desses experimentos fatoriais fracionários é em experimentos de triagem, onde o


objetivo do experimento é identificar os fatores que têm grandes efeitos no sistema. Exemplos de
experimentos fatoriais fracionários são:

Planejamento fatorial meio fracionário do planejamento fatorial 2k: metade das combinações
de um planejamento fatorial 2k completo é escolhida. As combinações são selecionadas de forma
que, se um fator for removido, o experimento restante seja um experimento fatorial 2k - 1 completo,
consulte a Tabela 8.8. Os assuntos são atribuídos aleatoriamente às combinações selecionadas.
Existem duas frações alternativas neste experimento e, se ambas as frações forem usadas em
sequência, o experimento resultante será um experimento fatorial completo de 2k.

Planejamento fatorial fracionário de um quarto do planejamento fatorial 2k: Um quarto das


combinações do planejamento fatorial 2k completo é escolhido. As combinações são selecionadas
de forma que, se dois fatores forem removidos, o experimento restante seja um experimento fatorial
2k-2 completo, consulte a Tabela 8.9. No entanto, existem dependências entre os fatores no
experimento de um quarto devido ao fato de não ser um experimento fatorial completo.
Por exemplo, na Tabela 8.9, o fator D é dependente de uma combinação do fator A e B. Pode, por
exemplo, ser visto que para todas as combinações de A1 e B1, temos D2 e assim por diante. De
forma semelhante, o fator E é dependente de uma combinação dos fatores A e C. Assim, se os
fatores C e E (ou B e D) forem removidos, o projeto resultante torna-se duas repetições de um
projeto fatorial fracionário 23-1 e não um planejamento fatorial 23. O último desenho é obtido se D
e E são removidos. As duas replicações podem ser identificadas na Tabela 8.9 observando que as
primeiras quatro linhas são equivalentes às quatro últimas linhas da tabela, quando C e E são
removidos, e, portanto, torna-se duas replicações de um planejamento fatorial 22.

Os assuntos são atribuídos aleatoriamente às combinações selecionadas. Existem quatro frações


alternativas neste experimento e se todas as quatro frações forem usadas em sequência, o
experimento resultante será um experimento fatorial completo de 2k. Se duas das frações forem
usadas em sequência, um projeto de metade fracionário será obtido.
Mais detalhes sobre os experimentos fatoriais fracionários são apresentados por Montgomery [125].

Em suma, a escolha do desenho experimental correto é fundamental, pois um desenho pobre sem
dúvida afetará a possibilidade de se poder tirar as conclusões corretas após o estudo. Além disso, o
projeto impõe restrições aos métodos estatísticos que podem ser aplicados. Por fim, deve-se
ressaltar que é importante tentar usar um design simples se possível e tentar fazer o melhor uso
possível dos assuntos disponíveis.

8.6 Instrumentação

Os instrumentos de um experimento são de três tipos, a saber: objetos, guias e instrumentos de


medição. No planejamento de um experimento, os instrumentos são escolhidos. Antes da execução,
os instrumentos são desenvolvidos para o experimento específico.
Objetos de experiência podem ser, por exemplo, especificações ou documentos de código. Ao
planejar um experimento, é importante escolher os objetos apropriados. Por exemplo, em um
experimento de inspeção, o número de falhas deve ser conhecido nos objetos de inspeção. Isso pode
ser conseguido semeando falhas ou usando um documento com um número conhecido de falhas.
Usar uma verdadeira versão inicial de um documento em que as falhas são identificadas pode fazer
o último.
As diretrizes são necessárias para orientar os participantes do experimento. As diretrizes incluem,
por exemplo, descrições de processos e listas de verificação. Se métodos diferentes são comparados
no experimento, as diretrizes para os métodos devem ser preparadas para o experimento. Além das
orientações, os participantes também precisam ser treinados nos métodos a serem utilizados.
As medições em um experimento são realizadas por meio da coleta de dados. Em experimentos
intensivos em humanos, os dados geralmente são coletados por meio de formulários manuais ou em
entrevistas. A tarefa de planejamento a ser realizada é preparar formulários e perguntas de entrevista
e validar os formulários e perguntas com algumas pessoas com experiência e habilidades
semelhantes aos participantes do experimento. Um exemplo de um formulário usado para coletar
informações sobre a experiência dos sujeitos é mostrado entre os exercícios, consulte a Tabela A.1
no Apêndice A.
O objetivo geral da instrumentação é fornecer meios para realizar o experimento e monitorá-lo, sem
afetar o controle do experimento. Os resultados do experimento devem ser os mesmos,
independentemente de como o experimento é instrumentado. Se a instrumentação afetar o resultado
do experimento, os resultados serão inválidos.
A validade de um experimento é elaborada na Seção 8.7 e mais sobre a preparação de instrumentos
podem ser encontrados nas Seitas. 9.1.2 e 9.2.2.

8.7 Avaliação de Validade

Uma questão fundamental em relação aos resultados de um experimento é quão válidos são os
resultados. É importante considerar a questão da validade já na fase de planejamento para planejar a
validade adequada dos resultados do experimento. Validade adequada refere-se a que os resultados
devem ser válidos para a população de interesse. Em primeiro lugar, os resultados devem ser
válidos para a população da qual a amostra é retirada. Em segundo lugar, pode ser interessante
generalizar os resultados para uma população mais ampla. Diz-se que os resultados têm validade
adequada se forem válidos para a população para a qual gostaríamos de generalizar.
A validade adequada não implica necessariamente a validade mais geral. Um experimento
conduzido dentro de uma organização pode ser projetado para responder a algumas perguntas
exclusivamente para aquela organização, e é suficiente se os resultados forem válidos dentro
daquela organização específica. Por outro lado, se conclusões mais gerais devem ser tiradas, a
validade deve abranger também um escopo mais geral.
Existem diferentes esquemas de classificação para diferentes tipos de ameaças à validade de um
experimento. Campbell e Stanley definem dois tipos, ameaças à validade interna e externa [32].
Cook e Campbell estendem a lista a quatro tipos de ameaças à validade dos resultados
experimentais. As quatro ameaças são conclusão, validade interna, construção e validade externa
[37]. A primeira categorização é algumas vezes mencionada na literatura, mas a última é preferível,
uma vez que é facilmente mapeada para as diferentes etapas envolvidas na condução de um
experimento, consulte a Fig. 8.2.
Cada uma das quatro categorias apresentadas por Cook e Campbell [37] está relacionada a uma
questão metodológica na experimentação. Os princípios básicos de um experimento são
apresentados na Fig. 8.2.
Na parte superior, temos a área de teoria e, na parte inferior, a área de observação. Queremos tirar
conclusões sobre a teoria definida nas hipóteses, com base em nossas observações. Para tirar
conclusões, temos quatro etapas, em cada uma das quais existe um tipo de ameaça à validade dos
resultados.

1. Validade da conclusão. Essa validade diz respeito à relação entre o tratamento e o


resultado. Queremos ter certeza de que existe uma relação estatística, ou seja, com uma determinada
significância.
2. Validade interna. Se for observada uma relação entre o tratamento e o resultado, devemos
ter certeza de que é uma relação causal, e que não é o resultado de um fator sobre o qual não temos
controle ou não medimos. Em outras palavras, que o tratamento causa o resultado (o efeito).
3. Validade de construção. Essa validade diz respeito à relação entre teoria e observação. Se
a relação entre causa e efeito for causal, devemos garantir duas coisas: (1) que o tratamento reflete
bem a construção da causa (ver parte esquerda da Fig. 8.2) e (2) que o resultado reflete a construção
da efeito bem (veja a parte direita da Fig. 8.2).
4. Validade externa. A validade externa está preocupada com a generalização. Se houver uma
relação causal entre o construto da causa e o efeito, o resultado do estudo pode ser generalizado fora
do escopo de nosso estudo? Existe relação entre o tratamento e o resultado?

A validade da conclusão é algumas vezes referida como validade da conclusão estatística [37] e tem
sua contrapartida na confiabilidade para a análise qualitativa, consulte a seção. 5.4.3. As ameaças à
validade da conclusão estão relacionadas com questões que afetam a capacidade de tirar a conclusão
correta sobre as relações entre o tratamento e o resultado de um experimento. Essas questões
incluem, por exemplo, escolha de testes estatísticos, escolha de tamanhos de amostra, cuidados
tomados na implementação e medição de um experimento.
Ameaças à validade interna dizem respeito a questões que podem indicar uma relação causal,
embora não haja nenhuma. Fatores que impactam na validade interna são como os sujeitos são
selecionados e divididos em classes diferentes, como os sujeitos são tratados e compensados
durante o experimento, se eventos especiais ocorrem durante o experimento, etc. Todos esses
fatores podem fazer o experimento mostrar um comportamento que não é devido ao tratamento,
mas ao fator perturbador.
Ameaças à validade do construto referem-se à extensão em que o cenário do experimento realmente
reflete o construto em estudo. Por exemplo, o número de cursos adquiridos na universidade em
ciência da computação pode ser uma medida inadequada da experiência do sujeito em uma
linguagem de programação, ou seja, tem validade de construção pobre. O número de anos de uso
prático pode ser uma medida melhor, ou seja, tem melhor validade de construto.
Ameaças à validade externa dizem respeito à capacidade de generalizar os resultados do
experimento fora do ambiente do experimento. A validade externa é afetada pelo design do
experimento escolhido, mas também pelos objetos no experimento e pelos sujeitos escolhidos.
Existem três riscos principais: ter participantes errados como sujeitos, conduzir o experimento no
ambiente errado e realizá-lo com um tempo que afeta os resultados.
Uma lista detalhada de ameaças à validade é apresentada na Seção 8,8. Esta lista pode ser usada
como uma lista de verificação para um projeto de experimento. Na avaliação de validade, cada um
dos itens é verificado para ver se há alguma ameaça. Se houver, eles devem ser tratados ou aceitos,
já que às vezes alguma ameaça à validade deve ser aceita. Pode até ser impossível realizar um
experimento sem certas ameaças e, portanto, elas devem ser aceitas e, em seguida, abordadas ao
interpretar os resultados. A prioridade entre os diferentes tipos de ameaças é discutida mais
detalhadamente na Seção 8,9.

8.8 Descrição detalhada de ameaças de validade

Abaixo, uma lista de ameaças à validade dos experimentos é discutida com base em Cook e
Campbell [37]. Todas as ameaças não são aplicáveis a todos os experimentos, mas esta lista pode
ser vista como uma lista de verificação. As ameaças estão resumidas na Tabela 8.10 e o esquema de
classificação alternativo e limitado [32] está resumido na Tabela 8.11.

8.8.1 Validade de Conclusão

As ameaças à validade da conclusão dizem respeito a questões que afetam a capacidade de tirar a
conclusão correta sobre as relações entre o tratamento e o resultado de um experimento.
Baixo poder estatístico. O poder de um teste estatístico é a capacidade do teste de revelar um
padrão verdadeiro nos dados. Se a potência for baixa, existe um alto risco de que uma conclusão
errônea seja tirada. Consulte a seção seguinte. 8.2 ou mais especificamente, não podemos rejeitar
uma hipótese errônea.
Suposições violadas de testes estatísticos. Certos testes têm suposições sobre, por exemplo,
amostras normalmente distribuídas e independentes. Violar as suposições pode levar a conclusões
erradas. Alguns testes estatísticos são mais robustos para suposições violadas do que outros, ver
cap. 10
Pesca e a taxa de erro. Esta ameaça contém duas partes distintas. Pesquisar ou ‘pescar’ um
resultado específico é uma ameaça, uma vez que as análises não são mais independentes e os
pesquisadores podem influenciar o resultado procurando por um resultado específico.
A taxa de erro está relacionada ao nível de significância real. Por exemplo, conduzir três
investigações com um nível de significância de 0:05 significa que o nível de significância total é 1
- .1 - 0: 05/3, que é igual a 0:14. A taxa de erro (ou seja, nível de significância) deve, portanto, ser
ajustada ao conduzir análises múltiplas.
Confiabilidade das medidas. A validade de um experimento é altamente dependente da
confiabilidade das medidas. Isso, por sua vez, pode depender de muitos fatores diferentes, como
formulação de pergunta ruim, instrumentação ruim ou layout de instrumento ruim. O princípio
básico é que, quando você mede um fenômeno duas vezes, o resultado deve ser o mesmo. Por
exemplo, linhas de código são mais confiáveis do que pontos de função, pois não envolvem
julgamento humano. Em outras palavras, as medidas objetivas, que podem ser repetidas com o
mesmo resultado, são mais confiáveis do que as medidas subjetivas, ver também o cap. 3
Confiabilidade da implementação do tratamento. A implementação do tratamento significa a
aplicação de tratamentos aos sujeitos. Existe o risco de a implementação não ser semelhante entre
pessoas diferentes que aplicam o tratamento ou entre ocasiões diferentes. A implementação deve,
portanto, ser tão padronizada quanto possível em diferentes assuntos e ocasiões.
Irrelevâncias aleatórias no cenário experimental. Elementos fora do ambiente experimental
podem perturbar os resultados, como ruído fora da sala ou uma interrupção repentina no
experimento.
Heterogeneidade aleatória de sujeitos. Sempre há heterogeneidade em um grupo de estudo.
Se o grupo for muito heterogêneo, existe o risco de a variação devido às diferenças individuais ser
maior do que devido ao tratamento. A escolha de grupos mais homogêneos, por outro lado, afetará a
validade externa, veja abaixo. Por exemplo, um experimento com alunos de graduação reduz a
heterogeneidade, uma vez que eles têm conhecimento e formação mais semelhantes, mas também
reduz a validade externa do experimento, uma vez que os sujeitos não são selecionados de uma
população geral o suficiente.

8.8.2 Validade Interna

Ameaças à validade interna são influências que podem afetar a variável independente no que diz
respeito à causalidade, sem o conhecimento do pesquisador. Assim, eles ameaçam a conclusão sobre
uma possível relação causal entre o tratamento e o resultado. As ameaças de validade interna às
vezes são classificadas em três categorias, ameaças de grupo único, ameaças de vários grupos e
ameaças sociais.
Ameaças de grupo único. Essas ameaças se aplicam a experimentos com grupos únicos.
Não temos grupo de controle ao qual não aplicamos o tratamento. Portanto, há problemas em
determinar se o tratamento ou outro fator causou o efeito observado.
História. Em um experimento, diferentes tratamentos podem ser aplicados ao mesmo objeto
em momentos diferentes. Então, existe o risco de que a história afete os resultados experimentais,
uma vez que as circunstâncias não são as mesmas nas duas ocasiões. Por exemplo, se uma das
ocasiões do experimento for no primeiro dia após um feriado ou em um dia em que um evento
muito raro ocorrer, e a outra ocasião for em um dia normal.
Maturação. Este é o efeito de que os sujeitos reagem de maneira diferente com o passar do
tempo. Os exemplos são quando os sujeitos são afetados negativamente (cansados ou entediados)
durante o experimento, ou positivamente (aprendendo) durante o curso do experimento.
Testando. Se o teste for repetido, os sujeitos podem responder de forma diferente em
momentos diferentes, uma vez que sabem como o teste é conduzido. Se houver necessidade de
familiarização com os testes, é importante que os resultados do teste não sejam retornados ao
sujeito, para não apoiar a aprendizagem indesejada.
Instrumentação. Este é o efeito causado pelos artefatos usados para a execução do
experimento, como formulários de coleta de dados, documento a ser inspecionado em um
experimento de inspeção, etc. Se forem mal projetados, o experimento será afetado negativamente.
Regressão estatística. Isso é uma ameaça quando os indivíduos são classificados em grupos
experimentais com base em um experimento anterior ou estudo de caso, por exemplo, dez primeiros
ou dez últimos. Nesse caso, pode haver aumento ou melhora, mesmo que nenhum tratamento seja
aplicado. Por exemplo, se os dez piores em um experimento forem selecionados como sujeitos com
base em um experimento anterior, todos eles provavelmente não estarão entre os dez piores no novo
experimento devido à pura variação aleatória. Os dez piores não podem ser piores do que
permanecer entre os dez piores e, portanto, a única mudança possível é para melhor, relativamente à
maior população da qual são selecionados.
Seleção. Este é o efeito da variação natural no desempenho humano. Dependendo de como
os assuntos são selecionados em um grupo maior, os efeitos da seleção podem variar. Além disso, o
efeito de permitir que voluntários participem de um experimento pode influenciar os resultados. Os
voluntários geralmente são mais motivados e adequados para uma nova tarefa do que toda a
população. Portanto, o grupo selecionado não é representativo para toda a população.
Mortalidade. Esse efeito é devido aos diferentes tipos de pessoas que desistem do
experimento. É importante caracterizar as desistências para verificar se são representativas do total
da amostra. Se os sujeitos de uma categoria específica abandonam, por exemplo, todos os revisores
seniores em um experimento de inspeção, a validade do experimento é altamente afetada.
Ambiguidade sobre a direção da influência causal. Esta é a questão de saber se A causa B, B
causa A ou mesmo X causa A e B. Um exemplo é se uma correlação entre a complexidade do
programa e a taxa de erro for observada. A questão é se a alta complexidade do programa causa alta
taxa de erro, ou vice-versa, ou se a alta complexidade do problema a ser resolvido causa as duas
coisas.
A maioria das ameaças à validade interna pode ser abordada por meio do design do experimento.
Por exemplo, ao introduzir um grupo de controle, muitas das ameaças internas podem ser
controladas. Por outro lado, várias ameaças de grupo são introduzidas em seu lugar.

Ameaças de vários grupos. Em um experimento de vários grupos, diferentes grupos são estudados.
A ameaça a tais estudos é que o grupo de controle e os grupos de experimentos selecionados podem
ser afetados de forma diferente pelas ameaças de um único grupo, conforme definido acima. Assim,
existem interações com a seleção.
Interações com seleção. As interações com a seleção são devidas a comportamentos
diferentes em grupos diferentes. Por exemplo, a interação seleção-maturação significa que grupos
diferentes amadurecem em velocidades diferentes, por exemplo, se dois grupos aplicarem um novo
método cada. Se um grupo aprende seu novo método mais rápido do que o outro, devido à sua
capacidade de aprendizado, os grupos selecionados amadurecem de forma diferente. O histórico de
seleção significa que grupos diferentes são afetados de maneira diferente pela história, etc.

Ameaças sociais à validade interna. Essas ameaças são aplicáveis a experimentos de grupo único
e grupos múltiplos. Os exemplos são fornecidos abaixo de um experimento de inspeção onde um
novo método (leitura baseada em perspectiva) é comparado a um antigo (leitura baseada em lista de
verificação).
Difusão ou imitação de tratamentos. Este efeito ocorre quando um grupo de controle
aprende sobre o tratamento do grupo no estudo experimental ou tenta imitar o comportamento do
grupo no estudo. Por exemplo, se um grupo de controle usa um método de inspeção baseado em
lista de verificação e o grupo experimental usa métodos baseados em perspectiva, o primeiro grupo
pode ouvir sobre o método baseado em perspectiva e realizar suas inspeções influenciadas por sua
própria perspectiva. O último pode ser o caso se o revisor for um especialista em uma determinada
área.
Equalização compensatória de tratamentos. Se um grupo de controle recebe uma
compensação por ser um grupo de controle, como um substituto para isso eles não recebem
tratamentos; isso pode afetar o resultado do experimento. Se o grupo de controle aprender outro
método novo como compensação por não ter aprendido o método baseado em perspectiva, seu
desempenho pode ser afetado por esse método.
Rivalidade compensatória. Um sujeito que recebe tratamentos menos desejáveis pode, como
o azarão natural, ser motivado a reduzir ou reverter o resultado esperado do experimento. O grupo
que usa o método tradicional pode fazer o possível para mostrar que o método antigo é competitivo.
Desmoralização ressentida. Isso é o oposto da ameaça anterior. Um sujeito que recebe
tratamentos menos desejáveis pode desistir e não ter um desempenho tão bom como geralmente faz.
O grupo que usa o método tradicional não está motivado para fazer um bom trabalho, enquanto
aprender algo novo inspira o grupo usando o novo método.

8.8.3 Validade do Construto

A validade do construto diz respeito à generalização do resultado do experimento para o conceito ou


teoria por trás do experimento. Algumas ameaças estão relacionadas ao projeto do experimento,
outras a fatores sociais.
Ameaças de design. As ameaças de design à validade do construto cobrem questões
relacionadas ao design do experimento e sua capacidade de refletir o construto a ser estudado.
Explicação pré-operacional inadequada de construtos. Essa ameaça, apesar de seu título
extenso, é bastante simples. Isso significa que os construtos não são suficientemente definidos,
antes de serem traduzidos em medidas ou tratamentos. A teoria não é suficientemente clara e,
portanto, o experimento não pode ser suficientemente claro. Por exemplo, se dois métodos de
inspeção são comparados e não é suficientemente claro o que significa ser "melhor". Significa
encontrar a maioria das falhas, a maioria das falhas por hora ou as falhas mais graves?
Viés de mono-operação. Se o experimento inclui uma única variável independente, caso,
assunto ou tratamento, o experimento pode sub-representar o construto e, portanto, não dar o quadro
completo da teoria. Por exemplo, se um experimento de inspeção é conduzido com um único
documento como objeto, o construto de causa é sub-representado.
Viés do mono-método. Usar um único tipo de medidas ou observações envolve o risco de
que, se essa medida ou observação fornecer um viés de medição, o experimento será enganoso. Ao
envolver diferentes tipos de medidas e observações, eles podem ser comparados uns com os outros.
Por exemplo, se o número de falhas encontradas é medido em um experimento de inspeção, onde a
classificação da falha é baseada em julgamento subjetivo, as relações não podem ser
suficientemente explicadas. O experimentador pode enviesar as medidas.
Construções confusas e níveis de construções. Em algumas relações, não é principalmente a
presença ou ausência de um construto, mas o nível do construto que é importante para o resultado.
O efeito da presença da construção é confundido com o efeito do nível da construção. Por exemplo,
a presença ou ausência de conhecimento prévio em uma linguagem de programação pode não
explicar as causas em um experimento, mas a diferença pode depender se os sujeitos têm 1, 3 ou 5
anos de experiência com a linguagem atual.
Interação de diferentes tratamentos. Se o sujeito estiver envolvido em mais de um estudo, os
tratamentos dos diferentes estudos podem interagir. Então você não pode concluir se o efeito é
devido a um dos tratamentos ou a uma combinação de tratamentos.
Interação de teste e tratamento. O próprio teste, ou seja, a aplicação de tratamentos, pode
tornar os indivíduos mais sensíveis ou receptivos ao tratamento. Então, o teste faz parte do
tratamento. Por exemplo, se o teste envolver a medição do número de erros cometidos na
codificação, os sujeitos ficarão mais cientes dos erros cometidos e, assim, tentarão reduzi-los.
Generalização restrita entre construções. O tratamento pode afetar o construto estudado
positivamente, mas não intencionalmente afetar outros construtos negativamente. Essa ameaça torna
o resultado difícil de generalizar em outros resultados potenciais. Por exemplo, um estudo
comparativo conclui que uma produtividade melhorada é alcançada com um novo método. Por
outro lado, pode-se observar que reduz a manutenibilidade, o que é um efeito colateral não
intencional. Se a manutenibilidade não for medida ou observada, existe o risco de que conclusões
sejam tiradas com base no atributo produtividade, ignorando a manutenibilidade.

Ameaças sociais para construir validade. Essas ameaças dizem respeito a questões relacionadas
ao comportamento dos sujeitos e dos experimentadores. Eles podem, com base no fato de que
fazem parte de um experimento, agir de forma diferente do que agem de outra forma, o que dá
resultados falsos do experimento.
Adivinhação de hipóteses. Quando as pessoas participam de um experimento, elas podem
tentar descobrir qual é o propósito e o resultado pretendido do experimento. Então, eles
provavelmente basearão seu comportamento em suas suposições sobre as hipóteses, seja positiva ou
negativamente, dependendo de sua atitude em relação à hipótese antecipada.
Apreensão da avaliação. Algumas pessoas têm medo de serem avaliadas. Uma forma de
tendência humana é tentar parecer melhor ao ser avaliado, o que se confunde com o resultado do
experimento. Por exemplo, se diferentes modelos de estimativa são comparados, as pessoas podem
não relatar seus verdadeiros desvios entre a estimativa e o resultado, mas alguns valores falsos, mas
"melhores".
Expectativas do experimentador. Os experimentadores podem enviesar os resultados de um
estudo tanto consciente quanto inconscientemente com base no que esperam do experimento. A
ameaça pode ser reduzida envolvendo diferentes pessoas que não têm expectativas ou expectativas
diferentes em relação ao experimento. Por exemplo, as perguntas podem ser feitas de diferentes
maneiras para dar as respostas que você deseja.

8.8.4 Validade Externa

Ameaças à validade externa são condições que limitam nossa capacidade de generalizar os
resultados de nosso experimento para a prática industrial. Existem três tipos de interação com o
tratamento: pessoas, lugar e tempo:
Interação de seleção e tratamento. Este é o efeito de ter uma população de sujeitos, não
representativa da população para a qual queremos generalizar, ou seja, as pessoas erradas
participam do experimento. Um exemplo dessa ameaça é selecionar apenas programadores em um
experimento de inspeção, quando programadores, bem como testadores e engenheiros de sistema
geralmente participam das inspeções.
Interação de ambiente e tratamento. Este é o efeito de não ter o cenário experimental ou
material representativo, por exemplo, da prática industrial. Um exemplo é o uso de ferramentas
antigas em um experimento, quando ferramentas atualizadas são comuns na indústria. Outro
exemplo é a realização de experimentos sobre problemas de brinquedos. Isso significa "lugar" ou
ambiente errado.
Interação de história e tratamento. Este é o efeito do experimento ser conduzido em um
horário ou dia especial que afeta os resultados. Se, por exemplo, um questionário é conduzido em
sistemas críticos para a segurança alguns dias após uma grande falha relacionada ao software, as
pessoas tendem a responder de forma diferente de alguns dias antes, ou algumas semanas ou meses
depois.
As ameaças à validade externa são reduzidas tornando o ambiente experimental o mais realista
possível. Por outro lado, a realidade não é homogênea. O mais importante é caracterizar e relatar as
características do ambiente, como experiência do pessoal, ferramentas, métodos, a fim de avaliar a
aplicabilidade em um contexto específico.

8.9 Prioridade entre os tipos de ameaças de validade

Existe um conflito entre alguns dos tipos de ameaças à validade. Os quatro tipos considerados são
validade interna, validade externa, validade de conclusão e validade de construto. Ao aumentar um
tipo, outro tipo pode diminuir. Priorizar entre os tipos de validade é, portanto, um problema de
otimização, dado um determinado propósito do experimento.
Por exemplo, usar alunos de graduação em um experimento de inspeção provavelmente permitirá
grupos de estudo maiores, reduzirá a heterogeneidade dentro do grupo e dará implementação
confiável de tratamento. Isso resulta em alta validade de conclusão, enquanto a validade externa é
reduzida, uma vez que a seleção não é representativa se quisermos generalizar os resultados para a
indústria de software.
Outro exemplo é fazer com que os sujeitos meçam vários fatores preenchendo esquemas para se
certificar de que os tratamentos e resultados realmente representam os construtos em estudo. Essa
ação aumentará a validade do construto, mas existe o risco de que a validade da conclusão seja
reduzida, pois, cada vez mais, medições tediosas tendem a reduzir a confiabilidade das medidas.
Em diferentes experimentos, diferentes tipos de validade podem ser priorizados de maneira
diferente, dependendo da finalidade do experimento. Cook e Campbell [37] propõem as seguintes
prioridades para teste de teoria e pesquisa aplicada:
Teste de teoria. No teste de teoria, é mais importante mostrar que existe uma relação casual
(validade interna) e que as variáveis no experimento representam os construtos da teoria (validade
do construto). Adicionar ao tamanho do experimento geralmente pode resolver as questões de
significância estatística (validade da conclusão). As teorias raramente estão relacionadas a
ambientes, populações ou épocas específicas para as quais os resultados devem ser generalizados.
Portanto, há pouca necessidade de questões de validade externa. As prioridades para experimentos
em testes teóricos estão em ordem decrescente: interno, construção, conclusão e externo.
Pesquisa aplicada. Na pesquisa aplicada, que é a área-alvo para a maioria dos experimentos
de engenharia de software, as prioridades são diferentes. Novamente, as relações em estudo são de
alta prioridade (validade interna), uma vez que o objetivo principal do experimento é estudar as
relações entre causas e efeitos. Na pesquisa aplicada, a generalização - do contexto em que o
experimento é conduzido para um contexto mais amplo - é de alta prioridade (validade externa).
Para um pesquisador, não é tão interessante mostrar um determinado resultado para a empresa X,
mas sim que o resultado seja válido para empresas de determinado porte ou domínio de aplicação.
Terceiro, o pesquisador aplicado está relativamente menos interessado em qual dos componentes de
um tratamento complexo realmente causa o efeito (validade do construto). Por exemplo, em um
experimento de leitura, não é tão interessante saber se é o aumento da compreensão em geral por
parte do revisor, ou é o procedimento específico de leitura que ajuda os leitores a encontrar mais
falhas. O principal interesse está no próprio efeito. Finalmente, em ambientes práticos, é difícil
obter tamanho suficiente dos conjuntos de dados, portanto, as conclusões estatísticas podem ser
tiradas com menos significância (validade da conclusão).
As prioridades para experimentos em pesquisa aplicada estão em ordem decrescente: interna,
externa, construção e conclusões.
Pode-se concluir que as ameaças à validade dos resultados experimentais são importantes para
avaliar e equilibrar durante o planejamento de um experimento. Dependendo do objetivo do
experimento, diferentes tipos de validade recebem prioridades diferentes. As ameaças a um
experimento também estão intimamente relacionadas à importância prática dos resultados.
Podemos, por exemplo, ser capazes de mostrar uma significância estatística, mas a diferença não
tem importância prática. Esta questão é mais elaborada na Seção 10.3.14.

8.10 Exemplo de experimento

Esta descrição é uma continuação do exemplo apresentado na Seção 7,2 A entrada para a fase de
planejamento é a definição da meta. Algumas das questões relacionadas ao planejamento foram
parcialmente tratadas na forma como a definição da meta é formulada no exemplo. Já está dito que
os alunos serão os sujeitos e o texto também indica que o experimento envolverá mais de um
documento de requisitos. O planejamento é uma atividade fundamental ao conduzir um
experimento. Um erro na etapa de planejamento pode afetar todo o resultado do experimento. A
etapa de planejamento inclui sete atividades, conforme mostrado na Fig. 8.1.
Seleção de contexto. O tipo de contexto é, em muitos casos, pelo menos parcialmente
decidido pela maneira como a definição do objetivo é formulada. Está implicitamente afirmado que
o experimento será executado off-line, embora possa potencialmente fazer parte de um projeto do
aluno, o que significaria on-line, embora não como parte de um projeto de desenvolvimento
industrial. O experimento será executado com uma mistura de M.Sc. e Ph.D. alunos.
Um experimento off-line com alunos implica que pode ser difícil ter tempo para inspecionar um
documento de requisitos para um sistema real completo. Em muitos casos, experimentos desse tipo
precisam recorrer a um documento de requisitos com recursos limitados. Neste caso específico,
serão utilizados dois documentos de requisitos de um pacote de laboratório (material disponível on-
line para fins de replicação). A escolha de usar dois documentos de requisitos tem algumas
implicações quando se trata da escolha do tipo de design, ao qual voltaremos. Os documentos de
requisitos têm algumas limitações quando se trata de recursos e, portanto, devem ser considerados,
em certa medida, como documentos de requisitos de "brinquedo".
O experimento pode ser considerado geral no sentido de que o objetivo é comparar duas técnicas de
leitura em geral (do ponto de vista da pesquisa), e não se trata de comparar uma técnica de leitura
existente em uma empresa com uma nova técnica de leitura alternativa. Este último teria feito o
experimento específico para a situação da empresa. Em ambos os casos, há algumas questões a
serem levadas em consideração para garantir uma comparação justa.
No caso de pesquisa geral, é importante que a comparação seja justa, no sentido de que o suporte
para as duas técnicas investigadas é comparável. Obviamente, é fácil encontrar uma lista de
verificação muito pobre e fornecer um bom suporte para PBR. Isso favoreceria a PBR e, portanto, o
resultado do experimento seria definitivamente questionado. Esta também é a razão pela qual “sem
suporte” não é um bom controle. Uma comparação / avaliação experimental deve ser baseada em
dois métodos comparáveis com suporte semelhante. O uso de “sem suporte” como grupo de
controle deve ser evitado. Só seria interessante se o grupo com apoio tivesse um desempenho pior
do que o grupo sem apoio, ou fosse a 'velha' forma de trabalhar em uma empresa. No entanto, essa
situação é muito rara e, portanto, raramente vale a pena realizar um experimento nessas
circunstâncias.
No caso específico, não há problema de justiça no tipo de suporte fornecido, uma vez que desde que
uma técnica existente seja comparada com uma nova alternativa, então está bem do ponto de vista
do suporte. O principal desafio no caso específico é que os participantes conheçam muito bem a
técnica existente, enquanto uma nova técnica deve ser ensinada a eles. Assim, a nova técnica pode
ter uma desvantagem por não ser tão conhecida. Por outro lado, tem a vantagem de ser
potencialmente mais interessante para os sujeitos, pois significa aprender uma nova técnica. Assim,
neste caso, a situação não é tão nítida, mas os vieses potenciais a favor de uma ou outra técnica
devem ser levados em consideração pelo pesquisador.

Formulação de hipóteses. Na definição do objetivo, é expresso que gostaríamos de comparar a


eficácia e a eficiência quando se trata de detectar falhas ao usar duas técnicas de leitura diferentes
ao realizar a inspeção. O primeiro método é a leitura baseada em perspectiva (PBR) e o segundo
método é a leitura baseada em listas de verificação (CBR). O PBR é baseado no fato de os revisores
terem perspectivas diferentes ao realizar a inspeção. O CBR é baseado em ter uma lista de
verificação para diferentes itens que podem estar relacionados a falhas nos documentos de
requisitos.
O facto de os documentos de requisitos a utilizar na experiência terem sido utilizados em
experiências anteriores, significa que se assume que o número de falhas é conhecido, embora não se
possa excluir a descoberta de novas falhas. Também deve ser observado que a eficácia se refere ao
número de falhas encontradas no número total de falhas, enquanto a eficiência também inclui o
tempo, ou seja, se mais falhas são encontradas por unidade de tempo. Para poder formular as
hipóteses formais, consideramos N o número de falhas e Nt o número de falhas encontradas por
unidade de tempo.
Se deixarmos:

• μNPBR e μNCBR são o número de falhas encontradas usando PBR e CBR, respectivamente, e
• μNtPBR e μNtCBR é o número de falhas encontradas por unidade de tempo usando PBR e
CBR, respectivamente.
Em seguida, as hipóteses são formuladas da seguinte forma:
Eficácia:
H0 W μNPBR D μNCBR
H1 W μNPBR <> μNCBR

Deve-se notar que escolhemos a hipótese alternativa como sendo qualquer diferença entre as duas
técnicas de leitura. Em outras palavras, a hipótese alternativa é formulada como uma hipótese
bilateral, sem nenhuma suposição de que uma técnica seja melhor do que a outra.
Eficiência:
H0 W μNtPBR D μNtCBR
H1 W μNtPBR <> μNtCBR
As hipóteses significam que gostaríamos de mostrar com significância estatística que as duas
técnicas de leitura encontram um número diferente de falhas e um número diferente de falhas é
encontrado por unidade de tempo. Gostaríamos de refutar a hipótese nula. Deve-se notar que não
ser capaz de refutar a hipótese nula não significa aceitar a hipótese nula. Esse tipo de resultado pode
ser devido ao número insuficiente de sujeitos e não ao fato de as técnicas de leitura serem
igualmente boas na detecção de falhas.
Seleção de variáveis. A variável independente é a técnica de leitura e possui dois níveis: PBR e
CBR, respectivamente. As variáveis dependentes são o número de falhas encontradas e o número de
falhas encontradas por unidade de tempo. Isso significa que devemos garantir que os sujeitos
possam marcar claramente as falhas encontradas para que o pesquisador possa comparar as falhas
marcadas com o conjunto de falhas conhecido. Além disso, devemos garantir que os sujeitos
possam acompanhar o tempo e preencher o tempo em que uma falha específica foi encontrada.
Deve-se notar que é importante manter o controle do tempo para uma falha específica, uma vez que
uma falha pode ser um falso positivo e, portanto, também devemos saber qual hora deve ser
removida do conjunto de dados.
Seleção de disciplinas. De preferência, seria possível encontrar sujeitos para o experimento de
forma aleatória. No entanto, na maioria dos experimentos, o pesquisador tende a ser forçado a usar
assuntos que estão disponíveis. Isso significa que muitas vezes os alunos que participam de cursos
na universidade tornam-se os sujeitos em experimentos realizados na universidade, que é o caso
neste experimento de exemplo. Nesse caso, é importante que os sujeitos ainda tenham liberdade de
negar a participação, sem qualquer penalidade para o indivíduo. Se a participação no experimento
der pontos de crédito ao curso, opções alternativas devem ser fornecidas.
Se o objetivo do experimento for comparar o desempenho dos dois grupos de alunos usando os
diferentes métodos, então o tratamento no experimento é regido pela seleção de sujeitos, ou seja, as
características dos grupos de alunos. Na verdade, isso seria um quase experimento. De forma
independente, é importante caracterizar os sujeitos selecionados para auxiliar na avaliação da
validade externa do estudo.
Escolha do tipo de design. Depois de sabermos quais sujeitos participarão, é hora de dar o próximo
passo no que diz respeito à randomização e decidir como os sujeitos devem ser divididos em
grupos. Uma boa abordagem costuma ser usar um pré-teste para tentar capturar a experiência dos
sujeitos e, com base no resultado do pré-teste, dividir os sujeitos em grupos de experiência, dos
quais selecionamos aleatoriamente sujeitos para os grupos do experimento. Isso é feito para tentar
garantir que os grupos sejam o mais igualitários possível quando se trata de experiências anteriores,
ainda mantendo a randomização sobre os sujeitos. Isso é conhecido como bloqueio, ou seja,
bloqueamos a experiência anterior para tentar garantir que ela não afete o resultado do experimento.
Finalmente, o objetivo é, na maioria dos casos, ter grupos igualmente grandes, ou seja, queremos
um design equilibrado. A escolha do tipo de design pode ser afetada pelo número de disciplinas
disponíveis. Se houver muitos sujeitos, é possível considerar mais combinações experimentais ou
considerar o uso de cada sujeito para apenas um tratamento. Com relativamente poucos sujeitos,
torna-se mais desafiador projetar o experimento e usá-los sabiamente, sem comprometer os
objetivos do experimento.
A próxima etapa é decidir sobre o tipo de projeto. O experimento inclui um fator de interesse
primário (técnica de leitura) com dois tratamentos (PBR e CBR, respectivamente), e um segundo
fator que não é realmente de interesse no experimento (documento de requisitos). Com base nas
decisões anteriores tomadas, o design natural é um design completamente aleatório onde cada grupo
usa primeiro PBR ou CBR em um dos documentos de requisitos e, em seguida, usa a outra técnica
de leitura no outro documento de requisitos. No entanto, as decisões também devem ser tomadas em
ordem. Temos duas opções: (1) ter ambos os grupos usando técnicas de leitura diferentes em um dos
documentos de requisitos primeiro e, em seguida, alternar as técnicas de leitura ao inspecionar o
outro documento de requisitos, ou (2) ter ambos os grupos usando a mesma técnica de leitura em
requisitos diferentes documentos. Em ambos os casos, há um problema de pedido. No primeiro
caso, um dos documentos de requisitos será usado antes do outro e no segundo caso uma técnica de
leitura será usada antes da outra. Portanto, temos que considerar o que representa menos ameaças ao
experimento. As ameaças de validade são elaboradas mais detalhadamente abaixo.
Outra opção de design teria sido permitir que um grupo usasse o PBR em um documento de
requisitos e o outro grupo usasse o CBR no mesmo documento. A vantagem seria que um
documento de requisitos maior poderia ser usado no mesmo período. A desvantagem é que apenas
metade dos pontos de dados são gerados. Em um experimento, geralmente ocorre um determinado
período de tempo disponível para a execução do experimento. Assim, torna-se uma questão de
como usar o tempo da maneira mais eficaz, ou seja, obter o melhor resultado possível do
experimento para abordar as hipóteses declaradas. A escolha do design é muito importante e é
sempre uma troca. Diferentes tipos de projetos têm diferentes vantagens e desvantagens. Além
disso, a escolha também constitui a base para o método estatístico que pode ser aplicado aos dados.
Isso é discutido mais detalhadamente na Seção 10,4.
Neste caso específico, um desenho totalmente aleatório é escolhido. Primeiro, um grupo é
designado para usar o PBR no primeiro documento de requisitos e o outro grupo é designado para
usar o CBR no mesmo documento de requisitos. Esta alternativa é escolhida por se acreditar que
uma ordem entre as técnicas de leitura é pior do que uma ordem entre os documentos de requisitos.
Este é o caso particular, uma vez que o principal interesse está na diferença entre as técnicas de
leitura e não em quaisquer diferenças entre os dois documentos de requisitos.
Instrumentação. Dado que o experimento é baseado em um pacote de laboratório, os documentos
de requisitos já estão disponíveis e, portanto, também uma lista de falhas detectadas (pelo menos
conhecidas até agora). Caso contrário, os documentos de requisitos adequados devem ser
identificados, de preferência com um número conhecido de falhas para ser capaz de determinar a
eficácia da técnica de leitura.
As diretrizes para as duas técnicas de leitura devem ser desenvolvidas ou reutilizadas em outro
lugar. Aqui é importante garantir uma comparação justa, conforme mencionado acima, fornecendo
suporte comparável para os dois métodos.
Os formulários para preenchimento das falhas encontradas devem ser desenvolvidos ou
reaproveitados a partir de outro experimento. É crucial garantir a rastreabilidade entre o documento
de requisitos e o formulário, por exemplo, numerando as falhas no documento de requisitos
enquanto captura as informações sobre a falha no formulário.
Avaliação de validade. Finalmente, as ameaças de validade devem ser avaliadas. É importante
fazer isso com antecedência para garantir que as ameaças sejam minimizadas. É quase impossível
evitar todas as ameaças. Dito isto, ainda significa que, se possível, todas as ameaças devem ser
identificadas e, sempre que possível, mitigadas.
A avaliação das ameaças neste exemplo específico é deixada como um exercício; veja o Exercício
8.5 na Seção 8,11.
Próxima etapa no processo de experimento. Com base nas etapas descritas acima para o exemplo,
esperamos estar prontos para executar o experimento. No entanto, antes de fazer isso, é
recomendável que alguns colegas revisem o projeto do experimento. Além disso, é bom se for
possível fazer um teste do experimento, embora isso signifique usar uma ou mais pessoas que de
outra forma poderiam ter sido os sujeitos do experimento. Portanto, é importante usar os assuntos
potenciais com sabedoria.

8.11 Exercícios

• 8,1 O que são uma hipótese nula e uma hipótese alternativa?


• 8,2. O que é erro do tipo I e erro do tipo II, respectivamente, qual é o pior e por quê?
• 8,3. De que maneiras diferentes os assuntos podem ser amostrados?
• 8.4. Quais são os diferentes tipos de designs de experimentos disponíveis e como o
design se relaciona com os métodos estatísticos a serem aplicados na análise?
• 8,5. Quais são as ameaças (considere todos os quatro tipos de ameaças de validade) que
existem no exemplo da Seção 8.10 e explicar por que são ameaças, qual é o trade-off
entre os diferentes tipos de validade?

Você também pode gostar