Você está na página 1de 42

Mtodos de pesquisa quantitativa e qualitativa para a Cincia da Computao

Jacques Wainer Instituto de Computao UNICAMP wainer@ic.unicamp.br

Abstract This course will discuss some of the scientic research methods relevant to Computer Science. We will discuss many aspects of both quantitative and qualitative methods. These methods are relevant to evaluate systems, to verify theories, and to understand working practices that may illuminate the specication of systems. Among the quantitative methods we will discuss the evaluation of programs using synthetic data, signicance tests, surveys, and design of experiments. Among the qualitative methods we will discuss observational research (case studies, ethnography, and so on) and action research. Whenever possible we point out published research that used these methods. Resumo Este minicurso abordar mtodos de pesquisa cientca apropriados para a Cincia da Computao. Abordaremos vrios aspectos de mtodos quantitativos e qualitativos. Estes mtodos so apropriados para a avaliao de sistemas, para a vericao de teorias, e para o entendimento de prticas de trabalho que podem iluminar a elaborao de requisitos de sistemas. Dentre os mtodos quantitativos abordaremos avaliao de programas usando dados articiais, testes de signicncia estatstica e o uso de questionrios e experimentos. Dentre os mtodos qualitativos, abordaremos variaes em pesquisa observacional (estudo de caso, etnograa, etc.) e pesquisa-ao. Sempre que possvel apontamos pesquisas publicadas onde os mtodos so utilizados.

5.1. Metodologias de pesquisa cientca em Cincia da Computao


Pesquisa em Cincia da Computao (abreviado como CC, doravante) envolve na maioria dos casos a construo de um programa, de um modelo, de um algoritmo ou de um sistema novo. Novidade considerada como algo fundamental da pesquisa em CC. De vez em quando (dependendo da subrea e da sorte) apenas a apresentao do programa/modelo/sistema novo considerado como a pesquisa em si, e h vrios exemplos de artigos em revistas e
1

J. Wainer

conferncias onde um sistema/modelo/algoritmo novo apresentado e comparado informalmente com as alternativas j publicadas. Este texto usar o termo programa para indicar um software que resolve um problema especco, e cujo usurio normalmente o prprio autor. Um sistema um software que interage com usurios que no so o desenvolvedor do sistema, e que faz parte das atividades do usurio. O autor acredita que cada vez mais as revistas de qualidade em Cincia da Computao vo exigir avaliao dos sistemas e programas criados, e que esta avaliao dever ser cada vez mais rigorosa. Em reas onde alguma forma de avaliao j um requisito para a publicao, por exemplo algoritmos de minerao de dados, revises esto cada vez mais exigentes com o rigor da avaliao, na experincia pessoal do autor. Nos casos onde a simples criao de um programa/sistema novo no suciente como pesquisa necessrio encontrar algum conhecimento1 sobre o programa/sistema obtido de forma mais metodolgica. Ou dito de outra forma, preciso avaliar o programa/sistema. H vrias denies de avaliao, principalmente porque avaliao algo de importncia em muitas reas, por exemplo, educao, administrao, polticas publicas, alm da computao. Uma denio de avaliao, adaptada de [Guba and Lincon 1981], : Avaliao o processo de julgar o mrito e valor de um sistema de informao. Avaliao deve ser contrastada com dois outros conceitos, vericao e validao. Vericao o processo de julgar a aderncia de um sistema de informao com a sua especicao, e validao o processo de julgar quo bem um sistema de informao resolve o problema para o qual ele foi concebido. E avaliao de uma forma ampla o processo de vericar para que serve e quanto serve um sistema. A diferena entre os termos surge porque, por exemlplo, o problema para qual o sistema foi concebido no o problema real, ou porque resolvendo este problema surgem outros problemas, ou porque a especicao pode ser incompleta ou errada frente ao problema para o qual o sistema foi concebido, etc. Neste curso, o valor e o mrito de um programa exatamente a sua capacidade de resolver o problema para o qual ele foi concebido, e portanto a avaliao de programa equivale validao do programa. J sobre sistemas, exatamente porque ele vai ser usado em lugares reais por usurios reais o mrito do sistema pode no ter nada a ver com o problema para o qual ele foi concebido. Mtodos de pesquisa cientca discutidos neste curso so usados comumente para avaliar programas e sistemas. Mas avaliao no o nico uso
1

Aspas so usadas em termos que podem numa primeira aproximao ser lidos no seu sentido usual, mas que numa segunda aproximao so tpicos que suscintam maior debate.

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

destes mtodos. Outras aplicaes dos mtodos de pesquisa cientca so: entendimento de requisitos e prticas de trabalho e demonstraes e refutaes de teorias sobre sistemas de informao. Em alguns domnios da CC, usa-se mtodos de pesquisa cientca para entender as prticas e o contexto de trabalho em uma organizao, em um grupo, ou em comunidades, como subsdio para especicar sistemas de informao para esta organizao, grupo ou comunidade. Ns chamaremos isso de entender os requisitos de um sistema, em vez de usar o termo mais comum em engenharia de software, anlise de requisito, pois o resultado no necessariamente uma especicao dos requisitos de um sistema futuro. O autor est mais familiarizado com o uso de tcnicas de pesquisa qualitativa para entender prticas de trabalho colaborativo, que podem ou no guiar o desenvolvimento de um sistema de informao. Usando exemplos clssicos em CSCW (Computer supported collaborative work), [Bentley et al. 1992] usa uma tcnica qualitativa que discutiremos abaixo, para especicar requisitos importantes e no importantes para um sistema de auxilio ao controle de traco areo. J [Watts et al. 1996] discute como canais de voz hierrquicos so usados para controlar misses da NASA, apenas para ilustrar como uma colaborao intensa, envolvendo centenas de pessoas, pode ser coordenada atravs de um canal de comunicao de baixo volume. Finalmente, mtodos cientcos so usados em CC para fazer cincia, como entendido em outras reas cientcas. Sem entrar em muitos detalhes do que cincia (que o assunto da Epistemologia, uma subrea da Filosoa), a maioria das cincias naturais (que estudam fenmenos naturais) trabalha com teorias ou leis genricas, que explicam as observaes e as descobertas. Um caso clssico em Fsica, que o exemplo mais paradigmtico de cincia natural, a teoria da gravitao e as trs leis do movimento de Newton, que explica no s as leis de Keppler para os movimentos planetrios, mas a queda de corpos na Terra, etc. Para que Newton pudesse criar as suas leis, incontveis astrnomos tiveram que coletar dados quantitativos sobre posio de planetas, etc., e Kepler teve que criar um conjunto de leis que resumia/explicava o movimento planetrio. Mas as leis de Newton no explicam o pequeno efeito da presseo da rbita de Mrcurio, e este, entre outros fenmenos, levou substituio das leis de Newton pela teoria geral da relatividade de Einstein. De forma anloga, a coleta de dados (preferencialmente quantitativos) sobre custos de desenvolvimento de software, ou sobre defeitos de software, ou sobre resistncia na adoo de um novo sistema, etc., pode levar criao de leis gerais ou teorias em diferentes reas da computao. E a descoberta de um fenmeno que no pode ser explicado por essas teorias, pode levar sua substituio por outra teoria. Por outro lado, cincia da computao, se for uma cincia2 , tem caractersticas peculiares - no s h poucas leis da
2

Os artigos [Denning 2005, Tichy 1998, Newell and Simon 1976, Brooks 1996] entre ou-

J. Wainer

computao, mas as leis que existem: tm um carter estatstico - isto , elas so leis vlidas para grandes quantidades de exemplos, mas no necessariamente para um exemplo so rasas3 - isto , elas se parecem mais com descobertas, e no com leis ou teorias gerais que permitem a derivao de vrias concluses (que podem ser posteriormente vericadas ou no) a maioria delas so datadas - isto , as leis so vlidas para um particular perodo, e no se espera que elas continuem vlidas indenidamente Vejamos cada item. difcil pensar em leis ou teorias da computao, isto , formulaes genricas que so empiricamente vericveis, mas no so necessariamente verdadeiras. Dizer que o problema do caixeiro viajante NPcompleto no uma lei emprica, uma concluso matemtica da denio do problema, e da denio de NP completo. Um exemplo de lei da computao, ou da engenharia de software, a que arma que a manuteno de software consome pelo menos 60% do custo total do software ([Huff 1990], por exemplo). Esta lei claramente estatstica: encontrar um projeto, cujo custo de manuteno foi de 40% do custo total, no invalida a lei. A lei tambm no permite derivar muitas concluses alm do que ela diz. E nalmente, a proporo 60% reete um particular momento e situao, que depende da longevidade mdia dos sistemas, do tipo de sistema, das prticas de desenvolvimento e manuteno de sistemas, etc. Por exemplo, [Koskinen 2007] contm uma tabela com os diferentes resultados de proporo do custo de manuteno em diferentes artigos em diferentes momentos. De qualquer forma, o uso de mtodos quantitativos necessrio para coletar dados para denir e atualizar as leis/teorias da computao. E se estamos tratando de teorias determinsticas, mtodos quantitativos e qualitativos podem descobrir exemplos que no so explicados por uma teoria determinstica, e que portanto requerem a elaborao de uma nova teoria que suplanta a anterior. Conhecimento em cincia da computao obtido usando as seguintes grandes metodologias: pesquisa analtica pesquisa quantitativa pesquisa qualitativa pesquisa bibliogrca A pesquisa quantitativa e a qualitativa so coletivamente chamadas de pesquisa emprica.
tros, discutem se cincia da computao ou no uma cincia.
3

Rasa (shallow ) o termo usado em [Kitchenham et al. 2002].

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

A pesquisa analtica, que no ser objeto desse minicurso, o mtodo mais comum de gerar/obter conhecimento sobre programas e algoritmos. A pesquisa analtica faz algumas pressuposies sobre os dados do programa ou sobre a mquina onde o programa vai ser executado, e prova matematicamente que o programa tem algumas propriedades interessantes. A anlise de complexidade assinttica de algoritmos uma forma de pesquisa analtica - h um conjunto de pressuposies sobre a infra-estrutura computacional onde o algoritmo roda, e prova-se propriedades sobre tempo de execuo, uso de memria, etc. Anlise de algoritmos e programas onde se modela a distribuio de probabilidade dos dados (por exemplo [Mezard et al. 2002]) so tambm exemplos de pesquisa analtica. A pesquisa quantitativa baseada na medida (normalmente numrica) de poucas variveis objetivas, na nfase em comparao de resultados e no uso intensivo de tcnicas estatsticas. Os mtodos quantitativos a ser abordados neste minicurso so: uso de dados sintticos: benchmarks, simulaes e competies tcnicas estatsticas para a comparao de conjuntos de medidas uso de questionrios (surveys) desenhos experimentais H mais um conjunto de tcnicas usual em pesquisa quantitativa, mas que no ser abordado neste curso, a pesquisa correlacional ou modelagem estatstica. A idia da pesquisa correlacional vericar a existncia de alguma relao estatstica entre poucas variveis em um grande conjunto de dados. No caso mais comum, busca-se uma correlao signicativa entre duas variveis. Em estudos mais elaborados, usa-se modelos mais complexos que relacionam as vrias variveis (a correlao mede a aderncia dos dados a um modelo linear que relaciona duas variveis). Em CC h poucos exemplos de estudos correlacionais, mas uma rea relacionada onde se usa modelagem estatstica o estudo de impactos da informtica na produtividade de empresas e pases [Wainer 2003, Brynjolfsson and Hitt 1998, Dewan and Kraemer 1998]. A pesquisa qualitativa baseia-se na observao cuidadosa dos ambientes onde o sistema est sendo usado ou onde ser usado, do entendimento das vrias perspectivas dos usurios ou potenciais usurios do sistema, etc. Os mtodos qualitativos a ser apresentados nesse minicurso so: estudos qualitativos observacionais pesquisa-ao (ou estudos qualitativos intervencionistas) outras formas de avaliao qualitativa A pesquisa bibliogrca, que no ser abordada neste curso, no apenas coletar e resumir alguns artigos relevantes pesquisa, como tem sido feito em artigos e teses em computao. Por pesquisa cientca bibliogrca nos referimos a duas prticas comuns nas Cincias da Sade: reviso
5

J. Wainer

sistemtica e meta-anlises. Em ambas, o objetivo coletar todos os artigos publicados que reportam a algum experimento quantitativo pelo qual estamos interessados e resumir os vrios resultados. A reviso sistemtica termina em uma avaliao qualitativa e quantitativa desses vrios resultados (por exemplo distribuio e homogeneidade dos resultados), enquanto que metaanlise usa tcnicas estatsticas avanadas para agregar os vrios resultados experimentais num nico nmero. O site [Castro 2007] apresenta um curso virtual sobre meta-anlise. O artigo [Chen and Rada 1996] uma reviso sistemtica que sumariza 23 experimentos sobre usabilidade de hipertextos; [Hundhausen et al. 2002] uma reviso sistemtica sobre efetividade educacional de visualizao de algoritmos.

5.2. Mtodos quantitativos


A pesquisa quantitativa vem da tradio das cincias naturais, onde as variveis observadas so poucas, objetivas e medidas em escalas numricas. Filosocamente, a pesquisa quantitativa baseia-se numa viso dita positivista onde: as variveis a serem observadas so consideradas objetivas, isto , diferentes observadores obtero os mesmos resultados em observaes distintas no h desacordo do que melhor e o que pior para os valores dessas variveis objetivas medies numricas so consideradas mais ricas que descries verbais, pois elas se adequam manipulao estatstica A essncia da pesquisa quantitativa em cincia da computao vericar o quo melhor usar um programa/sistema novo frente (s) alternativa(s).

5.2.1. Dados sintticos


Algumas reas da computao usam conjuntos de dados ou conjuntos de exemplos denidos pela comunidade como forma de avaliar os programas. Tais conjuntos de dados, ou benchmarks, devem em princpio representar a possvel diversidade dos dados reais. Em algumas reas da computao possvel selecionar um subconjunto do benchmark para avaliar os programas, em outras, todo o benchmark deve ser usado. Nos casos mais completos, deve-se executar o programa novo Pn e um ou mais programas competitivos P1 , P2 , . . . Pk nos mesmos dados do benchmark, e usar tcnicas estatsticas de comparao de conjuntos de medidas para determinar se existem diferenas signicativas entre os resultados do programa novo Pn e os resultados dos programas competitivos P1 at Pk . Outra alternativa (menos desejada) que os autores dos programas P1 , P2 , etc. publiquem, no s o desempenho dos seus programas, mas tambm dados como o intervalo de conana (ver abaixo) dessas medidas, de forma que o autor do programa novo Pn pode compar-lo com alguma sosticao estatstica com os outros Pi .
6

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

A maioria dos benchmarks podem ser agrupados em trs classes principais. No primeiro grupo, benchmarks que so usados para avaliar o tempo de execuo do programa. O segundo grupo so os benchmarks que so usados para avaliar se um programa consegue obter um resultado (dentro talvez de certas restries de tempo de execuo), e resultam num conjunto de medidas binrias (resolveu ou no resolveu o problema). Esta segunda classe de benchmarks normalmente especica no s exemplos de problemas, mas tambm sua soluo. Finalmente, a terceira classe de benchmarks usada para avaliar a qualidade da resposta do programa. Programas que usam heursticas, que fazem aproximaes, etc., nem sempre retornam a resposta correta, e benchmarks dessa familia so usados para avaliar a qualidade da resposta - que pode ser tanto binria (acertou/errou), quanto uma medida de erro. Criar, manter, atualizar, contribuir e analisar as caractersticas de benchmarks uma atividade que deve ser considerada como cienticamente nobre e importante. Por exemplo, [Holte 1993] mostra que um benchmark muito usado em aprendizado de mquina (o conjunto de dados do UCI) tinha um srio vis - os exemplos eram muito fceis, e, portanto, quase todos as tcnicas usadas tinham resultados muito bons nesses exemplos. Esse fenmeno chamado de efeito de teto, quando os programas atingem perto do mximo possvel no benchmark. Isso diculta a anlise do desempenho do programa - se todos os programas tm diferenas de desempenho muito pequenas, possvel que elas desapaream na anlise de signicncia. O efeito contrrio, efeito-cho, acontece quando os programas de benchmark so muito difceis e o desempenho dos programas todo muito baixo. Algumas reas da CC permitem que os programas sejam testados com dados gerados articialmente por meio de simuladores. De novo, no melhor caso, os exemplos gerados por simulao seriam testados, tanto no programa Pn , quanto nos programas alternativos P1 at Pk . importante perceber que dados gerados atravs de uma simulao tm um vis, j que o gerador cria exemplos segundo uma distribuio de probabilidade que pode no corresponder aos dados reais. Assim, algum cuidado deve ser tomado quando se compara resultados de programas diferentes com dados gerados por simuladores diferentes, pois provvel que cada simulador gere exemplos com diferentes distribuies. Finalmente, algumas reas da CC possuem a tradio de competies, ou desaos. Os dados que sero usados para avaliar os programas no so sabidos de antemo. S durante a competio os dados so apresentados, e a avaliao dos programas se faz naquele momento. Em reas como Inteligncia Articial, especialmente nos subdomnios onde os programas so competitivos, como jogos, algumas formas de robtica, etc., a competio normalmente um conjunto de partidas entre os programas/sistemas competidores, e a avaliao do programa se d por quantos pontos ele acumula durante a competio.
7

J. Wainer

5.2.1.1. O que fazer com isso? O pesquisador deve informar-se da disponibilidade de benchmarks, simuladores e competies na sua rea de pesquisa.

5.2.2. Signicncia estatstica


5.2.2.1. Tipos de medida Em pesquisa quantitativa, assume-se que as variveis de interesse podem ser medidas objetivamente. Mas o que medido pode variar. Por exemplo, no caso de benchmarks descritos acima, uma medida possvel o tempo de execuo, outra medida possvel se o programa acertou ou no a resposta. A primeira medida um real, a segunda um dado binrio. Genericamente, classica-se as medidas nas seguintes classes: medidas categricas ou nominais Medidas categricas indicam apenas a classe do dado, e a nica operao possvel vericar se o dado tem um ou outro valor. Uma medida categrica clssica sexo: masculino ou feminino. No h nenhuma operao que faa sentido com esses dois valores: orden-los, fazer operaes matemticas, etc. Mesmo que se codique 1 para o sexo masculino e 2 para o feminino, no faz nenhum sentido somar o sexo de um grupo de pessoas, ou tirar a mdia do sexo, etc. Variveis categricas podem ter mais de dois valores, por exemplo, estado ou pas de origem, diagnstico mdico, etc. Nestes casos, a codicao das categorias em nmeros deve ser entendida com cuidado. Se atribumos 1 para Acre, 2 para Alagoas, 3 para Amazonas, e assim por diante, no faz nenhum sentido somar esses nmeros, subtrair um do outro, dizer que Piau maior que Para s porque seu cdigo um nmero maior, etc. medidas ordinais Medidas ordinais tambm atribuem classes aos dados, mas possvel orden-las de maior para menor. Um exemplo clssico classe socioeconmica. Normalmente usa-se as classes A,B,C e D, e existe uma ordem entre elas: de A para D nessa ordem. Outras variveis ordinais comuns so diculdade de um projeto de software, nvel (e no anos) de educao de um prossional, etc. Se os valores ordinais so codicados com nmeros, por exemplo, classe socioeconmica A = 4, B = 3, C = 2, etc., ento a ordem dos nmeros reete a ordem dos valores, mas preciso ter em mente que a diferena dos nmeros/cdigo no faz nenhum sentido - a distncia entre a classe A e B no a mesma que a distncia entre B e C mas a diferena dos cdigos idntica. medidas intervalares Medidas intervalares atribuem ao dado um nmero real, mas o zero da escala arbitrrio. O exemplo clssico de medida intervalar a medida de temperatura em Clsius. Medidas intervalares garantem que as diferenas entre duas medidas (o intervalo) algo que pode ser comparado: quando a temperatura de 20C no se pode dizer que
8

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

est duas vezes mais quente que quando a temperatura est 10C, mas pode-se dizer que o ganho de temperatura quando se vai de 10C para 20C duas vezes maior do que quando se vai de 20C para 25C. medidas de razo Medidas de razo atribuem ao dado um nmero real onde o zero absoluto, e portanto razes entre duas medidas fazem sentido. O exemplo clssico a medida de temperatura em Kelvin, ou medida de distncia em metros, etc. Para a computao provavelmente no h muitos exemplos onde a diferena entre medidas de razo e intervalares muito relevante, e, portanto, neste texto ns falaremos em medidas pelo menos intervalares, para referirnos a intervalares ou de razo. Ento, em computao preciso ter em mente pelo menos as diferenas entre medidas categricas, ordinais e medidas pelo menos intervalares. Esta classicao de medidas importante por duas razes: o tipo de medida dene que tipo de estatstica possvel usar para sumarizar os dados, e que tipo de teste estatstico dever ser usado para vericar se dois conjuntos de dados so signicativamente diferentes ou no. Vamos nos concentrar nas estatsticas para sumarizao de um conjunto de dados nesta seo, e na prxima falaremos de comparaes e de signicncia estatstica. Dado um conjunto de medidas categricas, o nico jeito de descrever os dados apresentar a distribuio de freqncias: 2% dos produtos vieram do Acre, 14% de Alagoas, 13% do Amazonas, e assim por diante. E para sumarizar os dados, o mximo que se pode fazer apresentar a moda ou o valor com maior freqncia. Para medidas ordinais, a medida sumarizadora mais comum a mediana, o valor que divide o conjunto de dados em duas metades. A forma de descrever os dados pode ser tambm atravs da distribuio de freqncias para cada um dos valores. Medidas pelo menos intervalares so sumarizadas atravs da mdia, e do desvio padro. Medidas de razo tambm permitem coisas como mdia geomtrica e mdia harmonia, que no faz sentido para medidas intervalares. Um dado muito comum em computao se o programa produz o resultado correto ou no para um particular dado de entrada. Para resguardar-se de erros, o pesquisador deve considerar essa medida como uma medida categrica! Mesmo usando a codicao tradicional de 0 para falha e 1 para sucesso, o pesquisador no deve enganar-se e pensar que est trabalhando com uma medida de razo, embora contas como a mdia parecem fazer sentido. Se o programa acertou 30 exemplos e errou 12, dizer que o programa acerta 30/(30 + 12) = 71.4% parece fazer sentido. O que est acontecendo que o nmero 71.4% a descrio da distribuio dos valores - certo 71.4% das vezes e errado 28.6% das vezes. Se, neste caso, a conta da mdia acabou resultando em uma proporo, ou seja, um nmero que descreve a distribuio dos dados levar essa analogia mais a fundo um erro. Para comparar dois programas quanto sua corretude, no se usa o teste t (ver abaixo), que seria
9

J. Wainer

apropriado para uma medida pelo menos intervalar, e sim o teste chi-quadrado (ver abaixo), que usado para medidas categricas. 5.2.2.2. Signicncia estatstica Nota: Esta seo apenas introdutria para o assunto de signicncia estatstica. Ns no explicaremos a mecnica e as pressuposies dos testes estatsticos, nem mesmo as frmulas que resumem os testes. O objetivo desta seo apenas associar o nome do teste a um problema especco (por exemplo, vericar se a mdia de dois conjuntos de medidas so signicativamente diferentes). As frmulas para o teste devem ser obtidas de outras fontes. Finalmente, o autor no especialista em estatstica, e as regras colocadas aqui talvez no sejam as mais modernas - se o leitor tem uma forte opinio de que outro teste mais apropriado para o seu problema, deve seguir sua intuio e conhecimento. Testes estatsticos so procedimentos que fazem uma particular pressuposio sobre os dados, a chamada hiptese nula, e mais uma serie de outras pressuposies (que chamaremos de condies do teste) sobre os dados, e calculam a probabilidade que alguma propriedade relacionada aos dados seja verdadeira, dadas as pressuposies. Essa probabilidade calculada chamada valor p ou (p-value). Se as condies do teste so verdadeiras, e o p-value sucientemente baixo, ento o pesquisador pode assumir que a hiptese nula falsa, ou como normalmente fraseado, h evidencias sucientes para rejeitar a hiptese nula. O valor do p-value abaixo do qual se assume que a hiptese falsa usualmente 0.05 ou 0.01. Se o valor de corte 0.05, ento diz-se que a signicncia do teste (1-0.05), ou 95%. Se o valor de corte 0.01, diz-se que a signicncia do teste 99%. Se p-value calculado maior que o valor de corte, ento a concluso que se tira que no h evidncias para rejeitar a hiptese nula. Por exemplo, o teste T, que ser discutido em mais detalhes abaixo, tem as seguintes caractersticas: a hiptese nula que os dois conjuntos de dados so duas amostras independentes de uma mesma populao as condies do teste que os dados dos dois conjuntos so pelo menos intervalares, tm distribuies normais e os dois conjuntos tm a mesma varincia a propriedade relacionada que a diferena das mdias de dois conjuntos de dados tenha um valor igual ou maior que o obtido nos dados Na maioria das vezes os testes estatsticos so usados para comparar dois ou mais conjuntos de medidas. Por exemplo, tem-se os tempos de execuo de dois programas diferentes para dados gerados por um simulador, e quer-se vericar se a diferena no tempo de execuo mdio signicativa. Assim, temos o conjunto D1 de medidas de tempos de execuo do programa 1, e o
10

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

conjunto D2 de medidas de tempos de execuo do programa 2. A idia por traz da maioria dos testes estatsticos assumir que existe uma nica fonte de dados D, e que tanto D1 como D2 so amostragens dessa mesma fonte D. Se isso verdade ento D1 e D2 no so realmente diferentes entre si, e, portanto, os programas 1 e 2 tambm no so muito diferentes! A hiptese nula exatamente a idia de que D1 e D2 so amostragens da mesma fonte D. Mas D1 e D2 tm algumas propriedades diferentes, por exemplo, a mdia. Se as medidas so ordinais, ento talvez a mediana seja diferente, se so categricas, talvez a distribuio dos valores seja diferente, etc. Esta caracterstica dos dois conjuntos que o teste vai explorar o que chamamos de propriedade relacionada aos dados. Finalmente, assumindo a hiptese nula, e usando os dados D1 e D2 para calcular algumas propriedades da fonte D, e fazendo mais algumas pressuposies (as condies do teste), pode-se calcular a probabilidade que em duas amostragens de D, a tal propriedade relacionada, seja to grande quanto se encontrou em D1 e D2 . Se essa probabilidade for muito baixa, tradicionalmente menor que 0.05, assume-se que D1 e D2 no so amostragens da mesma fonte D, e que so signicativamente diferentes. A mesma idia de uma fonte D pode ser usada para apenas um conjunto de medidas D1 , que teria sido amostrada de D. Dados D e outras pressuposies, qual a probabilidade de que a propriedade relacionada a D1 tenha sido to grande quanto a observada? Isto pode ser usado, por exemplo, para julgar se D1 tem uma distribuio normal, que uma das condies de teste comuns a ser vericada. Numa outra conta, usualmente para conjuntos de dados pelo menos intervalares, podemos calcular um parmetro p de D (usualmente a mdia), de tal forma que a probabilidade que uma amostragem de D(p) tenha a mdia que D1 tem seja exatamente 0.05. H dois valores possveis para esse parmetro, quando ele maior que a mdia de D1 e quando ele menor. Este intervalo chamado de o intervalo de 95% de conana para a mdia de D1 . O intervalo de 95% de conana de um parmetro de D1 o intervalo correspondente ao maior e menor valores para esse parmetro da fonte de dados D, que garantem que o p-value da propriedade relacionada de D1 igual a 0.05. Assim, se o intervalo de 95% de conana para a mdia de D1 dados 4 2.3 ento: a mdia de D1 4 1.7 o menor valor da mdia de D para o qual o p-value ser 0.05 ou mais, e 6.3 o maior valor da mdia de D para o qual o p-value ser 0.05 ou mais Testes estatsticos para a comparao de dois conjuntos de dados e os intervalos de conana dos dados so relacionados. Se os intervalos de conana dos dois conjuntos tm alguma interseco, ento o teste dir que as diferenas no so signicativas. Assim, se o pesquisador publicou o intervalo
11

J. Wainer

de conana para o tempo mdio de execuo do programa P1, ento para compar-lo com o programa P2, s preciso gerar o intervalo de conana para os tempos de execuo de P2, e vericar se h alguma interseco. Isso s funciona para a comparao de dois conjuntos de dados, e normalmente apenas para medidas pelo menos intervalares. Dados dois testes T1 e T2, diremos que T1 mais forte que T2, se para os mesmos dados o p-value calculado por T1 menor que o de T2. Um teste mais forte que outro, normalmente, se faz mais pressuposies sobre os dados, e em alguns casos, um teste mais forte pode denir que a hiptese nula falsa, enquanto um teste mais fraco no permite tal concluso. Um teste dito no-paramtrico, se entre suas condies de teste no h qualquer pressuposio que os dados tm alguma distribuio xa. Exatamente porque assumem menos pressuposies nos dados, testes no-paramtricos so mais fracos que seus correspondentes paramtricos. Os testes mais comuns para calcular o intervalo de conana so: teste T usado para calcular intervalo de conana para a mdia de medidas pelo menos intervalares distribudas de forma normal intervalo de Wald usado o intervalo de conana de uma proporo p, desde que np e n(1 p) sejam > 5, onde n o nmero total de dados Vejamos agora os testes mais comuns para a comparao de apenas 2 conjuntos de dados. teste T usado quando se for vericar se a mdia de um conjunto de medidas pelo menos intervalares maior que a mdia de outro conjunto. As condies do teste so: as varincias dos dois conjuntos so iguais (que pode ser vericado usando o teste F ou o teste de Levene) que os dados dos dois conjuntos esto distribudos segundo uma normal (que pode ser vericado usando o teste de Shapiro-Wilk) teste T pareado usa-se nas mesmas condies do teste T, mas quando cada medida de um dos conjuntos pode ser colocada em correspondncia com uma do outro conjunto. Por exemplo, o primeiro conjunto indica as notas dos alunos de uma classe na primeira prova e o segundo, a nota dos mesmos alunos na segunda prova. Ou o primeiro conjunto so os tempos de execuo do programa P1 num conjunto de exemplos, e o segundo conjunto, os tempos de execuo do programa P2 nos mesmos exemplos. O teste T pareado mais forte que o teste T teste U de Mann-Whitney ou Wilcoxon rank-sum test se as condies do teste T (no pareado) no so verdadeiras (no-normalidade ou varincias muito diferentes), ento o teste U deve ser usado. Este um teste no-paramtrico, usado para medidas pelo menos ordinais
12

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

Wilcoxon signed-rank test a alternativa no-paramtrica do teste T pareado Teste do Chi-quadrado (ou qui-quadrado) usado para vericar se duas distribuies so signicativamente diferentes ou no (a hiptese nula que elas so iguais). Como o chi-quadrado trabalha com distribuies, ele usado sempre que as medidas so categricas e algumas vezes com medidas ordinais. O chi-quadrado usado tambm para vericar independncia de duas categorias. O teste chi-quadrado s pode ser usado se o nmero de observaes em cada categoria no mnimo 5 Fisher exact test uma verso mais elaborada do Chi-quadrado e til quando nem todos os xi so maiores que 5 Os testes acima s so apropriados para a comparao de dois conjuntos. Comparar mais que dois grupos ou conjuntos de dados chamado comparaes mltiplas. O problema de usar os testes acima em comparaes mltiplas que a signicncia diminui com o nmero de comparaes. Se considerarmos que o grau de signicncia de 95% signica que a probabilidade que a concluso esteja certa de 0.95, ento se compararmos 4 conjuntos de dados (D1 a D4 ), que resulta em 4 3/2 = 6 comparaes, e cada comparao feita com nvel de signicncia de 95%, e se chegarmos concluso que Armao 1: a mdia de D1 maior que a mdia de D2 que por sua vez maior que a mdia de D3 e D4 que no so diferentes entre si ento, numa primeira aproximao, a probabilidade da armao 1 acima ser correta de 73,5%. Se cada uma das comparaes independente das outras (e elas no so!), ento a probabilidade de todas as comparaes serem corretas (que resultou na armao 1) de 0.956 = 0.735. Portanto, utilizar vrias vezes um teste para dois conjuntos reduz a signicncia da concluso. De uma forma intuitiva (e incorreta!), a signicncia de 95% indica a chance de chegar concluso errada uma vez a cada 20 vezes, logo, se o teste for usado 20 vezes, pelo menos uma das concluses estar errada! Os testes mais comuns para mltiplas comparaes de variveis pelo menos intervalares so: one way ANOVA o teste ANOVA usado para testar a hiptese que mais de 2 conjuntos de medidas pelo menos intervalares no tm todos a mesma mdia. Isto , a hiptese nula do ANOVA que todos os conjuntos tm a mesma mdia, e, portanto, a rejeio da hiptese nula que pelo menos um dos conjuntos no tem a mesma mdia dos outros, mas o ANOVA no diz quais conjuntos tm ou no a mesma mdia Kruskal-Wallis o correspondente no-paramtrico ao one-way ANOVA. Usado para medidas pelo menos ordinais
13

J. Wainer

comparaes mltiplas para vericar qual de mais de 2 conjuntos de medidas so diferentes entre si, h vrios mtodos. Alguns deles so conhecidos como ANOVA post-hoc tests, pois s devem ser aplicados depois que o ANOVA conrmou que nem todas as mdias so iguais. Outros testes e tcnicas so: Bonferroni, Tukey HSD, Scheffe, tcnicas baseadas no Studentized range, etc. [Toothaker 1993] Para nalizar, deve-se notar que na maioria das vezes queremos mostrar que o nosso programa Pn (signicantemente) melhor que a alternativa P0 . Isto , a hipotese nula (que os dois conjuntos vieram da mesma populao) o que no desejamos. Assim, quando o p-value menor que 0.05, e rejeitamos a hipotese nula, concluimos o que queramos, que Pn melhor que a alternativa. Mas de vez em quando queremos mostrar que Pn igual ou equivalente a P0 , por exemplo, que o nosso programa Pn tem a mesma taxa de acerto que a alternativa P0 , mas, por exemplo roda em menos tempo, ou utiliza menos recursos. Nesse caso queremos provar a hipotese nula. errado dizer que se o p-value maior que 0.05 ento no rejeitamos a hipotese nula e, portanto, provamos que os dois conjuntos de dados so equivalentes. Por exemplo, [Lew 2006] discute esse tipo de anlise, chamada de experimentos reversos. 5.2.2.3. Desenhos fatoriais Normalmente os programas Pi que esto analisados possuem vrias variaes ou alternativas. Vamos dizer que o programa PN tem 2 parmetros, onde o primeiro pode assumir 2 valores e o segundo 3. Por exemplo, o primeiro parmetro dene um tipo de busca em grafos - largura ou profundidade - enquanto o segundo dene o tamanho de um buffer intermedirio no programa que pode assumir os valores 1000, 5000 ou 10000. O objetivo do pesquisador tentar entender a relao entre os valores dos dois parmetros. Em estatstica o que chamamos de parmetro chamado de fator, e, portanto, o problema acima tm 2 fatores. O nmero de valores possvel para cada valor chamado de nvel (level). Portanto, o primeiro fator tem 2 nveis e o segundo 3 nveis. A escolha de que combinaes de nveis devemos explorar conhecido como desenho experimental. Aqui estamos usando o termo desenho experimental num sentido diferente do que usaremos na seo 5.2.4, onde falaremos da construo de experimentos envolvendo pessoas. O desenho um desenho fatorial (completo) ((full) factorial design) se todas as combinaes de nveis para todos os fatores so testados. Se nem todas as combinaes so testadas o desenho chamado fatorial parcial. Obviamente, o central de um desenho parcial a escolha de que combinaes usar. Livros mais avanados de estatstica (por exemplo [Box et al. 1978]) normalmente cobrem os desenhos parciais e a anlise estatstica apropriada para esses desenhos. Um desenho parcial que muito usado e que no muito interessante o um-fator-por-vez. Se houver 3 ou mais fatores, cada um com vrios nveis, esse
14

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

desenho assume um nvel para cada fator como sendo o padro; mantendo-se os outros fatores no padro, altera-se os nveis de um s fator a cada vez. Esse desenho bvio deve ser evitado [Czitrom 1999]. 5.2.2.4. O que fazer com isso? Esta seo deve ser suciente para que o pesquisador saiba numa primeira aproximao que teste usar e quando para comparar conjuntos de dados. Todos os testes mencionados esto implementados em uma variedade de pacotes estatsticos, inclusive pacotes gratuitos como o R4 .

5.2.3. Questionrios
As principais referncias para esta seo so [Peeger and Kitchenham 2001] e os outros artigos da srie que comea com [Kitchenham and Peeger 2002a]. Questionrios so uma forma rpida e simples para avaliar as opinies, objetivos, anseios, preferncias, crenas, etc. de pessoas. Mas por ser uma forma simples, se malconcebida, pode levar a um vis considervel. Para este curso, questionrios so um conjunto de perguntas com respostas predenidas ou perguntas de resposta fechada (closed questions), que so respondidas, ou pelos prprios sujeitos da pesquisa (questionrios auto-aplicados), ou por observadores que esto avaliando os sujeitos. Se um questionrio autoaplicado, diremos que os sujeitos da pesquisa so os respondentes. O uso de questionrios envolve as seguintes fases: elaborao das perguntas e respostas amostragem da populao avaliao das respostas anlise dos resultados Mas antes de entrarmos nessas fases, importante notar que um questionrio, na maioria das vezes, um instrumento que atravs das perguntas tenta avaliar ou medir uma varivel invisvel ou latente. Por exemplo, se o pesquisador tem uma teoria sobre estilos de programao, boa parte do questionrio ser sobre questes que avaliam os diferentes aspectos de cada um dos estilos. Este questionrio deve ter vrias propriedades. Entre elas conabilidade (reliability ) validade (validity ) no desencorajar o usurio a respond-lo Conabilidade a propriedade que diferentes aplicaes do questionrio (para o mesmo respondente) devem dar resultados prximos. Dessa forma um instrumento convel se sua utilizao no causa muito rudo. Validade a
4

www.r-project.org

15

J. Wainer

propriedade que aquilo que medido pelo instrumento uma boa aproximao da varivel latente que se quer medir. A conabilidade de um instrumento pode ser avaliada de vrias formas, embora [Kitchenham and Peeger 2002b] arme que ainda no existe consenso sobre o que uma conabilidade baixa, e quais as implicaes disso para as concluses tiradas do questionrio. Uma forma de avaliar a conabilidade aplicar o questionrio duas vezes para um mesmo grupo de pessoas, tomando cuidado para que o tempo entre as aplicaes no seja to grande que as respostas teriam mudado, nem to curto que as pessoas se lembrem do que responderam na primeira aplicao. Se as diferenas entre as duas aplicaes muito grande, a conabilidade do questionrio pequena. O artigo [Kitchenham and Peeger 2002b] prope que se use a estatstica alfa de Cronbach ou a estatstica tau de Kendall para calcular o grau de correspondncia entre as respostas antes e depois. Essas estatsticas so medidas de correlao no-paramtricas, j que as respostas a uma questo, mesmo que sejam codicadas com nmeros, so variveis categricas, ou no mximo ordinais, para as quais testes paramtricos no so apropriados. A validade do questionrio bem mais difcil de medir, e na maioria das vezes s pode ser avaliado com experimentos que comparam os resultados de usar um questionrio com os resultados de usar outros mtodos que avaliam a mesma varivel latente. Normalmente distingue-se as seguintes variaes de validade para questionrios: validade de contedo uma avaliao subjetiva por especialistas que o questionrio contempla todos os aspectos da varivel latente que se espera medir. validade de critrio uma avaliao de quanto os resultados do questionrio so correlacionados com outros instrumentos e medidas da mesma varivel latente. Por exemplo, se um questionrio novo est sendo desenvolvido para avaliar a qualidade do desenvolvimento de software, ento os resultados do questionrio no podem ser muito diferentes ou contrrios aos resultados de questionrios que medem a mesma varivel, tais como os questionrios do CMM ou do SPICE. validade de construto uma avaliao a longo prazo se diferentes formas de coletar dados (principalmente para questionrios que no so autoaplicados) produz resultados similares. As questes de validade e conabilidade do instrumento indicam que melhor usar questionrios j elaborados (e validados) que desenvolver um questionrio novo. Em outras reas, as vrias validaes de questionrios so por si s uma forma vlida e importante de pesquisa cientca. Em cincia da computao h poucos exemplos de validao de questionrios.
16

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

5.2.3.1. Desenvolvimento de um questionrio Se o pesquisador tiver que desenvolver um questionrio novo, ento deve ter cuidado na elaborao das questes e das respostas. Quanto s questes, normalmente recomenda-se: que as questes sejam fraseadas de forma simples, concisa, e direta que as questes sejam neutras que as questes no sejam fraseadas na negativa (voc acha que uma ferramenta CASE no importante para ...) que as questes no contenham mais de uma pergunta ou conceito (A ferramenta CASE ajudou voc ou a sua equipe na sua habilidade de especicar projetos complexos e a entender as especicaes de outras equipes?) A elaborao das respostas predenidas tambm muito importante. O princpio que deve nortear essas respostas o balano - os extremos opostos das alternativas devem ser de igual intensidade e em direes opostas, e as alternativas intermedirias devem ser em igual nmero nas duas direes possveis. Por exemplo, as respostas para a questo Voc achou que as funes de ajuda do sistema? 1. foram super timas!!! 2. ajudaram muito 3. ajudaram em algumas ocasies 4. no usei a funo de ajuda no so balanceadas pois no permitem que o respondente expresse que a funo de ajuda o atrapalhou. Uma prtica comum para conseguir o balano usar a escala de Likert: as questes so fraseadas como armativas e o respondente deve escolher uma das alternativas 1. discordo totalmente 2. discordo 3. no discordo nem concordo 4. concordo 5. concordo totalmente H opinies que a escala de Likert deve ser usada sem uma alternativa neutra.
17

J. Wainer

5.2.3.2. Amostragem e no-resposta Dois problemas comuns em questionrios, especialmente questionrios auto-aplicveis, o vis de amostragem e a no-resposta. Por exemplo, uma pequisa sobre prticas de desenvolvimento de software envia 200 questionrios para os diretores de projetos de vrias empresas. Destes, 30 retornam, alguns sem resposta para todas as questes. O problema de vis de amostragem, tambm chamado de vis de cobertura, a escolha inicial das 200 empresas. Elas so todas as empresas do ramo que se quer estudar? Elas so representativas das empresas que se quer estudar? No h algum vis importante na seleo dessa amostra, por exemplo, empresas que se registraram na ltima conferncia sobre tcnicas de programao para tempo real, e, portanto, so empresas de projetos de sistemas de tempo real? O segundo problema que s 30 questionrios voltaram respondidos, dos 200 enviados. Questionrios enviados e no respondidos so chamados de no-resposta de unidade (unit nonresponse). A taxa de resposta do questionrio de 30/200, ou 15%. Taxas de resposta baixa so um problema comum em questionrios enviados por correio, e algo impossvel de calcular para questionrios disponibilizados pela Internet. Mas mais srio que a taxa de resposta um possvel vis de resposta. No h muitos problemas se quem responde o questionrio pode ser considerado como uma amostragem aleatria das empresas para as quais o questionrio foi enviado. Mas talvez as no-respostas tenham um vis, por exemplo, empresas pequenas tm menor probabilidade de responder o questionrio que empresas grandes. Dessa forma, os questionrios respondidos no so representativos do universo de empresas que se quer avaliar. O terceiro problema chamado de no-resposta ao item (item nonresponse) - nem todas as questes do questionrio foram respondidas. H duas tcnicas-padro para tratar no-resposta ao item: ponderao e imputao, que no sero abordadas neste texto. 5.2.3.3. Anlise dos resultados Existem vrias maneiras de utilizar os dados de um questionrio. Vamos discutir algumas dessas formas de utilizao dos dados e alguns problemas associados. A forma mais comum de utilizao de dados de questionrios apenas report-los. Normalmente descreve-se a distribuio das respostas de cada questo (ou das questes mais relevantes). Neste caso, o mais correto lembrar-se que as respostas so medidas no mximo ordinais (por exemplo, na escala de Likert), e que as estatsticas descritivas usadas devem ser apropriadas para o tipo de medida. Para medidas categricas, deve-se descrever a distribuio de frequencia das respostas, ou, se deseja-se resumir o resultado,
18

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

reporta-se a resposta mais frequente. Para medidas ordinais, se deseja-se resumir o resultado, reporta-se a mediana das respostas, e talvez os primeiro e terceiro quartis. A segunda forma de utilizao de um questionrio agregar as vrias respostas (talvez ponderadas por pesos) num s ndice que reete uma medida de interesse. Questionrios de usabilidade de software, por exemplo SUMI [Kirakowski 2007] e QUIS [Shneiderman 1992], resumem as respostas de vrias questes em poucos nmeros que medem a qualidade do software nas dimenses de usabilidade. Questionrios cujas respostas so agregadas em poucos valores-resumos devem ter sido validados pelo menos at o nvel de validade de critrio (ver acima). Nestes casos, embora no haja guias de conduta explcitos, o autor acredita que o valor-resumo de cada questionrio pode ser considerado uma medida pelo menos intervalar, e portanto as tcnicas de signicncia estatstica para estas medidas podem ser aplicadas. A terceira forma de utilizao dos dados de questionrios buscar correlaes entre as respostas de diferentes questes. Isto deve ser feito com cuidado. O problema central relacionado com o problema de comparaes mltiplas - fazendo-se vrias correlaes entre questes provvel que algumas correlaes sejam erradamente avaliadas como signicantes, quando elas no o so. [Kitchenham and Peeger 2002c] discute brevemente esse problema. Se o pesquisador sabe de antemo que questes ele vai tentar correlacionar entre si, ento essas correlaes esprias no so to importantes, mas se o pesquisador est caando coisas interessantes nos dados do questionrio, isso dever ser levando em considerao. 5.2.3.4. O que fazer com isso? Esta seo discutiu vrios aspectos da elaborao e poucos aspectos da anlise de questionrios. A primeira lio usar um questionrio j feito e analisado, se possvel. Se o pesquisador precisar desenvolver um questionrio novo, deve tomar cuidado na elaborao das perguntas e respostas. Por outro lado a comunidade de CC como um todo (com exceo da rea de usabilidade) no parece ainda ter desenvolvido critrios para avaliar os questionrios em si, ou o resultado de questionrios, e, portanto, parece ainda haver espao para um certo amadorismo no uso de questionrios.

5.2.4. Experimentos
As fontes principais para essa seo so [Marczyk et al. 2005, Trochim 2006]. Experimentos so atividades caracterizadas pela manipulao de algumas variveis, e a observao de outras, em situaes articiais ou semi-articiais. No caso de experimento em CC estamos sempre nos referindo a experimentos que envolvem seres humanos, e vrios deles. Diferente das cincias naturais (fsica por exemplo), onde um experimento pode ser apenas uma medida feita em um equipamento especial e complexo, em cincias da computao di19

J. Wainer

remos que um experimento necessariamente envolve um grupo (talvez grande) de pessoas, e vrias medidas relativas a essas pessoas. Experimentos tambm envolve controle - o experimentador pode decidir que grupo de pessoas far o qu, e em alguns casos, pode decidir quem participar de quais grupos. Isto difere de pesquisas observacionais (que veremos a seguir), onde o pesquisador no tem controle sobre o grupo de pessoas. Esta seo cobrir os conceitos de validade interna e externa de um experimento, e discutir os vrios desenhos experimentais5, e quais so os tipos de ameaas validade interna que eles apresentam. Validade interna a conana que se tem de que o efeito observado realmente devido manipulao feita, e no a outros fatores. Uma ameaa validade interna uma outra possvel explicao para o efeito observado que no a ao ou a manipulao feita. Validade externa a conana que se tem que o efeito observvel generalizvel, ou seja, mesmo acreditando que para esse grupo o efeito devido manipulao, tal se repetir para outros grupos? Comearemos com o problema da validade interna. Vamos supor um experimento onde se pretende vericar se o uso de uma ferramenta CASE diminui o nmero de erros de um grupo de programadores. Vejamos dois possveis experimentos: experimento E1: oferecemos aos programadores um projeto articial (P1), esperamos que eles completem o projeto, contamos os erros de P1, instalamos a ferramenta CASE, atribumos um outro projeto (P2) e exigimos que os programadores usem a ferramenta, e contamos os erros de P2. experimento E2: contamos os erros de um projeto anterior instalao (P3), instalamos o CASE, e contamos os erros de um projeto (P4) posterior instalao do CASE. Do ponto de vista de desenho experimental, tanto E1 como E2 tm o desenho um-grupo/pr-teste/ps-teste, representado por O1 X O2

onde O1 representa o pr-teste (ou uma Observao), O2 o ps-teste, e X a introduo do CASE. Em desenhos experimentais, chama-se o X de interveno. Mesmo que os erros de P2 sejam signicativamente menores que os de P1, pode-se armar que a ferramenta CASE a causa? Ou, de um outro ponto de vista, quais so as explicaes rivais para a diminuio do nmero de erros de P1 para P2? Essas explicaes alternativas so as ameaas validade interna do experimento.
5

Em ingls experimental design. H vrias alternativas em portugus para essa expresso, por exemplo, delineamentos experimentais, ou projetos experimentais. Neste texto optamos por desenho experimental [Hochman et al. 2005].

20

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

A primeira ameaa que talvez P2 seja mais fcil que P1, e, portanto, teria menos erros. Essa ameaa chamada de instrumentao, e se baseia na idia que talvez a diferena ente O1 e O2 devido a um erro na medio. Por exemplo, os testes de O1 e de O2 so sucientemente diferentes, ou as observaes so feitas por pessoas diferentes, etc. Uma outra ameaa, no caso de E1, que talvez por causa do P1 (e dos erros do P1 que foram mostrados a eles) os programadores caram mais cientes dos seus erros e, portanto, no cometeram os mesmos erros em P2. Essa ameaa chamada de testagem, ou seja, que o fato de passar por O1 prepara os programadores para ir melhor no O2 . Uma outra ameaa, no caso de E2, que talvez os programadores caram melhores com o tempo, principalmente se muito tempo se passou entre P3 e P4. Programadores cam melhores com a prtica, assim como alunos cam mais sabidos com o tempo, etc. Essa ameaa chamada de maturao, ou seja, que os sujeitos dos experimentos podem tornar-se mais capazes com o tempo, independentemente da interveno. Uma outra ameaa que talvez houve alguma iniciativa da empresa para diminuir o nmero de erros entre P1 e P2 (ou mais provavelmente entre P3 e P4). Essa ameaa chamada de histria, ou seja, a possibilidade de que haja um evento externo ao experimento que causou a melhora dos resultados. Nem todas essas ameaas acima podem ser relevantes para o experimento em questo, mas se o pesquisador adotar o desenho acima, ele precisar explicar quais das ameaas no se aplicam e porqu. As outras ameaas so relevantes em desenhos experimentais onde h dois grupos. Vamos considerar o experimento a seguir: experimento E3: escolhemos dois grupos de programadores (talvez de divises diferentes). Para o grupo 1, seguimos o experimento E1, e para o grupo 2, seguimos E1, mas sem a ferramenta CASE. O desenho de E3 : O1 O3 X O2 O4

e o efeito de X em principio vericado se O2 O1 > O4 O3 . O grupo 1, que sofre a interveno, chamado de grupo experimental, e o outro, que no sofre a interveno, chamado de grupo de controle. Este desenho neutraliza as ameaas de maturao e histria, mas por outro lado introduz as seguintes ameaas: seleo possvel que o grupo 1, que usou o CASE, acabou sendo escolhido porque a sua diviso mais dinmica e estaria mais apta e disposta a aceitar a introduo da ferramenta CASE. E talvez esse dinamismo e entusiasmo que causou a melhora da diferena do ps-teste menos o pr-teste.
21

J. Wainer

mortalidade seletiva pode ser que os membros do grupo 2 pertenam a uma diviso menos dinmica e tendam a sair da empresa com mais freqncia, principalmente os mais capazes. Assim os resultados do teste O4 so piores que os de O2 porque os melhores programadores do segundo grupo tm maiores probabilidades de sarem do experimento no meio. contaminao pode ser que os membros do grupo experimental ensinem aos membros do grupo de controle algumas das tcnicas s quais eles esto sendo submetidos. Isso obviamente muito fcil em educao, onde membros do grupo experimental passam o material e/ou lies que receberam para membros do grupo de controle. Em computao, em alguns casos pode haver contaminao. O captulo 7 de [Collins and Pinch 1998] discute o caso de contaminao em testes clnicos de remdios para AIDS - os pacientes dividiam as suas doses em 2 e trocavam com outros pacientes, para diminuir a chance que tivessem recebido o placebo (ver abaixo). comportamento competitivo pode ser que os membros do grupo de controle se sintam preteridos frente aos do grupo experimental, e podem se mostrar motivados a competir com o grupo experimental (para mostrar que ns somos bons mesmo que no nos tenham dado o CASE). comportamento compensatrio pode ser que alguma autoridade sinta que o grupo de controle foi preterido e crie medidas compensatrias para o grupo. Finalmente, existem outras ameaas no facilmente ilustradas pelo exemplo. Elas so: regresso mdia A regresso mdia um efeito difcil de explicar e se baseia em usar o pr-teste para selecionar o grupo experimental. Vamos usar um exemplo de educao e no de computao para ilustrar esse efeito. Se voc zer duas provas, e olhar apenas para os 30% piores alunos na primeria prova, a mdia deles na segunda prova ser melhor que a mdia na primeira - independentemente do que voc zer no meio. Esta a regresso para a mdia, e ela explicada pela idia que as provas so medidas com erro do verdadeiro conhecimento do aluno. Assim as duas medidas sero diferentes por uma quantidade aleatria, mas como voc selecionou os 30% piores na primeria prova, e para alguns deles a nota no pode ser mais baixa (pois eles tiram zero, por exemplo), ento mais alunos do grupo tero as notas aleatoriamente maiores que menores. Dessa forma, se os alunos foram escolhidos para serem do grupo experimental por causa da sua nota no pr-teste, ento o experimentador no saber dizer se o efeito de melhora da nota devido interveno ou regresso a mdia. efeito de expectativa do sujeito - efeitos placebo e hawthorne O efeito placebo muito conhecido na medicina, e diz que se voc der um remdio
22

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

incuo (por exemplo uma plula feita de farinha) para um paciente, ele vai dizer que seus sintomas melhoraram. A expectativa que o paciente tem de melhorar (porque ele tomou o que ele acha que um remdio) causa a melhora! Um efeito similar ao placebo e talvez mais relevante para a experimentos em CC o efeito Hawthorne, que diz que pode haver um efeito positivo apenas pelo fato dos sujeitos saberem que esto sendo estudados/observados. O caso que gerou a teoria do efeito foi numa fbrica chamada Hawthorne, onde se estudou o efeito de nveis de iluminao na produtividade dos trabalhadores, e descobriu-se que a produtividade dos trabalhadores aumentava independentemente de mudanas no nvel de luminosidade - a teoria que sabendo que estavam sendo observados melhorou a produtividade dos trabalhadores. Em experimentos computacionais, o efeito Hawthorne pode ser relevante e precisa ser levado em considerao - engenheiros de software que sabem que esto sendo estudados ou observados podem melhorar sua produtividade ou a qualidade do software gerado, alunos podem melhorar seu aprendizado, usurios podem melhorar seu desempenho, etc. efeito de expectativa do experimentador O efeito de expectativa do experimentador acontece em alguns exemplos onde o pesquisador interage intensamente com o sujeito, e as crenas do experimentador causam um efeito no sujeito (ou pelo menos nos testes realizados pelo sujeito). Um exemplo claro desse efeito acontece quando o ps-teste requer alguma avaliao subjetiva do pesquisador - se o pesquisador sabe de quem so os testes submetidos interveno, e ele espera que a interveno seja positiva, ento ele pode melhorar as notas do ps-teste, mesmo inconscientemente. Um outro exemplo do fenmeno, mesmo quando no h o componente subjetivo no ps-teste, o efeito Pigmaleo ou Rosenthal em educao - quando professores foram (falsamente) informados que suas classes tinham alunos mais inteligentes que a mdia, os alunos tiveram resultados muito melhores que alunos similares, mas cujos professores no receberam a falsa informao. A teoria prope que o experimentador passa sinais inconscientes que acabam inuenciando os sujeitos. O efeito de expectativa do experimentador tambm pode ser muito relevante para experimentos em CC. Se o experimentador o criador de um sistema, ele pode passar aos sujeitos sinais que indicam sua expectativa que seu sistema til e bom, e, claro, se a avaliao do ps-teste tiver algum aspecto subjetivo (por exemplo, se for preciso classicar os erros de software em srios ou no). inuncia de parte da interveno Este efeito no tem um nome-padro, mas aparece em diferentes domnios com diferentes nomes. A idia que o efeito observado no devido interveno como um todo, mas devido a apenas parte dela. Vamos ver um exemplo na rea de sistemas de apoio deciso. Tais sistemas fazem vrias perguntas a seu usurio, e prope uma resposta/soluo, mas cabe ao usurio aceit-la ou lev-la
23

J. Wainer

em considerao quando tomar a sua deciso. Um exemplo tpico so os sistemas para apoio ao diagnstico - o sistema pede ao mdico vrias informaes e retorna uma ou mais alternativas de diagnstico, mas cabe ao mdico fazer o diagnstico nal. Descobriu-se que parte do efeito desses sistemas o chamado efeito de checklist [Wyatt 1998] porque o sistema faz todas as perguntas que considera potencialmente importantes. Isso fora o mdico a pensar nas alternativas que normalmente ele no pensaria quando est fazendo o diagnstico. Na literatura, desenhos de experimentos so ditos verdadeiramente experimentais se a seleo dos membros dos grupos de controle e do grupo experimental feita de forma aleatria, o que indicado por um A antes de cada grupo. A escolha dos grupos de forma aleatria elimina as ameaas de seleo e mortalidade seletiva. O desenho experimental abaixo considerado um dos mais completos, pois elimina quase todas as ameaas, com a exceo de contaminao, comportamentos competitivos e o efeito expectativa para sujeitos e experimentadores. Esse desenho chamado de dois-grupos, apenas ps-teste, seleo aleatria. A anlise estatstica apropriada alguma comparao entre o psteste do grupo experimental e do grupo de controle - por exemplo o teste t se as medidas so pelo menos intervalares. A A X O O

Em medicina, onde os efeitos de expectativa so muito importantes, usa-se o experimento duplo cego, com placebo, cujo desenho : A A X X0 O O

onde X0 uma interveno incua, o placebo, com a mesma apresentao que X. Como X e X0 tm a mesma apresentao, os sujeitos no sabem se esto recebendo X ou X0 e, portanto, isto elimina as ameaas de contaminao, comportamento competitivo e expectativa do sujeito. O pesquisador que est administrando a interveno tambm no sabe se o sujeito est recebendo X ou X0 , e isso elimina a ameaa de expectativa do experimentador. Em uma primeira anlise, no parece possvel desenhar experimentos duplo cego em computao - como criar uma interveno placebo X0 com a mesma apresentao que a interveno correta X? Mas h artigos que discutem como controlar alguns efeitos de expectativa em experimentos de engenharia de software [Silva and Travassos 2004]. Alm do desenho de dois grupos, ps-teste apenas, h outros desenhos verdadeiramente experimentais, como o desenho de 4 grupos de Solomon. Nem sempre possvel escolher os membros do grupo experimental e de controle de forma aleatria. Por exemplo, em pesquisa educacional, pode-se
24

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

escolher classes aleatoriamente, mas no alunos - todos os alunos de uma mesma classe recebem a mesma interveno. Da mesma forma, programadores que trabalham num mesmo projeto no podem ser aleatoriamente atribudos para usar ou no usar uma ferramenta CASE. Desenhos experimentais onde a seleo dos grupos no aleatria so chamados de quase experimentais. Desenhos quase experimentais de uma forma ou de outra envolvem a idia dos grupos de controle e experimentais, mas a seleo dos membros de cada grupo no aleatria. Desenhos experimentais onde no h o grupo de controle, que comparado com o grupo experimental, so chamados de pr-experimentais (alguns autores chamam esses desenhos de noexperimentais). O desenho pr-experimental mais comum o discutido acima, de um s grupo, com pr e ps-testes, que sofre de vrios problemas de validade interna. O X O

Outro desenho que historicamente classicado como pr-experimental, embora possua grupo de controle, o 2-grupos, ps-teste apenas, representado por: N X O N O onde o N apenas indicativo que a seleo no aleatria. Numa interpretao ingnua, se O do grupo experimental signicativamente superior ao do grupo de controle, ento se conrma que a interveno foi ecaz. Mas como deve car claro, este desenho no controla as ameaas de seleo e mortalidade seletiva, e como qualquer desenho com grupo de controle, pode sofrer de contaminao, e de comportamentos competitivos e compensatrios. De uma forma geral, desenhos pr-experimentais so considerados muito fracos e devem ser evitados. Os desenhos quase-experimentais so um equilbrio interessante entre factibilidade e fora do experimento, e provavelmente so os desenhos experimentais mais frequentes em computao. O desenho quase-experimental mais comum o pr-teste/ps-teste para grupos no-equivalentes, cuja representao : N N O O X O O

A anlise estatstica deste desenho no simples; o leitor deve consultar [Trochim 2006] e [Reichardt 1979]. Um desenho quase experimental curioso e representativo a srie temporal interrompida, representada abaixo. O curioso deste desenho que embora haja apenas o grupo experimental, ele usado como seu prprio controle, atravs das observaes repetidas, tanto antes, como depois da interveno. O O O X O O O
25

J. Wainer

A idia da srie temporal interrompida que se as vrias observaes antes da interveno e depois da interveno tm um padro claro, e so diferentes entre si, ento a diferena pode ser atribuda interveno X. Os exemplos esquerda na gura 5.1 ilustram a situao onde se pode assumir que X a razo das diferenas medidas antes e depois; os exemplos no painel direita ilustram situaes onde no possvel dizer que X causou algum efeito mensurvel. Outros desenhos na mesma linha da srie temporal interrom-

O X O

O X O

Efeito presente

Efeito ausente

Figura 5.1. Dois tipos de resultados de um experimento de srie temporal interrompida


pida so desenhos reversos, onde, por exemplo, depois de usar a ferramenta CASE e medir os erros, remove-se a ferramenta no prximo projeto. H vrios outros desenhos quase-experimentais e desenhos que combinam componentes quase-experimentais com seleo aleatria. O leitor deve consultar [Trochim 2006], por exemplo. Todos os desenhos descritos acima, talvez com a exceo dos quaseexperimentais baseados em sries temporais, so desenhos transversais (cross sectional), isto , eles fazem um corte no tempo, e fazem as medidas nesse corte. Esse desenho pode no ser apropriado para responder questes que envolvam a evoluo dos sujeitos. Desenhos experimentais que fazem vrias medidas atravs do tempo em grupos de sujeitos so chamados de desenhos longitudinais. As ameaas validade interna e a anlise estatstica de desenhos longitudinais no sero abordadas aqui. As ameaas validade externa so mais sutis, pois o conceito de validade externa no to bem denido. O objetivo nal de um experimento gerar um conhecimento que pode ser generalizado. Se o experimento mostra que houve uma diminuio estatisticamente signicativa dos erros pelo uso do CASE, ento espera-se que esse conhecimento possa ser generalizado para
26

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

O uso daquela ferramenta CASE reduz o nmero de erros. O problema que h duas generalizaes na expresso acima: que o resultado vai valer para qualquer pessoa, em qualquer lugar, em qualquer ambiente, em qualquer tempo que o resultado vai valer para situaes no-experimentais (no-articiais) A primeira generalizao a mais forte, e a mais comum quando se considera as ameaas validade externa. A segunda generalizao mais fraca; podese mesmo pensar que ela um caso particular da primeira no que se refere ao ambiente - generalizao dos resultados de ambientes mais articiais (o ambiente da experimentao) para ambientes mais naturais. Vamos rapidamente tratar da segunda generalizao, porque ela causa algumas confuses de nomenclatura. Por exemplo, alguns autores consideram que os efeitos de expectativa do sujeito e do observador so ameaas validade externa e no validade interna. Isso justicado porque esses efeitos impedem a segunda generalizao - so efeitos que aparecem porque foram obtidos em situaes experimentais/articiais. A primeira generalizao ser menos certa, quo mais especial for o grupo de pessoas que foram escolhidas para fazer parte do experimento, quanto mais especial for o local, o momento e o ambiente onde foram feitos os experimentos. Esses problemas so normalmente classicados como problemas de amostragem - como selecionar uma amostra de uma populao, j discutido na seo de questionrios. 5.2.4.1. O que fazer com isso? Esta seo abordou alguns aspectos importantes de desenhos experimentais. A concluso bvia que se deve usar experimentos duplo cego de dois grupos, com ps-teste apenas, j que esse desenho no parece sofrer de quase nenhuma ameaa validade interna. Mas como vimos, nem sempre possvel usar esse desenho. O que se deve fazer usar o mais forte desenho experimental possvel (preferencialmente da familia dos quase-experimentais), e ter claro quais so as ameaas validade interna e externa desse desenho, e se possvel argumentar que algumas dessas ameaas no so relevantes para a situao em questo, e pensar em mecanismos para neutralizar as outras ameaas que podem ser relevantes.

5.3. Mtodos Qualitativos


As fontes principais para essa seo so [Myers 1997, Yin 2005] e [Mays and Pope 1995a]. Numa primeira denio, mtodos qualitativos diferem de mtodos quantitativos porque se ocupam de variveis que no podem ser medidas, apenas observadas. Essa uma dicotomia muito simplista. Mtodos qualitativos vm das cincias sociais, em oposio aos mtodos quantitativos que derivam das
27

J. Wainer

cincias naturais. Essa diferena na origem j suciente para que vises diferentes sobre o que cincia, e como se faz cincia, tornem denies suscintas sobre o que um ou outro mtodo muito difcil. De um modo geral, mtodos qualitativos em CC so mtodos que se caracterizam por ser um estudo aprofundado de um sistema no ambiente onde ele est sendo usado, ou, em alguns casos, onde se espera que o sistema seja usado. Mtodos qualitativos sempre envolvem pessoas, e na maioria das vezes sistemas. Contrrio a fontes como [Myers 1997], que classica a pesquisa qualitativa em 4 grupos, eu acho a diviso em apenas dois grupos mais produtiva: a pesquisa observacional e a pesquisa-ao (action research). A pesquisa observacional tem como objetivo observar o ambiente, mas no modic-lo; j o objetivo central da pesquisa-ao modicar o ambiente. claro que s a presena do pesquisador causa alguma modicao no ambiente, mas essa modicao no o objetivo da pesquisa observacional, e algumas variantes da pesquisa observacional tentam eliminar esse efeito. Uma nota, antes da prxima seo: na discusso de mtodos qualitativos usaremos alguns exemplos da rea de sistemas de informao ou gerncia de sistemas de informao (em ingls information systems ou management information systems). Essa rea normalmente no se inclui nas reas de pesquisa dos departamentos de cincia da computao no Brasil. A rea tem um carter mais aplicado, e estuda desde como resolver problemas tecnolgicos prticos no uso e desenvolvimento de sistemas de informao, at os impactos econmico/nanceiros e sociais desses sistemas nas organizaes, e at os problemas na adoo ou desenvolvimento de novos sistemas. No Brasil, pesquisadores nessa rea (que chamarei de sistemas de informao) se concentram em alguns departamentos de administrao ou de engenharia de produo. Mas a rea de sistemas de informao tem interfaces importantes com algumas subreas tradicionais da CC, em particular as subreas de sistemas colaborativos, engenharia de software, interfaces humano-computador e informtica mdica. Embora no seja uma subrea tradicional de CC, a literatura sobre mtodos qualitativos em sistemas de informao muito rica e merece ser lida.

5.3.1. Estudos observacionais


As principais referncias para esta seo so [Mays and Pope 1995a], [Yin 2005], [Klein and Myers 1999] e [Dube and Pare 2003]. Segundo vrios autores (por exemplo [Orlikowski and Baroudi 1991]) a pesquisa qualitativa onservacional pode ser dividida segundo a perspectiva losca ou epistemolgica que a embasa em: positivista interpretativista crtica A perspectiva positivista tenta seguir de perto os fundamentos da pesquisa quantitativa, ou seja, que existem variveis objetivas no mundo, que embora
28

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

no possam ser medidas, podem ser observadas. Pesquisa com vis positivista tenta falar em teorias, em provar e desprovar essa teorias, etc. Um artigo que discute profundamente a pesquisa qualitativa positivista em sistemas de informao [Dube and Pare 2003]. A perspectiva interpretativista prope que no h variveis objetivas, e que tudo que observado depende de interpretao de um observador, e que diferentes pessoas no s observaro o mesmo fato de forma diferente, mas atribuiro valor a esse fato de forma diferenciada. A pesquisa em CC de fundo interpretativista tenta iluminar e elucidar as diferentes perspectivas/valores/interpretaes das pessoas envolvidas com o sistema. Um artigo que discute profundamente a pesquisa qualitativa interpretativista [Klein and Myers 1999]. A perspectiva crtica entende o mundo como a construo histrica e social de relaes de poder e dominao. Nesta viso sistemas de informao provavelmente herdam da sociedade relaes de poder, alienao e dominao, e revelar essas heranas o objetivo central da pesquisa qualitativa de fundo crtico. [Myers and Young. 1997] um bom exemplo de pesquisa qualitativa de fundo crtico em CC. [Dube and Pare 2003] analisou 210 artigos de pesquisa observacional na rea de sistemas de informao de 1990 a 2000, e descobriu que 87% deles seguem a perspectiva positivista, 12% a prespectiva interpretativista e apenas 1% a perspectiva crtica. Embora esses resultados sejam da decada de 1990, no acredito que a predominncia da viso positivista tenha se alterado recentemente. Portando, o resto desta seo abordar essencialmente a perspectiva positivista. A pesquisa observacional positivista na sua maioria chamada de descritiva ou exploratria, isto , busca descrever de forma objetiva e direta eventos e fatos de interesse. A pesquisa sobre canal de voz hierrquico na NASA [Watts et al. 1996] um exemplo de pesquisa com o objetivo meramente descritivo. A pesquisa exploratria, alm de descrever o fenmeno, faz propostas para novas teorias, ou novas observaes, novas mtricas para medir o fenmeno, etc. Finalmente, a pesquisa explanatria se ela busca provar ou desprovar uma teoria particular. [Markus 1983] considerado como uma das mais claras pesquisas explanatrias. O artigo confronta trs teorias sobre resistncia implantao de um novo sistema computacional; uma delas diz que as pessoas sero contra um sistema se ele no corresponder com a viso que a pessoa tem da tarefa, de estilos cognitivos, etc. Entre os casos observados na pesquisa, h o de uma pessoa que era primeiramente favorvel a um novo sistema, mas quando ela foi promovida passou a ser contra. Este exemplo contradiz com a teoria (se ela for uma teoria determinstica), e importante para ilustrar o que se chama de controles naturais na pesquisa explanatria - a busca de exemplos que se aproximam muito do poder de um experimento, mas no so articialmente impostos.
29

J. Wainer

5.3.1.1. Estilos da pesquisa observacional Existem dois estilos6 extremos de pesquisa observacional, com diferentes mtodos e objetivos. Os estilos so chamados na literatura de: estudo de caso etnograa O que mais caracteriza a separao em dois estilos o nvel de envolvimento entre o pesquisador e os sujeitos da pesquisa observacional. No estudo de caso, o pesquisador interage com os sujeitos de uma forma semi-formal, enquanto que em etnograa o pesquisador vive e trabalha junto com os sujeitos. Alm do grau de envolvimento, normalmente os dois estilos usam de fontes de dados diferentes e tm objetivos diferentes, mas no existe uma fronteira clara entre eles. O que caracteriza o estudo de caso que o pesquisador interage com os sujeitos geralmente de uma forma semi-formal, atravs de entrevistas e conversas programadas, e normalmente tem acesso a documentos, dados e outros materiais formais da organizao. O objetivo da pesquisa de estudo de caso descobrir o que as pessoas escrevem e o que as pessoas dizem, ou, em outras palavras, descobrir as prticas formais da organizao e os valores, opinies e atitudes dos sujeitos. O estudo de caso um exemplo de observador como participante na classicao de [Gold 1958] sobre o grau de envolvimento do pesquisador e dos sujeitos. No grau observador como participante a interao curta e semi-formal, e no h a formao de relacionamentos entre o pesquisador e os sujeitos. Atravs da anlise de documentos e de dados o pesquisador tem acesso a procedimentos formais da organizao, aos tempos de durao de cada atividade, etc. que muito relevante para a pesquisa em engenharia de software, por exemplo. Atravs de entrevistas com os sujeitos, o pesquisador pode descobrir aspectos importantes desses participantes, coisas que eles querem e podem falar, ou seja, suas opinies, seu valores, etc. A etnograa historicamente uma tcnica usada na antropologia para entender culturas, geralmente primitivas. O pesquisador passa meses nessas culturas, vivendo com e como os sujeitos, para entender os valores e as prticas dessa cultura. Como ferramenta de pesquisa qualitativa em computao, a etnograa tem sido usada para descobrir o que as pessoas fazem. Como na antropologia, o pesquisador passa um bom tempo com os sujeitos, e tenta conscientemente fazer parte do grupo. Em alguns casos o pesquisador aprende a fazer o que os sujeitos fazem, mas na maioria das vezes ele apenas observa os sujeitos no seu dia-a-dia (no trabalho). O etngrafo pode ter acesso a documentos da organizao, mas o que central que ele observe as pessoas trabalhando, e que interaja com elas, no s para entender o que elas esto fazendo, mas para criar um relacionamento de conana e descontrao
6

A idia de estilos no mencionada na literatura em pesquisa qualitativa.

30

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

entre o pesquisador e os sujeitos. Na classicao de [Gold 1958], o mtodo etnogrco participante como observador. O objetivo central do estudo etnogrco entender como as pessoas trabalham, e normalmente esse entendimento no possvel apenas entrevistando ou mesmo conversando com elas. Muitas das prticas de trabalho so tcitas, isto , no so conscientes o suciente para que as pessoas falem sobre elas, e se foradas a faz-lo elas acabam reinterpretando e ltrando muitas dessas prticas. Um exemplo exagerado como explicar como andar de bicicleta. claro que muito raramente numa pesquisa de estilo etnogrco preciso viver e trabalhar com os sujeitos por vrios meses. [Hughes et al. 1994] fala em uma etnograa rpida e suja (quick and dirty ) e outros falam em etnograa de curta durao (short term) para se referir pesquisa etnogrca de dias ou semanas. A durao da etnograa deve ser suciente para que dois objetivos tenham sido atingidos. O primeiro que os sujeitos passem a estar confortveis com a presena do pesquisador e voltem a fazer o que normalmente fazem - o efeito perturbador da presena do pesquisador na rotina dos sujeitos se dissipa quando eles se acostumam com o pesquisador. O segundo objetivo que o pesquisador tenha observado um conjunto amplo o suciente de comportamentos e prticas. Usa-se o termo saturao para indicar o momento quando tudo o que o etngrafo observa j foi observado antes, e nesse momento ele tem alguma conana (mas nunca a certeza) que j observou os comportamentos mais comuns. reas da computao que esto interessadas em processos, decises e opinies optam por um estilo de estudo de caso. As reas de engenharia de software, de sistemas de informao, de informtica mdica so exemplos onde os aspectos formais da organizao so importantes, e, portanto, onde um estilo de estudo de caso interessante. As reas de sistemas colaborativos (CSCW) e interfaces (HCI) so exemplos onde mais interessante saber o que as pessoas realmente fazem e como elas fazem isso, e no o que elas dizem que fazem ou o que o organograma da empresa diz que elas fazem. Estas reas usam mais o estilo etnogrco de pesquisa observacional. 5.3.1.2. Tcnicas de pesquisa observacional De modo geral, o problema central da pesquisa qualitativa o rigor: como garantir que os dados e as concluses obtidas so conveis, vlidas e generalizveis. Dentro da validade, a questo central como controlar a subjetividade ou o vis do pesquisador: como saber se as concluses realmente vm dos dados ou se vm de posies pr-experimentais do pesquisador. O resto desta seo discutir alguns mtodos que tentam controlar algumas ameaas conabilidade e a validade da pesquisa qualitativa observacional. As tcnicas abaixo so em principio relevantes tanto para estudos de caso como para etnograas. amostragem fundamentada em teoria ou direcionada (purposive ou
31

J. Wainer

theorical sampling) A seleo das amostras em pesquisa qualitativa no aleatria, mas busca especicamente casos extremos. A prpria denio de quem ser o prximo ambiente a ser observado pode ser determinado durante a pesquisa. Isto garante que as fontes mais diversas sero estudadas, e que a pesquisa cobre o espectro das possibilidades (mas sem nenhuma preocupao especial com o tpico ou o representativo). separao de observao e de teorizao A coleta de dados e a teorizao devem ser feitas em momentos independentes (embora seja permitido que aconteam em ciclos de observao seguidos de teorizao). O pesquisador deve anotar tudo que acontece na observao de campo, em cadernos que devem depois ser reanalisados. teoria fundamentada em dados (grounded theory) uma forma de anlise de dados qualitativos (textos escritos, fala e entrevista dos participantes, etc.) que busca extrair dos prprios dados e de padres repetitivos dos dados as teorias que explicam tais dados. triangulao Na sua primeira acepo, triangulao a utilizao de vrias fontes para o mesmo fato. Numa viso mais moderna, a triangulao consiste em buscar pelo menos duas formas/fontes para cada dado e anlise da pesquisa. Pode-se usar mais de uma tcnica de coleta de dados, por exemplo, anlise de documentos e entrevistas, ou observao e questionrios, ou pode-se usar mais de um pesquisador observando o ambiente. O uso de mltiplos pesquisadores tambm chamado de codicao mltipla. parceiro neutro Utilizao de um pesquisador experiente no envolvido diretamente na pesquisa para validar e/ou criticar as concluses do pesquisador principal. similar idia de triangulao, mas centrado na anlise e planejamento e no nas observaes (como a codicao mltipla). validao pelos sujeitos A validao pelos sujeitos consiste em mostrar os dados coletados e/ou a anlise dos mesmos a alguns dos sujeitos da pesquisa, respeitando-se as questes ticas previamente combinadas. Alm de permitir ao pesquisador vericar se suas anotaes e concluses so coerentes com o pensamento dos sujeitos, pode-se utilizar a tcnica de retorno para os sujeitos como parte do processo de coleta, utilizando dados previamente coletados como fonte de discusso. [Wilson 2006] mostra o uso de triagulao em pesquisa em interfaces; [de Souza et al. 2005] usa teoria fundamentada em dados para entender prticas de desenvolvimento de software.

5.3.2. Pesquisa-ao
A bibliograa para essa seo [Avison et al. 1999, Baskerville 1999].
32

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

Pesquisa-ao (action research) uma forma de pesquisa qualitativa que busca modicar o ambiente que est sendo estudado atravs da ao do pesquisador. O resultado da pesquisa-ao em computao a descrio de um caso de tentativa (bem-sucedida ou no) de modicao de uma organizao ou grupo atravs do desenvolvimento (opcional) e a implantao de um sistema (por exemplo [Lindgren et al. 2004]). A pesquisa-ao uma idia desenvolvida na Psicologia, e depois adotada por vrias cincias sociais aplicadas, onde deixa-se a postura do cientista que observa e aprende observando pela do cientista que atua, modica e aprende dessa ao. A pesquisa-ao carrega um forte componente ideolgico, j que quase sempre atrs da ao de modicao est uma viso de como tornar as coisas melhores. Palavras como participativo democrtico e justo so quase sempre associadas a pesquisa-ao em reas como educao, problemas sociais, etc. De uma forma geral, na pesquisa-ao espera-se que o pesquisador interaja com os sujeitos (ou a organizao). Da interao surge uma denio de quais so os problemas que devem ser resolvidos. Num segundo momento, tanto o pesquisador, como os sujeitos trazem diferentes formas de teorias e conhecimentos para a criao da soluo. Essa soluo posta em prtica e analisada/avaliada - deu certo ou no? resolveu o que tinha sido denido como o problema a ser resolvido? criou outros problemas?, etc. Da anlise dos resultados, os participantes (pesquisador e sujeitos) devem reavaliar suas teorias e conhecimentos, que pode gerar um novo ciclo. O novo ciclo pode comear de uma nova denio do problema ou de uma nova denio da soluo. [Baskerville 1999] dene as seguintes etapas de uma pesquisa-ao: infra-estrutura cliente-sistema a denio de um acordo/contrato entre o pesquisador e a organizao (ou comunidade) sobre o escopo da pesquisa, os papis que cada um assumir, etc. diagnstico a denio conjunta e colaborativa do que o problema a ser resolvido. planejamento da ao construo da soluo que espera-se resolver o problema. tomada da ao a implantao da soluo. avaliao a anlise/avaliao dos resultados da ao. aprendizado a adaptao das teorias que foram usadas para formular a soluo, tendo em vista a avaliao. Descrita dessa forma, a pesquisa-ao no parece diferir de outras duas atividades que envolvem cientistas da computao: desenvolvimento de sistemas e consultorias. Uma forma de desenvolvimento de sistemas mais participativa tambm envolve a denio junto com os sujeitos dos requisitos do sistema (a soluo), a implementao do sistema e avaliao dos resultados. As diferenas centrais parecem ser, tanto de enfoque, como de postura:
33

J. Wainer

desenvolvimento de sistemas normalmente no comeam com a fase de diagnstico, muito menos diagnstico participativo - o problema a ser resolvido normalmente denido antes que o processo de desenvolvimento de sistemas comece desenvolvimento de sistemas necessariamente acredita que a soluo desenvolver um sistema novo, enquanto que a ao em pesquisa-ao pode no necessariamente ser um sistema novo desenvolvimento de sistemas encara a avaliao como um teste - o sistema consegue ou falha em resolver o problema (e portanto existe um vis para que a avaliao seja positiva!). Em pesquisa-ao a avaliao deve ser to neutra quanto possvel - em princpio o que est sendo avaliado no a ao mas as teorias que levaram ao planejamento daquela e no outras aes no h muita preocupao com o aprendizado participativo no desenvolvimento de sistemas - os desenvolvedores provavelmente aprendero muito com o desenvolvimento de sistemas (e em alguns casos o aprendizado formalizado com reunies de nalizao de projeto, coleta de estatsticas, etc.) mas h pouco retorno para os sujeitos do sistema. Mesmo com as diferenas em postura e nfase, artigos que discutem lies aprendidas na prtica do desenvolvimento de um sistema, mesmo que ele no tenha o carter participativo desejvel, podem ser considerados como uma forma de pesquisa-ao, segundo [Avison et al. 1999], por exemplo. Consultorias feitas por pesquisadores em cincia da computao se aproximam mais da pesquisa-ao no que se refere ao diagnstico, que normalmente parte do processo de consultoria, mas se afasta no que se refere ao carter participativo do planejamento da ao. Normalmente em consultorias as organizaes esperam que os consultores proponham a soluo baseada na sua experincia prvia, em vez de construir a soluo com os membros da organizao.

5.3.3. Outras formas qualitativas de avaliao


A principal referncia para esta seo [Wyatt and Friedman 1997] Quando se fala de avaliao de um sistema, outros mtodos qualitativos so possveis e j foram usados em publicaes cientcas. Mencionaremos brevemente os seguintes mtodos de avaliao, retirados de [House 1980]: avaliao como crtica artstica avaliao por comit de especialistas (professional review) A idia da avaliao como crtica artstica chamar um especialista na rea e fazer com que esse especialista use o programa ou o sistema e expresse sua opinio sobre a experincia de us-lo. Essa forma de avaliao assemelha-se crtica artstica - o crtico que um especialista na rea e que tem uma percepo renada e experiente avalia, segundo sua viso, o que usar o sistema,
34

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

da mesma forma como um crtico artstico avalia o que foi ler o livro, ou ver o lme. A perspectiva losca essencialmente interpretativista: as pessoas tm opinies e valores sobre o que bom e ruim sobre o programa/sistema, e aceita-se que diferentes pessoas tenham diferentes vises, assim como dois crticos podem divergir na avaliao de um lme. O uso de avaliao como crtica artstica mais comum em reas como interface humano-computador; em particular [Bertelsen and Pold 2004] argumenta que a rea deveria fazer mais uso desse mtodo. A avaliao por especialistas se aproxima mais da pesquisa qualitativa observacional como descrita acima, mas em vez de usar um pesquisador qualitativo experiente, que usa vrias tcnicas para manter sua subjetividade sob controle, usa-se um grupo de especialistas. Espera-se que por ser um grupo, as divergncias entre eles limitem o efeito das vrias subjetividades, e que por serem especialistas, os avaliadores no se prendam apenas ao que visvel e bvio.

5.3.4. Publicao de pesquisa qualitativa


O pesquisador que usa mtodos qualitativos tem que ter alguns cuidados na hora de publicar seus resultados. O primeiro problema de publicar os resultados de uma pesquisa qualitativa defender o mrito dos mtodos qualitativos, se a publicao em uma rea da CC que valoriza a pesquisa quantitativa. [Mays and Pope 1995b] e [Pope and Mays 1995] so exemplos de dois artigos que fazem essa defesa no campo da pesquisa em sade, que uma das mais rigorosas quanto a seus mtodos. O problema parece ser maior se o pesquisador pretende publicar artigos de pesquisa-ao - preciso mostrar que pesquisa-ao no apenas o desenvolvimento de um sistema, ou o resultado de uma consultoria, que normalmente no so publicados como artigos cientcos. Mesmo que a rea de CC j aceite bem pesquisa qualitativa, o segundo cuidado quase sempre necessrio. Na pesquisa quantitativa, a competncia do pesquisador central na escolha do desenho experimental e na escolha do teste estatstico, mas fazer pesquisa essencialmente uma tarefa mecnica. E a qualidade da pesquisa pode ser julgada apenas pela escolha do desenho experimental e dos testes estatsticos. Mas em pesquisa qualitativa, a competncia do pesquisador necessria durante o fazer da pesquisa. O pesquisador qualitativo tem que manter suas idias pr-pesquisa controlados, tem que separar a coleta de dados da teorizao, tem que estar aberto e aproveitar as oportunidades que aparecem durante a pesquisa, tem que ter habilidade de entrevistar os participantes, etc. Se o pesquisador no competente, ca difcil acreditar nos resultados da pesquisa, sejam eles quais forem. O pesquisador qualitativo precisa ento mostrar evidncias no artigo que um pesquisador competente! O texto da publicao tem que ser rico o suciente para dar conana ao revisor e aos leitores que a pequisa foi feita por algum competente. Parte desse processo de convencer os revisores e leito35

J. Wainer

res mostrar que o pesquisador est ciente da literatura em metodologia de pesquisa qualitativa. Em alguns casos o pesquisador precisa no s declarar o enfoque losco da pesquisa, mas tambm ligar a sua pesquisa com as teorias fundamentais da pesquisa qualitativa (por exemplo [Butler 2000] centra uma pesquisa sobre CASE na teoria hermenutica). Teorias como fenomenologia, etnometodologia, interacionismo simblico, construtivismo e hermenutica (ver [Flick et al. 2004] para captulos curtos sobre essas teorias) so consideradas como teorias que fundamentam a pesquisa qualitativa, pois de uma forma ou outra elas denem o que o pessoal e o social, e qual a fronteira entre eles. O autor no entende o suciente sobre essas teorias para ser mais claro. Artigos como [Dube and Pare 2003] e [Klein and Myers 1999] discutem, no s como executar uma pequisa qualitativa rigorosa, mas como relat-la de forma rigorosa.

5.4. tica em pesquisa em computao


Pesquisa qualitativa, questionrios e experimentos necessariamente envolvem seres humanos. Em outras reas, em particular nas cincias da sade, h um conjunto quase consensual de quais so os padres ticos para pesquisas que envolvem seres humanos. O autor no conhee nenhuma discusso particular para as questes ticas relativas pesquisa em Cincia da Computao, ento, em vez de listar qual o comportamento considerado correto, iremos apenas listar as questes que parecem pouco claras. Enquanto a rea no denir padres de comportamento tico em pesquisa, cada pesquisador ter que reetir e agir segundo suas convices nessas e outras questes7 . Quanto participao em experimentos: O sujeito de um experimento em cincia da computao deve ser informado que ele participa de um experimento ou isso no necessrio? Se ele tiver que ser informado, preciso que ele o seja antes e concorde em participar do experimento, ou s preciso que ele aprove, aps o experimento, que os dados sejam utilizados na pesquisa, desde que certas salvaguardas sejam tomadas? Em cincias da sade, exige-se que o sujeito seja informado e concorde antes de participar do experimento. Mais do que isso, exige-se que o sujeito assine um termo de consentimento informado, onde deve haver salvaguardas sobre a possibilidade do sujeito decidir sair do experimento no meio dele, sobre as responsabilidades, riscos e custos de participar do experimento, etc. O princpio por trs desta exigncia que um experimento em sade pode de vrias
7

Infelizmente talvez a Cincia da Computao no tenha tempo de denir seus prprios padres de tica em pesquisa. Agencias nanciadoras de pesquisa como a FAPESP de So Paulo exigem que pesquisas que envolvam seres humanos tenham sido aprovadas pelas comisses de tica em pesquisa das respectivas universidades. Mas essas comisses tm uma tradio das cincias da sade, e que, como veremos, tm padres ticos que no necessariamente se aplicam a pesquisa em cincia da computao.

36

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

formas fazer mal ao paciente: uma droga que no tem o efeito esperado e, portanto, no cura o paciente, efeitos colaterais ainda desconhecidos de uma droga experimental, sofrimento fsico devido a tratamentos e exames, etc. Por outro lado, em documentrios, normalmente no se informa ao sujeito que ele est participando de um documentrio. Apenas depois das lmagens o sujeito informado e pede-se que ele consente na divulgao de sua imagem. A questo ento se um experimento de computao se parece mais com um experimento em sade ou com um documentrio. Pode um experimento em computao fazer mal ao sujeito? Pesquisas em sade exigem que os resultados da pesquisa no tenham nenhuma forma de identicao dos pacientes. A divulgao de informao sobre a sade de uma pessoa pode ser prejudicial a ela - pode dicultar obter seguro-sade, ou pode faz-la perder o emprego, ou ser ostracisada por seu grupo social, etc. Pesquisadores em sade normalmente do garantias de anonimato ao paciente nos resultados publicados da pesquisa e pedem o consentimento para o uso dos dados. Em computao, a divulgao de informaes tambm prejudicial ao sujeito, de tal forma que tanto garantias de anonimato como permisso de uso so necessrios? Quanto a pesquisas qualitativas, normalmente as organizaes autorizam tais pesquisas depois de certas negociaes. Nessas negociaes o pesquisador ter de enfrentar questes como: que garantias de anonimato da organizao na publicao nal dos resultados so apropriadas? Pesquisa qualitativa deve ser muito explcita na descrio do ambiente que foi estudado e de certa forma isso conita com as demandas de anonimato da organizao a organizao tem poder de veto na publicao dos resultados? Pesquisa qualitativa pode tanto revelar problemas quanto vantagens competitivas das organizaes, e a organizao pode temer a revelao de tais informaes, mesmo com as garantias de anonimato acordadas se a organizao j autorizou a pesquisa, preciso pedir consentimento de cada um dos sujeitos estudados? Isto , se a organizao autorizou o pesquisador a entrevistar os seus funcionrios, preciso separadamente pedir o consentimento de cada um dos funcionrios entrevistados? um problema real em computao que sistemas acabam por substituir pessoas. Se a pesquisa qualitativa feita com a inteno de especicar um sistema, o pesquisador eticamente obrigado a informar aos sujeitos da pesquisa que talvez seus empregos estejam ameaados?

5.5. Consideraes nais


Este captulo apresentou vrios conceitos e tcnicas associadas a pesquisa quantitativa e qualitativa que podem e devem ser aplicados em Cincia da Computao. O autor acredita que este texto cobre em largura e em profundidade questes metodolgicas que no so discutidas em computao, mas
37

J. Wainer

que o texto no auto-suciente. Se o pesquisador, por exemplo, decide usar pesquisa-ao como forma de pesquisa, ele deve buscar nas fontes citadas um maior aprofundamento no assunto. Isso vale para todas as tcnicas apresentadas aqui. O autor acredita que rigor cientco algo denido essencialmente pela comunidade cientca. Um pesquisador deve no mnimo seguir mtodos denidos como padro pela sua comunidade cientca, mas quase sempre vantajoso usar mtodos mais rigorosos que os da comunidade. Isso no s melhora as chances de aceitao do trabalho, mas educa e melhora a prpria comunidade. Se a sua subrea dentro da computao no usa comumente signicncia estatstica, ento introduzi-la nos seus artigos tem o duplo benefcio de melhorar o seu trabalho e melhorar a comunidade. Por outro lado, um pesquisador ter mais diculdades em ter trabalhos aceitos se ele menos rigoroso que a sua comunidade como um todo. Finalmente, este captulo reete a experincia/histria do autor. Em particular, o autor est ciente que no h referncias sucientes para artigos nas reas de desempenho (performance), que tm uma tradio de uso de mtodos quantitativos e de uso de tcnicas estatsticas, e na rea de interface humano-computador, que uma rea que usa muito experimentos, questionrios, pesquisa qualitativa observacional, etc., alm de ter uma tradio de discusso metodolgica (discusso sobre os prprios mtodos de pesquisa) talvez nica na computao. Infelizmente o autor no tem um conhecimento dessas reas que lhe permitisse escolher mais (ou melhores) referncias bibliogrcas.

5.5.1. Agradecimentos
Cada uma das sees deste captulo tem a colaborao de alunos da disciplina MO901 Questes epistmicas e metodolgicas em Cincia da Computao oferecida no 2o semestre de 2006, no Instituto de Computao da UNICAMP. A seo 5.2.1 contou com a colaborao de Danilo Lacerda, a seo 5.2.2 com a de Leandro Rodrigues Magalhes de Marco, a seo 5.2.3 com a de Fbio Bezerra, a seo 5.2.4 com a de Patricia Rocha de Toro, e a seo 5.3.1 com a de Claudia Galindo Brasotini e Vania Paula de Almeida Neris. O autor gostaria tambm de agradecer aos alunos Andr Covic Bastos, Denis Neves de Arruda Santos e Paulo Lopes, cujas contribuies no foram includas neste texto.

Referncias bibliogrcas
[Avison et al. 1999] Avison, D. E., Lau, F., Myers, M. D., and Nielsen, P. A. (1999). Action research. Communications of the ACM, 42(1):9497. [Baskerville 1999] Baskerville, R. L. (1999). Investigating information systems with action research. In Communications of the Association for
38

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

Information Systems, volume 2. Association for Information Systems. http://cis.gsu.edu/ rbaskerv/CAIS_2_19/CAIS_2_19.html. [Bentley et al. 1992] Bentley, R., Hughes, J. A., Randall, D., Rodden, T., Sawyer, P., Shapiro, D., and Sommerville, I. (1992). Ethnographicallyinformed systems design for air trafc control. In CSCW 92: Proceedings of the 1992 ACM conference on Computer-supported cooperative work, pages 123129, New York, NY, USA. ACM Press. [Bertelsen and Pold 2004] Bertelsen, O. W. and Pold, S. (2004). Criticism as an approach to interface aesthetics. In NordiCHI 04: Proceedings of the third Nordic conference on Human-computer interaction, pages 2332, New York, NY, USA. ACM Press. [Box et al. 1978] Box, G. E. P., Hunter, W. G., and Hunter, J. S. (1978). Statistics for Experimenters. Wiley, New York. [Brynjolfsson and Hitt 1998] Brynjolfsson, E. and Hitt, L. M. (1998). Beyond the productivity paradox. Commun. ACM, 41(8):4955. [Butler 2000] Butler, T. (2000). Transforming information systems development through computer-aided systems engineering (case): lessons from practice. Information Systems Journal, 10(3):167193. [Castro 2007] Castro, A. A. Curso de reviso sistemtica e metanlise. http://www.virtual.epm.br/cursos/metanalise. Acessado em 1/2007. [Chen and Rada 1996] Chen, C. and Rada, R. (1996). Interacting with hypertext: A meta-analysis of experimental studies. Human-Computer Interaction, 11(2):125156. [Collins and Pinch 1998] Collins, H. and Pinch, T. (1998). The Golem at large: what you should know about technology. Cambridge University Press. [Czitrom 1999] Czitrom, V. (1999). One-factor-at-a-time versus designed experiments. American Statistician, 53(2):126131. [de Souza et al. 2005] de Souza, C., Froehlich, J., and Dourish, P. (2005). Seeking the source: software source code as a social and technical artifact. In GROUP 05: Proceedings of the 2005 international ACM SIGGROUP conference on Supporting group work, pages 197206, New York, NY, USA. ACM Press. [Denning 2005] Denning, P. J. (2005). Is computer science science? Commun. ACM, 48(4):2731. [Dewan and Kraemer 1998] Dewan, S. and Kraemer, K. L. (1998). International dimensions of the productivity paradox. Commun. ACM, 41(8):5662. [Dube and Pare 2003] Dube, L. and Pare, G. (2003). Rigor in information system positivist case research: current practices, trends and recommendations. MIS Quarlerly, 27(4):597635. [Flick et al. 2004] Flick, U., von Kardoff, E., and Steike, I., editors (2004). A

39

J. Wainer

Companion to Qualitative Research. Sage. [Brooks 1996] Brooks, F. P. (1996). The computer scientist as toolsmith II. Commun. ACM, 39(3):6168. [Gold 1958] Gold, R. (1958). Roles in sociological eld investigation. Social Forces, 36:217223. [Guba and Lincon 1981] Guba, E. G. and Lincon, Y. S. (1981). Effective evaluation. Jossey-Bass. [Hochman et al. 2005] Hochman, B., Nahas, F. X., Oliveira, R. S., and Ferreira, L. M. (2005). Desenho de pesquisa. Acta Cirurgica Brasileira, 20(2). [Holte 1993] Holte, R. (1993). Very simple classication rules perform well on most commonly used datasets. Machine Learning, 11(1):6390. [House 1980] House, E. R. (1980). Evaluating with validity. Sage. [Huff 1990] Huff, S. (1990). Information systems maintenance. The Business Quarterly, 55:3032. [Hughes et al. 1994] Hughes, J., King, V., Rodden, T., and Andersen, H. (1994). Moving out from the control room: ethnography in system design. In CSCW 94: Proceedings of the 1994 ACM conference on Computer supported cooperative work, pages 429439, New York, NY, USA. ACM Press. [Hundhausen et al. 2002] Hundhausen, C. D., Douglas, S. A., and Stasko, J. T. (2002). A meta-study of algorithm visualization effectiveness. Journal of Visual Languages and Computing, 13(3):259290. [Kirakowski 2007] Kirakowski, J. Sumi: Software usability measurement inventory. http://sumi.ucc.ie/. Acessado em 3/2007. [Kitchenham and Peeger 2002a] Kitchenham, B. and Peeger, S. (2002a). Principles of survey research: part 2: designing a survey. ACM SIGSOFT Software Engineering Notes, 27(1):4445. [Kitchenham and Peeger 2002b] Kitchenham, B. and Peeger, S. (2002b). Principles of survey research: part 4: questionnaire evaluation. ACM SIGSOFT Software Engineering Notes, 27(3):4445. [Kitchenham and Peeger 2002c] Kitchenham, B. and Peeger, S. (2002c). Principles of survey research: part 6: data analysis. ACM SIGSOFT Software Engineering Notes, 28(2):2427. [Kitchenham et al. 2002] Kitchenham, B., Peeger, S. L., Pickard, L., Jones, P., Hoaglin, D., Emam, K. E., and Rosenberg, J. (2002). Preliminary guidelines for empirical research in software engineering. IEEE Transactions on Software Engineering,, 28(8):721734. [Klein and Myers 1999] Klein, H. K. and Myers, M. D. (1999). A set of principles for conducting and evaluating interpretive eld studies in information systems. MIS Quarterly, 23(1):6793.

40

Pesquisa Quantitativa e Qualitativa em Cincia da Computao

[Koskinen 2007] Koskinen, J. Software maintenance http://www.cs.jyu./ koskinen/smcosts.htm. Acessado em 1/2007.

costs.

[Lew 2006] Lew, M. J. (2006). Principles: When there should be no difference how to fail to reject the null hypothesis. Trends in Pharmacological Sciences, 27(5):274278. [Lindgren et al. 2004] Lindgren, R., Henfridsson, O., and Schultze, U. (2004). Design principles for competence management systems: A synthesis of an action research study. MIS Quarterly, 28(3):435472. [Marczyk et al. 2005] Marczyk, G., DeMatteo, D., and Festinger, D. (2005). Essentials of Research Design and Methodology. John Wiley and Sons. [Markus 1983] Markus, M. L. (1983). Power, politics, and mis implementation. Commun. ACM, 26(6):430444. [Mays and Pope 1995a] Mays, N. and Pope, C. (1995a). Qualitative research: Rigour and qualitative research. British Medical Journal, 311:109112. [Mays and Pope 1995b] Mays, N. and Pope, C. (1995b). Qualitative Research: Rigour and qualitative research. BMJ, 311(6997):109112. [Mezard et al. 2002] Mezard, M., Parisi, G., and Zecchina, R. (2002). Analytic and Algorithmic Solution of Random Satisability Problems. Science, 297(5582):812815. [Myers 1997] Myers, M. D. (1997). Qualitative research in information systems. In MISQ Discovery,, volume 2. MIS Quarterly. http://www.qual.auckland.ac.nz/. [Myers and Young. 1997] Myers, M. D. and Young., L. W. (1997). Hidden agendas, power, and managerial assumptions in information systems development: An ethnographic study. Information Technology & People, 10(3):224 240. [Newell and Simon 1976] Newell, A. and Simon, H. A. (1976). Computer science as empirical inquiry: symbols and search. Commun. ACM, 19(3):113 126. [Orlikowski and Baroudi 1991] Orlikowski, W. and Baroudi, J. (1991). Studying information technology in organizations: Research approaches and assumptions. Information Systems Research, 2(1):128. [Peeger and Kitchenham 2001] Peeger, S. and Kitchenham, B. (2001). Principles of survey research: part 1: turning lemons into lemonade. ACM SIGSOFT Software Engineering Notes, 26(6):4445. [Pope and Mays 1995] Pope, C. and Mays, N. (1995). Qualitative Research: Reaching the parts other methods cannot reach: an introduction to qualitative methods in health and health services research. BMJ, 311(6996):4245. [Reichardt 1979] Reichardt, C. S. (1979). The statistical analysis of data from nonequivalent group design. In Cook, T. D. and Campbell, D. T., editors,

41

J. Wainer

Quasi experimentation: design and analysis issues for eld studies. Rand McNally. [Shneiderman 1992] Shneiderman, B. (1992). Designing the User Interface: Strategies for Effective Human-Computer Interaction. Addison-Wesley, 2nd edition. [Silva and Travassos 2004] Silva, L. and Travassos, G. (2004). Tool-supported unobtrusive evaluation of software engineering process conformance. In Proceedings. 2004 International Symposium on Empirical Software Engineering, 2004. ISESE 04., pages 127 135. [Tichy 1998] Tichy, W. F. (1998). Should computer scientists experiment more? Computer, 31(5):3240. [Toothaker 1993] Toothaker, L. E. (1993). Multiple Comparison Procedures. Sage Publications. [Trochim 2006] Trochim, W. M. Research methods knowledge base. http://www.socialresearchmethods.net/kb/. Acessado em Jan 2007. [Wainer 2003] Wainer, J. (2003). O paradoxo da produtividade. In Ruben, G., Wainer, J., and Dwyer, T., editors, Informtica, Organizaes e Sociedade no Brasil, pages 755. Cortez. [Watts et al. 1996] Watts, J. C., Woods, D. D., Corban, J. M., Patterson, E. S., Kerr, R. L., and Hicks, L. C. (1996). Voice loops as cooperative aids in space shuttle mission control. In CSCW 96: Proceedings of the 1996 ACM conference on Computer supported cooperative work, pages 4856, New York, NY, USA. ACM Press. [Wilson 2006] Wilson, C. E. (2006). Triangulation: the explicit use of multiple methods, measures, and approaches for determining core issues in product development. interactions, 13(6):46ff. [Wyatt 1998] Wyatt, J. (1998). Quantitative evaluation of clinical software, exemplied by decision support systems. International Journal of Medical Informatics, 47(3):165173. [Wyatt and Friedman 1997] Wyatt, J. and Friedman, C. P. (1997). Evaluation Methods in Medical Informatics. Springer. [Yin 2005] Yin, R. K. (2005). Estudo de Caso: Planejamento e Metodos. Bookman, 3a edio edition.

42

Você também pode gostar