Você está na página 1de 35

SCC 5933 - METODOLOGIA DE

PESQUISA CIENTFICA EM
COMPUTAO
MTODOS DE PESQUISA QUANTITATIVA E
QUALITATIVA PARA A CINCIA DA COMPUTAO

Profa. Sandra M Aluisio

Avaliao
Prova (30/6) e
Avaliao do Site para a Pesquisa do Aluno (30/6)
Disponibilizar o link do site num arquivo, via escaninho

Aprovao: C[5 , 7) B[7 , 8.0) A[8.0 , 10]


(Frequncia 75%).

Elementos do Site
Ttulo da Pesquisa
Tema
Lacuna/problema

Hipteses e Objetivo
Justificativa/motivao
Resumo com Estruturao Explcita das partes componentes
Metodologia de Desenvolvimento dos mtodos (ou dos sistemas)
Metodologia de Avaliao
Abas:
Equipe, Contato, Durao da Pesquisa

Publicaes e Slides ou Psteres, Demos/Pilotos


Monografia de Qualificao, Dissertao/Tese
Dados/Recursos ou Benchmarks criados, Links Interessantes

Mtodos de pesquisa quantitativa e qualitativa para a

Cincia da Computao
Jacques Wainer
Conhecimento em cincia da computao obtido usando as

seguintes grandes metodologias:


provas matemticas, anlise assinttica
pesquisa quantitativa
EMPRICA ou Experimental
pesquisa qualitativa
pesquisa bibliogrfica reviso sistemtica
pesquisa analtica

Mtodos qualitativos
Observao cuidadosa:
dos ambientes onde o sistema proposto ou ser usado
das perspectivas dos usurios ou potenciais usurios
Mtodos: estudos qualitativos observacionais, pesquisa-ao

(intervencionistas)
Em HCI
Mtodo de Inspeo Semitica (MIS) [de Souza et al. 2010]
de Souza, C. S., Leito, C. F., Prates, R. O., Bim, S.A., da Silva, E.J. (2010).
Can inspection methods generate valid new knowledge in HCI? The case of
semiotic inspection. In: International Journal of Human-Computer Studies, pp.
22-40 (2010).
http://www.repositorio.ufop.br/bitstream/123456789/4410/1/ARTIGO_CanInspec
tionMethods.pdf

Os mtodos quantitativos
Medida numrica de poucas variveis objetivas,

Dados gerados atravs de uma


simulao tm um vis, j que
o gerador cria exemplos
segundo uma distribuio de
probabilidade
que pode no corresponder

enfatizando a comparao de resultados e uso


aos dados reais.
intensivo de mtodos estatsticos
Mtodos:
(1) uso de dados sintticos* : benchmarks, simulaes e competies shared tasks
da CONLL usa ML para PLN (http://ifarm.nl/signll/conll/) dados so reais
Trs classes de benchmarks:
para avaliar o tempo de execuo do programa.
para avaliar se um programa consegue obter um resultado e resultam num conjunto de
medidas binrias (resolveu ou no resolveu o problema).
especificam no s exemplos de problemas, mas tambm sua soluo.
para avaliar a qualidade da resposta do programa (resposta binria ou medida de erro)

(2) tcnicas estatsticas para a comparao de conjuntos de medidas


(3) uso de questionrios (surveys)
(4) desenhos experimentais
* devem, em princpio, representar a possvel diversidade de dados reais

EMNLP 2015 Workshop on Discourse


in Machine Translation
http://www.idiap.ch/workshop/DiscoMT/shared-task
Important dates
February 2015

Training data release


4 May 2015
Release of test data for pronoun translation task (no tem a classe)
10 May 2015
Submission deadline for pronoun translation task
11 May 2015
Release of test data for cross-lingual pronoun prediction task (no tem a classe)
18 May 2015
Submission deadline for cross-lingual pronoun prediction task
28 June 2015
System paper submission deadline
21 July 2015
Notification of acceptance
11 August 2015 Camera-ready papers due
September 2015 DiscoMT 2015 workshop in Lisbon (in conjunction with EMNLP)

Mtricas de avaliao so comuns a todos os competidores e assim a competio avana o


estado da arte de tarefas. Baselines so oferecidos; ideal os sistemas superarem esses.
Evaluation
The classification results will be evaluated against the gold standard translations from the test

set. For the pronoun-focused translation task, the submissions will be scored manually.

Foco: mtodos quantitativos


Usam intensivamente mtodos estatsticos.
Essncia: verificar quo melhor nosso mtodo proposto frente a

alternativas, usando mtricas como P, R, F-measure, acurcia,


tempo.
Bastante usados na CC

Essa a razo das hipteses virem j associadas com as

medidas de avaliao.

O que fazer com isso?


O pesquisador deve informar-se da disponibilidade de

benchmarks, simuladores e competies na sua rea de


pesquisa!
Pesquisa quantitativa mede as variveis de interesse

objetivamente (medidas ou observadas).


Tempo de Execuo (dado real)
Programa acertou ou no a resposta (dado binrio)
Em NLP, por exemplo,
desejamos saber se um novo mtodo proposto tem desempenho

significativamente melhor, com relao a mtricas padro da rea (P, R,


F-measure), que abordagens anteriores.
Temos classes de medidas: categricas (ou nominais), ordinais,

intervalares, medidas de razo

10

Classes de Medidas
IMPORTANTE: define que tipo de teste estatstico usar para

verificar se 2 conjuntos so significativamente diferentes ou no.


Medidas Categricas (ou Nominais): sexo, estado, pas, diagnstico mdico.
No h operaes com esse dado.
Medidas ordinais: classe socioeconmicas, srie escolar, gravidade.
Operao de ordenao
Medidas intervalares: medida em clsius.
O intervalo pode ser comparado. o valor nulo no corresponde ausncia da

caracterstica medida
Medidas de razo: massa corporal, idade, tempo, presso arterial ou temperatura
Kelvin.
Razes entre 2 medidas fazem sentido. o zero corresponde ausncia da
caracterstica medida.

11

Significncia estatstica testes usados (2 conjuntos)


Chi-quadrado:

medidas categricas e algumas vezes com ordinais (nmero de


observaes no mnimo 5)
Fischer Exact test:
verso mais elaborada que chi-quadrado. Usado quando o tamanho das
amostras so pequenas
Teste t-student:
medidas intervalares e de razo, distribudas de forma normal
Teste T pareado:
usado para conjuntos correspondentes (notas da P1 e notas da P2);
mesmas condies que teste t-student
Teste Wilcoxon rank-sum test (ou teste de Wilcoxon-Mann-Whitney)
quando as condies do test t-student no so verdadeiras (nonormalidade ou varincias muito diferentes). Usado para medidas ordinais,
intervalares e de razo.

12

Avaliaes em PLN
Melhorar o estado da arte de tecnologias de lngua
Avaliao da melhoria de um sistema versus outro a varivel de
interesse.
Mtricas para comparar sistemas no so geralmente

distribudas normalmente: no se usa teste t-student e


sim Wilcoxon.
Whats in a p-value in NLP?
Proceedings of the Eighteenth Conference on Computational
Language Learning, pages 110, Baltimore, Maryland USA, June
26-27 2014.
http://www.aclweb.org/anthology/W14-1601

13

Significncia Estatstica
Testes Estatsticos, hiptese nula, p-value, significncia

do teste, pressuposies do teste, variveis dependentes


e independentes...
Variveis:
Independentes
Todas aquelas que so manipuladas ou controladas

Dependentes
So aquelas que queremos estudar para ver os efeitos das mudanas
nas variveis independentes
Normalmente temos apenas uma varivel dependente

14

Variveis dependentes e independentes


Variveis independentes:
So aquelas que podemos controlar e mudar
Escolher as variveis no fcil e, normalmente, exige
conhecimento do domnio
Possuem um certo efeito sobre as variveis dependentes
Variveis dependentes:
Mede o efeito dos tratamentos (Sade)
Normalmente, definida somente 1 varivel dependente
derivada diretamente das hipteses
Na maioria das vezes no diretamente mensurvel

15

Variveis dependentes e independentes


Exemplo de Variveis em CC:
estudar os efeitos de um novo mtodo de
desenvolvimento de software com relao produtividade
dos desenvolvedores.
Considerando que um mtodo OO ser introduzido no lugar
de um mtodo baseado em funes (procedimental)
Varivel dependente:
produtividade
Variveis independentes:
Mtodo de desenvolvimento
Experincia do pessoal
Suporte de ferramentas
Ambiente de trabalho

16

Hipteses de Pesquisa
Uma hiptese deve ser declarada formalmente.
e os dados coletados durante a execuo
experimental devero ser usados para, se
possvel, rejeitar a hiptese.
Se a hiptese pode ser rejeitada/aceita ento
concluses podem ser feitas, com base no teste
de hiptese levando em considerao alguns
riscos

17

Hiptese nula vs Hipteses alternativas


A definio de um experimento formalizada por
meio de hipteses.
Duas hipteses devem ser formuladas.
Hiptese nula (H0) declara que no existem
condies de tendncia ou padres em um
experimento.

18

Hiptese nula vs Hipteses alternativas


a hiptese que queremos REJEITAR com a
maior significncia (certeza) possvel.
Exemplo: Uma tcnica nova de inspeo
encontra, na mdia (), o mesmo nmero de
falhas (#F) que a tcnica antiga

19

Hiptese nula vs Hipteses alternativas


Hiptese Alternativa (H1) declarada a favor
do que rejeita a hiptese nula.
Exemplo: Uma tcnica nova de inspeo
encontra, na mdia (), mais falhas (#F) que a
tcnica antiga.

20

Hiptese nula vs Hipteses alternativas


A hiptese nula H0 representa a circunstncia que
est sendo testada, e o objetivo dos testes de
hipteses sempre tentar rejeitar a hiptese
nula.
A hiptese alternativa H1 representa o que se
deseja provar ou estabelecer, sendo formulada
para contradizer a hiptese nula.

21

Erros: type I and type II


Existem vrios testes estatsticos de hiptese.
Todos esto baseados na ideia de que as hipteses so formuladas
antes dos testes estatsticos serem escolhidos e realizados.

O teste de hipteses envolve diferentes tipos de


riscos:
Ou o teste rejeita uma hiptese verdadeira
Ou o teste no rejeita uma hiptese falsa

22

Erros: type I and type II


Repare que, ao testarmos uma hiptese nula,
chegamos a uma concluso:
rejeit-la, ou no rejeit-la
Entretanto, devemos lembrar que tais concluses
ora so corretas, ora so incorretas (mesmo
quando fazemos tudo corretamente!).
Este o preo a ser pago por estarmos trabalhando
em uma situao onde a variabilidade inerente !!!

23

Erros: type I and type II


Type-I-error
Ocorre quando um teste estatstico indica um
padro/relacionamento mesmo que no exista um
padro/relacionamento real
A probabilidade de cometer um erro desse tipo pode ser
expressa como:

No exemplo de hipteses apresentado, type-I-error a


probabilidade de rejeitar H0 mesmo que as 2 tcnicas, na
mdia (), encontrem o mesmo nmero de falhas (#F)

24

Erros: type I and type II


Type-II-error
Ocorre quando um teste estatstico no indica um padro
mesmo se tal padro/relacionamento existir
A probabilidade de cometer um erro desse tipo pode ser
expressa como:

No exemplo de hipteses apresentado, type-II-error a


probabilidade de no rejeitar H0 mesmo que as 2
tcnicas, na mdia, possuam mdias () do nmero
de falhas (#F) encontradas diferentes

25

Erros: type I and type II

26

Controle de riscos: type I and type II


O tamanho do erro depende de diferentes fatores
Um exemplo a habilidade do teste estatstico
revelar um padro/relacionamento verdadeiro em
dados coletados
Conhecido como o Poder do Teste (P)

27

Controle de riscos: type I and type II


O poder de um teste estatstico a probabilidade do teste
revelar um padro verdadeiro se H0 for falsa.
Para tanto, ao realizar um experimento devemos escolher
um teste com o maior P possvel.

28

P-value
Se as condies do teste so verdadeiras e o p-value

baixo ento o pesquisador pode assumir que a hiptese


nula falsa (h evidncias para rejeitar a hiptese nula).
O valor do p-value abaixo do qual se assume que a
hiptese nula falsa 0.05 ou 0.01
A significncia do teste 1 p-value, ou seja, deve ser

95% ou 99%
Se o p-value calculado maior que o valor de corte
ento: no h evidncias para rejeitar a hiptese nula.
Mostrem sempre o p-value calculado. Para PLN usase o valor de corte de 0.0025

29

Seleo dos participantes


A seleo dos participantes est diretamente relacionada
generalizao dos resultados de um experimento
Para tanto, a seleo deve ser representativa para a populao
Seleo de participantes = amostra de uma populao
A amostragem pode ser probabilstica ou no-probabilstica
Amostragem probabilstica: a probabilidade da seleo de
cada participante conhecida
Amostragem no-probabilstica: a probabilidade da seleo
de cada participante no conhecida.
Servem para sondagens sem propsitos inferenciais, nestes casos, os
processos que envolvem comparaes estatsticas que usem clculos
cientficos no so vlidos.

30

Amostragens probabilsticas
Amostragem aleatria simples
aquela em que toda amostra possvel de mesmo tamanho tem a
mesma chance de ser selecionada a partir da populao.
Amostragem sistemtica
Consiste em um elemento aleatrio, por exemplo, um nome a cada
dez de uma lista, a dcima pea produzida em uma linha de
produo etc. Sua principal vantagem sua simplicidade e
flexibilidade, sendo mais fcil de instruir os trabalhadores de campo.
Amostragem estratificada
Consiste em dividir ou estratificar a populao em um certo nmero
de subpopulaes que no se sobrepem e ento extrair uma
amostra de cada estrato.

31

Amostragens no probabilsticas
Amostragem de voluntrios
quando os prprios componentes da populao se voluntariam para
participar de uma pesquisa.
Amostragem por bola de neve
escolhem-se voluntrios e estes indicam "conhecidos" com o mesmo perfil
para responder entrevistas ou questionrio e assim sucessivamente.
Formam-se redes de referncia.
Amostragem por cotas
Consiste em buscar repetir a proporo de elementos de cada estrato da
populao, na amostragem por cotas os elementos da amostra no so
selecionados atravs de sorteio.
Amostragem por escolha racional
quando o pesquisador busca na populao uma parte dela que
interessa, ou seja, os participantes so escolhidos por terem uma ou mais
caractersticas especficas.

32

Seleo dos participantes


O tamanho da amostra tem impacto sobre
a
generalizao dos resultados de um experimento
Quanto maior a amostra, menor a chance de errar ao
generalizar os resultados, pois tendemos ao universo.
Princpios gerais para escolher o tamanho da amostra:
Se existir uma ampla variabilidade na populao, uma amostra de
tamanho maior necessria;

A anlise dos dados pode influenciar a escolha do tamanho da


amostra.

33

Limitaes da Pesquisa Experimental


As pesquisas experimentais constituem o mais valioso
procedimento disponvel aos cientistas para testar hipteses
que estabelecem relaes de causa e efeito entre as variveis.
Em virtude de suas possibilidades de controle, os experimentos
oferecem garantia muito maior do que qualquer outro
delineamento de que a varivel independente causa efeitos na
varivel dependente.
A despeito, porm, de suas vantagens, a pesquisa experimental
apresenta vrias limitaes.
Primeiramente, existem muitas variveis, cuja manipulao
experimental se torna difcil ou mesmo impossvel.

34

Limitaes da Pesquisa Experimental


Uma srie de caractersticas humanas, tais como idade,
sexo ou histrico familiar, no podem ser conferidas s
pessoas de forma aleatria.
Outra limitao consiste no fato de que muitas variveis
que poderiam ser tecnicamente manipuladas esto
sujeitas as consideraes de ordem tica que probem
sua manipulao.
No se pode, por exemplo, submeter pessoas a atividades
estressantes com vistas a verificar alteraes em sua
sade fsica ou mental.

35

Agradecimentos
Parte dos slides vieram da apresentao de
Pesquisa Experimental
Nemesio Freitas Duarte Filho
Kleberson Junio do Amaral Serique
Prof. Dra. Renata Pontin

Você também pode gostar