Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo
O presente artigo investiga o desempenho do mtodo da Mxima Verossimilhana (MV) na estimao da usabilidade de sites e-commerce e compara o desempenho entre os Softwares BILOG-MG e Excel na estimao dessas usabilidades. Para isso, foram utilizados dados reais de
um estudo sobre o grau de usabilidade de 361 sites de e-commerce, no
qual foram aplicados 32 itens calibrados por meio do modelo logstico
unidimensional de dois parmetros (MLU2) da Teoria da Resposta ao
Item (TRI). O processo de estimao da usabilidade por MV foi feito nos
softwares BILOG-MG e Excel. Os resultados mostraram que o mtodo de MV apresenta deficincias quando existe um padro de resposta
constante, o que pode ocorrer durante a aplicao dos primeiros itens do
questionrio. Entretanto, o mtodo apresenta um bom desempenho quando o padro de respostas no constante. Alm disso, o desempenho do
processo elaborado no Excel foi melhor do que no software convencional BILOG-MG. Os parmetros dos itens tambm influenciam na
estimao por MV.
23
UFSM, 33(2)
Abstract
This article investigates the performance of Maximum Likelihood (ML)
method to estimate the usability of e-commerce sites and compares the
performance between the software Bilog-MG and Excel in the
estimation of these usability. For this, we used real data from a study on
the degree of usability of 361 e-commerce sites, which were applied 32
items calibrated by the unidimensional logistic model of two parameters
(MLU2) of Item Response Theory (IRT). The estimation process by ML
was developed in BILOG and Excel softwares. The results showed
that the ML method is flawed when there is a constant pattern of response,
which may occur during application of the first items on the questionnaire.
However, the method performs well when the pattern of responses is not
constant. Moreover, process performance prepared in Excel was better
than in conventional software BILOG-MG. The parameters of the items
also influence the estimation of ML.
1. Introduo
A Teoria da Resposta ao Item (TRI) um sistema de modelos matemticos que define uma maneira de estabelecer a correspondncia entre variveis latentes e suas manifestaes (AYALA, 2009) possibilitando a criao de medidas padronizadas. Varivel latente uma caracterstica que
no pode ser medida diretamente por meio de aparelho ou de uma nica
pergunta, mas por um conjunto de itens que estejam relacionados a essa
varivel. Alguns exemplos de variveis latentes so: o nvel de proficincia em matemtica de um aluno do ensino fundamental, o grau de depresso de um paciente, o nvel de satisfao de um cliente, o grau de
usabilidade de um website. Atualmente, tanto no Brasil quanto no exterior, a Teoria da Resposta ao Item vem sendo bastante difundida, principalmente na rea de educao e testes psicolgicos. Uma relao dos trabalhos sobre TRI publicados no Brasil at o ano de 2009 se encontra disponvel em Moreira Junior (2010).
Segundo Ayala (2009), a TRI pode ser descrita como uma teoria de
estimaes estatsticas, na qual caractersticas latentes de indivduos ou
sistemas so estimadas tendo como base as respostas destes a um deter-
24
23-42, 2011
25
UFSM, 33(2)
sistematizao nos resultados dificultam a comparabilidade entre os sistemas e a identificao das caractersticas mais importantes.
Para gerar um melhor entendimento das estruturas envolvidas em
uma avaliao de usabilidade e para sistematizar os resultados, pode-se
fazer uso de escalas de medidas aliceradas em conceitos matemticos e
de usabilidade. Desse ponto de vista, a Teoria da Resposta ao Item representa uma poderosa ferramenta, uma vez que esta possibilita a criao de
escalas a partir de um conjunto de itens que faz uso de conceitos
aprofundados de usabilidade. Este processo se d necessariamente por
meio de estimaes de parmetros. Num primeiro momento, so estimados os parmetros dos itens com a finalidade de mensurar a importncia
dos atributos de usabilidade e posicion-los em uma escala (de grau de
usabilidade, por exemplo) em ordem de importncia (ou dificuldade).
Aps isso, nesta mesma escala, so realizadas as estimaes do grau de
usabilidade dos websites que responderem ao conjunto de itens j estimados. Ou seja, a aplicao da TRI configura um processo interativo, no
qual, a partir de um conjunto de itens previamente estimados, possvel
estimar a proficincia (ou grau de usabilidade) de um respondente qualquer, independente de seu contexto, representando, portanto, uma abordagem objetiva e geral.
26
23-42, 2011
P (U ij = 1 / q j ) =
1
1+ e
- ai (q j - bi )
(1)
em que:
27
UFSM, 33(2)
28
23-42, 2011
L(u / q ) = Pj j Q j
u
1- u j
(2)
j =1
L(u / q ) =
- ai (q j -bi )
j =1 1 + e
uj
1- u j
e - ai (q j -bi )
1 + e - ai (q j -bi )
(3)
,
ln L(u / q ) = u j
+ (1 - u j )
- ai (q j -bi )
- a (q -b )
1+ e
1 + e i j i j
j =1
(4)
que deve ser derivada e igualada a zero. O Estimador de Mxima Verossimilhana de q j (EMV) o valor que maximiza a funo de verossimilhana, ou seja, a soluo da Equao 5:
ln L(u / q )
= 0.
q j
(5)
em que
1
I (q )
(6)
29
UFSM, 33(2)
I (q ) = I i (q ).
(7)
i =1
I i (q ) = ai2 Pi (q )Qi (q ).
(8)
1
I
a
i =1
2
i
Pi (q )Qi (q ) .
(9)
4. Materiais e mtodos
Foram utilizados dados coletados referentes usabilidade de 361 sites ecommerce (TEZZA; BORNIA; ANDRADE, 2011). Quarenta e quatro
30
23-42, 2011
31
UFSM, 33(2)
5. Resultados e discusses
O primeiro resultado observado foi que os valores das habilidades estimadas no Excel foram os mesmos das habilidades estimadas no BILOGMG, com a preciso utilizada no Excel de duas casas decimais, mostrando a consistncia do processo elaborado no Excel. As estimativas
dos erros padro tambm foram muito parecidas, apresentando diferena apenas na terceira ou quarta casa decimal. Ressalta-se ainda que o
procedimento realizado no Excel conseguiu estimar o erro padro dos
sites 241, 247 e 257 (que responderam sim para 31 dos 32 itens), o que
o BILOG-MG no conseguiu fazer. A Figura 2 apresenta as habilidades estimadas com o respectivo erro padro (EP) e a posio dos 32 itens
na escala. Observa-se que o erro padro das estimativas menor onde a
maioria dos itens est concentrada e aumenta, medida que os itens vo
ficando mais distantes um do outro. Na TRI, esse resultado tem coerncia, uma vez que, quanto maior for a quantidade de itens numa regio,
maior ser a informao do teste nessa regio e menor ser o erro padro, o qual inversamente proporcional informao do teste.
A Figura 3 apresenta a estimativa da habilidade do site 1 pelo mtodo
da mxima verossimilhana, medida que os itens vo sendo respondidos, e seu respectivo erro padro (EP).
Observa-se que nos 5 primeiros itens o valor estimado para a habilidade igual a 4. No procedimento utilizado neste trabalho, enquanto o
padro de respostas se manteve constante ou se o valor estimado da
32
23-42, 2011
1,4
1,2
EP
0,8
0,6
0,4
0,2
-5,00
-4,00
-3,00
-2,00
-1,00
0
0,00
1,00
2,00
3,00
4,00
5,00
Habilidade
5
Habilidade
EP
4
Nvel de Habilidade
-1
-2
1
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Quantidade de Itens Respondidos
33
UFSM, 33(2)
Nvel de Habilidade
-1
-2
-3
1
10 11
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Quantidade de Itens Respondidos
As Figuras 5 e 6 apresentam a evoluo da curva da funo de verossimilhana do site 1 medida que os itens vo sendo respondidos. Os
nmeros entre parnteses indicam a quantidade de itens aplicados respectiva curva. medida que os itens vo sendo respondidos, a curva vai
tomando uma forma mais estreita, o que torna mais precisa a estimao
do valor mximo da funo.
34
23-42, 2011
1,2
1,2
0,8
0,8
0,6
0,6
0,4
0,4
0,8
0,6
1,2
0,4
0,2
0,2
0,2
0
-4
-3
-2
-1
0
-4
(1)
-3
-2
-1
-4
-3
-2
-1
(2)
1,2
(3)
0,8
0,9
0,7
1
0,8
0,6
0,7
0,8
0,5
0,6
0,6
0,4
0,5
0,4
0,3
0,4
0,3
0,2
0,2
0,2
0,1
0,1
0
-4
-3
-2
-1
0
-4
-3
-2
-1
(4)
-4
-3
-2
-1
(5)
0,025
0,025
0,02
0,02
0,015
0,015
0,01
0,01
0,005
0,005
(6)
0,016
0,014
0,012
0,01
0,008
0,006
0,004
0,002
-4
-3
-2
-1
0
-4
-3
-2
-1
(7)
-4
-3
-2
-1
(8)
0,014
(9)
0,012
0,009
0,008
0,012
0,01
0,007
0,01
0,006
0,008
0,008
0,005
0,006
0,004
0,006
0,003
0,004
0,004
0,002
0,002
0,002
0,001
0
-4
-3
-2
-1
0
-4
-3
-2
-1
(10)
-4
-3
-2
(11)
0,009
(12)
0,008
0,008
-1
0,0035
0,007
0,003
0,007
0,006
0,0025
0,006
0,005
0,002
0,005
0,004
0,004
0,0015
0,003
0,003
0,001
0,002
0,002
0,0005
0,001
0,001
0
-4
-3
-2
-1
0
-4
-3
-2
(13)
-1
-4
-3
-2
(14)
0,0005
-1
(15)
0,00025
0,0003
0,00045
0,00025
0,0004
0,0002
0,00035
0,0002
0,0003
0,00015
0,00025
0,00015
0,0002
0,0001
0,0001
0,00015
0,0001
0,00005
0,00005
0,00005
0
-4
-3
-2
-1
(16)
0
-4
-3
-2
-1
-4
(17)
-3
-2
-1
(18)
35
UFSM, 33(2)
0,00025
0,00025
0,0002
0,0002
0,00015
0,00015
0,0001
0,0001
0,00005
0,00005
0,000035
0,00003
0,000025
0,00002
0,000015
0,00001
0,000005
0
-4
-3
-2
-1
0
-4
-3
-2
-1
(19)
-4
-3
-2
(20)
(21)
0,000009
0,000035
-1
0,000006
0,000008
0,00003
0,000005
0,000007
0,000025
0,000006
0,00002
0,000004
0,000005
0,000003
0,000004
0,000015
0,000003
0,000002
0,00001
0,000002
0,000001
0,000005
0,000001
0
-4
-3
-2
-1
0
-4
-3
-2
(22)
-1
-4
-3
-2
(23)
0,000003
0,000003
0,0000025
0,0000025
0,000002
0,000002
0,0000015
0,0000015
0,000001
0,000001
0,0000005
0,0000005
-1
(24)
0,0000009
0,0000008
0,0000007
0,0000006
0,0000005
0,0000004
0,0000003
0,0000002
0,0000001
0
-4
-3
-2
-1
0
-4
-3
-2
(25)
-1
-4
-3
-2
(26)
0,0000005
0,0000006
-1
(27)
0,00000025
0,00000045
0,0000005
0,0000004
0,0000002
0,00000035
0,0000004
0,0000003
0,00000015
0,00000025
0,0000003
0,0000002
0,0000001
0,0000002
0,00000015
0,0000001
0,00000005
0,0000001
0,00000005
0
-4
-3
-2
-1
0
-4
-3
-2
(28)
-1
(29)
-4
-3
-2
-1
(30)
0,00000014
0,00000016
0,00000014
0,00000012
0,00000012
0,0000001
0,0000001
0,00000008
0,00000008
0,00000006
0,00000006
0,00000004
0,00000004
0,00000002
0,00000002
0
-4
-3
-2
-1
(31)
-4
-3
-2
-1
(32)
36
23-42, 2011
0,00000014
0,00000012
0,0000001
0,00000008
0,00000006
0,00000004
0,00000002
0
-4
-3
-2
-1
Ha b i li d a d e
51
3 ,4 5
173
3 ,4 5
193
3 ,3 0
211
3 ,4 5
235
3 ,4 5
255
3 ,4 5
264
3 ,4 5
325
3 ,5 0
329
3,18
331
2,91
337
3,29
37
UFSM, 33(2)
tivamente no forem os mesmos, a habilidade estimada no ser a mesma, seja por meio do mtodo MV ou por algum mtodo Bayesiano.
A maior habilidade foi de 3,50 para o site 325 e a menor foi de 2,91
para o site 331, proporcionando uma diferena de 0,59 entre as habilidades. Esses dois sites responderam no para itens diferentes, o que
proporcionou diferentes valores de habilidade para eles. Ambos responderam no para o item de dificuldade maior que a sua habilidade e para
o item com dificuldade menor que a sua habilidade. O site 331 obteve a
menor habilidade porque respondeu no (o que no era esperado) para
um item com dificuldade menor que a sua habilidade e que possua um
parmetro de discriminao alto (1,09), o que penalizou a estimativa da
sua habilidade, diminuindo-a bastante em relao aos demais sites que
tambm responderam sim a 30 itens.
A segunda maior habilidade estimada (3,45) foi apresentada por 6
sites (sites 51, 173, 211, 235, 255 e 264) dentre os 11 sites da Tabela 1. Eles
tiveram resposta no para dois itens de dificuldade maior que a sua
habilidade estimada, o que coerente dentro do contexto da TRI.
O site 325 teve resposta negativa para os itens 13 e 32, e obteve habilidade estimada igual a 3,50. J o site 329 teve resposta negativa para os
itens 9 e 32, e obteve habilidade estimada igual a 3,18. Nota-se que os
sites 325 e 329 tiveram resposta no a um mesmo item (32) e a outro
item diferente. Ambos os itens 9 e 13 possuem uma dificuldade menor do
que a habilidade estimada desses sites, o que significa que, teoricamente, os sites 325 e 329 deveriam ter resposta positiva para esses itens.
Entretanto, o item 9 possui uma discriminao maior do que o item 13, o
que contribuiu para estimar uma habilidade menor para o site 329. Conclui-se, portanto, que os parmetros de discriminao (a) e de dificuldade
(b) tm influncia na estimativa da habilidade utilizando o mtodo da
mxima verossimilhana.
6. Concluso
Este artigo analisou o desempenho do mtodo de Mxima Verossimilhana (MV) na estimao da usabilidade de sites e-commerce.
Os resultados mostraram que o mtodo de Mxima Verossimilhana
apresenta deficincias quando existe um padro de resposta constante, o
38
23-42, 2011
que pode ocorrer durante a aplicao dos primeiros itens do questionrio. Entretanto, o mtodo apresenta um bom desempenho quando o padro de respostas no constante.
Alm disso, o desempenho do processo elaborado no Excel foi
melhor do que no software convencional BILOG-MG utilizado nas
anlises da TRI, pois, alm de obter as mesmas estimativas que o BILOGMG para as habilidades, tambm conseguiu estimar o erro padro de
alguns sites que o BILOG-MG no conseguiu.
Tambm foi possvel verificar que os parmetros de discriminao
(a) e de dificuldade (b) exercem influncia na estimativa da habilidade
utilizando o mtodo da mxima verossimilhana. Esses parmetros so
capazes de determinar se um site receber uma estimativa maior ou menor para a sua habilidade. Para futuros trabalhos, sugere-se estudar como
funciona essa influncia, ou seja, o quanto os valores dos parmetros de
discriminao (a) e de dificuldade (b) influenciam na estimativa da habilidade por MV.
Referncias
AGARWAL, R.; VENKATESH, V. Assessing a Firms Web Presence: A
Heuristic Evaluation Procedure for the Measurement of Usability.
Information Systems Research, v.13 n.2, p.168-186, June 2002.
ANDRADE, D. F.; TAVARES, H. R.; VALLE, R. C. Teoria da resposta
ao item: conceitos e aplicaes. So Paulo: ABE - Associao Brasileira de Estatstica, 2000.
DE AYALA, R. J. The Theory and Practice of Item Response Theory.
The Guilford Press, New York Wiley, 2009.
AZEVEDO, C. L. N. Mtodos de Estimao na Teoria da Resposta ao
Item. 2003. 133 f. Dissertao (Mestrado em Estatstica) - Instituto de
Matemtica e Estatstica, Universidade de So Paulo, So Paulo, 2003.
AZEVEDO, C. L. N. Modelos Longitudinais de Grupos Mltiplos
Multinveis na Teoria da Resposta ao Item: Mtodos de Estimao e
Seleo Estrutural sob uma Perspectiva Bayesiana. 2008. 265 f. Tese
39
UFSM, 33(2)
40
23-42, 2011
41
UFSM, 33(2)
Submetido: 09/05/2011
Aceito: 26/10/2011
Reviso do Abstract: CCAA-Sul (Santa Maria, RS)
42