Você está na página 1de 7

ao ergonmica, volume 5, nmero 3

AVALIAO DE USABILIDADE EM SITES DE E-COMMERCE: UMA APLICAO DA TEORIA DA RESPOSTA AO ITEM (TRI)

Rafael Tezza
Universidade Federal de Santa Catarina - UFSC rafaeltezza@deps.ufsc.br

Fernando de Jesus Moreira Junior


Universidade Federal de Santa Catarina - UFSC fmjunior@smail.ufsm.br

Antonio Cezar Bornia


Universidade Federal de Santa Catarina - UFSC cezar@inf.ufsc.br

Resumo: O presente artigo discute os mtodos convencionais de avaliao de usabilidade e apresenta uma proposta de avaliao em sites de e-commerce utilizando a Teoria da Resposta ao Item. Foi construdo um questionrio e aplicado em 361 sites, resultando numa escala padronizada para mensurao do grau de usabilidade em sites e e-commerce. Palavra Chave: usabilidade, e-commerce, Teoria da Resposta ao Item.

Abstract: This article discusses the conventional methods for evaluating usability and presents a proposal for evaluation in e-commerce sites using the Item Response Theory. We constructed a questionnaire and implemented in 361 sites, resulting in a standardized scale to measure the degree of usability in e-commerce sites. Keywords: usability, e-commerce, Item Response Theory.

28

1. Introduo A literatura sobre avaliao de desempenho em comrcio eletrnico (e-commerce) business to consumer (B2C) tem destacado a interao do usurio com o website como um ponto chave na deciso de compra e na fidelizao do consumidor (JANDA ET AL, 2002; LONG; McMELLON, 2004; LIM; DUBINSKY, 2004; KIM; STOEL, 2004). Esta interao tida como o primeiro contato do usurio com a empresa de e-commerce, e a qualidade de sua apresentao tem grande impacto no sucesso da mesma. Um elemento significativo de avaliao de desempenho na economia digital a usabilidade dos sites de e-commerce (MORANDINI, 2003). A no ateno a critrios de usabilidade em qualquer site comercial ou uma medio mal conduzida pode significar perda de clientes e/ou alocao indevida de recursos (NIELSEN; LORANGER, 2006).
Tcnica Avaliao Heurstica

Atualmente as medidas de usabilidade em sites de ecommerce vm sendo realizadas de diversas maneiras, utilizando metodologias ou ferramentas que envolvem ou no o usurio (NILSEN; MARCK, 1994; CYBIS, 2007). Estas medidas envolvem caractersticas objetivas e subjetivas, baseadas em critrios recomendados por especialistas ou em opinies de usurios, gerando muitas das vezes falta de sistematizao e de preciso nos resultados (CYBIS, 2007). Para gerar um melhor entendimento das estruturas envolvidas em uma avaliao de usabilidade e para sistematizar os resultados, pode-se fazer uso de escalas de medidas aliceradas em conceitos matemticos e de usabilidade. Deste ponto de vista, a Teoria da Resposta ao Item (TRI) representa uma poderosa ferramenta, uma vez que esta possibilita a criao de escalas a partir de um construto que necessariamente faz uso de conceitos aprofundados

Avaliao Analtica Lista de Verificao (Checklist) Inspees cognitivas

Anlise da Atividade

Descrio Vantagens Desvantagens Anlise de conformidade do sistema - Rapidez de aplicao, - Requer conhecimento e experincias diante de padres de qualidade ou - Baixo custo, do avaliador. heursticas definidas por especialista. - Abrangncia e - So necessrios de trs a cinco - Facilidade de identificao dos avaliadores para um bom resultado. - Subjetiva e pouco sistemtica. problemas No leva em considerao erros ou Decomposio da tarefa para verificar bastante til para comparar incidentes de interao a complexidade ou estimar os tempos alternativas de interface das interaes propostas So inspees a requisitos propostos - Avaliao barata, rpida, sistemtica - Limitada a problemas intermedirios e menores. por padres de qualidade baseadas em e de fcil aplicao. - Depende da qualidade da ferramenta - Outra pessoa no especializada em listas de verificao, guidelines e usabilidade pode aplicar. normas. (cheklist). Confronto entre as lgicas de - Pode ser aplicado j no incio do ciclo - No leva identificao imediata do operao do projetista e de um problema. de desenvolvimento. usurio novato. Modo formalizado de - Permite que analistas, designers e - Requer muito tempo. imaginar os pensamentos e as aes atuem como avaliadores. dos usurios leigos. - Reconhece a forma com que o usurio executa tarefas e realiza a anlise Levantamento sobre a atividade - Os problemas so vistos do ponto de - Requer tempo e pessoas desempenhada pelo usurio, - Pode no ser totalmente imparcial. vista real observando-o em seu ambiente natural - Identifica problemas rotineiros de uso Discusso entre seis a nove usurios, - Promove a participao do usurio. orientadas por um moderador. - Boa fonte de novas idias e/ou sugestes Usurios e projetistas discutem juntos - Fornece idias para o projeto atravs a interface. de sugestes dos usurios. - Promove a participao do usurio. -Experincia educacional rica. - Abrangncia Simulao de situaes de uso - Verificao de situaes reais de uso objetivando constatar problemas medir seus impactos e identificar suas causas. - Requer tempo e pessoas - Subjetividade - Requer tempo e pessoas - Subjetividade

Grupo Focal

Avaliao Cooperativa

Teste de usabilidade

- Alto custo - Requer tempo e pessoas - Pode no ser totalmente imparcial.

Quadro 1: Descrio, vantagens e desvantagens de algumas tcnicas de avaliao de ergonomia de interface e usabilidade. 29

de usabilidade. O objetivo deste artigo apresentar uma nova abordagem para avaliao de usabilidade em sites de e-commerce a Teoria da Resposta ao Item. Para isso apresentada uma explanao geral sobre medidas de usabilidade, e sobre a TRI e por fim apresentada uma aplicao da TRI na confeco de uma escala de medida do grau de usabilidade em sites de e-commerce.

medir habilidades, atitudes, interesses, desempenho, maturidade, conhecimentos ou proficincia de indivduos ou sistemas por meio de um questionrio e da construo de uma escala na qual, o trao latente do respondente e a dificuldade de um item podem ser comparados (HAMBLETON, 2000). A escolha do modelo mais adequado depende, sobretudo do que se deseja medir e da natureza dos dados disponveis. Um dos modelos matemticos da TRI o modelo logstico de 2 parmetros (ML2P). que comumente utilizado para modelar construtos cumulativos com variveis dicotmicas. Este modelo pressupe a relao montona entre o valor da varivel latente () e a sua probabilidade de escolha entre duas alternativas segundo uma funo de distribuio logstica parametrizada por coeficientes que representam as caractersticas do item:

2. Avaliao de Usabilidade O conceito de usabilidade considera a eficcia, a eficincia e a satisfao com que determinados usurios conseguem atingir objetivos especficos em determinadas circunstncias (ISO 9241-11, 1998). Sendo assim, verifica-se a existncia de trs caractersticas fins, que podem determinar a avaliao de um sistema ou de uma interao, diretamente relacionada: a tarefa a ser realizada, ao ambiente, ao equipamento e ao usurio. Desta forma, a maioria das tcnicas de avaliao de usabilidade existente na literatura leva necessariamente em considerao estas caractersticas e suas relaes. Adotando, evidentemente, os mais diversos pontos de vista e em alguns casos evidenciando alguma destas caractersticas e/ou fixando outras. Os diversos mtodos de avaliao de usabilidade existentes podem ser divididos entre os que so realizados sem a participao de usurios e com a participao de usurios. O quadro 1 resume algumas das tcnicas utilizadas para avaliao de ergonomia de interface e usabilidade, com suas vantagens e desvantagens. Observa-se que a maioria das tcnicas possui como desvantagem a subjetividade e a necessidade de vrios recursos. Por outro lado, a Teoria da Resposta ao Item possui a vantagem de reduzir a subjetividade das medidas uma vez que cria uma escala padronizada. Esta escala permite identificar tanto o desempenho da interface, ou site analisado como as caractersticas que agregam mais usabilidade e as que so mais bsicas.

Pi ( j ) = P(U ij = 1 / j ) =

1 1+ e
ai ( j bi )

Onde, bi representa a dificuldade do item i em uma determinada escala e representa o valor da varivel latente , para o qual h 0,5 de probabilidade do indivduo j escolher a resposta representada por U =1. O coeficiente ai o parmetro de discriminao do item i, proporcional inclinao da Curva Caracterstica do Item CCI no ponto bi. A TRI cria uma escala, relacionada ao trao latente, com mdia zero e desvio padro um, onde so estimados os parmetros do itens. Durante estas estimaes, so geradas as curvas caractersticas dos itens (CCI), nas quais pode-se visualizar a probabilidade de acerto do item (Pi(j)) em funo da habilidade do respondente (). A figura 1 exemplifica CCI de dois itens hipotticos.
1,00 0,90 0,80 0,70 Pi() 0,60 0,50 0,40 0,30 0,20 0,10 0,00 -3 -2 -1
bB
Item A Item B

0 ()

bA

3. Teoria da Resposta ao Item A Teoria da Resposta ao Item (TRI) um conjunto de modelos matemticos e estatsticos que procura

Figura 1: Curva Caracterstica do Item (CCI)

Observa-se que o eixo y representa os valores da funo de probabilidade (Pi()) que varia de zero a
30

um. No eixo x, tem-se a escala de habilidade () gerada pela TRI. Nesta escala, so posicionados os itens e os respondentes. Assim, possvel comparar os desempenhos dos respondentes e a qualidade dos itens verticalmente e longitudinalmente. Pode-se visualizar, na figura 1, a representao grfica dos parmetros. Nota-se que o parmetro de dificuldade (b) de um item representa a posio na escala onde a probabilidade de acerto de 0,5. Sendo assim, o item A tem um b = 0,5 e o item B tem um b = -0,5 na escala gerada. Portanto, o item A possui um grau de exigncia maior que o item B, ou seja, para um indivduo com habilidade () igual a -0,5 tem 50% de probabilidade de acertar o item B e 4% de probabilidade de acertar o item A. O parmetro de discriminao (a) de um item, segundo Andrade et al. (2000), proporcional derivada da tangente da curva no ponto de inflexo, ou seja no ponto b. Verifica-se que o item A em um inclinao maior que o item B , portanto um maior poder de discriminao. Os primeiros estudos sobre a TRI iniciaram-se na
Item

dcada de 1950 com Lord (1952). Entretanto, um ponto crtico na utilizao da TRI a estimao dos parmetros, que necessita de um grande esforo computacional (ANDRADE ET AL., 2000), o que dificultou a popularizao da TRI naquela poca, sendo retomada recentemente em paralelo aos avanos na rea computacional. No Brasil a TRI foi aplicada pela primeira vez em 1995 na rea educacional na anlise dos resultados do Sistema Nacional de Ensino Bsico (SAEB) e no Sistema de Avaliao de Rendimento Escolar do Estado de So Paulo (SARESP) (ANDRADE ET AL., 2000). 4. Aplicao da TRI na IHC Para a elaborao de um instrumento utilizando a TRI, necessrio primeiramente definir qual o trao latente de interesse, ou seja, necessrio ter um conhecimento prvio do que se deseja medir. A TRI faz a anlise dos itens e, a partir da, constri a escala padronizada. A elaborao dos itens deve contar com um conhecimento a priori do assunto e seguir tcnicas de elaborao de itens (PASQUALI,
Item

Descrio
Homepage deixa claro o que o site faz (demonstra os principais produtos e/ou uma breve descrio de seu objetivo e/ou benefcios que oferec e), sem precisar usar a rolagem? As palavras clicveis (coloridas ou sublinhadas) apresentam uma forma diferenciada quando so selecionadas? As opes principais do site es to visveis? Ou seja no h necessidade de passar o mouse sobre uma rea grfica para ver op es ocultas. A disposio dos objetos de interao de uma caixa de dilogo segue uma ordem lgica? Os rtulos de campos comeam com uma letra maiscula, e as letras restantes so mins culas? O site possui opo de acesso com outras lnguas? Os ttulos esto alinhados a esquerda? Os pargrafos de texto s o separados ? As palavras aparentemente clic veis so de fato clicveis ? Os ttulos de telas, janelas e caixas de dilogo esto no alto, centrados ou jus tificados esquerda? Todas as pginas possuem um campo de busca? Os resultados de busca permitem classifica o por outros critrios alem de custo? Listas longas apresentam indic adores de continuao, de quantidade de itens e de pginas? O preo de um produto cons ta ao lado da imagem ou do link do produto? Existe uma orienta o ao usurio quanto ao restante do site?

Parmetro a b
0,756 -1,55

Descrio
possvel ampliar as fotos dos produtos para visualizar detalhes ? Em produtos em que existam mais de uma perspectiva, possvel visualizar todas as perspectivas? Os grupos de botes de comando esto dispos tos em coluna e direita, ou em linha e abaixo dos objetos aos quais esto associados? Quando h rolagem, no existe elementos de des ign (na tela inicial) que paream com marcadores de final de pgina?

Parmetro a b

17 0,979 -1,35 18 0,812 -2,97 19 0,854 -0,85 20 0,869 0,79 0,972 0,891 1,075 -1,46 21 4,65 -2,42 -3,03 0,16 22 23 24 25

0,9 31

-0,98

0,9 72

1,81

0,9 09

-2,90

0,9 38

-3,24

5 6 7 8 9

Todos os campos e mostradores de dados possuem rtulos identificativos ? 0,9 06 O boto de finalizao de compra est no final da lista? 0,7 52 possvel saber os custos totais antes de fazer cadastro? 0,7 92 No preenchimento de um formulrio, informado a 1,0 43 forma de preenchimento? Os dados obrigatrios so diferenciados dos dados opcionais de forma visualmente clara? 0,86 As mensagens de erro esto isentas de abreviaturas e/ ou cdigos gerados pelo sistema operacional? 1,0 73 Todas as pginas pos suem os mesmos layouts e exibem ao usurio as mesmas caractersticas? 1,3 37 O logotipo da empresa est no canto superior 1,53 esquerdo em todas as pginas do site? Existe um link de um nico clique que conduz a homepage? 1,1 78 Qualquer ao do usurio pode ser revertida atravs 1,35 da opo DESFAZER? O site permite navegao em suas pginas em apenas uma janela? 1,0 56 Os links j visitados mudam de cor? 0,7 16

-2,40 -4,49 -2,21 -0,55 -1,04

10 11 12 13 14 15 16

1,376 0,755 1,204 0,791 1,120 1,000

-2,55 26 -2,70 0,46 -0,28 -2,63 0,17 -2,11 27 28 29 30 31 32

-2,88 -1,58 -1,74 -2,19 -1,24 -1,74 4,29

A maioria dos produtos poss ui informaes sobre eles? 1,022

31

2003; WILSON, 2005). Geralmente a elaborao dos itens realizada por especialistas ou extrada de literatura especfica. Na presente aplicao, a elaborao dos itens foi embasada em referncias especficas de usabilidade. Foram elaborados inicialmente 73 itens, todos com resposta dicotmica, do tipo possui ou no possui a caracterstica em questo. A aplicao do conjunto de itens aos sites foi realizada pelos autores. Para verificar a operacionalidade do conjunto bem como seu alinhamento com os pr-requisitos da TRI (unidimensionalidade, interdependncia, clareza e objetividade), foi realizado um pr-teste, com cerca de 20 sites, quando foram eliminados 29 itens. Aps este refinamento, os 44 itens restantes foram aplicados em 361 sites de e-commerce de origem brasileira. O tratamento dos dados foi feito no software BILOG-MG produzido pela Scientific Software, Inc, Mislevy, R. J. e Bock, R. D, (1990). Atravs deste tratamento foi possvel identificar os itens que apresentaram pouca informao para o conjunto, isto pde ser verificado atravs do parmetro de dificuldade do item. Desta forma, foram identificados 12 itens com baixa informao e que, portanto, no estavam medindo exclusivamente o grau de usabilidade dos sites. Os itens restantes com os seus parmetros estimados podem ser visualizados do quadro 2. importante ressaltar que os valores referentes ao grau de dificuldade so referenciados a uma escala baseada na mtrica (0,1), ou seja, mdia 0 (zero) e desvio-padro 1 (um). Sendo assim, os valores, no possuem um significado prtico em termos de usabilidade. Entretanto, possuem a capacidade de comparabilidade entre os itens e em relao a escala de usabilidade. O parmetro grau de dificuldade (b) no avalia a qualidade de um item, ele apenas indica qual a regio, na escala proposta, em que o item possui maior informao. J o grau de discriminao de um item (a) determina a qualidade do item, ou seja, quanto maior o valor de a maior o grau de discriminao na regio de maior informao (b), consequentemente melhor o item. A figura 2 ilustra a Curva Caracterstica do Item 30, que possui parmetro de dificuldade -1,24 e parmetro de discriminao igual a 1,35.

Curva Caracterstica do Item: Item30


1,00 0,90 0,80 0,70 0,60 Pi( ) 0,50 0,40 0,30 0,20 0,10 0,00 -3 -2 -1 0 Grau de Usabilidade () 1 2 3

Figura 2: Curva Caracterstica do Item 30

A CCI apresentada na figura 2, juntamente com seus parmetros indica que um site com grau de usabilidade de -1,24 tem 50% de probabilidade de apresentar esta caracterstica (qualquer ao do usurio pode ser revertida atravs da opo desfazer). J um site com grau de usabilidade maior que 1,00 possui praticamente 100% de probabilidade de possuir esta caracterstica. Considerando que a escala gerada possui uma mdia igual a zero e um desvio padro igual a um, este item pode ser considerado fcil. J o item 32, que possui parmetro de discriminao igual a 4,29 considerado mais difcil, ou seja, a maioria dos sites no modifica a cor dos links j visitado. Este tipo de concluso pode ser estendido a todos os itens e uma vez que um site responde a este conjunto de itens seu grau de usabilidade pode ser estimado nesta escala tambm, permitindo, assim, a comparabilidade entre sites e a identificao das caractersticas mais relevantes. Outra informao importante verificada neste estudo foi a convergncia dos resultados estatsticos da TRI com os conceitos de usabilidade. Itens com baixo parmetro de dificuldade, ou seja, mais bsico, como os itens 3, 8, 10, 19, 20 esto diretamente relacionados com o design da pgina, ligados exigncia de memorizao, legibilidade, padres da web e modelos mentais. Estas caractersticas tendem a dificultar a interao do usurio com a pgina, entretanto, dificilmente o impediro de realizar sua atividade. Todavia, itens com parmetro de dificuldade mais alto como, por exemplo, os itens 9, 12, 15 e 18 esto relacionados com a navegabilidade do site, o que pode prejudicar significativamente a interao do usurio com o site. A figura 3 apresenta a distribuio dos sites analisados, na escala gerada.

32

Di strubu io do Grau de Usabi li d ade dos Si tes Anali sado s

4. Referncias Bibliogrficas ANDRADE, D. F.; TAVARES, H. R. e VALLE, R. C. Teoria de Resposta ao Item: conceitos e aplicaes. ABE Associao Brasileira de Estatstica, 4 SINAPE, 2000. CYBIS, W. Ergonomia e Usabilidade : conhecimentos, mtodos e aplicaes / Walter Cybis, Adriana Holtz Betiol, Richard Faust. So Paulo : Novatec Editora, 2007. HAMBLETON, R. K. Emergence of Item Response Modeling in Instrument Development and Data Analysis. Medical Care v.38 n9 (Supplement II); p. 60-65, 2000. ISO 9241. Ergonomic requirements for office work with visual display terminals (VDTs). Part 11 Guidance on usability; Draft International Standard ISO, 1998. JANDA, S., TROCCHIA, P.J. GWINNER, K. Consumer perceptions of internet retail service quality, International Journal of Service Industry Management, v. 13 n. 5, p. 412-431, 2002. KIM, S. STOEL, L. Dimensional hierarchy of retail website quality, Information & Management, v. 41 n. 5, p. 619-633, 2004. LIM, H. DUBINSKY, A.J. Consumers perception of e-shopping characteristics: an expectancy-value approach, Journal of Services Marketing, v. 18 n.7, p. 500-513, 2004. LONG, M. McMELLON, C. Exploring the determinants of retail service quality on the internet, Journal of Services Marketing, v. 18 n. 1, p. 78-90, 2004. LORD, F. M. A theory of test scores. Psychometric Monograph No. 7, Psychometric Society, 1952. MISLEVY, D. J., BOCK, R. D. BILOG: Item analysis and test scoring with binary logistic models [Computer program]. Chicago: Scientific Software, 1990 MORANDINI, M. Ergo-Monitor: Monitoramento da Usabilidade em Ambiente Web por meio da Anlise de Arquivos de Log Tese Doutorado, Programa de Ps-Graduao em Engenharia de Produo, UFSC, Florianpolis, SC, 2007. NIELSEN, J.; LORANGER, H. Prioritizing Web Usability. California : New Riders, California, 2006.

60

50

40
Fr eq ue ncia

30

20

10

0 -3

-2

-1

0 Grau de Usabilidade

Figura 3: Distribuio do grau de usabilidade dos sites analisados

Observa-se que, embora a maioria dos itens apresentados possuam grau de dificuldade negativo na escala (ver quadro 2), a maioria dos sites analisados ficou em torno de zero. Com isto constata-se a independncia da analise com a amostra, ou seja, na TRI, o parmetro de dificuldade do item independente de quem est respondendo o item, um ponto positivo em termos de confiabilidade e robustez do modelo gerado. 5. Consideraes Finais A Teoria da Resposta ao Item vem sendo amplamente utilizada nas reas educacional e psicolgica, sobretudo em pases desenvolvidos. O presente artigo demonstra a viabilidade de sua utilizao na avaliao de usabilidade. Uma vez que se trata de uma ferramenta estatstica para criao de escalas padronizadas, com esta foi possvel criar uma escala padronizada para medir o grau de usabilidade em sites de e-commerce. Isso possibilitou: (a) quantificar a relevncia de cada aspecto de usabilidade avaliado, (b) identificar quais empresas possuem maior grau de usabilidade em relao s concorrentes, (c) identificar quais aspectos a empresa necessita desenvolver para melhorar sua usabilidade e (d) identificar claramente as limitaes do instrumento, principalmente no que diz respeito a sua rea de preciso. As maiores desvantagens da TRI so a sua complexidade e a necessidade de amostras grandes, entretanto, suas vantagens compensam o esforo, uma vez que conferem confiabilidade, objetividade e robustez ao resultado obtido, caractersticas pouco verificadas nos mtodos convencionais de avaliao de usabilidade.

33

NIELSEN, J.; MARCK, Robert. Usability Inspection Methods. New York: John Wiley & Sons, 1994. PASQUALI, L. Psicometria: teoria dos testes na psicologia e na educao. Petrpolis, RJ: Vozes, 2003. TEZZA, R. Proposta de um construto para medir usabilidade em site de e-commerce utilizando a Teoria da Resposta ao Item. Dissertao de Mestrado - Programa de Ps-Graduao em Engenharia de Produo, UFSC, Florianpolis, 2009. WILSON, M. Constructiong Measures: An Item Response Modeling Approach, Lawrence Erlbaum Associates, Publishers Mahwah, New Jersey, London, 2005

34