Você está na página 1de 10

Universidade Federal de So Carlos

Universidade de So Paulo
Relatrio 2 de Tpicos de Pesquisa 1:
O modelo CUB e uma aplicao na Indstria
alimentcia
Aluno: Srgio Mendes
Orientador: Prof. Dr. Carlos Alberto Ribeiro Diniz
Junho de 2014
1 Introduo
Desde o ano de 2003, um grupo de pesquisadores italianos, liderados pelo Prof. Dome-
nico Piccolo, publicam artigos relacionados utilizao de modelos mistos para a anlise
de dados ordenados (ranking).
Dados de rankings so encontrados em vrias situaes: em particular, eles so muito
utilizados para expressar a preferncia/avaliao de um grupo a respeito de um ou mais
itens/servios. Nestas situaes, vrios modelos probabilsticos e ferramentas estatsticas
vem sendo propostos e desenvolvidos para descrever o processo de ordenao ou anlise
destes dados.
Em um artigo de 2005, pela primeira vez, DElia e Piccolo utilizaram o MUB (Mix-
ture of Uniform and Binomial), que uma mistura das distribuies uniforme discreta
e binomial truncada, para anlise de dados de preferncia (este foi o objeto da nossa 1
a
apresentao na disciplina de Tpicos de Pesquisa 1). Neste artigo, os autores mencionam
a tima qualidade alcanada no ajuste do modelo a dados reais.
A partir de 2003, DElia apresenta em seus artigos modelos mistos com a incluso
de covariveis (como por exemplo, sexo, idade, prosso, etc); e a partir de 2009 estes
passam a ser denominados por CUB (Covariates in the mixture of Uniform and shifted
Binomial distributions), em artigos da prpria autora e de outros membros do grupo de
pesquisa italiano.
Neste contexto, nossa proposta neste relatrio apresentar o modelo CUB e vericar
seu desempenho em uma aplicao recente na indstria de alimentos. Piccolo et al 2011
analisam as preferncias dos entrevistados quanto as diversas variedades de Caf Italiano.
Para tanto as covariveis avaliadas foram trs dos cinco sentidos humanos: viso, olfato
e paladar.
2 Os modelos MUB e CUB
Seja r a posio (rank) dada por um avaliador a um certo item dentre m. Seguindo um
critrio de comparao emparelhada, DElia (2000) prope considerar r como a realizao
de uma varivel aleatria binomial deslocada R SB(, m), com funo de probabilidade:
P(R = r) =
_
_
m1
r 1
_
_
(1 )
r1

mr
, r = 1, 2, ..., m (1)
1
e mdia e varincia:
E(R) = + m(1 ), V ar(R) = (m1)(1 ). (2)
Assumindo que R = 1 signica mais preferido, e R = m signica menos preferido,
fcil mostrar que o parmetro [0, 1] cresce com a preferncia pelo item. Alm
disso, a V ar(R) mxima quando =
1
2
, quando h maior incerteza em classicar o
item. Nota-se que a incerteza assume um papel de grande importncia no processo de
eleio, especialmente quando os jurados classicam itens para os quais estes no tem
fortes sentimentos de preferncia.
Uma caracterstica importante da varivel aleatria SB que esta permite a presena
de um modo intermedirio, isso resulta numa boa ferramenta para representar resultados
de dados empricos de preferncia.
Por outro lado, se considerarmos a ocasio em que h uma espcie de indiferena
ou sentimento de equipreferncia para um determinado item, ento pode ser apropriado
modelar posies (ranks) por meio de uma distribuio discreta e uniforme: U Ud(m),
com funo de probabilidade: P(U = r) =
1
m
, r = 1, 2, ..., m.
Isso signica assumir que um item tem igual probabilidade de receber qualquer posio
(rank) r [1, m]. claro que isso acontece se houver total incerteza com relao a
preferncia por um item.
Assumimos que a posio (rank) dada a um certo item pode ser considerada como a re-
alizao de uma mistura das distribuies uniformes e binomial truncada, sem covariveis
(MUB) ou com covariveis (CUB).
P(R = r) = p
B
(r) + (1 )p
U
(r), r = 1, 2, ..., m. (3)
em que p
B
(r) e p
U
(r) representam a funo de probabilidade das variveis aleatrias
SB e Ud, respectivamente.
Logo, denimos R MUB(m, , ) ou R CUB(m, , ) se:
P(R = r) =
_
_
m1
r 1
_
_
(1 )
r1

mr
+ (1 )
1
m
, r = 1, 2, ..., m. (4)
2
Os dois componentes da nossa distribuio tem pesos que dependem de e (1 ),
respectivamente, com [0, 1].
Em particular, temos os seguintes casos:
0: ento, R tende a se comportar como uma distribuio uniforme, e a posio
(rank) dada a um determinado item depende apenas do nmero m de itens. Este
o caso de incerteza total, ou sentimento de "equipreferncia";
1: ento, R tende a se comportar como uma distribuio binomial deslocada e
suas caractersticas dependem apenas do parmetro . Este caso anlogo quele
em que as ordens de preferncias surgem de critrios de comparao emparelhada;
(0, 1): ento, (1) mede como a incerteza afeta o mecanismo de ordenamento
(elicitao) e, como consequncia, o ranking.
Sejam
B
e
U
os valores mdios dos dois componentes da mistura, o valor mdio da
distribuio MUB ou CUB :
E(R) =
B
+ (1 )
U
= (m1)
_
1
2

_
+
m + 1
2
(5)
o que se reduz a E(R) = m + 1/2 quando =
1
2
(distribuio simtrica).
No que diz respeito a varincia do mistura, temos:
V ar(R) =
2
B
+ (1 )
2
U
+ (1 )(
B

U
)
2
= (m1)
_
(1 ) + (1 )
m + 1
12
+ (1 )
(m1)(2 1)
2
4
_
(6)
que se reduz a V ar(R) = (m1) [/4 + (1 )(m + 1)/12], para =
1
2
.
As principais caractersticas da distribuio MUB ou CUB so:
a presena de compartilhamento de incerteza, medido por (1 )/m, torna as ex-
tremidades das distribuies mais acentuadas;
quando =
1
2
, a distribuio MUB ou CUB tem uma forma simtrica, sendo uma
combinao linear convexa de duas distribuies simtricas; o sinal de assimetria
depende de
_

1
2
_
;
3
o modelo MUB ou CUB reversvel: isto , se R CUB(m, , ) ento (mR+1)
CUB(m, , 1 ).
3 Aplicao
A aplicao escolhida refere-se a um estudo de caso resultante de uma anlise sensorial
de diversos tipos de Caf Italiano. Levou-se em considerao a anlise de trs atributos
principais:
Visual: levou-se em conta a cor (intensidades entre claro e escuro), a textura do caf
(intensidades entre no e denso) e a consistncia do creme (encorpado ou no);
Olfativa: levou-se em conta a intensidade do cheiro (agradvel e intenso) e o aroma
(chocolate, oral, etc);
Gustativa: levou-se em conta o sabor (doce, cido, etc) e o gosto (permanncia).
A pesquisa foi produzida e os dados foram analisados pelo CSA - Centro de Estudos
Assaggiatori - sediado em Brscia, importante cidade italiana.
As informaes pertinentes a pesquisa foram as seguintes:
Foram analisados 43 diferentes tipos de caf;
Para cada variedade de caf foram selecionadas no mnimo 1 e no mximo 421
pessoas entre 1650;
Todas as pessoas selecionadas emitiram suas opinies a respeito dos atributos prin-
cipais;
Foi utilizada a escala de Likerty (a mais utilizada em pesquisas de opinio), com-
posta neste caso por 9 itens, que vo desde no concordo totalmente at concordo
totalmente;
Removeu-se as variedades de caf avaliadas por menos de 60 pessoas;
A anlise dos dados se deu com 36 variedades de caf com um contigente total de
7604 julgamentos em relao aos atributos principais;
4
Cada uma das 1650 pessoas experimentou no mnimo 1 e no mximo 11 variedades
de caf;
Mais de 78% das pessoas experimentaram exatamente 5 variedades de caf;
O modelo CUB foi ajustado para cada uma das 36 variedades de caf em relao
aos 3 atributos (visual, olfativo e gustativo).
5
A gura 1 nos traz as seguintes informaes:
Os box plot referentes a cada um dos atributos, dentro dos limites explicados pelo
modelo CUB, seguem uma certa simetria em relao ao valor mdio;
Os grcos de probabilidade estimada versus frequncia relativa observada, com a
varivel aleatria R variando de 1 at m, mostram que o ajuste do modelo CUB
explicam entre 85% e 97% dos dados.
F
2
dado por: 1
1
2

m
r=1
|f
r
p
r
_

_
|, e normaliza a medida que compara a proba-
bilidade estimada e a frequncia relativa observada. Portanto, pode ser interpretado
como a proporo que o ajuste do modelo CUB explica dos dados analisados. Neste
caso, o valor varia entre 85% e 97%.
6
A gura 2 nos traz as seguintes informaes:
Grcos da incerteza versus satisfao para cada um dos atributos avaliados, dentre
os 36 tipos de caf;
Em geral se percebe uma variao maior no quesito satisfao quando o atributo
avaliado o paladar; e uma homogeneidade maior quando o queisto avaliado o
visual;
Grco global (overall) dos trs atributos agrupados, tendo-se incerteza versus sa-
tisfao para cada um dos 36 tipos de caf.
7
A gura 3 nos traz as seguintes informaes:
Grcos individuais para cada tipo de caf (dentre os 36 avaliados), onde consta o
modelo estimado para os trs atributos (visual, olfativo e gustativo);
A percepo gustativa, em geral, apresenta maior incerteza;
Observa-se, cruzando-se os grcos da percepo gustativa da gura 2 com os gr-
cos individuais da gura 3, que os tipos de caf 34 e 35 so os que apresentam maior
incerteza (V, G e O mais a direita no eixo x) em sua avaliao.
4 Desenvolvimentos futuros
Modelos CUB tem sido aplicados com sucesso em vrios campos do conhecimento:
lingustica, anlise de risco, marketing, avaliao de professores, medicina, sociologia,
turismo, anlise quantitativa, etc.
A proposta inicial utilizar os conhecimentos adquiridos no estudo dos modelos MUB
e CUB para avaliar diferentes combinaes coerentes de distribuies. Para tanto, atribui-
remos s duas componentes da mistura, a preferncia (gostar/no gostar) e a incerteza do
processo de escolha, outras distribuies discretas (Binomial Negativa, Poisson, Poisson
Generalizada, etc.).
A proposta se resume em construo dos novos modelos, estimao, interpretaes,
diagnsticos, simulaes e aplicaes.
5 Concluso
Evidncias empricas de diferentes conjuntos de dados (aqui foi apresentado somente
um deles) conrmam o timo ajuste do modelo CUB dados reais.
Referncias
[1] DElia, A., Piccolo, D. (2005). A mixture model for preference data analysis, Com-
putational Statistic & Data Analysis, 49, 917-934.
8
[2] Piccolo, D. (2006). Observed information matrix for MUB models, Quaderni di Sta-
tistica, 8, 33-78.
[3] Manisera, M., A., Piccolo, D., Zuccolotto, P. (2011). Analyzing and modelling rating
data for sensory analysis in food industry, Quaderni di Statistica, 13, 69-82.
9

Você também pode gostar