14TLA12 22YukioMano

IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO.
12, DECEMBER 2016 4775
Identifying Emotions in Speech Patterns: Adopted

Approach and Obtained Results
L. Y. Mano, E. Vasconcelos and J. Ueyama
Abstract— There are an increasing number of studies in the Reações Fisiológicas e Expressões Motoras [8]; e trazem à
area of Human-Computer Interaction which bear witness to the tona a discussão sobre o que as emoções são e o que precisa
importance of taking note of the emotional factors involved when ser estudado quando se quer determinar o seu significado [8].
interacting with computing systems. Once the emotions of the users De maneira mais específica, a utilização da fala dos usuários
are known, it is possible for artificial agents to influence these
feelings with a view to interacting with them and stimulating their para identificar as emoções permite que tal informação possa
routine or specific activities on a day-to-day basis. However, ser obtida sem uma ação explícita do usuário e sem o uso de
providing computing systems with the capacity to recognize and equipamentos específicos ou intrusivos. Além disso, no
interpret the emotion of their users, is one of the great challenges in âmbito tecnológico, é comum que equipamentos
the area of Human-Computer Interaction. For this reason, this computacionais (por exemplo, tablets, desktops, notebooks e
article adopts an approach based on the Ensemble of Classification smartphones) possuam microfones, o que permite uma
which is concerned with identifying and classifying emotions on the
basis of the motor expression of the users (in this case the voice). interação em tempo real.
When this procedure is compared with the classical approaches Devido à natureza do problema de identificar emoções,
adopted in the literature, the results show that, as well as achieving técnicas de Aprendizado de Máquina (AM) têm sido
a high degree of accuracy, the proposed model maintains a good amplamente investigadas nesse contexto [1, 2, 6, 9, 10, 11], as
level of consistency when identifying the emotions of the users. quais são tratadas como um problema de classificação
Keywords— Human-Computer Interaction (HCI), Emotion
comumente supervisionado. No entanto, parte dos estudos
Classification, Ensemble of Classification, Voice. encontrados na literatura descrevem o uso de classificadores
isolados para resolver esse problema [1, 2, 9], apesar de
I. INTRODUÇÃO alguns trabalhos abordarem, com resultados promissores, a
utilização do conceito de Comitê de Classificação, do inglês
E MOÇÃO é uma característica fundamental do ser humano
que lhe permite desfrutar de experiências e o influenciar
em suas decisões diárias. Esse aspecto é importante na
Ensemble of Classification (EC) para classificar emoções [6,
10, 11]. Adicionalmente, a utilização de ECs relata bons
resultados em outras áreas, como em reconhecimento de
interação entre as pessoas [1] e pode ser utilizado para intervir
padrões [13], classificação de caracteres [12] ou na
na realização de uma tarefa, ou até mesmo para tomar
identificação de problemas pulmonares [26] ou mesmo de
decisões em prol do usuário; por exemplo, sugerir um gênero
câncer, na área médica [27].
de filme para aliviar o estresse com base na sua atual emoção
Com o intuito de avançar no estado da arte, este artigo
[2]. As características emocionais têm sido estudadas há muito
propõe um modelo capaz de identificar e classificar as
tempo na área da psicologia [3]. Convém salientar, no entanto,
emoções dos usuários baseado em suas Expressões Motoras,
que somente nos últimos anos houve um aumento significativo
mais especificamente em sua fala (voz). O modelo proposto é
de pesquisas sobre o tema na área de Computação Afetiva [1,
baseado em features Mel Frequency Cepstral Coefficient
4, 5, 6]. Uma das divisões básicas da Computação Afetiva é a
(MFCC) e em Log Energy (logaritmo da energia do sinal),
Interação Humano-Computador (IHC) [7], a qual estuda como
para interpretar a fala do usuário, bem como em um EC, para
os dispositivos computacionais podem reconhecer, modelar e
classificar as emoções. Assim, é possível realizar uma análise
responder às emoções humanas e, dessa forma, como podem
da fala a fim de aplicar a computação afetiva. Para validar o
expressá-las mediante uma interface/interação computacional
nosso modelo, realizou-se uma análise comparativa com
[2]. Assim, sistemas capazes de reconhecer as emoções do
abordagens clássicas da literatura e os nossos resultados
usuário, interpretando-as e reagindo de modo inteligente e
mostraram ser promissores. O nosso modelo possui três
sensível, poderiam atender mais adequadamente aos requisitos
contribuições chaves: (i) debater e encorajar estudos sobre a
de interação dos indivíduos.
identificação de emoções, bem como a interação dos usuários
Emoções são complexas, difíceis de identificar e de
por dispositivos computacionais de maneira não intrusiva; (ii)
mensurar. Estão ligadas à reação de vários componentes, que
abordar o estudo da fala para a atribuição de emoção; e (iii)
podem ser sintetizados em: Avaliações Cognitivas,
avaliar a abordagem baseada em ECs para a classificação de
Sentimentos Subjetivos, Tendências Comportamentais,
emoções de indivíduos.
Este artigo está organizado da seguinte forma: a Seção II
L. Y. Mano, Universidade de São Paulo (USP), São Carlos, São Paulo,
Brasil, leandroyukiomano@usp.br aborda conceitos prévios importantes para o entendimento do
E. Vasconcelos, Universidade de São Paulo, São Paulo, São Paulo, Brasil, uso da fala para o artigo proposto. Na Seção III, destacamos
eduardovasconcelos@usp.br os trabalhos relacionados ao contexto deste artigo. Após essa
J. Ueyama, Universidade de São Paulo, São Paulo, São Paulo, Brasil,
joueyama@icmc.usp.br troca de opiniões, na Seção IV, descrevemos como é realizada
a interpretação da fala e ,na Seção V, propomos a utilização
4776 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 12, DECEMBER 2016
do módulo de classificação da emoção baseada na fala do

usuário com a utilização de algoritmos de AM. Já, na Seção
VI, abordamos como os dados referentes ao comportamento
dos módulos de classificação foram coletados e apresentamos
os resultados obtidos. Por fim, na Seção VII, descrevemos as Figura 1. Representação dos componentes de frequência da fala.
conclusões e alguns trabalhos que poderão ser desenvolvidos
futuramente. III. TRABALHOS RELACIONADOS
II. CONHECIMENTO PRÉVIO SOBRE EMOÇÕES Pesquisas na área de AM têm gerado uma ampla
quantidade de métodos capazes de extrair padrões a partir de
A emoção é uma reação complexa que envolve todo o exemplos passados e utilizados para tomar decisões em
organismo do indivíduo e tem uma relação direta com as suas situações novas (ainda não conhecidas) [2, 6, 11]. As técnicas
necessidades, metas, valores e bem-estar em geral. Nesse utilizadas para problemas de classificação estão sendo
sentido, a fim de determinar o significado das emoções, aplicadas cada vez mais na análise de respostas emocionais [6,
diferentes componentes são estudados em pesquisas sobre o 11].
tema [8, 14]. Mahlke et al. (2008) destacam que uma Um exemplo disso é a utilização de sensores fisiológicos
abordagem baseada em componentes oferece uma maneira para a detecção e a classificação das emoções por meio das
mais abrangente de entender os diferentes aspectos das Reações Fisiológicas do usuário. Peter e Urban (2012)
emoções em todas as situações. Assim, diferentes aspectos apresentam uma abordagem geral de reconhecimento de
podem ser utilizados para a análise emocional sem, no emoções utilizando tais sensores. Nessa abordagem, os autores
entanto, desconsiderar a relação entre os diferentes desenvolveram um sistema que coleta dados de alguns tipos
componentes. Assim, a Teoria Componencial das Emoções [8] de sensores: atividade eletrodérmica, temperatura do ar e
entende as emoções como níveis variáveis de mudanças inter- variabilidade da frequência cardíaca. Da mesma forma, Zhou
relacionadas entre um conjunto de cinco componentes, et al. (2011) têm como objetivo prever diferentes estados
detalhados a seguir: emocionais do usuário por meio de sinais fisiológicos. Um
(i) Avaliação Cognitiva: é ligada à interpretação de uma experimento foi desenvolvido para provocar respostas
situação. O indivíduo avalia constantemente o mundo ao seu emocionais com fotos de emoções padronizadas quando
redor e procura perceber as qualidades afetivas de eventos, alguns sinais fisiológicos foram medidos. Três algoritmos de
objetos e recursos; classificação – Regras de Decisão, k-Nearest Neighbors
(ii) Experiência Subjetiva: é responsável pela avaliação de (kNN) e Árvore de Decomposição – foram aplicados para a
um episódio emocional, ou seja, da experiência consciente que construção de modelos de previsão das características
se relaciona com a capacidade do indivíduo de regular as fisiológicas extraídas.
emoções; A pesquisa de Bailenson et al. (2008) propõe um modelo
(iii) Tendências Comportamentais: preparam e orientam o baseado em algoritmos de classificação – Regressão Linear e
indivíduo para (ou durante) uma determinada ação, como, por Rede Neural Artificial – para a análise de emoções em tempo
exemplo, o tempo necessário para completar uma tarefa, o real baseando-se em Expressões Motoras e Reações
número de erros cometidos, entre outros aspectos; Fisiológicas. Um dos sensores faz o reconhecimento facial e o
(iv) Reações Fisiológicas: são aspectos emocionais que outro a análise da variabilidade da frequência cardíaca e da
permitem revelar espontaneamente e inconscientemente as atividade eletrodérmica do usuário. Cinco especialistas
emoções que controlam as funções do corpo, tais como: analisaram os vídeos com o objetivo de definir as classes
respiração, digestão, circulação, entre outros, e; (saídas) para os algoritmos de classificação, por exemplo,
(v) Expressões Motoras: implica em alterações nas analisando se o usuário estava triste em determinado
expressões faciais, vocais e/ou gestuais que acompanham a momento. Similarmente, Mano et al. (2015) mostram como as
experiência emocional do usuário. Assim, o rosto e a voz características faciais (olhos, boca, nariz, queixo e
sofrem mudanças com o grau de excitação. sobrancelhas) e a localização dos pontos salientes faciais
Este artigo considera aspectos emocionais relacionados às (cantos dos olhos e boca) foram utilizadas para propor seis
Expressões Motoras, mais especificamente às características representações faciais distintas, que enfatizam alterações
da fala do usuário. Esse componente foi selecionado devido à faciais baseadas em estudos psicológicos. Mano et al. (2015)
facilidade da captura da voz dos usuários por dispositivos evidenciam que o uso de áreas pré-definidas da face em
computacionais, visto que, normalmente, possuem um conjunto com ângulos e distâncias é uma proposta válida para
microfone e a interação é realizada próximo ao dispositivo. O construir modelos para a classificação da emoção.
sinal de fala é constituído por diversos componentes de O trabalho proposto por Khanchandani et al. (2009) utiliza
frequência (ver Fig. 1) e varia de acordo com o teor emocional features prosódicas: frequências formantes, entropia,
da elocução produzida pelo usuário. A utilização dessa variância, mínimos, mediana e corretor de predição linear para
abordagem faz sentido, pois considera a abrangência que a a classificação de sinais de fala com carga emocional.
proposta reflete sobre os aspectos emocionais do indivíduo. Khanchandani et al. (2008) utilizam gravações de áudio e
determinam um nível mínimo de energia no sinal de fala para
análise e, por meio de redes neurais Multilayer Perceptron
YUKIO MANO et al.: IDENTIFYING EMOTIONS IN SPEECH 4777
(MLP), realizam a classificação da fala do usuário. Javidi et para identificar as emoções com base na fala do usuário.
al. (2013) também utilizam as features: energia, potência, taxa Nesse sentido, é possível que dispositivos computacionais
de cruzamento do zero, tom da fala e coeficientes cepstrais de possam reconhecer, modelar e responder às emoções humanas
frequência em mel para a identificação da emoção. Os autores e expressá-las mediante uma interface/interação
realizaram experimentos com algoritmos de AM – Rede computacional.
Neural, Support Vector Machine (SVM) e Árvore de Decisão
– para a construção de um modelo que classifica a emoção do IV. INTERPRETAÇÃO DA FALA
usuário de acordo com a sua fala. A Tabela I apresenta uma A diferença entre sinais de voz que expressam diferentes
síntese das pesquisas detalhadas anteriormente. Estão descritas emoções está, sobretudo, na forma como o espectro de energia
as pesquisas, o tipo de componente baseado na Teoria do sinal se comporta. Por exemplo, emoções cuja expressão
Componencial das Emoções, os tipos de sensores utilizados vocal é caracterizada por exaltações e brados tendem a
para a captura e os algoritmos utilizados para a análise e a carregar mais energia do que emoções cuja expressão oral é
classificação da experiência emocional do usuário. mais branda. Assim, ao compararmos o espectro de
frequências de uma frase pronunciada de maneira negativa ao
TABELA I
SÍNTESE DAS PESQUISAS IDENTIFICADAS NA LITERATURA
espectro da mesma frase pronunciada de maneira positiva
notaremos diferenças na distribuição espectral de energia,
Tipo de Técnica de como ilustra a Fig. 2.
Trabalhos Tipo de Sensor
Componente Classificação
Árvore de
Atividade eletrodérmica,
Decisão,
Reações frequência e batimento
[5] Lógica Fuzzy;
Fisiológicas cardíaco, temperatura da
SVM e Redes
pele e do ar
Bayesianas
Atividade eletrodérmica, Regras de
Reações eletroencefalograma, decisão, kNN
[1]
Fisiológicas eletromiografia facial, e Árvore de Figura 2. Espectrogramas da frase “Gli operari si alzano presto” pronunciada
frequência respiratória Decomposição de maneira negativa e de maneira positiva.
Expressões
Atividade eletrodérmica, Regressão
Motoras e
[4]
Reações
reconhecimento facial, Linear e Rede Segundo Furui (2000), uma elocução humana é produto da
frequência cardíaca Neural filtragem realizada pelo trato vocal sobre a onda sonora
Fisiológicas
Expressões Comitê de resultante da interação do fluxo de ar vindo dos pulmões com
[6] Face
Motoras Classificação as cordas vocais. A maneira como uma frase é pronunciada
Expressões pode levar a inúmeras interpretações por parte do ouvinte.
[20] Fala MLP
Motoras
Rede Neural, Seres humanos são capazes de atribuir conotações emocionais
Expressões a elocuções de maneira automática. Do ponto de vista
[21] Fala SVM e Árvore
Motoras
de Decisão auditivo, as múltiplas interpretações possíveis são fruto de
Expressões Comitê de como a energia do sinal de fala está distribuída sobre o
Proposta Fala
Motoras Classificação
espectro de frequências audíveis do sinal, em outras palavras,
da densidade espectral de energia. Features associadas à
É possível perceber, pela Tabela I, que não há um consenso densidade espectral de energia de sinais sonoros são o
referente aos tipos de componente, de sensor e à técnica de “padrão” em aplicações de reconhecimento de voz, de
classificação utilizados quando se trata de identificar as instrumentos e de estilos musicais. De acordo com Jurafsky et
emoções dos usuários. Os trabalhos desenvolvidos por Zhou et al. (2009), MFCCs são as features mais comuns em aplicações
al. (2011) e Peter e Urban (2012) trazem a utilização de que requerem o processamento da fala. Esse tipo de feature é
sensores relacionados às Reações Fisiológicas, fato que pode baseado em cepstro e inspirado na maneira como o ouvido
comprometer a riqueza de detalhes de uma análise emocional. humano responde a estímulos sonoros, uma vez que as
Por outro lado, o trabalho proposto por Mano et al. (2015) frequências do espectro estão em escala mel, não linear, com
utiliza sensores relacionados às Expressões Motoras, mais gradação que procura imitar a percepção auditiva humana.
especificamente à face do usuário. Ainda, Bailenson et al. Neste trabalho 12 MFCCs, features log energy, delta e
(2008) propõem a utilização tanto de sensores relacionados às aceleração foram extraídos para formarem um conjunto de 39
Reações Fisiológicas quanto às Expressões Motoras. No features. O coeficiente log energy é obtido a partir do
entanto, o componente da face possui um peso menor que a cômputo do logaritmo da energia (total) do fragmento de sinal
fala quando se trata de classificação de emoção [28]. Nesse digital x[n] (ver Equação 1).
sentido, os trabalhos propostos por Khanchandani et al. (2009)
e Javidi et al. (2013) analisam a fala do usuário, porém não
abordam a utilização de ECs para a classificação de emoções
baseadas em voz. Com objetivo de abordar essa lacuna na
literatura e de amenizar os erros cometidos por uma única
técnica na classificação, propomos e avaliamos um Comitê Diferentes representações vocais (alegria, aversão, medo,
neutro, raiva, surpresa e tristeza) são propostas para a erros de um classificador possam ser corrigidos pela opinião
identificação e a classificação das emoções capazes de de todos os outros componentes [10, 17]. A partir dessa
codificar a configuração vocal de um indivíduo. A ferramenta hipótese, a Fig. 4 apresenta a estrutura do módulo para a
utilizada para obter informações vocais (features) é o classificação baseada em fala no processo de combinação de
openSMILE [25]. Ele funciona baseado em scripts de um EC. Além disso, combinamos técnicas de classificação
configuração da extração que se deseja executar. A ferramenta cada vez mais aplicadas à análise de respostas emocionais
recebe como argumentos o caminho do script de extração a ser para o desenvolvimento do EC, tais como: MLP, kNN e SVM
utilizado e o caminho do arquivo de áudio do qual são [1, 6, 20].
extraídas as features descritas. O pipe de extração do
openSMILE é apresentado na Fig. 3. O processo de extração
de MFCCs (representado por Melspec) e de Log Energy
(representado por LOGE) são idênticos até o janelamento do
sinal e se divergem em seguida. Os processos convergem
novamente para extrair os coeficientes delta e aceleração.
Figura 4. Módulo para a classificação da emoção mediante a fala do usuário

baseado em Comitê de Classificação.
Tendo como entrada o resultado da interpretação da fala

descrita na Seção IV, a primeira camada de processamento
Figura 3. Representação do pipe de extração de features. consiste em classificadores individuais. A segunda, consiste
em uma tomada de decisão que opera nos resultados da
As features delta e aceleração são respectivamente as
camada anterior para gerar a decisão geral do EC (ver Fig. 4).
derivadas de primeira e de segunda ordem do vetor inicial de
Vale salientar que, na decisão final do Comitê, a Equação 2
12 MFCCs + 1 coeficiente log energy. Esse conjunto de
foi utilizada no processo de ponderação, e pesos proporcionais
features foi obtido do trabalho proposto por Jurafsky et al.
foram atribuídos a cada algoritmo de acordo com a sua taxa
(2009).
de acurácia. Na equação, o peso Pi, atribuído a cada
classificador i, foi obtido pela Equação 2, onde ai é a acurácia
V. CLASSIFICAÇÃO DA EMOÇÃO
e AUCi é a Area Under Curve, obtidos por cada classificador
Devido ao grande interesse da literatura científica na busca i, e N é o número total de classificadores do Comitê, no caso
por alternativas e métodos que identificam e classificam a 3. Assim, divide-se a multiplicação entre a e AUC de cada
emoção do usuário, propomos um modelo baseado em ECs algoritmo pela somatória de a e AUC dos três algoritmos para
pela interpretação da fala do usuário. Esse modelo tem como obter o peso ponderado de cada um deles.
objetivo, por meio de uma combinação de respostas de
algoritmos de classificação, identificar e classificar a emoção .
do usuário em um determinado momento, para que sistemas 2
∑ .
computacionais possam se adaptar e interagir de maneira mais
assertiva com relação ao estado emocional do usuário.
A fim de avaliar o avanço e a acurácia do módulo de
Apesar da ampla utilização, os classificadores gerados a
classificação baseado em fala, implementamos os algoritmos
partir de métodos de AM dificilmente alcançam 100% de
citados bem como o módulo de decisão do EC. Com isso,
acurácia [8, 16]. Isso se deve ao fato de o desempenho de cada
coletamos dados sobre o comportamento e a avaliação do
método depender do ajuste de vários parâmetros, bem como o
módulo de classificação como um todo.
grau de dificuldade associado a cada problema em particular.
A seleção de um único classificador descarta uma significante
VI. METODOLOGIA E RESULTADOS
quantidade de informações potencialmente relevantes. Por
esse motivo, o conceito de EC tem sido uma solução Para validar o Comitê foram utilizados dados de discurso
promissora para o desenvolvimento de sistemas de alto emotivo proveniente da base de dados EMOVO [19], de
desempenho na área de reconhecimento de padrões [10]. acesso livre. A EMOVO emprega atores para pronunciar
Um dos aspectos que garante um bom desempenho de um frases, atribuindo-lhes conteúdo emocional. Ao todo,
EC é a diversidade de seus componentes [17]. Para que os gravações de 6 atores constituem a base, 3 mulheres e 3
classificadores base sejam considerados diversos entre si, eles homens. Cada ator pronuncia 98 frases de conteúdo semântico
devem apresentar erros não correlacionados, ou seja, não incoerente, que não predispõem o reconhecimento de
devem cometer erros nos mesmos padrões. Desse modo, para nenhuma emoção. Essa abordagem é apoiada pelos estudos
que um Comitê obtenha um desempenho aceitável, ele deve transculturais realizados por Ekman (1973), indicando as 6
ser formado por classificadores que possuam acurácia emoções básicas: alegria, aversão, medo, raiva, surpresa e
razoável e que não cometam erros coincidentes, para que os tristeza, acrescidas da emoção neutro [6, 11]. Assim, há 14
elocuções de cada emoção para cada um dos 6 atores,
YUKIO MANO et al.: IDENTIFYING EMOTIONS IN SPEECH 4779
totalizando 588 gravações.

As features foram extraídas dos sinais de áudio da base e
adotou-se o procedimento descrito na Seção IV. Para a pré-
ênfase dos sinais, utilizou-se um filtro do tipo Finite Impulse
Response (FIR) de primeira ordem, com coeficiente de
memória 0,97 e, para o janelamento do sinal, janelas de
Hamming com duração de 25 ms com 10 ms de sobreposição.
Finalizada a extração de features, obteve-se, no total, um
conjunto de 20.000 instâncias de cada emoção, totalizando
140.000 instâncias rotuladas, de forma que a base de dados
para os experimentos fosse balanceada entre as emoções.
Após a modelagem da base de dados, utilizou-se o Figura 6. Comparação entre o Comitê de Classificação e seus componentes
Framework Weka [18], o qual é amplamente utilizado por em termos de RMSE.
pesquisadores da área de AM. O Weka possui uma coleção de
algoritmos que podem ser aplicados diretamente a um O RMSE é uma métrica comum na avaliação da
conjunto de dados ou chamados a partir de um código Java, performance de classificadores e consiste na raiz quadrada do
ferramentas para pré-processamento de dados, classificação, quociente entre a somatória dos quadrados das diferenças
regressão, clustering, regras de associação e visualização. entre a resposta fornecida pelo modelo e a resposta esperada
Inicialmente, analisou-se o desempenho dos algoritmos para cada instância de teste e o total de instâncias de teste
separadamente por meio de uma técnica de Planejamento e de avaliadas.
Avaliação de Experimentos, chamada train split, e 90% da A análise dos resultados apresentados nas Fig. 5 e Fig. 6
base foi utilizada para treinamento e 10% para testes. Em reforça que a performance do EC é superior, se comparado aos
seguida, os melhores modelos de cada algoritmo foram usados seus componentes individualmente, mas apenas ligeiramente,
para compor o Comitê. Nessa fase, os dados disponíveis foram pois a performance avaliada para os casos de teste está sempre
divididos em 10 conjuntos, para os quais 10 modelos de cada muito próxima do kNN.
algoritmo foram treinados com a técnica half split (split A Tabela II apresenta os valores de acurácia média, de
simples). Portanto, 10 modelos diferentes do Comitê foram RMSE média e de AUC média do Comitê e de cada um de
obtidos e avaliados, sendo possível obter as taxas médias da seus componentes.
acurácia e de erro. A Equação 1 foi utilizada para a
ponderação dos pesos para a decisão final do EC, como visto TABELA II
COMPARAÇÃO DAS ESTASTÍSTICAS DE DESEMPENHO DOS
na seção anterior. ALGORITMOS
Os resultados demonstram que o Comitê proposto
possibilita uma classificação mais precisa do que o uso dos
ACCm var(ACC) RMSEm var(RMSE)
classificadores de maneira isolada (Fig. 5).
kNN 71, 82% 1, 83E-03 1, 42E-02 1, 31E-06
SMO 62, 60% 2, 21E-03 1, 65E-02 1, 08E-06
MLP 58, 33% 1, 72E-03 1, 75E-02 1, 24E-06
Comitê 72, 86% 1, 29E-03 1, 42E-02 1, 20E-006
O Comitê de Classificação proposto neste trabalho

conseguiu melhorar a acurácia média em relação ao melhor
dos classificadores isolados (kNN) em 1,04%, mantendo o
valor médio de RMSE em 1,42E-02. O ganho de pouco mais
de 1% pode parecer pouco atrativo, porém a maior
complexidade de se projetar um sistema de classificação
Figura 5. Comparação entre o Comitê de Classificação e seus componentes empregando o conceito de Comitê e o conjunto de features
em termos de acurácia. utilizado demanda muito mais do projetista do que o uso de
um classificador isolado. No entanto, quanto maior o conjunto
A Fig. 6 apresenta a comparação do Comitê de de treinamento utilizado, o EC tende a ter uma acurácia
Classificação com seus componentes em termos de seus Root- maior, se comparado ao kNN.
Mean-Square Error (RMSEs) de teste. Assim, um Comitê de Classificação minimamente bem
projetado, construído respeitando um limite razoável para as
diferenças na performance de seus componentes, consegue
obter resultados melhores do que aqueles de seus componentes
individuais.
VII. CONCLUSÃO [10] Schuller, Björn, et al. "Speaker independent speech emotion
recognition by ensemble classification." 2005 IEEE International
Na área de IHC inúmeros são os métodos, técnicas e Conference on Multimedia and Expo. IEEE, 2005.
instrumentos que apoiam a avaliação de respostas emocionais, [11] Mano, Leandro Y., et al. "Exploiting IoT technologies for enhancing
Health Smart Homes through patient identification and emotion
visto a oportunidade de sistemas computacionais reagirem ao recognition."Computer Communications (2016).
estado emocional de um indivíduo. Diante disso, este artigo [12] Canuto, Anne Magaly de Paula. Combining neural networks and fuzzy
propõe um modelo utilizando o conceito de EC para a logic for applications in character recognition. Diss. University of Kent
at Canterbury, 2001.
classificação da emoção baseada na fala do usuário. Assim, o [13] Duda, Richard O., Peter E. Hart, and David G. Stork. Pattern
erro cometido por um classificador é corrigido pela opinião de classification. John Wiley & Sons, 2012.
todos os outros componentes que compõem o EC. Os [14] Fontaine, Johnny RJ, et al. "The world of emotions is not two-
resultados mostram que o Comitê proposto apresenta baixa dimensional."Psychological science 18.12 (2007): 1050-1057.
[15] Mahlke, Sascha, and Michael Minge. "Consideration of multiple
dispersão em sua replicação e a mediana da acurácia é components of emotions in human-technology interaction." Affect and
superior aos apresentados pelos respectivos algoritmos que emotion in human-computer interaction. Springer Berlin Heidelberg,
constituem o modelo proposto (usados individualmente) para 2008. 51-62.
[16] Canuto, Anne Magaly de Paula. Combining neural networks and fuzzy
a classificação da emoção. logic for applications in character recognition. Diss. University of Kent
Ressalta-se que, apesar dos bons resultados obtidos, at Canterbury, 2001.
acreditamos ser possível aumentar a acurácia de classificação [17] Duda, Richard O., Peter E. Hart, and David G. Stork. Pattern
classification. John Wiley & Sons, 2012.
da nossa proposta. Iremos, então, investigar como trabalhos [18] Bouckaert, Remco R., et al. "WEKA Manual for Version 3-7-
futuros: (i) a exploração de outras abordagens para a 8." Hamilton, New Zealand (2013).
identificação da emoção, por exemplo, o Componente de [19] Costantini, Giovanni, et al. "EMOVO Corpus: an Italian Emotional
Speech Database." LREC. 2014.
Tendências Comportamentais – Rede Social; (ii) a exploração [20] Khanchandani, K. B., and Moiz A. Hussain. "Emotion recognition
dos resultados de múltiplos sensores para a identificação da using multilayer perceptron and generalized feed forward neural
emoção, e; (iii) a investigação de abordagens para otimizar os network." Journal of Scientific and Industrial Research 68.5 (2009):
367.
valores das ponderações dos classificadores no EC. [21] Javidi, Mohammad Masoud, and Ebrahim Fazlizadeh Roshan. "Speech
emotion recognition by using combinations of C5. 0, neural network
AGRADECIMIENTOS (NN), and support vector machines (SVM) classification methods." J.
Leandro Mano e Jó Ueyama gostaria de agradecer à Math. Comput. Sci 6 (2013): 191-200.
[22] Ekman, Paul. "Cross-cultural studies of facial expression." Darwin and
FAPESP (Fundação de Amparo à Pesquisa do Estado de São facial expression: A century of research in review (1973): 169-222.
Paulo), Processos 2014/10685-3 e 2015/21642-6, 2016/14267- [23] Furui, Sadaoki. "Digital Speech Processing, Synthesis, and Recognition
7 pelo auxílio financeiro em sua pesquisa, assim como à (Revised and Expanded)." Digital Speech Processing, Synthesis, and
Recognition (Second Edition, Revised and Expanded) (2000).
Office of Naval Research Global pela doação financeira para a [24] Jurafsky, D.; Martin, J. H. Speech and language processing: an
pesquisa do docente. introduction to natural language processing, computational linguistics,
and speech recognition, 2 ed., Pearson Education, 2009. pp 295–302.
ISBN 978-0-13-187321-6.
REFERÊNCIAS [25] Eyben, Florian, et al. "Recent developments in openSMILE, the
[1] Zhou, Feng, et al. "Affect prediction from physiological measures via munich open-source multimedia feature extractor." Proceedings of the
visual stimuli." Inter. Journal of Human-Computer Studies 69.12 21st ACM international conference on Multimedia. ACM, 2013.
(2011): 801-819. [26] Ciompi, Francesco, et al. "Automatic classification of pulmonary peri-
[2] Gonçalves, Vinícius P., et al. "Emoções na interação humano- fissural nodules in computed tomography using an ensemble of 2D
computador: um estudo considerando sensores." Proceedings of the views and a convolutional neural network out-of-the-box." Medical
12th Brazilian Symposium on Human Factors in Computing Systems. image analysis 26.1 (2015): 195-202.
Brazilian Computer Society, 2013. [27] Cai, Zhihua, et al. "Classification of lung cancer using ensemble-based
[3] Lichtenstein, Antje, et al. "Comparing two emotion models for deriving feature selection and machine learning methods." Molecular
affective states from physiological data." Affect and Emotion in BioSystems11.3 (2015): 791-800.
Human-Computer Interaction. Springer Berlin Heidelberg, 2008. 35- [28] Gonçalves, Vinícius P., et al. "Enhancing intelligence in multimodal
50. emotion assessments." Applied Intelligence (2016): 1-17.
[4] Bailenson, Jeremy N., et al. "Real-time classification of evoked
emotions using facial feature tracking and physiological Leandro Yukio Mano atualmente frequenta o curso de
responses." International journal of human-computer studies 66.5 Doutorado no Programa de Pós-Graduação em Ciências de
(2008): 303-317. Computação e Matemática Computacional do ICMC - USP.
[5] Peter, Christian, and Bodo Urban. "Emotion in human-computer Atuando principalmente nos seguintes temas: Internet das
interaction."Expanding the Frontiers of Visual Analytics and Coisas (IoT), Interação Humano-Computador (IHC), Heath
Visualization. Springer London, 2012. 239-262. Smart Home (HSH), Abordagens Flexíveis e Monitoramento.
[6] Mano, Leandro Y., et al. "Exploiting the Use of Ensemble Classifiers to
Enhance the Precision of User's Emotion Classification." Proceedings Eduardo Santos Medeiros de Vasconcelos atualmente
of the 16th International Conference on Engineering Applications of frequenta o curso de Engenharia de Computação da
Neural Networks (INNS). ACM, 2015. Universidade de São Paulo em São Carlos (EESC e ICMC).
[7] Picard, Rosalind W. "What does it mean for a computer to “have” Seus principais interesses são Inteligência Artificial,
emotions."Emotions in humans and artifacts (2003): 213-235. Neurocomputação, Desenvolvimento de Software e
Processamento Digital de Sinais.
[8] Scherer, Klaus R. "What are emotions? And how can they be
measured?."Social science information 44.4 (2005): 695-729.
Jó Ueyama é Professor Associado no Instituto de Ciências
[9] Ramakrishnan, S.; El Emary, Ibrahiem MM. Speech emotion Matemáticas e de Computação da Universidade de São Paulo
recognition approaches in human computer (ICMC/USP). Jó obteve a sua Livre-docência no ICMC/USP
interaction. Telecommunication Systems, v. 52, n. 3, p. 1467-1478, em junho de 2013 e o seu doutorado na Lancaster University
2013. em Agosto de 2006. Em janeiro de 2016 retornou de sua
licença Sabático na University Southern California, EUA.

14TLA12 22YukioMano

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

14TLA12 22YukioMano

Enviado por

Direitos autorais:

Formatos disponíveis

IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO.

12, DECEMBER 2016 4775

Identifying Emotions in Speech Patterns: Adopted

do módulo de classificação da emoção baseada na fala do

Figura 4. Módulo para a classificação da emoção mediante a fala do usuário

Tendo como entrada o resultado da interpretação da fala

totalizando 588 gravações.

SMO 62, 60% 2, 21E-03 1, 65E-02 1, 08E-06

MLP 58, 33% 1, 72E-03 1, 75E-02 1, 24E-06

Comitê 72, 86% 1, 29E-03 1, 42E-02 1, 20E-006

O Comitê de Classificação proposto neste trabalho

Você também pode gostar