Nathalia Marislei

NATHALIA NIEUWENHOFF
Análise comparativa de técnicas de classificação de

dados aplicadas para identificação dos
determinantes de decisão do consumo de filmes em
salas de cinema no Brasil
São Paulo
2016
NATHALIA NIEUWENHOFF
Análise comparativa de técnicas de classificação de dados

aplicadas para identificação dos determinantes de decisão do
consumo de filmes em salas de cinema no Brasil.
Qualificação apresentada à Escola de Artes,

Ciências e Humanidades da Universidade de
São Paulo para obtenção do título de Mestre
em Ciências pelo Programa de Pósgraduação
em Sistemas de Informação.
Área de Concentração: Metodologia e

Técnicas da Computação
Orientador: Profa. Dra. Marislei Nishijima
São Paulo
2016
Exame de Qualificação de autoria de Nathalia Nieuwenhoff, sob o título "Análise
comparativa de técnicas de classificação de dados aplicadas para identificação dos
determinantes de decisão do consumo de filmes em salas de cinema no Brasil",
apresentada à Escola de Artes, Ciências e Humanidades da Universidade de São Paulo, para
obtenção do título de Mestre em Ciências pelo Programa de Pósgraduação em Sistemas de
Informação, na área de concentração Metodologia e Técnicas da Computação, aprovada em
_____ de _____________________ de ________ pela comissão julgadora constituída pelos
doutores:
Prof. Dr. __________________________________________

Presidente
Instituição: _____________________________________
Prof. Dr. __________________________________________

Instituição: _____________________________________
Prof. Dr. __________________________________________

Instituição: _____________________________________
Prof. Dr. __________________________________________

Instituição: _____________________________________
Resumo
As tarefas de classificação ou categorização de dados, conhecida também como técnicas de

reconhecimento de padrões e seleção de variáveis estão sendo cada vez mais utilizadas no
contexto de extração de informações ou padrões em bases de dados volumosas. A partir disso,
a aplicação de técnicas de reconhecimento de padrões para identificação dos determinantes
dos padrões de consumo de um bem de informação é uma tarefa complexa e pouco explorada
no mercado brasileiro. Este trabalho apresenta um análise comparativa da aplicação de duas
técnicas de aprendizagem de máquina para classificação de dados, baseadas em aprendizado
supervisionado, sendo estas Naive Bayes e Support Vector Machine, para identificação dos
determinantes de padrões de consumo de um bem de informação, filmes em salas de cinema
no Brasil, a partir dos dados obtidos na Pesquisa de Orçamento Familiar (POF) 20082009,
pelo Instituto Brasileiro de Geografia e Estatística (IBGE).
Palavraschave: Algoritmos de classificação. Bens de Informação. Seleção de recursos.

Seleção de variáveis. Consumo.
Abstract
The task classification or categorization data, also known as pattern recognition techniques
and variables selection are being increasingly used in the context of extracting information or
patterns in large databases. From this, the application of pattern recognition techniques to
identify the determinants of consumption patterns of a good information is complex and little
explored in Brazil. This paper presents a comparative analysis of the application of two
machine learning techniques for data classification based on supervised learning, Naive Bayes
and Support Vector Machine (SVM), to identify the determinants of consumption patterns of
a good information, movies in Brazilians cinemas, based on data obtained from the Pesquisa
de Orçamento Familiar ( POF ) 20082009 by the Instituto Brasileiro de Geografia e
Estatística (IBGE).
Keywords: Classification Algorithm. Good information. Feature Selection. Variable

Selection. Consumption.
Sumário
1 Introdução 6
1.1 Justificativa e Motivação 7
1.1.1 Objetivos 12
1.1.2 Estrutura do documento 13
2 Fundamentação teórica 14
2.1 Descoberta do conhecimento 14
2.2 Classificação 16
2.3 Regressão 17
2.4 Agrupamento 17
2.5 Associação 17
2.6 Descrição 18
2.7 Aprendizado de Máquina 18
3 Metodologia de Pesquisa 20
3.1 Revisão Bibliográfica 20
3.2 Revisão Sistemática 20
3.2.1 Validação dos algoritmos de classificação 20
4 Revisão Sistemática 25
4.1.1 Questões de pesquisa 25
4.2 Estratégia de busca para seleção de estudos 25
4.2.1 Uma seção terciária 26
4.3 Outra seção secundária 27
4.4 Condução 28
4.5 Resultados 28
4.6 Discussão e Resultados 37
5 Cronograma 39
Referências 39
7
1 Introdução
A evolução tecnológica constante resultou na mudança da lógica de consumo de

alguns bens, devido à facilidade de acesso à informação, as pessoas não necessariamente
precisam se deslocar ou pagar diretamente para terem acesso a determinados bens de
informação, como os filmes nas salas de cinema, visto que estes se encontram disponíveis na
internet ou, também, através dos recursos da pirataria, por exemplo. Neste contexto, o
consumo e seus meios utilizados indicam não somente as preferências dos indivíduos, mas,
também, exprimem o que estes consideram socialmente prioritário e essencial. Ao mesmo
tempo, o consumo de cultura, a partir dos bens de informação, é capaz de exprimir a situação
de capital econômico, social e cultural das pessoas, de suas respectivas famílias e dos grupos
nos quais estão inseridos de forma relacionada.
Os padrões de decisão do consumo são parte de uma composição de variáveis
culturais, econômicas e sociais segregadas e agrupadas ao mesmo tempo, dessa forma,
identificar tais padrões se trata de uma tarefa desafiadora devido à complexidade de tais
fatores e a heterogeneidade envolvida. A partir destes aspectos, a necessidade de identificar
padrões precisos e úteis nos dados tem exigido um aprofundamento contínuo do estudo de
técnicas computacionais que otimizem e automatizem tais atividades e, dentro do contexto de
Knowledge Discovery in Databases (KDD), a Mineração de dados, ou Data mining, tratase
de uma etapa deste processo, que consiste na aplicação das técnicas computacionais em si
para geração de conhecimento.
Dentre as técnicas de mineração de dados atuais, o processo classificação é capaz de
identificar um conjunto de modelos que segregam classes ou grupos e, a partir do modelo,
predizer a classe que os objetos ainda não classificados pertencem. A partir disso, a escolha da
abordagem e da técnica de reconhecimento de padrão ou até mesmo uma combinação de uma
ou mais técnicas está diretamente relacionada com o problema e ao contexto em que este se
aplica.
Dessa forma, este trabalho tem como objetivo aplicar a mineração de dados utilizando
dois algoritmos de aprendizagem de máquina classificadores, sendo estes Naive Bayes e
Support Vetor Machine (SVM), para identificação de padrões de consumo de um bem de
informação, filmes nas salas de cinema pelos brasileiros, bem como efetuar a análise
comparativa dos resultados obtidos a partir destes algoritmos, considerando medidas
relacionadas à precisão das técnicas aplicadas, bem como seus desempenhos computacionais.
Os algoritmos serão aplicados na base dos dados coletados na Pesquisa de Orçamento
8
Familiar (POF), realizada em um período de 12 meses entre os anos 2008 e 2009 e

disponibilizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE).
1.1 Justificativa e Motivação
Segundo Canclini (1999), o consumo consiste no “conjunto de processos

socioculturais nos quais se realizam a apropriação e o uso dos produtos”. A partir disso, o
consumo possui a capacidade de agrupar as pessoas, bem como distinguilas e classificálas,
afinal, através dele é possível se dizer sobre quem consome, identificar características sociais,
culturais e econômicas dos indivíduos e como elas estão relacionadas. O Ministério Brasileiro
da Cultura (2007) reforça esta ideia afirmando que “o consumo cria ordem, classifica as
pessoas e as associa aos bens; enfim, o consumo ordena informações e organiza significados
sobre as estruturas sociais”.
Neste cenário, o consumo está diretamente relacionado à cidadania e ao direito, em
suas variadas esferas. No aspecto social, está conexo ao direito de acesso aos bens e serviços.
Dessa forma, o consumo cultural diz respeito sobre a organização de uma sociedade e é um
meio de se estabelecer condições para o exercício da cidadania, formação de indivíduos, bem
como a participação destes no contexto político e social.
A partir disso, os padrões de decisão do consumo são parte de uma composição de
variáveis culturais, econômicas e sociais e identificar tais padrões, tratase de uma tarefa
desafiadora devido às múltiplas variáveis envolvidas e à necessidade de se mapear como tais
variáveis se relacionam.
Adicionalmente, o consumo de cultura aplicada aos bens de informação, que segundo
Shapiro e Varian (1999), bem de informação ou good information é um bem que pode ser
digitalizado ou codificado como um fluxo de bits, que independente da fonte particular de
valor, as pessoas estão dispostas a pagar para obtêlo ou consumilo, a partir disso, filmes,
músicas, páginas na web são alguns dos exemplos de bens de informação, além dos aspectos
gerais do consumo, possuem como desafio direto a evolução tecnológica constante. Afinal, os
meios de reprodução de tais bens de informação são amplamente variados e vem sofrendo
uma mudança significativa na lógica de seu consumo.
Diniz (2009) afirma que o consumo cultural é afetado diretamente pelas variáveis
socioeconômicas, educacionais e sócio demográficas de quem consome e, também, pelas
variáveis geográficas que indicam não somente aspectos culturais, mas também variações de
oferta dos produtos em cada região. Adicionalmente, as experiências sociais que os
9
consumidores estão sujeitos influenciam suas preferências, dessa forma, estas são afetadas
diretamente pelo capital pessoal, ou seja, experiências pessoais e individuais dos
consumidores, bem como pelo capital social, experiências e influências proporcionadas pelo
meio social que os consumidores estão inseridos. Dessa forma, o estudo dos determinantes de
consumo de cultura requer o mapeamento das restrições e influências que o consumidor e os
grupos nos quais este está inserido sofrem, resultando, assim, no entendimento aprofundado
do público alvo de consumo.
Reforçando esta ideia, Throsby (1999) afirma que os produtos culturais, o que inclui
os bens de informação, possuem valores de uso que são compostos pelos produtos culturais
materializados e os que possuem valor simbólico, dessa forma, notase que a atribuição de
valor a eles não é uma tarefa trivial, afinal, é preciso conhecer mais detalhadamente
características especiais destes bens, bem como as de quem os consome.
Aplicando este contexto ao cenário brasileiro, o Brasil além de ser um país
conceitualmente dividido em cinco grandes regiões, é um país multicultural, o que torna ainda
mais complexa a tarefa de mapeamento e identificação dos padrões de consumo da sua
população, afinal, além de sua cultura estar sujeita a um conjunto de incentivos financeiros
com recursos públicos disputados que são aplicados, muitas vezes, sem nenhum grau de
conhecimento do padrão de consumo, conforme afirmado por Hofstede (2010), as diferenças
culturais entre as regiões do país são significativas, tornando ainda mais complexa a tarefa de
definição de padrão de consumo do brasileiro de forma geral.
Neste contexto, visto que o consumo de cultura aborda a noção de cidadania
impactada pelo acesso, classificar os indivíduos e identificar padrões de consumo de cultura,
através dos bens de informação, tornase cada vez mais necessário para os recursos públicos
serem capazes de estabelecer políticas públicas voltadas ao setor eficazes e, ao mesmo tempo,
reduzir o consumo ilegal dos bens de informação, combatendo iniciativas como a pirataria,
por exemplo.
Adicionalmente, de acordo com Silva (2008), a administração pública do Brasil não
possui dados consistes e precisos sobre as práticas culturais dos brasileiros e como estas se
refletem nas diversas regiões do país, bem como sobre os hábitos de consumo cultural da sua
população, ocasionando, assim, a elaboração de políticas públicas culturais ineficazes e que
não atendem às necessidades para um consumo cultural efetivo e acessível à população
brasileira. Em paralelo, é de alto interesse das empresas responsáveis pela produção e
reprodução de tais bens de informação a identificação de padrões de consumo no contexto de
auxiliar as estratégias de venda e divulgação de tais bens para um público alvo mais preciso,
10
bem como identificar e prever cenários de evolução tecnológica, possíveis concorrências e

meios para veiculação de tais bens maximizando lucros e aumentando a satisfação de seus
clientes.
Além do contexto cultural e social, a relevância do consumo de cultura em relação ao
bem de informação, filmes em sala de cinemas brasileiros, é reforçada no aspecto econômico,
afinal, de acordo com o Ministério Brasileiro da Cultura (2007), o consumo cultural da
população é parte não somente de investimentos públicos e privados, bem como do Produto
Interno Bruto (PIB) dos indivíduos. Segundo o estudo de Valor Adicional do setor de
audiovisual efetuado pela Agência Nacional de Cinema (ANCINE), agência reguladora e
fiscalizadora do mercado brasileiro de cinema e do audiovisual, as atividades econômicas do
setor de audiovisual, que “compreende a indústria cinematográfica e videofonográfica do país,
isto é: os agentes de produção, distribuição e exibição dos segmentos de cinema (salas
de exibição), TV paga (comunicação eletrônica de massa por assinatura), TV aberta
(radiodifusão de sons e imagens), vídeo doméstico, vídeo por demanda e mídias móveis,
apresentaram uma renda de R$22,9 bilhões na economia brasileira referente ao valor adicional
do setor, bem como vem apresentado evolução do tamanho do setor entre os anos de 2007 a
2013. Segundo o Instituto Brasileiro de Geografia e Estatística (IBGE), Valor Adicionado
“referese ao valor que a atividade acrescenta aos bens e serviços consumidos no seu processo
produtivo”.
Adicionalmente, segundo o Informe Anual de Acompanhamento de Mercado emitido
pela ANCINE, o ano de 2009, período dos dados a serem utilizados neste trabalho, registrou
um público total de 112.683.383 espectadores, que corresponde a uma renda no valor de R$
969.783.735,77. Estes números representam o maior público dos últimos cinco anos, bem
como um crescimento de 25,26% e 32,93%, no público e renda, respectivamente, referente ao
ano anterior, 2008.
Abaixo, o gráfico 1 demonstra a evolução contínua do setor, medido segundo o seu
valor adicionado no período de 2007 a 2013. Já o gráfico 2 apresenta a evolução do valor
adicionado pelo setor audiovisual em termos reais, demonstrando uma expansão de 8,8% ao
ano no período, que é expressivamente superior à média de todos os setores da economia no
período observado (vide comparação apresentada no gráfico 2).
Gráfico 1 – Valor adicionado pelo setor audiovisual (R$ bilhões correntes)

11
Fonte: IBGE, 20072013.
Gráfico 2 – Valor adicionado pelo setor audiovisual e Valor adicionado total:

variações anuais reais (%)
Fonte: IBGE, 20072013.

A partir disso, o maior conhecimento permite que se avalie mais precisamente os
recursos envolvidos para garantir sua otimização neste setor, que é relevante para o país.
Porém, o cenário de consumo cultural, conforme detalhado anteriormente, possui um conjunto
complexo de variáveis, bem como requer a manipulação de bases de dados volumosas, devido
não só ao tamanho da população brasileira, mas também aos fatores sociais, culturais e
econômicos que estão relacionados, a maioria dos estudos sobre tais padrões de consumo que
envolvem os bens de informação se baseia em análises qualitativas sem o uso sistemático de
informações quantitativas, bem como a combinação destas.
Em paralelo, devido à quantidade e complexidade de tais dados, a exploração manual
destes para geração de conhecimento se torna inviável, necessitando, assim, da aplicação de
técnicas automatizadas para tal fim. Com o objetivo de reduzir a complexidade do problema
relacionado à manipulação e a identificação do relacionamento entre tais dados para auxílio
nas tomadas de decisões de forma que se atinja uma precisão ótima nos padrões identificados
12
e, em paralelo, não comprometa o desempenho computacional das aplicações, visto que, nos
dias atuais, estas estão cada vez mais exigentes, tais técnicas estão sendo cada vez mais
estudadas, aplicadas e desenvolvidas.
Dessa forma, o interesse na área de Reconhecimento de padrões, que segundo
Schalkoff (1991), tratase do estudo de descrição e classificação de medições, tem crescido
muito nos últimos anos e está em constante desenvolvimento, visto que se trata de uma tarefa
de classificação ou categorização de dados, cujo objetivo é discriminar amostras de objetos e
classificar corretamente as amostras futuras.
Neste contexto, tais fatores conduziram a exploração e desenvolvimento da técnica de
extração de conhecimento em banco de dados volumosos, nãotriviais e dinâmicos, também
conhecida como Knowledge Discovery in Databases (KDD), para geração de conhecimento a
partir de padrões de dados válidos, complexos e potencialmente úteis (Fayyad, Shapiro e
Smyth, 1996). A Mineração de dados, ou Data mining, tratase de uma etapa deste processo,
que consiste na aplicação das técnicas computacionais em si para geração de conhecimento a
partir de tais bases de dados.
A aplicação da mineração de dados requer, inicialmente, que dois fatores sejam
considerados, sendo eles a tarefa e a técnica de mineração. A tarefa consiste na definição e
detalhamento do objetivo da exploração dos dados, ou seja, qual(is) é(são) a(s) categoria(s) de
padrões que se deseja obter. Já a técnica se trata do método a ser utilizado para obtenção de
tais padrões de interesse. Atualmente, há diversas técnicas de mineração, dentre elas as
estatísticas e de aprendizado de máquina, por exemplo. Em relação às tarefas, estas se
subdividem, basicamente, em Análise de Regras de Associação, Análise de Padrões
Sequenciais, Classificação e Predição, Análise de Agrupamentos e Análise de Outliers.
A identificação de padrões de consumo de bens de informação, especificamente,
filmes em salas de cinema no Brasil, principalmente no que se refere à aplicação da
mineração de dados para obtenção de tais informações, tratase de um aspecto pouco
explorado até então, o que motivou a realização deste trabalho.
Neste contexto, a aplicação da tarefa de Classificação dos dados, cuja função é
examinar o conjunto de registros marcados com seus atributos correspondentes e identificar as
características (variáveis) que definem tais classes, predizendo, assim, as classes que os
registros ainda não classificados pertencem, possibilita identificar, de forma automatizada,
precisa e a partir do relacionamento de dados quantitativos e qualitativos, as variáveis que
influenciam na decisão de consumo dos bens de informação, podendo, assim, auxiliar os
13
recursos públicos na definição de políticas públicas que viabilizam o acesso legal a estes bem,
bem como auxiliar recursos privados nas estratégias de vendas e produção.
A partir disso, a contribuição deste trabalho é focada na aplicação e análise
comparativa de dois algoritmos de aprendizagem de máquina para classificação de dados
popularmente utilizados, sendo eles Naive Bayes e Support Vetor Machine (SVM), para
identificação de padrões de consumo de filmes em sala de cinema nacional, bem como as
vantagens e desvantagens da utilização de cada um destes, a partir das métricas relacionadas à
precisão de cada uma destas, bem como seus desempenhos computacionais, conforme as
classes de brasileiros que assistiram ou não filmes em salas de cinema no Brasil durante os 12
meses entre os anos 2008 e 2009, a partir do grande volume de dados disponível da Pesquisa
de Orçamento Familiar (POF) realizada pelo Instituto Brasileiro de Geografia e Estatística.
1.1.1 Objetivos
Considerando como premissa que a mineração de dados, através da aplicação de

algoritmos de aprendizagem de máquina para classificação, está, nos dias atuais, sendo
amplamente utilizada de forma multidisciplinar nos mais variados contextos, esta também
pode ser aplicada para identificação de padrões de consumo de um bem de informação.
Diante disso, o principal objetivo deste trabalho é efetuar a aplicação da mineração de
dados, a partir de dois algoritmos atuais e populares de classificação, sendo estes Naive Bayes
e Support Vetor Machine (SVM), para reconhecimento dos padrões do consumo de filmes em
salas de cinema no Brasil pelos brasileiros, bem como efetuar uma análise dos seus resultados
da aplicação de ambas as técnicas, a partir de medidas relacionadas à precisão e desempenho
computacional.
Para atingir o objetivo geral deste trabalho, os seguintes objetivos específicos foram
estabelecidos:
• Efetuar uma revisão bibliográfica sobre as técnicas de mineração de dados e
reconhecimento de padrões e seus respectivos algoritmos de aplicação;
• Efetuar uma Revisão Sistemática (RS) sobre a aplicação das técnicas de
mineração de dados e reconhecimento de padrões para identificação de determinantes de
consumo de forma geral;
• Aplicar o processo de KDD, tendo como parte dele a mineração de dados, a
partir das técnicas de classificação dos dados da Pesquisa de Orçamento Familiar 20082009
(POF) utilizando os algoritmos Naive Bayes e Support Vetor Machine (SVM), com o objetivo
14
de identificar os padrões do consumo dos brasileiros em relação ao bem de informação, filmes

em salas de cinema no Brasil;
• Apresentar análise comparativa dos resultados obtidos a partir da aplicação de
tais técnicas de mineração de dados para identificação dos padrões de consumo do bem de
informação em questão, conforme as medidas de precisão das técnicas, bem como seu
respectivo desempenho computacional, apresentando, neste contexto, suas vantagens e
desvantagens.
Adicionalmente, buscase com este trabalho oferecer como resultado aos
pesquisadores da área a partir da aplicação das técnicas em um objeto pouco explorado neste
aspecto, bem como às empresas do setor e governo que podem utilizar os resultados obtidos
para otimização de seus processos e especificação de novos projetos.
1.1.2 Estrutura do documento
Esta dissertação é composta por cinco capítulos, sendo o primeiro deles a introdução
ao tema, subdivididos da seguinte forma:
• O capítulo 2 contém a fundamentação teórica do trabalho, a partir da
contextualização e a revisão bibliográfica, apresentando os principais conceitos relacionados a
Knowledge Discovery in Databases (KDD), Mineração de dados e suas respectivas tarefas e
técnicas, com ênfase nos algoritmos de aprendizagem de máquina para classificação de dados.
• O capítulo 3 apresenta a metodologia de pesquisa utilizada neste trabalho para
aplicação dos dois algoritmos de aprendizagem de máquina para classificação de dados, sendo
estes Naive Bayes e Support Vetor Machine (SVM), na base de dados da Pesquisa de
Orçamento Familiar (POF) 20082009 do Instituto Brasileiro de Geografia e Estatística
(IBGE).
• O capitulo 4 apresenta a condução e os resultados da Revisão Sistemática (RS)
referente aos trabalhos de aplicação dos algoritmos de aprendizagem de máquina para
reconhecimento de padrões de consumo.
• O capítulo 5 apresenta os resultados, bem como a análise comparativa das
técnicas de classificação de dados aplicadas para identificação de padrões de consumo de
filmes em salas de cinema no Brasil.
• O capítulo 6 apresenta a conclusão do trabalho, destacando às suas principais
contribuições, suas limitações e trabalhos futuros.
15
2 Fundamentação teórica
2.1 Descoberta do conhecimento
O modelo tradicional que efetua a transformação dos dados em conhecimento consiste

no processamento dos dados por especialistas que apresentam estes de forma que possam ser
analisados, porém, nos dias atuais devido a automação dos processos e, principalmente, ao
elevada quantidade de dados relacionados, que podem se encontrar até em fontes distintas, tal
prática se torna inviável. A partir disso, foi apresentado o conceito de Descoberta de
conhecimento das bases de dados, também denominado Knowledge Discovery in Databases
(KDD) (Fayyad, Shapiro e Smyth, 1996).
De acordo com Amo e Rocha (2003), o conceito de KDD e Mineração de dados (Data
mining) é considerado sinônimo por algumas literaturas, outras, porém, consideram a
Mineração de dados como uma etapa do processo de KDD, conforme detalhamento das etapas
do processo em questão:
1. Limpeza dos dados: consiste na eliminação de dados inconsistentes, incorretos
ou incompletos.
2. Integração dos dados: consiste na junção e combinação dos dados apresentados
de forma fragmentada, consolidando em apenas um fonte de dados centralizada.
3. Seleção dos dados: consiste na definição dos atributos e variáveis que são
relevantes para aplicação das técnicas em questão, a partir do conhecimento do tema.
3. Transformação dos dados: consiste na adequação dos dados para aplicação dos
algoritmos de mineração. Segundo Camilo e Silva (2008), não há um critério específico para
execução desta etapa, bem como a técnica a ser utilizada depende dos objetivos pretendidos,
como por exemplo, a normalização, que consiste na inserção de variáveis em uma mesma
escala, agrupamento, que se trata da junção de valores, ou até mesmo a criação de novos
atributos, a partir de combinações dos já existentes.
4. Mineração: aplicação dos algoritmos de aprendizagem de máquina para
extração dos padrões.
5. Avaliação ou Pósprocessamento: consiste na análise dos resultados obtidos na
etapa anterior, referente às variáveis que determinam a classificação dos dados e identificação
de padrões.
16
6. Visualização dos Resultados: consiste na apresentação do conhecimento obtido

a partir da base de dados utilizada aos usuários ou partes interessadas.
Conforme representação do processo de KDD na Figura 1.
Figura 1 – Etapas dos processos de KDD
Fonte: Amo e Rocha, 2003
Segundo Fayyad, Shapiro e Smyth, 1996, o termo Mineração de Dados ou Data

Mining, pode ser definido como um "passo no processo de Descoberta de Conhecimento que
consiste na realização da análise dos dados e na aplicação de algoritmos de descoberta que,
sob certas limitações computacionais, produzem um conjunto de padrões de certos dados".
Segundo Camilo e Silva (2009), apesar do processo de mineração de dados suportar a
descoberta do conhecimento de um volume elevado de dados, este processo não é puramente
automático até o momento. A partir disso, existe uma série de ferramentas para execução dos
algoritmos de mineração, bem como a análise dos resultados ainda precisa ser efetuadas por
seres humanos.
No contexto de mineração de dados, é importante destacar os conceitos de tarefa e
técnica de mineração. Segundo Viana e Bueno (2012), a tarefa se refere na especificação do
objetivo de busca do dado, ou seja, o tipo de categoria e informação que se deseja obter. Já a
técnica se refere no método que vai ser utilizado para executar a tarefa definida, ou seja, o que
será feito para descobrir o padrão que interessa, esta pode se dividir em diversos tipos, sendo
por exemplo, estatística, aprendizado de máquina, crescimento podavalidação, entre outros.
Camilo e Silva (2009) afirmam que o processo de mineração de dados possui diversos
tipos de tarefas para suportálos, sendo estas:
2.2 Classificação
17
A Classificação consiste na análise das características dos dados para atribuição a uma
categoria específica previamente definida. Para isso, cada registro possui os atributos de
predição, em como o alvo. Podendo ser utilizada para identificar pessoas, classificar objetos e
diagnosticar doenças, por exemplo. Suas principais técnicas são:
• Árvores de decisão (decision trees), que consistem na representação do
conhecimento a partir de um número finito de classes. Ou seja, a partir da variável de
avaliação definida, o algoritmo retorna as características associadas a ela a partir dos “ramos
da árvore.” Os nós correspondem aos atributos, as ligações entre os nós representam os
valores para tais atributos e as folhas representam diferentes classes. A partir disso, após a
definição da área, para realização de um novo registro, é necessário seguir a árvore, cujo
início é a raiz.
• Naive Bayes, que consiste em uma técnica baseada em probabilidade,
fundamentada a partir do teorema de Thomas Bayes, que é a probabilidade de um evento
ocorrer, dada a probabilidade de outro que já ocorreu. Ou seja, Probabilidade (Y dado X) =
Probabilidade(X e Y) / Probabilidade(X).
• Classificação baseada em regras, que é similar a Associação, visto que possui o
seguinte formato, SE condição ENTÃO conclusão, cujo objeto é criar associações, pares de
registros que possuem similaridade.
• Redes neurais (Neural Network), que são baseadas no conceito de neurônio
artificial análogo ao neurônio neural, envolvendo estruturas matemáticas que possuem
habilidade de aprendizado, dessa forma, cada unidade de entrada e saída é interligada às
outras por conexões que possuem pesos particulares, variando entre 1 e 1, que correspondem
a intensidade da conexão. Apesar da técnica em questão ter a capacidade de identificar
padrões para os quais não foi treinada técnica em questão requer um longo período para
treinamento, ajustes detalhados em seus parâmetros, bem como é complexa para utilização.
• Support Vector Machine (SVM), que são utilizadas para classificação de dados
em duas classes, cujos resultados apresentados com experimentos apresentam altos índices de
assertividade, possibilitando modelar situações complexas de fácil interpretação, em
contrapartida, seu tempo de aprendizado, geralmente, acaba sendo mais demorado.
• Classificação baseada em regras de associação, que se trata da aplicação das
regras de associação para classificação de dados é uma abordagem recente, cujo objetivo é
basicamente analisar os dados de treinamento para que se obtenha os itens frequentes, e a
partir destes são geradas as regras para classificação dos dados.
18
• Algoritmos genéticos, que consiste na técnica baseada na teoria da evolução, a

partir disso, a população inicial é aleatória e a seguinte é originada a partir da evolução da
anterior, em que seus atributos passagem por um processo de mutação, até que os atributos
atinjam ao objetivo proposto. Uma das diferenças desta técnica em relação as demais é que
esta trabalha com uma população e não somente um único ponto, utilizando regras de
transição probabilísticas e não determinísticas (ICMC).
2.3 Regressão
A Regressão é similar a categorização, porém, consiste na tarefa de identificação do

registro a partir de um valor numérico e não categórico. A partir disso, a regressão possui
técnicas conhecidas como Regressão Linear, que se refere à técnica em que a relação da
variável preditora e a predição possuem comportamentos lineares, a partir disso, o que
possibilita relacionar uma variável preditora a uma ou mais predições; e Regressão nãolinear,
este tipo de regressão a em que a relação da variável preditora e a predição não possuem
comportamentos lineares.
2.4 Agrupamento
O agrupamento (Clustering), consiste na tarefa de aproximação/agrupamento dos

registro com base nas similaridades entre eles, segmentando os bancos de dados em grupos ou
subconjunto, porém, não requerendo que estes estejam previamente categorizados, visto que o
próprio algoritmo é capaz de descobrir as classes. Uma das técnicas mais utilizadas nesta
tarefa é o kmeans, cuja função, basicamente, é dividir os dados em subconjuntos, também
denominados clusters, cujo total destes clusters é definido inicialmente; e
2.5 Associação
A associação consiste na tarefa de identificação dos relacionamento dos atributos, no

formato de SE...ENTÃO. A partir disso, o objetivo da tarefa em questão é identificar, por
exemplo, se X implica em Y. Sua implementação geralmente ocorre a partir de técnicas como
Apriori, sampling, DHP, entre outras (Pimentel e Omar, 2006).
19
2.6 Descrição
A descrição consiste na tarefa de descrever os padrões revelados pelos dados, sendo

muito utilizada no contexto de análise exploratória de tais dados.
Adicionalmente, notase que as tarefas de mineração de dados possuem funções
distintas e precisam ser escolhidas de acordo com o problema e com o tipo de conhecimento
que precisa ser gerado, e para cada tarefa, há diversos tipos de técnicas que podem ser
executadas de forma isolada ou combinadas para a realização das atividades de mineração de
dados, a decisão por tais combinações dependem de fatores relacionados a desempenho
computacional e grau de precisão de cada técnica aplicada a cada situaçãoproblema.
2.7 Aprendizado de Máquina
O Aprendizado de Máquina (AM) é uma área da Inteligência Computacional que

estuda o desenvolvimento de métodos que possibilitam a extração de conhecimento a partir de
dados, com isso, é avaliado a capacidade de um programa de computador aprender a melhorar
seu desempenho para executar determinada tarefa, a partir de experiências passadas (Mitchell,
1997). Adicionalmente, de acordo com Han (2006), o processo de desenvolvimento das
técnicas de Aprendizado de Máquina foi baseado em diversas áreas do conhecimento, como
por exemplo, sistemas biológicos, o que gerou as Redes Neurais e Algoritmos genéricos, que
possuem como associação o aprendizado humano (cérebro) e evolução genética,
respectivamente, bem como aprendizado simbólico, representado pelas Árvores de decisão,
ou também, nas Teorias estatísticas, o que resultou em ténicas como Support Vector Machine
(SVM).
Segundo Han (2006), o Aprendizado de Máquina é aplicado no processo de indução,
que consiste em um conjunto de treinamento de um classificador para previsão das classes do
domínio para o qual foi treinado. As técnicas de AM podem ser classificadas em dois tipos de
paradigmas, Aprendizado Supervisionado e Aprendizado NãoSupervisionado (Haykin,
2009), e a escolha destes paradigmas determina como tal aprendizado ocorrerá a partir de uma
base de dados. Estas classificações se distinguem a partir dos aspectos detalhados abaixo:
• O Aprendizado Supervisionado consiste no treinamento a partir de uma pré
categorização dos dados, ou seja, exemplos que são compostos pelo objeto de entrada e o
valor de saída esperado, tendo, assim, a figura de um “professorexterno”. A partir disso,
20
treinamento do algoritmo acontece a partir da análise dos dados de treinamento para produção
de uma saída inferida já apresentada, podendo, posteriormente, ser aplicado para classificação
de outros dados de entrada do mesmo domínio. Árvores de Decisão, KNearest Neighbour
(KNN), Naive Bayes e Support Vector Machine (SVM) são exemplos de algoritmos que
tratam este tipo de aprendizado de máquina.
• O Aprendizado NãoSupervisionado consiste em identificar uma estrutura não
conhecida sem uma saída já definida, ou seja, não há essa figura de “professor”, o algoritmo
aprende a agrupar as entradas, a partir das relações, padrões, categorias, entre outros, que
identifica, codificando a saída, com base em uma medida de similaridade entre os atributos.
Clustering, Estatística, Self Organizing Map (SOM), Kmeans são exemplos de algoritmos
que tratam este tipo de aprendizado de máquina.
21
3 Metodologia de Pesquisa
3.1 Revisão Bibliográfica
Para levantamento do conhecimento atual veiculado na literatura especializada e

referenciais teóricos sobre Knowledge Discovery in Databases (KDD), Mineração de dados,
Aprendizagem de máquina e suas respectivas tarefas e técnicas, com ênfase nos algoritmos
para Classificação de dados foi conduzida, incialmente, uma Pesquisa Bibliográfica sobre tais
temas.
3.2 Revisão Sistemática
Posteriormente, para entendimento da aplicação de tais algoritmos de mineração de

dados para identificação de padrões de consumo foi conduzida uma Revisão Sistemática (RS),
que segundo Biolchini (2005), tratase um método de pesquisa do conhecimento científico por
meio de coleta, combinação e avaliação crítica das descobertas das abordagens já
apresentadas, seguindo, assim, as diretrizes estabelecidas por Kitchenham (2007).
A condução da revisão possibilitou conhecer a aplicação de tais técnicas comumente
utilizadas no contexto de identificação de padrões de consumo de bens de informação, além
de conhecer as principais vantagens e desvantagens destas para o contexto em que foram
aplicadas, bem como os principais desafios encontrados referente a área de aplicação deste
trabalho, o que auxiliou na escolha das duas técnicas de classificação de dados aplicadas,
Naive Bayes e Support Vetor Machine (SVM), visto que estão entre as mais utilizadas e
apresentaram resultados positivos nos trabalhos analisados durante a RS.
3.2.1 Validação dos algoritmos de classificação
Para a aplicação das técnicas de classificação dos dados da Pesquisa de Orçamento

Famíliar (POF) realizada durante os 12 meses entre os anos de 20082009 pelo Instituto
Brasileiro de Geografia e Estatística (IBGE), inicialmente, foi efetuado o entendimento dos
dados contidos da base de dados em questão, conforme detalhado na seção 3.3.1, a partir de
seu layout, descritivo de tabelas e relacionamento entre elas e, sequencialmente, foram
22
aplicadas todas as etapas previstas no processo de Knowledge Discovery in Databases (KDD),

sendo estas:
1. Limpeza dos dados: consiste na eliminação de dados inconsistentes, incorretos
ou incompletos.
2. Integração dos dados: consiste na junção e combinação dos dados apresentados
de forma fragmentada, consolidando em apenas um fonte de dados centralizada.
3. Seleção dos dados: consiste na definição dos atributos e variáveis que são
relevantes para aplicação das técnicas em questão, a partir do conhecimento do tema;
4. Transformação dos dados: consiste na adequação dos dados para aplicação dos
algoritmos de mineração.
5. Mineração: aplicação dos algoritmos de aprendizagem de máquina para
extração dos padrões.
6. Avaliação ou Pósprocessamento: consiste na análise dos resultados obtidos na
etapa anterior, referente às variáveis que determinam a classificação dos dados e identificação
de padrões.
7. Visualização dos Resultados: consiste na apresentação do conhecimento obtido
a partir da base de dados utilizada aos usuários ou partes interessadas.
De acordo com o IBGE, a Pesquisa de Orçamentos Familiares – POF se trata de uma

“pesquisa domiciliar por amostragem, que investiga informações sobre características de
domicílios, famílias, moradores e principalmente seus respectivos orçamentos, isto é, suas
despesas e recebimentos.”, cuja duração é de 12 meses de coleta das informações de uma
amostragem significativa da população brasileira no período de 19 de maio de 2008 até 18 de
maio de 2009. A partir disso, a partir da POF é possível mensurar os gastos, recebimentos e
poupança da população através dos indivíduos e das famílias, bem como demonstrálos em
relação às regiões do país, tipos de produtos e serviços, e como tais informações se
apresentam durante o período de um ano, contemplando todas as épocas.
A amostragem considerada na POF é em relação aos domicílios particulares
permanentes. Em tais domicílios, identificase cada unidade básica da pesquisa, que
corresponde a cada morador do domicílio que compartilham da mesma fonte de alimentação
ou despesas com moradia. Os domínios para os quais se pode gerar resultados são:
“Municípios das Capitais, situação urbana, e área urbana das Regiões Metropolitanas, estas
últimas incluindo o Município da Capital”, conforme IBGE. Por fim, foram consideradas
como Regiões Metropolitanas na POF 20082009: Belém, Fortaleza, Recife, Salvador, Belo
23
Horizonte, Rio de Janeiro, São Paulo, Curitiba e Porto Alegre. Adicionalmente, as amostras
de domicílios foram selecionadas de forma aleatória e foram distribuídas da seguinte forma
entre os estados brasileiros, totalizando em 55.970 domicílios entrevistados.
Diniz (2010) em seu trabalho de análise do consumo de bens e serviços culturais no
Brasil metropolitano, com base nos dados da POF 20022003, considerando a abordagem
microeconômica do capital humano, em que o consumo de cultura é fortemente determinado
pela exposição prévia dos indivíduos a tais bens e serviços, a pesquisa identificou algumas
características individuais que influenciam esta exposição. A partir disso, concluiuse que o
consumo cultural, o que inclui bens de informação, como filmes em salas de cinema, é
determinado por variáveis socioeconômicas, educacionais e sócio demográficas do chefe do
domicílio, além das variáveis que indicam a localidade e região dos domicílios.
Por fim, os resultados do trabalho em questão indicam que o consumo cultural no
Brasil é fortemente determinado pela renda e grau de educação do consumidor, concentrando
se de forma mais expressiva no rendimento domiciliar. Além disso, apresentou variações de
acordo com as regiões do país, o que levouse a associar tal consumo com as variações de
oferta e/ou a distinções históricoculturais de cada região, bem como que algumas
características particulares do chefe do domicílio e, ao mesmo tempo, dos grupos influenciam
o consumo, estas podendo ser, a idade, gênero, raça/etnia e religião, afinal, podem representar
influências dos grupos e indicação de pertencimento a estes, e experiências pessoais de cada
indivíduo.
A partir de tais informações, este trabalho considerou para construção dos
classificadores, treinamento, testes e análise dos resultados os dados relacionados aos
domicílios, bem como de cada indivíduo, referente às variáveis socioeconômicas (renda, sexo,
idade, bem e papel na família, por exemplo), educacionais (grau de escolaridade, por
exemplo), sócio demográficas do chefe do domicílio e variáveis que indicam a localidade e
região dos domicílios (localização, estado, região metropolitana, zona rural/urbana, por
exemplo), além das informações de consumo de bens e serviços relacionados a cultura.
Para a construção, treinamento e testes dos classificadores, bem como para as
atividades iniciais de limpeza, integração e transformação dos dados, será utilizado o software
Waikato Environment for Knowledge Analysis (WEKA), que, conforme Abertnethy (2010),
consiste em um software gratuito e de código aberto, utilizado par mineração de dados e
transformação de conhecimento, que possibilita a implementação dos algoritmos escopo deste
trabalho, Naive Bayes e SVM. Tratase de um produto desenvolvido pela Universidade de
Waikato (Nova Zelândia), que utilizada a GNU General Public License (GPL) e foi
24
codificado em linguagem Java™. Adicionalmente, contém uma GUI para interação com
arquivos de dados e geração de resultados visuais, como por exemplo, tabelas e gráficos.
Dessa forma, todo o processo previsto no KDD será suportado pelo software em questão.
Considerando que toda técnica de mineração de dados passa por um processo de
treinamento, ou, também, denominado aprendizado, que consiste na apresentação dos dados já
processados para o algoritmo aprender tais características e identificar os padrões úteis para
descoberta do conhecimento, esta será a etapa inicial para a construção dos classificadores.
Posteriormente, visto que os algoritmos objeto deste trabalho são baseados em Aprendizagem
Supervisionada, que utiliza de um atributo chave para definição das classes dos dados, tais
exemplos serão utilizados nesta fase de treinamento.
Como a base da POF possui muitos registros, estes serão divididos entre as fases de
treinamento, teste e validação do modelo, conforme detalhamento da subdivisão dos três
conjuntos, segundo Camilo e Silva (2009):
i. Conjunto de Treinamento (Training Set), consiste nos registros para
desenvolvimento do modelo;
ii. Conjunto de Testes (Test Set), consiste no conjunto de registros utilizados para
teste do modelo;
iii. Conjunto de Validação (Validation Set), consiste no conjunto de registros
utilizados para validação do modelo;
Dessa forma, a divisão da quantidade de registros da fase de treinamento e teste dos
classificadores corresponderá a 90% da amostra de dados da base da POF. Após a modelagem
e construção dos classificadores, o modelo será validado utilizando os 10% restantes dos
dados da POF, não utilizados na fase de treinamento, para categorização dos indivíduos.
Adicionalmente, tal divisão é efetuada para não se criar dependência do modelo para um
conjunto de dados específico, mas sim para este ser submetido a outros dados e apresentar
precisão satisfatória.
A partir dos dados da POF, os seguintes classificadores macro serão previamente
definidos para treinamento e comparação dos resultados: a. Indivíduos e famílias que
consumiram filmes em salas de cinema no Brasil; e b. Indivíduos e famílias que não
consumiram filmes em salas de cinema no Brasil.
Por fim, a avaliação dos resultados obtidos e análise comparativa dos algoritmos de
classificação, a partir dos seus respectivos conjuntos de estimativas, será efetuada
considerando o desempenho dos algoritmos a partir das medidas de precisão, cobertura e
acurácia, que segundo, são medidas interessantes na avaliação do desempenho de
25
classificações binárias, suas definições podem ser vistas nas Fórmulas 1, 2 e 3, abaixo, que
representam a porcentagem dos dados pertencentes à classe e que foram recuperados
(Predição), porcentagem dos dados que foram corretamente classificados (Cobertura) e a
porcentagem dos dados que foram corretamente classificados em relação à medida de
acurácia (Acurácia) (Boeachat, 2012).
Predição = Pv/(Pv + Pf) (1
Cobertura = Pv/(Pv + Nf) (2
Acurácia = (Pv + Nv)/Pv + Pf + Nv + Nf (3
)
26
4 Revisão Sistemática
O objetivo da Revisão Sistemática foi identificar os métodos e técnicas de

reconhecimento de padrões mais utilizados no estado na arte e observar os experimentos
relacionados à aplicação dos algoritmos para identificação de determinantes de padrões de
consumo, bem como os resultados e fatores considerados para as análises comparativas entre
tais técnicas.
4.1.1 Questões de pesquisa
Foram elaboradas uma questão principal de pesquisa e uma questão secundária para
atender aos objetivos propostos desta Revisão Sistemática, sendo estas:
Questão primária: Que tipo e quais técnicas de reconhecimento de padrões
são aplicadas para identificação de determinantes de padrões de consumo?
Para responder esta pergunta foram consideradas, além dos nomes dos algoritmos e
suas respectivas técnicas, estas podendo ser Redes Neurais, Arvores de Decisão e ETC, foram
consideradas também as seguintes classificações: Aprendizado Supervisionado, e suas
subdivisões Classificação e Regressão, e Aprendizado nãosupervisionado e suas subdivisões
Agrupamento e Regras de Associação.
Questão secundária 1: Quais são as principais vantagens e desvantagens

apresentadas na utilização de cada uma das técnicas estudadas?
Para responder esta pergunta foram considerados todos os aspectos e critérios
apresentados nas pesquisas referente aos pontos positivos e negativos da aplicação dos
algoritmos de reconhecimento de padrões estudados.
4.2 Estratégia de busca para seleção de estudos
A busca e seleção dos estudos ocorreu a partir considerando como fonte de dados a
base biblioteca digital IEEExplore. A fonte em questão foi escolhida a partir de análise
exploratória em relação ao tema geral de pesquisa, visto que é um repositório de busca de
trabalhos muito reconhecido nesta área. Foi considerado somente trabalhos no idioma inglês,
visto que é a principal língua para redação de trabalhos científicos conhecida e aceita
27
internacionalmente. A string de busca formada na etapa de condução da RS considerou as

seguintes palavraschave: "variable selection”, "feature selection”, "consumption". As
respectivas palavraschave foram definidas com base na análise exploratória efetuada a
respeito do assunto e, também, com base nas questões de pesquisa, cujo objetivo é verificar de
forma ampla as técnicas de aprendizagem de máquina aplicadas para reconhecimento de
padrões de consumo, sem restrição a uma técnica ou modelo específico de mineração de
dados.
4.2.1 Uma seção terciária
Foram considerados nesta Revisão Sistemática os seguintes critérios de inclusão e

exclusão, respectivamente, para a seleção dos estudos:
Critérios de inclusão
CI.1: Serão incluídos trabalhos publicados e disponíveis em bases de dados científicas
ou em versões impressas.
CI.2: Serão incluídos trabalhos que possuam abordagem de aplicação de métodos e
técnicas de aprendizagem de máquina e reconhecimento de padrões.
CI.3: Serão incluídos trabalhos que efetuam comparação das técnicas de aprendizagem
de máquina e reconhecimento de padrões de bases de dados que envolvam bens de
informação e que possuam aplicação para determinação de padrões de consumo.
CI.4: Serão incluídos trabalhos que propõem novas técnicas de aprendizagem de
máquina e reconhecimento de padrões e apresentem seus benefícios e vantagens em relação às
técnicas já existentes.
Critérios de exclusão
CE.1: Serão excluídos trabalhos que apresentam avaliações sem apresentar o método e
técnicas utilizadas.
CE.2: Serão excluídos trabalhos que não apresentem estudos experimentais para
validar a proposta de aplicação de determinada(s) técnica(s) de aprendizagem de máquina e
reconhecimento de padrões.
CE.3: Serão excluídos trabalhos que não possuam análise das vantagens e
desvantagens referente à aplicação de um ou mais métodos e técnicas de aprendizagem de
máquina e reconhecimento de padrões.
28
4.3 Outra seção secundária
O processo de seleção de estudos primários contemplou a elaboração de string com as

palavraschave definidas. A partir disso, a string foi submetida à máquina de busca do IEEE
Xplore.
Após a leitura do título, ano de publicação e resumo dos artigos, foram aplicados os
critérios de inclusão e exclusão para préseleção do trabalho, posteriormente, todos os textos
foram lidos na íntegra e selecionados, se confirmada a sua relevância pelo principal revisor
(aluno). Nas situações de dúvida da relevância, o orientador foi consultado.
Os trabalhos incluídos na revisão sistemática foram lidos na íntegra e foi elaborada
uma resenha de todos eles, destacando os métodos e técnicas utilizadas em relação ao objetivo
proposto. Foram extraídas as seguintes as informações dos trabalhos relacionados:
Data de publicação;
Local de publicação;
Autores;
Resumo/abstract;
Métodos e Técnicas utilizadas.
Adicionalmente, a partir dos objetivos propostos, foram definidas três categorias para
classificação dos trabalhos, sendo estas:
I. Comparação de técnicas de reconhecimento de padrões: artigos que
apresentem, em sua essência, experimentos e estudos de caso de comparação de diferentes
técnicas de reconhecimento de padrões, apresentando a análise das vantagens e desvantagens
destas;
II. Aplicação de técnicas de reconhecimentos de padrões: artigos que apresentem,
em sua essência, somente experimentos e estudos de caso de aplicação de uma técnica de
reconhecimento de padrões em um contexto específico.
III. Novos modelos ou combinações de técnicas de reconhecimento de padrões:
artigos que apresentem, em sua essência, experimentos e estudos de caso que propõem novas
técnicas ou a combinação destas de forma inovadora.
4.4 Condução
29
Para seleção dos estudos foi efetuada a formação de string genérica de busca a partir
das combinações das palavras chave definidas, sendo esta:
("variable selection" OR "feature selection") AND "consumption"
A partir disso, seguindo as regras da fonte de busca da pesquisa, IEEE Xplore, foi
gerada a seguinte string:
(((("variable selection") OR "feature selection") AND "consumption"))
Ao todo, a máquina de busca retornou 48 artigos que foram submetidos ao processo de

seleção de estudos, aplicação dos critérios de inclusão e exclusão e, dessa forma, foram
selecionados 20 artigos de estudo para compor a síntese da pesquisa. A Tabela 1 apresenta a
relação de artigos submetidos ao processo de seleção e, também, em sua última coluna, o
resultado das análises de tais artigos.
A leitura completa de cada um dos trabalhos selecionados foi realizada e para análise
de tais artigos, estes foram categorizados e, a partir das categorias apresentadas anteriormente,
foi utilizado um formulário padrão para extração das informações necessárias, conforme
informações apresentadas na subseção “Seleção final” do processo de seleção de estudos.
A análise dos resultados obtidos, de acordo com as informações coletadas e as leituras
efetuadas, encontrase descrita nas próximas seções.
4.5 Resultados
Nesta seção, serão apresentados os resultados obtidos com a condução da revisão

sistemática, conforme objetivos e questões de pesquisa descritos nas seções anteriores.
A partir disso, o sumário dos trabalhos selecionados se encontra apresentado na Tabela
2. Algumas colunas como “Ano”, “Veículo de Publicação” e, principalmente, “Técnicas
utilizadas” foram acrescentadas para auxiliar o mapeamento dos trabalhos. A primeira coluna
da tabela apresenta o índice dos 20 artigos selecionados. A coluna “Título” contém o título do
trabalho selecionado. As colunas intituladas como “Ano”, “País” e “Veículo de publicação”
apresenta o ano, o país e o veículo em que o trabalho foi publicado, respectivamente. A
coluna “Autores” contém a relação de todos os autores responsáveis pelo trabalho. A coluna
“Categoria” apresenta a categoria de cada artigo, conforme especificação desta na seção
anterior. E, por fim, a coluna intitulada como “Técnicas utilizadas”, apresenta as técnicas de
30
reconhecimento de padrões ou seleção de variáveis estudadas e utilizadas nos trabalhos

selecionados.
A pesquisa demonstrou que não há uma concentração expressiva na utilização de uma
técnica de reconhecimento de padrões específica, as pesquisas apresentam a análise
comparativa e estudos experimentais de técnicas diversas, conforme apresentado na Tabela 2.
Porém, notase que a técnica como SVM (Support Vector Machine) foi apresentada com
maior frequência nas pesquisas.
Tabela 2 – Sumário dos trabalhos selecionados
Título Veículo de Técnicas
# Ano País Autores Categoria
publicação utilizadas
A Naive Feature Aplicação de
Selection Computational Tieming Chen; técnicas de
Method and Its Intelligence and Xiaoming Pan; reconhecimentos
1 Application in 2010 China Security (CIS), 2010 Yiguang Xuan; de padrões C4.5, CFS
Network International Jixia Ma; Jie
Intrusion Conference Jiang
Detection
Mutivariable Comparação de
mutual Machine Learning técnicas de
SVR
information and Cybernetics reconhecimentos
MMISVR
2 based feature 2012 China (ICMLC), 2012 ZhiWei Qiu de padrões
MIMISVR
selection for International
MISVR
electricity price Conference
forecasting
Feature Aplicação de
Applied Machine
selection for técnicas de
Intelligence and
support vector Haixiang reconhecimentos
Informatics (SAMI),
3 regression in the 2011 China Zhao; de padrões SVR
2011 IEEE 9th
application of Magoulès, F.
International
building energy
Symposium
prediction
A feature Information and Aplicação de
Qingshan CDCBF
selection Automation (ICIA), técnicas de
Jiang; Xinxing IG
4 method for 2011 China 2011 IEEE reconhecimentos
Zhao; Kai DSFS
malware International de padrões
Huang FCBF
detection Conference
5 Optimizing 2008 China WebAge Dai Lei; Yun Aplicação de ChiSquared –
Traffic Information Xiaochun; Xiao técnicas de C4.5 NBK
Classification Management, 2008. Jun reconhecimentos FCBF
31
Using Hybrid WAIM '08. The de padrões

Feature Ninth International
Selection Conference
Approximate Comparação de
SOM
nearest neighbor técnicas de
Computer Science Clustering
search using Yodkhad, P.; reconhecimentos
and Engineering combinado
selforganizing Kawewong, A.; de padrões
6 2014 Tailândia Conference com PCA
map clustering Patanukhom,
(ICSEC), 2014 2DPCA
for face K.
International SOMFace
recognition
kd Tree.
system
New method for Novos modelos
nonintrusive ou combinações
Control and
data extraction de técnicas de
Decision Conference Zhenyu Wang;
7 and 2011 China reconhecimento NILM, DSM
(CCDC), 2011 Guilin Zheng
classification of de padrões
Chinese
residential
appliances
Mining Novos modelos MReCDFS
Recurring ou combinações comparado
Concepts in a de técnicas de com
Dynamic reconhecimento NB
Feature Space de padrões MW(100)
OzBoostAdwi
Neural Networks Gomes, J.B.; n
and Learning Gaber, M.M.; DWM
8 2014 Cingapura
Systems, IEEE Sousa, P.A.C.; DDM
Transactions on Menasalvas, E. Rec
Rec+DFS(0.0
1)
Rec+DFS(30
0)
Rec+DFS(Ad
ap)
9 Ensemble based 2013 Índia Computing, Balachandran, Comparação de SMO
optimal Communications K.; Anitha, R. técnicas de MultiLayer
classification and Networking reconhecimentos Perceptron
model for pre Technologies de padrões (MLP)
diagnosis of (ICCCNT),2013 IBK
lung cancer Fourth International Logistic
32
Conference on Random
Forest (RF)
Multiclass
Classifier
LogitBoost e
RandomTree
GATSC4.5: An Consumer Aplicação de
Algorithm for Communications You Chen; Lei técnicas de
10 Optimizing 2008 China and Networking Dai; XueQi reconhecimentos GATS C4.5
Features in Flow Conference, 2008. Cheng de padrões
Classification CCNC 2008
Classification Novos modelos
Related ou combinações
Image and Graphics
Manifold de técnicas de
(ICIG), 2013
Dimension Kezhen Teng; reconhecimento
11 2013 China Seventh RBM, SVM
Estimation with Jinqiao Wang de padrões
International
Restricted
Conference on
Boltzmann
Machine
Analysis of Comparação de Naïve Bayes
Features técnicas de (NB)
Selection and reconhecimentos Knearest
Machine de padrões Neighbour
Information Science Mas'ud, M.Z.;
Learning (KNN)
and Applications Sahib, S.;
Classifier in Decision Tree
12 2014 Malásia (ICISA), 2014 Abdollah,
Android (J48) Multi
International M.F.; Selamat,
Malware Layer
Conference on S.R.; Yusof, R.
Detection Perceptron
(MLP)
Random
Forest (RF)
Relation of Novos modelos
Awareness Science
home energy ou combinações
and Technology
consumption Tamano, K.; de técnicas de Naïve Bayes
13 2011 China (iCAST), 2011 3rd
and static Tsuji, H. reconhecimento (NB)
International
properties of de padrões
Conference on
consumers
14 The research of 2012 China Fuzzy Systems and Suxiang Zhang Novos modelos ME
the resident user Knowledge ou combinações (maximum
classification Discovery (FSKD), de técnicas de entropy)
33
based on the 2012 9th reconhecimento

maximum International de padrões
entropy in the Conference on
smart grid
EnergyEfficient Novos modelos
Signal Pianegiani, F.; ou combinações
Instrumentation and
Classification in Mingqing Hu; de técnicas de
15 2008 Itália Measurement, IEEE νSVM
Ad hoc Wireless Boni, A.; Petri, reconhecimento
Transactions on
Sensor D. de padrões
Networks
Dayahead price Novos modelos
Power and Energy
forecasting of ou combinações
Society General
electricity de técnicas de
Meeting AC+ARIMA
markets by reconhecimento
Conversion and Amjady, N.; AC+NN
16 combination of 2008 EUA de padrões
Delivery of Daraeepour, A. PCA+NN
mutual
Electrical Energy in MI+NN
information
the 21st Century,
technique and
2008 IEEE
neural network
A smart phone Bioelectronics and Aplicação de
based pocket Bioinformatics LihJen Kau; técnicas de
17 fall accident 2014 China (ISBB), 2014 IEEE ChihSheng reconhecimentos SVM
detection system International Chen de padrões
Symposium on
What is the Comparação de OPF
importance of técnicas de OPFPSO
Ramos, C.C.O.;
selecting Circuits and Systems reconhecimentos SVMRBF
Papa, J.P.;
features for non (ISCAS), 2011 IEEE de padrões SVM
18 2011 Brasil Souza, A.N.;
technical losses International noKernel
Chiachia, G.;
identification? Symposium on ANNMLP
Falcao, A.X.
SOM
kNN
19 Improving 2010 Brasil Systems Man and de L Vieira, Novos modelos LVF
reinforcement Cybernetics (SMC), D.C.; ou combinações
learning 2010 IEEE Adeodato, de técnicas de
algorithms by International P.J.L.; reconhecimento
the use of data Conference on Gonçalves, de padrões
mining P.M.
techniques for
feature and
34
action selection
Lightweight Novos modelos
Computational
IDS Based on ou combinações
Science and
Features de técnicas de
Engineering, 2009. Zaman, S.; SVM
20 Selection and 2009 Canadá reconhecimento
CSE '09. Karray, F. IDS
IDS de padrões
International
Classification
Conference on
Scheme
Adicionalmente, a pesquisa realizada mostrou, também, que os estudos relacionados a

reconhecimento de padrões e técnicas de mineração de dados estão concentrados no
continente asiático, com destaque a China, representa 75% dos artigos selecionados.
Adicionalmente, 20% na América, sendo 10% na América do Sul (Brasil) e 10% na América
do Norte, e 5% na Europa (Itália).
Os trabalhos relacionados na Tabela 2 são sucintamente apresentados nas próximas

subseções, organizados de acordo com as classificações atribuídas aos grupos de artigos:
Comparação de técnicas de reconhecimentos de padrões
Os artigos pertencentes ao grupo em questão se referem ao estudo e análise

comparativa de diferentes técnicas de reconhecimento de padrões e seleção de variáveis em
cenários distintos.
Mas'ud, Sahib, Abdollah, Selamat e Yusof (2014) apresentam experimentos para
comparação de métodos de aprendizagem de máquina para classificação de variáveis no
contexto de detecção de malwares para Android, utilizando as seguintes técnicas Naïve Bayes
(NB), Knearest, Neighbour (KNN), Decision Tree (J48), MultiLayer Perceptron (MLP) e
Random Forest (RF) em máquinas de aprendizagem de classificadores distintas. A partir
disso, o resultado do estudo indicou que foi alcançado o melhor desempenho global a partir
do método MLP utilizando o conjunto de seleção derivado do método de seleção de atributos.
Já ZhiWei (2012) apresenta efetua estudos experimentais comparando a técnica SVR
e suas variações (MMISVR, MIMISVR, MISVR) no contexto de identificação de padrões
de consumo de eletricidade para projeção dos seus respectivos preços. Os experimentos
efetuados demonstram que tal método juntamente com a proposta de “informação mútua
35
multivariada” (MMISVR) para seleção deste tipo de variável atinge previsão mais exata
neste contexto do que outros métodos de seleção conhecidos.
Yodkhad, Kawewong e Patanukhom (2014) propõe a aplicação da rede SOM para
busca de agrupamentos de bases de dados, melhorando a eficiência do sistema de
reconhecimento facial do “vizinho” mais próximo. Neste contexto, o desempenho do método
em questão foi aplicado em três métodos de extração de características, sendo eles PCA
(Análise de componentes principais), 2DPCA (Análise bidimensional de componentes
principais) e SOMFace. Por fim, os experimentos em 1560 imagens faciais de 156 pessoas
demonstraram que o método proposto possui melhor desempenho que a árvore kd e busca
por força bruta.
Em contrapartida, a partir de estudos experimentais realizados por Ramos, Papa,
Souza, Chiachia e Falcao (2011), no contexto de perdas não técnicas de identificação
automática, a técnica SOM não apresentou melhor desempenho, visto que foi efetuada a
comparação da técnica OPF com outras técnicas de reconhecimento de padrões relacionadas a
perdas não técnicas de identificação automática, sendo estas a própria SOM e outras técnicas
como SVMRBF, SVMnoKernel, ANNMLP e kNN, e, posteriormente, o método
tradicional OPF foi comparado com o OPFPSO a fim de selecionar os atributos mais
representativos e também classificálos. A partir disso, o resultado dos experimentos
demonstraram que, no primeiro, os classificadores mais precisos foram OPF e kNN e já no
segundo o modelo OPFPSO apresentou melhores resultados em relação ao OPF.
No contexto de utilização da mineração de dados para definição de classificadores de
predição de câncer de pulmão com base nos sintomas e fatores de risco da doença,
Balachandran e Anitha (2013) observaram através de experimentos, que a abordagem do
treinamento supervisionado é superior à abordagem de validação cruzada e que os algoritmos
de classificação como SMO, MultiLayer Perceptron, IBK, Logistic, Random Forest
,Multiclass Classifier, LogitBoost e RandomTree são mais adequados no contexto de
treinamento supervisionado para agrupamento de dados.
Aplicação de técnicas de reconhecimentos de padrões
Os artigos pertencentes ao grupo em questão se referem à aplicação de técnicas de

reconhecimento de padrões e seleção de variáveis em cenários pouco explorados até o
momento.
36
Haixiang e Magoulès (2011) apresentam a aplicação do modelo SVR no contexto de

consumo de energia, a partir de experimentos em dois núcleos (Kernels) distintos, porém,
ambos demostram que os métodos propostos possibilitam a seleção ótima de um subconjunto
de variáveis em um tempo computacional reduzido.
Dai, Yun e Xiao (2008) Jun apresentam um método de seleção de característica
híbrida para classificação de um fluxo no contexto de classificação das aplicações em rede,
utilizando o algoritmo ChiSquared – C4.5, os experimentos efetuados indicam que a
abordagem proposta pode reduzir significativamente o desempenho computacional sem
impactar na precisão da classificação. Adicionalmente, tais experimentos indicam também
esta abordagem funciona melhor do que o método NBK FCBF.
Reforçando o estudo acima, Chen; Dai; Cheng (2008) propõem a seleção de
características dos dados através do algoritmo baseado em árvores de seleção, GATS C4.5,
sendo o Algoritmo Genético de Busca Tabu (GATS) como estratégia de busca e o algoritmo
C4.5 como função de avaliação, para a construção de um classificador de fluxo “leve”. E tais
experimentos também demonstraram que a técnica em questão possui velocidade rápida e alta
precisão, dessa forma, o classificador utilizando esta combinação possui uma melhora
significativa no desempenho computacional sem impacto negativo na previsão da
classificação, além disso, indica também que o desempenho é superior a classificadores como
NBKFCBF em todas as classes.
Já Tieming, Xiaoming, Yiguang, Jixia e Jie (2010), propõem um recurso de busca
eficiente para seleção de características relevantes e não redundantes no contexto de intrusão
de rede, utilizando os algoritmos C4.5 e CFS, e tais experimentos também indicam a seleção
ótima de recursos com um bom desempenho computacional a partir de tais técnicas.
Em paralelo, Qingshan, Xinxing e Huang (2011) propõe uma métrica de seleção de
características, método CDCBF (Class Driven Correlation based Feature Selection), no
contexto de detecção de malwares, que verifica os subgrupos que possuem classificação e
calcula a associação entre as suas características, apresentando, também, resultados positivos
em relação à precisão da classificação e custo computacional de processamento.
Por fim, LihJen; ChihSheng (2014) propõem um smartphone com um sistema
inteligente de detecção de acidentes utilizando a técnica SVM que apresentou resultados
vantajosos em relação carga computacional e consumo de energia, visto que foram
representativamente reduzidos, além do bom desempenho e aumento na
precisão/especificidade dos resultados obtidos.
37
Novos modelos ou combinações de técnicas de reconhecimento de padrões
Por fim, os artigos pertencentes ao grupo em questão se referem a novas propostas de

técnicas de reconhecimento de padrões e seleção de variáveis, se distinguindo no contexto em
que foram aplicadas e nas combinações de técnicas utilizadas em tais experimentos.
Wang e Zheng (2011) utilizaram variações das técnicas NILM, DSM para da
classificação e identificação de dados de forma não intrusiva nos aparelhos de monitoramento
residencial, utilizando o tempo de reação humana como unidade escala de tempo (frequência
de amostragem). Já Gomes, Gaber, Sousa e MenaSalvas (2014), combinaram a técnica
MReCDFS com NB, MW(100), OzBoostAdwin, DWM, DDM, Rec, Rec+DFS(0.01),
Rec+DFS(300), Rec+DFS(Adap) para elaboração de um sistema de aprendizado fluxo de
dados em um espaço que possui característica dinâmica, cujos resultados apresentaram que a
seleção de recurso minimiza o custo associado para aprendizagem de máquina neste cenário.
Tamano, Tsuji (2011), utilizou uma variação da técnica de Naïve Bayes (NB) para
desenvolvimento de um método rápido de notificação de consumo de energia e suas
tendências de consumo, cujos experimentos demonstraram que a precisão obtida não é muito
elevada, porém, têmse diversas propriedades estáticas sugestivas. No ano seguinte, em 2012,
Suxiang apresentou a variação da técnica ME (maximum entropy) para, também identificar
padrões de consumo de energia, que apresentou vantagens em relação à técnica original em
relação à precisão dos resultados obtidos.
Teng e Wang (2013) propõem um método para estimar a classificação relacionada à
estratégia de estimação da dimensão utilizando RBM (Restricted Boltzmann Machine) e
classificadores SVM. Adicionalmente, uma nova estratégia de inicialização é proposta para
acelerar o processo de treinamento da máquina (RBM) e tais métodos foram verificados em
conjuntos de dados reais e sintéticos, e, com isso, temse como resultado que o método de
classificação, em relação à estratégia de estimativa de dimensão a partir da utilização da
RBM, é efetivo em relação à precisão e baixo tempo de consumo e utilização de memória.
Em 2008, Pianegiani, Mingqing, Boni e Petri, propuseram uma variação da técnica ν
SVM para utilização de sensores sem fio de baixa potência para a classificação de sinais de
rede, cujos resultados os experimentos alcançaram baixo consumo de energia e utilização
eficiente dos recursos de hardware e mostraram que a precisão da execução proposta é
comparável com que as técnicas já conhecidas na literatura. No mesmo ano, Amjady e
Daraeepour, propuseram a combinação das técnicas AC+ARIMA, AC+NN, PCA+NN,
MI+NN, para previsão do preço em relação ao mercado de eletricidade e esta última
38
apresentou melhores resultados em relação ao custo computacional e precisão. No ano

seguinte, Vieira, Adeodato e Gonçalves, propuseram uma nova aplicação da técnica LVF para
um problema específico do RoboCup futebol, o “drible”, cujos resultados dos experimentos
apresentaram a redução da quantidade de variáveis no ambiente e da quantidade de ações, o
que resultou numa redução no consumo de memória e um aumento no desempenho, conforme
a distribuição de frequência relativa de sucesso do agente.
Por fim, Zaman e Karray, propuseram uma validação da técnica IDS, denominada IDS
Leve, para construção de um sistema de Detecção de intrusão e, com isso, comparada com a
técnica SVM, a IDS leve possui desempenho satisfatório, em relação à precisão de
classificação e redução do tempo de treinamento, para ser utilizado como elemento
permanente para segurança da rede e infraestrutura.
4.6 Discussão e Resultados
A partir dos estudos efetuados, notouse que todos os trabalhos, mesmo realizando
análises comparativas de técnicas de reconhecimento de padrões, propondo novas variações
ou combinações destas ou avaliando os resultados dos experimentos a partir das aplicações de
tais técnicas, consideraram, unanimemente, as seguintes métricas para tais análises
comparativas: precisão dos classificadores e desempenho computacional.
Adicionalmente, não foram identificadas pesquisas e experimentos que aplicassem tais
técnicas no contexto de bens de informação. E, apenas um dos artigos estudados, aplicou tais
técnicas para reconhecimento de padrões de consumo, porém, voltado para consumo de
energia elétrica. Não foram identificados trabalhos que efetuaram experimentos para seleção
de variáveis e apuração de determinantes de consumo ou preferência humana.
De forma geral, os estudos efetuados em relação às técnicas de reconhecimento de
padrões não estão concentrados em uma área específica, visto que os artigos estudados foram
aplicados em áreas e contextos distintos, sendo estes, saúde, segurança domiciliar, detecção
de malwares, segurança de rede, detecção de movimentos, entre outros, o que reforça a
aplicabilidade da mineração de dados nos mais variados segmentos e situaçõesproblema.
Adicionalmente, a partir dos estudos efetuados, é possível afirmar que devido à
abrangência das áreas de aplicação identificadas nos artigos estudados, notouse, também,
uma variedade nas técnicas de reconhecimento de padrões utilizadas, sendo que algumas delas
apresentavam melhor desempenho em determinados contextos e em outros possuíam
desempenho inferior. Com isso, não foi identificada uma concentração expressiva na
39
utilização de determinada técnica de reconhecimento de padrões ou seleção de variáveis, o

que se pode inferir que a escolha e o desempenho destas em relação à precisão das
classificações de dados e custo computacional dependem diretamente do contexto em que são
aplicadas, devendose levar em consideração alguns aspectos como seu objetivo, recursos
computacionais disponíveis e bases de dados a serem utilizadas.
O interesse na área de reconhecimento de padrões tem crescido muito nos últimos
anos, visto que se trata de uma tarefa de classificação ou categorização de um elevado volume
de dados em um contexto dinâmico em que a precisão dos resultados e o desempenho
computacional são aspectos fundamentais para apoio a tomada de decisão e resolução de
problemas complexos.
Dessa forma, diante do cenário em questão, este relatório apresentou o processo de
condução de uma revisão sistemática cujo objetivo principal foi identificar métodos e técnicas
de reconhecimento de padrões mais utilizados pelo estado na arte e os experimentos
relacionados à aplicação de técnicas de reconhecimento de padrões para identificação de
determinantes de padrões de consumo de bens de informação.
A partir da revisão efetuada, podese afirmar que a aplicação das técnicas de
reconhecimento de padrões no contexto de definição de determinantes de padrões de consumo
de bens de informação não é um tópico de pesquisa maduro e desenvolvido, visto que não foi
abordado em nenhum dos trabalhos estudados. Adicionalmente, concluise também que tais
técnicas podem ser aplicadas nos mais diversos contextos e áreas e que a escolha e o
desempenho das técnicas de reconhecimento de padrões e seleção de variáveis, em relação à
precisão das classificações de dados e custo computacional, dependem diretamente destes
contextos.
5 Cronograma
Este trabalho será composto pelas seguintes etapas e executado durante os anos de 2015 a 2017,
conforme detalhamento abaixo:
CRONOGRAMA
2015 2016 2017
1
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11
2
Estudo da literatura x x x x x x x x x x x x x x x x x x x x x x x x
Definição da proposta x x x x x x x
Execução da proposta x x x x x x
Validação da proposta x x x x x x x
40
Preparo da qualificação x x x X
Exame de qualificação X
Coleta/obtenção de dados x x
Limpeza dos dados x x
Integração dos dados x x x
Seleção e transformação
x x x
dos dados
Análise dos dados x x x x x
Mineração dos dados x x x
Avaliação do pós
x x
processamento
Visualização dos
x
resultados
Análise dos resultados x x
Escrita da dissertação x x x x x x x x x x x x x x x x
Escrita de artigo x x x x x x x x x x x x
Depósito da dissertação x x
Referências1
AGENCIA NACIONAL DE CINEMA. Valor Adicionado pelo setor audiovisual, 2015.

Disponível em: <http://oca.ancine.gov.br/media/SAM/Estudos/VALORADICIONADO
PELOSETORAUDIOVISUAL.pdf>. Acesso em: 10 mai. 2016.
AGENCIA NACIONAL DE CINEMA. Informe Anual 2009, 2009. Disponível em:

http://oca.ancine.gov.br/media/SAM/Informes/2009/InformeAnual2009.pdf. Acesso em: 10
mai. 2016.
Amo, S.; Rocha, A.R. “Mining Sequential Patterns using Genetic Programming”.
International Conference on Artificial Intelligence, 2003, Las Vegas, USA, p. 451456.
Amjady, N.; Daraeepour, A., "Dayahead price forecasting of electricity markets by

combination of mutual information technique and neural network," Power and Energy Society
General Meeting Conversion and Delivery of Electrical Energy in the 21st Century, 2008
IEEE , vol., no., pp.1,7, 2024 July 2008
Balachandran, K.; Anitha, R., "Ensemble based optimal classification model for prediagnosis
of lung cancer," Computing, Communications and Networking Technologies (ICCCNT),2013
Fourth International Conference on , vol., no., pp.1,7, 46 July 2013
Boeachat, A.A..Algoritmos para a detecção de drifting em sensores de fundo de poço.

Florianópolis: Universidade Federal de Santa Catarina, 2012.
Biolchini, J.; Mian, P. G.; Natali, A. C. C.; Travassos, G. H. (2005). Sytematic review in
1
De acordo com a Associação Brasileira de Normas Técnicas. NBR 6023.
41
software engineering. Technical report, RT–ES 679/05 System Engineering and Computer
Science Dept., COOPE/UFRJ.
Camilo, O.C., Silva, J.C. “Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas”,
Goiás: Universidade Federal de Goiás, 2009.
Canclini, N. G. Consumidores e cidadãos: conflitos multiculturais da globalização. 4 ed. Rio

de Janeiro: Editora UFRJ, 1999.
Dai Lei; Yun Xiaochun; Xiao Jun, "Optimizing Traffic Classification Using Hybrid Feature
Selection," WebAge Information Management, 2008. WAIM '08. The Ninth International
Conference on , vol., no., pp.520,525, 2022 July 2008
Diniz, S.C. “Análise do consumo de bens e serviços artísticoculturais no Brasil

metropolitano”. Minas Gerais: Universidade Federal de Minas Gerais, 2009.
de L Vieira, D.C.; Adeodato, P.J.L.; Gonçalves, P.M., "Improving reinforcement learning

algorithms by the use of data mining techniques for feature and action selection," Systems
Man and Cybernetics (SMC), 2010 IEEE International Conference on , vol., no.,
pp.1863,1870, 1013 Oct. 2010
Gomes, J.B.; Gaber, M.M.; Sousa, P.A.C.; Menasalvas, E., "Mining Recurring Concepts in a
Dynamic Feature Space," Neural Networks and Learning Systems, IEEE Transactions on ,
vol.25, no.1, pp.95,110, Jan. 2014
FAYYAD, U.; SHAPIRO, G.P.; SMYTH, P. From Data Mining to Knowledge Discovery in
Databases. American Association for Artificial Intelligence. United States, 1996.
Haixiang Zhao; Magoulès, F., "Feature selection for support vector regression in the
application of building energy prediction," Applied Machine Intelligence and Informatics
(SAMI), 2011 IEEE 9th International Symposium on , vol., no., pp.219,223, 2729 Jan. 2011
Han, J; KAMBER, M. Data Mining: Concepts and Techniques. Elsevier, 2006.
Hofstede, G. J.; Minkov, M.; Cultures and Organizations: Software of the Mind. 3 ed.
McGrawHill USA, 2010.
42
Kezhen Teng; Jinqiao Wang, "Classification Related Manifold Dimension Estimation with
Restricted Boltzmann Machine," Image and Graphics (ICIG), 2013 Seventh International
Conference on , vol., no., pp.857,862, 2628 July 2013
LihJen Kau; ChihSheng Chen, "A smart phonebased pocket fall accident detection system,"
Bioelectronics and Bioinformatics (ISBB), 2014 IEEE International Symposium on , vol., no.,
pp.1,4, 1114 April 2014
Mas'ud, M.Z.; Sahib, S.; Abdollah, M.F.; Selamat, S.R.; Yusof, R., "Analysis of Features
Selection and Machine Learning Classifier in Android Malware Detection," Information
Science and Applications (ICISA), 2014 International Conference on , vol., no., pp.1,5, 69
May 2014
MINISTÉRIO DA CULTURA.; Economia e Política Cultural: acesso, emprego e

financiamento. Frederico A. Barbosa da Silva, autor – Brasília: Ministério da Cultura, 2007.
MITCHELL, T.M. Machine Learning.1.ed. [S.1]: McGrawHill Science/Engineeering/Math,

1997.
Pianegiani, F.; Mingqing Hu; Boni, A.; Petri, D., "EnergyEfficient Signal Classification in
Ad hoc Wireless Sensor Networks," Instrumentation and Measurement, IEEE Transactions on
, vol.57, no.1, pp.190,196, Jan. 2008
Qingshan Jiang; Xinxing Zhao; Kai Huang, "A feature selection method for malware
detection," Information and Automation (ICIA), 2011 IEEE International Conference on ,
vol., no., pp.890,895, 68 June 2011
Ramos, C.C.O.; Papa, J.P.; Souza, A.N.; Chiachia, G.; Falcao, A.X., "What is the importance
of selecting features for nontechnical losses identification?," Circuits and Systems (ISCAS),
2011 IEEE International Symposium on , vol., no., pp.1045,1048, 1518 May 2011
Schalkoff, R. J.; Pattern Recognition: Statistical, Structural and Neural Approaches, 1991.
Shapiro, C.; Varian, H., "Information Rules: a strategic guide to the network economy".
Boston: Harvard Business School Review Press, 1999.
43
Silva, A. L. L.; Consumo de produtos culturais em São Paulo: Análise dos Fatores
Antecedentes e Propostas de Modelo. São Paulo: Universidade de São Paulo, 2008.
Suxiang Zhang, "The research of the resident user classification based on the maximum
entropy in the smart grid," Fuzzy Systems and Knowledge Discovery (FSKD), 2012 9th
International Conference on , vol., no., pp.1563,1566, 2931 May 2012
Tamano, K.; Tsuji, H., "Relation of home energy consumption and static properties of
consumers," Awareness Science and Technology (iCAST), 2011 3rd International Conference
on , vol., no., pp.215,220, 2730 Sept. 2011
Tieming Chen; Xiaoming Pan; Yiguang Xuan; Jixia Ma; Jie Jiang, "A Naive Feature
Selection Method and Its Application in Network Intrusion Detection," Computational
Intelligence and Security (CIS), 2010 International Conference on , vol., no., pp.416,420, 11
14 Dec. 2010
Throsby, David.; Cultural Capital. Journal of Cultural Economics, 23, 312, 1999.
Yodkhad, P.; Kawewong, A.; Patanukhom, K., "Approximate nearest neighbor search using
selforganizing map clustering for face recognition system," Computer Science and
Engineering Conference (ICSEC), 2014 International , vol., no., pp.151,156, July 30 2014
Aug. 1 2014
You Chen; Lei Dai; XueQi Cheng, "GATSC4.5: An Algorithm for Optimizing Features in
Flow Classification," Consumer Communications and Networking Conference, 2008. CCNC
2008. 5th IEEE , vol., no., pp.466,470, 1012 Jan. 2008
Zaman, S.; Karray, F., "Lightweight IDS Based on Features Selection and IDS Classification
Scheme," Computational Science and Engineering, 2009. CSE '09. International Conference
on , vol.3, no., pp.365,370, 2931 Aug. 2009
Zhenyu Wang; Guilin Zheng, "New method for nonintrusive data extraction and
classification of residential appliances," Control and Decision Conference (CCDC), 2011
Chinese , vol., no., pp.2196,2201, 2325 May 2011
44
ZhiWei Qiu, "Mutivariable mutual information based feature selection for electricity price
forecasting," Machine Learning and Cybernetics (ICMLC), 2012 International Conference on
, vol.1, no., pp.168,173, 1517 July 2012

Nathalia Marislei

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Nathalia Marislei

Enviado por

Direitos autorais:

Formatos disponíveis

NATHALIA NIEUWENHOFF

Análise comparativa de técnicas de classificação de

Análise comparativa de técnicas de classificação de dados

Qualificação apresentada à Escola de Artes,

Área de Concentração: Metodologia e

Orientador: Profa. Dra. Marislei Nishijima

Prof. Dr. __________________________________________

Prof. Dr. __________________________________________

Prof. Dr. __________________________________________

Prof. Dr. __________________________________________

As tarefas de classificação ou categorização de dados, conhecida também como técnicas de

Palavras­chave: Algoritmos de classificação. Bens de Informação. Seleção de recursos.

Keywords: Classification Algorithm. Good information. Feature Selection. Variable

A evolução tecnológica constante resultou na mudança da lógica de consumo de

Familiar (POF), realizada em um período de 12 meses entre os anos 2008 e 2009 e

1.1 Justificativa e Motivação

Segundo Canclini (1999), o consumo consiste no “conjunto de processos

bem como identificar e prever cenários de evolução tecnológica, possíveis concorrências e

Gráfico 1 – Valor adicionado pelo setor audiovisual (R$ bilhões correntes)

Fonte: IBGE, 2007­2013.

Gráfico 2 – Valor adicionado pelo setor audiovisual e Valor adicionado total:

Fonte: IBGE, 2007­2013.

Considerando como premissa que a mineração de dados, através da aplicação de

de identificar os padrões do consumo dos brasileiros em relação ao bem de informação, filmes

1.1.2 Estrutura do documento

2.1 Descoberta do conhecimento

O modelo tradicional que efetua a transformação dos dados em conhecimento consiste

6. Visualização dos Resultados: consiste na apresentação do conhecimento obtido

Fonte: Amo e Rocha, 2003

Segundo Fayyad, Shapiro e Smyth, 1996, o termo Mineração de Dados ou Data

• Algoritmos genéticos, que consiste na técnica baseada na teoria da evolução, a

A Regressão é similar a categorização, porém, consiste na tarefa de identificação do

O agrupamento (Clustering), consiste na tarefa de aproximação/agrupamento dos

A associação consiste na tarefa de identificação dos relacionamento dos atributos, no

A descrição consiste na tarefa de descrever os padrões revelados pelos dados, sendo

2.7 Aprendizado de Máquina

O Aprendizado de Máquina (AM) é uma área da Inteligência Computacional que

3.1 Revisão Bibliográfica

Para levantamento do conhecimento atual veiculado na literatura especializada e

3.2 Revisão Sistemática

Posteriormente, para entendimento da aplicação de tais algoritmos de mineração de

3.2.1 Validação dos algoritmos de classificação

Para a aplicação das técnicas de classificação dos dados da Pesquisa de Orçamento

aplicadas todas as etapas previstas no processo de Knowledge Discovery in Databases (KDD),

De acordo com o IBGE, a Pesquisa de Orçamentos Familiares – POF se trata de uma

Predição = Pv/(Pv + Pf) (1

Cobertura = Pv/(Pv + Nf) (2

Acurácia = (Pv + Nv)/Pv + Pf + Nv + Nf (3

O objetivo da Revisão Sistemática foi identificar os métodos e técnicas de

4.1.1 Questões de pesquisa

Questão secundária 1: Quais são as principais vantagens e desvantagens

4.2 Estratégia de busca para seleção de estudos

internacionalmente. A string de busca formada na etapa de condução da RS considerou as

4.2.1 Uma seção terciária

Foram considerados nesta Revisão Sistemática os seguintes critérios de inclusão e

4.3 Outra seção secundária

O processo de seleção de estudos primários contemplou a elaboração de string com as

Ao todo, a máquina de busca retornou 48 artigos que foram submetidos ao processo de

Nesta seção, serão apresentados os resultados obtidos com a condução da revisão

reconhecimento de padrões ou seleção de variáveis estudadas e utilizadas nos trabalhos

Using Hybrid WAIM '08. The de padrões

based on the 2012 9th reconhecimento

Palavraschave: Algoritmos de classificação. Bens de Informação. Seleção de recursos.

Fonte: IBGE, 20072013.

Fonte: IBGE, 20072013.

Haixiang e Magoulès (2011) apresentam a aplicação do modelo SVR no contexto de

Amjady, N.; Daraeepour, A., "Dayahead price forecasting of electricity markets by

Diniz, S.C. “Análise do consumo de bens e serviços artísticoculturais no Brasil

MITCHELL, T.M. Machine Learning.1.ed. [S.1]: McGrawHill Science/Engineeering/Math,