Você está na página 1de 44

NATHALIA NIEUWENHOFF

Análise comparativa de técnicas de classificação de


dados aplicadas para identificação dos
determinantes de decisão do consumo de filmes em
salas de cinema no Brasil

São Paulo
2016
NATHALIA NIEUWENHOFF

Análise comparativa de técnicas de classificação de dados


aplicadas para identificação dos determinantes de decisão do
consumo de filmes em salas de cinema no Brasil.

Qualificação apresentada à Escola de Artes,


Ciências e Humanidades da Universidade de
São Paulo para obtenção do título de Mestre
em Ciências pelo Programa de Pós­graduação
em Sistemas de Informação.

Área de Concentração: Metodologia e


Técnicas da Computação

Orientador: Profa. Dra. Marislei Nishijima

São Paulo
2016
Exame de Qualificação de autoria de Nathalia Nieuwenhoff, sob o título "Análise
comparativa de técnicas de classificação de dados aplicadas para identificação dos
determinantes de decisão do consumo de filmes em salas de cinema no Brasil",
apresentada à Escola de Artes, Ciências e Humanidades da Universidade de São Paulo, para
obtenção do título de Mestre em Ciências pelo Programa de Pós­graduação em Sistemas de
Informação, na área de concentração Metodologia e Técnicas da Computação, aprovada em
_____ de _____________________ de ________ pela comissão julgadora constituída pelos
doutores:

Prof. Dr. __________________________________________


Presidente
Instituição: _____________________________________

Prof. Dr. __________________________________________


Instituição: _____________________________________

Prof. Dr. __________________________________________


Instituição: _____________________________________

Prof. Dr. __________________________________________


Instituição: _____________________________________
Resumo

As tarefas de classificação ou categorização de dados, conhecida também como técnicas de


reconhecimento de padrões e seleção de variáveis estão sendo cada vez mais utilizadas no
contexto de extração de informações ou padrões em bases de dados volumosas. A partir disso,
a aplicação de técnicas de reconhecimento de padrões para identificação dos determinantes
dos padrões de consumo de um bem de informação é uma tarefa complexa e pouco explorada
no mercado brasileiro. Este trabalho apresenta um análise comparativa da aplicação de duas
técnicas de aprendizagem de máquina para classificação de dados, baseadas em aprendizado
supervisionado, sendo estas Naive Bayes e Support Vector Machine, para identificação dos
determinantes de padrões de consumo de um bem de informação, filmes em salas de cinema
no Brasil, a partir dos dados obtidos na Pesquisa de Orçamento Familiar (POF) 2008­2009,
pelo Instituto Brasileiro de Geografia e Estatística (IBGE).

Palavras­chave: Algoritmos de classificação. Bens de Informação. Seleção de recursos.


Seleção de variáveis. Consumo.
Abstract

The task classification or categorization data, also known as pattern recognition techniques
and variables selection are being increasingly used in the context of extracting information or
patterns in large databases. From this, the application of pattern recognition techniques to
identify the determinants of consumption patterns of a good information is complex and little
explored in Brazil. This paper presents a comparative analysis of the application of two
machine learning techniques for data classification based on supervised learning, Naive Bayes
and Support Vector Machine (SVM), to identify the determinants of consumption patterns of
a good information, movies in Brazilians cinemas, based on data obtained from the Pesquisa
de Orçamento Familiar ( POF ) 2008­2009 by the Instituto Brasileiro de Geografia e
Estatística (IBGE).

Keywords: Classification Algorithm. Good information. Feature Selection. Variable


Selection. Consumption.
Sumário

1 Introdução 6
1.1 Justificativa e Motivação 7
1.1.1 Objetivos 12
1.1.2 Estrutura do documento 13

2 Fundamentação teórica 14
2.1 Descoberta do conhecimento 14
2.2 Classificação 16
2.3 Regressão 17
2.4 Agrupamento 17
2.5 Associação 17
2.6 Descrição 18
2.7 Aprendizado de Máquina 18

3 Metodologia de Pesquisa 20
3.1 Revisão Bibliográfica 20
3.2 Revisão Sistemática 20
3.2.1 Validação dos algoritmos de classificação 20

4 Revisão Sistemática 25
4.1.1 Questões de pesquisa 25
4.2 Estratégia de busca para seleção de estudos 25
4.2.1 Uma seção terciária 26
4.3 Outra seção secundária 27
4.4 Condução 28
4.5 Resultados 28
4.6 Discussão e Resultados 37

5 Cronograma 39
Referências 39
7

1 Introdução

A evolução tecnológica constante resultou na mudança da lógica de consumo de


alguns bens, devido à facilidade de acesso à informação, as pessoas não necessariamente
precisam se deslocar ou pagar diretamente para terem acesso a determinados bens de
informação, como os filmes nas salas de cinema, visto que estes se encontram disponíveis na
internet ou, também, através dos recursos da pirataria, por exemplo. Neste contexto, o
consumo e seus meios utilizados indicam não somente as preferências dos indivíduos, mas,
também, exprimem o que estes consideram socialmente prioritário e essencial. Ao mesmo
tempo, o consumo de cultura, a partir dos bens de informação, é capaz de exprimir a situação
de capital econômico, social e cultural das pessoas, de suas respectivas famílias e dos grupos
nos quais estão inseridos de forma relacionada.
Os padrões de decisão do consumo são parte de uma composição de variáveis
culturais, econômicas e sociais segregadas e agrupadas ao mesmo tempo, dessa forma,
identificar tais padrões se trata de uma tarefa desafiadora devido à complexidade de tais
fatores e a heterogeneidade envolvida. A partir destes aspectos, a necessidade de identificar
padrões precisos e úteis nos dados tem exigido um aprofundamento contínuo do estudo de
técnicas computacionais que otimizem e automatizem tais atividades e, dentro do contexto de
Knowledge Discovery in Databases (KDD), a Mineração de dados, ou Data mining, trata­se
de uma etapa deste processo, que consiste na aplicação das técnicas computacionais em si
para geração de conhecimento.
Dentre as técnicas de mineração de dados atuais, o processo classificação é capaz de
identificar um conjunto de modelos que segregam classes ou grupos e, a partir do modelo,
predizer a classe que os objetos ainda não classificados pertencem. A partir disso, a escolha da
abordagem e da técnica de reconhecimento de padrão ou até mesmo uma combinação de uma
ou mais técnicas está diretamente relacionada com o problema e ao contexto em que este se
aplica.
Dessa forma, este trabalho tem como objetivo aplicar a mineração de dados utilizando
dois algoritmos de aprendizagem de máquina classificadores, sendo estes Naive Bayes e
Support Vetor Machine (SVM), para identificação de padrões de consumo de um bem de
informação, filmes nas salas de cinema pelos brasileiros, bem como efetuar a análise
comparativa dos resultados obtidos a partir destes algoritmos, considerando medidas
relacionadas à precisão das técnicas aplicadas, bem como seus desempenhos computacionais.
Os algoritmos serão aplicados na base dos dados coletados na Pesquisa de Orçamento
8

Familiar (POF), realizada em um período de 12 meses entre os anos 2008 e 2009 e


disponibilizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE).

1.1 Justificativa e Motivação

Segundo Canclini (1999), o consumo consiste no “conjunto de processos


socioculturais nos quais se realizam a apropriação e o uso dos produtos”. A partir disso, o
consumo possui a capacidade de agrupar as pessoas, bem como distingui­las e classificá­las,
afinal, através dele é possível se dizer sobre quem consome, identificar características sociais,
culturais e econômicas dos indivíduos e como elas estão relacionadas. O Ministério Brasileiro
da Cultura (2007) reforça esta ideia afirmando que “o consumo cria ordem, classifica as
pessoas e as associa aos bens; enfim, o consumo ordena informações e organiza significados
sobre as estruturas sociais”.
Neste cenário, o consumo está diretamente relacionado à cidadania e ao direito, em
suas variadas esferas. No aspecto social, está conexo ao direito de acesso aos bens e serviços.
Dessa forma, o consumo cultural diz respeito sobre a organização de uma sociedade e é um
meio de se estabelecer condições para o exercício da cidadania, formação de indivíduos, bem
como a participação destes no contexto político e social.
A partir disso, os padrões de decisão do consumo são parte de uma composição de
variáveis culturais, econômicas e sociais e identificar tais padrões, trata­se de uma tarefa
desafiadora devido às múltiplas variáveis envolvidas e à necessidade de se mapear como tais
variáveis se relacionam.
Adicionalmente, o consumo de cultura aplicada aos bens de informação, que segundo
Shapiro e Varian (1999), bem de informação ou good information é um bem que pode ser
digitalizado ou codificado como um fluxo de bits, que independente da fonte particular de
valor, as pessoas estão dispostas a pagar para obtê­lo ou consumi­lo, a partir disso, filmes,
músicas, páginas na web são alguns dos exemplos de bens de informação, além dos aspectos
gerais do consumo, possuem como desafio direto a evolução tecnológica constante. Afinal, os
meios de reprodução de tais bens de informação são amplamente variados e vem sofrendo
uma mudança significativa na lógica de seu consumo.
Diniz (2009) afirma que o consumo cultural é afetado diretamente pelas variáveis
socioeconômicas, educacionais e sócio demográficas de quem consome e, também, pelas
variáveis geográficas que indicam não somente aspectos culturais, mas também variações de
oferta dos produtos em cada região. Adicionalmente, as experiências sociais que os
9

consumidores estão sujeitos influenciam suas preferências, dessa forma, estas são afetadas
diretamente pelo capital pessoal, ou seja, experiências pessoais e individuais dos
consumidores, bem como pelo capital social, experiências e influências proporcionadas pelo
meio social que os consumidores estão inseridos. Dessa forma, o estudo dos determinantes de
consumo de cultura requer o mapeamento das restrições e influências que o consumidor e os
grupos nos quais este está inserido sofrem, resultando, assim, no entendimento aprofundado
do público alvo de consumo.
Reforçando esta ideia, Throsby (1999) afirma que os produtos culturais, o que inclui
os bens de informação, possuem valores de uso que são compostos pelos produtos culturais
materializados e os que possuem valor simbólico, dessa forma, nota­se que a atribuição de
valor a eles não é uma tarefa trivial, afinal, é preciso conhecer mais detalhadamente
características especiais destes bens, bem como as de quem os consome.
Aplicando este contexto ao cenário brasileiro, o Brasil além de ser um país
conceitualmente dividido em cinco grandes regiões, é um país multicultural, o que torna ainda
mais complexa a tarefa de mapeamento e identificação dos padrões de consumo da sua
população, afinal, além de sua cultura estar sujeita a um conjunto de incentivos financeiros
com recursos públicos disputados que são aplicados, muitas vezes, sem nenhum grau de
conhecimento do padrão de consumo, conforme afirmado por Hofstede (2010), as diferenças
culturais entre as regiões do país são significativas, tornando ainda mais complexa a tarefa de
definição de padrão de consumo do brasileiro de forma geral.
Neste contexto, visto que o consumo de cultura aborda a noção de cidadania
impactada pelo acesso, classificar os indivíduos e identificar padrões de consumo de cultura,
através dos bens de informação, torna­se cada vez mais necessário para os recursos públicos
serem capazes de estabelecer políticas públicas voltadas ao setor eficazes e, ao mesmo tempo,
reduzir o consumo ilegal dos bens de informação, combatendo iniciativas como a pirataria,
por exemplo.
Adicionalmente, de acordo com Silva (2008), a administração pública do Brasil não
possui dados consistes e precisos sobre as práticas culturais dos brasileiros e como estas se
refletem nas diversas regiões do país, bem como sobre os hábitos de consumo cultural da sua
população, ocasionando, assim, a elaboração de políticas públicas culturais ineficazes e que
não atendem às necessidades para um consumo cultural efetivo e acessível à população
brasileira. Em paralelo, é de alto interesse das empresas responsáveis pela produção e
reprodução de tais bens de informação a identificação de padrões de consumo no contexto de
auxiliar as estratégias de venda e divulgação de tais bens para um público alvo mais preciso,
10

bem como identificar e prever cenários de evolução tecnológica, possíveis concorrências e


meios para veiculação de tais bens maximizando lucros e aumentando a satisfação de seus
clientes.
Além do contexto cultural e social, a relevância do consumo de cultura em relação ao
bem de informação, filmes em sala de cinemas brasileiros, é reforçada no aspecto econômico,
afinal, de acordo com o Ministério Brasileiro da Cultura (2007), o consumo cultural da
população é parte não somente de investimentos públicos e privados, bem como do Produto
Interno Bruto (PIB) dos indivíduos. Segundo o estudo de Valor Adicional do setor de
audiovisual efetuado pela Agência Nacional de Cinema (ANCINE), agência reguladora e
fiscalizadora do mercado brasileiro de cinema e do audiovisual, as atividades econômicas do
setor de audiovisual, que “compreende a indústria cinematográfica e videofonográfica do país,
isto é: os agentes de produção, distribuição e exibição dos segmentos de cinema (salas
de exibição), TV paga (comunicação eletrônica de massa por assinatura), TV aberta
(radiodifusão de sons e imagens), vídeo doméstico, vídeo por demanda e mídias móveis,
apresentaram uma renda de R$22,9 bilhões na economia brasileira referente ao valor adicional
do setor, bem como vem apresentado evolução do tamanho do setor entre os anos de 2007 a
2013. Segundo o Instituto Brasileiro de Geografia e Estatística (IBGE), Valor Adicionado
“refere­se ao valor que a atividade acrescenta aos bens e serviços consumidos no seu processo
produtivo”.
Adicionalmente, segundo o Informe Anual de Acompanhamento de Mercado emitido
pela ANCINE, o ano de 2009, período dos dados a serem utilizados neste trabalho, registrou
um público total de 112.683.383 espectadores, que corresponde a uma renda no valor de R$
969.783.735,77. Estes números representam o maior público dos últimos cinco anos, bem
como um crescimento de 25,26% e 32,93%, no público e renda, respectivamente, referente ao
ano anterior, 2008.
Abaixo, o gráfico 1 demonstra a evolução contínua do setor, medido segundo o seu
valor adicionado no período de 2007 a 2013. Já o gráfico 2 apresenta a evolução do valor
adicionado pelo setor audiovisual em termos reais, demonstrando uma expansão de 8,8% ao
ano no período, que é expressivamente superior à média de todos os setores da economia no
período observado (vide comparação apresentada no gráfico 2).

Gráfico 1 – Valor adicionado pelo setor audiovisual (R$ bilhões correntes)


11

Fonte: IBGE, 2007­2013.

Gráfico 2 – Valor adicionado pelo setor audiovisual e Valor adicionado total:


variações anuais reais (%)

Fonte: IBGE, 2007­2013.


A partir disso, o maior conhecimento permite que se avalie mais precisamente os
recursos envolvidos para garantir sua otimização neste setor, que é relevante para o país.
Porém, o cenário de consumo cultural, conforme detalhado anteriormente, possui um conjunto
complexo de variáveis, bem como requer a manipulação de bases de dados volumosas, devido
não só ao tamanho da população brasileira, mas também aos fatores sociais, culturais e
econômicos que estão relacionados, a maioria dos estudos sobre tais padrões de consumo que
envolvem os bens de informação se baseia em análises qualitativas sem o uso sistemático de
informações quantitativas, bem como a combinação destas.
Em paralelo, devido à quantidade e complexidade de tais dados, a exploração manual
destes para geração de conhecimento se torna inviável, necessitando, assim, da aplicação de
técnicas automatizadas para tal fim. Com o objetivo de reduzir a complexidade do problema
relacionado à manipulação e a identificação do relacionamento entre tais dados para auxílio
nas tomadas de decisões de forma que se atinja uma precisão ótima nos padrões identificados
12

e, em paralelo, não comprometa o desempenho computacional das aplicações, visto que, nos
dias atuais, estas estão cada vez mais exigentes, tais técnicas estão sendo cada vez mais
estudadas, aplicadas e desenvolvidas.
Dessa forma, o interesse na área de Reconhecimento de padrões, que segundo
Schalkoff (1991), trata­se do estudo de descrição e classificação de medições, tem crescido
muito nos últimos anos e está em constante desenvolvimento, visto que se trata de uma tarefa
de classificação ou categorização de dados, cujo objetivo é discriminar amostras de objetos e
classificar corretamente as amostras futuras.
Neste contexto, tais fatores conduziram a exploração e desenvolvimento da técnica de
extração de conhecimento em banco de dados volumosos, não­triviais e dinâmicos, também
conhecida como Knowledge Discovery in Databases (KDD), para geração de conhecimento a
partir de padrões de dados válidos, complexos e potencialmente úteis (Fayyad, Shapiro e
Smyth, 1996). A Mineração de dados, ou Data mining, trata­se de uma etapa deste processo,
que consiste na aplicação das técnicas computacionais em si para geração de conhecimento a
partir de tais bases de dados.
A aplicação da mineração de dados requer, inicialmente, que dois fatores sejam
considerados, sendo eles a tarefa e a técnica de mineração. A tarefa consiste na definição e
detalhamento do objetivo da exploração dos dados, ou seja, qual(is) é(são) a(s) categoria(s) de
padrões que se deseja obter. Já a técnica se trata do método a ser utilizado para obtenção de
tais padrões de interesse. Atualmente, há diversas técnicas de mineração, dentre elas as
estatísticas e de aprendizado de máquina, por exemplo. Em relação às tarefas, estas se
subdividem, basicamente, em Análise de Regras de Associação, Análise de Padrões
Sequenciais, Classificação e Predição, Análise de Agrupamentos e Análise de Outliers.
A identificação de padrões de consumo de bens de informação, especificamente,
filmes em salas de cinema no Brasil, principalmente no que se refere à aplicação da
mineração de dados para obtenção de tais informações, trata­se de um aspecto pouco
explorado até então, o que motivou a realização deste trabalho.
Neste contexto, a aplicação da tarefa de Classificação dos dados, cuja função é
examinar o conjunto de registros marcados com seus atributos correspondentes e identificar as
características (variáveis) que definem tais classes, predizendo, assim, as classes que os
registros ainda não classificados pertencem, possibilita identificar, de forma automatizada,
precisa e a partir do relacionamento de dados quantitativos e qualitativos, as variáveis que
influenciam na decisão de consumo dos bens de informação, podendo, assim, auxiliar os
13

recursos públicos na definição de políticas públicas que viabilizam o acesso legal a estes bem,
bem como auxiliar recursos privados nas estratégias de vendas e produção.
A partir disso, a contribuição deste trabalho é focada na aplicação e análise
comparativa de dois algoritmos de aprendizagem de máquina para classificação de dados
popularmente utilizados, sendo eles Naive Bayes e Support Vetor Machine (SVM), para
identificação de padrões de consumo de filmes em sala de cinema nacional, bem como as
vantagens e desvantagens da utilização de cada um destes, a partir das métricas relacionadas à
precisão de cada uma destas, bem como seus desempenhos computacionais, conforme as
classes de brasileiros que assistiram ou não filmes em salas de cinema no Brasil durante os 12
meses entre os anos 2008 e 2009, a partir do grande volume de dados disponível da Pesquisa
de Orçamento Familiar (POF) realizada pelo Instituto Brasileiro de Geografia e Estatística.

1.1.1 Objetivos

Considerando como premissa que a mineração de dados, através da aplicação de


algoritmos de aprendizagem de máquina para classificação, está, nos dias atuais, sendo
amplamente utilizada de forma multidisciplinar nos mais variados contextos, esta também
pode ser aplicada para identificação de padrões de consumo de um bem de informação.
Diante disso, o principal objetivo deste trabalho é efetuar a aplicação da mineração de
dados, a partir de dois algoritmos atuais e populares de classificação, sendo estes Naive Bayes
e Support Vetor Machine (SVM), para reconhecimento dos padrões do consumo de filmes em
salas de cinema no Brasil pelos brasileiros, bem como efetuar uma análise dos seus resultados
da aplicação de ambas as técnicas, a partir de medidas relacionadas à precisão e desempenho
computacional.
Para atingir o objetivo geral deste trabalho, os seguintes objetivos específicos foram
estabelecidos:
• Efetuar uma revisão bibliográfica sobre as técnicas de mineração de dados e
reconhecimento de padrões e seus respectivos algoritmos de aplicação;
• Efetuar uma Revisão Sistemática (RS) sobre a aplicação das técnicas de
mineração de dados e reconhecimento de padrões para identificação de determinantes de
consumo de forma geral;
• Aplicar o processo de KDD, tendo como parte dele a mineração de dados, a
partir das técnicas de classificação dos dados da Pesquisa de Orçamento Familiar 2008­2009
(POF) utilizando os algoritmos Naive Bayes e Support Vetor Machine (SVM), com o objetivo
14

de identificar os padrões do consumo dos brasileiros em relação ao bem de informação, filmes


em salas de cinema no Brasil;
• Apresentar análise comparativa dos resultados obtidos a partir da aplicação de
tais técnicas de mineração de dados para identificação dos padrões de consumo do bem de
informação em questão, conforme as medidas de precisão das técnicas, bem como seu
respectivo desempenho computacional, apresentando, neste contexto, suas vantagens e
desvantagens.
Adicionalmente, busca­se com este trabalho oferecer como resultado aos
pesquisadores da área a partir da aplicação das técnicas em um objeto pouco explorado neste
aspecto, bem como às empresas do setor e governo que podem utilizar os resultados obtidos
para otimização de seus processos e especificação de novos projetos.

1.1.2 Estrutura do documento

Esta dissertação é composta por cinco capítulos, sendo o primeiro deles a introdução
ao tema, subdivididos da seguinte forma:
• O capítulo 2 contém a fundamentação teórica do trabalho, a partir da
contextualização e a revisão bibliográfica, apresentando os principais conceitos relacionados a
Knowledge Discovery in Databases (KDD), Mineração de dados e suas respectivas tarefas e
técnicas, com ênfase nos algoritmos de aprendizagem de máquina para classificação de dados.
• O capítulo 3 apresenta a metodologia de pesquisa utilizada neste trabalho para
aplicação dos dois algoritmos de aprendizagem de máquina para classificação de dados, sendo
estes Naive Bayes e Support Vetor Machine (SVM), na base de dados da Pesquisa de
Orçamento Familiar (POF) 2008­2009 do Instituto Brasileiro de Geografia e Estatística
(IBGE).
• O capitulo 4 apresenta a condução e os resultados da Revisão Sistemática (RS)
referente aos trabalhos de aplicação dos algoritmos de aprendizagem de máquina para
reconhecimento de padrões de consumo.
• O capítulo 5 apresenta os resultados, bem como a análise comparativa das
técnicas de classificação de dados aplicadas para identificação de padrões de consumo de
filmes em salas de cinema no Brasil.
• O capítulo 6 apresenta a conclusão do trabalho, destacando às suas principais
contribuições, suas limitações e trabalhos futuros.
15

2 Fundamentação teórica

2.1 Descoberta do conhecimento

O modelo tradicional que efetua a transformação dos dados em conhecimento consiste


no processamento dos dados por especialistas que apresentam estes de forma que possam ser
analisados, porém, nos dias atuais devido a automação dos processos e, principalmente, ao
elevada quantidade de dados relacionados, que podem se encontrar até em fontes distintas, tal
prática se torna inviável. A partir disso, foi apresentado o conceito de Descoberta de
conhecimento das bases de dados, também denominado Knowledge Discovery in Databases
(KDD) (Fayyad, Shapiro e Smyth, 1996).
De acordo com Amo e Rocha (2003), o conceito de KDD e Mineração de dados (Data
mining) é considerado sinônimo por algumas literaturas, outras, porém, consideram a
Mineração de dados como uma etapa do processo de KDD, conforme detalhamento das etapas
do processo em questão:
1. Limpeza dos dados: consiste na eliminação de dados inconsistentes, incorretos
ou incompletos.
2. Integração dos dados: consiste na junção e combinação dos dados apresentados
de forma fragmentada, consolidando em apenas um fonte de dados centralizada.
3. Seleção dos dados: consiste na definição dos atributos e variáveis que são
relevantes para aplicação das técnicas em questão, a partir do conhecimento do tema.
3. Transformação dos dados: consiste na adequação dos dados para aplicação dos
algoritmos de mineração. Segundo Camilo e Silva (2008), não há um critério específico para
execução desta etapa, bem como a técnica a ser utilizada depende dos objetivos pretendidos,
como por exemplo, a normalização, que consiste na inserção de variáveis em uma mesma
escala, agrupamento, que se trata da junção de valores, ou até mesmo a criação de novos
atributos, a partir de combinações dos já existentes.
4. Mineração: aplicação dos algoritmos de aprendizagem de máquina para
extração dos padrões.
5. Avaliação ou Pós­processamento: consiste na análise dos resultados obtidos na
etapa anterior, referente às variáveis que determinam a classificação dos dados e identificação
de padrões.
16

6. Visualização dos Resultados: consiste na apresentação do conhecimento obtido


a partir da base de dados utilizada aos usuários ou partes interessadas.
Conforme representação do processo de KDD na Figura 1.
Figura 1 – Etapas dos processos de KDD

Fonte: Amo e Rocha, 2003

Segundo Fayyad, Shapiro e Smyth, 1996, o termo Mineração de Dados ou Data


Mining, pode ser definido como um "passo no processo de Descoberta de Conhecimento que
consiste na realização da análise dos dados e na aplicação de algoritmos de descoberta que,
sob certas limitações computacionais, produzem um conjunto de padrões de certos dados".
Segundo Camilo e Silva (2009), apesar do processo de mineração de dados suportar a
descoberta do conhecimento de um volume elevado de dados, este processo não é puramente
automático até o momento. A partir disso, existe uma série de ferramentas para execução dos
algoritmos de mineração, bem como a análise dos resultados ainda precisa ser efetuadas por
seres humanos.
No contexto de mineração de dados, é importante destacar os conceitos de tarefa e
técnica de mineração. Segundo Viana e Bueno (2012), a tarefa se refere na especificação do
objetivo de busca do dado, ou seja, o tipo de categoria e informação que se deseja obter. Já a
técnica se refere no método que vai ser utilizado para executar a tarefa definida, ou seja, o que
será feito para descobrir o padrão que interessa, esta pode se dividir em diversos tipos, sendo
por exemplo, estatística, aprendizado de máquina, crescimento poda­validação, entre outros.
Camilo e Silva (2009) afirmam que o processo de mineração de dados possui diversos
tipos de tarefas para suportá­los, sendo estas:

2.2 Classificação
17

A Classificação consiste na análise das características dos dados para atribuição a uma
categoria específica previamente definida. Para isso, cada registro possui os atributos de
predição, em como o alvo. Podendo ser utilizada para identificar pessoas, classificar objetos e
diagnosticar doenças, por exemplo. Suas principais técnicas são:
• Árvores de decisão (decision trees), que consistem na representação do
conhecimento a partir de um número finito de classes. Ou seja, a partir da variável de
avaliação definida, o algoritmo retorna as características associadas a ela a partir dos “ramos
da árvore.” Os nós correspondem aos atributos, as ligações entre os nós representam os
valores para tais atributos e as folhas representam diferentes classes. A partir disso, após a
definição da área, para realização de um novo registro, é necessário seguir a árvore, cujo
início é a raiz.
• Naive Bayes, que consiste em uma técnica baseada em probabilidade,
fundamentada a partir do teorema de Thomas Bayes, que é a probabilidade de um evento
ocorrer, dada a probabilidade de outro que já ocorreu. Ou seja, Probabilidade (Y dado X) =
Probabilidade(X e Y) / Probabilidade(X).
• Classificação baseada em regras, que é similar a Associação, visto que possui o
seguinte formato, SE condição ENTÃO conclusão, cujo objeto é criar associações, pares de
registros que possuem similaridade.
• Redes neurais (Neural Network), que são baseadas no conceito de neurônio
artificial análogo ao neurônio neural, envolvendo estruturas matemáticas que possuem
habilidade de aprendizado, dessa forma, cada unidade de entrada e saída é interligada às
outras por conexões que possuem pesos particulares, variando entre ­1 e 1, que correspondem
a intensidade da conexão. Apesar da técnica em questão ter a capacidade de identificar
padrões para os quais não foi treinada técnica em questão requer um longo período para
treinamento, ajustes detalhados em seus parâmetros, bem como é complexa para utilização.
• Support Vector Machine (SVM), que são utilizadas para classificação de dados
em duas classes, cujos resultados apresentados com experimentos apresentam altos índices de
assertividade, possibilitando modelar situações complexas de fácil interpretação, em
contrapartida, seu tempo de aprendizado, geralmente, acaba sendo mais demorado.
• Classificação baseada em regras de associação, que se trata da aplicação das
regras de associação para classificação de dados é uma abordagem recente, cujo objetivo é
basicamente analisar os dados de treinamento para que se obtenha os itens frequentes, e a
partir destes são geradas as regras para classificação dos dados.
18

• Algoritmos genéticos, que consiste na técnica baseada na teoria da evolução, a


partir disso, a população inicial é aleatória e a seguinte é originada a partir da evolução da
anterior, em que seus atributos passagem por um processo de mutação, até que os atributos
atinjam ao objetivo proposto. Uma das diferenças desta técnica em relação as demais é que
esta trabalha com uma população e não somente um único ponto, utilizando regras de
transição probabilísticas e não determinísticas (ICMC).

2.3 Regressão

A Regressão é similar a categorização, porém, consiste na tarefa de identificação do


registro a partir de um valor numérico e não categórico. A partir disso, a regressão possui
técnicas conhecidas como Regressão Linear, que se refere à técnica em que a relação da
variável preditora e a predição possuem comportamentos lineares, a partir disso, o que
possibilita relacionar uma variável preditora a uma ou mais predições; e Regressão não­linear,
este tipo de regressão a em que a relação da variável preditora e a predição não possuem
comportamentos lineares.

2.4 Agrupamento

O agrupamento (Clustering), consiste na tarefa de aproximação/agrupamento dos


registro com base nas similaridades entre eles, segmentando os bancos de dados em grupos ou
subconjunto, porém, não requerendo que estes estejam previamente categorizados, visto que o
próprio algoritmo é capaz de descobrir as classes. Uma das técnicas mais utilizadas nesta
tarefa é o k­means, cuja função, basicamente, é dividir os dados em subconjuntos, também
denominados clusters, cujo total destes clusters é definido inicialmente; e

2.5 Associação

A associação consiste na tarefa de identificação dos relacionamento dos atributos, no


formato de SE...ENTÃO. A partir disso, o objetivo da tarefa em questão é identificar, por
exemplo, se X implica em Y. Sua implementação geralmente ocorre a partir de técnicas como
Apriori, sampling, DHP, entre outras (Pimentel e Omar, 2006).
19

2.6 Descrição

A descrição consiste na tarefa de descrever os padrões revelados pelos dados, sendo


muito utilizada no contexto de análise exploratória de tais dados.
Adicionalmente, nota­se que as tarefas de mineração de dados possuem funções
distintas e precisam ser escolhidas de acordo com o problema e com o tipo de conhecimento
que precisa ser gerado, e para cada tarefa, há diversos tipos de técnicas que podem ser
executadas de forma isolada ou combinadas para a realização das atividades de mineração de
dados, a decisão por tais combinações dependem de fatores relacionados a desempenho
computacional e grau de precisão de cada técnica aplicada a cada situação­problema.

2.7 Aprendizado de Máquina

O Aprendizado de Máquina (AM) é uma área da Inteligência Computacional que


estuda o desenvolvimento de métodos que possibilitam a extração de conhecimento a partir de
dados, com isso, é avaliado a capacidade de um programa de computador aprender a melhorar
seu desempenho para executar determinada tarefa, a partir de experiências passadas (Mitchell,
1997). Adicionalmente, de acordo com Han (2006), o processo de desenvolvimento das
técnicas de Aprendizado de Máquina foi baseado em diversas áreas do conhecimento, como
por exemplo, sistemas biológicos, o que gerou as Redes Neurais e Algoritmos genéricos, que
possuem como associação o aprendizado humano (cérebro) e evolução genética,
respectivamente, bem como aprendizado simbólico, representado pelas Árvores de decisão,
ou também, nas Teorias estatísticas, o que resultou em ténicas como Support Vector Machine
(SVM).
Segundo Han (2006), o Aprendizado de Máquina é aplicado no processo de indução,
que consiste em um conjunto de treinamento de um classificador para previsão das classes do
domínio para o qual foi treinado. As técnicas de AM podem ser classificadas em dois tipos de
paradigmas, Aprendizado Supervisionado e Aprendizado Não­Supervisionado (Haykin,
2009), e a escolha destes paradigmas determina como tal aprendizado ocorrerá a partir de uma
base de dados. Estas classificações se distinguem a partir dos aspectos detalhados abaixo:
• O Aprendizado Supervisionado consiste no treinamento a partir de uma pré­
categorização dos dados, ou seja, exemplos que são compostos pelo objeto de entrada e o
valor de saída esperado, tendo, assim, a figura de um “professor­externo”. A partir disso,
20

treinamento do algoritmo acontece a partir da análise dos dados de treinamento para produção
de uma saída inferida já apresentada, podendo, posteriormente, ser aplicado para classificação
de outros dados de entrada do mesmo domínio. Árvores de Decisão, K­Nearest Neighbour
(KNN), Naive Bayes e Support Vector Machine (SVM) são exemplos de algoritmos que
tratam este tipo de aprendizado de máquina.
• O Aprendizado Não­Supervisionado consiste em identificar uma estrutura não
conhecida sem uma saída já definida, ou seja, não há essa figura de “professor”, o algoritmo
aprende a agrupar as entradas, a partir das relações, padrões, categorias, entre outros, que
identifica, codificando a saída, com base em uma medida de similaridade entre os atributos.
Clustering, Estatística, Self Organizing Map (SOM), K­means são exemplos de algoritmos
que tratam este tipo de aprendizado de máquina.
21

3 Metodologia de Pesquisa

3.1 Revisão Bibliográfica

Para levantamento do conhecimento atual veiculado na literatura especializada e


referenciais teóricos sobre Knowledge Discovery in Databases (KDD), Mineração de dados,
Aprendizagem de máquina e suas respectivas tarefas e técnicas, com ênfase nos algoritmos
para Classificação de dados foi conduzida, incialmente, uma Pesquisa Bibliográfica sobre tais
temas.

3.2 Revisão Sistemática

Posteriormente, para entendimento da aplicação de tais algoritmos de mineração de


dados para identificação de padrões de consumo foi conduzida uma Revisão Sistemática (RS),
que segundo Biolchini (2005), trata­se um método de pesquisa do conhecimento científico por
meio de coleta, combinação e avaliação crítica das descobertas das abordagens já
apresentadas, seguindo, assim, as diretrizes estabelecidas por Kitchenham (2007).
A condução da revisão possibilitou conhecer a aplicação de tais técnicas comumente
utilizadas no contexto de identificação de padrões de consumo de bens de informação, além
de conhecer as principais vantagens e desvantagens destas para o contexto em que foram
aplicadas, bem como os principais desafios encontrados referente a área de aplicação deste
trabalho, o que auxiliou na escolha das duas técnicas de classificação de dados aplicadas,
Naive Bayes e Support Vetor Machine (SVM), visto que estão entre as mais utilizadas e
apresentaram resultados positivos nos trabalhos analisados durante a RS.

3.2.1 Validação dos algoritmos de classificação

Para a aplicação das técnicas de classificação dos dados da Pesquisa de Orçamento


Famíliar (POF) realizada durante os 12 meses entre os anos de 2008­2009 pelo Instituto
Brasileiro de Geografia e Estatística (IBGE), inicialmente, foi efetuado o entendimento dos
dados contidos da base de dados em questão, conforme detalhado na seção 3.3.1, a partir de
seu layout, descritivo de tabelas e relacionamento entre elas e, sequencialmente, foram
22

aplicadas todas as etapas previstas no processo de Knowledge Discovery in Databases (KDD),


sendo estas:
1. Limpeza dos dados: consiste na eliminação de dados inconsistentes, incorretos
ou incompletos.
2. Integração dos dados: consiste na junção e combinação dos dados apresentados
de forma fragmentada, consolidando em apenas um fonte de dados centralizada.
3. Seleção dos dados: consiste na definição dos atributos e variáveis que são
relevantes para aplicação das técnicas em questão, a partir do conhecimento do tema;
4. Transformação dos dados: consiste na adequação dos dados para aplicação dos
algoritmos de mineração.
5. Mineração: aplicação dos algoritmos de aprendizagem de máquina para
extração dos padrões.
6. Avaliação ou Pós­processamento: consiste na análise dos resultados obtidos na
etapa anterior, referente às variáveis que determinam a classificação dos dados e identificação
de padrões.
7. Visualização dos Resultados: consiste na apresentação do conhecimento obtido
a partir da base de dados utilizada aos usuários ou partes interessadas.

De acordo com o IBGE, a Pesquisa de Orçamentos Familiares – POF se trata de uma


“pesquisa domiciliar por amostragem, que investiga informações sobre características de
domicílios, famílias, moradores e principalmente seus respectivos orçamentos, isto é, suas
despesas e recebimentos.”, cuja duração é de 12 meses de coleta das informações de uma
amostragem significativa da população brasileira no período de 19 de maio de 2008 até 18 de
maio de 2009. A partir disso, a partir da POF é possível mensurar os gastos, recebimentos e
poupança da população através dos indivíduos e das famílias, bem como demonstrá­los em
relação às regiões do país, tipos de produtos e serviços, e como tais informações se
apresentam durante o período de um ano, contemplando todas as épocas.
A amostragem considerada na POF é em relação aos domicílios particulares
permanentes. Em tais domicílios, identifica­se cada unidade básica da pesquisa, que
corresponde a cada morador do domicílio que compartilham da mesma fonte de alimentação
ou despesas com moradia. Os domínios para os quais se pode gerar resultados são:
“Municípios das Capitais, situação urbana, e área urbana das Regiões Metropolitanas, estas
últimas incluindo o Município da Capital”, conforme IBGE. Por fim, foram consideradas
como Regiões Metropolitanas na POF 2008­2009: Belém, Fortaleza, Recife, Salvador, Belo
23

Horizonte, Rio de Janeiro, São Paulo, Curitiba e Porto Alegre. Adicionalmente, as amostras
de domicílios foram selecionadas de forma aleatória e foram distribuídas da seguinte forma
entre os estados brasileiros, totalizando em 55.970 domicílios entrevistados.
Diniz (2010) em seu trabalho de análise do consumo de bens e serviços culturais no
Brasil metropolitano, com base nos dados da POF 2002­2003, considerando a abordagem
microeconômica do capital humano, em que o consumo de cultura é fortemente determinado
pela exposição prévia dos indivíduos a tais bens e serviços, a pesquisa identificou algumas
características individuais que influenciam esta exposição. A partir disso, concluiu­se que o
consumo cultural, o que inclui bens de informação, como filmes em salas de cinema, é
determinado por variáveis socioeconômicas, educacionais e sócio demográficas do chefe do
domicílio, além das variáveis que indicam a localidade e região dos domicílios.
Por fim, os resultados do trabalho em questão indicam que o consumo cultural no
Brasil é fortemente determinado pela renda e grau de educação do consumidor, concentrando­
se de forma mais expressiva no rendimento domiciliar. Além disso, apresentou variações de
acordo com as regiões do país, o que levou­se a associar tal consumo com as variações de
oferta e/ou a distinções histórico­culturais de cada região, bem como que algumas
características particulares do chefe do domicílio e, ao mesmo tempo, dos grupos influenciam
o consumo, estas podendo ser, a idade, gênero, raça/etnia e religião, afinal, podem representar
influências dos grupos e indicação de pertencimento a estes, e experiências pessoais de cada
indivíduo.
A partir de tais informações, este trabalho considerou para construção dos
classificadores, treinamento, testes e análise dos resultados os dados relacionados aos
domicílios, bem como de cada indivíduo, referente às variáveis socioeconômicas (renda, sexo,
idade, bem e papel na família, por exemplo), educacionais (grau de escolaridade, por
exemplo), sócio demográficas do chefe do domicílio e variáveis que indicam a localidade e
região dos domicílios (localização, estado, região metropolitana, zona rural/urbana, por
exemplo), além das informações de consumo de bens e serviços relacionados a cultura.
Para a construção, treinamento e testes dos classificadores, bem como para as
atividades iniciais de limpeza, integração e transformação dos dados, será utilizado o software
Waikato Environment for Knowledge Analysis (WEKA), que, conforme Abertnethy (2010),
consiste em um software gratuito e de código aberto, utilizado par mineração de dados e
transformação de conhecimento, que possibilita a implementação dos algoritmos escopo deste
trabalho, Naive Bayes e SVM. Trata­se de um produto desenvolvido pela Universidade de
Waikato (Nova Zelândia), que utilizada a GNU General Public License (GPL) e foi
24

codificado em linguagem Java™. Adicionalmente, contém uma GUI para interação com
arquivos de dados e geração de resultados visuais, como por exemplo, tabelas e gráficos.
Dessa forma, todo o processo previsto no KDD será suportado pelo software em questão.
Considerando que toda técnica de mineração de dados passa por um processo de
treinamento, ou, também, denominado aprendizado, que consiste na apresentação dos dados já
processados para o algoritmo aprender tais características e identificar os padrões úteis para
descoberta do conhecimento, esta será a etapa inicial para a construção dos classificadores.
Posteriormente, visto que os algoritmos objeto deste trabalho são baseados em Aprendizagem
Supervisionada, que utiliza de um atributo chave para definição das classes dos dados, tais
exemplos serão utilizados nesta fase de treinamento.
Como a base da POF possui muitos registros, estes serão divididos entre as fases de
treinamento, teste e validação do modelo, conforme detalhamento da subdivisão dos três
conjuntos, segundo Camilo e Silva (2009):
i. Conjunto de Treinamento (Training Set), consiste nos registros para
desenvolvimento do modelo;
ii. Conjunto de Testes (Test Set), consiste no conjunto de registros utilizados para
teste do modelo;
iii. Conjunto de Validação (Validation Set), consiste no conjunto de registros
utilizados para validação do modelo;
Dessa forma, a divisão da quantidade de registros da fase de treinamento e teste dos
classificadores corresponderá a 90% da amostra de dados da base da POF. Após a modelagem
e construção dos classificadores, o modelo será validado utilizando os 10% restantes dos
dados da POF, não utilizados na fase de treinamento, para categorização dos indivíduos.
Adicionalmente, tal divisão é efetuada para não se criar dependência do modelo para um
conjunto de dados específico, mas sim para este ser submetido a outros dados e apresentar
precisão satisfatória.
A partir dos dados da POF, os seguintes classificadores macro serão previamente
definidos para treinamento e comparação dos resultados: a. Indivíduos e famílias que
consumiram filmes em salas de cinema no Brasil; e b. Indivíduos e famílias que não
consumiram filmes em salas de cinema no Brasil.
Por fim, a avaliação dos resultados obtidos e análise comparativa dos algoritmos de
classificação, a partir dos seus respectivos conjuntos de estimativas, será efetuada
considerando o desempenho dos algoritmos a partir das medidas de precisão, cobertura e
acurácia, que segundo, são medidas interessantes na avaliação do desempenho de
25

classificações binárias, suas definições podem ser vistas nas Fórmulas 1, 2 e 3, abaixo, que
representam a porcentagem dos dados pertencentes à classe e que foram recuperados
(Predição), porcentagem dos dados que foram corretamente classificados (Cobertura) e a
porcentagem dos dados que foram corretamente classificados em relação à medida de
acurácia (Acurácia) (Boeachat, 2012).

Predição = Pv/(Pv + Pf) (1

Cobertura = Pv/(Pv + Nf) (2

Acurácia = (Pv + Nv)/Pv + Pf + Nv + Nf (3

)
26

4 Revisão Sistemática

O objetivo da Revisão Sistemática foi identificar os métodos e técnicas de


reconhecimento de padrões mais utilizados no estado na arte e observar os experimentos
relacionados à aplicação dos algoritmos para identificação de determinantes de padrões de
consumo, bem como os resultados e fatores considerados para as análises comparativas entre
tais técnicas.

4.1.1 Questões de pesquisa

Foram elaboradas uma questão principal de pesquisa e uma questão secundária para
atender aos objetivos propostos desta Revisão Sistemática, sendo estas:
Questão primária: Que tipo e quais técnicas de reconhecimento de padrões
são aplicadas para identificação de determinantes de padrões de consumo?
Para responder esta pergunta foram consideradas, além dos nomes dos algoritmos e
suas respectivas técnicas, estas podendo ser Redes Neurais, Arvores de Decisão e ETC, foram
consideradas também as seguintes classificações: Aprendizado Supervisionado, e suas
subdivisões Classificação e Regressão, e Aprendizado não­supervisionado e suas subdivisões
Agrupamento e Regras de Associação.

Questão secundária 1: Quais são as principais vantagens e desvantagens


apresentadas na utilização de cada uma das técnicas estudadas?
Para responder esta pergunta foram considerados todos os aspectos e critérios
apresentados nas pesquisas referente aos pontos positivos e negativos da aplicação dos
algoritmos de reconhecimento de padrões estudados.

4.2 Estratégia de busca para seleção de estudos

A busca e seleção dos estudos ocorreu a partir considerando como fonte de dados a
base biblioteca digital IEEExplore. A fonte em questão foi escolhida a partir de análise
exploratória em relação ao tema geral de pesquisa, visto que é um repositório de busca de
trabalhos muito reconhecido nesta área. Foi considerado somente trabalhos no idioma inglês,
visto que é a principal língua para redação de trabalhos científicos conhecida e aceita
27

internacionalmente. A string de busca formada na etapa de condução da RS considerou as


seguintes palavras­chave: "variable selection”, "feature selection”, "consumption". As
respectivas palavras­chave foram definidas com base na análise exploratória efetuada a
respeito do assunto e, também, com base nas questões de pesquisa, cujo objetivo é verificar de
forma ampla as técnicas de aprendizagem de máquina aplicadas para reconhecimento de
padrões de consumo, sem restrição a uma técnica ou modelo específico de mineração de
dados.

4.2.1 Uma seção terciária

Foram considerados nesta Revisão Sistemática os seguintes critérios de inclusão e


exclusão, respectivamente, para a seleção dos estudos:

Critérios de inclusão
CI.1: Serão incluídos trabalhos publicados e disponíveis em bases de dados científicas
ou em versões impressas.
CI.2: Serão incluídos trabalhos que possuam abordagem de aplicação de métodos e
técnicas de aprendizagem de máquina e reconhecimento de padrões.
CI.3: Serão incluídos trabalhos que efetuam comparação das técnicas de aprendizagem
de máquina e reconhecimento de padrões de bases de dados que envolvam bens de
informação e que possuam aplicação para determinação de padrões de consumo.
CI.4: Serão incluídos trabalhos que propõem novas técnicas de aprendizagem de
máquina e reconhecimento de padrões e apresentem seus benefícios e vantagens em relação às
técnicas já existentes.

Critérios de exclusão
CE.1: Serão excluídos trabalhos que apresentam avaliações sem apresentar o método e
técnicas utilizadas.
CE.2: Serão excluídos trabalhos que não apresentem estudos experimentais para
validar a proposta de aplicação de determinada(s) técnica(s) de aprendizagem de máquina e
reconhecimento de padrões.
CE.3: Serão excluídos trabalhos que não possuam análise das vantagens e
desvantagens referente à aplicação de um ou mais métodos e técnicas de aprendizagem de
máquina e reconhecimento de padrões.
28

4.3 Outra seção secundária

O processo de seleção de estudos primários contemplou a elaboração de string com as


palavras­chave definidas. A partir disso, a string foi submetida à máquina de busca do IEEE
Xplore.
Após a leitura do título, ano de publicação e resumo dos artigos, foram aplicados os
critérios de inclusão e exclusão para pré­seleção do trabalho, posteriormente, todos os textos
foram lidos na íntegra e selecionados, se confirmada a sua relevância pelo principal revisor
(aluno). Nas situações de dúvida da relevância, o orientador foi consultado.
Os trabalhos incluídos na revisão sistemática foram lidos na íntegra e foi elaborada
uma resenha de todos eles, destacando os métodos e técnicas utilizadas em relação ao objetivo
proposto. Foram extraídas as seguintes as informações dos trabalhos relacionados:
Data de publicação;
Local de publicação;
Autores;
Resumo/abstract;
Métodos e Técnicas utilizadas.
Adicionalmente, a partir dos objetivos propostos, foram definidas três categorias para
classificação dos trabalhos, sendo estas:
I. Comparação de técnicas de reconhecimento de padrões: artigos que
apresentem, em sua essência, experimentos e estudos de caso de comparação de diferentes
técnicas de reconhecimento de padrões, apresentando a análise das vantagens e desvantagens
destas;
II. Aplicação de técnicas de reconhecimentos de padrões: artigos que apresentem,
em sua essência, somente experimentos e estudos de caso de aplicação de uma técnica de
reconhecimento de padrões em um contexto específico.
III. Novos modelos ou combinações de técnicas de reconhecimento de padrões:
artigos que apresentem, em sua essência, experimentos e estudos de caso que propõem novas
técnicas ou a combinação destas de forma inovadora.

4.4 Condução
29

Para seleção dos estudos foi efetuada a formação de string genérica de busca a partir
das combinações das palavras chave definidas, sendo esta:
("variable selection" OR "feature selection") AND "consumption"

A partir disso, seguindo as regras da fonte de busca da pesquisa, IEEE Xplore, foi
gerada a seguinte string:
(((("variable selection") OR "feature selection") AND "consumption"))

Ao todo, a máquina de busca retornou 48 artigos que foram submetidos ao processo de


seleção de estudos, aplicação dos critérios de inclusão e exclusão e, dessa forma, foram
selecionados 20 artigos de estudo para compor a síntese da pesquisa. A Tabela 1 apresenta a
relação de artigos submetidos ao processo de seleção e, também, em sua última coluna, o
resultado das análises de tais artigos.
A leitura completa de cada um dos trabalhos selecionados foi realizada e para análise
de tais artigos, estes foram categorizados e, a partir das categorias apresentadas anteriormente,
foi utilizado um formulário padrão para extração das informações necessárias, conforme
informações apresentadas na subseção “Seleção final” do processo de seleção de estudos.
A análise dos resultados obtidos, de acordo com as informações coletadas e as leituras
efetuadas, encontra­se descrita nas próximas seções.

4.5 Resultados

Nesta seção, serão apresentados os resultados obtidos com a condução da revisão


sistemática, conforme objetivos e questões de pesquisa descritos nas seções anteriores.
A partir disso, o sumário dos trabalhos selecionados se encontra apresentado na Tabela
2. Algumas colunas como “Ano”, “Veículo de Publicação” e, principalmente, “Técnicas
utilizadas” foram acrescentadas para auxiliar o mapeamento dos trabalhos. A primeira coluna
da tabela apresenta o índice dos 20 artigos selecionados. A coluna “Título” contém o título do
trabalho selecionado. As colunas intituladas como “Ano”, “País” e “Veículo de publicação”
apresenta o ano, o país e o veículo em que o trabalho foi publicado, respectivamente. A
coluna “Autores” contém a relação de todos os autores responsáveis pelo trabalho. A coluna
“Categoria” apresenta a categoria de cada artigo, conforme especificação desta na seção
anterior. E, por fim, a coluna intitulada como “Técnicas utilizadas”, apresenta as técnicas de
30

reconhecimento de padrões ou seleção de variáveis estudadas e utilizadas nos trabalhos


selecionados.
A pesquisa demonstrou que não há uma concentração expressiva na utilização de uma
técnica de reconhecimento de padrões específica, as pesquisas apresentam a análise
comparativa e estudos experimentais de técnicas diversas, conforme apresentado na Tabela 2.
Porém, nota­se que a técnica como SVM (Support Vector Machine) foi apresentada com
maior frequência nas pesquisas.
Tabela 2 – Sumário dos trabalhos selecionados
Título Veículo de Técnicas
# Ano País Autores Categoria
publicação utilizadas
A Naive Feature Aplicação de
Selection Computational Tieming Chen; técnicas de
Method and Its Intelligence and Xiaoming Pan; reconhecimentos
1 Application in 2010 China Security (CIS), 2010 Yiguang Xuan; de padrões C4.5, CFS
Network International Jixia Ma; Jie
Intrusion Conference Jiang
Detection
Mutivariable Comparação de
mutual Machine Learning técnicas de
SVR
information and Cybernetics reconhecimentos
MMI­SVR
2 based feature 2012 China (ICMLC), 2012 Zhi­Wei Qiu de padrões
MI­MI­SVR
selection for International
MI­SVR
electricity price Conference
forecasting
Feature Aplicação de
Applied Machine
selection for técnicas de
Intelligence and
support vector Hai­xiang reconhecimentos
Informatics (SAMI),
3 regression in the 2011 China Zhao; de padrões SVR
2011 IEEE 9th
application of Magoulès, F.
International
building energy
Symposium
prediction
A feature Information and Aplicação de
Qingshan CDCBF
selection Automation (ICIA), técnicas de
Jiang; Xinxing IG
4 method for 2011 China 2011 IEEE reconhecimentos
Zhao; Kai DSFS
malware International de padrões
Huang FCBF
detection Conference
5 Optimizing 2008 China Web­Age Dai Lei; Yun Aplicação de ChiSquared –
Traffic Information Xiaochun; Xiao técnicas de C4.5 NBK­
Classification Management, 2008. Jun reconhecimentos FCBF
31

Using Hybrid WAIM '08. The de padrões


Feature Ninth International
Selection Conference
Approximate Comparação de
SOM
nearest neighbor técnicas de
Computer Science Clustering
search using Yodkhad, P.; reconhecimentos
and Engineering combinado
self­organizing Kawewong, A.; de padrões
6 2014 Tailândia Conference com PCA
map clustering Patanukhom,
(ICSEC), 2014 2DPCA
for face K.
International SOM­Face
recognition
k­d Tree.
system
New method for Novos modelos
non­intrusive ou combinações
Control and
data extraction de técnicas de
Decision Conference Zhenyu Wang;
7 and 2011 China reconhecimento NILM, DSM
(CCDC), 2011 Guilin Zheng
classification of de padrões
Chinese
residential
appliances
Mining Novos modelos MReC­DFS
Recurring ou combinações comparado
Concepts in a de técnicas de com
Dynamic reconhecimento NB
Feature Space de padrões MW(100)
OzBoostAdwi
Neural Networks Gomes, J.B.; n
and Learning Gaber, M.M.; DWM
8 2014 Cingapura
Systems, IEEE Sousa, P.A.C.; DDM
Transactions on Menasalvas, E. Rec
Rec+DFS(0.0
1)
Rec+DFS(30
0)
Rec+DFS(Ad
ap)
9 Ensemble based 2013 Índia Computing, Balachandran, Comparação de SMO
optimal Communications K.; Anitha, R. técnicas de Multi­Layer
classification and Networking reconhecimentos Perceptron
model for pre­ Technologies de padrões (MLP)
diagnosis of (ICCCNT),2013 IBK
lung cancer Fourth International Logistic
32

Conference on Random
Forest (RF)
Multiclass
Classifier
LogitBoost e
RandomTree
GATS­C4.5: An Consumer Aplicação de
Algorithm for Communications You Chen; Lei técnicas de
10 Optimizing 2008 China and Networking Dai; Xue­Qi reconhecimentos GATS ­ C4.5
Features in Flow Conference, 2008. Cheng de padrões
Classification CCNC 2008
Classification Novos modelos
Related ou combinações
Image and Graphics
Manifold de técnicas de
(ICIG), 2013
Dimension Kezhen Teng; reconhecimento
11 2013 China Seventh RBM, SVM
Estimation with Jinqiao Wang de padrões
International
Restricted
Conference on
Boltzmann
Machine
Analysis of Comparação de Naïve Bayes
Features técnicas de (NB)
Selection and reconhecimentos K­nearest
Machine de padrões Neighbour
Information Science Mas'ud, M.Z.;
Learning (KNN)
and Applications Sahib, S.;
Classifier in Decision Tree
12 2014 Malásia (ICISA), 2014 Abdollah,
Android (J48) Multi­
International M.F.; Selamat,
Malware Layer
Conference on S.R.; Yusof, R.
Detection Perceptron
(MLP)
Random
Forest (RF)
Relation of Novos modelos
Awareness Science
home energy ou combinações
and Technology
consumption Tamano, K.; de técnicas de Naïve Bayes
13 2011 China (iCAST), 2011 3rd
and static Tsuji, H. reconhecimento (NB)
International
properties of de padrões
Conference on
consumers
14 The research of 2012 China Fuzzy Systems and Suxiang Zhang Novos modelos ME
the resident user Knowledge ou combinações (maximum
classification Discovery (FSKD), de técnicas de entropy)
33

based on the 2012 9th reconhecimento


maximum International de padrões
entropy in the Conference on
smart grid
Energy­Efficient Novos modelos
Signal Pianegiani, F.; ou combinações
Instrumentation and
Classification in Mingqing Hu; de técnicas de
15 2008 Itália Measurement, IEEE ν­SVM
Ad hoc Wireless Boni, A.; Petri, reconhecimento
Transactions on
Sensor D. de padrões
Networks
Day­ahead price Novos modelos
Power and Energy
forecasting of ou combinações
Society General
electricity de técnicas de
Meeting ­ AC+ARIMA
markets by reconhecimento
Conversion and Amjady, N.; AC+NN
16 combination of 2008 EUA de padrões
Delivery of Daraeepour, A. PCA+NN
mutual
Electrical Energy in MI+NN
information
the 21st Century,
technique and
2008 IEEE
neural network
A smart phone­ Bioelectronics and Aplicação de
based pocket Bioinformatics Lih­Jen Kau; técnicas de
17 fall accident 2014 China (ISBB), 2014 IEEE Chih­Sheng reconhecimentos SVM
detection system International Chen de padrões
Symposium on
What is the Comparação de OPF
importance of técnicas de OPF­PSO
Ramos, C.C.O.;
selecting Circuits and Systems reconhecimentos SVM­RBF
Papa, J.P.;
features for non­ (ISCAS), 2011 IEEE de padrões SVM­
18 2011 Brasil Souza, A.N.;
technical losses International noKernel
Chiachia, G.;
identification? Symposium on ANN­MLP
Falcao, A.X.
SOM
k­NN
19 Improving 2010 Brasil Systems Man and de L Vieira, Novos modelos LVF
reinforcement Cybernetics (SMC), D.C.; ou combinações
learning 2010 IEEE Adeodato, de técnicas de
algorithms by International P.J.L.; reconhecimento
the use of data Conference on Gonçalves, de padrões
mining P.M.
techniques for
feature and
34

action selection
Lightweight Novos modelos
Computational
IDS Based on ou combinações
Science and
Features de técnicas de
Engineering, 2009. Zaman, S.; SVM
20 Selection and 2009 Canadá reconhecimento
CSE '09. Karray, F. IDS
IDS de padrões
International
Classification
Conference on
Scheme

Adicionalmente, a pesquisa realizada mostrou, também, que os estudos relacionados a


reconhecimento de padrões e técnicas de mineração de dados estão concentrados no
continente asiático, com destaque a China, representa 75% dos artigos selecionados.
Adicionalmente, 20% na América, sendo 10% na América do Sul (Brasil) e 10% na América
do Norte, e 5% na Europa (Itália).

Os trabalhos relacionados na Tabela 2 são sucintamente apresentados nas próximas


subseções, organizados de acordo com as classificações atribuídas aos grupos de artigos:

Comparação de técnicas de reconhecimentos de padrões

Os artigos pertencentes ao grupo em questão se referem ao estudo e análise


comparativa de diferentes técnicas de reconhecimento de padrões e seleção de variáveis em
cenários distintos.
Mas'ud, Sahib, Abdollah, Selamat e Yusof (2014) apresentam experimentos para
comparação de métodos de aprendizagem de máquina para classificação de variáveis no
contexto de detecção de malwares para Android, utilizando as seguintes técnicas Naïve Bayes
(NB), K­nearest, Neighbour (KNN), Decision Tree (J48), Multi­Layer Perceptron (MLP) e
Random Forest (RF) em máquinas de aprendizagem de classificadores distintas. A partir
disso, o resultado do estudo indicou que foi alcançado o melhor desempenho global a partir
do método MLP utilizando o conjunto de seleção derivado do método de seleção de atributos.
Já Zhi­Wei (2012) apresenta efetua estudos experimentais comparando a técnica SVR
e suas variações (MMI­SVR, MI­MI­SVR, MI­SVR) no contexto de identificação de padrões
de consumo de eletricidade para projeção dos seus respectivos preços. Os experimentos
efetuados demonstram que tal método juntamente com a proposta de “informação mútua
35

multivariada” (MMI­SVR) para seleção deste tipo de variável atinge previsão mais exata
neste contexto do que outros métodos de seleção conhecidos.
Yodkhad, Kawewong e Patanukhom (2014) propõe a aplicação da rede SOM para
busca de agrupamentos de bases de dados, melhorando a eficiência do sistema de
reconhecimento facial do “vizinho” mais próximo. Neste contexto, o desempenho do método
em questão foi aplicado em três métodos de extração de características, sendo eles PCA
(Análise de componentes principais), 2DPCA (Análise bidimensional de componentes
principais) e SOM­Face. Por fim, os experimentos em 1560 imagens faciais de 156 pessoas
demonstraram que o método proposto possui melhor desempenho que a árvore k­d e busca
por força bruta.
Em contrapartida, a partir de estudos experimentais realizados por Ramos, Papa,
Souza, Chiachia e Falcao (2011), no contexto de perdas não técnicas de identificação
automática, a técnica SOM não apresentou melhor desempenho, visto que foi efetuada a
comparação da técnica OPF com outras técnicas de reconhecimento de padrões relacionadas a
perdas não técnicas de identificação automática, sendo estas a própria SOM e outras técnicas
como SVM­RBF, SVM­noKernel, ANN­MLP e k­NN, e, posteriormente, o método
tradicional OPF foi comparado com o OPF­PSO a fim de selecionar os atributos mais
representativos e também classificá­los. A partir disso, o resultado dos experimentos
demonstraram que, no primeiro, os classificadores mais precisos foram OPF e k­NN e já no
segundo o modelo OPF­PSO apresentou melhores resultados em relação ao OPF.
No contexto de utilização da mineração de dados para definição de classificadores de
predição de câncer de pulmão com base nos sintomas e fatores de risco da doença,
Balachandran e Anitha (2013) observaram através de experimentos, que a abordagem do
treinamento supervisionado é superior à abordagem de validação cruzada e que os algoritmos
de classificação como SMO, Multi­Layer Perceptron, IBK, Logistic, Random Forest
,Multiclass Classifier, LogitBoost e RandomTree são mais adequados no contexto de
treinamento supervisionado para agrupamento de dados.

Aplicação de técnicas de reconhecimentos de padrões

Os artigos pertencentes ao grupo em questão se referem à aplicação de técnicas de


reconhecimento de padrões e seleção de variáveis em cenários pouco explorados até o
momento.
36

Hai­xiang e Magoulès (2011) apresentam a aplicação do modelo SVR no contexto de


consumo de energia, a partir de experimentos em dois núcleos (Kernels) distintos, porém,
ambos demostram que os métodos propostos possibilitam a seleção ótima de um subconjunto
de variáveis em um tempo computacional reduzido.
Dai, Yun e Xiao (2008) Jun apresentam um método de seleção de característica
híbrida para classificação de um fluxo no contexto de classificação das aplicações em rede,
utilizando o algoritmo ChiSquared – C4.5, os experimentos efetuados indicam que a
abordagem proposta pode reduzir significativamente o desempenho computacional sem
impactar na precisão da classificação. Adicionalmente, tais experimentos indicam também
esta abordagem funciona melhor do que o método NBK­ FCBF.
Reforçando o estudo acima, Chen; Dai; Cheng (2008) propõem a seleção de
características dos dados através do algoritmo baseado em árvores de seleção, GATS ­ C4.5,
sendo o Algoritmo Genético de Busca Tabu (GATS) como estratégia de busca e o algoritmo
C4.5 como função de avaliação, para a construção de um classificador de fluxo “leve”. E tais
experimentos também demonstraram que a técnica em questão possui velocidade rápida e alta
precisão, dessa forma, o classificador utilizando esta combinação possui uma melhora
significativa no desempenho computacional sem impacto negativo na previsão da
classificação, além disso, indica também que o desempenho é superior a classificadores como
NBK­FCBF em todas as classes.
Já Tieming, Xiaoming, Yiguang, Jixia e Jie (2010), propõem um recurso de busca
eficiente para seleção de características relevantes e não redundantes no contexto de intrusão
de rede, utilizando os algoritmos C4.5 e CFS, e tais experimentos também indicam a seleção
ótima de recursos com um bom desempenho computacional a partir de tais técnicas.
Em paralelo, Qingshan, Xinxing e Huang (2011) propõe uma métrica de seleção de
características, método CDCBF (Class Driven Correlation based Feature Selection), no
contexto de detecção de malwares, que verifica os subgrupos que possuem classificação e
calcula a associação entre as suas características, apresentando, também, resultados positivos
em relação à precisão da classificação e custo computacional de processamento.
Por fim, Lih­Jen; Chih­Sheng (2014) propõem um smartphone com um sistema
inteligente de detecção de acidentes utilizando a técnica SVM que apresentou resultados
vantajosos em relação carga computacional e consumo de energia, visto que foram
representativamente reduzidos, além do bom desempenho e aumento na
precisão/especificidade dos resultados obtidos.
37

Novos modelos ou combinações de técnicas de reconhecimento de padrões

Por fim, os artigos pertencentes ao grupo em questão se referem a novas propostas de


técnicas de reconhecimento de padrões e seleção de variáveis, se distinguindo no contexto em
que foram aplicadas e nas combinações de técnicas utilizadas em tais experimentos.
Wang e Zheng (2011) utilizaram variações das técnicas NILM, DSM para da
classificação e identificação de dados de forma não intrusiva nos aparelhos de monitoramento
residencial, utilizando o tempo de reação humana como unidade escala de tempo (frequência
de amostragem). Já Gomes, Gaber, Sousa e MenaSalvas (2014), combinaram a técnica
MReC­DFS com NB, MW(100), OzBoostAdwin, DWM, DDM, Rec, Rec+DFS(0.01),
Rec+DFS(300), Rec+DFS(Adap) para elaboração de um sistema de aprendizado fluxo de
dados em um espaço que possui característica dinâmica, cujos resultados apresentaram que a
seleção de recurso minimiza o custo associado para aprendizagem de máquina neste cenário.
Tamano, Tsuji (2011), utilizou uma variação da técnica de Naïve Bayes (NB) para
desenvolvimento de um método rápido de notificação de consumo de energia e suas
tendências de consumo, cujos experimentos demonstraram que a precisão obtida não é muito
elevada, porém, têm­se diversas propriedades estáticas sugestivas. No ano seguinte, em 2012,
Suxiang apresentou a variação da técnica ME (maximum entropy) para, também identificar
padrões de consumo de energia, que apresentou vantagens em relação à técnica original em
relação à precisão dos resultados obtidos.
Teng e Wang (2013) propõem um método para estimar a classificação relacionada à
estratégia de estimação da dimensão utilizando RBM (Restricted Boltzmann Machine) e
classificadores SVM. Adicionalmente, uma nova estratégia de inicialização é proposta para
acelerar o processo de treinamento da máquina (RBM) e tais métodos foram verificados em
conjuntos de dados reais e sintéticos, e, com isso, tem­se como resultado que o método de
classificação, em relação à estratégia de estimativa de dimensão a partir da utilização da
RBM, é efetivo em relação à precisão e baixo tempo de consumo e utilização de memória.
Em 2008, Pianegiani, Mingqing, Boni e Petri, propuseram uma variação da técnica ν­
SVM para utilização de sensores sem fio de baixa potência para a classificação de sinais de
rede, cujos resultados os experimentos alcançaram baixo consumo de energia e utilização
eficiente dos recursos de hardware e mostraram que a precisão da execução proposta é
comparável com que as técnicas já conhecidas na literatura. No mesmo ano, Amjady e
Daraeepour, propuseram a combinação das técnicas AC+ARIMA, AC+NN, PCA+NN,
MI+NN, para previsão do preço em relação ao mercado de eletricidade e esta última
38

apresentou melhores resultados em relação ao custo computacional e precisão. No ano


seguinte, Vieira, Adeodato e Gonçalves, propuseram uma nova aplicação da técnica LVF para
um problema específico do RoboCup futebol, o “drible”, cujos resultados dos experimentos
apresentaram a redução da quantidade de variáveis no ambiente e da quantidade de ações, o
que resultou numa redução no consumo de memória e um aumento no desempenho, conforme
a distribuição de frequência relativa de sucesso do agente.
Por fim, Zaman e Karray, propuseram uma validação da técnica IDS, denominada IDS
Leve, para construção de um sistema de Detecção de intrusão e, com isso, comparada com a
técnica SVM, a IDS leve possui desempenho satisfatório, em relação à precisão de
classificação e redução do tempo de treinamento, para ser utilizado como elemento
permanente para segurança da rede e infraestrutura.

4.6 Discussão e Resultados

A partir dos estudos efetuados, notou­se que todos os trabalhos, mesmo realizando
análises comparativas de técnicas de reconhecimento de padrões, propondo novas variações
ou combinações destas ou avaliando os resultados dos experimentos a partir das aplicações de
tais técnicas, consideraram, unanimemente, as seguintes métricas para tais análises
comparativas: precisão dos classificadores e desempenho computacional.
Adicionalmente, não foram identificadas pesquisas e experimentos que aplicassem tais
técnicas no contexto de bens de informação. E, apenas um dos artigos estudados, aplicou tais
técnicas para reconhecimento de padrões de consumo, porém, voltado para consumo de
energia elétrica. Não foram identificados trabalhos que efetuaram experimentos para seleção
de variáveis e apuração de determinantes de consumo ou preferência humana.
De forma geral, os estudos efetuados em relação às técnicas de reconhecimento de
padrões não estão concentrados em uma área específica, visto que os artigos estudados foram
aplicados em áreas e contextos distintos, sendo estes, saúde, segurança domiciliar, detecção
de malwares, segurança de rede, detecção de movimentos, entre outros, o que reforça a
aplicabilidade da mineração de dados nos mais variados segmentos e situações­problema.
Adicionalmente, a partir dos estudos efetuados, é possível afirmar que devido à
abrangência das áreas de aplicação identificadas nos artigos estudados, notou­se, também,
uma variedade nas técnicas de reconhecimento de padrões utilizadas, sendo que algumas delas
apresentavam melhor desempenho em determinados contextos e em outros possuíam
desempenho inferior. Com isso, não foi identificada uma concentração expressiva na
39

utilização de determinada técnica de reconhecimento de padrões ou seleção de variáveis, o


que se pode inferir que a escolha e o desempenho destas em relação à precisão das
classificações de dados e custo computacional dependem diretamente do contexto em que são
aplicadas, devendo­se levar em consideração alguns aspectos como seu objetivo, recursos
computacionais disponíveis e bases de dados a serem utilizadas.
O interesse na área de reconhecimento de padrões tem crescido muito nos últimos
anos, visto que se trata de uma tarefa de classificação ou categorização de um elevado volume
de dados em um contexto dinâmico em que a precisão dos resultados e o desempenho
computacional são aspectos fundamentais para apoio a tomada de decisão e resolução de
problemas complexos.
Dessa forma, diante do cenário em questão, este relatório apresentou o processo de
condução de uma revisão sistemática cujo objetivo principal foi identificar métodos e técnicas
de reconhecimento de padrões mais utilizados pelo estado na arte e os experimentos
relacionados à aplicação de técnicas de reconhecimento de padrões para identificação de
determinantes de padrões de consumo de bens de informação.
A partir da revisão efetuada, pode­se afirmar que a aplicação das técnicas de
reconhecimento de padrões no contexto de definição de determinantes de padrões de consumo
de bens de informação não é um tópico de pesquisa maduro e desenvolvido, visto que não foi
abordado em nenhum dos trabalhos estudados. Adicionalmente, conclui­se também que tais
técnicas podem ser aplicadas nos mais diversos contextos e áreas e que a escolha e o
desempenho das técnicas de reconhecimento de padrões e seleção de variáveis, em relação à
precisão das classificações de dados e custo computacional, dependem diretamente destes
contextos.

5 Cronograma

Este trabalho será composto pelas seguintes etapas e executado durante os anos de 2015 a 2017,
conforme detalhamento abaixo:
CRONOGRAMA
2015 2016 2017
1
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11
2
Estudo da literatura x x x x x x x x x x x x x x x x x x x x x x x x
Definição da proposta x x x x x x x
Execução da proposta x x x x x x
Validação da proposta x x x x x x x
40

Preparo da qualificação x x x X
Exame de qualificação X
Coleta/obtenção de dados x x
Limpeza dos dados x x
Integração dos dados x x x
Seleção e transformação
x x x
dos dados
Análise dos dados x x x x x
Mineração dos dados x x x
Avaliação do pós
x x
processamento
Visualização dos
x
resultados
Análise dos resultados x x
Escrita da dissertação x x x x x x x x x x x x x x x x
Escrita de artigo x x x x x x x x x x x x
Depósito da dissertação x x

Referências1

AGENCIA NACIONAL DE CINEMA. Valor Adicionado pelo setor audiovisual, 2015.


Disponível em: <http://oca.ancine.gov.br/media/SAM/Estudos/VALOR­ADICIONADO­
PELO­SETOR­AUDIOVISUAL.pdf>. Acesso em: 10 mai. 2016.

AGENCIA NACIONAL DE CINEMA. Informe Anual 2009, 2009. Disponível em:


http://oca.ancine.gov.br/media/SAM/Informes/2009/InformeAnual2009.pdf. Acesso em: 10
mai. 2016.

Amo, S.; Rocha, A.R. “Mining Sequential Patterns using Genetic Programming”.
International Conference on Artificial Intelligence, 2003, Las Vegas, USA, p. 451­456.

Amjady, N.; Daraeepour, A., "Day­ahead price forecasting of electricity markets by


combination of mutual information technique and neural network," Power and Energy Society
General Meeting ­ Conversion and Delivery of Electrical Energy in the 21st Century, 2008
IEEE , vol., no., pp.1,7, 20­24 July 2008

Balachandran, K.; Anitha, R., "Ensemble based optimal classification model for pre­diagnosis
of lung cancer," Computing, Communications and Networking Technologies (ICCCNT),2013
Fourth International Conference on , vol., no., pp.1,7, 4­6 July 2013

Boeachat, A.A..Algoritmos para a detecção de drifting em sensores de fundo de poço.


Florianópolis: Universidade Federal de Santa Catarina, 2012.

Biolchini, J.; Mian, P. G.; Natali, A. C. C.; Travassos, G. H. (2005). Sytematic review in

1
De acordo com a Associação Brasileira de Normas Técnicas. NBR 6023.
41

software engineering. Technical report, RT–ES 679/05 System Engineering and Computer
Science Dept., COOPE/UFRJ.

Camilo, O.C., Silva, J.C. “Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas”,
Goiás: Universidade Federal de Goiás, 2009.

Canclini, N. G. Consumidores e cidadãos: conflitos multiculturais da globalização. 4 ed. Rio


de Janeiro: Editora UFRJ, 1999.

Dai Lei; Yun Xiaochun; Xiao Jun, "Optimizing Traffic Classification Using Hybrid Feature
Selection," Web­Age Information Management, 2008. WAIM '08. The Ninth International
Conference on , vol., no., pp.520,525, 20­22 July 2008

Diniz, S.C. “Análise do consumo de bens e serviços artístico­culturais no Brasil


metropolitano”. Minas Gerais: Universidade Federal de Minas Gerais, 2009.

de L Vieira, D.C.; Adeodato, P.J.L.; Gonçalves, P.M., "Improving reinforcement learning


algorithms by the use of data mining techniques for feature and action selection," Systems
Man and Cybernetics (SMC), 2010 IEEE International Conference on , vol., no.,
pp.1863,1870, 10­13 Oct. 2010

Gomes, J.B.; Gaber, M.M.; Sousa, P.A.C.; Menasalvas, E., "Mining Recurring Concepts in a
Dynamic Feature Space," Neural Networks and Learning Systems, IEEE Transactions on ,
vol.25, no.1, pp.95,110, Jan. 2014

FAYYAD, U.; SHAPIRO, G.P.; SMYTH, P. From Data Mining to Knowledge Discovery in
Databases. American Association for Artificial Intelligence. United States, 1996.

Hai­xiang Zhao; Magoulès, F., "Feature selection for support vector regression in the
application of building energy prediction," Applied Machine Intelligence and Informatics
(SAMI), 2011 IEEE 9th International Symposium on , vol., no., pp.219,223, 27­29 Jan. 2011

Han, J; KAMBER, M. Data Mining: Concepts and Techniques. Elsevier, 2006.

Hofstede, G. J.; Minkov, M.; Cultures and Organizations: Software of the Mind. 3 ed.
McGraw­Hill USA, 2010.
42

Kezhen Teng; Jinqiao Wang, "Classification Related Manifold Dimension Estimation with
Restricted Boltzmann Machine," Image and Graphics (ICIG), 2013 Seventh International
Conference on , vol., no., pp.857,862, 26­28 July 2013

Lih­Jen Kau; Chih­Sheng Chen, "A smart phone­based pocket fall accident detection system,"
Bioelectronics and Bioinformatics (ISBB), 2014 IEEE International Symposium on , vol., no.,
pp.1,4, 11­14 April 2014

Mas'ud, M.Z.; Sahib, S.; Abdollah, M.F.; Selamat, S.R.; Yusof, R., "Analysis of Features
Selection and Machine Learning Classifier in Android Malware Detection," Information
Science and Applications (ICISA), 2014 International Conference on , vol., no., pp.1,5, 6­9
May 2014

MINISTÉRIO DA CULTURA.; Economia e Política Cultural: acesso, emprego e


financiamento. Frederico A. Barbosa da Silva, autor – Brasília: Ministério da Cultura, 2007.

MITCHELL, T.M. Machine Learning.1.ed. [S.1]: McGraw­Hill Science/Engineeering/Math,


1997.

Pianegiani, F.; Mingqing Hu; Boni, A.; Petri, D., "Energy­Efficient Signal Classification in
Ad hoc Wireless Sensor Networks," Instrumentation and Measurement, IEEE Transactions on
, vol.57, no.1, pp.190,196, Jan. 2008

Qingshan Jiang; Xinxing Zhao; Kai Huang, "A feature selection method for malware
detection," Information and Automation (ICIA), 2011 IEEE International Conference on ,
vol., no., pp.890,895, 6­8 June 2011

Ramos, C.C.O.; Papa, J.P.; Souza, A.N.; Chiachia, G.; Falcao, A.X., "What is the importance
of selecting features for non­technical losses identification?," Circuits and Systems (ISCAS),
2011 IEEE International Symposium on , vol., no., pp.1045,1048, 15­18 May 2011

Schalkoff, R. J.; Pattern Recognition: Statistical, Structural and Neural Approaches, 1991.

Shapiro, C.; Varian, H., "Information Rules: a strategic guide to the network economy".
Boston: Harvard Business School Review Press, 1999.
43

Silva, A. L. L.; Consumo de produtos culturais em São Paulo: Análise dos Fatores
Antecedentes e Propostas de Modelo. São Paulo: Universidade de São Paulo, 2008.

Suxiang Zhang, "The research of the resident user classification based on the maximum
entropy in the smart grid," Fuzzy Systems and Knowledge Discovery (FSKD), 2012 9th
International Conference on , vol., no., pp.1563,1566, 29­31 May 2012

Tamano, K.; Tsuji, H., "Relation of home energy consumption and static properties of
consumers," Awareness Science and Technology (iCAST), 2011 3rd International Conference
on , vol., no., pp.215,220, 27­30 Sept. 2011

Tieming Chen; Xiaoming Pan; Yiguang Xuan; Jixia Ma; Jie Jiang, "A Naive Feature
Selection Method and Its Application in Network Intrusion Detection," Computational
Intelligence and Security (CIS), 2010 International Conference on , vol., no., pp.416,420, 11­
14 Dec. 2010

Throsby, David.; Cultural Capital. Journal of Cultural Economics, 23, 3­12, 1999.

Yodkhad, P.; Kawewong, A.; Patanukhom, K., "Approximate nearest neighbor search using
self­organizing map clustering for face recognition system," Computer Science and
Engineering Conference (ICSEC), 2014 International , vol., no., pp.151,156, July 30 2014­
Aug. 1 2014

You Chen; Lei Dai; Xue­Qi Cheng, "GATS­C4.5: An Algorithm for Optimizing Features in
Flow Classification," Consumer Communications and Networking Conference, 2008. CCNC
2008. 5th IEEE , vol., no., pp.466,470, 10­12 Jan. 2008

Zaman, S.; Karray, F., "Lightweight IDS Based on Features Selection and IDS Classification
Scheme," Computational Science and Engineering, 2009. CSE '09. International Conference
on , vol.3, no., pp.365,370, 29­31 Aug. 2009

Zhenyu Wang; Guilin Zheng, "New method for non­intrusive data extraction and
classification of residential appliances," Control and Decision Conference (CCDC), 2011
Chinese , vol., no., pp.2196,2201, 23­25 May 2011
44

Zhi­Wei Qiu, "Mutivariable mutual information based feature selection for electricity price
forecasting," Machine Learning and Cybernetics (ICMLC), 2012 International Conference on
, vol.1, no., pp.168,173, 15­17 July 2012

Você também pode gostar