Escolar Documentos
Profissional Documentos
Cultura Documentos
São Paulo
2016
NATHALIA NIEUWENHOFF
São Paulo
2016
Exame de Qualificação de autoria de Nathalia Nieuwenhoff, sob o título "Análise
comparativa de técnicas de classificação de dados aplicadas para identificação dos
determinantes de decisão do consumo de filmes em salas de cinema no Brasil",
apresentada à Escola de Artes, Ciências e Humanidades da Universidade de São Paulo, para
obtenção do título de Mestre em Ciências pelo Programa de Pósgraduação em Sistemas de
Informação, na área de concentração Metodologia e Técnicas da Computação, aprovada em
_____ de _____________________ de ________ pela comissão julgadora constituída pelos
doutores:
The task classification or categorization data, also known as pattern recognition techniques
and variables selection are being increasingly used in the context of extracting information or
patterns in large databases. From this, the application of pattern recognition techniques to
identify the determinants of consumption patterns of a good information is complex and little
explored in Brazil. This paper presents a comparative analysis of the application of two
machine learning techniques for data classification based on supervised learning, Naive Bayes
and Support Vector Machine (SVM), to identify the determinants of consumption patterns of
a good information, movies in Brazilians cinemas, based on data obtained from the Pesquisa
de Orçamento Familiar ( POF ) 20082009 by the Instituto Brasileiro de Geografia e
Estatística (IBGE).
1 Introdução 6
1.1 Justificativa e Motivação 7
1.1.1 Objetivos 12
1.1.2 Estrutura do documento 13
2 Fundamentação teórica 14
2.1 Descoberta do conhecimento 14
2.2 Classificação 16
2.3 Regressão 17
2.4 Agrupamento 17
2.5 Associação 17
2.6 Descrição 18
2.7 Aprendizado de Máquina 18
3 Metodologia de Pesquisa 20
3.1 Revisão Bibliográfica 20
3.2 Revisão Sistemática 20
3.2.1 Validação dos algoritmos de classificação 20
4 Revisão Sistemática 25
4.1.1 Questões de pesquisa 25
4.2 Estratégia de busca para seleção de estudos 25
4.2.1 Uma seção terciária 26
4.3 Outra seção secundária 27
4.4 Condução 28
4.5 Resultados 28
4.6 Discussão e Resultados 37
5 Cronograma 39
Referências 39
7
1 Introdução
consumidores estão sujeitos influenciam suas preferências, dessa forma, estas são afetadas
diretamente pelo capital pessoal, ou seja, experiências pessoais e individuais dos
consumidores, bem como pelo capital social, experiências e influências proporcionadas pelo
meio social que os consumidores estão inseridos. Dessa forma, o estudo dos determinantes de
consumo de cultura requer o mapeamento das restrições e influências que o consumidor e os
grupos nos quais este está inserido sofrem, resultando, assim, no entendimento aprofundado
do público alvo de consumo.
Reforçando esta ideia, Throsby (1999) afirma que os produtos culturais, o que inclui
os bens de informação, possuem valores de uso que são compostos pelos produtos culturais
materializados e os que possuem valor simbólico, dessa forma, notase que a atribuição de
valor a eles não é uma tarefa trivial, afinal, é preciso conhecer mais detalhadamente
características especiais destes bens, bem como as de quem os consome.
Aplicando este contexto ao cenário brasileiro, o Brasil além de ser um país
conceitualmente dividido em cinco grandes regiões, é um país multicultural, o que torna ainda
mais complexa a tarefa de mapeamento e identificação dos padrões de consumo da sua
população, afinal, além de sua cultura estar sujeita a um conjunto de incentivos financeiros
com recursos públicos disputados que são aplicados, muitas vezes, sem nenhum grau de
conhecimento do padrão de consumo, conforme afirmado por Hofstede (2010), as diferenças
culturais entre as regiões do país são significativas, tornando ainda mais complexa a tarefa de
definição de padrão de consumo do brasileiro de forma geral.
Neste contexto, visto que o consumo de cultura aborda a noção de cidadania
impactada pelo acesso, classificar os indivíduos e identificar padrões de consumo de cultura,
através dos bens de informação, tornase cada vez mais necessário para os recursos públicos
serem capazes de estabelecer políticas públicas voltadas ao setor eficazes e, ao mesmo tempo,
reduzir o consumo ilegal dos bens de informação, combatendo iniciativas como a pirataria,
por exemplo.
Adicionalmente, de acordo com Silva (2008), a administração pública do Brasil não
possui dados consistes e precisos sobre as práticas culturais dos brasileiros e como estas se
refletem nas diversas regiões do país, bem como sobre os hábitos de consumo cultural da sua
população, ocasionando, assim, a elaboração de políticas públicas culturais ineficazes e que
não atendem às necessidades para um consumo cultural efetivo e acessível à população
brasileira. Em paralelo, é de alto interesse das empresas responsáveis pela produção e
reprodução de tais bens de informação a identificação de padrões de consumo no contexto de
auxiliar as estratégias de venda e divulgação de tais bens para um público alvo mais preciso,
10
e, em paralelo, não comprometa o desempenho computacional das aplicações, visto que, nos
dias atuais, estas estão cada vez mais exigentes, tais técnicas estão sendo cada vez mais
estudadas, aplicadas e desenvolvidas.
Dessa forma, o interesse na área de Reconhecimento de padrões, que segundo
Schalkoff (1991), tratase do estudo de descrição e classificação de medições, tem crescido
muito nos últimos anos e está em constante desenvolvimento, visto que se trata de uma tarefa
de classificação ou categorização de dados, cujo objetivo é discriminar amostras de objetos e
classificar corretamente as amostras futuras.
Neste contexto, tais fatores conduziram a exploração e desenvolvimento da técnica de
extração de conhecimento em banco de dados volumosos, nãotriviais e dinâmicos, também
conhecida como Knowledge Discovery in Databases (KDD), para geração de conhecimento a
partir de padrões de dados válidos, complexos e potencialmente úteis (Fayyad, Shapiro e
Smyth, 1996). A Mineração de dados, ou Data mining, tratase de uma etapa deste processo,
que consiste na aplicação das técnicas computacionais em si para geração de conhecimento a
partir de tais bases de dados.
A aplicação da mineração de dados requer, inicialmente, que dois fatores sejam
considerados, sendo eles a tarefa e a técnica de mineração. A tarefa consiste na definição e
detalhamento do objetivo da exploração dos dados, ou seja, qual(is) é(são) a(s) categoria(s) de
padrões que se deseja obter. Já a técnica se trata do método a ser utilizado para obtenção de
tais padrões de interesse. Atualmente, há diversas técnicas de mineração, dentre elas as
estatísticas e de aprendizado de máquina, por exemplo. Em relação às tarefas, estas se
subdividem, basicamente, em Análise de Regras de Associação, Análise de Padrões
Sequenciais, Classificação e Predição, Análise de Agrupamentos e Análise de Outliers.
A identificação de padrões de consumo de bens de informação, especificamente,
filmes em salas de cinema no Brasil, principalmente no que se refere à aplicação da
mineração de dados para obtenção de tais informações, tratase de um aspecto pouco
explorado até então, o que motivou a realização deste trabalho.
Neste contexto, a aplicação da tarefa de Classificação dos dados, cuja função é
examinar o conjunto de registros marcados com seus atributos correspondentes e identificar as
características (variáveis) que definem tais classes, predizendo, assim, as classes que os
registros ainda não classificados pertencem, possibilita identificar, de forma automatizada,
precisa e a partir do relacionamento de dados quantitativos e qualitativos, as variáveis que
influenciam na decisão de consumo dos bens de informação, podendo, assim, auxiliar os
13
recursos públicos na definição de políticas públicas que viabilizam o acesso legal a estes bem,
bem como auxiliar recursos privados nas estratégias de vendas e produção.
A partir disso, a contribuição deste trabalho é focada na aplicação e análise
comparativa de dois algoritmos de aprendizagem de máquina para classificação de dados
popularmente utilizados, sendo eles Naive Bayes e Support Vetor Machine (SVM), para
identificação de padrões de consumo de filmes em sala de cinema nacional, bem como as
vantagens e desvantagens da utilização de cada um destes, a partir das métricas relacionadas à
precisão de cada uma destas, bem como seus desempenhos computacionais, conforme as
classes de brasileiros que assistiram ou não filmes em salas de cinema no Brasil durante os 12
meses entre os anos 2008 e 2009, a partir do grande volume de dados disponível da Pesquisa
de Orçamento Familiar (POF) realizada pelo Instituto Brasileiro de Geografia e Estatística.
1.1.1 Objetivos
Esta dissertação é composta por cinco capítulos, sendo o primeiro deles a introdução
ao tema, subdivididos da seguinte forma:
• O capítulo 2 contém a fundamentação teórica do trabalho, a partir da
contextualização e a revisão bibliográfica, apresentando os principais conceitos relacionados a
Knowledge Discovery in Databases (KDD), Mineração de dados e suas respectivas tarefas e
técnicas, com ênfase nos algoritmos de aprendizagem de máquina para classificação de dados.
• O capítulo 3 apresenta a metodologia de pesquisa utilizada neste trabalho para
aplicação dos dois algoritmos de aprendizagem de máquina para classificação de dados, sendo
estes Naive Bayes e Support Vetor Machine (SVM), na base de dados da Pesquisa de
Orçamento Familiar (POF) 20082009 do Instituto Brasileiro de Geografia e Estatística
(IBGE).
• O capitulo 4 apresenta a condução e os resultados da Revisão Sistemática (RS)
referente aos trabalhos de aplicação dos algoritmos de aprendizagem de máquina para
reconhecimento de padrões de consumo.
• O capítulo 5 apresenta os resultados, bem como a análise comparativa das
técnicas de classificação de dados aplicadas para identificação de padrões de consumo de
filmes em salas de cinema no Brasil.
• O capítulo 6 apresenta a conclusão do trabalho, destacando às suas principais
contribuições, suas limitações e trabalhos futuros.
15
2 Fundamentação teórica
2.2 Classificação
17
A Classificação consiste na análise das características dos dados para atribuição a uma
categoria específica previamente definida. Para isso, cada registro possui os atributos de
predição, em como o alvo. Podendo ser utilizada para identificar pessoas, classificar objetos e
diagnosticar doenças, por exemplo. Suas principais técnicas são:
• Árvores de decisão (decision trees), que consistem na representação do
conhecimento a partir de um número finito de classes. Ou seja, a partir da variável de
avaliação definida, o algoritmo retorna as características associadas a ela a partir dos “ramos
da árvore.” Os nós correspondem aos atributos, as ligações entre os nós representam os
valores para tais atributos e as folhas representam diferentes classes. A partir disso, após a
definição da área, para realização de um novo registro, é necessário seguir a árvore, cujo
início é a raiz.
• Naive Bayes, que consiste em uma técnica baseada em probabilidade,
fundamentada a partir do teorema de Thomas Bayes, que é a probabilidade de um evento
ocorrer, dada a probabilidade de outro que já ocorreu. Ou seja, Probabilidade (Y dado X) =
Probabilidade(X e Y) / Probabilidade(X).
• Classificação baseada em regras, que é similar a Associação, visto que possui o
seguinte formato, SE condição ENTÃO conclusão, cujo objeto é criar associações, pares de
registros que possuem similaridade.
• Redes neurais (Neural Network), que são baseadas no conceito de neurônio
artificial análogo ao neurônio neural, envolvendo estruturas matemáticas que possuem
habilidade de aprendizado, dessa forma, cada unidade de entrada e saída é interligada às
outras por conexões que possuem pesos particulares, variando entre 1 e 1, que correspondem
a intensidade da conexão. Apesar da técnica em questão ter a capacidade de identificar
padrões para os quais não foi treinada técnica em questão requer um longo período para
treinamento, ajustes detalhados em seus parâmetros, bem como é complexa para utilização.
• Support Vector Machine (SVM), que são utilizadas para classificação de dados
em duas classes, cujos resultados apresentados com experimentos apresentam altos índices de
assertividade, possibilitando modelar situações complexas de fácil interpretação, em
contrapartida, seu tempo de aprendizado, geralmente, acaba sendo mais demorado.
• Classificação baseada em regras de associação, que se trata da aplicação das
regras de associação para classificação de dados é uma abordagem recente, cujo objetivo é
basicamente analisar os dados de treinamento para que se obtenha os itens frequentes, e a
partir destes são geradas as regras para classificação dos dados.
18
2.3 Regressão
2.4 Agrupamento
2.5 Associação
2.6 Descrição
treinamento do algoritmo acontece a partir da análise dos dados de treinamento para produção
de uma saída inferida já apresentada, podendo, posteriormente, ser aplicado para classificação
de outros dados de entrada do mesmo domínio. Árvores de Decisão, KNearest Neighbour
(KNN), Naive Bayes e Support Vector Machine (SVM) são exemplos de algoritmos que
tratam este tipo de aprendizado de máquina.
• O Aprendizado NãoSupervisionado consiste em identificar uma estrutura não
conhecida sem uma saída já definida, ou seja, não há essa figura de “professor”, o algoritmo
aprende a agrupar as entradas, a partir das relações, padrões, categorias, entre outros, que
identifica, codificando a saída, com base em uma medida de similaridade entre os atributos.
Clustering, Estatística, Self Organizing Map (SOM), Kmeans são exemplos de algoritmos
que tratam este tipo de aprendizado de máquina.
21
3 Metodologia de Pesquisa
Horizonte, Rio de Janeiro, São Paulo, Curitiba e Porto Alegre. Adicionalmente, as amostras
de domicílios foram selecionadas de forma aleatória e foram distribuídas da seguinte forma
entre os estados brasileiros, totalizando em 55.970 domicílios entrevistados.
Diniz (2010) em seu trabalho de análise do consumo de bens e serviços culturais no
Brasil metropolitano, com base nos dados da POF 20022003, considerando a abordagem
microeconômica do capital humano, em que o consumo de cultura é fortemente determinado
pela exposição prévia dos indivíduos a tais bens e serviços, a pesquisa identificou algumas
características individuais que influenciam esta exposição. A partir disso, concluiuse que o
consumo cultural, o que inclui bens de informação, como filmes em salas de cinema, é
determinado por variáveis socioeconômicas, educacionais e sócio demográficas do chefe do
domicílio, além das variáveis que indicam a localidade e região dos domicílios.
Por fim, os resultados do trabalho em questão indicam que o consumo cultural no
Brasil é fortemente determinado pela renda e grau de educação do consumidor, concentrando
se de forma mais expressiva no rendimento domiciliar. Além disso, apresentou variações de
acordo com as regiões do país, o que levouse a associar tal consumo com as variações de
oferta e/ou a distinções históricoculturais de cada região, bem como que algumas
características particulares do chefe do domicílio e, ao mesmo tempo, dos grupos influenciam
o consumo, estas podendo ser, a idade, gênero, raça/etnia e religião, afinal, podem representar
influências dos grupos e indicação de pertencimento a estes, e experiências pessoais de cada
indivíduo.
A partir de tais informações, este trabalho considerou para construção dos
classificadores, treinamento, testes e análise dos resultados os dados relacionados aos
domicílios, bem como de cada indivíduo, referente às variáveis socioeconômicas (renda, sexo,
idade, bem e papel na família, por exemplo), educacionais (grau de escolaridade, por
exemplo), sócio demográficas do chefe do domicílio e variáveis que indicam a localidade e
região dos domicílios (localização, estado, região metropolitana, zona rural/urbana, por
exemplo), além das informações de consumo de bens e serviços relacionados a cultura.
Para a construção, treinamento e testes dos classificadores, bem como para as
atividades iniciais de limpeza, integração e transformação dos dados, será utilizado o software
Waikato Environment for Knowledge Analysis (WEKA), que, conforme Abertnethy (2010),
consiste em um software gratuito e de código aberto, utilizado par mineração de dados e
transformação de conhecimento, que possibilita a implementação dos algoritmos escopo deste
trabalho, Naive Bayes e SVM. Tratase de um produto desenvolvido pela Universidade de
Waikato (Nova Zelândia), que utilizada a GNU General Public License (GPL) e foi
24
codificado em linguagem Java™. Adicionalmente, contém uma GUI para interação com
arquivos de dados e geração de resultados visuais, como por exemplo, tabelas e gráficos.
Dessa forma, todo o processo previsto no KDD será suportado pelo software em questão.
Considerando que toda técnica de mineração de dados passa por um processo de
treinamento, ou, também, denominado aprendizado, que consiste na apresentação dos dados já
processados para o algoritmo aprender tais características e identificar os padrões úteis para
descoberta do conhecimento, esta será a etapa inicial para a construção dos classificadores.
Posteriormente, visto que os algoritmos objeto deste trabalho são baseados em Aprendizagem
Supervisionada, que utiliza de um atributo chave para definição das classes dos dados, tais
exemplos serão utilizados nesta fase de treinamento.
Como a base da POF possui muitos registros, estes serão divididos entre as fases de
treinamento, teste e validação do modelo, conforme detalhamento da subdivisão dos três
conjuntos, segundo Camilo e Silva (2009):
i. Conjunto de Treinamento (Training Set), consiste nos registros para
desenvolvimento do modelo;
ii. Conjunto de Testes (Test Set), consiste no conjunto de registros utilizados para
teste do modelo;
iii. Conjunto de Validação (Validation Set), consiste no conjunto de registros
utilizados para validação do modelo;
Dessa forma, a divisão da quantidade de registros da fase de treinamento e teste dos
classificadores corresponderá a 90% da amostra de dados da base da POF. Após a modelagem
e construção dos classificadores, o modelo será validado utilizando os 10% restantes dos
dados da POF, não utilizados na fase de treinamento, para categorização dos indivíduos.
Adicionalmente, tal divisão é efetuada para não se criar dependência do modelo para um
conjunto de dados específico, mas sim para este ser submetido a outros dados e apresentar
precisão satisfatória.
A partir dos dados da POF, os seguintes classificadores macro serão previamente
definidos para treinamento e comparação dos resultados: a. Indivíduos e famílias que
consumiram filmes em salas de cinema no Brasil; e b. Indivíduos e famílias que não
consumiram filmes em salas de cinema no Brasil.
Por fim, a avaliação dos resultados obtidos e análise comparativa dos algoritmos de
classificação, a partir dos seus respectivos conjuntos de estimativas, será efetuada
considerando o desempenho dos algoritmos a partir das medidas de precisão, cobertura e
acurácia, que segundo, são medidas interessantes na avaliação do desempenho de
25
classificações binárias, suas definições podem ser vistas nas Fórmulas 1, 2 e 3, abaixo, que
representam a porcentagem dos dados pertencentes à classe e que foram recuperados
(Predição), porcentagem dos dados que foram corretamente classificados (Cobertura) e a
porcentagem dos dados que foram corretamente classificados em relação à medida de
acurácia (Acurácia) (Boeachat, 2012).
)
26
4 Revisão Sistemática
Foram elaboradas uma questão principal de pesquisa e uma questão secundária para
atender aos objetivos propostos desta Revisão Sistemática, sendo estas:
Questão primária: Que tipo e quais técnicas de reconhecimento de padrões
são aplicadas para identificação de determinantes de padrões de consumo?
Para responder esta pergunta foram consideradas, além dos nomes dos algoritmos e
suas respectivas técnicas, estas podendo ser Redes Neurais, Arvores de Decisão e ETC, foram
consideradas também as seguintes classificações: Aprendizado Supervisionado, e suas
subdivisões Classificação e Regressão, e Aprendizado nãosupervisionado e suas subdivisões
Agrupamento e Regras de Associação.
A busca e seleção dos estudos ocorreu a partir considerando como fonte de dados a
base biblioteca digital IEEExplore. A fonte em questão foi escolhida a partir de análise
exploratória em relação ao tema geral de pesquisa, visto que é um repositório de busca de
trabalhos muito reconhecido nesta área. Foi considerado somente trabalhos no idioma inglês,
visto que é a principal língua para redação de trabalhos científicos conhecida e aceita
27
Critérios de inclusão
CI.1: Serão incluídos trabalhos publicados e disponíveis em bases de dados científicas
ou em versões impressas.
CI.2: Serão incluídos trabalhos que possuam abordagem de aplicação de métodos e
técnicas de aprendizagem de máquina e reconhecimento de padrões.
CI.3: Serão incluídos trabalhos que efetuam comparação das técnicas de aprendizagem
de máquina e reconhecimento de padrões de bases de dados que envolvam bens de
informação e que possuam aplicação para determinação de padrões de consumo.
CI.4: Serão incluídos trabalhos que propõem novas técnicas de aprendizagem de
máquina e reconhecimento de padrões e apresentem seus benefícios e vantagens em relação às
técnicas já existentes.
Critérios de exclusão
CE.1: Serão excluídos trabalhos que apresentam avaliações sem apresentar o método e
técnicas utilizadas.
CE.2: Serão excluídos trabalhos que não apresentem estudos experimentais para
validar a proposta de aplicação de determinada(s) técnica(s) de aprendizagem de máquina e
reconhecimento de padrões.
CE.3: Serão excluídos trabalhos que não possuam análise das vantagens e
desvantagens referente à aplicação de um ou mais métodos e técnicas de aprendizagem de
máquina e reconhecimento de padrões.
28
4.4 Condução
29
Para seleção dos estudos foi efetuada a formação de string genérica de busca a partir
das combinações das palavras chave definidas, sendo esta:
("variable selection" OR "feature selection") AND "consumption"
A partir disso, seguindo as regras da fonte de busca da pesquisa, IEEE Xplore, foi
gerada a seguinte string:
(((("variable selection") OR "feature selection") AND "consumption"))
4.5 Resultados
Conference on Random
Forest (RF)
Multiclass
Classifier
LogitBoost e
RandomTree
GATSC4.5: An Consumer Aplicação de
Algorithm for Communications You Chen; Lei técnicas de
10 Optimizing 2008 China and Networking Dai; XueQi reconhecimentos GATS C4.5
Features in Flow Conference, 2008. Cheng de padrões
Classification CCNC 2008
Classification Novos modelos
Related ou combinações
Image and Graphics
Manifold de técnicas de
(ICIG), 2013
Dimension Kezhen Teng; reconhecimento
11 2013 China Seventh RBM, SVM
Estimation with Jinqiao Wang de padrões
International
Restricted
Conference on
Boltzmann
Machine
Analysis of Comparação de Naïve Bayes
Features técnicas de (NB)
Selection and reconhecimentos Knearest
Machine de padrões Neighbour
Information Science Mas'ud, M.Z.;
Learning (KNN)
and Applications Sahib, S.;
Classifier in Decision Tree
12 2014 Malásia (ICISA), 2014 Abdollah,
Android (J48) Multi
International M.F.; Selamat,
Malware Layer
Conference on S.R.; Yusof, R.
Detection Perceptron
(MLP)
Random
Forest (RF)
Relation of Novos modelos
Awareness Science
home energy ou combinações
and Technology
consumption Tamano, K.; de técnicas de Naïve Bayes
13 2011 China (iCAST), 2011 3rd
and static Tsuji, H. reconhecimento (NB)
International
properties of de padrões
Conference on
consumers
14 The research of 2012 China Fuzzy Systems and Suxiang Zhang Novos modelos ME
the resident user Knowledge ou combinações (maximum
classification Discovery (FSKD), de técnicas de entropy)
33
action selection
Lightweight Novos modelos
Computational
IDS Based on ou combinações
Science and
Features de técnicas de
Engineering, 2009. Zaman, S.; SVM
20 Selection and 2009 Canadá reconhecimento
CSE '09. Karray, F. IDS
IDS de padrões
International
Classification
Conference on
Scheme
multivariada” (MMISVR) para seleção deste tipo de variável atinge previsão mais exata
neste contexto do que outros métodos de seleção conhecidos.
Yodkhad, Kawewong e Patanukhom (2014) propõe a aplicação da rede SOM para
busca de agrupamentos de bases de dados, melhorando a eficiência do sistema de
reconhecimento facial do “vizinho” mais próximo. Neste contexto, o desempenho do método
em questão foi aplicado em três métodos de extração de características, sendo eles PCA
(Análise de componentes principais), 2DPCA (Análise bidimensional de componentes
principais) e SOMFace. Por fim, os experimentos em 1560 imagens faciais de 156 pessoas
demonstraram que o método proposto possui melhor desempenho que a árvore kd e busca
por força bruta.
Em contrapartida, a partir de estudos experimentais realizados por Ramos, Papa,
Souza, Chiachia e Falcao (2011), no contexto de perdas não técnicas de identificação
automática, a técnica SOM não apresentou melhor desempenho, visto que foi efetuada a
comparação da técnica OPF com outras técnicas de reconhecimento de padrões relacionadas a
perdas não técnicas de identificação automática, sendo estas a própria SOM e outras técnicas
como SVMRBF, SVMnoKernel, ANNMLP e kNN, e, posteriormente, o método
tradicional OPF foi comparado com o OPFPSO a fim de selecionar os atributos mais
representativos e também classificálos. A partir disso, o resultado dos experimentos
demonstraram que, no primeiro, os classificadores mais precisos foram OPF e kNN e já no
segundo o modelo OPFPSO apresentou melhores resultados em relação ao OPF.
No contexto de utilização da mineração de dados para definição de classificadores de
predição de câncer de pulmão com base nos sintomas e fatores de risco da doença,
Balachandran e Anitha (2013) observaram através de experimentos, que a abordagem do
treinamento supervisionado é superior à abordagem de validação cruzada e que os algoritmos
de classificação como SMO, MultiLayer Perceptron, IBK, Logistic, Random Forest
,Multiclass Classifier, LogitBoost e RandomTree são mais adequados no contexto de
treinamento supervisionado para agrupamento de dados.
A partir dos estudos efetuados, notouse que todos os trabalhos, mesmo realizando
análises comparativas de técnicas de reconhecimento de padrões, propondo novas variações
ou combinações destas ou avaliando os resultados dos experimentos a partir das aplicações de
tais técnicas, consideraram, unanimemente, as seguintes métricas para tais análises
comparativas: precisão dos classificadores e desempenho computacional.
Adicionalmente, não foram identificadas pesquisas e experimentos que aplicassem tais
técnicas no contexto de bens de informação. E, apenas um dos artigos estudados, aplicou tais
técnicas para reconhecimento de padrões de consumo, porém, voltado para consumo de
energia elétrica. Não foram identificados trabalhos que efetuaram experimentos para seleção
de variáveis e apuração de determinantes de consumo ou preferência humana.
De forma geral, os estudos efetuados em relação às técnicas de reconhecimento de
padrões não estão concentrados em uma área específica, visto que os artigos estudados foram
aplicados em áreas e contextos distintos, sendo estes, saúde, segurança domiciliar, detecção
de malwares, segurança de rede, detecção de movimentos, entre outros, o que reforça a
aplicabilidade da mineração de dados nos mais variados segmentos e situaçõesproblema.
Adicionalmente, a partir dos estudos efetuados, é possível afirmar que devido à
abrangência das áreas de aplicação identificadas nos artigos estudados, notouse, também,
uma variedade nas técnicas de reconhecimento de padrões utilizadas, sendo que algumas delas
apresentavam melhor desempenho em determinados contextos e em outros possuíam
desempenho inferior. Com isso, não foi identificada uma concentração expressiva na
39
5 Cronograma
Este trabalho será composto pelas seguintes etapas e executado durante os anos de 2015 a 2017,
conforme detalhamento abaixo:
CRONOGRAMA
2015 2016 2017
1
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11
2
Estudo da literatura x x x x x x x x x x x x x x x x x x x x x x x x
Definição da proposta x x x x x x x
Execução da proposta x x x x x x
Validação da proposta x x x x x x x
40
Preparo da qualificação x x x X
Exame de qualificação X
Coleta/obtenção de dados x x
Limpeza dos dados x x
Integração dos dados x x x
Seleção e transformação
x x x
dos dados
Análise dos dados x x x x x
Mineração dos dados x x x
Avaliação do pós
x x
processamento
Visualização dos
x
resultados
Análise dos resultados x x
Escrita da dissertação x x x x x x x x x x x x x x x x
Escrita de artigo x x x x x x x x x x x x
Depósito da dissertação x x
Referências1
Amo, S.; Rocha, A.R. “Mining Sequential Patterns using Genetic Programming”.
International Conference on Artificial Intelligence, 2003, Las Vegas, USA, p. 451456.
Balachandran, K.; Anitha, R., "Ensemble based optimal classification model for prediagnosis
of lung cancer," Computing, Communications and Networking Technologies (ICCCNT),2013
Fourth International Conference on , vol., no., pp.1,7, 46 July 2013
Biolchini, J.; Mian, P. G.; Natali, A. C. C.; Travassos, G. H. (2005). Sytematic review in
1
De acordo com a Associação Brasileira de Normas Técnicas. NBR 6023.
41
software engineering. Technical report, RT–ES 679/05 System Engineering and Computer
Science Dept., COOPE/UFRJ.
Camilo, O.C., Silva, J.C. “Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas”,
Goiás: Universidade Federal de Goiás, 2009.
Dai Lei; Yun Xiaochun; Xiao Jun, "Optimizing Traffic Classification Using Hybrid Feature
Selection," WebAge Information Management, 2008. WAIM '08. The Ninth International
Conference on , vol., no., pp.520,525, 2022 July 2008
Gomes, J.B.; Gaber, M.M.; Sousa, P.A.C.; Menasalvas, E., "Mining Recurring Concepts in a
Dynamic Feature Space," Neural Networks and Learning Systems, IEEE Transactions on ,
vol.25, no.1, pp.95,110, Jan. 2014
FAYYAD, U.; SHAPIRO, G.P.; SMYTH, P. From Data Mining to Knowledge Discovery in
Databases. American Association for Artificial Intelligence. United States, 1996.
Haixiang Zhao; Magoulès, F., "Feature selection for support vector regression in the
application of building energy prediction," Applied Machine Intelligence and Informatics
(SAMI), 2011 IEEE 9th International Symposium on , vol., no., pp.219,223, 2729 Jan. 2011
Hofstede, G. J.; Minkov, M.; Cultures and Organizations: Software of the Mind. 3 ed.
McGrawHill USA, 2010.
42
Kezhen Teng; Jinqiao Wang, "Classification Related Manifold Dimension Estimation with
Restricted Boltzmann Machine," Image and Graphics (ICIG), 2013 Seventh International
Conference on , vol., no., pp.857,862, 2628 July 2013
LihJen Kau; ChihSheng Chen, "A smart phonebased pocket fall accident detection system,"
Bioelectronics and Bioinformatics (ISBB), 2014 IEEE International Symposium on , vol., no.,
pp.1,4, 1114 April 2014
Mas'ud, M.Z.; Sahib, S.; Abdollah, M.F.; Selamat, S.R.; Yusof, R., "Analysis of Features
Selection and Machine Learning Classifier in Android Malware Detection," Information
Science and Applications (ICISA), 2014 International Conference on , vol., no., pp.1,5, 69
May 2014
Pianegiani, F.; Mingqing Hu; Boni, A.; Petri, D., "EnergyEfficient Signal Classification in
Ad hoc Wireless Sensor Networks," Instrumentation and Measurement, IEEE Transactions on
, vol.57, no.1, pp.190,196, Jan. 2008
Qingshan Jiang; Xinxing Zhao; Kai Huang, "A feature selection method for malware
detection," Information and Automation (ICIA), 2011 IEEE International Conference on ,
vol., no., pp.890,895, 68 June 2011
Ramos, C.C.O.; Papa, J.P.; Souza, A.N.; Chiachia, G.; Falcao, A.X., "What is the importance
of selecting features for nontechnical losses identification?," Circuits and Systems (ISCAS),
2011 IEEE International Symposium on , vol., no., pp.1045,1048, 1518 May 2011
Schalkoff, R. J.; Pattern Recognition: Statistical, Structural and Neural Approaches, 1991.
Shapiro, C.; Varian, H., "Information Rules: a strategic guide to the network economy".
Boston: Harvard Business School Review Press, 1999.
43
Silva, A. L. L.; Consumo de produtos culturais em São Paulo: Análise dos Fatores
Antecedentes e Propostas de Modelo. São Paulo: Universidade de São Paulo, 2008.
Suxiang Zhang, "The research of the resident user classification based on the maximum
entropy in the smart grid," Fuzzy Systems and Knowledge Discovery (FSKD), 2012 9th
International Conference on , vol., no., pp.1563,1566, 2931 May 2012
Tamano, K.; Tsuji, H., "Relation of home energy consumption and static properties of
consumers," Awareness Science and Technology (iCAST), 2011 3rd International Conference
on , vol., no., pp.215,220, 2730 Sept. 2011
Tieming Chen; Xiaoming Pan; Yiguang Xuan; Jixia Ma; Jie Jiang, "A Naive Feature
Selection Method and Its Application in Network Intrusion Detection," Computational
Intelligence and Security (CIS), 2010 International Conference on , vol., no., pp.416,420, 11
14 Dec. 2010
Throsby, David.; Cultural Capital. Journal of Cultural Economics, 23, 312, 1999.
Yodkhad, P.; Kawewong, A.; Patanukhom, K., "Approximate nearest neighbor search using
selforganizing map clustering for face recognition system," Computer Science and
Engineering Conference (ICSEC), 2014 International , vol., no., pp.151,156, July 30 2014
Aug. 1 2014
You Chen; Lei Dai; XueQi Cheng, "GATSC4.5: An Algorithm for Optimizing Features in
Flow Classification," Consumer Communications and Networking Conference, 2008. CCNC
2008. 5th IEEE , vol., no., pp.466,470, 1012 Jan. 2008
Zaman, S.; Karray, F., "Lightweight IDS Based on Features Selection and IDS Classification
Scheme," Computational Science and Engineering, 2009. CSE '09. International Conference
on , vol.3, no., pp.365,370, 2931 Aug. 2009
Zhenyu Wang; Guilin Zheng, "New method for nonintrusive data extraction and
classification of residential appliances," Control and Decision Conference (CCDC), 2011
Chinese , vol., no., pp.2196,2201, 2325 May 2011
44
ZhiWei Qiu, "Mutivariable mutual information based feature selection for electricity price
forecasting," Machine Learning and Cybernetics (ICMLC), 2012 International Conference on
, vol.1, no., pp.168,173, 1517 July 2012