Escolar Documentos
Profissional Documentos
Cultura Documentos
Análise Preditiva e Data Mining
Análise Preditiva e Data Mining
Brasília-DF.
Elaboração
Produção
Apresentação.................................................................................................................................. 5
Introdução.................................................................................................................................... 8
Unidade I
Introdução........................................................................................................................................ 9
Capítulo 1
Definições acerca de data mining e análise preditiva................................................... 12
Unidade iI
Modelagem....................................................................................................................................... 24
Capítulo 1
Modelos de mineração de dados.................................................................................... 24
Capítulo 2
Modelagem preditiva.......................................................................................................... 31
Unidade iII
Processo deDescoberta de Dados (KDD)...................................................................................... 46
Capítulo 1
Entendendo o processo................................................................................................... 46
Capítulo 2
Transformação dos dados.............................................................................................. 63
Unidade iV
Algoritmos de Data Mining......................................................................................................... 71
Capítulo 1
Técnicas para encontrar padrões................................................................................... 71
Capítulo 2
Aplicação de ferramentas................................................................................................ 89
Unidade V
Aprendizado de Máquina (Machine Learning).............................................................................. 99
Capítulo 1
Sistema de aprendizado...................................................................................................... 99
Capítulo 2
Aplicações de classificação de textos........................................................................ 113
Unidade Vi
Estudo de Caso Prático................................................................................................................ 121
Capítulo 1
Fábrica de refrigerantes................................................................................................. 121
Caro aluno
Conselho Editorial
5
Organização do Caderno
de Estudos e Pesquisa
A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto antes
mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor
conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita
sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante
que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As
reflexões são o ponto de partida para a construção de suas conclusões.
Atenção
6
Saiba mais
Sintetizando
7
Introdução
O estudo da mineração de dados é de extrema importância e tem um alto grau de
aplicabilidade dentro de quaisquer bancos de dados que possua uma grande quantidade
de dados. É possível afirmar que a mineração de dados se estende as áreas de Ciência de
dados, Análise de dados, Estatística, Arquitetura de sistemas, Administração de banco
de dados e Análise de negócios.
Objetivos
»» Explicar os conceitos e as técnicas de Data Mining e descrever os
benefícios da análise preditiva.
8
Introdução Unidade I
Esta Unidade irá fazer uma introdução aos conceitos que serão vistos ao longo desta
apostila. Porém, antes mesmo de começar a discutir sobre Mineração de Dados (Data
Mining), Análise Preditiva, modelagem, Machine Learning, é sempre bom rever alguns
conceitos que serão interessantes para o entendimento do assunto em questão.
Dado
Significa que foi algo informado por alguém/alguma coisa, algo que representa
um documento, uma descrição de algo que possibilita atingir o conhecimento
ou inferir as verdadeiras consequências de um fato. Servindo como uma base
para afirmar uma informação.
Por exemplo, se for dito que o dado foi utilizado para ajudar a solucionar um problema,
é inferido que o dado, sozinho, não foi responsável pela solução do problema, somente
quando ele é utilizado na tomada de decisão.
Via de regra, o dado pode ser considerado como uma representação simbólica, ou
como é conhecido na programação, um atributo de uma entidade. Os dados retratam
características das entidades que são compostas pelos algoritmos. Em relação a outras
áreas do conhecimento, os dados podem ser descritos como uma expressão mínima de
conteúdo referente a um determinado tema. A soma de dados resulta na construção de
uma informação.
Outro conceito que está contido é o de base de dados (Database), que não é nada mais
que um conjunto dos dados que fazem parte de um mesmo contexto. Além disso, é
normal que esses dados sejam armazenados de forma sistemática para que possam ser
9
UNIDADE I │ Introdução
Informação
Pode ser descrita como uma série de dados organizados, que ajuda a compor
uma mensagem, uma soma sobre um fenômeno. A partir de uma informação,
é possível resolver questões/problemas e então tomar decisões – desta forma,
a racionalização permite que a informação sirva de base para compor o
conhecimento.
Observando de maneira diferente, a informação pode ser vista como um fenômeno que
atribui significado, dá sentido às coisas. O pensamento humano, por exemplo, pode
ser considerado como o resultado de um processamento de um conjunto de dados,
em que os neurônios computam os dados, os tornando em informação. No mundo
animal, esse processamento também existe, mas imagine que existem vários níveis de
processamento de dados para obtenção de informação e, consequentemente, maneiras
de se obter benefícios decorrentes dessas informações.
A integração dos dados gera as informações, que por si só, computadas, irão gerar a
produção do conhecimento. Como pode ser notado pelo leitor, todos estes conceitos em
algum momento se transformam em outro. O conceito de sabedoria não será descrito
nessa apostila, mas vale salientar que esta é composta pela capacidade do ser humano
em julgar corretamente como, quando, com qual objetivo e onde é possível aplicar o
conhecimento que foi obtido por informações provenientes de dados.
Filosofando um pouco, alguns especialistas dizem que há uma relação que não pode ser
separada entre os dados, a informação, o conhecimento, a sabedoria, o pensamento e a
linguagem (SETZER, 1999; CONCEITOb, 2017).
Conhecimento
10
Introdução │ UNIDADE I
11
Capítulo 1
Definições acerca de data mining e
análise preditiva
Vimos algumas definições anteriormente que podem ser úteis para o estudo desta
disciplina. O conceito de dados, que serão processados para se transformar em
informações, e informação em conhecimento, vai ser visto dentro do estudo de
mineração de dados. Além da mineração de dados, será abordada a técnica de análise
preditiva que também se relaciona à extração de informações dentro de um conjunto
de dados (ACADEMY, 2017).
»» Exploração.
»» Construção de modelo.
»» Verificação/Validação.
12
Introdução │ UNIDADE I
Se a ferramenta faz todo o trabalho pesado da análise dos dados, identificação dos
problemas, reconhecimento de padrões escondidos no oceano de dados e discernimento
do comportamento, no final, a mineração de dados proporciona ao usuário, o tempo
para se aplicar somente aquilo que lhe for mais útil na busca pelo conhecimento, assim
podendo ele desenvolver suas atribuições de forma mais eficiente.
13
UNIDADE I │ Introdução
A figura 1 mostra uma imagem que apresenta os passos que a mineração de dados
executa em seu processo. Inicialmente, pela análise de dados da base de dados, até
chegar ao conhecimento esperado.
14
Introdução │ UNIDADE I
15
UNIDADE I │ Introdução
Há uma grande gama de como se elaborar a análise de um Big Data. O conceito fica
em torno do entendimento do que pode ser aproveitado depois desta análise, como
já foi citado. Dentre essas possibilidades, existem quatro tipos de análise para o Big
Data que se sobressaem, dado seu grande potencial em gerar resultados e até mesmo a
usabilidade referente. Estas técnicas são as análises preditiva, prescritiva, descritiva e
diagnóstica.
Análise Prescritiva
Valor
Análise Preditiva
Análise Descritiva
Introspecção
Retrospecção
Dificuldade
Análise preditiva
Como os exemplos anteriores já mostraram, uma boa aplicação desta técnica é feita na
área dos negócios. Então, é afirmável que a análise preditiva geralmente é utilizada tanto
para analisar dados recentes, como também dados passados – sempre com o intuito de
entender da melhor forma possível os seus clientes, seus produtos, como também para
fazer previsões dos riscos existentes e aumentar o potencial de oportunidades para uma
organização.
17
UNIDADE I │ Introdução
com o processo de análise das previsões, para assim ter uma tomada de decisão bem
estruturada (ACADEMY, 2017).
O objetivo, nesta técnica, é não ficar preso a estatística descritiva, nem aos relatórios
passados relativos a experiências anteriores, para então processar melhores previsões
do que irá acontecer posteriormente. Da mesma forma, o intuito é ter as tomadas de
decisões executadas de maneira mais simples possível, para então ter ideias que gerem
melhores ações, trazendo melhores resultados – ciclicamente.
Mais à frente será apresentada a análise descritiva, contudo já é possível afirmar que elas
são modelos bem diferente, pois apoiam a compreensão do que houve. Outra diferença
está na análise de diagnósticos, porque estes auxiliam a compreender as principais
relações e a determinação da razão por ter acontecido algo (SAS, 2017).
18
Introdução │ UNIDADE I
»» Identificar tendências.
»» Entender os clientes.
»» Prever o comportamento.
Análise prescritiva
A análise prescritiva para quem não conhece muito bem pode até ser entendida como
se fosse a análise preditiva – pelo fato de que as duas técnicas utilizam a mesma lógica,
contudo, o que as difere são os objetivos ao qual cada uma almeja. Como foi visto
anteriormente, a análise preditiva detecta como o modelo vai se comportar no futuro,
diferentemente da análise prescritiva, que tem como objetivo planejar as decorrências
das ações possíveis a serem tomadas.
A escolha entre os tipos de análise a serem utilizadas não estima superioridade, mas
sim a combinação do que se quer, do que se tem, e do que se precisa. Cada situação
envolvida será avaliada para se usar a melhor técnica. Porém, ainda assim, a análise
prescritiva não tem uma boa procura – muitas vezes por falta de conhecimento da
técnica. Segundo a Big Data Business, 2017, o autor Gartner, afirma que somente 3%
das empresas fazem uso da análise prescritiva.
Exemplos de como está técnica poderia ser aplicada, pode ser vista nas indústrias, por
sua capacidade de computar determinados padrões, assim como selecionar os padrões
por suas especificidades. Enfim, conseguindo adquirir um cenário da circunstância
extremamente confiável e resultados que estarão dentro do escopo esperado. Outro
exemplo bem pertinente, seria a aplicação na área de saúde, nos quais os administradores
de planos de saúde poderiam identificar padrões na análise de pacientes, para determinar
a existência de doenças (não conhecidas).
Em doenças como o câncer, por exemplo, para o paciente, como para o gestor um tipo
de análise de padrões que permita detectar a presença da doença só geraria “lucros”
19
UNIDADE I │ Introdução
– pois indicaria quais medidas poderiam ser tomadas para minimizar os problemas,
assim, o impacto a saúde do paciente e ao bolso do dono da empresa seriam reduzidos
de forma significativa.
Análise descritiva
Tempo real é o termo que define o diferencial da análise descritiva. Da mesma forma
que foi mencionado anteriormente, a aplicação de cada técnica vai de acordo com sua
usabilidade. A análise descritiva é a mineração de dados no Big Data – se há muitos
dados é necessário um processamento pesado e o quão rápido for feito e apresentado os
resultados, melhor. Esta técnica objetiva uma forma de analisar os dados, compreender
como é organizada uma base de dados e não exatamente fazer relações com dados atuais
e futuros – no caso dando mais ênfase no que está acontecendo no agora.
Análise diagnóstica
Por fim, a quarta e última técnica – a análise diagnóstica. Comparando essa com a
análise descritiva, podemos dizer que a descritiva procura classificar uma base de
dados, diferentemente, a diagnóstica tem o intuito de entender de maneira mais formal
todas as suas possibilidades de quando, quem, por que, como e onde vai ser executada
a análise. Por exemplo, no caso de uma organização que trabalha com marketing, o
tipo de análise diagnóstica pode ser considerado a melhor opção a ser escolhida, pois
conseguirá atingir seu objetivo da melhor forma possível de modo eficiente, pois depois
de sua execução os analistas podem identificar da melhor forma os resultados e os
impactos positivos e negativos na técnica.
A sua aplicação também pode ser vista dentro de um conjunto de dados enorme (Big
Data), no caso, ela consegue gerar um tipo de relatório expandido – para poder resumir
os resultados. Outra coisa que a análise diagnóstica proporciona é a compreensão da
razão da existência de todos os acontecimentos e das ações que foram tomadas para
20
Introdução │ UNIDADE I
Mais uma vez, é importante salientar que cada modelo tem a melhor forma de ser
utilizada pela técnica em questão. Foi mencionado que a análise descritiva usava o Big
Data, contudo não significa que esta seja uma técnica exclusiva – o Big Data pode ser
aplicado de diferentes maneiras. É fácil afirmar que os dados sem técnicas de análise
não rendem resultados significativos. O analista que irá analisar estes dados e que
escolherá a técnica para aplicar a base de dados é que fará a diferença no momento de
obter os resultados para auxiliar nas tomadas de decisões. O essencial é compreender
que conhecer bem cada técnica faz toda a diferença.
21
UNIDADE I │ Introdução
Com o passar dos anos, o aprendizado de máquina aplicado atualmente cresceu junto
com o avanço tecnológico na área da computação. Atualmente, é visto o desenvolvimento
de vários algoritmos de aprendizagem de máquina capaz de executar automaticamente
cálculos matemáticos complexos em um imenso conjunto de dados – mais uma vez
com o auxílio do crescimento tecnológico, esses avanços estão cada vez mais rápidos e
são aplicados a base de dados cada vez maiores.
A seguir, pode-se observar exemplos que são bem conhecidos hoje em dia da aplicação
de aprendizagem de máquina:
»» O Google já produziu carros que são guiados sozinho – sem que haja a
presença de uma pessoa.
Resumidamente, o que foi dito significa que não só é possível, mas como já é
realidade o fornecimento de modelos, de forma rápida e automática, que são
hábeis a analisar uma grande base dados – sejam eles complexos ou não – de
maneira eficiente para produzir resultados mais precisos e bem mais rápidos
(independentemente de seu tamanho).
A seguir é apresentada o quadro 1, que traz alguns pontos específicos mostrando bem a
diferença entre a mineração de dados e a aprendizagem de máquina.
Conclusão
23
Modelagem Unidade iI
Capítulo 1
Modelos de mineração de dados
Arquitetura
Estruturas de mineração promovem dados aos modelos de mineração, como também
faz a análise desses dados utilizando algum algoritmo de mineração de dados. Nesta
frase, ficou bem claro que há uma diferença entre modelo de mineração e estrutura de
mineração.
24
Modelagem │ UNIDADE II
É possível se utilizar os próprios dados para desenvolver uma serie de modelos, por
exemplo, para tal, é necessário usar algoritmos conhecidos para estas aplicações, como:
»» Algoritmo agrupamento.
»» Algoritmo de árvore de decisão.
»» Algoritmo de Naïve Bayes.
1 “Os metadados são marcos ou pontos de referência que permitem circunscrever a informação sob todas as formas, pode se
dizer resumos de informações sobre a forma ou conteúdo de uma fonte” (METADADOS, 2017).
25
UNIDADE II │ Modelagem
Se, hipoteticamente, o processo de associação de dado pelo modelo fosse apontado para
a estrutura de mineração, os dados que estão na memória cache – dados armazenados
na memória cache do modelo – permitiriam que a memória cache na estrutura de
mineração não for esvaziada depois do processamento, e os dados armazenados
poderiam servir de detalhamento para análise dos resultados (uma base que garante a
verificação da execução). No entanto, na realidade está suposição não acontece.
Definição de etapas
A elaboração de um modelo de mineração de dados pode ser seguida de acordo com
algumas etapas como:
26
Modelagem │ UNIDADE II
Propriedades
Modelos diversos podem ter propriedades diferentes que determinam suas principais
características, para então, definir-se e determinar seus metadados, atributos como
nome, descrição, datas de última execução do modelo, permissões, filtros para
treinamento. Como foi citado anteriormente, as estruturas de mineração originam
propriedades dos modelos de mineração e, então, reproduzir as colunas de dados
utilizadas no modelo – caso seja aninhada a tabela, a coluna pode possuir a aplicação
de filtros separadamente.
Tipos de modelos
Cada empresa que desenvolve serviços, ferramentas, aplicações tem uma maneira
diferente de abordar os fatos. Como exemplo, a seguir são apresentados dois tipos de
modelo que foram propostos pela IBM. Estes modelos podem ser usados para classificar
informações que o cliente pode ter interesse (GSI, 1998).
Modelo de verificação
Este modelo trabalha com o recebimento das conjecturas dos usuários, em sequência,
as testas para verificar se há válidos em relação aos dados. O ponto central deste modelo
está nas conjecturas formuladas pelos usuários, como também a execução das consultas
aos dados, assim podendo confirmar ou não essas conjecturas.
27
UNIDADE II │ Modelagem
Uma empresa que trabalha com um setor de marketing, serve bem como um exemplo
para essa situação. Se considerar que o orçamento atribuído ao setor é limitado para
uma campanha de lançamento de um produto inovador, um dos primeiros passos a
se analisar é a identificação de que parte do público deste novo produto irá chamar
a atenção e se interessaria em sua compra. O modelo de verificação faz com que o
usuário elabore sua conjectura e identifique os potenciais clientes compradores e o que
os caracterizam.
Maneiras possíveis de ajudar nessa busca por padrões podem ser vistas na análise de
dados antigos, referentes a compara anteriores, ou até mesmo a localização dos clientes
pode fazer a diferença nesse sentido. Informações como estas mostram características
que agrupam potenciais clientes e fazem com que o direcionamento do produto seja
feito para garantir um melhor retorno a empresa.
Como cada modelo tem suas vantagens e desvantagem, pontos que fixam melhor em
determinados problemas ou não, este modelo peca por não poder inserir nenhuma
nova informação durante o processo de procura aos clientes. Contudo, as consultas
continuarão retornando registros para afirmar ou não a conjectura. Assim como todo
processo cíclico, este modelo após receber seus resultados de saída, são direcionados
a uma nova série de proposições e outras conjecturas são atribuídas para melhorar a
busca – iterativamente. Algumas técnicas são utilizadas para auxiliar o processo por
completo, como a observação que suporta a exploração dos dados analisados, consultas
e análise multidimensional.
Modelo de descoberta
28
Modelagem │ UNIDADE II
Colunas
Na composição do modelo de mineração, estão as colunas de dados. Estas colunas são
adquiridas de colunas determinadas na estrutura de mineração. Logo, é possível adotar
quais colunas da estrutura de mineração seria ideal para aplicar ao modelo escolhido,
assim como pode-se gerar duplicações (permitindo que estas sejam renomeadas e
alteradas) das colunas da estrutura de mineração. A identificação do que será aplicada
ao modelo também faz parte a classificação da necessidade do uso de previsões pelo
algoritmo, definição como vai ser o uso da coluna pelo modelo de mineração e atribuição
de informações, considerando a coluna como uma key.
29
UNIDADE II │ Modelagem
Lembrando que depois que o modelo for criado, qualquer modificação que seja feita
ao mesmo (incluir, deletar, alterar colunas ou até mesmo mudar o nome do modelo)
requisita que o processamento do modelo seja executado de novo.
Processamento
Como é possível visualizar um modelo de mineração de dados? É só tentar entendê-lo
como um objeto vazio, que só será preenchido após seu processamento. Na execução
do processamento de um modelo de mineração, os dados, se tiverem sido estabelecidos
pelo modelo, são percorridos por um filtro que foram armazenados em cache pela
estrutura de mineração, para então serem analisados pelo algoritmo. Este avaliação de
uma série de estatísticas que foram resumidas e que esclarecem a sua base de dados
utiliza padrões para completar o modelo e ainda identifica as regras nos dados.
Após o processamento, o modelo obtém o sumo das informações computadas por meio
de seus dados. Além das informações, o modelo depois de processado terá a estatística
relacionada, os padrões encontrados nas análises, as fórmulas de regressão e as regras.
Além de que é possível utilizar os visualizadores customizados para encontrar as
informações – inclusive pode-se aplicar consultas de mineração de dados para resgatar
essas informações e assim, poder utiliza-las para análise.
30
Capítulo 2
Modelagem preditiva
Na introdução desta apostila foi abordado o que é a análise preditiva. Relembrando, foi
mencionado que as técnicas de análise de dados visam o mesmo objetivo – que é de dar
suporte a análise de uma grande quantidade de dado. Entretanto, cada tipo de análise
tem um enfoque diferente, e a análise preditiva, especificamente, visa a observação dos
dados para saber o que irá acontecer no futuro.
Usabilidade
Há alguns anos que a forma como a humanidade se comunica e armazena informações
vem se encaixando mais e mais com avanços tecnológicos. Logo, é extremamente real
o fato de que a quantidade de dados acumulados é absurdamente grande e continua
crescendo. Contida no contexto deste capítulo, a modelagem preditiva é uma das
técnicas atuais que ajudam no gerenciamento dos dados – que são utilizados para
computar todos esses dados e atingir o objetivo que é obter informações a partir dos
mesmos. Tais abordagens são pontuadas a seguir:
»» Redes Neurais.
»» Armazenamento em cluster.
»» Regras de associação.
31
UNIDADE II │ Modelagem
que precisa ser acompanhado em detalhes, é feita uma validação desse modelo, para
então o conhecimento adquirido ser difundido e aplicado em outras circunstâncias.
Mais uma vez, é importante entender que mesmo com toda o enfoque dado ao modelo
de preditivo, é interessante sempre adequar a aplicação do modelo de acordo com o
problema real. E é possível concluir que as técnicas de modelagem utilizam os algoritmos
matemáticos para poder aprender – literalmente – como encontrar padrões que estão
escondidos em um grande volume de dados (GUAZZELLI, 2012).
32
Modelagem │ UNIDADE II
Fase inicial
O aparecimento dos modelos preditivos é visto quando os dados são aplicados a
treinamentos de uma técnica de modelagem preditiva. Talvez a figura 4 ajude a
representar melhor esse entendimento.
33
UNIDADE II │ Modelagem
A não probidade dos dados irão com certeza produzir modelos ilegítimos, o que tirará
toda e qualquer responsabilidade da qualidade da técnica de modelagem preditiva.
Técnicas gerais
Os modelos são desenvolvidos, recentemente, por uma grande variedade de técnicas
de modelagem preditiva. Desta forma, diversas técnicas são utilizadas por sistemas e
têm diferentes provedores, contudo existe um grupo de técnicas que são bem aplicadas
por numerosos ambientes de desenvolvimento de modelos, sendo eles, tanto para fins
comerciais quanto no uso de software livre.
SVMs
Mas o que uma SVM faz? O intuito dela é mapear a construção de um espaço dimensional
maior de vetores de dados de entrada, no que diz respeito a um hiperplano que de forma
ideal afastaria os dados. Havendo um hiperplano central, dois outros hiperplanos são
criados paralelamente ao central.
34
Modelagem │ UNIDADE II
Como dito, a figura 6 tenta representar essa ideia de dois hiperplanos (ou um hiperplano
ideal), diferenciando dois tipos de categorias de dados – no caso desta imagem, tem-se
triângulos e quadrados). A separação proporcionada pelo hiperplano ideal maximiza a
distância que existe entre os dois hiperplanos paralelos, e que afirma que quanto maior
for a distância entre esses dois hiperplanos, maior será a precisão do modelo. Além da
noção dos hiperplanos paralelos, a figura também classifica os dados que estão nesses
hiperplanos paralelos como vetores de suporte.
Lembrando que mesmo com vários tipos de modelagem a serem aplicados a problemas,
o que se mais utiliza é a modelagem preditiva. O motivo responsável por essa escolha é
o fato de ser uma técnica fácil de compreender e manipular.
Armazenamento em cluster
35
UNIDADE II │ Modelagem
Regra de associação
No momento em que as ligações entre os itens de entrada forem relevantes, mas uma
variável de destino ou a sua medida de semelhança não for, é possível a aplicação da
técnica de regras de associação para conseguir encontrar as associações (como o nome
já propõe). Um modelo de exemplificar essa técnica é pela utilização na identificação de
pessoas que compram um produto ‘x’ sempre associado a um produto ‘y’.
Redes neurais
A técnica de redes neurais pode ser aplicada de diversas maneiras, contudo é sempre
ideal ter a noção da escolha da estrutura que a rede neural vai utilizar, assim resultando
bom desenvolvimento do modelo preditivo. A rede neural apresentada na figura 8 é
do tipo feedforward, no caso, estas são caracterizadas por uma camada de entrada
que contém nós e campos. Os recursos de entrada também serão considerados –
isso significa que, quando há uma função de regressão, irá haver somente um nó que
representará o campo esperado.
36
Modelagem │ UNIDADE II
Contudo, se tratando de camadas de entrada e saída, a modelagem que uma rede neural
pode ser atribuída, considerada um número qualquer de camadas e nós ocultos. Se for
exposto um baixo número de nós escondidos a uma rede neural, se caracterizará em
problema, porque pode ser que ela não consiga aprender a função de mapeamento entre
os campos de entrada e saída. A questão aqui é que quando há uma quantidade muito
grande de dados, considera-se que a rede neural está com excesso de entradas, fazendo
com que a carga de aprendizado seja grande na entrada, assim afetando a análise futura
dos dados.
A figura 8 mostra uma rede neural feedforward, que contém uma camada de entrada,
uma camada oculta, e uma camada de saída.
Da mesma forma que, se houver uma quantidade muito pequena de clusters, o modelo
se prejudica, a existência de um modelo com uma grande quantidade de clusters
também não é ideal. O motivo é que havendo muitos clusters, a semelhança entre os
dados pode ser perdida. Uma maneira de enxergar esse excesso problemático pode ser
37
UNIDADE II │ Modelagem
vista na figura 7 que mostra um exemplo que tem dois grupos e que se fossem três
grupos o problema e não teria sido utilizado, ou obrigaria a referenciar outros dados
desnecessários.
38
Modelagem │ UNIDADE II
É possível considerar que este com manuseio dos dados seja mais eficiente do que a
escolha da técnica que será usada para executar o treinamento do modelo preditivo. Este
fato não anula a importância do estudo de qual técnica preditiva seria melhor aplicada.
Sempre é uma questão de achar a combinação perfeita da técnica com o conjunto de
parâmetros de entrada para haver um perfeito (ou quase) processamento dos dados.
Tipos de aprendizado
Mais à frente, na Unidade V, serão abordados os conceitos de aprendizagem de
máquinas. Dentro desse contexto, estão as noções de aprendizado supervisionado e
aprendizado não supervisionado. Para não fugir ao conceito que está sendo mostrado
nessa unidade, será explicada superficialmente este conceito, mediante as técnicas
vistas nos tópicos anteriores.
39
UNIDADE II │ Modelagem
›› Após é preciso que cada paciente que está no banco tenha suas
informações analisadas, com seus dados genéricos como nome e
idade, bem como os dados de quais alergias a remédios ele tem, quais
doenças tem, quais medicamentos ele ingere e com qual frequência.
40
Modelagem │ UNIDADE II
Cliente 1:
»» 58 anos.
»» Homem.
»» Vive em São Paulo.
»» Sem reclamações nos últimos 6 meses.
»» Abriu 1 chamado de suporte nas últimas 24
semanas.
»» Comprou 15 itens nas últimas 4 semanas.
»» Gastou R$ 2.043,00 comprando
Cliente 2:
»» 29 anos.
»» Homem.
»» Vive em Recife.
»» 4 reclamações nos últimos 6 meses.
»» Abriu 2 chamado de suporte nas últimas 4 semanas.
»» Comprou 3 itens nas últimas 4 semanas.
»» Gastou R$ 512,00 comprando produtos.
»» Gastou R$ 35,00 em serviços.
»» Então são mostrados esses dados, como entrada para o modelo preditivo
– apresentado na figura 11 – para que seja feito o treinamento – tanto
os dados que compõem a entrada, como também o resultado associado
(satisfação ou não).
41
UNIDADE II │ Modelagem
Após o modelo preditivo passar pela fase de treinamento com os dados dos clientes, o
modelo tem que ser validado para saber se o resultado é positivo e o modelo é funcional,
e se ele for bom, é interessante saber o quão exato são suas previsões. Se estiver tudo
certo com a execução do modelo, é possível aplica-lo a outros clientes para ter uma
noção do risco existente de haver reclamações, como pode ser visto na figura 12.
Como já foi dito, as unidades a seguir irão abordar melhor a questão do aprendizado de
máquina, como também os algoritmos que são utilizados nas suas utilizações.
42
Modelagem │ UNIDADE II
Caixa preta
Vimos uma série de técnicas de modelagem preditiva que foram brevemente explicadas.
As técnicas que tem suas lógicas de processamento explícitas podem ser classificadas,
diferentemente das técnicas identificadas como caixa preta. As técnicas de Redes
Neurais e SVMs são surpreendentemente tão eficientes quanto as técnicas de lógica
explicita, mas são consideradas caixa preta.
O exemplo utilizado para explicar como funciona uma rede neural mostra um potencial
extremamente preciso, podendo, assim, identificar a diferença entre os padrões de
clientes que continuarão na empresa, e os que desertarão. A questão é que, em um
modelo como este, se por exemplo, ele classificar um cliente como sendo um provável
candidato a desistir da empresa, essa informação é tudo o que é recebida – a razão que
pode ser considerada base para a decisão não será conhecida pelo analista.
Logo, a escolha da técnica utilizada para modelagem preditiva, passa mais uma vez por
uma provação que irá avaliar o que é necessário em determinado tipo de problema –
caso o problema precise que a lógica usada para saber o que levou a decisão do algoritmo
for necessária, talvez, o analista não opte pela rede neural. Um bom exemplo para um
problema que precisa de um retorno do porquê aquela decisão foi tomada, pode ser
visto nas aplicações de empresas que liberam empréstimos a clientes.
Quando se há a opção de explicar ou não, a escolha da técnica ainda sim, pode ficar
em aberto. Entretanto, se há a obrigação de prestar contas do resultado analisado, é
necessário observar qual a usabilidade de cada uma das técnicas de modelagem preditiva
disponível. Os modelos de regressão têm uma técnica que se adequa perfeitamente a
esse tipo de situação: Scorecards.
Essa abordagem é bem conhecida e usada por instituições financeiras a fim de avaliar
os riscos. Assim, todos os campos de dados contidos em um registro de entrada irão
possuir um código (que indica a razão) constituinte. Ao longo da fase de processamento,
os campos de dados são analisados, para poderem ser comparados a uma base que
determina se estes campos de dados estão dentro de uma pontuação de risco. Realizado
todo o processamento, é identificado os campos que contém a maior pontuação de risco
e então é exatamente esse campo que fica indicado como razão de saída.
43
UNIDADE II │ Modelagem
»» Aprovado.
»» Recuperação.
»» Reprovado.
Perceba que a representação da árvore de decisão pode ser vista como um conjunto de
regras. Continuando a análise do exemplo, poderia ser dito que a regra para que o alune
passe por média é que a nota dele seja maior que 7.
Fora o fato de que a lógica contida (mesmo que não explícita) nas decisões processadas
por técnicas de modelagem de caixa preta não sejam facilmente explicadas, os seus
modelos de decisão não acompanham a regra. A representação dos modelos preditivos,
assim como o pré-processamento de seus dados, pode ser feita diretamente com a
Predictive Model Markup Language (PMML). Este é um padrão largamente usado por
empresas que fazem a análise preditiva de dados, com o objetivo de gerar e beneficiar
das soluções obtidas.
44
Modelagem │ UNIDADE II
Conclusão
A análise dos dados é cada dia mais útil na vida dos analistas de dados, pelo fato de
ter cada vez mais um aumento – exponencial – da quantidade de dados, além do que
as técnicas de análise de dados proporcionam uma usabilidade melhor desses dados.
Com o passar dos anos, mais dados são absorvidos e utilizados como base para o
desenvolvimento de possíveis novos modelos, para que possam fazer previsões acerca
de um futuro próximo. Nada mais certo do que conceituar os modelos preditivos como
um produto aplicado a um grande volume de dados, baseado em técnicas matemáticas.
45
Processo
deDescoberta de Unidade iII
Dados (KDD)
Capítulo 1
Entendendo o processo
As bases de dados são os meios pelos quais (como o nome já indica) todos os tipos de
dados estão contidos para serem, eventualmente, utilizados. Esses dados podem ter
sido recolhidos em quaisquer situações e em momentos distintos. É factível afirmar que,
no começo, há um grande esforço para coletar e agrupar todas as informações contidas
nesses dados. Lembrando que é sempre interessante entender como é composto o
ambiente de dados para entender o processo aplicado ao negócio.
É sabido que os dados são armazenados nas bases de dados de maneira independentes,
logo, há uma grande diversidade, como também heterogeneidade desses dados. O
processamento dos dados – se fossem feitos com eles assim – demandariam um esforço
maior, então há uma fase que antecede ao processamento dos dados, para que esses
sejam “limpos”. O pré-processamento dos dados objetiva a construção de dados que
serão usados para obter bons resultados futuramente.
46
Processo deDescoberta de Dados (KDD) │ UNIDADE III
Na posse de dados tratados e prontos para serem aplicados, a fase de mineração desses
dados tem início. A mineração como o nome propõe, procura dentro da base de dados,
por padrões e/ou ligações que tenham algum nexo, e obviamente que sejam pertinentes
a resolução do problema. A análise, o entendimento e a utilização dos resultados fazem
com que se ganhem conhecimento para tomar decisões ideais.
De acordo com a generalização do problema e de como vai ser escolhido seu tratamento,
há diversas formas de aplicar a mineração de dados e as atividades de descoberta
de conhecimento a uma base (CIOS, 2000; PETERMANN, 2006). Alguns tipos de
mineração são citados a seguir:
47
UNIDADE III │ Processo deDescoberta de Dados (KDD)
Fonte: Fayyad et al. (1996); Cabena et al. (1997); Cios (2000); Klösgen et al. (2001).
O modelo que será proposto irá conter o ciclo completo de descoberta do conhecimento
em bases de dados, e nele estão as seguintes etapas listadas na tabela 2.
48
Processo deDescoberta de Dados (KDD) │ UNIDADE III
Definição e análise
Há uma grande gama de aplicações para o KDD, dentre eles um caso bem aplicado
são os da área de marketing. O motivo é que o marketing, de certa forma, tem uma
das principais aplicações do KDD, tendo sempre um enfoque nas predições e análise
de como seus clientes se comportam. Os negócios têm uma essência que trabalha com
perfis de clientes que estão em busca de determinados produtos (clientes x produtos),
análise de previsões para saber se os seus clientes estão satisfeitos – e continuarão a ser
clientes, e análise de avaliação das vendas (KLÖSGEN, 2002; PETERMANN, 2006).
Atualmente, com toda a tecnologia que cerca a humanidade é possível dizer que houve
uma transição no mercado, que antes era caracterizado por uma competição por
qualidade em seus produtos/serviços. A competição por informações, hoje, é muito
mais importante pois representa uma grande pressão a concorrência por existir um
mercado bem estruturado e maduro na sua oferta de produtos e serviços – no caso, é
primordial ter o conhecimento conciso e minucioso do comportamento dos clientes e
até conhecer os erros da concorrência erra. Sem, claro, esquecer da tarefa básica de ter
o conhecimento para as tomadas de decisão.
Exemplos
Uns exemplos bem comuns para a utilização do processo KDD é na área financeira, em
que há necessidade da predição de resposta referente a um portfólio de investimento, a
determinação do valor de crédito que um cliente pode aplicar, a identificação de fraudes
em cartões de crédito, e até mesmo lucros financeiros ilegais.
49
UNIDADE III │ Processo deDescoberta de Dados (KDD)
se os dados que estão disponíveis são interessantes na visão do problema, bem como
se esses dados disponíveis são abrangentes para serem utilizados em outras situações.
Logo, é sabido que todas as tabelas de dados e todos os atributos precisam determinar
a relevância de cada um dos seus atributos. Simplificando a explicação, é possível dizer
que quando há uma predição a um certo atributo, esta predição deve estar apontada
neste atributo. É interessante também informar a quantidade de atributos de predição
potenciais nos quais os valores já tinham sido detectados antes mesmo de ser executado
o processo de predição. É importante descobrir um jeito de acumular tabelas ou
diversas fontes de dados comente em um conjunto – as razões para essas escolhas estão
atreladas a superioridade das ferramentas de descoberta, das quais mostram apenas
no momento que são usadas em uma tabela (KLÖSGEN, 2002; PETERMANN, 2006).
Dados importantes têm que ser coletados, visto que o problema já está esclarecido.
Muitas vezes, são os Data Warehouses (teve sua criação baseada em resolver várias
questões analíticas), ou bancos de dados operacionais que obtém o conjunto de
informações. Desta forma, uma base de dados relacional retira as informações, para
então guarda-las em algum formato que possibilite o acesso e entendimento pelos
algoritmos de mineração de dados.
Isso mostra que a maneira como os dados são formados e obtidos é somente uma parcela
dos problemas que as ferramentas de mineração de dados contemporâneas têm para
que seja realizado acessos diretos os bancos de dados (JOHN, 1997). Certas situações
induzem a criação de uma base de dados inteiramente nova, como sendo a melhor
decisão a ser tomada, porém, esta solução pode acarretar aumento nas despesas.
Pré-processamento
Autores como Ferreira (2005) e Klösgen (2002) afirmam que o pré-processamento dos
dados está relacionado a uma uma investigação acerca da veracidade das informações
contidas no banco, assim como a retificação de quaisquer falhas e a remoção ou alteração
de valores duplicados e/ou inválidos – no caso, todos os dados que não são relevantes,
redundantes ou corrompidos são deletados. Em si, a etapa de pré-processamento serve
para fazer com que o banco não tenha dados desnecessários e então sejam evitadas
50
Processo deDescoberta de Dados (KDD) │ UNIDADE III
Exemplo
51
UNIDADE III │ Processo deDescoberta de Dados (KDD)
52
Processo deDescoberta de Dados (KDD) │ UNIDADE III
Ainda referente a figura 16, pode-se perceber que que a base de dados é extremamente
falha. Há somente três registros com dados completamente corretos. Dependendo do
sistema, e de como o analista deseje que o sistema trabalhe, o registro por completo
pode ser apagado, como somente os dados que não estão em consistência.
A razão para esses valores falhos, na maior parte das vezes, é por erro de digitação,
contudo pode haver pessoas que colocam no questionário dados falsos realmente. Para
que os dados sejam consultados no futuro, o pré-processamento faz a limpeza para que
esses dados inconsistentes sejam preenchidos com valores possíveis (por exemplo, o
telefone do quarto registro da figura 16 será preenchido por zeros, como está no terceiro
registro). Ou, ao invés de modificar, simplesmente o registro que contém o valor é
deletado.
Lembrando que o objetivo desse processo é fazer com que não exista valores
inconsistentes e que consequentemente atrapalhem o modelo de mineração de dados a
interpretar sua busca – podendo direcionar ao erro as tomadas de decisões (FERREIRA,
2005).
É possível, de certa forma, classificar a fase de pré-processamento dos dados como sendo
um processo semiautomático. Isso quer dizer que esta abordagem necessita do analista
de dados para ajudar a encontrar os problemas existentes nos dados e, então, usar os
53
UNIDADE III │ Processo deDescoberta de Dados (KDD)
melhores métodos para conseguir resolver a maior parte dos problemas (BATISTA,
2003; FERREIRA, 2005)
Existe também duas tarefas que realizam a execução dos métodos na fase de pré-
processamento:
Identificação de inconsistências
54
Processo deDescoberta de Dados (KDD) │ UNIDADE III
pode ser vista, no momento em que ele se encarregar de valores diversos, porém, que
contenham informações iguais (BATISTA, 2003; FERREIRA, 2005)
Nome Telefone
Carlos Eduardo Lins (81)98723 – 5478
Kadu Lins (81)98723 – 5478
Carlos Lins (81)98723 – 5478
Caarlos Eduardo Lins (81)98723 – 5478
Identificação de poluição
É possível afirmar, segundo Batista (2003), que os usuários são responsáveis por tentar
aplicar ao sistema algum tipo de recolhimento dos dados que não fazem parte da essência
do sistema, assim esses dados podem ser poluídos (corrompidos). Um problema de
coleta de dados por parte de sistemas que querem as informações de estado civil de seus
usuários, pode-se ter, como um exemplo, um atributo “Estado Civil” que pede para ser
escrito (Solteiro ou Casado), contudo, o banco de dados pode receber preenchimentos
de maneira diferente formas.
Um campo como este, deveria aceitar somente os valores propostos, sendo que as
opções que os usuários podem querer informar são mais abrangentes do que o banco
reconhece. Como o sistema foi inicialmente arquitetado para receber só essas duas
opções, a ausência de compatibilidade com as respostas pode ser criativamente proposta
pelos usuários, muitas vezes dificultando a leitura dos dados.
55
UNIDADE III │ Processo deDescoberta de Dados (KDD)
Além de dados corretos, mas não validados pelos bancos de dados, podem haver
dados que não são preenchidos, dados que não estão completos e até os dados que
são colocados errados. Estes são grandes motivos para o aparecimento das poluições
e, infelizmente, contrário ao objetivo de um banco de dados – que é reter informações
úteis – os usuários acabam por prejudicar o processo (BATISTA, 2003; FERREIRA,
2005).
Verificação de integridade
A análise dos atributos é realizada mediante uma escala de valores válidos. Uma das
verificações a serem feitas para identificar a integridade dos dados, é por meio da
identificação de casos extremos – que são situações em que há validade na combinação
dos valores – no caso, os atributos estão dentro de uma faixa de valores que são aceitos.
Dentre a classificação de domínio, pode-se dizer que ela é fracamente dependente
porque a probabilidade de acontecer as combinações dos valores pode ser calculada de
acordo com os dados existentes.
A identificação de atributos que são redundantes é fácil, até porque só é preciso investigar
se existem dados idêntico, em sua plenitude, contidos em atributos diferentes. Um bom
56
Processo deDescoberta de Dados (KDD) │ UNIDADE III
exemplo dessa redundância pode ser evidenciado em uma tabela que tem atributos
como: preço total da compra, preço por unidade e unidades compradas. A redundância
existe porque esta tabela não precisaria da informação como atributo do preço total
da compra – pois se há o preço por unidade e a quantidade de unidades compradas,
precisaria só calcular o total (BATISTA 2003; FERREIRA, 2005). Os malefícios da
redundância estão essencialmente ligados ao aumento do tempo de processamento dos
dados.
Acontece que tem algumas abordagens que são afetadas por uma grande quantidade de
atributos, fazendo com que o desempenho desses métodos sofra com a redundância dos
dados. Há, ainda, a probabilidade de que essas abordagens sejam inutilizadas na fase
de pré-processamento dos dados, por consequência da coleta de atributos redundantes
que não conseguiram ser tratados. O objetivo de haver a seleção dos atributos é fazer o
possível para identificar e deletar a redundância nos atributos.
Valores padrão
57
UNIDADE III │ Processo deDescoberta de Dados (KDD)
Este quadro mostra os dados do exemplo apresentado, nele existe a existência de valores
default, que serão atualizados consequentemente.
58
Processo deDescoberta de Dados (KDD) │ UNIDADE III
Uma outra maneira de resolver este problema, pode na verdade trazer a configuração de
novos problemas. Se for feita a simples substituição por somente uma variável global,
em todos os valores que não são conhecidos, acarretará provavelmente em resultados
malquistos. Se essa manipulação é realizada, o processo de predição é afetado.
Quando existe uma grande divergência nos exemplos que tem em cada classe de valores
de atributos qualitativos, há uma série de dados que contém classes desbalanceadas.
É bastante complicado criar algoritmos, pois estes sentem a presença de obstáculos
quando se trata de desenvolver um modelo que identifique com exatidão os exemplos de
classes inferiores. Há algumas maneiras de resolver estes tipos de problema; uma delas
é a busca de uma distribuição das classes que ofereça um considerável desempenho
em relação as classificações para as classes inferiores. (BATISTA, 2003; FERREIRA,
2005).
Um conjunto de dados com classes desbalanceadas, pode ser visto como um caso prático,
elaborado por Ferreira (2005), em que uma base de telefonia celular possui uma base
de dados podendo conter variáveis que representem a determinação da continuidade
de um cliente ou não em uma organização. Se for considerado que esta variável guarda
a informação, de que via de regra 98% representam os clientes que continuam na
organização e 2% apenas dos clientes se desligaram da organização.
59
UNIDADE III │ Processo deDescoberta de Dados (KDD)
base para aplicar a modelagem. Ocorrências que estão em torno de 20% a 30% são bem
quistas para resultados melhores.
Se existem uma base de dados, por exemplo, com uma quantidade de 100.000 registros,
porém, apenas 1% pertence a uma classe qualquer a ser analisada. A implicação, é que
somente 1.000 amostras estão acessíveis para observação dos dados. Então, pode-se
concluir que não é possível se modelar uma base que contenha uma grande quantidade
de dados, mas que tenha uma frequência superior a 4% em relação à classe rara
(FERREIRA, 2005).
Seleção de atributos
Existem alguns motivos que podem ser apresentados para que seja explicado a
utilização da aplicação de métodos de seleção de atributos. A seguir são citados três
desses motivos:
60
Processo deDescoberta de Dados (KDD) │ UNIDADE III
Há técnicas diversas que são pontuadas para ser utilizada na escolha do subconjunto de
atributos (BARANAUSKAS, 1998; FERREIRA, 2005). Essa fase de pré-processamento
que propôs a abordagem pode ser classificada em três classes:
Construção de atributos
61
UNIDADE III │ Processo deDescoberta de Dados (KDD)
Quando existe uma classificação que indica inadequação do conjunto de dados, o uso
dos atributos, da mesma forma do uso dos algoritmos de aprendizado que são aplicados
a mineração de dados, de certa forma, precisarão de desenvolver classificadores com
dificuldade de ter precisões e muitas vezes extremamente complexos.
A composição da construção de um atributo tem como base atributos iniciais que ainda
não tinham sido processados. A intenção nessa etapa é que os atributos tenham um
maior destaque para a explicação de um conceito. Amplamente evidenciado, é possível
dizer que o processo de indução construtiva tem a capacidade de ser separado em duas
técnicas (automática e orientada pelo usuário).
62
Capítulo 2
Transformação dos dados
As transformações dos dados têm a intenção de mudar a forma como os dados são
pelo fato de que é preciso conter qualquer tipo de problemas que possam aparecer nos
algoritmos que são responsáveis por obter os padrões nos dados. A maneira como será
feita, ou decidida para indicar o tipo de transformação que irá acontecer nesses dados,
é determinada de acordo com as necessidades dos algoritmos que vão ser usados para
a mineração de dados.
Como todo bom problema de computação, nada irá fugir da aplicação matemática para
chegar a essa transformação nos dados. Será aplicado uma fórmula ao conteúdo das
variáveis, fazendo com que o modo de obtenção desses dados seja apropriado e constar
corretamente no modelo para, então, ter o maior número de informações possíveis e
satisfazer o que estava previsto no modelo. Essa estratégia também dá um bom suporte
a prevenção de erros (FERREIRA, 2005).
Fora essas aplicações, o processo tem como objetivo identificar e gerenciar as restrições,
por meio dos algoritmos, que não podem ser evitados na mineração de dados. Pode
haver uma restrição da maneira como as ferramentas são utilizadas, restringindo sua
aplicação somente a conjuntos de dados com atributos não numéricos. Da mesma forma
que há uma outra gama de algoritmos que não conseguem analisar para a descoberta de
padrões, essas informações nominais, mas sim variáveis numéricas.
Normalização
A primeira técnica que será explicada é a transformação de normalização, onde os
valores dos atributos têm intervalos originais modificados para um intervalo específico.
Atributo Atributo
Original Normalizado
( -10 ,10 ) (0,1)
( 1 , 100 ) ( -1 , 1 )
( -20 , 30 ) ( 1 , 50 )
63
UNIDADE III │ Processo deDescoberta de Dados (KDD)
Atributo Atributo
Original Normalizado
( -10 ,10 ) (0,1)
( 1 , 100 ) ( 0, 1 )
( -20 , 30 ) (0,1)
Alguns registros já são bem comuns na hora de optar pelo método que irá treinar os
valores dos atributos. Quando estes estão em uma escala pequena, é sabido que são
bem treinados por redes neurais (WEISS et al. 1998; FERREIRA, 2005). Porém, nem
todos os tipos de aplicações são suportados por normalização, os métodos que induzem
representações simbólicas não têm uma boa representatividade. Bons exemplos disso
são as árvores de decisão e regras de decisão, desta forma, o modelo que provém desses
algoritmos tem uma baixa compreensão em relação a normalização.
64
Processo deDescoberta de Dados (KDD) │ UNIDADE III
Existem vários métodos que executam essa técnica de transformação de dados. Esses
algoritmos de discretização de atributos são largamente utilizados em trabalhos
científicos. Outras aplicações e descrições dos métodos mais utilizados serão vistos
na Unidade IV que trata de apresentar os algoritmos de mineração de dados em geral
(BATISTA, 2003; FERREIRA, 2005).
Como foi mencionado, nem sempre os algoritmos conseguem lidar com atributos
qualitativos, assim, existe a necessidade de se transformar os atributos qualitativos
em atributos quantitativos. Também foi dito que há uma série de métodos para fazer
com que essa mudança ocorra de acordo com as características e quaisquer empecilhos
ligados aos algoritmos.
Um bom exemplo para mostrar as transformações de dados pode ser visto de duas
maneiras. A primeira seria de uma série de atributos qualitativos que não estão
ligados a nenhuma sequência, como pode ser observado na figura 18, em que se tem
três objetos representando cores diferentes: verde, amarelo e vermelho. Esses objetos
65
UNIDADE III │ Processo deDescoberta de Dados (KDD)
Figura 19. Atributos qualitativos transformados em quantitativos seguindo uma lógica baseada no tamanho dos
objetos.
66
Processo deDescoberta de Dados (KDD) │ UNIDADE III
Redução de dados
Já foi citado no início desta apostila as vantagens de se ter e se utilizar grandes conjuntos
de dados (Big Data). Para treinar dados e executar testes, essa grande quantidade de
dados é em teoria algo extraordinário. Entretanto, na prática um grande conjunto de
dados pode ser complicado de administrar e os dados se tornam excessivos. O problema
está em quanto as ferramentas de predição que recebem esses dados conseguem lidar
e, mais importante, quanto tempo vai ser preciso para processar e gerar os resultados.
Todos os problemas ligados ao excesso de capacidade e tempo se transformarão em
custos adicionais as empresas (WEISS et al., 1998; FERREIRA, 2005).
Os dados são validados para que se ajustem e se tornem viáveis para a aplicação das
técnicas – na fase de pré-processamento – obter um conjunto de dados ideal. Desta
forma, o processo pode seguir com todas as suas fases para que se possua os resultados
67
UNIDADE III │ Processo deDescoberta de Dados (KDD)
Métodos de
redução
de dados Conjunto de
treino final
Conjunto Conjunto de
Conjunto de de treino Redução de dados
dados inicial (C1) valores e reduzido (C2)
inicial (C1) funcionalidades
Conjunto
de teste final
Conjunto de
testes inicial
Um exemplo de modelo de redução de dados pode ser visto na figura 20, em que cada
passo representa uma parcela para se atingir o objetivo.
Após a fase de redução do conjunto de dados C1 em C2, os seus dados são separados em
dois grupos, que são para testes e treinamento desses dados. O primeiro, que seriam
os casos de testes, tem a função de avaliar os resultados que serão disponibilizados. Na
sequência, na mineração de dados preditiva, as fases serão iterativas. Se não houver
uma boa predição do desempenho, as estimativas poderão ser falhas (WEISS et al.,
1998; FERREIRA, 2005).
Quando é necessário que algo seja simplificado, como um conjunto de dados, tem-se a
certeza que a melhor forma é pela redução do seu tamanho. Sabendo da importância
de se reduzir uma grande quantidade de dados para agilizar processamento e reduzir
gastos as vezes influencia negativamente – se mal executada – na qualidade do conjunto
de dados resultante.
68
Processo deDescoberta de Dados (KDD) │ UNIDADE III
A descrição dos tipos mais utilizados para a técnica de amostragem foi considerada por
Klösgen (2002) e elas estão pontuadas a seguir:
69
UNIDADE III │ Processo deDescoberta de Dados (KDD)
com o objetivo de procurar qual faixa etária, dentro desse grupo, que é
representa melhor a base de dados e, consequentemente, pode ajudar
no processo que toma as decisões para a aplicação de uma amostragem
aleatória ou justaposta, mas que sejam simples.
Conclusão
O KDD, como o nome já propõe, quer realizar a descoberta do conhecimento de dados.
Para tanto, foi visto que existem várias maneiras (técnicas, métodos, ferramentas etc.)
de se executar a obtenção deste conhecimento dentro das bases de dados para alcançar
o objetivo que são gerar bons resultados baseados em bons dados.
70
Algoritmos de Unidade iV
Data Mining
Capítulo 1
Técnicas para encontrar padrões
Este capítulo vai apresentar algumas funcionalidades que compõe a mineração de dados
e que são usadas para mostrar a melhor maneira de detalhar quais tipos de padrões
precisam ser achados dentro de um modelo de descoberta do conhecimento. De forma
abrangente, as atividades que passarão pelo processo de mineração de dados podem
ser divididas em duas etapas (que vão conter outras sub etapas), sendo descritiva ou
preditiva.
Nem sempre é fácil de se saber quais os tipos de padrões, contidos nos conjuntos de
dados, que representam o quão importante aquele reconhecimento tem. Não só a
determinação do tipo de padrão é essencial, em alguns casos o modelo precisa que
haja uma junção de alguns desses tipos para uma melhor execução. Essa é a forma de
afirmar a necessidade da definição do modelo de mineração ideal ao problema, pois ele
estará apto a procurar diversos tipos de padrões de acordo com o modelo.
71
UNIDADE IV │ Algoritmos de Data Mining
As técnicas que estão contidas nas funcionalidades, e que ainda serão explicadas nessa
unidade, podem ser utilizadas para detalhar os tipos de padrões que vão ser achados
nas atividades da mineração de dados. Vale ressaltar que essas abordagens que visam
a descoberta de padrões têm a condição de serem aplicadas unicamente ou em grupo.
Conceitos
A notação de classes ou conceitos está associada aos dados existentes em um banco de
dados. Bem conhecidos, esses termos servem para fazer com que haja uma simplificação,
com clareza e precisão dos dados. Uma maneira bem simples de explicar essas definições
é com um exemplo de uma loja que vende computadores – imagine que as classes são
os itens representados pelos computadores que estão à venda, e os conceitos são os
tipos de clientes que podem que podem compra-los.
72
Algoritmos de Data Mining │ UNIDADE IV
A composição dos dois modelos pode ser igualmente aplicada, desde que seja necessária
a junção deles, para otimizar o objetivo.
Funcionalidades
Foi visto anteriormente que existem várias maneiras de se armazenar os dados para
que eles sejam usados no processo de mineração dos mesmos. A identificação dos tipos
de dados que foram armazenados e dos que estão disponíveis para serem acessados,
ajudam a determinar quais os tipos de padrões de relacionamento é essencial para ser
minerado. No caso, as funcionalidades – chamadas de tarefas ou resultados – existentes
na mineração de dados vão determinar quais os tipos de padrões e conexões entre as
variáveis.
Na maioria das vezes, os autores não especificam bem quais as divergências entre os
termos “funcionalidades” e “técnicas”. É possível imaginar, por exemplo, que existe
uma série de técnicas que podem ser usadas para executar a análise de um grupo de
produtos, dos quais há umas regras de associação. Nomeando a técnica como técnicas
de análise de grupo de produtos (CÔRTES, 2002).
Porém, pode ser considerada uma aplicação a análises aos grupos de produtos, como por
exemplo, identificar quais grupos de produtos são vendidos em conjunto. Com o intuito
de tentar quebrar os mistérios entre essas notações, a figura 21 apresenta, a seguir, as
fases que expressam as relações entre funcionalidades, técnicas e algoritmos. Sempre
tendo como objetivo a edificação da interatividade do reconhecimento de padrões e as
técnicas que podem ser aplicadas.
73
UNIDADE IV │ Algoritmos de Data Mining
74
Algoritmos de Data Mining │ UNIDADE IV
75
UNIDADE IV │ Algoritmos de Data Mining
estão visíveis. Contudo, essa identificação não será realizada por meio de
hipóteses descritas anteriormente.
Análise Descritiva
- Análise de associações
- Análise de desvios
- Agrupamento
- Visualização
- Otimização
- Análise evolutiva
Análise de outliers
A palavra proveniente do inglês tem uma tradução que significa algo do tipo “fora de
série”. Sendo um contexto difícil de traduzir, o termo mais utilizado é mesmo “outliers”,
que são nada mais que um escopo fora do contexto – por exemplo, em um banco de
dados, atributos que não acompanham o modelo de dados.
76
Algoritmos de Data Mining │ UNIDADE IV
Análise de desvios
A análise de desvios, como o nome já propõe, é uma funcionalidade que visa detectar
as mudanças que podem ocorre no comportamento de um padrão, em que as ações são
comparadas com os padrões (THURAISINGHAM, 1999). Uma maneira de exemplificar
é na análise do comportamento de clientes que tem um plano de saúde. A avaliação de
seu comportamento indica se houve algum tipo de mudanças, sendo verificado sempre
que possível. Outro exemplo pode ser visto em empresas de cartão de crédito, em que
pode ser analisado o comportamento de compra dos clientes – se houve uma mudança
significante dos padrões, o modelo vai detectar.
Visualização
Classificação
77
UNIDADE IV │ Algoritmos de Data Mining
modelo que está apto a comunicar quais categorias um novo colaborador se encaixa. A
tarefa de classificação pode ser usada por exemplo para:
»» A análise dos dados pode identificar na escola, qual seria a melhor turma
(mais indicada) para um determinado aluno.
»» Identificar quando uma pessoa pode ser uma ameaça para a segurança.
Está subfuncionalidade tem como objetivo fazer conexões entre os atributos que serão
associados para tentar apresentar suas características e predisposições (CABENA et
al.,1998; CÔRTES, 2002). Outra maneira de apresentar a análise de associação é pela
criação de redes de interações e conexões que existem nos conjuntos de dados utilizando
as associações de todos os atributos do banco.
Há um sentindo implícito nessa afirmação, no qual a associação de cada um dos itens vai
está associado a outro item desse mesmo banco, e, claro, contando que essa execução é
feita na mesma transação. Se for estabelecida um entendimento explícito das relações
que existe entre os objetos, pode garantir uma visão diferenciada da maneira na qual os
dados vão ser examinados, bem como os tipos de características que tem a possibilidade
de estar presente nesses dados e que ainda não foram encontradas.
Regras de associação
Um dos exemplos que foram utilizados na prática de análise de associação foi a aplicação
em investigação criminal. Como isso já faz muitos anos, atualmente, os sistemas
executam bastante essa aplicação investidas em uma grande quantidade de situações,
sejam eles comerciais ou não.
78
Algoritmos de Data Mining │ UNIDADE IV
Os padrões que ligam os itens são vistos pelas regras que os associaram e que, no caso,
faz a essa descrição de maneira textual – identificando os itens vão puxar de certa forma
a compra de um ou uma série de outros produtos. A figura 24 apresenta uma exata
maneira de expressar uma regra que foi gerada a partir de uma análise de compras.
Fator de Corpo da
Confidência Regra
Quando um consumidor
compra arroz, em 80% dos
casos ele também compra
feijão. Isto acontece em 40%
de todas as compras.
Cabeça
Fator
da Regra
de Suporte
Seria a mesma visão de expressar que se um fator “A” ocorrer, a sua afinidade “B”
também vai ocorrer. Ainda pode ser visto na figura que o fator “A” é nomeado como
“corpo da regra” e o fator “B” é nomeado como “cabeça da regra”. O uso dos algoritmos
que aplicam as técnicas de associação é extremamente eficiente na execução das ligações
entre as regras, fazendo com que o analista responsável precise somente verificar a
validade sobre o que foi processado pelo algoritmo para ter noção da importância das
regras que foram estipuladas. Desta forma, os outros dois fatores que aparecem na
figura têm sua importância justificada – fator de suporte e fator de confidência.
79
UNIDADE IV │ Algoritmos de Data Mining
Resumidamente, tem-se que para cada regra existem a definição do fator de suporte e o
fator de confidência, além dos cálculos estatísticos que possam vir a aparecer – no caso,
o quociente existente entre o fator de confidência e o fator de suporte que é conhecido
como o índice relativo a associação dos itens.
80
Algoritmos de Data Mining │ UNIDADE IV
Mais uma vez retomando ao exemplo anterior, analisa-se que se o fator de sustentação
referente ao feijão é de 40% dentro da quantidade de transações totais – de todas as
pessoas que compram algo, 40% das compras tem o item feijões. Assim como o fator
de confidência que encontra a afinidade entre a compra do arroz e do feijão é de 80% –
então o cálculo do índice de associação é de 2,0 (a razão). Consequentemente, é possível
inferir que a ocorrência esperada de feijão em uma compra é duas vezes a ocorrência se
existir a compra de arroz associada.
Quando se tem um conjunto de dados com um grande volume, existe uma possibilidade
alta de encontrar correlações. É quase uma associação dizer que, se o conjunto de dados
é grande, vai haver algum tipo de correlação nestes dados.
Como toda técnica, há os pontos positivos e negativos em suas aplicações. Para a análise
de associações, pode-se observar vantagens em relação a sua simplicidade no conteúdo
das regras. No entanto, a dificuldade de se considerar o valor comercial da associação –
isso quer dizer que quando se tem um produto com um elevado custo, em comparação
com um produto de baixo custo, o peso para diferencia-los não existe – de uma maneira
mais simples, é classificada como uma desvantagem da abordagem (CABENA et al.,
1998).
Característica sequencial
81
UNIDADE IV │ Algoritmos de Data Mining
82
Algoritmos de Data Mining │ UNIDADE IV
Agora, verificando os pontos positivos e negativos dessa análise de associação que foi
apresentada anteriormente, de certa forma também podem se aplicar as características
sequenciais. Fora essa verificação, é preciso analisar alguns outros pontos novos que
necessitam de destacados. Então, é possível afirmar que o fator de sustentação deve ser
especificado.
Análise de clusters
A técnica responsável por aplicar a análise de clusters tem como objetivo identificar
a existência de grupos diversos que podem estar presentes dentro de um conjunto de
dados qualquer. Se a análise conseguir detectar a existência desses padrões de grupos,
é preciso adequar o que foi achado no correto grupo (EVERITT, 1993).
83
UNIDADE IV │ Algoritmos de Data Mining
Partição
Uma boa maneira de imaginar é pensando que a população total de dados é formada
por um cluster. Esse cluster é subparticionado em dois ou mais outros grupos, que
sucessivamente, também podem ser mais uma vez particionados em dois ou mais
outros grupos. O ciclo só acaba quando dentro de um grupo só é possível encontrar um
único elemento.
Mesmo com toda as possibilidades citadas, o processamento para agrupar todos esses
exemplos é impraticável. Então, o ideal é sempre ter uma abordagem que analise a
melhor maneira possível de se aplicar a estratégia de busca e agrupamento do cluster.
Há algumas perguntas que devem ser questionadas para avaliar esse contexto:
84
Algoritmos de Data Mining │ UNIDADE IV
Critérios da partição
Resumidamente, pode ser dito que o critério para a execução da partição em questão,
conhecido como função objetivo, F(P), de acordo com uma partição P qualquer, é o
desenvolvimento numérico do que a teoria intui (MICHAUD, 1997; BUSSAB et al.,
1990). Nas bibliografias estatísticas que descrevem essa função, o termo nF(P) é
reconhecido como responsável pela soma de quadrados dentre grupos.
Mais uma vez, vale lembrar que o objetivo primordial da análise de clusters está baseado
na aquisição de uma partição que faça a minimização da fórmula descrita anteriormente.
Técnicas de partição
Como foi mencionado na seção anterior, a busca por uma estrutura de partições
elaboradas da melhor forma possível é na maioria das vezes algo muito custoso dado
à grande quantidade de partições que podem ser encontradas. Existem alguns meios
85
UNIDADE IV │ Algoritmos de Data Mining
»» Métodos hierárquicos.
Métodos hierárquicos
O valor da função objetiva P(F) que será calculada é quem decidirá qual das duas
abordagens vai ser escolhida. O par de clusters agrupados – aglomerativo – ou o cluster
que vai ser particionado – divisivo.
A maioria dos procedimentos hierárquicos são diferenciados apenas pela forma como é
escolhido o critério de partição, assim como a hierarquia dos clusters é obtida a partir
do processo de fusão ou particionamento sucessivo. Então, a quantidade de clusters
existentes vai praticamente determinar o critério de parada do processo para os dois
tipos de hierarquias. Existem problemas que podem ser igualmente relacionados aos
métodos hierárquicos, como a possibilidade de serem inviáveis quando aplicados a
um conjunto de dados muito grande, por causa da alta complexidade computacional
(MICHAUD, 1997; LOUZADA-NETO, 2002).
Os métodos não hierárquicos buscam diretamente uma partição que seja considerada
boa o suficiente dentro dos n elementos, dessa forma, não é preciso aplicar as associações
hierárquicas. A princípio, tem que se considerar uma partição que possui um número k
86
Algoritmos de Data Mining │ UNIDADE IV
A análise de clusters tem uma característica importante que é a apresentação dos clusters
resultantes provenientes da escolha da função objetivo – realizada anteriormente –
com o objetivo de minimizar e garantir a aquisição de uma partição que também vai
minimizar a função.
87
UNIDADE IV │ Algoritmos de Data Mining
qual clientes que adquirem um dado produto e, algum tempo depois, eles pela previsão
ele vai voltar e fazer uma nova compra que é de alguma forma associada a primeira
compra – por exemplo, se um cliente compra um celular (que somente ele estava dentro
do seu orçamento), um mês depois, ele pode voltar para comprar a película e a capa
para proteger este celular (CÔRTES, 2002).
Análise de evolução
A análise de evolução faz a descrição e a modelagem das tendências que podem estar
contidas nos dados e observa o comportamento dos objetos, quando há uma modificação
de padrão relativo ao passar dos anos. Caracterização, discriminação, associação,
classificação ou agrupamento de dados são mecanismos passíveis de serem relacionados
com o tempo, porém, essa análise de evolução tem a propriedade de adicionar a análise
de dados de séries temporais, pares de padrões de sequência ou periodicidade e análise
baseada em similaridades.
A análise em dados no formato texto tem como objetivo observar vários conjuntos de
dados que estão armazenados no formato de texto. Aplicações deste tipo podem ser
evidenciada com narrativas de processos judiciais que querem realizar a transformação
desses textos em alguma outra forma, assim os resultados seriam tratados e explorados
dados os textos iniciais (SHOLOM, 1999). Por exemplo, textos que fazem parte de
um processo criminal e que utiliza uma técnica para analisar os padrões podem ser
observados em diversos outros casos e indicar resultados que demonstrem qualquer
tipo de associação entre os crimes.
88
Capítulo 2
Aplicação de ferramentas
Como foi mencionado na introdução desta apostila, os conceitos relativos aos métodos
de mineração de dados mais utilizados: análise preditiva e análise descritiva. Fazendo
a conexão desses métodos aos algoritmos que os representa, é sabido que a análise
preditiva utiliza os algoritmos de aprendizado supervisionado, enquanto a análise
descritiva usa os algoritmos de aprendizado não supervisionado (CIOS, 2007; FAYADD,
1996; HAN, 2006; CAMILO, 2009).
A teoria muitas vezes não consegue se conciliar a prática, e na prática alguns métodos
preditivos podem ser aplicados a métodos descritivos e o contrário também é válido,
bem como o conhecimento das possibilidades de utilização (FAYADD, 1996). Dada a
combinação dessas duas técnicas, alguns autores como Seliya (2007) e Wang (2005)
propuseram uma abordagem semissupervisionadas.
Há diversas maneiras nas quais são classificados todos esses métodos diferentes. Para
tentar explicar essas discrepâncias, Han (2006) faz a descrição dos principais métodos,
e tem os seus métodos taxados dada a série de tarefas que vai ser realizada.
89
UNIDADE IV │ Algoritmos de Data Mining
Vale salientar que as técnicas de classificação são utilizadas para fazer previsões
de valores de variáveis. Dado que a abordagem de classificação pode ser
aplicada ao método supervisionado ou não, pode se ter um exemplo (na área
de negócios) quando um modelo que executa a classificação dos clientes de um
banco é elaborado e é determinado se esses clientes são especiais ou clientes
de risco.
Árvores de decisão
Árvores de decisão são métodos de classificação que são descritos como um fluxograma
em seu funcionamento, de forma que sua estrutura é no modelo de uma árvore, no qual
cada nó dessa árvore representa um teste a ser realizado em relação a um determinado
valor. O conteúdo que fica entre os nós é conhecido como os valores estipulados para ser
classificado como o teste do nó superior, da mesma maneira que as folhas representam
a classe que é pertencido o registro. Se a árvore de decisão já tiver sido estruturada, e
já tem os nós que classificam novos registros, é importante seguir o fluxo na árvore de
acordo com as perguntas que foram programadas, sempre sendo um fluxo top-down –
onde de inicia o processo no nó raiz e desloca até uma folha (CAMILO, 2009).
O modo no qual uma árvore de decisão se estrutura é possível aplicar algum tipo de
conversão da árvore em Regras de Classificação. Talvez a afirmação de que as árvores
de decisão são uma técnica muito simples, é devido à falta de necessidade de uma
estrutura que tem parâmetros de configuração, como também pela frequência na qual
há um bom grau de assertividade.
Sempre é preciso uma análise bem específica dos dados que vão ser utilizados para
obter sucesso, mesmo que a técnica seja considerada extremamente poderosa. Autores,
como Quinlan (1986), mostram várias técnicas que podem ser aplicadas para conseguir
diminuir a complexidade de entendimento das árvores de decisão. Outros autores
como Yang et al. (2007) consideram algoritmos usados para intuir regras que são
extremamente úteis para se obter as tomadas de decisões. Para exemplificar, a figura
28 ilustra um exemplo de árvore de decisão.
90
Algoritmos de Data Mining │ UNIDADE IV
A época parecia inspiradora, até porque, mesmo sem ter conhecimento do trabalho
desenvolvido por Quinlan, um grupo de estatísticos – L. Breiman, J. Friedman, R.
Olshen e C. Stone – implementau outro algoritmo e publicau o livro “Classification and
Regression Trees” CART (BREIMAN, 1984). Atualmente, os algoritmos de de Quinlan e
o dos estatísticos são vistos como precursores e por essa razão deram seguimento para
vários outros. A estratégia que guia a estrutura dos algoritmos é baseada em dividir
para conquistar aplicada recursivamente e usando o método top-down.
91
UNIDADE IV │ Algoritmos de Data Mining
Classificação bayesiana
A classificação bayesiana é uma técnica estatística, dessa forma, utiliza a probabilidade
condicional, e que tem seu desenvolvimento no teorema de Thomas Bayes. É possível,
de acordo com o teorema de Bayes, descobrir a probabilidade de algum evento que
possa ocorrer de acordo com a probabilidade medida em relação ao acontecimento de
um outro evento dada pela expressão:
Outra maneira bem conhecida de se referir aos algoritmos Bayesianos é pelo termo “Naïve
Bayes”. Os resultados realizados utilizando o algoritmo de Naïve Bayes foram avaliados
e tiveram respostas tão eficientes quanto os algoritmos de redes neurais e de árvore de
decisão. A popularização desse algoritmo se concretizou pelo fato de ser extremamente
simples e ter um grande poder de predição (ZHANG, 2004; CAMILO, 2009).
Algoritmo genético
Os algoritmos genéticos são baseados na teoria da evolução e na maior parte do tempo,
é feito de forma aleatória a criação de uma população no início de sua execução. O termo
evolução é utilizado de acordo com a comparação de que na evolução o mais forte vai
vencer e evoluir, enquanto o mais fraco é eliminado. Assim, nos algoritmos genéticos,
uma população é criada baseada na população anterior, sendo que os indivíduos passam
por um processo de mutação e cruzamento. O processo é iterativo e tem seu término
baseado em um critério de parada ou até algum ponto em que várias iterações passem
e a população resultante seja considerada de bons indivíduos.
92
Algoritmos de Data Mining │ UNIDADE IV
Redes neurais
Originalmente baseada na psicologia e na neurobiologia, as redes neurais são abordagens
que tem um embasamento na simulação do comportamento dos neurônios. Geralmente,
as redes neurais são consideradas como um conjunto de unidades de entrada e saída
que tem conexões por camadas intermediárias – que no caso, cada uma dessas camadas
tem uma ligação a um peso. Um passo importante que as redes neurais apresentam é
que ao longo do processo de aprendizado é a combinada a rede os pesos, que ajuda no
processo de classificação de um objeto de maneira correta.
93
UNIDADE IV │ Algoritmos de Data Mining
Existem algumas informações que dizem que o desenvolvimento do SVM foi antes da
data conhecida como desenvolvimento. Em 1992, foi apresentado por Vladimir Vapnik,
Bernhard Boser e Isabelle Guyon, um artigo que continha o SVM, e fora o fato de ser
uma técnica considerada nova, sua aplicação evidencia bons resultados:
A sua flexibilidade permite que sua aplicação seja feita, tanto para abordagens de
classificação, quanto de predição. Assim como suas virtudes, a técnica de SVM também
tem algumas dificuldades, que está ligada ao tempo utilizado na fase de aprendizado,
do qual são bastante questionadas em pesquisas.
Métodos de particionamento
Dado um conjunto D de dados com n registros e k o número de agrupamentos desejados,
os algoritmos de particionamento organizam os objetos em k agrupamentos, tal que k
<= n. Os algoritmos mais comuns de agrupamento são: k-Means e k-Metodos.
K-means
Foi visto nas seções anteriores alguns dos conceitos do algoritmo K-means e agora
será apresentado como ele funciona em seu funcionamento. Primeiramente, precisa
se pensar, como objetivo, em agrupar dados de acordo com as suas similaridades –
imagine, por exemplo, um conjunto de dados que contém várias amostras distribuídas
nos eixos X e Y.
94
Algoritmos de Data Mining │ UNIDADE IV
95
UNIDADE IV │ Algoritmos de Data Mining
Naïve Bayes
Já foi dito, o motivo do algoritmo de classificação bayesiana ter essa nomeação é
dado ao teorema de probabilidade de Bayes. Como o algoritmo objetiva o cálculo da
probabilidade que uma dada amostra pertença as possíveis classes. A técnica leva em
consideração que a repercussão do valor de um atribuído em relação a uma determinada
classe não é relevante em comparação com os valores dos outros atributos, deixando o
processo mais simples. Quando se trata de probabilidade, fica claro que a classificação
Bayesiana terá melhores resultados aplicados a valores discretos ao invés de contínuos
(CAMILO, 2009).
Tentando simplificar os detalhes, o algoritmo Naïve Bayes pode ser separado de acordo
com as seguintes etapas (PICHILIANI, 2006):
96
Algoritmos de Data Mining │ UNIDADE IV
Existem vários meios nos quais é possível se aplicar o uso de ferramentas Open Source de
modo a garantir vários recursos e funcionalidades, que podem muita vezes serem melhores
do que as ferramentas pagas em razão de sua flexibilidade de acordo com a possibilidade
total de customização dos casos, a robustez de soluções e as bibliotecas existentes, e,
obviamente, não menos importante, o preço de implementação (CLÉSIO, 2012).
R
O Projeto R (ou somente “R”) é software de estatística que contém diversos packages
(pacotes com diversas funções estatísticas, matemáticas e econométricas) e vem em um
ritmo de crescimento muito grande, em especial nos últimos 3 anos. Tem uma variedade
muito grande de recursos estatístico-computacionais e tem como vantagem a sua difusão,
e por ter uma linguagem de programação que tem uma curva de aprendizado média; o
que permite que estatísticos, economistas, médicos e cientistas da computação façam
interações sob um mesmo código; além de possuir uma bibliografia invejável em termos
de livros e materiais disponíveis na web. A desvantagem é que não há informações
97
UNIDADE IV │ Algoritmos de Data Mining
RapidMiner
WEKA
98
Aprendizado
de Máquina Unidade V
(Machine
Learning)
Nesta unidade, serão abordadas algumas questões que também fazem parte do conceito
de aprendizagem de máquina, diferentemente de conceitos que já precisaram ser
explanados nos capítulos anteriormente. A necessidade de compreender os métodos
mencionados faz com que os conceitos se misturem em várias fases.
Capítulo 1
Sistema de aprendizado
99
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
Obviamente, há uma clara importância que deve ser atribuída aos sistemas de
aprendizagem por seus níveis de confiabilidade, porque há vários problemas que não
podem ser determinados sua resolução por meio de abordagens bem conhecidas na
programação. O motivo para tanto é que esse tipo de problema não tem uma modelagem
matemática ou algorítmica.
»» Ferramentas de busca.
»» Diagnóstico médico.
»» Bioinformática.
»» Previsões financeiras.
»» Jogos de entretenimento.
»» Sistemas biométricos.
100
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
A solução desses tipos de problemas mostra que existe uma necessidade real em relação
aos avanços em cada uma dessas áreas do conhecimento. Então, é fato afirmar que
se for possível a compreensão do desenvolvimento dos algoritmos baseados nestes
problemas. Fora que, não só nas áreas com aplicações práticas, como a área médica,
mas também bem relevante para os problemas na ciência da computação.
Infelizmente, ainda não se pode contar com esse tipo de solução em relação as habilidades
dos melhores profissionais responsáveis pelo desenvolvimento. Como qualquer outro
problema, a não habilidade de resolver da maneira ideal, faz com que outros meios
sejam aplicados – como a aprendizagem baseada nas experiências anteriores (PRATI,
2006).
Inferência dedutiva
A dedução tem um conceito que pode ser visto como uma forma de inferência logicamente
correta, que significa ter a conclusão calculada de acordo com um conjunto de dados
iniciais verdadeiros, para que a verdade sempre seja preserva. Porém, a inferência
dedutiva tem o poder de aplicar apenas para conseguir as informações escondidas no
modelo.
101
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
Inferência abdutiva
Indução
A terceira forma é a inferência indutiva, que é uma maneira de inferir a lógica que
dá consentimento a extrapolação das premissas. Desta forma, é obtida as conclusões
genéticas em relação a exemplos em questão. Ainda assim, é possível caracterizar a
indução como uma maneira de raciocínio que tem um início em relação a um conceito
específico para então, pode generaliza-lo. Isso significa que a unidade vai se transformar
no todo, do mesmo jeito que o singular vai se transformar no geral.
102
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
Caso não seja possível garantir a validade de uma hipótese, é feita uma ligação entre ela
e um certo grau de confiança, que tem como base a quantidade e qualidade presentes
nas premissas. Fazendo com que as premissas usadas em uma inferência indutiva
sejam consideradas verdadeiras, e ainda vai haver um número aceitável das mesmas,
que possibilite afirmar que uma hipótese de certa forma é verdadeira.
Então, é dito que a inferência indutiva considera esse tipo de hipótese, considerando-a
como válida, assim como a inferência abdutiva faz a aplicação da inferência dedutiva
com objetivo de gerar novos conhecimentos. Contudo, pode ser vista as divergências
entre a abdução e a indução pelo fato de que as hipóteses não podem ser limitadas a
um subconjunto singular de predicados que não estão completamente especificados em
relação a representação do domínio do problema referente a teoria , entretanto, estas
mesmas hipóteses podem ser limitadas somente por sua própria linguagem da teoria .
Aplicação
»» A busca pela parte referente a informação que pode ser verdadeira dada
uma teoria universal que descreve um domínio de interesse.
103
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
Desta maneira, analisando as duas classes de problemas, pode-se inferir que a inferência
não dedutiva tem a necessidade de compensar o por que é preciso explicar a busca
por informações verdadeiras sendo generalizada pela produção de novas teorias do
comportamento do processo. Dada sua capacidade de explicar a usabilidade de uma
teoria e considerando a suposição , a inferência abdutiva geralmente é aplicada na fase
de planejamento e em desejáveis diagnósticos (PRATI, 2006).
Mas o que se pode afirmar por ser um sistema de aprendizagem? A técnica nada mais
é do que um conjunto de algoritmos que são capazes de tomar decisões com base em
experiências reunidas, dada a solução de problemas em uma fase anterior. Esse tipo
de sistema tem características singulares e podem ser consideradas como constantes,
assim, possibilitando uma forma de classificação em relação à linguagem de descrição,
a tarefa, ao modo, ao paradigma e a forma de aprendizagem que foram aplicadas a esses
sistemas. Esses conceitos são apresentados na figura 31, em que há uma breve descrição
de cada um.
104
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
Supervisionado
Se pode afirmar também que cada algoritmo faz um tipo de busca diferente em relação
aos possíveis padrões. Então, logo após a descoberta do melhor algoritmo relativo
ao problema, que encontra o melhor padrão, é realizada as previsões referentes aos
dados de testes e que não possuem dados reais futuros. Na aprendizagem de máquina,
o aprendizado supervisionado é visto como bem comum e bem aplicável. Alguns dos
subtipos de aprendizado supervisionado são os seguintes:
105
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
.
Figura 32. Fluxo de classificação.
Nova ocorrência
Extraia as características do
grupo
Classifique a instância
N S
Atualize a base de É um alerta?
dados Confirme o alerta
106
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
Não supervisionado
Neste contexto, o aprendizado analisa os pontos de dados que não possuem rótulos
associados. No caso, o objetivo de um algoritmo de aprendizado não supervisionado
é fazer a organização dos dados de um jeito ou fazer a descrição de sua estrutura. A
maneira como pode ser observada essa aplicação é por meio dos algoritmos que
agrupam clusters ou quando conseguem descobrir diversas formas de consultar dados
complexos, deixando-os visualmente mais simples e organizados.
Semi supervisionado
Por reforço
No aspecto referente ao aprendizado por reforço, a teoria indica que o algoritmo faz
uma opção; para cada ação há uma resposta para os pontos de dados. Adicionalmente,
o algoritmo obtém um sinal que vai representar uma recompensa algum tempo depois,
classificando como sendo uma boa decisão.
De acordo com esses dados, o algoritmo muda a estratégia de forma a sempre buscar
o retorno dessas recompensas cada vez mais e melhores. A aplicação desse tipo de
aprendizado é extremamente comum na área de robótica – do qual, um conjunto de
leituras de sensores em algum momento, é um ponto de dados – assim, o algoritmo tem
que optar pela ação que o robô vai executar em sequência. Outro exemplo é a aplicação
nos ajustes necessários na aprendizagem dos algoritmos da internet das coisas.
107
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
Paradigmas de aprendizagem
Paradigma simbólico
108
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
Paradigma estatístico
Existem constantes pesquisas na área de estatística que têm o objetivo de criar vários
métodos de classificação, a maioria tem algo em comum com os métodos aplicados
pela comunidade científica em aprendizado de máquina. Um dos exemplos que podem
ser vistos é o método CART (BREIMAN et al., 1984), citado anteriormente, no qual o
sistema é considerado como bem aplicável na construção de árvores de decisão, e que
foi implementado por estatísticos.
Na maioria das vezes, as técnicas estatísticas têm a tendência de especificar tarefas nas
quais todos os atributos possuem valores contínuos ou ordinais. Da mesma forma que a
maioria desses métodos são igualmente taxados de paramétricos, assim, apropriando-
se de algum modelo anteriormente estabelecido e, então, modificando os valores dos
parâmetros do modelo (de acordo com a necessidade) partindo dos dados.
Um modelo de classificação linear, por exemplo, considera que as classes podem ser
apresentadas como combinação linear dos valores dos atributos e, para isso, essas
classes buscam uma combinação linear singular responsável por contribuir com a
melhor aproximação em relação ao conjunto de dados.
109
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
Os sistemas têm a mais básica forma de empregar esses paradigmas, pois guardam
todos os exemplos que passaram pela fase de treinamento. Assim, a classificação é
realizada por meio da maior quantidade de exemplos relativos aos vizinhos que estão
contidos em uma mesma classe. Como já foi mencionado em outras seções a técnica do
K-Neasrest-Neighbours (KNN).
Não só ela, mas existem outras abordagens que fazem uso de heurísticas com o intuito de
selecionar os exemplos que estão guardados. É de suma importância também identificar
quais os casos de treinamento que precisam ser memorizados – desta forma, é possível
controlar quaisquer problemas ou dificuldades, bem como a lerdeza na manipulação do
modelo de classificação.
Paradigma conexionista
110
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
pesquisa após vários anos que deu origem a publicação dos dois em 1962. A pesquisa
mostrava a estrutura do perceptron, que foi considerado uma enorme contribuição
para provar o teorema de convergência.
Paradigma genético
Existe vários operadores genéticos básicos que podem ser aplicados a uma dada
população para que sejam produzidos novos indivíduos com a reprodução, baseada
no cruzamento, e nas mutações. O objetivo desse método é que os operadores façam
111
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
Não incremental
Incremental
É possível afirmar que uma das vantagens de utilizar um algoritmo incremental é dado
pelo fato de que o conhecimento tem a capacidade de ser rapidamente atualizado a cada
nova iteração. No entanto, algumas vezes, é considerado mais eficiente fazer a revisão
de uma hipótese já existente, ao invés de criar uma nova hipótese a cada vez seja criado
um novo exemplo (PRATI, 2006).
112
Capítulo 2
Aplicações de classificação de textos
Existem diferentes formas e objetivos que podem ser traçados para a aplicação da
classificação de elementos textuais realizados com o auxílio de algoritmos. Alguns
exemplos serão vistos a seguir.
Internet
Um dos veículos que podem ter como exemplo a clara aplicação de algoritmos de
classificação de textos é por meio das páginas que contém os dados de textos na internet.
Os textos que estão descritos de várias maneiras – sejam por tópicos que representam
a ideia central do assunto, os textos de conteúdo, em si, além do tipo de formatação que
é associada ao texto que influencia bastante no resultado da análise.
Outra situação comum que a análise das informações textuais aplicadas a conteúdos
que nem sempre o usuário gostaria de ser incomodado com tais questões, no caso, os
spams. Da mesma maneira que essa análise negativa ao usuário pode ocorrer, existe o
retorno positivo, em que os dados dos usuários são classificados para indicar de acordo
com o que ele escreve na internet e vincular as preferencias e os desejos por produtos
em anúncios e ofertas que façam parte do interesse do mesmo.
113
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
irá especificar o seu conteúdo, e repetindo o que já foi mencionado e bem clássico
desse tipo de abordagem – os spams, que nos e-mails podem ser indicados a serem
automaticamente analisados e direcionados a pastas for serem o que são.
Representação de textos
Dado uma série de documentos que serão analisados por um algoritmo de análise
textual, o padrão será baseado primeiramente, na fase de pré-processamento, no qual
cada um dos documentos é dividido para que as palavras sejam classificadas. Se houver
um número grande de repetições de alguns termos, o algoritmo pode identificar as
palavras que são comuns a todos os documentos, da mesma forma que se não tem essa
compatibilidade entre as palavras no texto, ele não vai achar que esses documentos são
da mesma classe.
Em um texto a ser avaliado, a ordem que as palavras estão sendo mostradas não é
relevante, então não faz diferença. Na procura por um termo em questão existe uma
opção de como a palavra que será representada por um atributo pode ser classificada:
114
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
Outro ponto relevante é a limpeza do texto em relação a termos que não são relevantes,
e que só aumentariam a demanda computacional se não fossem excluídos, como os
artigos, conjunções, pronomes etc.
2 de
0 dito
A sua estrutura foi determinada por George Zipf e é considerada uma lei empírica que
é representada de acordo com a dimensão, a importância ou a frequência que estão
contidos em uma lista de elementos ordenada. O enfoque da lei de Zipf está relacionada
as potências em razão da distribuição de valores baseados na posição da lista. A lei
ainda afirma que há uma relação entre o primeiro e o último valor da lista, a ponto de
se determinar a distribuição das palavras por meio de:
115
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
A classificação composta pelo modelo Naïve Bayes avalia a informação dada, aquela
contida na categorização, como pode ser visualizada na figura 36.
116
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
Fase de treinamento
Agora será abordada a aplicação do algoritmo em sua fase inicial – fase de treinamento,
em que pode ser considerado o seguinte pseudocódigo:
117
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
Fase de testes
Assim como na fase de treinamento, há seu código específico para indicar o que o
algoritmo precisa saber, a aplicação do algoritmo em sua fase de testes pode ser
observada de acordo com o seguinte pseudocódigo:
Métricas de similaridade
Como já foi mencionado, a análise de textos que tem contextos semelhantes é bem
vista em relação aos resultados que podem ser encontrados. Por exemplo, a aplicação
de textos contidos numa prova, onde o professor quer avaliar se os alunos copiaram
as respostas uns dos outros. Ainda assim, esses valores textuais são convertidos em
dados numéricos pelo BOW na fase de pré-processamento, no qual é aplicado o modelo
vetorial de recuperação de informações.
Desta forma, se considera que após a validação das palavras na fase de pré-
processamento, continuaram termos que vão compor o vocabulário. Os termos são
vistos dentro de um espaço vetorial como termos ortogonais:
118
Aprendizado de Máquina (Machine Learning) │ UNIDADE V
Coleção de documentos
A representação que pode ser atribuída a um conjunto de documentos () é de um
modelo vetorial visualizado por meio de uma matriz (figura 38) de pesos – que significa
ter em cada um de seus campos um valor atribuído a importância daquele termo em
questão. Se em uma matriz tiver, por exemplo, o peso na posição enquanto a posição ,
isso mostra que o terno na posição tem uma importância grande, enquanto na posição
não tem nenhuma – ou até mesmo significa que aquele documento não existe.
119
UNIDADE V │ Aprendizado de Máquina (Machine Learning)
Conclusão
120
Estudo de Caso Unidade Vi
Prático
Esta unidade é baseada no estudo de caso apresentado por Batista (2009), em seu
trabalho denominado “Análise da Aplicação de Algoritmos de Data Mining em Bases
de Dados de Vendas de Produtos”. O estudo teve o apoio da ferramenta Microsoft
Excel 2007, com o objetivo de facilitar sua aplicação aos demais usuários, dado que a
ferramenta é bem difundida e acessível.
Capítulo 1
Fábrica de refrigerantes
O foco da análise foi nas tabelas que tinham as informações dos pedidos e dos perfis
dos clientes, como também dos produtos. Cada pedido é representado pela tabela de
pedidos de forma única. A tabela de pedidos ainda armazena o cabeçalho e os detalhes
dos pedidos. Assim, é necessário, na maioria das vezes, aplicar filtros para se obter
121
UNIDADE VI │ Estudo de Caso Prático
somente os itens. As tabelas usadas neste estudo de caso são apresentadas nas figura 39
e 40, que foram divididas para melhor visualização da imagem.
122
Estudo de Caso Prático │ UNIDADE Vi
Etapas do KDD
As etapas desde a seleção de dados até a extração de dados são brevemente pontuadas
a seguir:
123
UNIDADE VI │ Estudo de Caso Prático
Porém, não houve aplicação dessa técnica neste caso de uso, por parte do interesse do
autor.
Algumas informações como as contidas na linha 16, em que é aplicado um filtro que
contém apenas os itens de cada produto, e na linha 17, há outro filtro para mostrar
somente os produtos “refrigerantes”, dado o grande número de produtos existentes –
bem como o foco da pesquisa.
Os dados adquiridos foram colocados em uma planilha para que houvesse a análise
deles. A figura 42 representa os dados contidos nessas planilhas, de acordo com a
consulta SQL anterior.
124
Estudo de Caso Prático │ UNIDADE Vi
Alguns outros dados podem ser analisados como o valor do produto, no qual é feito o
acréscimo dos campos de descrição do produto, assim como o tamanho em somente
um campo. Essa segunda análise pode ser visualizada na figura 43.
125
UNIDADE VI │ Estudo de Caso Prático
Aplicação de Clusters
É possível observar na figura 44 uma tela de parâmetros no qual foi optado o método
de clusters. A razão para a escolha do algoritmo de K-means é baseada no fato de que
ele consegue resumir a quantidade de subdivisões de categorias – no caso, se houver
informações bem definidas, é sabido que se obterá bons resultados na análise dos dados.
126
Estudo de Caso Prático │ UNIDADE Vi
Pontos podem ser analisados em relação aos resultados que foram apresentados na
figura 45. Tais resultados podem ser utilizados para melhorar quaisquer ponderações
ou constatações (como possíveis mudanças no conceito ou ações promocionais) que
foram vistas em relação ao processo atual da fábrica.
Analisando os clusters formados – dado que sua ordenação foi feita de acordo com a
quantidade de vezes que os dados são descobertos – a coluna “Population” mostra que a
empresa possui um particionamento preciso de vendas para parceiros e não parceiros.
É possível observar que há uma grande quantidade de diversidade de produtos, com
vários segmentos e tamanhos. Outro ponto é o particionamento entre altos e baixos
volumes de vendas. Uma análise diferente feita por Batista (2009) é descrita a seguir.
127
UNIDADE VI │ Estudo de Caso Prático
Temos que notar que para este cluster temos uma grande quantidade
de Segmento Bar-Lanchonete, que tradicionalmente, não apresenta
um alto volume. Portanto temos que ter em mente que quando uma
ação ou promoção foi feita para que estes índices apresentados no
cluster sejam alterados, provavelmente o atributo de volume pode não
ser alterado. Sem dúvida com o marketing agindo, pode-se aumentar
o mix de produtos, o que interessa ao fabricante, pois terá mais
produtos diferentes sendo consumidos por clientes e seu nome mais
conhecido. Também deve focar em tornar os clientes em parceiros, pois
desta forma, o cliente tem mais descontos na compra dos produtos e
consequentemente, aumentando o volume vendas. (BATISTA, 2009).
Técnicas como a associação também já foram mencionadas e vai ser a próxima aplicação
observada neste estudo de caso. Assim, o algoritmo de associação proporciona uma
correlação entre os produtos que foram comprados. A sua análise vai demonstrar quais
produtos é mais comprado juntamente com outros produtos.
O objetivo desse tipo de análise é, por exemplo, fazer com que o produto principal da
empresa seja associado a vários outros não tão bem classificados, aumentar a pretensão
de vendas e crescer os lucros. As planilhas que foram criadas possuem a informação
de distribuição dos produtos de acordo com sua quantidade de ocorrências nos dados,
realizada para cada conjunto de dados.
A figura 46 mostra a imagem de uma tela do SQL Server, em que é preenchido algumas
informações para executar o número de pedidos – destacando-se em que campo vai
estar o produto vendido, assim como o seu valor. Lembrando que para a execução desse
algoritmo, é necessário que os dados estejam ordenados pelo número do pedido.
128
Estudo de Caso Prático │ UNIDADE Vi
129
UNIDADE VI │ Estudo de Caso Prático
Após a fase de execução, o algoritmo retorna duas planilhas que contém informações
relevantes. Uma das planilhas, apresentada na figura 49, mostra que o particionamento
das vendas com base nas regras encontradas até então.
130
Estudo de Caso Prático │ UNIDADE Vi
Vemos também que a maioria das regras sugere a venda associada de produtos de
mesmo tamanho ou próximo, ou seja, apenas individuais ou apenas familiares, mas
devemos dar atenção às sugestões para tamanhos diferentes também para que possam
ser difundidos mais tamanhos para o mercado, diversificando o mercado e atingindo
mais consumidores.
131
UNIDADE VI │ Estudo de Caso Prático
132
Estudo de Caso Prático │ UNIDADE Vi
Figura 52. Resultado do algoritmo de Naïve Bayes pelo campo “BAR BOTECO”.
A aplicação do filtro de acordo com a coluna values com o termo “BAR BOTECO”,
tem-se como análise que a maior parte das vendas é realizada em relação a produtos
individuais.
133
UNIDADE VI │ Estudo de Caso Prático
A última análise é representada pelo volume de vendas dos produtos, o qual é apresentado
na figura 54, que não é possível um atributo sozinho determinar características. No
entanto, é observado que a presença de um produto pouco comprado aparece – sabor
UVA, para value = ALTO VOLUME.
Figura 54. Resultados algoritmo Naïve Bayes por volume para value = “ALTO VOLUME”.
134
Estudo de Caso Prático │ UNIDADE Vi
Figura 55. Resultados algoritmo Naïve Bayes por volume para value = “BAIXO”.
Conclusão
Qualquer tipo de estudo de caso auxilia bastante o entendimento dos conceitos teóricos,
como os que foram estudados nas outras unidades desta apostila. Foi apresentado nesta
unidade um caso, no qual o algoritmo de mineração de dados cede somente informações
e permite que sejam buscadas inferências sobre a distribuição dos produtos, de acordo
com o perfil dos clientes. Dada uma equipe de marketing experiente, várias informações
podem ser extraídas da análise dos dados – sempre com o objetivo de crescimento dos
lucros e redução dos danos.
135
Referências
BUSINESS, Big Data. Tipos de Análise de Big Data: você conhece todos os 4?.
2017. Disponível em: <http://www.bigdatabusiness.com.br/conheca-os-4-tipos-de-
analises-de-big-data-analytics/>. Acesso em: 26 jul. de 2017.
136
Referências
CHANDRA, B.; VARGHESE, P. Fuzzy sliq decision tree algorithm. IEEE Transactions
on Cybernetics, n. 38, pp. 1294–1301, 2008.
______. Mineração de dados com software livre. 2012. Disponível em: <https://
mineracaodedados.wordpress.com/2012/07/12/mineracao-de-dados-com-software-
livre/>. Acesso em: 21 ago. 2017.
137
Referências
GAZIN, Blog Gazin Atacado. 6 dicas para garantir a satisfação do cliente. 2014.
Disponível em <http://blog.gazinatacado.com.br/6-dicas-para-garantir-a-satisfacao-
do-cliente/>. Acessado em 02 de Agosto de 2017.
138
Referências
139
Referências
OLIVEIRA, João Paulo. Banco de Dados: Pra que serve? 2012. Disponível em:
<http://bloginformaticamicrocamp.com.br/office/conceitos-de-banco-de-dados/>.
Acessado em: 17 ago. 2017.
140
Referências
SAS. Big Data – O que é e o que é importante? 2017. Disponível em: <https://www.
sas.com/pt_br/insights/big-data/what-is-big-data.html>. Acesso em: 26 jul. 2017.
SHAFER, J.; AGRAWAL, R.; MEHTA, M. Sprint: A scalable parallel classifier for data
mining. Procs. of the 22nd VLDB, p. 544-555, 1996.
YANG, Q.; YIN, J.; LING, C.; PAN, R. Extracting actionable knowledge from decision
trees. IEEE Transactions on Knowledge and Data Engineering, vol. 19, n. 1, pp.
43-56, 2007.
ZHANG, H. The optimality of naive bayes. In: 2004 FLAIRS Conference - AAAI,
2004.
141
Referências
142