Você está na página 1de 21

INTELIGÊNCIA DE NEGÓCIOS

Unidade 4 - Data mining

GINEAD
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

UNIDADE 4

Todos os direitos reservados.

Prezado(a) aluno(a), este material de estudo é para seu uso pessoal, sendo

vedada, por quaisquer meios e a qualquer título, a sua reprodução, venda,

compartilhamento e distribuição.

OBJETIVO
Ao final d
unidade,
esperamos que
você seja capaz
de:

> entender a
relevância dos
dados para atingir
desempenho;
> compreender como
realizar Data Mining
e suas variáveis.

1
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

4 DATA MINING

INTRODUÇÃO DA UNIDADE
Esta unidade abordará uma reflexão sobre os conceitos básicos de Data Mi-
ning e sua importância para o mundo dos negócios de uma maneira a não
delimitar uma empresa, e sim ajuda-la com uma ferramenta que pode auxi-
liar em diferentes áreas.
Destaca-se a importância do uso de dados e o conceito de Data Mining para
conseguir compreender como podemos utilizar essa ferramenta. As ferra-
mentas do Data Mining e seus respectivos processos de projetos, os Text Mi-
nings e, de maneira mais atual, os chamados Web Mining, abordando ques-
tões de uso dos dados coletados por meio da web.

4.1 IMPORTÂNCIA DO USO DE DADOS


Segundo Turban (2009), os dados podem ser estruturados de modo a esta-
rem disponíveis por meio de um formato pronto para o seu processamento
analítico. Devemos levar em consideração que vivemos em um mundo em
que a transformação bate à nossa porta a todo segundo e estarmos abertos
às mudanças é um dos fatores de maior importância para as empresas.

FIGURA 1: USO DE DADOS

Fonte: Plataforma Deduca (2020).

2
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

Gonçalves (2017, p. 17) afirma:

Dado: segundo uma das defini ões da palavra aplicada ao contexto, dados
são um conjunto de valores ou ocorrências em um estado bruto, ou seja,
podem ser inúmeros e não relacionados entre si, portanto precisam de
tratamento para que virem ou uma informação e, então, descrevam as
características de um evento aleatório.
Segundo ainda o autor, em nosso dia a dia, nas empresas, muitas vezes, aca-
bamos por realizar as diferentes tarefas de maneira automática e não perce-
bemos, muitas vezes, que estamos envoltos a diferentes agentes que estão
interligados. Para que todos esses processamentos aconteçam, não podemos
esquecer que eles existem e que a interação é fundamental para o sucesso
dos objetivos empresariais.
Segundo Gonçalves (2017, p. 44):

Os sistemas de informações gerenciais (SIG) são cruciais para o


gerenciamento dentro das organizações, pois auxiliam os gestores na tomada
de decisão buscando sempre alcançar os objetivos e as metas traçadas para
a permanência no mercado. Sua atuação está diretamente ligada à busca
por reduções em custos operacionais, melhoria nos canais de comunicação,
melhoria nos produtos e serviços ofertados pelas organizações, melhoria
na tomada de decisão, melhor interface com os públicos relacionados à
empresa, melhoria na estrutura organizacional, enfim, melhora em todos os
processos de decisão e relacionamento da empresa com o mercado.

FIGURA 2: IMPORTÂNCIA DOS DADOS

Fonte: Plataforma Deduca (2020).

3
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

De acordo Gonçalves (2017), precisamos ter a consciência de como utilizar os


dados; e esses, por sua vez, devem ser tratados com extrema importância, vis-
to que são, em um primeiro momento, tratados de forma bruta.
Segundo Gonçalves (2017, p. 48):

Sem dados não há informação, partindo dessa premissa os dados devem ser
coletados de forma coerente e correta, de preferência em todos os sistemas
da empresa de forma interligada, por exemplo, área de compras, produção,
logística, qualidade, faturamento e fina ceiro.

FIGURA 3: DADOS

Fonte: Plataforma Deduca (2020).

Gonçalves (2017) destaca que, hoje em dia, com cada vez menos, as informa-
ções, os fatos e as devidas decisões precisam ser tomadas com o maior cuida-
do possível. Por isso, a utilização de sistemas que auxiliem a gestão na tomada
de decisão e principalmente no tratamento dos dados que foram coletados
de maneira inicial tem a sua devida importância.

4
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

Fonte: Plataforma Deduca (2020).

Shedroff (1999, p. 272) caracteriza dado como “[...] produto de pesquisa,


criação, coleta e descoberta. É o material bruto que encontramos ou
criamos para construir nossas comunicações”.

4.2 CONCEITO DE DATA MINING


Turban (2009) destaca que a terminologia “Data Mining” era usada para des-
crever o processo no qual padrões anteriormente desconhecidos eram iden-
tificados nos dados. Essa definição também é vista pela maioria dos modelos
de análise de dados.
O termo Data Mining é usado para adicionar valor de vendas na maioria dos
tipos de ferramentas de análise de dados. Embora ele possa ser considerado
novo, suas ideias não são. Muitas das técnicas utilizadas em Data Mining têm,
nas suas bases, uma análise estatística tradicional e inteligência artificial dos
anos 80.
Segundo Turban (2009, p. 153):

[...] os dados na Internet estão crescendo em volume e complexidade.


Grandes volumes de dados genômi os estão sendo reunidos em todo o

5
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

mundo. Pesquisadores médicos e farmacêuticos usam aplicações de data


mining para identificar terapias bem-sucedidas para doenças e descobrir
medicamentos novos e melhorados. No lado comercial, talvez o uso mais
comum de data mining seja nos setores fina ceiro, varejista e da saúde.

FIGURA 4: DATA MINING

Fonte: Plataforma Deduca (2020).

De acordo com Turban (2009, p. 153):

Data mining é o termo usado para descrever a descoberta de informações


em bancos de dados. O data mining é um processo que usa técnicas
estatísticas, matemáticas, de inteligência artificial e de aprendizagem
automática para extrair e identificar informações úteis e conhecimento
subsequente de bancos de dados.

De acordo Turban (2009), o Data Mining se baseia na interface da ciência da


computação e na parte da estatística, utilizando os avanços para progredir
na extração de informações dos bancos de dados considerados grandes. Se-
gundo o autor, pode ser considerado um campo de rápido crescimento e que
está ganhando muito o seu espaço.

6
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

FIGURA 5: DADOS

Fonte: Plataforma Deduca (2020).

O Data Mining pode incluir a extração de conhecimento, a arqueologia de


dados, a parte de exploração dos dados, o processamento de dados, a limpeza
de dados e, como consequência, tem-se a informação.
Segundo Turban (2009, p. 154), as principais características do Data Mining
são:

• Muitas vezes, os dados estão escondidos em bancos de dados muito


grandes que, às vezes, contêm dados de diversos anos. Em muitos casos, os
dados estão limpos e consolidados em um data warehouse.
• O ambiente de data mining geralmente é uma arquitetura cliente/servidor
ou uma arquitetura baseada na Web.
• Novas ferramentas sofistic das, incluindo ferramentas de visualização
avançada, ajudam a remover informações escondidas em arquivos
corporativos ou arquivadas em registros públicos. Descobri-las envolve
mexer e sincronizar os dados para a obtenção dos resultados certos.
Data miners modernos também estão explorando a utilidade dos dados
temporários (ou seja, texto não estruturado armazenado em lugares como
bancos de dados Lotus Notes, arquivos de texto na Internet ou nas intranets
de toda a empresa).
• Muitas vezes, o miner é um usuário final, capacitado por datadrills e
outras ferramentas poderosas de consulta para fazer perguntas ad hoc e
obter respostas rapidamente, requerendo pouca ou nenhuma habilidade de
programação.
• Tirar a sorte grande muitas vezes envolve descobrir um resultado
inesperado e exige que os usuários finais pensem de orma criativa.
• Ferramentas de data mining são facilmente combinadas com planilhas

7
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

e outras ferramentas para desenvolvimento de software. Dessa forma, os


dados extraídos podem ser analisados e processados de maneira rápida e
fácil.
• Devido às grandes quantidades de dados e iniciativas sólidas de pesquisa,
às vezes é necessário usar processamento paralelo para data mining.

4.3 TÉCNICAS E FERRAMENTAS DE DATA MINING


Segundo Turban (2009, p. 161), “existem muitos métodos para realização de
data mining. Um software de data mining pode usar uma ou mais dessas téc-
nicas”. As ferramentas e técnicas do Data Mining são classificadas com base
na estrutura dos dados e algoritmos usados. São divididos em:

• Métodos estatísticos: incluem regressão linear e não linear, uma estimativa


de ponto, teorema de Bayes, correlações e análise de cluster.

• Árvores de decisão: são utilizadas em métodos de classificação e por meio


de grupos. Os seus problemas podem ser divididos em subconjuntos de
maneira progressiva, trabalhando, cada vez mais, de maneira específica.

FIGURA 6: MÉTODOS

Fonte: Plataforma Deduca (2020).

Segundo Turban (2009, p. 162):

8
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

Raciocínio baseado em casos.Essa abordagem usa casos históricos para


reconhecer padrões.Por exemplo, os clientes da Cognitive Systems Inc.
usam essa abordagem para auxiliar nas aplicações de helpdesk.
Computação neural. Redes neurais usam muitos nós relacionados (que
funcionam de maneira semelhante aos neurônios no cérebro humano). Essa
abordagem examina uma quantidade volumosa de dados históricos em
busca de padrões.
Agentes inteligentes. Uma das abordagens mais promissoras para recuperar
informações de bancos de dados, especialmente os externos, é o uso de
agentes inteligentes.
Algoritmos genéticos. Algoritmos genéticos baseiam-se no princípio de
expansão de resultados possíveis.
Outras ferramentas. Muitas outras ferramentas podem ser usadas para data
mining, incluindo indução de regras e visualização de dados. A melhor fonte
de informações sobre o desenvolvimento de novas ferramentas é o site do
fornecedor.

FIGURA 7: RACIOCÍNIO

Fonte: Plataforma Deduca (2020).

De Acordo com Turban (2009, p. 162), podem se classificar por meio do en-
volvendo da parte de identificação de padrões de dados. Elas podem incluir
como exemplo uma aprovação de crédito, uma localização de loja, o marke-
ting direcionado etc.

9
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

De acordo com Turban (2009, p. 163):

• Acurácia preditiva, que se refere à capacidade de o modelo prever corretamente o rótulo


de classe de um dado novo ou previamente despercebido. Para calcular essa precisão, uma
classe de amostras de teste conhecida é combinada com a classe predita pelo modelo.
Então, a precisão pode ser calculada como Taxa de precisão = Porcentagem de amostras
de teste classificadas corretamente pelo modelo. Naturalmente, dependendo do problema,
talvez também estejamos interessados em estimar os erros do modelo em relação à
classificação inadequada específica.
• Velocidade, que se refere aos custos computacionais envolvidos na geração e uso do
modelo.
• Robustez, que é a capacidade do modelo fazer predições certas, dado ruídos ou dados sem
valores.
• Escalabilidade, que se refere à habilidade de criar modelos de modo eficaz, dado uma
grande quantidade de dados.
• Interpretabilidade, que se refere ao nível de entendimento e insight fornecido pelo
modelo.

FIGURA 8: CLASSIFICAÇÕES

Fonte: Plataforma Deduca (2020).

Segundo Turban (2009, p. 163), “a classificação ainda pode ser classificada em:
árvore de decisão, análise estatística, redes neurais, classificador bayesiano,
algoritmos genéticos e teoria dos conjuntos aproximados”.

10
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

4.4 PROJETO DE DATA MINING


Conforme Turban (2009), o processo básico que é proposto é relativamente
semelhante. O primeiro modelo é o Cross-Industry Standard Process for Data
Mining (CRISP-DM). Foi realizada uma proposta, em meados dos anos 90, por
empresas europeias para atuar como um modelo de processo de maneira
padronizada, e não patenteado para Data Mining.

FIGURA 9: CRISP-DM

Fonte: Plataforma Deduca (2020).

O segundo processo que foi proposto para os projetos de Data Mining foi
baseado no Six Sigma. Essa metodologia é bem estruturada e orientada a
dados, para eliminação de defeitos e problemas de controle de qualidade em
todos os níveis, desde a entrega de serviço, a administração, entre outras par-
tes dos negócios.
A Figura 10 representa a parte dos processos do Six Sigmas.

11
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

FIGURA 10: SIX SIGMA

Fonte: Plataforma Deduca (2020).

Segundo Turban (2009, p.174), “E o terceiro, através do SAS Institute, um forne-


cedor de tecnologias e serviços de data mining, propôs um modelo que é um
tanto parecido com o Six Sigma”. Chamado de SEMMA (Sample [selecionar],
Explore [explorar], Modify [modificar], Model [modelar] e Assess [avaliar]), seu
objetivo é na parte técnica de um projeto de Data Mining.
A figura a seguir demonstra o processo por meio do método SEMMA.

FIGURA 11: INFORMAÇÃO

Diante dos três modelos de processos apresentados, o Data Mining é repeti-


tivo, porque os Data Miners devem aprender com a experiência da repetição.
Assim, ele é identificado como sendo todo o processo de descoberta repeti-
tivo.

Realidades do Data Mining segundo Turban (2009, p.175):

1. O Data Mining é um processo com várias etapas que exige projeto


e uso proativos e calculados.
2. A tecnologia atual está pronta para escolher aproximadamente
qualquer negócio.
3. Devido aos avanços na tecnologia de banco de dados, um banco de
dados dedicado não é necessário, embora seja desejável.
4. Ferramentas baseadas na Web mais recentes permitem que
gerentes de todos os níveis educacionais realizem o Data Mining.
5. Se os dados refletem exatamente o negócio ou seus clientes, uma
empresa pode usar o Data Mining.

12
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

FIGURA 12: DADOS

Fonte: Plataforma Deduca (2020).

4.5 TEXT-MINING
De acordo com Turban (2009, p. 177), “Text mining é a aplicação de data mi-
ning em arquivos de texto não estruturados ou menos estruturados. O data
mining aproveita-se da infraestrutura de dados armazenados para extrair
informações adicionais úteis”. Como exemplo abordado pelo autor, ao aplicar
Data Mining a um determinado banco de dados de clientes, o analista pode
descobrir que qualquer pessoa que compra o produto A também compra os
produtos B e C seis meses depois, isso demonstra a verdadeira utilidade e a
responsabilidade por uma boa análise dos dados.

O Text Mining ajuda as empresas a:

1. buscar e encontrar o conteúdo dos documentos, incluindo


questões selecionadas como úteis;
2. associar documentos ao longo de diferentes prévias, de diferentes
clientes;
3. juntar documentos por assuntos em comum.

13
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

FIGURA 13: COMPILAR

Fonte: Plataforma Deduca (2020).

Segundo Turban (2009, p. 178):

o text mining envolve a geração de índices numéricos significati os a partir


de textos não estruturados e, em seguida, processa esses índices, usando
os vários algoritmos de data mining apresentados nas seções anteriores
deste capítulo. Ao criar esses índices numéricos, podemos compactar
documentos segundo conceitos-chave, agrupar documentos com base na
se- melhança, visualizar relações entre documentos, e assim por diante.
De fato, empresas agora estão reconhecendo que um grande recurso de
vantagem competitiva é o conhecimento não estruturado contido em seu
repositório de informações na forma de documentos, memorandos, e-mails,
políticas e procedimentos, minutas de reuniões, etc. Toda essa informação
textual precisa ser codific da e extraída para que as ferramentas preditivas
de data mining possam ajudar a empresa a gerar valor real desses locais de
armazenamento.

Conforme Turban (2009, p. 179), “extração de termo é a forma mais básica


de text mining. Como todas as outras técnicas de data mining, ela mapeia
informações de dados não estruturados em um formato estruturado”.
A sua estrutura de dados de maneira mais simples em Text Mining é o de ve-
tor de características ou também chamado de Lista de palavras ponderada.
As palavras importantes no texto são listadas juntamente a um indicador de

14
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

sua importância relativa. Depois desta separação, no texto composto, há uma


lista de termos e pesos.

FIGURA 14: DESENVOLVIMENTO

Fonte: Plataforma Deduca (2020).

De acordo com Turban (2009, p. 179),

1. Eliminar palavras comumente usadas (o, a, e, outro[a]). Normalmente são


chamadas de stopwords.
2. Substituir as palavras por seus radicais (p.ex., eliminar plural e várias
conjugações e declinações). Nessa etapa, os termos telefonado, telefonando
e telefona seriam mapeados por telefon. Eles são chamados de algoritmos
de stemming.
3. Considerar sinôni os e frases. Palavras que são sinônimas precisam ser
combinadas de al- guma maneira. Por exemplo, estudante e aluno precisam
ser colocados juntos [...].
4. Calcular a relevâ cia dos termos restantes. O método mais comum
é calcular a freq ência com a qual as palavras aparecem. Existem duas
medidas usuais: a freq ência do termo, ou fa- tor tf, mede o número real de
vezes que uma palavra aparece em um documento, e a freq ência inversa
do documento, ou fator idf, indica o número de vezes que a palavra aparece
em todos os documentos de um conjunto [...].

15
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

FIGURA 15: VOLUME DE DADOS

Fonte: Plataforma Deduca (2020).

De acordo com Turban (209, p. 181):

Dado que possivelmente 80% de todos os dados não numéricos que


coletamos e armazenamos estão em forma de texto, é natural que o text
mining esteja surgindo como uma grande área de crescimento. Embora
ainda não tenhamos recursos plenos para processamento de linguagem
natural, já foi feito muito progresso nessa área nos últimos anos. É uma área
onde existe potencial significati o para a próxima geração de aplicações
úteis.

4.6 WEB MINING


Segundo Turban (2009, p. 181), “A Web mining pode ser definida como a des-
coberta e análise de informações úteis e interessantes provenientes da Web,
sobre a Web e, geralmente, através de ferramentas baseadas na Web”. A ter-
minologia Web mining foi utilizada pela primeira vez por Etzioni (1996); nos
dias de hoje, muitas obras e revistas tem o seu foco na nomenclatura Data
Mining da Web.

16
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

FIGURA 16: PROCESSAMENTO

Fonte: Plataforma Deduca (2020).

De acordo com Turban (2009, p. 182), podem ser divididos em três tipos de
Web Mining, os Web Mining de conteúdo no que tange à extração de infor-
mações das páginas Web. Esses documentos são extraídos em algum for-
mato de maneira que se tornem legíveis por máquina, para que as técnicas
automáticas consigam gerar informação sobre as páginas.
Os robôs de pesquisa na Web podem ser utilizados para fazer a leitura de um
website de forma automática. Essa informação disponibilizada de maneira
automática inclui características de documento semelhantes às usadas em
Text Mining, podendo, ainda, incluir conceitos adicionais, como uma hierar-
quia de documento.
Para Turban (2009, p. 182):

Web mining de estrutura refere-se ao desenvolvimento de informações


úteis a partir de links incluídos nos documentos Web. Essa informação
pode ser útil na determinação da popularidade de um documento, um pilar
do algoritmo de classific ção de página que é central para mecanis- mos
de busca como o Google. Da mesma forma que os links que levam a um
documento podem indicar a popularidade do documento, links dentro do
documento podem indicar a profundidade de cobertura de um assunto.

17
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

FIGURA 17: DO REAL PARA O VIRTUAL

Fonte: Plataforma Deduca (2020).

A Web Mining refere-se a uma extração de questões úteis a partir de dados


gerados por meio de nossas visitas e operações nas páginas da Web.
Para Turban (2009, p. 183):

Analisar as informações coletadas pelos servidores Web pode nos ajudar


a entender o comportamento do usuário. Isso geralmente é chamado
de análise de acesso na Web. Através do uso de técnicas de data mining
abordadas anteriormente neste capítulo, uma empresa pode ser capaz de
discernir padrões interessantes a partir do flu o de cliques.

O Web Data Mining ainda pode determinar o tempo de vida dos clientes, defi-
nir as diferentes estratégias para os diferentes produtos e avaliar as diferentes
campanhas promocionais; além de direcionar anúncios para determinados
grupos com base nos acessos às páginas da web, prever o comportamento
do usuário e apresentar informações de forma dinâmica para os usuários com
base nos seus interesses e perfis.

18
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

CONCLUSÃO

Esta unidade objetivou apresentar uma reflexão sobre alguns dos principais
conceitos sobre Data Mining. Devemos estar atentos aos conceitos, pois con-
seguimos colocar em evidências que vivemos em um mundo totalmente co-
nectado, em todas as páginas que acessamos, nas inúmeras vezes que en-
tramos em sites, depois, deparamo-nos com propagandas em outros sites,
mostrando que tínhamos acessado tal conteúdo, isso nos mostra que esta-
mos interligados.
Observe que jamais estamos falando sobre facilidades, e sim sobre diferenciar
e saber utilizar tais informações, estas, hoje em dia, tornam-se, cada vez mais,
valiosas; e saber diferenciar para atender melhor ao seu cliente de maneira
mais assertiva é um dos desafios Assim como saber utilizar as melhores ferra-
mentas é fator de extrema importância.

19
INTELIGÊNCIA DE NEGÓCIOS
GINEAD

REFERÊNCIAS
GONÇALVES, G. R. B. Sistemas de informação. Porto Alegre: SAGAH, 2017.

SHEDROFF, N. Information interaction design: an unified field theory of design. In: JACOBSON,
Robert (Org.) Information design. Massachusetts: The MIT Press, 1999.

TURBAN, E. et al. Business Intelligence: um enfoque gerencial. Porto Alegre: Bookman, 2009.

20

Você também pode gostar