Escolar Documentos
Profissional Documentos
Cultura Documentos
Mineração de Dados
Motivos que Potencializam o Uso da Mineração de Dados
Grande volume de dados disponível
Dados estão sendo organizados
Recursos computacionais cada vez mais potentes
Competição empresarial exige técnicas mais modernas de decisão
Programas comerciais de mineração de dados já podem ser adquiridos
Escalabilidade
Alta dimensionalidade
Dados complexos e heterogêneos
Propriedade e distribuição dos dados
Análises não tradicionais
Definições
Data Mining é o processo de identificar informações relevantes em grandes conglomerados
de dados em bancos de dados ou outros repositórios de informações
Data Mining é entendido como um passo da descoberta de conhecimento,
independentemente se será sobre uma base de dados ou sobre quaisquer outros repositórios
de conhecimento
Mineração de Dados é um campo interdisciplinar que reúne técnicas de aprendizado de
máquina, reconhecimento de padrões, estatísticas, banco de dados e visualização para
extrair informações úteis em meio aos amontoados de dados.
Análise de Dados
Este texto aborda a extração de informações a partir de grandes bases de dados, utilizando
técnicas de mineração de dados.
Data mining é definido como o processo não trivial de identificar padrões válidos, novos,
potencialmente úteis e compreensíveis em dados.
Mineração de dados é a análise de conjuntos de dados que tem por objetivo a descoberta de
padrões interessantes e que possam representar informações úteis.
A mineração de dados é feita através de algoritmos que encontram padrões ou modelos nos
dados.
Um conceito proposto em uma edição antiga do livro "Data Mining Techniques" define mineração
de dados como a exploração e análise, por meios automáticos ou semiautomáticos, de grandes
quantidades de dados a fim de descobrir padrões e regras significativas.
Na edição mais atual do livro, a mineração de dados é definida como um processo de negócio que
permite explorar grandes quantidades de dados para descobrir padrões e regras significativas.
Conhecimento Indutivo
O Data Mining apoia o conhecimento indutivo, que descobre novas regras e padrões nos
dados fornecidos.
Análise de Outliers
A análise de outliers é uma atividade em Data Mining que busca encontrar conjuntos de dados
que não obedecem ao comportamento ou modelo dos dados. Esses conjuntos podem ser tratados
ou descartados para utilização em mining. A presença de outliers pode induzir a tendências,
médias estatísticas e padrões distorcidos.
Exploração de Dados
Este texto aborda o processo de análise de dados, com foco na etapa de preparação e mineração
de dados.
Preparação de dados
Etapa que prepara os dados antes de serem submetidos às técnicas de Data Mining
Seleciona, purifica e pré-processa os dados
É executado sob a supervisão de um especialista
Data Mining
Etapa em que os dados preparados são processados
Objetivo de identificar padrões de comportamento e associações
Informações obtidas podem levar a criação de novos planos de marketing e aumentar a
satisfação de clientes
Técnicas são aplicadas para identificação de padrões sobre os dados disponíveis em meios
digitais
Análise de Dados
Etapa em que o resultado do Data Mining é avaliado para determinar se algum
conhecimento adicional foi descoberto e definir a importância dos fatos gerados
Várias formas de análise podem ser utilizadas
Processo de KDD
Proposta de processo de KDD (TERRA, 2000) apresenta as etapas de Necessidade,
Preparação, Objetivos de Data Mining, Mineração, Interpretação/Avaliação, e Conhecimento
do Usuário
Visão de Cavalcanti (2012) inclui as etapas de Limpeza e Seleção, Integração e
Transformação, Mineração de Padrões, Data Warehouse, Bancos de Dados, e Avaliação e
Representação do Conhecimento
Exploração de Dados
Tipos de dados e ferramentas de Data Discovery e Mining
Os dados podem ser estruturados, não estruturados ou uma mistura de ambos.
As ferramentas de Data Discovery possuem conectividade para todas essas origens de dados
de forma segura e controlada.
Estima-se que, atualmente, em média, 80% de todos os dados disponíveis são do tipo não
estruturado.
Existem diversas ferramentas open source e comerciais de Data Discovery e Mining.
As ferramentas de Data Mining permitem ao usuário avaliar tendências e padrões não
conhecidos entre os dados.
Esses tipos de ferramentas podem utilizar técnicas avançadas de computação como redes
neurais, árvores de decisão, algoritmos genéticos e lógica nebulosa, dentre outras.
Entendimento do Negócio
Seleção dos Dados
Limpeza dos Dados
Modelagem dos Dados
Avaliação do Processo
Observações:
A sequência dessas fases não é obrigatória e pode ocorrer a transição para diferentes fases,
dependendo dos resultados de cada fase.
As setas indicam as dependências mais importantes e frequentes entre as fases.
O ciclo externo na figura simboliza o ciclo natural da mineração de dados, em que processos
subsequentes se beneficiarão das experiências de processos anteriores.
Entendimento do Negócio
Compreensão dos Dados
Preparação dos Dados
Modelagem
Avaliação
Implantação
Metodologia CRISP-DM
CRISP-DM é uma metodologia para projetos de mineração de dados
Inclui descrições de fases típicas de um projeto, tarefas em cada fase e explicação dos
relacionamentos entre elas
É composto por 6 fases: Entendimento do Negócio, Seleção dos Dados, Preparação dos
Dados, Modelagem dos Dados, Avaliação do Processo e Execução
Cada fase é composta por tarefas genéricas subdivididas em tarefas especializadas
O objetivo é gerar um modelo que atenda às expectativas da organização
As fases não possuem uma sequência restrita
Análise Descritiva: - Área de investigação nos dados que busca descrever fatos relevantes e
analisar a base de dados para validar o processo da mineração e seus resultados. - Sub-
funcionalidades incluem análise prévia, descobrimento, análise de outliers, classificação,
visualização, análise de associações, agrupamento, descrição, detecção de sequências,
segmentação, sumarização e visualização, e otimização. Análise de Prognóstico: - Área de
investigação nos dados que busca inferir resultados a partir dos padrões encontrados na análise
descritiva. - Parte de uma série de valores obtidos de dados históricos bem como de suposições
controladas a respeito das condições futuras, para prever outros valores e situações que
ocorrerão e planejar ações organizacionais. - A mineração de dados pode mostrar como certos
atributos dos dados se comportarão no futuro. - Questão do concurso CESPE/TCE-SC/AUDITOR
FISCAL DE CONTROLE EXTERNO/2016 aborda a realização de prognósticos por meio de
técnicas de mineração de dados.
Classificação: - Técnica muito utilizada na mineração de dados. - Consiste em atribuir uma das
classes predefinidas pelo analista a novos fatos ou objetos submetidos à classificação. - Pode ser
utilizada tanto para entender dados existentes quanto para prever como novos dados irão se
comportar. - Exemplos de aplicações incluem classificação de clientes em baixo, médio ou alto
risco de empréstimo bancário e classificação de transações financeiras como legais, ilegais ou
suspeitas em sistemas de fiscalização do mercado financeiro. - É um processo de aprendizado
supervisionado e a qualidade de uma descrição estrutural de classificação pode ser avaliada com
a utilização de novos dados com classes já conhecidas. - O sucesso é medido subjetivamente em
muitas situações práticas.
Os objetos anômalos são conhecidos como fatores elementos estranhos e ficam longe dos outros
pontos de dados.
Embora objetos ou eventos diferentes sejam raros, isto não significa que eles não ocorram com
frequência em termos absolutos.
Um evento "um em um milhão" pode ocorrer milhões de vezes quando bilhões de eventos são
considerados.
A análise de dados pode ser utilizada para prever eventos futuros e fazer recomendações
baseadas em padrões encontrados em dados históricos.
Utilizando-se uma base de dados de compras em um supermercado, pode-se obter quais
itens são comprados juntos com uma certa frequência, como fralda e cerveja, cereal e leite.
Normalmente, obtém-se muito mais regras de associação do que regras de classificação,
devido às diferenças entre as tarefas.
A análise de regressão busca explicar uma ou várias variáveis de interesse em função de
outras. É possível realizar predições ou calcular probabilidades a partir do modelo
construído.
A regressão é considerada uma variação da classificação, pois prevê um valor numérico
contínuo ao invés de um valor categórico.
A árvore de decisão é um modelo preditivo que pode ser visualizado na forma de uma
árvore. Cada ramo da árvore é uma questão de classificação e cada folha é uma partição do
conjunto de dados com sua classificação.
As árvores de decisão podem ser usadas com sistemas de classificação para atribuir
informação de tipo em Data Mining.
Na técnica de árvore de decisão em Data Mining, é empregada a abordagem denominada
estratificação, permitindo separar os dados levantados em grupos distintos.
As árvores de decisão têm sido muito utilizadas pelos softwares de mineração de dados, pois
possuem uma representação intuitiva e fácil de ser interpretada.
É possível utilizar a árvore de decisão para indicar se uma pessoa é rica ou não com base
nos seus outros atributos, os atributos preditivos.
As regras de associação são usadas para descobrir padrões entre diferentes itens em um
conjunto de dados
As redes neurais artificiais são técnicas que procuram reproduzir de maneira simplificada as
conexões do sistema biológico neural
A lógica nebulosa (fuzzy logic) é uma teoria matemática que permite uma modelagem do
modo aproximado de raciocínio, imitando a habilidade humana de tomar decisões em
ambientes de incertezas e imprecisão
Data Mining é bem mais complexo que OLAP, uma vez que busca padrões em grandes
volumes de dados por meio de técnicas estatísticas e de algoritmos de inteligência artificial
Com o uso da Mineração de dados (Data Mining), é possível descobrir informações
relacionadas a associações, sequências, classificação, aglomeração e prognósticos
Aprendizado de Máquina
Aprendizado de máquina é uma subárea da inteligência artificial que surgiu da ideia de criar
programas que aprendam um determinado comportamento ou padrão automaticamente a
partir de exemplos ou observações.
Algoritmos de aprendizado automático extraem um padrão de comportamento a partir de
dados (exemplos).
Ambas as áreas emprestam muitos métodos da área de estatística.
Resumo Detalhado
Análise de Dados
Aglomeração (clustering) é uma ferramenta de Data Mining que descobre diferentes
agrupamentos dentro da massa de dados.
Por exemplo, pode encontrar grupos de afinidades para cartões bancários ou dividir o banco
de dados em categorias de clientes com base na demografia e em investimentos pessoais.
Prognóstico é uma aplicação que utiliza previsões para planejar e preparar ações
organizacionais.
Parte-se de uma série de valores existentes obtidos de dados históricos bem como de
suposições controladas a respeito das condições futuras, para prever outros valores e
situações que ocorrerão e, assim, planejar e preparar as ações organizacionais.
Por exemplo, um prognóstico pode descobrir padrões nos dados que ajudam os gerentes a
estimar o valor futuro de variáveis com números de vendas.
Características dos Conjuntos de Dados
As três características que possuem um impacto significativo sobre as técnicas de
mineração de dados são dimensão, dispersão e resolução.
Dimensão está relacionada à quantidade de atributos de um conjunto de dados.
Resolução está relacionada à granularidade dos dados.
Dispersão ocorre quando, para um atributo relevante, a maioria dos valores é NULL
(desconhecido) ou um valor padrão.
Aprendizado de Máquina
Aprendizado de máquina é uma subárea da inteligência artificial que surgiu da ideia de criar
programas que aprendam um determinado comportamento ou padrão automaticamente a
partir de exemplos ou observações.
Algoritmos de aprendizado automático extraem um padrão de comportamento a partir de
dados (exemplos).
Ambas as áreas emprestam muitos métodos da área de estatística.
Seres humanos (e outros animais) são capazes de generalizar a partir de exemplos.
Exemplos de utilização incluem desenvolver sistemas que são muito difíceis/caros de
construir manualmente porque requerem conhecimentos detalhados de uma determinada
tarefa, desenvolver sistemas que possam se adaptar a usuários individualmente, sistemas de
educação personalizados e extrair conhecimento de grandes bases de dados (mineração de
dados).
Text Mining envolve a criação de índices numéricos a partir de dados não estruturados e a
aplicação dos algoritmos de Data Mining a esses índices.
Text Mining não é a mesma coisa que mecanismos de busca na web.
Componentes de um sistema de Text Mining incluem: um sistema para o manuseio de
documentos em diversos formatos, componentes para processar esses documentos e criar
arquivos de dados que possam ser explorados e ferramentas de Data Mining.
Já existem algumas ferramentas proprietárias para mineração de textos que estejam
contidos em conteúdos da web, livros, comentários de blogs, etc. Exemplos: Apache Mahout,
SAS Text Miner e demais relacionadas com a linguagem R, porém não são aplicáveis
diretamente a NoSQL.
Os novos modelos de bases de dados NoSQL não possuem uma estrutura formal, não
fornecem acesso via SQL, são distribuídos e prometem maior escalabilidade e desempenho,
criando uma lacuna em termos de análise de dados.
O livro eletrônico é licenciado para PABLO HENRIQUE DA SILVA - 12089217626, vedada,
por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição,
sujeitando-se aos infratores à responsabilização civil e criminal.
Exploração de Dados e Mineração de Texto
A análise de conjuntos de dados tem como objetivo a descoberta de padrões relevantes e
informações úteis automaticamente.
A mineração de dados é um processo de negócio que usa técnicas da matemática,
estatística, computação e inteligência artificial para explorar grandes quantidades de dados
em busca de padrões e regras significativas.
A dispersão é uma característica dos conjuntos de dados relacionada à quantidade de
atributos relevantes com valores desconhecidos ou padrões.
A mineração de texto é a aplicação de data mining em arquivos não estruturados ou menos
estruturados.
O CRISP-DM Process Model é composto por fases: entendimento do negócio, seleção dos
dados, limpeza dos dados, modelagem dos dados, avaliação do processo e execução.
A classificação é uma técnica de mineração de dados que envolve aprendizado
supervisionado, enquanto a clusterização é uma técnica de mineração de dados que envolve
aprendizado não supervisionado.
As regras de associação são um tipo de mineração de dados que indicam a probabilidade de
dois eventos ocorrerem em conjunto.
Detecção de anomalias: - Outliers ou anomalias são padrões nos dados que não estão de acordo
com uma noção bem definida de comportamento normal. - Envolve procurar por outliers nos
conjuntos de dados, possuindo aplicações principalmente na área de detecção de fraudes. - Pode
funcionar em conjunto com os diferentes tipos de aprendizado. - Exemplo de algoritmo: K-
Nearest Neighbor.