Você está na página 1de 16

Mineração de Dados

Conceitos Básicos

1
Uma atividade multidisciplinar
1) Mineração de dados tem forte envolvimento com:
a) Banco de dados;
b) Sistemas de informação;
c) Processos;
d) IA
i) reconhecimento de padrões;
ii) regressão;
iii) classificação.
e) Estatística

2
Volume de informação
1) Crescimento anual de 40% no volume de informações;
2) Valor crescente de ativos intangíveis;
a) IPO:Twitter: 1.8 Bi US$; Face: 16 Bi US$;
b) Compra do WhatsApp pelo face: 22 Bi US$;
c) Volvo - vendida por 1.8 Bi US$;
d) Petrobras, atualmente, vale menos de 40 Bi US$ (já valeu 88).
3) Obsolecência acelerada de novas tecnologias;
4) Propriedade intelectual como ativo valioso dentro das empresas;
5) Inovações dirigidas a “recursos” x “conhecimento”;
6) Facebook: ~3bilhões compartilhamento/dia; +500 terabites gerados/dia;
7) Relacionamentos humanos:

3
Relacionamentos Humanos

4
Onde é utilizada?
1) Retenção de clientes ;
2) Relacionamento com clientes (padrões);
3) Controle de fraudes (padrões de fraude);
4) Identificação de padrões de consumo;
5) Identificação de perfil eleitoral;
6) Diagnósticos médicos;
7) Detecção de terroristas;
8) Identificação de melhores currículos;
9) … tende quase ao infinito.
a) Contudo, com um detalhe: a mineração de dados é utilizada para termos riqueza de dados
para que não sejamos pobres de informações.

5
Onde a mineração está inserida?
1) A mineração de dados vem para solucionar um grave problema da “era da
informação” → sobrecarga de dados;
2) Ela faz parte de um processo maior, chamado “descoberta do conhecimento”
(KDD - Knowledge Discovery in Databases) - Fayyad, apesar de que alguns
outros autores consideram a mesma coisa (Rezende, Wang e Han et al.);
a) Eu prefiro seguir a visão de Fayyad, em que KDD é todo processo de descoberta do
conhecimento, e a mineração de dados é uma das atividades do processo;
b) Para Fayyad, Kdd é “um processo não trivial de identificação de novos padrões válidos, úteis
e compreensíveis”;
3) Quais são os passos da descoberta do conhecimento?

6
Passos da descoberta do conhecimento

7
Passos da KDD
1) Seleção dos dados;
2) Pré-processamento;
3) Transformação;
4) Mineração dos dados;
5) Avaliação.

E enfim, o conhecimento transformado

8
Como esses dados são dados?
1) Seguindo um processo
2) Um dos processos mais utilizados pela indústria, atualmente, é o CRISP-DM
(Cross-Industry Standard Process of Data Mining);
3) Esse processo consiste em seis fases organizadas de maneira cíclica.

9
Como esses dados são dados?

10
Fases do CRISP-DM
1) Entendimento dos Negócios: Nessa etapa, o foco é entender qual o objetivo
que se deseja atingir com a mineração de dados. O entendimento do negócio
irá ajudar nas próximas etapas.
2) Entendimento dos Dados: As fontes fornecedoras dos dados podem vir de
diversos locais e possuírem diversos formatos. Segundo Olson et al., após
definis os objetivos, é necessário conhecer os dados visando:
a) Descrever de forma clara o problema;
b) Identificar os dados relevantes para o problema em questão;
c) Certificar-se de que as variáveis relevantes para o projeto não são interdependentes.

Normalmente as técnicas de agrupamento e de exploração visual também são


utilizadas nesta etapa.
11
Fases do CRISP-DM
3 - Preparação dos Dados: Devido às diversas origens possíveis, é comum que
os dados não estejam preparados para que os métodos de Mineração de Dados
sejam aplicados diretamente. Dependendo da qualidade desses dados, algumas
ações podem ser necessárias. Este processo de limpeza dos dados geralmente
envolve filtrar, combinar e preencher valores vazios.

4 - Modelagem: É nesta fase que as técnicas (algoritmos) de mineração serão


aplicadas. A escolha da(s) técnica(s) depende dos objetivos desejados;

12
Fases do CRISP-DM
5 - Avaliação: Considerada uma fase crítica do processo de mineração, nesta
etapa é necessária a participação de especialistas nos dados, conhecedores do
negócio e tomadores de decisão. Diversas ferramentas gráficas são utilizadas
para a visualização e análise dos resultados (modelos). Testes e validações,
visando obter a confiabilidade nos modelos, devem ser executados
(cross-validation, suplied test set, use training set, percentage split) e indicadores
para auxiliar a análise dos resultados precisam ser obtidos (matriz de confusão,
índice de correção e incorreção de instâncias mineradas, estatística kappa, erro
médio absoluto, erro relativo médio, precisão, F-measure, Recall, AUC, ROC,
dentre outros).

13
Fases do CRISP-DM
6 - Distribuição: Após executado o modelo com os dados reais e completos é
necessário que os envolvidos conheçam os resultados.

14
Sua atividade
Vamos começar a pensar em Mineração de Dados.

1) Vamos dar nosso primeiro passo rumo a descoberta do conhecimento;


a) Seu primeiro passo é selecionar uma (ou mais que uma) base de dados;
i) Muito importante - anote - grave qual sua fonte, qual origem, qual versão, pública ou
privada ...
b) Seu segundo dado é selecionar os dados, preparar um conjunto de dados bruto, para após
isso, aplicarmos nossas técnicas de pré-processamento.
2) Os dados brutos que precisam ser coletados são:
a) Todos os dados pessoais possíveis dos candidatos da última eleição (2014), com informações
sobre partidos, votos (chegando até sessão eleitoral por cidade, estado, região), informações
de doações (quem e quanto), partido, coligações...

15
Próximos passos
trabalhar data minning, data smart e big data

ferramentas de big data

trabalhar - dados da dissertação +


http://www.portal.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_0
01-09.pdf

16

Você também pode gostar