Escolar Documentos
Profissional Documentos
Cultura Documentos
Conceitos Básicos
1
Uma atividade multidisciplinar
1) Mineração de dados tem forte envolvimento com:
a) Banco de dados;
b) Sistemas de informação;
c) Processos;
d) IA
i) reconhecimento de padrões;
ii) regressão;
iii) classificação.
e) Estatística
2
Volume de informação
1) Crescimento anual de 40% no volume de informações;
2) Valor crescente de ativos intangíveis;
a) IPO:Twitter: 1.8 Bi US$; Face: 16 Bi US$;
b) Compra do WhatsApp pelo face: 22 Bi US$;
c) Volvo - vendida por 1.8 Bi US$;
d) Petrobras, atualmente, vale menos de 40 Bi US$ (já valeu 88).
3) Obsolecência acelerada de novas tecnologias;
4) Propriedade intelectual como ativo valioso dentro das empresas;
5) Inovações dirigidas a “recursos” x “conhecimento”;
6) Facebook: ~3bilhões compartilhamento/dia; +500 terabites gerados/dia;
7) Relacionamentos humanos:
3
Relacionamentos Humanos
4
Onde é utilizada?
1) Retenção de clientes ;
2) Relacionamento com clientes (padrões);
3) Controle de fraudes (padrões de fraude);
4) Identificação de padrões de consumo;
5) Identificação de perfil eleitoral;
6) Diagnósticos médicos;
7) Detecção de terroristas;
8) Identificação de melhores currículos;
9) … tende quase ao infinito.
a) Contudo, com um detalhe: a mineração de dados é utilizada para termos riqueza de dados
para que não sejamos pobres de informações.
5
Onde a mineração está inserida?
1) A mineração de dados vem para solucionar um grave problema da “era da
informação” → sobrecarga de dados;
2) Ela faz parte de um processo maior, chamado “descoberta do conhecimento”
(KDD - Knowledge Discovery in Databases) - Fayyad, apesar de que alguns
outros autores consideram a mesma coisa (Rezende, Wang e Han et al.);
a) Eu prefiro seguir a visão de Fayyad, em que KDD é todo processo de descoberta do
conhecimento, e a mineração de dados é uma das atividades do processo;
b) Para Fayyad, Kdd é “um processo não trivial de identificação de novos padrões válidos, úteis
e compreensíveis”;
3) Quais são os passos da descoberta do conhecimento?
6
Passos da descoberta do conhecimento
7
Passos da KDD
1) Seleção dos dados;
2) Pré-processamento;
3) Transformação;
4) Mineração dos dados;
5) Avaliação.
8
Como esses dados são dados?
1) Seguindo um processo
2) Um dos processos mais utilizados pela indústria, atualmente, é o CRISP-DM
(Cross-Industry Standard Process of Data Mining);
3) Esse processo consiste em seis fases organizadas de maneira cíclica.
9
Como esses dados são dados?
10
Fases do CRISP-DM
1) Entendimento dos Negócios: Nessa etapa, o foco é entender qual o objetivo
que se deseja atingir com a mineração de dados. O entendimento do negócio
irá ajudar nas próximas etapas.
2) Entendimento dos Dados: As fontes fornecedoras dos dados podem vir de
diversos locais e possuírem diversos formatos. Segundo Olson et al., após
definis os objetivos, é necessário conhecer os dados visando:
a) Descrever de forma clara o problema;
b) Identificar os dados relevantes para o problema em questão;
c) Certificar-se de que as variáveis relevantes para o projeto não são interdependentes.
12
Fases do CRISP-DM
5 - Avaliação: Considerada uma fase crítica do processo de mineração, nesta
etapa é necessária a participação de especialistas nos dados, conhecedores do
negócio e tomadores de decisão. Diversas ferramentas gráficas são utilizadas
para a visualização e análise dos resultados (modelos). Testes e validações,
visando obter a confiabilidade nos modelos, devem ser executados
(cross-validation, suplied test set, use training set, percentage split) e indicadores
para auxiliar a análise dos resultados precisam ser obtidos (matriz de confusão,
índice de correção e incorreção de instâncias mineradas, estatística kappa, erro
médio absoluto, erro relativo médio, precisão, F-measure, Recall, AUC, ROC,
dentre outros).
13
Fases do CRISP-DM
6 - Distribuição: Após executado o modelo com os dados reais e completos é
necessário que os envolvidos conheçam os resultados.
14
Sua atividade
Vamos começar a pensar em Mineração de Dados.
15
Próximos passos
trabalhar data minning, data smart e big data
16