Escolar Documentos
Profissional Documentos
Cultura Documentos
Minerao de Dados
Algumas Perguntas
Que livros um cliente da Amazon gostaria de comprar ? seguro dar crdito em dinheiro a uma determinada pessoa ? possvel detectar o roubo de um carto de crdito pelo seu uso ?
Mas ...
O Modelo DIKW
Definio
DIKW
Contexto Compreenso
Definio
DIKW
Desta forma, a hierarquia DIKW um modelo terico que se mostra til na anlise e no entendimento da importncia e limites das atividades dos trabalhadores do conhecimento.
Dados e Informao
Ex. Neva
Informao: compreenso de uma relao ou contextualizao de dados. Por exemplo, uma relao de causa e efeito.
Conhecimento e Sabedoria
Compreenso de um padro que normalmente permite deduzir o que acontecer ou identificar algo descrito por um conjunto de fatos ou smbolos.
Ex. Se a umidade do ar est muito elevada e a temperatura cai a 40C, ento a atmosfera muito provavelmente no consegue segurar as gotculas de gua e ento estas gotculas congelam durante a queda e neva.
Agrega mais que um entendimento de princpios fundamentais encorporados ao conhecimento que so essencialmente a base para o conhecimento que faz o que ele .
10
Frank Zappa fez aluso a hierarquia em 1979 ["Packard Goose" in album Joe's Garage: Act II & III (Tower Records, 1979)]:
Information is not knowledge, Knowledge is not wisdom, Wisdom is not truth, Truth is not beauty, Beauty is not love, Love is not music, and Music is THE BEST.
11
Compreenso exige diagntico e prescrio, que considera serem mais que "conhecimento" menos que sabedoria. Enquanto as informaes agem rapidamente, o conhecimento tem uma vida mais longa e compreenso tem apenas uma aura de permanncia. Sabedoria considerada como "permanente" no verdadeiro sentido.
12
DIKW
13
Pirmide de Conhecimento
Renda(R), Despesas(D)
14
Pirmide de Conhecimento
Capac _ Endiv
100 R D R
Renda(R), Despesas(D)
15
Pirmide de Conhecimento
Capac _ Endiv
100 R D R
Renda(R), Despesas(D)
16
Pirmide de Conhecimento
Deciso de dar ou no crdito ao cliente Clientes com capacidade de endividamento maior que 60% tm crdito imediato
Capac _ Endiv
100 R D R
Renda(R), Despesas(D)
17
Considere:
I have a box. The box is 3' wide, 3' deep, and 6' high. The box is very heavy. The box has a door on the front of it. When I open the box it has food in it. It is colder inside the box than it is outside. You usually find the box in the kitchen. There is a smaller compartment inside the box with ice in it. When you open the door the light comes on. When you move this box you usually find lots of dirt underneath it. Junk has a real habit of collecting on top of this box. What is it?
18
Pirmide de Conhecimento
Os dados so os elementos atravs dos quais possvel se obter informao Com informao possvel construir conhecimento
Minerao de Dados Atravs da investigao dos dados podemos chegar a descoberta do conhecimento
19
Minerao de Dados
Termo recente aplicado a confluncia de idias de estatstica e cincia da computao Terminologia tambm no padronizada Estatstica em grandes bases de dados Reconhecimento de padres Descoberta de conhecimento
20
10
Definio do Termo
Minerao de Dados o processo de descoberta de novas e significativas correlaes, padres e tendncias em grandes volumes de dados, atravs do uso de tcnicas e reconhecimento de padres, estatstica e outras ferramentas matemticas. Gartner Group
21
Definio do Termo
Multidisciplinaridade
Estatstica Aprendizado de Mquina e Inteligncia Computacional Banco de Dados Reconhecimento de Padres
22
11
Outra Definio
Padres devem ser teis (novos e vlidos) Padres podem ser inesperados Limpeza de dados Visualizao Warehousing
23
24
12
Data Warehouse
Data Mining
Descoberta de Conhecimento em BD
KDD: Knowledge Discovery in Database Existem nomes tais como: knowledge discovery in database, data mining, knowledge extraction, information discovery, data archaelogy, information harvesting e ainda data pattern processing
26
13
Descoberta de Conhecimento em BD
27
Descoberta de Conhecimento em BD
28
14
Descoberta de Conhecimento em BD
29
Descoberta de Conhecimento em BD
30
15
Descoberta de Conhecimento em BD
31
Descoberta de Conhecimento em BD
32
16
Descoberta de Conhecimento em BD
33
Descoberta de Conhecimento em BD
34
17
Descoberta de Conhecimento em BD
35
Descoberta de Conhecimento em BD
36
18
Caracterizao do Processo
37
Caracterizao do Processo
Problema
Conjunto de Dados
Aspecto Intensional estrutura dos dados Aspecto Extensional Casos ou registros
Especialista no Domnio
Representa pessoa que conhece o assunto
Objetivos da Aplicao
Caractersticas esperadas do modelo Exemplo: preciso mnima de 85% ao conceder crdito Podem no estar muito claros no incio do processo
38
19
Caracterizao do Processo
Recursos Disponveis
Dev Identificar e utilizar Especialista em KDD conhecimento a priori sobre o problema Ferramenta de KDD Escolher ferramentas e Ambiente de Minerao de Dados mtodos Algoritmos Isolados Direcionar as aes do processo Plataforma Computacional Conduzir a avaliao dos resultados Hardware
Caracterizao do Processo
Resultados Obtidos
Modelo de Conhecimento
Deve ser avaliado com relao ao cumprimento das expectativas definidas nos objetivos Usado para comparaes
Histricos
Como os modelos de conhecimento foram gerados Melhor controle do processo Permitem anlise e reviso das aes realizadas
40
20
Macroobjetivos e Orientaes
Macroobjetivos
Predio permite fazer previso a partir de histricos Descrio permite descrever o conhecimento existente na base
41
Aplicaes
Bancria (aprovao de crdito), Cincias e medicina (descoberta de hipteses, diagnstico, classificao, predio), Comerciais (segmentao, localizao de consumidores, identificao de hbitos de consumo), Engenharia (simulao e anlise, reconhecimento de padres, processamento de sinais e planejamento), Financeira (apoio para investimentos, controle de carteira de aes), Gerencial (tomadas de deciso, gerenciamento de documentos), Internet(ferramentas de busca, navegao, extrao de dados), Manufatura(modelagem e controle de processos, controle de qualidade, alocao de recursos), Segurana(deteco de bombas, icebergs e fraudes) etc. Anlise de Churn
42
21
Bibliografia do Curso
Passos, Emmanuel; Goldschmidt, Ronaldo: Data Mining Um Guia Prtico, Editora Campus Witten, Ian H.; Frank, Eibe: Data Mining, Elsevier AMARAL,F.C.N. Data Mining: Tcnicas e Aplicaes para o Marketing Direto. So Paulo: Editora Berkeley, 2001. BUSSAB,W.O. , MORETTIN,P.A. Estatstica Bsica. 5.ed. So Paulo: Editora Saraiva, 2002. BUSSAB,W.O. , MIAZAKI,.S. ANDRADE,D.F. Introduo Anlise de Agrupamentos. So Paulo: 9 Simpsio Nacional de Probabilidade e Estatstica, 1990. BERRY,M.J.A., LINOFF,G. Data Mining Techniques For Marketing, Sales and Customer Support. 2a. ed. New York: John Wiley & Sons, Inc., 2004. CARVALHO,L.A.V. Datamining A Minerao de Dados no Marketing, Medicina, Economia, Engenharia e Administrao. So Paulo: Editora rica, 2001. DINIZ,C.A.R. , NETOF.L. Data Mining: Uma Introduo. So Paulo: XIV Simpsio Nacional de Probabilidade e Estatstica. IME-USP, 2000. FERNADEZ,G. Data Mining Using SAS Applications. New York: Editora Chapman & Hall/CRC, 2003. HAN, J. , KAMBER, M.. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann Publishers, 2001. KLSGEN,W. , ZYTKOW, J.M.. Handbook of Data Mining and Knowledge Discovery. New York: Oxford University Press, Inc., 2002. MANLY,B.F.J. Multivariate Statistical Methods: a Primer. 3.ed. New York: Chapman & Hall, 2005. Oliveira, I. (2003). Correlated Data in Multivariate Analysis. Ph.D Thesis, University of Aberdeen. Jolliffe, I.T. (2002). Principal Component Analysis. Springer Verlag New York Inc. Christensen, R. (1997). Log-linear models and logistic regression. NY: Springer-Verlag. P. McCullagh and J.A. Nelder, Generalized Linear Models 2nd edition, Chapman & Hall 1997
43
Software
WEKA http://www.cs.waikato.ac.nz/ml/weka/
44
22