Você está na página 1de 22

Minerao de Dados Introduo

Minerao de Dados

Introduo Definies Descoberta de Conhecimento em Base de Dados Aplicaes

Algumas Perguntas

Que livros um cliente da Amazon gostaria de comprar ? seguro dar crdito em dinheiro a uma determinada pessoa ? possvel detectar o roubo de um carto de crdito pelo seu uso ?

Mas ...

O Modelo DIKW

Definio

DIKW

Data (Dados) Information (Informao) Knowledge (Conhecimento) Wisdom (Sabedoria)

Hierarquia relacionada a conceitos sobre conhecimento Conceitos so encadeados definindo


Contexto Compreenso

Definio

DIKW

Os seus componentes em ordem crescente de importncia:


Dados (Data) o nvel mais bsico; Informao (Information) acrescenta contexto e significado aos dados; Conhecimento (Knowledge) acrescenta a forma como usar adequadamente a informao; Sabedoria (Wisdow) acrescenta o entendimento de quando utiliz-los.

Desta forma, a hierarquia DIKW um modelo terico que se mostra til na anlise e no entendimento da importncia e limites das atividades dos trabalhadores do conhecimento.

Representao por Eixo

Dados e Informao

Dados: um smbolo, um fato ou evento sem relao com outras coisas.

Ex. Neva

Informao: compreenso de uma relao ou contextualizao de dados. Por exemplo, uma relao de causa e efeito.

Ex. A temperatura caiu 8 graus e ento comeou a nevar.

Conhecimento e Sabedoria

Compreenso de um padro que normalmente permite deduzir o que acontecer ou identificar algo descrito por um conjunto de fatos ou smbolos.

Ex. Se a umidade do ar est muito elevada e a temperatura cai a 40C, ento a atmosfera muito provavelmente no consegue segurar as gotculas de gua e ento estas gotculas congelam durante a queda e neva.

Agrega mais que um entendimento de princpios fundamentais encorporados ao conhecimento que so essencialmente a base para o conhecimento que faz o que ele .
10

A origem da Data Information Knowledge Wisdom

Frank Zappa fez aluso a hierarquia em 1979 ["Packard Goose" in album Joe's Garage: Act II & III (Tower Records, 1979)]:

Information is not knowledge, Knowledge is not wisdom, Wisdom is not truth, Truth is not beauty, Beauty is not love, Love is not music, and Music is THE BEST.

11

Hierarquia de Ackoff: Data-InformationKnowledge-Understanding & Wisdom

Compreenso exige diagntico e prescrio, que considera serem mais que "conhecimento" menos que sabedoria. Enquanto as informaes agem rapidamente, o conhecimento tem uma vida mais longa e compreenso tem apenas uma aura de permanncia. Sabedoria considerada como "permanente" no verdadeiro sentido.

12

DIKW

December 1982 issue of THE FUTURIST.

13

Pirmide de Conhecimento

Renda(R), Despesas(D)

14

Pirmide de Conhecimento

Capac _ Endiv

100 R D R

Renda(R), Despesas(D)

15

Pirmide de Conhecimento

Clientes com capacidade de endividamento maior que 60% tm crdito imediato

Capac _ Endiv

100 R D R

Renda(R), Despesas(D)

16

Pirmide de Conhecimento

Deciso de dar ou no crdito ao cliente Clientes com capacidade de endividamento maior que 60% tm crdito imediato

Capac _ Endiv

100 R D R

Renda(R), Despesas(D)

17

Considere:

I have a box. The box is 3' wide, 3' deep, and 6' high. The box is very heavy. The box has a door on the front of it. When I open the box it has food in it. It is colder inside the box than it is outside. You usually find the box in the kitchen. There is a smaller compartment inside the box with ice in it. When you open the door the light comes on. When you move this box you usually find lots of dirt underneath it. Junk has a real habit of collecting on top of this box. What is it?

18

Pirmide de Conhecimento

Os dados so os elementos atravs dos quais possvel se obter informao Com informao possvel construir conhecimento
Minerao de Dados Atravs da investigao dos dados podemos chegar a descoberta do conhecimento
19

Minerao de Dados

No h consenso sobre definio


Termo recente aplicado a confluncia de idias de estatstica e cincia da computao Terminologia tambm no padronizada Estatstica em grandes bases de dados Reconhecimento de padres Descoberta de conhecimento

Definies podem ser restritas ou abrangentes


20

10

Definio do Termo
Minerao de Dados o processo de descoberta de novas e significativas correlaes, padres e tendncias em grandes volumes de dados, atravs do uso de tcnicas e reconhecimento de padres, estatstica e outras ferramentas matemticas. Gartner Group

21

Definio do Termo

Multidisciplinaridade
Estatstica Aprendizado de Mquina e Inteligncia Computacional Banco de Dados Reconhecimento de Padres

22

11

Outra Definio

Descoberta de novos padres em bancos de dados


Padres devem ser teis (novos e vlidos) Padres podem ser inesperados Limpeza de dados Visualizao Warehousing

Pode envolver um conjunto de tcnicas auxiliares


Podemos agregar essas tcnicas auxiliares em uma definio mais abrangente ?

23

Podemos Estender a Definio ?

A descoberta do conhecimento se resume apenas a anlise dos dados ?


No mundo real os dados no esto prontos para serem prontamente analisados Ser humano necessita de formas intuitivas para visualizar resultados

24

12

Data Warehouse

Data Mining

Na grande empresa, a memria o data warehouse, enquanto a inteligncia o data mining


25

Descoberta de Conhecimento em BD
KDD: Knowledge Discovery in Database Existem nomes tais como: knowledge discovery in database, data mining, knowledge extraction, information discovery, data archaelogy, information harvesting e ainda data pattern processing

26

13

Descoberta de Conhecimento em BD

27

Descoberta de Conhecimento em BD

28

14

Descoberta de Conhecimento em BD

29

Descoberta de Conhecimento em BD

30

15

Descoberta de Conhecimento em BD

31

Descoberta de Conhecimento em BD

32

16

Descoberta de Conhecimento em BD

33

Descoberta de Conhecimento em BD

34

17

Descoberta de Conhecimento em BD

35

Descoberta de Conhecimento em BD

36

18

Caracterizao do Processo

Aplicao de KDD dividida em 3 componentes


Problema a ser submetido Recursos disponveis para a soluo do problema Resultados obtidos atravs do uso dos recursos

37

Caracterizao do Processo

Problema

Conjunto de Dados
Aspecto Intensional estrutura dos dados Aspecto Extensional Casos ou registros

Especialista no Domnio
Representa pessoa que conhece o assunto

Objetivos da Aplicao
Caractersticas esperadas do modelo Exemplo: preciso mnima de 85% ao conceder crdito Podem no estar muito claros no incio do processo
38

19

Caracterizao do Processo

Recursos Disponveis

Dev Identificar e utilizar Especialista em KDD conhecimento a priori sobre o problema Ferramenta de KDD Escolher ferramentas e Ambiente de Minerao de Dados mtodos Algoritmos Isolados Direcionar as aes do processo Plataforma Computacional Conduzir a avaliao dos resultados Hardware

Capacidade de Processamento Memria


39

Caracterizao do Processo

Resultados Obtidos

Modelo de Conhecimento
Deve ser avaliado com relao ao cumprimento das expectativas definidas nos objetivos Usado para comparaes

Histricos
Como os modelos de conhecimento foram gerados Melhor controle do processo Permitem anlise e reviso das aes realizadas

40

20

Macroobjetivos e Orientaes

Aplicao de KDD pode ser classificada em duas dimenses

Orientao das Aes


Validao de Hipteses Postuladas Descoberta de Conhecimento

Macroobjetivos
Predio permite fazer previso a partir de histricos Descrio permite descrever o conhecimento existente na base

41

Aplicaes

Bancria (aprovao de crdito), Cincias e medicina (descoberta de hipteses, diagnstico, classificao, predio), Comerciais (segmentao, localizao de consumidores, identificao de hbitos de consumo), Engenharia (simulao e anlise, reconhecimento de padres, processamento de sinais e planejamento), Financeira (apoio para investimentos, controle de carteira de aes), Gerencial (tomadas de deciso, gerenciamento de documentos), Internet(ferramentas de busca, navegao, extrao de dados), Manufatura(modelagem e controle de processos, controle de qualidade, alocao de recursos), Segurana(deteco de bombas, icebergs e fraudes) etc. Anlise de Churn
42

21

Bibliografia do Curso

Passos, Emmanuel; Goldschmidt, Ronaldo: Data Mining Um Guia Prtico, Editora Campus Witten, Ian H.; Frank, Eibe: Data Mining, Elsevier AMARAL,F.C.N. Data Mining: Tcnicas e Aplicaes para o Marketing Direto. So Paulo: Editora Berkeley, 2001. BUSSAB,W.O. , MORETTIN,P.A. Estatstica Bsica. 5.ed. So Paulo: Editora Saraiva, 2002. BUSSAB,W.O. , MIAZAKI,.S. ANDRADE,D.F. Introduo Anlise de Agrupamentos. So Paulo: 9 Simpsio Nacional de Probabilidade e Estatstica, 1990. BERRY,M.J.A., LINOFF,G. Data Mining Techniques For Marketing, Sales and Customer Support. 2a. ed. New York: John Wiley & Sons, Inc., 2004. CARVALHO,L.A.V. Datamining A Minerao de Dados no Marketing, Medicina, Economia, Engenharia e Administrao. So Paulo: Editora rica, 2001. DINIZ,C.A.R. , NETOF.L. Data Mining: Uma Introduo. So Paulo: XIV Simpsio Nacional de Probabilidade e Estatstica. IME-USP, 2000. FERNADEZ,G. Data Mining Using SAS Applications. New York: Editora Chapman & Hall/CRC, 2003. HAN, J. , KAMBER, M.. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann Publishers, 2001. KLSGEN,W. , ZYTKOW, J.M.. Handbook of Data Mining and Knowledge Discovery. New York: Oxford University Press, Inc., 2002. MANLY,B.F.J. Multivariate Statistical Methods: a Primer. 3.ed. New York: Chapman & Hall, 2005. Oliveira, I. (2003). Correlated Data in Multivariate Analysis. Ph.D Thesis, University of Aberdeen. Jolliffe, I.T. (2002). Principal Component Analysis. Springer Verlag New York Inc. Christensen, R. (1997). Log-linear models and logistic regression. NY: Springer-Verlag. P. McCullagh and J.A. Nelder, Generalized Linear Models 2nd edition, Chapman & Hall 1997

43

Software

WEKA http://www.cs.waikato.ac.nz/ml/weka/

44

22