Escolar Documentos
Profissional Documentos
Cultura Documentos
DATAMINING
GLAUBER DE BORTOLI
JOSÉ CLAUDIO PIGNAT FILHO
ANDRÉ GEIER MENDES
Extração de Informações de DB’s
Características de um Datamining
A estatística: A mais antiga delas. Sem a estatística não seria possível termos o DM,
visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é
construído. A Estatística Clássica envolve conceitos como distribuição normal,
variância, análise de regressão, desvio simples, análise de conjuntos, análises de
discriminantes e intervalos de confiança, todos usados para estudar dados e os
relacionamentos entre eles. Esses são as pedras fundamentais onde as mais avançadas
análises estatísticas se apóiam. E sem dúvida, no coração das atuais ferramentas e
técnicas de DM, a análise estatística clássica desempenha um papel fundamental.
Aplicações do Datamining
Vendas:
Finanças:
Transporte:
Medicina:
Pode ser dito com relativa confiança que é fácil começar um projeto de
Datamining, a dificuldade está em finalizá-lo de acordo com as expectativas. As
promessas geradas, no início de um projeto, pela utilização de novas tecnologias que
podem solucionar problemas tradicionalmente difíceis, podem ser mal interpretadas ao
avaliar as perspectivas de um novo projeto. Dificuldades com extração dos dados,
preparação dos mesmos, validação dos dados extraídos e a alocação de recursos no
cliente, frequentemente são subestimadas ao planejar o envolvimento e os cronogramas
para a execução do projeto. As atividades de obtenção e limpeza dos dados
normalmente consomem mais da metade do tempo dedicado ao projeto. Para a execução
de projetos de Datamining e a correta alocação de recursos para os mesmos, foi
desenvolvida uma metodologia padrão não proprietária que visa identificar as diferentes
fases na implantação de um projeto. Segundo a metodologia desenvolvida, a
implementação de um sistema de Datamining pode ser dividida em seis fases
interdependentes para que o mesmo atinja seus objetivos finais. São elas:
Entendimento do negócio: A fase inicial do projeto deve ter por objetivo identificar as
metas e requerimentos a partir de uma perspectiva de negócio, e então converte-las para
uma aplicação de Datamining e um plano inicial de ataque ao problema.
Entendimento dos dados: Esta fase tem como atividade principal extrair uma amostra
dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram.
Avaliação do modelo: Ao final da fase de modelagem, vários modelos devem ter sido
avaliados sob a perspectiva do analista responsável. Agora, o objetivo passa a ser avaliar
os modelos com a visão do negócio, se certificando que não existem falhas ou
contradições com relação às regras do negócio.
Cypress Data Mining: O Cypress Data Mining filtra, classifica e resume dados de
relatórios "num instante" segundo as necessidades de cada usuário, salva as informações
como uma conveniente planilha Excel ou arquivo de texto e então o encaminha
automaticamente para a impressora, caixa de entrada de e-mail, fax, diretório ou outro
local adequado da empresa. Uma vez que os relatórios tenham sido processados, os
arquivos resultados em Excel ou texto podem ser totalmente integrados com outros
softwares, incluindo arquivamento e entrega na internet. A integração com o Cypress
DocuVault possibilita aos usuários ver somente as informações que foram autorizados a
acessar - isso é algo que as soluções de Datamining de usuário final não conseguem
fornecer de forma consistente. A capacidade de arquivamento de longo prazo do
Cypress proporciona uma solução rápida livre de programação para informações
históricas de exploração que podem não estar mais em seus bancos de dados. O Módulo
Cypress Datamning é baseado em servidor e destinado a ambiente de produção ao invés
de um software para usuário final. O treinamento extensivo dos usuários finais é,
portanto eliminado e as informações podem ser disponibilizadas mais rapidamente a um
número maior de usuários. Automatizar as tarefas de datamining normalmente
executadas pelos usuários finais significa que eles podem dedicar mais tempo em suas
tarefas básicas e menos tempo aprendendo e operando software sofisticado de
Datamining baseado em cliente.