Escolar Documentos
Profissional Documentos
Cultura Documentos
2 Análise de dados
Nova Inter-
Extração ou representação Medida relacionamento
Padrões dos padrões dos padrões
Seleção de de Agrupamento
Características Similaridade
Clusters
Apresentação
• agrupamento: os grupos podem ser definidos como conjuntos crisp (um padrão
pertence ou não-pertence a um dado grupo) ou fuzzy (um padrão pode apresentar
graus de pertinência aos grupos). O processo de agrupamento pode ser
hierárquico, com um processo recursivo de junções ou separações de grupos, ou
não-hierárquico, com o emprego direto de técnicas de discriminação de clusters.
5 Algoritmos de clusterização
aglomerativa ou divisiva;
mono-atributo ou multi-atributos;
crisp ou fuzzy;
determinística ou estocástica;
incremental ou não-incremental.
Clusterização
Hierárquica Particional
Expectation
k-means
Maximization
6 Outros tópicos
• as formas que podem ser observadas no mundo à nossa volta representam apenas
uma pequena parcela de todas as formas possíveis. Logo, por que não existe mais
variedade?
• para procurar respostas a questões como esta é que se estuda sistemas auto-
organizados e teoria da complexidade.
• exemplos de sistemas naturais que apresentam organização: galáxias, planetas,
componentes químicos, células, organismos, sociedades.
• existem campos de atuação científica que procuram explicar a auto-organização
recorrendo a propriedades e leis aplicáveis às partes constituintes (componentes)
de um sistema organizado específico.
• no entanto, a auto-organização pode ser abordada de modo completamente
distinto, recorrendo-se às propriedades e leis comuns a todos os sistemas
organizados, independente de suas particularidades.
• um sistema, por sua vez, pode ser definido como um agrupamento coerente de
componentes que operam como um todo e que apresentam uma individualidade,
ou seja, se distinguem de outras entidades por fronteiras reconhecíveis. Há muitas
variedades de sistemas, as quais podem ser classificadas em 3 grandes grupos:
• dados rotulados são aqueles que assumem valores em um mesmo espaço vetorial
multidimensional, e que vêm acompanhados da classe a que cada um pertence
(rótulo), podendo haver múltiplas classes, com variâncias e número de dados
distintos ou não para cada classe.
• dados não-rotulados são aqueles que assumem valores em um mesmo espaço
vetorial multidimensional, e que não se conhece a priori a classe a que cada um
9 Referências bibliográficas
CHENG, Y. “Mean Shift, Mode Seeking, and Clustering”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 17, pp.
790-799, 1995.
COSTA, J.A.F. “Classificação Automática e Análise de Dados por Redes Neurais Auto-Organizáveis”, Tese de Doutorado,
Faculdade de Engenharia Elétrica e de Computação (FEEC/Unicamp), 1999.
DUBES, R.C. “How Many Clusters Are Best? – An Experiment”, Pattern Recognition, vol. 20, pp. 645-663, 1987.
DUBES, R.C. & JAIN, A.K. “Clustering Techniques: The User’s Dilemma”, Pattern Recognition, vol. 8, pp. 247-260, 1976.
ESTER, M. “Spatial Analysis”, invited chapter in Kloesgen, W. & Zytkow, J. Handbook of Data Mining and Knowledge
Discovery, Oxford University Press, 1999.
FISHER, L. & VAN NESS, J.W. “Admissible Clustering Procedures”, Biometrika, vol. 58, pp. 91-104, 1971.
10 Bibliografia adicional
BACKER, E. “Computer-Assisted Reasoning in Cluster Analysis”, Prentice Hall, 1995.
DUDA, R.O., HART, P.E. & STORK, D.G. “Pattern Classification”, Wiley, 2nd edition, 1998.
DURAN, B.S. & ODELL, P.L. “Cluster Analysis: A Survey”, Springer-Verlag, 1974.
EVERITT, B.S. “Cluster Analysis”, Halsted Press, 3rd edition, 1993.
FASULO, D. “An Analysis of Recent Work on Clustering Algorithms”, Technical Report #01-03-02, Department of Computer
Science & Engineering, University of Washington, 1999.
FAYYAD, U.M., PIATETSKY-SHAPIRO, G., SMYTH, P. & UTHURUSAMY, R. (eds.) “Advances in Knowledge Discovery and Data
Mining”, AAAI/MIT Press, 1996.
GORDON, A.D. “Classification: Methods for the Exploratory Analysis of Multivariate Data”, Chapman and Hall, 1981.
HARTIGAN, J.A. “Clustering Algorithms”, John Wiley, 1975.
KAUFMAN, L. & ROUSSEEUW, P.J. “Finding Groups in Data: An Introduction to Cluster Analysis”, John Wiley & Sons, 1990.
PIATETSKY-SHAPIRO, G. & FRAWLEY, W.J. (eds.) “Knowledge Discovery in Databases”, AAAI/MIT Press, 1991.
RASMUSSEN, E. “Information Retrieval”, Prentice Hall, 1992.
SPATH, H. “Cluster Analysis Algorithms for Data Reduction and Classification”, Ellis Horwood Publishers, 1980.