Escolar Documentos
Profissional Documentos
Cultura Documentos
Clusters: são grupos de dados que tem uma certa semelhança. Para serem
chamados de um Cluster de Alta Qualidade eles devem ter baixa similaridade
em relação a outros Clusters e alta similaridades em relação a si próprio, ou
seja, o Cluster A tem baixa semelhança com o Cluster B, porém o Cluster A
que é composto por um grupo (cluster) de dados, é semelhante a seu próprio
Cluster. Os clusters são usados para análise de dados facilitando essa análise
de forma a diminuir os itens a serem avaliados. Também servem para
identificar anomalias que fujam do padrão.
O Algoritmo de K-means
É um método de "Clusterização" que irá dividir objetos de dados em K-grupos.
Para isso deve-se escolher de forma aleatória os "centros" dos clusters e assim
utilizar os centros para que os objetos nas proximidades de cada se agrupem
para depois mover o centro para a média dos clusters correspondentes. Isso irá
se repetir até o número máximo de iterações ou o início máximo de mudanças
dessa média.
O algoritmo de K-means serve para encontrar similaridade entre os dados e
agrupá-los conforme o número de clusters passados.
Expectation-Maximization
O Expectation-Maximization é um algoritmo que serve para otimizar os
parâmetros recebidos de uma função de distribuição de probabilidades.
Tornando assim os dados mais sólidos possíveis.
Ele funciona da seguinte forma:
Ele vai receber os parâmetros do K-means e vai passar por dois passos o E e o
M assim atualizando os parâmetros deixando-os mais sólidos, após isso será
avaliada a máxima verossimilhança para interromper o algoritmo ou rodar
novamente até atingir a máxima verossimilhança.
Kernel k-means
O algoritmo k-means faz uma divisão dos elementos, e por conta disso ele tem
a eficiência reduzida na presença de conjuntos não convexos. Utilizando Kernel
no algoritmo, faz com que ele separe os pontos em clusters de forma não linear
Métodos de Kernel
Por causa da transformação dos elementos do conjunto do espaço de entrada
para o espaço característico ser um processo demorado, são utilizados os
métodos Kernel, para evitar a transformação direta dos elementos. Esse
processo acontece através dos n x n valores de semelhança dos pares (xj,xi).
Função Kernel
Essa função usa os produtos internos, e sabendo disso fica simples reconstruir
Φ(xj) sem ter que passar do espaço de entrada para o espaço característico de
todos os elementos de D. Essa função tem que ser simétrica K(xj,xi) = K(xj,xi) e
a matriz Kernel proveniente é semidefinida positiva para qualquer subconjunto D
∈ I.
A eficiência de Kernel means leva um tempo de O(n^2), porque é necessário
calcular a distância da média de cada cluster com relação a cada ponto, para
assim atribuir ao cluster com media mais próxima.
Fuzzy K-means
O Fuzzy K-means é semelhante ao K-means porém ele permite que um ponto
esteja em mais de um centro. Tornando a função de pertinência mais flexível. Os
parâmetros Uij apontam a proporção do ponto de dados Xi(presente na fórmula)
que é atribuído ao centro Cj que estão nas restrições do somatório que vai de
J=1 até K. Sabendo que Uij= 1 tendo i >0 e Uij>0. Quanto maior o valor do r mais
difuso será o método implementado. Tendo as suas funções de pertinência e
peso dependendo somente do "X" e "C". Por ser bem flexível ele tem uma
pertinência suave e um peso constante.
K-Harmonic Means
Também é similar ao K-means porém a função K-Harmonic Means tira a média
harmônica da distância de cada ponto de dados a todos os centros. É uma
função diferençável e suave. A sua função de pertinência e peso tendo sua
função de pertinência suave e a de peso variável. Tendo essa variação devido
aos pontos mais distantes dando maior peso, fazendo assim os centros se
espalharem. Na sua implementação deve-se levar em conta o caso de Xi = Cj,
então por meio de uma função máxima usamos um pequeno valor positivo.
Resultados computacionais
Consiste em fazer um paralelo entre os algoritmos k-means, Kernel K-means e
Expectation-maximization com base nas experiências empíricas e na análise
comparativa.
Medidas de avaliação para clustering
Avaliações externas
Particionamento dos dados e necessita também de uma tabela de
contingência N.
Avalições internas
Não necessita do particionamento de dados, são utilizadas matrizes n x n
e por serem matrizes simétricas podem ser feitas analises só com dados
diagonal principal.
Desempenho do algoritmo
Classe 1
Conjunto de pontos são distribuídos em 3 nuvens em volta do centro, e
essas nuvens são: nuvens afastadas, nuvens aproximadas e nuvens
intersetadas
Classe 2
Conjunto de pontos que ficam distribuídos entre um núcleo denso e um
anel exterior em volta, e pode ter no centro, 1 núcleo, 2 núcleos e 3
núcleos. E pode ser feita uma análise de eficiência do algoritmo com base
no aumento do número de partições.
Classe 3
Baseia a análise do algoritmo com segmentação das imagens, as
partições são conhecidas a priore e o aumento do número de clusters é
utilizado para analisar o desempenho do algoritmo.