Você está na página 1de 3

K-means

Clusters: são grupos de dados que tem uma certa semelhança. Para serem
chamados de um Cluster de Alta Qualidade eles devem ter baixa similaridade
em relação a outros Clusters e alta similaridades em relação a si próprio, ou
seja, o Cluster A tem baixa semelhança com o Cluster B, porém o Cluster A
que é composto por um grupo (cluster) de dados, é semelhante a seu próprio
Cluster. Os clusters são usados para análise de dados facilitando essa análise
de forma a diminuir os itens a serem avaliados. Também servem para
identificar anomalias que fujam do padrão.
O Algoritmo de K-means
É um método de "Clusterização" que irá dividir objetos de dados em K-grupos.
Para isso deve-se escolher de forma aleatória os "centros" dos clusters e assim
utilizar os centros para que os objetos nas proximidades de cada se agrupem
para depois mover o centro para a média dos clusters correspondentes. Isso irá
se repetir até o número máximo de iterações ou o início máximo de mudanças
dessa média.
O algoritmo de K-means serve para encontrar similaridade entre os dados e
agrupá-los conforme o número de clusters passados.

Expectation-Maximization
O Expectation-Maximization é um algoritmo que serve para otimizar os
parâmetros recebidos de uma função de distribuição de probabilidades.
Tornando assim os dados mais sólidos possíveis.
Ele funciona da seguinte forma:
Ele vai receber os parâmetros do K-means e vai passar por dois passos o E e o
M assim atualizando os parâmetros deixando-os mais sólidos, após isso será
avaliada a máxima verossimilhança para interromper o algoritmo ou rodar
novamente até atingir a máxima verossimilhança.

Kernel k-means
O algoritmo k-means faz uma divisão dos elementos, e por conta disso ele tem
a eficiência reduzida na presença de conjuntos não convexos. Utilizando Kernel
no algoritmo, faz com que ele separe os pontos em clusters de forma não linear
 Métodos de Kernel
Por causa da transformação dos elementos do conjunto do espaço de entrada
para o espaço característico ser um processo demorado, são utilizados os
métodos Kernel, para evitar a transformação direta dos elementos. Esse
processo acontece através dos n x n valores de semelhança dos pares (xj,xi).
 Função Kernel
Essa função usa os produtos internos, e sabendo disso fica simples reconstruir
Φ(xj) sem ter que passar do espaço de entrada para o espaço característico de
todos os elementos de D. Essa função tem que ser simétrica K(xj,xi) = K(xj,xi) e
a matriz Kernel proveniente é semidefinida positiva para qualquer subconjunto D
∈ I.
A eficiência de Kernel means leva um tempo de O(n^2), porque é necessário
calcular a distância da média de cada cluster com relação a cada ponto, para
assim atribuir ao cluster com media mais próxima.

Fuzzy K-means
O Fuzzy K-means é semelhante ao K-means porém ele permite que um ponto
esteja em mais de um centro. Tornando a função de pertinência mais flexível. Os
parâmetros Uij apontam a proporção do ponto de dados Xi(presente na fórmula)
que é atribuído ao centro Cj que estão nas restrições do somatório que vai de
J=1 até K. Sabendo que Uij= 1 tendo i >0 e Uij>0. Quanto maior o valor do r mais
difuso será o método implementado. Tendo as suas funções de pertinência e
peso dependendo somente do "X" e "C". Por ser bem flexível ele tem uma
pertinência suave e um peso constante.

K-Harmonic Means
Também é similar ao K-means porém a função K-Harmonic Means tira a média
harmônica da distância de cada ponto de dados a todos os centros. É uma
função diferençável e suave. A sua função de pertinência e peso tendo sua
função de pertinência suave e a de peso variável. Tendo essa variação devido
aos pontos mais distantes dando maior peso, fazendo assim os centros se
espalharem. Na sua implementação deve-se levar em conta o caso de Xi = Cj,
então por meio de uma função máxima usamos um pequeno valor positivo.

Resultados computacionais
Consiste em fazer um paralelo entre os algoritmos k-means, Kernel K-means e
Expectation-maximization com base nas experiências empíricas e na análise
comparativa.
Medidas de avaliação para clustering
 Avaliações externas
Particionamento dos dados e necessita também de uma tabela de
contingência N.
 Avalições internas
Não necessita do particionamento de dados, são utilizadas matrizes n x n
e por serem matrizes simétricas podem ser feitas analises só com dados
diagonal principal.
Desempenho do algoritmo
 Classe 1
Conjunto de pontos são distribuídos em 3 nuvens em volta do centro, e
essas nuvens são: nuvens afastadas, nuvens aproximadas e nuvens
intersetadas

 Classe 2
Conjunto de pontos que ficam distribuídos entre um núcleo denso e um
anel exterior em volta, e pode ter no centro, 1 núcleo, 2 núcleos e 3
núcleos. E pode ser feita uma análise de eficiência do algoritmo com base
no aumento do número de partições.

 Classe 3
Baseia a análise do algoritmo com segmentação das imagens, as
partições são conhecidas a priore e o aumento do número de clusters é
utilizado para analisar o desempenho do algoritmo.

Você também pode gostar