Você está na página 1de 62

Os seguintes passos são necessários para a execução desse

algoritmo:

Determinar as posições iniciais dos k centroides dos


clusters;
Alocar cada elemento ao cluster do centroide mais
próximo;
Recalcular os centros dos clusters a partir dos
elementos alocados;
Repetir os passos de 2 a 4, segundo algum critério
de convergência.
Na imagem anterior, vemos diferentes possíveis formações de
grupos pelo k-médias, sendo as figuras:

1. Um estágio inicial;
2. Uma inicialização dos centroides e partição de k=2
(dois grupos);
3. Uma outra possível partição;
4. Um outro exemplo de particionamento em que um grupo
está contido no outro, há na Figura D uma partição
com k=4, quatro grupos.
Em contrapartida, segundo Campbell (2006), para funcionar bem,
ela assume algumas condições nos dados:

Relação linear entre o vetor das variáveis


explicativas X e variável independente Y;
Ausência de multicolinearidade;
Valor esperado dos resíduos igual a zero;
Ausência de heterocedasticidade.
((País = EUA) ∧ (Grande Estrela = sim)) ∨ ((País= Europeu)
∧ (Gênero = comédia))
H(S) = - p1 log2 p1 – p0 log2 p0
Segundo Castro e Ferrari (2016), durante o processo de
aprendizagem podem ocorrer dois tipos de erros importantes:

Erro de representação: considere o caso em que todo o conjunto


amostral está disponível e, também, que a base de dados
completa permita encontrar um conjunto ótimo de parâmetros do
modelo. Nesse caso, o erro vai depender da adequação do nível
de flexibilidade do modelo preditivo em relação aos dados de
treinamento, pois nem sempre ele é suficientemente adequado
para representar os dados. Esse erro também é conhecido como
erro de aproximação ou efeito bias;

Erro de generalização: em aplicações de mundo real, somente um


número finito de dados (uma amostra da base) está disponível ou
pode ser usado simultaneamente para análise. Além disso, os
dados podem conter ruído ou outras inconsistências. Portanto, a
resposta de um algoritmo para dados não usados no treinamento
precisa ser aproximada. Em virtude desses fatores, pode ocorrer
um erro de generalização, também conhecido como erro de
estimação ou variância, mesmo quando técnicas de pré-
processamento de dados são bem aplicadas. Esse erro surge, por
exemplo, quando o modelo é treinado em excesso e absorve ruídos
dos dados de treinamento, sofrendo de uma sobregeneralização
dos resultados.
k-fold:

Consiste em dividir a base de dados em k subconjuntos, sendo k-


1 pastas para treinamento e uma pasta para teste. Esse processo
é repetido com todos os k subconjuntos e a média dos
desempenhos para as bases de treinamento e as bases de teste,
adotado como indicador de qualidade do modelo.
Leave-one-out:

É o caso extremo e importante, a divisão é feita em k-pastas,


mas k é sempre colocado como n, onde n é o número de exemplos
da base. Apenas um exemplo será utilizado para teste e todos os
outros exemplos para treino. Esse tipo de validação é útil com
bases de dados com poucos exemplos.
Segundo Castro e Ferrari (2016), as classes positiva e negativa
permitem a definição de medidas específicas relacionadas a cada
uma delas:

VP (Verdadeiro Positivo): objeto da classe positiva


classificado como positivo. Por exemplo,
um spam classificado como spam.
VN (Verdadeiro Negativo): objeto da classe negativa
classificado como negativo. Por exemplo, uma
mensagem normal classificada como normal.
FP (Falso Positivo): objeto da classe negativa
classificado como positivo. Por exemplo, urna
mensagem normal classificada como spam. É também
conhecido como alarme falso ou Erro Tipo 1;
FN (Falso Negativo): objeto da classe positiva
classificado como negativo. Por
exemplo, spam classificado como mensagem normal. É
também conhecido como Erro Tipo 2.

Você também pode gostar