Você está na página 1de 13

Word Vectorization

AGENDA
1. Word2Vec: Introdução

2. Princípio de funcionamento

3. Distância; Analogia;...

4. Demonstração

5. Conclusão
TEXT MINING: MIGUEL BATISTA 2
INTRODUÇÃO
“A word is known by the company it keeps”

TEXT MINING: MIGUEL BATISTA 3


INTRODUÇÃO
Tradicional: Bag of Words Word Embeddings
• Cada palavra é um ponto no espaço
• Usa ‘one hot encoding’
de dimensões altas (100+), onde é
representado por um vector.
• Cada palavra do vocabulário é • Representação construida somente
representada como um vector enorme. ingerindo texto (não-supervisionado).

• Por exemplo, num vocabulário de • Por exemplo, ‘olá’ poderia ser


10000 palavras, ‘olá’ é representado: representado:
[0 0 0 1 0 0 . . . . . . . 0 0 0 0] [0.4, -0.11, 0.55, 0.3 . . . 0.1, 0.02]
• O contexto da palavra não é usado. • Dimensões do espaço representam
relações entre palavras (tempos
verbais; relações semânticas;…)

TEXT MINING: MIGUEL BATISTA 4


PRINCÍPIO DE FUNCIONAMENTO
Matriz de co-ocorrência.

TEXT MINING: MIGUEL BATISTA 5


PRINCÍPIO DE FUNCIONAMENTO
Corpus = {“I like deep learning” “I like NLP” “I enjoy flying”}

TEXT MINING: MIGUEL BATISTA 6


PRINCÍPIO DE FUNCIONAMENTO
Corpus = {“I like deep learning” “I like NLP” “I enjoy flying”}

TEXT MINING: MIGUEL BATISTA 7


PRINCÍPIO DE FUNCIONAMENTO
Corpus = {“Eu comi o bolo.”}

Contexto pode ser qualquer coisa – n-grams vizinhos, conjuntos de palavras


vizinhas que obedeçam a condições, …

Por exemplo, o contexto é definido como uma palavra e a palavra que se segue:
i.e. 𝒄𝒐𝒏𝒕𝒆𝒙𝒕o(𝒘_𝒊 ) = 𝒘_(𝒊+𝟏)

Training Set : Eu|comi, comi|o , o|bolo, bolo|.

TEXT MINING: MIGUEL BATISTA 8


DISTÂNCIAS; ANALOGIAS;...
Palavras comuns são agrupadas.
Dificil de visualizar: muitas dimensões !!!

TEXT MINING: MIGUEL BATISTA 9


DISTÂNCIAS; ANALOGIAS;...
Palavras comuns são agrupadas.

TEXT MINING: MIGUEL BATISTA 10


DISTÂNCIAS; ANALOGIAS;...

Operações vectoriais são permitidas Analogias

TEXT MINING: MIGUEL BATISTA 11


DEMONSTRAÇÃO

...live... 

TEXT MINING: MIGUEL BATISTA 12


CONCLUSÃO
1. Abordagem muito poderosa para todos os problemas de
Processamento de Linguagem.
2. Muito dependente do corpus que se usa para treinar o modelo.
3. Potencialmente demorado para treinar.
4. Fácil de treinar.
5. Consome muita memória!

Questões?

TEXT MINING: MIGUEL BATISTA 13

Você também pode gostar