Você está na página 1de 12

Foundations of statistical

natural language processing


Manning (1999)

Caps. 1 a 4
Abordagens de estudo da linguagem
• Racionalista: habilidade humana inata de linguagem. Regras
gramaticais. Certo e errado. Gramaticalidade.
• Regras sintáticas: dificuldade de codificar e de lidar com
metáforas. Pouca escalabilidade.
• Empírica: operações de associação e reconhecimento de
padrões em vez de regras. Convencionalidade.
• NLP Estatístico: aprende preferências léxicas e estruturais,
relações entre vizinhos, collocation, robustez.
Parsing - Dificuldades.
Our company is training workers.

Our company is training workers.


Our company is training workers.

Our company is training workers.


Ferramentas e conceitos importantes
Lei de Zipf
• Corpus. Corpora. Token.
• Dicionário lexical: hierarquia de sinônimos

Hápax
legómenon

Mandelbrot: log f = log P – B log(r + ρ)


Conceitos de teoria da informação
Entropia: 𝐻 𝑥 = − σ𝑥∈𝑋 𝑝 𝑥 log 2 𝑝 𝑥
• Quantidade de informação contida em uma v.a.
Prop: H(X, Y) = H(X) + H(Y|X)
1
Taxa de entropia do idioma L = {Xi}: 𝐻𝑟𝑎𝑡𝑒 = 𝐻(𝑋𝑖 ) = lim 𝐻(𝑋1 , 𝑋2 , … , 𝑋𝑛 )
𝑛 𝑛→∞
Informação mútua entre X e Y: I(X; Y) = H(X) + H(Y) – H(X, Y)
Prop: I(X; Y) = D(p(x, y) || p(x)p(y))
Entropia = Autoinformação: I(X; X) = H(X) - H(X|X) = H(X)
Entropia relativa: Divergência Kullback-Leibler (KL)
• Grau de diferença entre duas distribuições no mesmo espaço de eventos
• #bits perdidos ao codificar eventos da dist. p com q
Conceitos de teoria da informação
Entropia pontual: 𝐻 𝑤|ℎ = − log 2 𝑚 𝑤|ℎ m = modelo, h = história de palavras

• Erro de previsão do modelo ou “surpresa”


Se w = m(w|h), H(w|h) = 0. Se modelo assume que w não segue w, H(w|h) = 1
Entropia cruzada do idioma L = {Xi} ~ p(x):
1 1
𝐻 𝐿, 𝑚 = − lim ෍ 𝑝( 𝑥1 , 𝑥2 … 𝑥𝑛 ) 𝑙𝑜𝑔𝑚(𝑥1 , 𝑥2 … 𝑥𝑛 ) ≈ − 𝑙𝑜𝑔𝑚(𝑥1 , 𝑥2 … 𝑥𝑛 )
𝑛→∞ 𝑛 𝑛
𝑥1 ,𝑥2 …𝑥𝑛

Perplexidade: PP(x1,x2...xn,m) = 2H(x1,x2...xn, m) = m(x1,x2...xn)-1/n


m mais acurado m(x1,x2...xn) maior e menor PP
Conceitos de linguística
• POS = Parts Of Speech. Tags.

• Lexema = unidade básica do léxico


• Sintagma = unidades formadoras de sentenças segundo
estrutura hierárquica
Conceitos de linguística
• Rewrite rules
S → SN + SV S → DET + N + V + P + DET + N + DET + N
• Labeled bracketing
[O[SN[DETA][Nmãe]][SV[Ventregou][SN[DETo][Nbrinquedo]][SP[Ppara][SN[DETa]
[Ncriança]]]
• Dependência não local
As pessoas que acharam a minha carteira eram gentis
• Restrição selecional ou preferência selecional
“o gato latiu” “eu comi um poste”
Conceitos de linguística
• Attachment ambiguity
A criança comeu o bolo com a colher.
A criança comeu o bolo com a colher.
• Garden pathing
The horse raced past the barn fell.
• Composicionalidade
Papel branco = papel + branco vinho branco ≠ vinho + branco
• Relações anafóricas: sintagmas nominais ref. ao mesmo ente
Maria ajudou Pedro a sair do táxi. Ele a agradeceu.
Conceitos de linguística e pré-processamento
• Pragmática = como conhecimento e convenções interagem
com significado literal
O furacão Hugo destruiu 20.000 casas. Foi o maior desastre da história.
• Expressões regulares
• Codificação via tabela de dispersão (hash table)
Pré-processamento
• Correção (OCR) e remoção
• Maiúsculas de início de frase, Oliveira x oliveira
• Tokenização
R$ 50.000,00 = R$ 50 mil = cinquenta mil reais?
Remover pontuação mas e abreviaturas? Wash. = wash?
“Vós, diz Cristo, falando aos pregadores, sois o sal da terra.”
96985 5453 e New York = um token?
New York-New Haven
A fim de, bem como, apesar de (ditto tag)
Pré-processamento
• Tokenização
que- e-
bra mail
Manga (de camisa) manga (fruta)
• Stemming: bióloga, biologia, biológico → biolog
• Lematização: bióloga → biólogo
• Tagset
Dois soldados foram atingidos por tiros.
Os times formados por alunos da PUC venceram.
• Etiquetagem baseada na distribuição sintática

Você também pode gostar