Você está na página 1de 41

1.

Linguística, computação e processamento


das línguas naturais

Linguística Computacional
Raquel Amaro
… conceitos…

- O que é processamento?

- O que é computação?
• Computação

• Noção da matemática que, na sua acepção primária, consiste num processo


algorítmico: um processo que gera resultados corretos através da realização
de um procedimento eficaz.

• (um procedimento eficaz: procedimento explícito que garante, para cada


input relevante, a produção do resultado correto)
Noção de “computação” entra nas ciências cognitivas (e posteriormente na
Informática) pelas mãos dos lógicos e do Alan Turing nos anos 30, quando é
usada para caracterizar as atividades do cérebro.

 máquina é um computador porque computa


e não
algo é computacional porque usa um computador.

Os humanos computam.
Processamento

Noção da Engenharia de Sistemas e da Engenharia de Comunicações (anos


40) que consiste na manipulação de sinais para transmitir informação.

A ideia base é a de que os organismos (e autómatos) recebem e transmitem


informação dentro do sistema e entre o sistema e o ambiente.
O processamento de informação permite perceber/simular como é que os
organismos percebem o que ocorre à sua volta e produzem respostas de
acordo com essa informação.

 na Engenharia de comunicações o processamento de informação é


central ao desenho de sistemas de comunicação eficientes como a televisão,
rádio, etc..

ex.: mail… (codificação – transmissão – descodificação)


- O que é processamento?
- processo de manipulação de sinais/dados para transmitir informação

- O que é computação?
- processo que gera resultados corretos através da realização de um
procedimento explícito que garante, para cada input relevante, a
produção do resultado correto. (gerar resultados corretos através
da aplicação sistemática de regras)
Atualmente, e dados os contextos de trabalho e as aplicações, há uma estreita
correlação entre a Linguística Computacional e o Processamento de Língua
Natural, mas nenhuma das áreas inclui ou subsume necessariamente a outra.

Ling.
Linguística Comp.
PLN Informática

Inteligência
Psicologia Artificial
1.2 Questões da Linguística
Computacional e subáreas da Linguística

retirado de Bolshakov & Gelbukh (2004: 18)


De que é que trata a Linguística Computacional
e como/em que é usado o conhecimento desenvolvido
na área?

 áreas/objetivos
 ferramentas
 produtos
• Os produtos, ferramentas e áreas da LC visam, de
modo geral, 3 grandes áreas

1) informação

2) comunicação

3) interação
- acesso à informação
1) informação - compreensão de
informação
- análise de informação
2) comunicação

3) interação
1) informação

§ objetivo 1: acesso à informação


- pesquisa de informação
- sumarização
- indexação
1) informação

§ objetivo 2: compreensão de informação


- sistema de pergunta-resposta (QA)
- extração de informação
- text mining
- indexação...
1) informação

§ objetivo 3: análise de informação


- text mining
- análise de sentimentos
- feedback corretivo em sistemas de ICALL
1) informação
- compreensão das línguas
naturais
2) comunicação - melhor capacidade de
comunicação
- tradução automática
3) interação
2) comunicação

§ objetivo 1: compreender as línguas naturais


- linguística de corpus
compreensão/geração
- modelos formais (HPSG, ...) de língua natural
- análise sintática, semântica, representação do
mundo...
2) comunicação

§ objetivo 2: melhorar as capacidades de comunicação


- corretores ortográficos
- corretores sintáticos
- corretores estilísticos
- ICALL: aprendizagem de língua assistida por
computador
2) comunicação

§ objetivo 3: permitir a comunicação entre falantes de


diferentes línguas
- tradutores automáticos
(com tudo o que isso implica! análise lexical,
sintática, semântica, pragmática; interpretação –
equivalências, produção lexical, sintática,
semântica, .... )
1) informação

2) comunicação
- sistemas QA para tarefas
específicas
3) interação - robots de conversação
- inteligência artificial....
1.2 Questões da Linguística
Computacional e subáreas da Linguística

(In https://plato.stanford.edu/entries/computational-linguistics/#GoaComLin)

Os objetivos teóricos da LC incluem a formulação de teorias e quadros


gramaticais e semânticos para caracterizar as linguagens de modo a permitir
implementações computacionalmente compreensíveis ​de análise sintática e
semântica; a descoberta de técnicas de processamento e princípios de
aprendizagem que exploram as propriedades estruturais e distributivas
(estatísticas) das línguas naturais; e o desenvolvimento de modelos
computacionais cognitivamente e neurocientificamente plausíveis de como o
processamento e o aquisição da linguagem poderão ocorrer no cérebro.
Os objetivos práticos do campo são amplos e variados. Alguns dos mais
importantes são: recuperação eficiente de texto sobre um dado tópico;
tradução automática eficaz; resposta a perguntas (QA), variando de perguntas
factuais simples a perguntas que exigem inferência e respostas descritivas ou
discursivas (...); sumarização; análise de tópicos, sentimentos ou outros
atributos psicológicos a partir de texto; agentes de diálogo para a realização de
tarefas específicas (compras, solução de problemas técnicos, organização de
viagens, manutenção de horários, consultas médicas, etc.); e, ...
... e, finalmente, a criação de sistemas computacionais com competência
semelhante aos humanos no que respeita ao diálogo, aquisição de linguagem
e obtenção de conhecimento a partir do texto.

(In https://plato.stanford.edu/entries/computational-linguistics/#GoaComLin)
1.2 Questões da Linguística
Computacional e subáreas da Linguística
LINGUÍSTICA técnicas/tecnologias (várias áreas)

Fonética processamento de sinal


(som) reconhecimento de fala
Morfologia reconhecimento de padrões
(palavra) anotação
Sintaxe parsing (análise sintática)
(frase/estrutura)
Semântica lógica de 1ª Ordem
(significado) inferência
Pragmática
(interpretação) raciocínio automático
FONÉTICA

- Primeiro nível de análise linguística que diz respeito à produção e à perceção dos sons
que formam o sinal acústico da fala.
-Fonemas (conjunto finito): vogais, consoantes, etc.

- O sinal acústico da fala resulta da modificação das vibrações produzidas pelas cordas
vocais pelas cavidades e órgãos articuladores da fala ( nariz, boca, lábios, língua,
dentes…).

- O sinal de fala pode ser analisado, digitalizado (conversor analógico-digital),


processado e transformado (análise de Fourier) e apresentado em representações
gráficas do som.
(a) Sinal acústico; (b) espectrograma de banda larga; (c) espectrograma de
banda estreita da sequência “toast as usual”
-Os espectrogramas podem ser divididos em sequências de padrões relativamente
regulares. Uma descrição de vários tipos de fonemas inclui:
-vogais: surgem no espectrograma como uma barra horizontal (frequência fundamental) e
várias outras barras (formantes e harmónicas).
-consoantes fricativas (/f/ ou /z/): surgem no espectrograma como barulho “branco”, ou
seja, uma distribuição cinzenta uniforme.
-consoantes oclusivas (/t/ ou /p/): surgem no espectrograma como um vazio (branco),
interrupção no fluxo do ar, seguida de uma barra vertical escura, emissão brusca (explosão).

- O reconhecimento de fala usa técnicas de processamento de sinal, modelos fonéticos


para reconhecer fonemas e regras de conversão fonema-caractere para converter sinal
de fala em texto.
- A síntese de fala faz o inverso e transforma texto dado pela máquina em sinal de
fala. Usa técnicas de processamento de sinal e estatísticas e modelos linguísticos.
LÉXICO E MORFOLOGIA

-Léxico: conjunto de palavras de uma dada língua/parte da língua (domínio/jargão, …)

As palavras caracterizam-se quanto a:


-Categoria morfossintática (part of speech (POS)): nome, verbo, adjetivo,
advérbio, …
-Categorias lexicais e categorias gramaticais/funcionais: conjunção, determinante,
...

Exemplo: O/Det gato/N cinzento/Adj comeu/V o/Det rato/N pequeno/Adj.


(anotador morfossintático; anotador; tagger)

- A anotação morfossintática implica técnicas de desambiguação estatísticas ou


regras ou ambas: cinzento, o, rato...
- A Morfologia estuda também como radicais e afixos se juntam para formar palavras,
dizendo respeito à flexão e à derivação de palavras.

Flexão:
um Número: singular; Género: masculino
umas Número: plural; Género: feminino
trabalhas Número: singular; Pessoa: 2ª; Modo: indicativo; Tempo: presente

Derivação:
real/Adj -> realmente/Adv
hábil/Adj -> habilidade/N -> habilidoso/Adj
- O processamento morfológico usa tipicamente regras morfológicas, juntamente
com conjuntos de exceções.
- As palavras são divididas em radical e afixos por um analisador morfológico;
quando os afixos têm conteúdo funcional, o analisador pode obter esse
conteúdo a partir dos afixos (-> reduz o número de entradas do Léxico).

- Tipicamente, um Léxico é composto pelos lemas (forma canónica) (lematizador) e


um conjunto das informações relevantes para o processamento.

- Os Léxicos e as regras morfológicas podem ter de conter as informações e as regras


necessárias e suficientes para gerar todas as palavras da língua.
SINTAXE

A Sintaxe diz respeito à formação das frases de uma língua.

Em várias teorias, a Sintaxe é independente da Semântica e pode ser expressa em


termos de gramáticas lógicas:
- conjunto de regras que descrevem a estrutura das frases de uma língua e
que permitem gerar o conjunto total possível (potencialmente infinito) das
frases de uma dada língua.

As chamadas gramáticas generativas (Chomsky 1957) consistem em regras que


dividem uma estrutura em subestruturas (sintagmas) e descrevem a composição de
uma frase em termos da sua estrutura sintagmática/de constituintes, usando um
conjunto de símbolos finais representando as palavras (phrase-structure rules – regras
de estrutura sintagmática).
Exemplo:

Gramática
- Uma frase é constituída por um sintagma nominal e um sintagma verbal.
- Um sintagma nominal é constituído por um determinante e um nome.
- Um sintagma verbal é constituído por um verbo e um sintagma nominal.

Léxico
- determinantes: o, a
- nomes: rapaz, bola
- verbos: atirar, roubar
- Parsing (análise sintática) é o reverso da geração:
- a gramática, um conjunto de regras de constituição/phrase-structure, aceita frases
sintaticamente corretas e determina a sua estrutura.

- A análise sintática requer um mecanismo para procurar as regras que descrevem a


estrutura da frase.
- bottom-up parsing: o mecanismo aplica-se a partir das palavras da frase até
uma regra que descreve a estrutura da frase;
- top-down parsing: o mecanismo aplica-se a partir de uma dada regra que
descreve a estrutura da frase até chegar às palavras.
- Sintaxe como relações e dependências

- A análise sintática pode também ser feita pela descrição das relações (funções
gramaticais) estabelecidas entre o núcleo da frase – o verbo – e as restantes
palavras.
Verbo
Sujeito Objeto

O rapaz atirou a bola


- E outras relações (de dependência) que se estabelecem entre outro tipo de objetos
(determinantes, adjetivos, adjuntos...).

O grande rapaz de Lisboa atirou a bola com força.

- As gramáticas de dependência (Mel’cuk 1988), apesar de menos populares, são


bastante eficazes na análise sintática (parsers).
SEMÂNTICA

- A Semântica diz respeito ao significado das frases e dos enunciados e pode ser vista
como independente da Sintaxe (ex.: #A escova de dentes engravidou.)
- No âmbito da Linguística Computacional, a Semântica é frequentemente associada
à Lógica e ao Cálculo de Predicados.

- A representação semântica de uma frase envolve tipicamente a sua transformação


num estrutura de predicado-argumentos (forma lógica), sendo o verbo o predicado
e os restantes constituintes os argumentos.
frase forma lógica
Ex.: O Pedro tirou notas. tirar(pedro, notas)
A mãe jantou fora. jantar(mãe, fora)
- A representação é o primeiro passo. O objetivo seguinte é interpretar a
representação semântica para verificar o seu significado.

- Por exemplo, podemos ligar ‘notas’ a uma definição de dicionário:

http://www.priberam.pt/dlpo/nota

... mas será necessário escolher qual o significado que nos interessa (desambiguação).

2. Indicação escrita, geralmente breve ou resumida, para registar alguma coisa


que foi vista, ouvida, lida ou que deve ser lembrada. (Priberam)
- A ligação a uma definição, por si só, pode não ser suficiente para
verificar/interpretar o significado.
- Pode ser necessário interpretar notas em termos do objeto a que a palavra se
refere, ou seja, um conjunto de folhas com texto escrito ou um conjunto de
ficheiros num disco rígido que contêm informação escrita (resolução de
referência/reference resolution).
1. Frase: O Pedro tirou notas. 2. Forma Lógica: tirar(pedro, notas)

3. Mundo real
refere-se a refere-se a
- O processo de raciocínio que é aplicado para resolver a referência, recorre
frequentemente a regras de dedução ou inferência:

Se os cães ladram e Rex é um cão,


então ‘o Rex ladra’ é verdade.

Se os mamíferos engravidam, e os mamíferos são seres vivos, e uma escova de


dentes não é um ser vivo,
então ‘A escova de dentes engravidou’ não é verdade.

Uma frase é correta se tiver significado. Uma frase tem significado se for possível
resolver a suas referências. Há resolução de referência se a frase for verdadeira.
PRAGMÁTICA

- A Pragmática é “semântica restringida a um contexto específico e considera factos


que são externos à frase.” (Nuges 2006:13)

- Os factos externos à frase permitem contribuir para inferir o significado de uma


frase ou para provar a sua verdade:

Matusalém viveu até aos 969 anos. (Genesis 5:27)


- Verdade, no contexto da Bíblia
- Falso, no contexto da realidade médica atual.
PRAGMÁTICA E DISCURSO

- O discurso refere-se a uma sequência de frases, a um contexto frásico relativo a


outras frases ou a uma dada situação de referência (background).

- A análise do discurso permite-nos resolver referências que não são autossuficientes


numa frase isolada (anáforas e dêixis).
O João levou-o.

- O processamento do discurso divide e classifica textos e frases em segmentos (atos


ilocutórios: perguntas, declarações, pedidos, respostas, ...) e estabelece relações entre
os segmentos para os encadear racionalmente e para os mapear numa espécie de
estrutura do texto.

Você também pode gostar