Você está na página 1de 50

Linguagem e tecnologia: construo de grandes crpus e suas ferramentas associadas

Sandra Maria Alusio

Frum de Conhecimento e Tecnologia da Informao 9/12/2004 - Unicamp

Prefcio do Livro Lingstica de Corpus Tony Sardinha, 2004


Est em curso uma verdadeira revoluo no pensamento lingstico, com implicaes srias sobre como respondemos a questes fundamentais, tais como o que lngua, como ela organizada, como deve ser estudada, como deve ser ensinada. A mola propulsora dessa revoluo a tecnologia, mais especificamente o computador. ... Para entender essa revoluo, preciso acompanhar a Lingstica de Corpus, uma rea que trata do uso de corpora computadorizados (coletneas de textos, escritos ou de transcries de fala, mantidas em arquivo de computador). Ao revelar uma quantidade surpreendente de evidncias lingsticas provindas de corpora eletrnicos, a Lingstica de Corpus questiona os paradigmas estabelecidos dos estudos lingsticos e mostra novos caminhos para o lingista, o tradutor, o lexicgrafo, e muitos outros profissionais.
2

H 15 anos atrs ...

A comunidade internacional que trabalha com Lingstica Computacional e Processamento de Lngua Natural (PLN) teve o mesmo entusiasmo com mtodos empricos e estatsticos para anlise da linguagem.
Entretanto, esse interesse em mtodos estatsticos baseado em crpus reacendeu todas as velhas controvrsias:
filosofias

racionalistas vs. empiristas, metodologias baseadas em teoria vs. dirigidas por dados, tcnicas simblicas vs. estatsticas.
3

Com uma anlise histrica do que aconteceu no eixo Estados Unidos Europa podemos aprender e encurtar caminhos
para

colocar o processamento e o estudo da lngua portuguesa do Brasil mais prximos dos avanos de outras, principalmente o ingls.

Alm disso, quanto a criao de crpus, podemos aproveitar para aprender com
os

erros no desenvolvimento do BNC discusses, ferramentas e padres que esto sendo utilizados atualmente no desenvolvimento do ANC

e alavancar o Portugus do Brasil, trazendo-o para o cenrio mundial das pesquisas em Lingstica de Crpus 4

Continuando no prefcio...

A influncia mais visvel no mundo contemporneo est na preparao de dicionrios. Hoje, todos os grandes dicionrios da lngua inglesa (de Oxford at Cambridge, Collins, Longman) so feitos com base em Lingstica de Corpus.

Para o portugus do Brasil ...

Temos tambm um dicionrio com ocorrncias reais: o Dicionrio de Usos do Portugus do Brasil (DUP), do Prof. Borba e equipe, lanado em 2002. Entretanto, o crpus que deu base ao dicionrio:

diferentemente dos para a lngua inglesa, no foi construdo como um consrcio entre editoras e/ou empresas de software, governo e academia possui somente textos escritos no est livremente e extensivamente disponvel (ou a um baixo custo) para consulta/pesquisa, agora que o dicionrio est pronto.
6

Estrutura da Apresentao

Um pouco de Histria Exemplos de trabalhos e forma de trabalho no NILC Lcio-Web Mestrado em Estudos Lingsticos na UFSCar com trs linhas de pesquisa (submetido Capes):
Linguagem

e Discurso, Ensino e Aprendizagem de Lngua e Linguagem Humana e Tecnologia


7

Algumas definies ...

Diviso histrica:

Lingstica Computacional na Lingstica, Processamento de Lngua Natural na Computao, Reconhecimento/Tratamento da Fala (TF) na Engenharia Eltrica, Psico-lingstica Computacional* (psicologia cognitiva) na Psicologia

Lingstica Computacional

o estudo cientfico da linguagem a partir de uma perspectiva computacional. Interesse em modelos computacionais de vrios tipos de fenmenos lingsticos.

Processamento de Lngua Natural (PLN)

uma cincia da computao que usa computadores para processar linguagem escrita e falada para aplicaes prticas. Inclui mtodos e teorias para as fases de processamento, como o caso da traduo de lngua natural: anlise fontico-fonolgica , morfolgica, sinttica, semntica, pragmtico-discursiva.

Linguagem Humana e Tecnologia abarca pesquisas em PLN e Lingstica Computacional.

Depois da II Guerra Mundial


Anlises empricas e estatsticas da LN eram populares Havia uma grande comunidade de lingistas trabalhando com dados quantitativos nos EUA e Europa, estudando mtodos para aprender informaes lxicas e sintticas de crpus

Gramtica Gerativa: fins dos 50s inicio dos 60s

A nfase em julgamentos intuitivos sobre a gramaticalidade de textos ocasionou um confronto com os lingistas quantitativos Primeiro, Chomsky defendeu que lingistas no deveriam ser meramente descritivos, mas sim Segundo, Chomsky argumentou contra o aprendizado de uma lngua a partir de crpus, pois acreditava que partes principais da linguagem so inatas e no aprendidas A abordagem empirista tambm postula que existe alguma habilidade cognitiva presente no crebro. A diferena entre as abordagens no absoluta mas de grau Polarizao de opinies; nenhuma interao produtiva 9

70s e 80s

Poucos grupos de PLN persistiram na abordagem probabilstica A abordagem baseada em regras dominou o campo, mesmo nas equipes industriais que trabalhavam com PLN A comunidade de TF amadureceu e deu nfase para a induo de modelos estatsticos da lngua a partir de dados de treinamento

Fim dos 80s e comeo dos 90s

O campo de PLN deu um giro radical devido a duas razes: incentivo da DARPA para a unio das 2 abordagens o aumento da disponibilidade de textos eletrnicos Os problemas da comunidade de lingistas computacionais estavam sendo resolvidos com sucesso pela comunidade de TF que utilizava aprendizado a partir de crpus em vez de construir manualmente regras para tratar estes problemas A princpio, o interesse por mtodos estatsticos baseados em corpus esquentou as controvrsias entre racionalismo vs. empirismo; as 10 tcnicas simblicas vs. estatsticas

1994: The Balancing Act Workshop nos EUA

Foi planejado quando havia grande alvoroo nas duas comunidades:

mesmo que partes das comunidades estivessem trabalhando nas mesmas bases, no havia entrosamento para mostrarem os resultados.

Comeou a busca pela combinao de abordagens.

Fillmore 1992 in Svartvik (ed), p.35

I dont think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore; all that I have seen are inadequate Every corpus that I've had a chance to examine, however small, has taught me facts that I couldn't imagine finding out about in any other way

My conclusion is that the two kinds of linguists need each other. Or better, that the two kinds of linguists, wherever possible, should exist in the same body.
11

Por que as coisas mudaram???

Cada comunidade precisa da experincia da outra:

abordagens quantitativas facilitam


a aquisio automatizada ou semi-automatizada de conhecimento, somam robustez e cobertura a sistemas de PLN restritos, e permitem a extenso ou transporte para um novo conjunto de dados, nova tarefa ou domnio

abordagens quantitativas so dependentes da natureza dos dados utilizados e assim precisam tambm

de conhecimento lingstico; mtodos indutivos tem melhor desempenho quando guarnecidos com conhecimento inicial preciso

Computadores mais rpidos, armazenagem mais barata e iniciativas para a construo de crpus se tornaram regra e no exceo.
12

Necessidade da construo de sistemas que trabalham no mundo real e no mais os tradicionais sistemas de PLN que trabalhavam em domnios restritos.

Esta virada pede as vantagens de mtodos quantitativos, pois essas aplicaes trabalham com dados incorretos e, ao mesmo tempo os usurios esto se ajustando para aceitar resultados menos perfeitos.

Com as mudanas polticas e econmicas ocorridas no mundo, h uma grande nfase em resultados e avaliaes

caso das avaliaes conjuntas e da disponibilizao na Web de dados de treinamento para comparao de abordagens.

O prprio pndulo intelectual, mesmo em outras reas de pesquisa, est voltando para o empirismo,

procurando a construo de modelos da lngua que levem em conta a incerteza e a variabilidade.


13

E a Lingstica de Crpus? O que ela pode oferecer aos lingistas tradicionais?

Comeo dos anos 90s: utilizava-se os termos abordagem baseada em crpus ou Anlise Textual Atualmente, existem vrias conferncias, incluindo a bianual Corpus Linguistics nas quais o pblico alvo diverso: tanto da computao como lingstica; livros; crpus em vrias lnguas e ferramentas disponveis na Web.

Essa rea oferece uma oportunidade para:

Lingistas tradicionais trabalharem de uma nova forma com as velhas disciplinas (como faz o lingista computacional) e juntamente com pesquisadores de PLN em outras tarefas que provavelmente nunca pensou em trabalhar!

reas de Pesquisa: compilao de crpus (crus ou anotados); desenvolvimento de ferramentas; descrio da linguagem; aplicao de crpus (ensino de lnguas, reconhecimento de voz, traduo, etc.) uma rea onde todos tem muito a aprender pode ser a melhor chance 14 que temos de comear a trabalhar de forma diferente

Bibliografia
Brill,

E. and Mooney, R. An Overview of Empirical Natural Language Processing, AI Magazine, Winter 1997, p. 13-24. Klavans, J. and Resnik, P. The Balancing Act Combining Symbolic and Statistical Approaches to Language, The MIT Press, 1996. Church, K. and Mercer, R. Introduction to the Special Issue on Computational Linguistics Using Large Corpora, Computational Linguistics 19, p. 1-24, 1993. Chris Manning and Hinrich Schtze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. Daniel Jurafsky & James H. Martin. Speech and Language Processing. Prentice-Hall, 2000.
15

Exemplos de trabalhos e forma de trabalho no NILC

The Ncleo Interinstitucional de Lingstica Computacional (NILC) was created in 1993 to foster research and development projects in Computational Linguistics and Natural Language Processing, such as Corpus and Lexicon Development, Automatic Summarization, Machine Translation, Writing Supporting Tools. Though it was originally conceived by scientists from the Department of Computer Science and Institute of Physics from the Universidade de So Paulo (USP) in So Carlos, it now includes computer scientists, linguists and research fellows from Universidade Federal de So Carlos (UFSCar), Universidade Estadual Paulista (UNESP) of Araraquara.

O ReGra foi a aplicao que deu origem ao NILC, em 1993, com financiamento da ITAUTEC-Philco e agncias do governo
16

Comentrios sobre os trabalhos

ReGra

Treinamento de Etiquetadores Morfossintticos (taggers) a partir de grandes crpus


Extrao Automtica de Terminologia Aprendizado Automtico dos elementos da Estrutura Esquemtica de Artigos Cientficos

Todos os trabalhos acima utilizaram crpus de formas diferentes:


controlar a intuio lingstica; avaliao; anotar caractersticas manualmente, semi-automaticamente e automaticamente; treinamento de classificadores; extrao de informao.
17

ReGra

Corretor gramatical (baseado na gramtica normativa) inserido no Office


Criado um crpus (o Crpus NILC com 35 milhes de ocorrncias) com uma organizao especial em 3 conjuntos: textos corrigidos textos semicorrigidos textos no-corrigidos Gramtica do ReGra: criada manualmente segundo a abordagem simblica (regras). A gramtica do ReGra ser usada em uma ferramenta para criao de um crpus de desvio para anotar automaticamente os erros e permitir a sub-classificao manual deles e assim diminuir o tempo de anotao. usada na ferramenta de suporte escrita SCIPO Crpus: usado para levantamento de padres e avaliao do desempenho
18

Taggers do Lcio-Web

Anotam automaticamente as sentenas de um texto com categorias gramaticais.


Certos algoritmos de treinamento exigem grande quantidade de palavras anotadas manualmente, cerca de 1 milho. O Mac-Morpho (Lcio-Web) possui ~ 1,2 milhes de palavras Treinados 3 taggers que usam modelos diferentes para futuramente criar um outro seguindo o modelo de combinao de classificadores para salientar os acertos dos 3 e evitar os seus erros.

Um dos modelos simblico (Brill), pois usa regras para representar o conhecimento aprendido ( vantagem de ser legvel por humanos, comparado com grandes matrizes de probabilidades)

Crpus: usado para treinar classificadores segundo um aprendizado supervisionado que exigiu a anotao manual de cada palavra do crpus de treinamento (80%) No foi feita nenhuma incluso de conhecimento lingstico para psprocessamento ou melhorar a marcao de palavras desconhecidas 19

Extrao automtica de terminologia

Extrao de listas de candidatos a termos de um dado crpus de textos tcnicos/cientficos. Existem 3 tipos de mtodos: estatsticos, lingsticos e hbridos (combinao dos 2 primeiros) Projeto ExPorTer avaliou algoritmos dos 3 mtodos; hbrido teve melhor desempenho em 2 crpus diferentes. Crpus: usado como fonte da extrao. No h aprendizado da tarefa. No mtodo estatstico, h o clculo de medidas estatsticas de associao para n-gramas (informao mtua, log-like, etc.) No mtodo lingstico, h a aplicao de taggers, uso de padres lingsticos (subs-adj, subs-prep-subs) e padres de definio/descrio para localizar o ponto de extrao
20

Classificador da estrutura esquemtica de artigos

Anota automaticamente uma seo de um artigo com os elementos de uma estrutura esquemtica pr-definida
Dada uma estrutura esquemtica de uma seo do artigo, por exemplo o Resumo: Contexto, Lacuna, Propsito, Metodologia, Resultado, Concluso, Estrutura o classificador utiliza um crpus com suas sentenas manualmente anotadas com os elementos acima, mas no trabalha com as sentenas diretamente e sim com vetores de atributos dessas sentenas: Tamanho, localizao, presena de citaes, presena de expresses formulaicas, tempo, voz, presena de auxiliar modal, histrico Crpus:

usado para treinar o modelo de anotao com um aprendizado supervisionado; as sentenas so tambm processadas para criao dos atributos e nessa fase so utilizadas vrias fontes de conhecimento lingstico como taggers, regras sintticas, listas de expresses padres, etc. 21

O Projeto Lcio-Web (LW) (1)


Projeto de 30 meses, financiado pelo CNPq e concludo em junho/ 2004

Objetivos:

Desenvolvimento e distribuio gratuita na Web de vrios tipos de crpus; Elaborao de ferramentas de anlise de lingstica:

Anlise Qualitativa: construo de dicionrios, descrio da lngua, etc.; Anlise Quantitativa: estatsticas dos dados para etiquetadores, extratores, corretores, etc.;

Principais caractersticas:

Tipologia ortogonal e quadripartida de classificao de textos:

privilegia o Gnero, Tipo de Texto, Domnio e Meio de Distribuio;

Autorizao de uso dos textos; Interfaces de pesquisa e montagem de subcrpus via Web.
22

O Projeto Lcio-Web (LW) (2) LW 6 crpus


Lcio-Ref
aberto, sincrnico, PB contemporneo

No implementados. Futuras pesquisas de mestrado e doutorado Lcio-Sint Lcio-Dev

Mac-Morpho

Par-C
aberto, paralelo (ingls-portugus)

Comp-C

fechado, etiquetado etiquetado aut. aut. fechado, com lemas, lemas, etiquetas etiquetas com morfossintticase e sintticas. sintticas. morfossintticas

fechado, anotado morfossintaticamente (manualmente)

aberto, comparvel (textos jurdicos ingls-portugus)

aberto, textos textos no no aberto, revisadosem em relao relao revisados norma norma culta culta

Todos implementados com cabealhos em XML com classificaes tipolgicas e bibliogrficas e informaes sobre o conjunto de caracteres.
23

O Projeto Lcio-Web (LW) (3)

Interfaces de Pesquisa e Montagem de Subcrpus:


Pesquisa

Simples: a mais genrica e considera apenas 3 campos de pesquisa (Meio de Distribuio, Supergenro e Gnero) ; Pesquisa Avanada: a intermediria e permite um refinamento dos campos de pesquisa;

Pode apresentar at 6 campos;

Pesquisa

Personalizada: a mais refinada e permite um recorte especfico do subcrpus.


Pode apresentar at 15 campos;

24

O Projeto Lcio-Web (LW) (4)

Interfaces de Ferramentas para aplicao nos subcrpus montados:


Contadores de Freqncia: Padro e Por Palavra: tratamento de lexia complexa (nomes prprios e palavras compostas); Concordanciadores; Etiquetadores

Morfossintticos: TreeTagger, Bril e

MXPost;

25

Material do LW e Disponibilizaes Pblicas

Material Institucional:

Fundao Victor Civita - Editora Abril, Fapesp, Associao Brasileira de Cermica, Folha de So Paulo, USP, Editora Guanabara Koogan, and Revista Brasil de Literatura Editora.

Material Individual:

teses e dissertaes - site SABER Pesquisadores do NILC (com artigos, teses e relatrios tcnicos).

Primeira disponibilizao em 20/1/2004; segunda em 30/6/2004; anncio em vrias listas relacionadas a crpus, por exemplo corpus-brasil@yahoogroups.com Existe ainda material autorizado para ser disponibilizado.
26

Pgina Principal do Portal (em Portugus)

27

Os corpora disponveis

28

Tipos de Pesquisa e Arquivos Disponveis

29

Pesquisa Simples

30

Informaes adicionais

31

Montagem de um subcorpus

32

Finalizando o subcorpus

33

Download e Ferramentas

34

Contadores de Freqncia

35

Tela de resultado dos Contadores de Freqncia

Estou coletando a fala de seis crianas com idades entre 1 e 3 anos, num intervalo de aproximadamente quinze dias. O objetivo formar um banco de dados longitudinal para descrever aspectos da aquisio lexical, tais como freqncia, vizinhana, essas coisas, que podero ser utilizadas em outros trabalhos. A minha tese especificamente vai estar centrada em ... Paralelo a isto, porm, estou fazendo uma descrio do vocabulrio das crianas em termos de freqncia, campo semntico, classe gramatical, tonicidade, nmero de slabas e tipo de slabas. nesses aspectos que gostaria de utilizar os dados que acho que vcs dispe, a fim de comparar a aquisio lexical infantil com dados do portugus como um todo. Ou seja: gostaria de saber se vcs. tem dados como: que classe gramatical mais freqente? Existem mais palavras disslabas ou trisslabas? Qual a porcentagem de paroxtonas? essas coisas.
36

O Concordanciador

37

Resultado do Concordanciador

38

Contexto ampliado do Concordanciador

39

LW em Nmeros

Lcio-Ref pretende ser um grande crpus de Referncia do PB, funcionando, por exemplo, como crpus de controle para comparao com um dado crpus de estudo.

4,278 arquivos 8,291,818 ocorrncias

Par-C (crpus paralelo)

646 arquivos em ingls e 646 in Portugus da Revista Pesquisa Fapesp 893,283 ocorrncias

Comp-C (gerador de crpus comparveis)


Textos originais em Ingls e Portugus obtidos com uma ferramenta de busca Crpus de Referencia de Textos em Ingls (Ref-Ig) para o domnio jurdico 29 arquivos e 61,149 ocorrncias

No total, LW tem 5,708 files e 10,413,524 ocorrncias


40

Distribuio Final dos Textos no LW

41

O Lcio-Web hoje:

um Portal de acesso a crpus que disponibiliza gratuitamente:


4 tipos distintos de crpus; ferramentas lingstico-computacionais para aplicao em subcrpus; 3 tipos de interfaces de pesquisa e montagem de subcrpus; ambiente de navegao dinmica e didtica que incentiva o uso de crpus

Futuramente, o Lcio-Web receber ferramentas desenvolvidas em projetos do NILC como alinhadores de sentena, extratores de termos etc.

Ser que precisamos de um Crpus Nacional do Portugus Brasileiro, seguindo os moldes dos megacrpus BNC e ANC?
42

Projetos de Megacrpus

Contribuem para:

Descrio e ensino da lngua Desenvolvimento de Ferramentas de PLN Criao de recursos (gramticas e dicionrios)

Como o custo de criar e anotar crpus muito alto tanto em recursos financeiros como em demanda de pessoal especializado, agncias finnaciadoras e pesquisadores esperam amortizar esse custo pelo reuso desse recurso em mais de um projeto e por mais de um grupo de pesquisa, incluindo sua distribuio mundial.

O alto custo tambm fora o desenvolvimento de arquiteturas de dados, formatos de codificao e formalismos de anotao para os recursos de lngua que possibilitaro o intercmbio Um exemplo o padro XCES, (usa XML) que est sendo desenvolvido pelo grupo do projeto ANC ao mesmo tempo da criao do megacrpus
43

Tipos de informaes relevantes para codificao


CES
1 Documentation (header): bibliographic description of the document, character set, description of encoding convention, etc. 2 Primary data 1.1 Gross structure: volume, chapter, paragraph, footnotes, titles, tables, figures, etc. 1.2 Sub-paragraph structures: sentences, quotations, words, abbreviations, dates, highligted words, etc. 3 Linguistic annotation: linguistic information about segments e.g., POS and syntactic tagging, alignment of parallel texts.

XCES valida a arquitetura de dados CES, na qual anotao lingstica (incluindo o cabealho) so mantidas em documentos separados que apontam o original, gerando um hiperdocumento composto do texto origina e todas as anotaes
44

Codificao dos Crpus do LW Crpus do LW


Lcio-Ref
Aberto, sncrono, PB contemporneo

Mac-Morpho

Par-C
Aberto, aberto, paralelo paralelo (Ingls-Portugus) (ingls-portugus)

Comp-C

Fechado, fechado, anotado anotado morfossintaticamente manualmente com (manualmente) etiquetas POS

aberto, comparvel (textos aberto, comparvel jurdicos P-I) (textos jurdicos Lcio-ref + Ref-Ig ingls-portugus)

Lcio-Ref, Par-C e Comp-C: cabealho XML com info bibliogrfica e tipologias, conjunto de carcateres e codificao. Inserido manualmente
Mac-Morpho: 2 formatos: 1) buscas --- etiquetas XML para nome do arquivo, ttulo, subttulo, pargrafo, sentena; 2) treinamento de taggers --- pares palavratag 45 separados por linhas

Cabealho do LW
<?xml version="1.0" encoding="ISO-8859-1"?> <header> <>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referncia</corpus> <nPages>1</nPages> Supergnero, Gnero, Subgnero, Tipo de Texto, Meio de <nWords>311</nWords> Distribuio, Domnio, Subdomnio; <sample>ntegra</sample> </title> <>...</> <textClassification> Nome do Autor, Editor, Local de Publicao, Data, Titulo, Subttulo, <textGenre> Lngua, Nmero de Pginas, Nmero de Palavras etc.; <genre>Informativo</genre> <subgenre>Jornalstico</subgenre> </textGenre> <textType>Notcia</textType> <domain> <generalDomain defined="annotador-def">Cientfico/Cincias Biolgicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Cientfico/Cincias Agrrias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinria</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification> </header>

Conjunto de caracteres e codificao

Cabealho de classificao em XML:


Informaes Tipolgicas:

Parte da Descrio Bibliogrfica

Informaes Bibliogrficas:

Gnero e Sub-gnero

Tipo de Texto

Domnio e Sub-domnio

Meio de Distribuio

46

Cabealho do LW
Base de Dados
<?xml version="1.0" encoding="ISO-8859-1"?> <header>

<>...</> <title> <fileName>RE-IF-F-ci-ago02_01.txt</fileName> <corpus>Referncia</corpus> Text <nPages>1</nPages> X Y Z K C N ... ... <nWords>311</nWords> <sample>ntegra</sample> </title> Dist. <>...</> K ... <textClassification> Domain Subdomain <textGenre> <genre>Informativo</genre> N ... C ... <subgenre>Jornalstico</subgenre> </textGenre> <textType>Notcia</textType> <domain> <generalDomain defined="annotador-def">Cientfico/Cincias Biolgicas</generalDomain> <specificDomain>Ecologia</specificDomain> <generalSecondaryDomain defined="annotador-def">Cientfico/Cincias Agrrias</generalSecondaryDomain> <specificSecondaryDomain>Medicina Veterinria</specificSecondaryDomain> </domain> <distribution>Revista</distribution> </textClassification> </header>

Genre X ...

Subgenre Y ... Text type Z ...

47

Corpo do Texto - LW

Texto e cabealho esto juntos em um arquivo

No estamos seguindo a arquitetura de dados usada no XCES.

No anotamos em XML vrios elementos da gross structure, por exemplo, captulos, pargrafos, sub-pargrafos, notas de rodap

Esses elementos esto formatados e padronizados para permitir visualizao fcil com quebra de linhas, caixa-alta, etc.

Somente a anotao de elementos grficos, bibliografia, palavras-chave e resumo foram feitas em XML

Palavras com nfase foram perdidas quando o texto foi convertido no formato txt (foi uma opo de projeto)

48

Mestrado em Estudos Lingsticos na UFSCar

Em julgamento pela CAPES; resposta no prximo dia 21/12


A linha Linguagem Humana e Tecnologia, comea com 3 pesquisadoras do NILC (Gladis Maria de Barcellos Almeida, Lcia Helena Machado Rino e Sandra Maria Alusio) e foi pr-avaliada com elogios por trazer um diferencial. Aceitar alunos da Computao e da Lingstica trabalhando com as abordagens baseada em crpus e simblica e, principalmente, com a combinao dessas Disciplinas Iniciais:

Introduo a Metodologias Baseadas em Conhecimento Lingstica de Corpus Introduo ao Processamento de Lnguas Naturais (PLN) Terminologia e Ferramentas Computacionais Sumarizao Automtica (SA) Seminrios de Linguagem Humana e Tecnologia

49

Links interessantes

Site do NILC: http://www.nilc.icmc.usp.br/nilc/index.html

Arquivo das mensagen das lista corpora: http://nora.hd.uib.no/corpora/archive.html Site da Linguateca crpus e ferramentas: www.linguateca.pt Obrigada!
50

Você também pode gostar