Você está na página 1de 23

Trabalhando com Corpora

Marcelo Ferreira ; Marcos Lopes \n

outubro de 2016 \n
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Tpicos

1. Corpora

2. Arquivos de texto

3. Contagens

4. Buscas e Colocaes

5. Gravando
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. O que corpus?

Conjunto dos materiais a serem analisados


sempre um produto j acabado (e no regras para virtuais
realizaes)
Por maior e mais representativo que seja, jamais representa
todas as possibilidades da lngua
Mesmo assim, todo o material de que dispe o linguista que
vai trabalhar com o corpus (no se pode acrescentar nada)
Em geral, o trabalho com corpus se faz com contagens
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. O que corpus?

Conjunto dos materiais a serem analisados


sempre um produto j acabado (e no regras para virtuais
realizaes)
Por maior e mais representativo que seja, jamais representa
todas as possibilidades da lngua
Mesmo assim, todo o material de que dispe o linguista que
vai trabalhar com o corpus (no se pode acrescentar nada)
Em geral, o trabalho com corpus se faz com contagens
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. O que corpus?

Conjunto dos materiais a serem analisados


sempre um produto j acabado (e no regras para virtuais
realizaes)
Por maior e mais representativo que seja, jamais representa
todas as possibilidades da lngua
Mesmo assim, todo o material de que dispe o linguista que
vai trabalhar com o corpus (no se pode acrescentar nada)
Em geral, o trabalho com corpus se faz com contagens
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. O que corpus?

Conjunto dos materiais a serem analisados


sempre um produto j acabado (e no regras para virtuais
realizaes)
Por maior e mais representativo que seja, jamais representa
todas as possibilidades da lngua
Mesmo assim, todo o material de que dispe o linguista que
vai trabalhar com o corpus (no se pode acrescentar nada)
Em geral, o trabalho com corpus se faz com contagens
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. O que corpus?

Conjunto dos materiais a serem analisados


sempre um produto j acabado (e no regras para virtuais
realizaes)
Por maior e mais representativo que seja, jamais representa
todas as possibilidades da lngua
Mesmo assim, todo o material de que dispe o linguista que
vai trabalhar com o corpus (no se pode acrescentar nada)
Em geral, o trabalho com corpus se faz com contagens
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Tipos de corpora

H basicamente quatro tipos de corpora:


Texto bruto
Anotado (ex. marcas sintticas)
Estruturado (bancos de dados; planilhas; etc.)
Hierarquizado (XML; ontologias; etc.)
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Tipos de corpora

H basicamente quatro tipos de corpora:


Texto bruto
Anotado (ex. marcas sintticas)
Estruturado (bancos de dados; planilhas; etc.)
Hierarquizado (XML; ontologias; etc.)
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Tipos de corpora

H basicamente quatro tipos de corpora:


Texto bruto
Anotado (ex. marcas sintticas)
Estruturado (bancos de dados; planilhas; etc.)
Hierarquizado (XML; ontologias; etc.)
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Tipos de corpora

H basicamente quatro tipos de corpora:


Texto bruto
Anotado (ex. marcas sintticas)
Estruturado (bancos de dados; planilhas; etc.)
Hierarquizado (XML; ontologias; etc.)
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Manipulando arquivos

No Python, pode-se abrir um arquivo de texto bruto para leitura


(r) ou escrita (w).
Em nossos exemplos, vamos percorrer o arquivo linha por linha.
1 arquivo = open("Abolicionismo2.txt", "r", encoding="utf-8")

2 for linha in arquivo:


3 print (linha)

4 arquivo.close()

.
.
Ateno!
. Deixar um arquivo aberto pode levar a perda de dados!
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Exerccios

1 . Escreva um programa que abra o arquivo


Abolicionismo2.txt e conte todas as palavras nele contidas
.2 Acrescente ao programa o recurso de tambm contar as
palavras sem repetio
.3 Por m, o programa tambm deve contar:
Nmero total de caracteres
Nmero de linhas
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Exerccios

1 . Escreva um programa que abra o arquivo


Abolicionismo2.txt e conte todas as palavras nele contidas
.2 Acrescente ao programa o recurso de tambm contar as
palavras sem repetio
.3 Por m, o programa tambm deve contar:
Nmero total de caracteres
Nmero de linhas
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Exerccios

1 . Escreva um programa que abra o arquivo


Abolicionismo2.txt e conte todas as palavras nele contidas
.2 Acrescente ao programa o recurso de tambm contar as
palavras sem repetio
.3 Por m, o programa tambm deve contar:
Nmero total de caracteres
Nmero de linhas
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Exerccios

1 . Escreva um programa que abra o arquivo


Abolicionismo2.txt e conte todas as palavras nele contidas
.2 Acrescente ao programa o recurso de tambm contar as
palavras sem repetio
.3 Por m, o programa tambm deve contar:
Nmero total de caracteres
Nmero de linhas
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Exerccios

1 . Escreva um programa que abra o arquivo


Abolicionismo2.txt e conte todas as palavras nele contidas
.2 Acrescente ao programa o recurso de tambm contar as
palavras sem repetio
.3 Por m, o programa tambm deve contar:
Nmero total de caracteres
Nmero de linhas
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Agrupamentos por tipos

As ocorrncias concretas de expresses (por ex., palavras) podem


ser categorizadas em tipos.
O quociente:
tipos
ocorrncias
uma forma simples de se avaliar a riqueza lexical de um corpus.

Exerccio: calcule a riqueza lexical de O Abolicionista.


Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Ocorrncias dos tipos

Pode ser interessante avaliar os tipos mais frequentes em um


corpus (suas palavras mais frequentes, por ex.).
Para isso, um dicionrio em Python muito til, pois ele permite
associar valores numricos (ocorrncias, no caso) a entradas
(tipos).
Registradas as ocorrncias, ser preciso transformar o dicionrio
em uma lista de tuplas (valor, entrada) para poder orden-lo.
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Buscas
O recurso computacional mais simples a ser empregado no
trabalho com corpus , provavelmente, a busca.
A busca deve no somente conrmar a ocorrncia de uma
expresso (palavra ou sintagma) no corpus como ainda listar essas
ocorrncias seguindo algum tipo de ordenao.
1 expressao = input("Expresso a buscar: ")

2 arquivo = open("Abolicionismo2.txt", "r", encoding="utf-8")

3 LinhasEncontradas = 0
4 for linha in arquivo:
5 if (expressao in linha):
6 LinhasEncontradas = LinhasEncontradas + 1
7 print (str(LinhasEncontradas) + "\t" + linha)

8 arquivo.close()
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Colocaes

Colocaes so palavras ou grupos de palavras que habitualmente


co-ocorrem no uso concreto da lngua.
As razes para a co-ocorrncia podem ser de ordem sinttica,
fonolgica ou semntica.
De acordo com o fenmeno estudado, pode-se restringir ou ampliar
a janela da colocao para n slabas ou palavras.
A m de explicitar contextos, comum exibir palavras vizinhas
(para frente e para trs) da expresso pesquisada, destacando-se
visualmente esta ltima.
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Gravando os resultados em disco

Em geral, os resultados de ordenaes de corpus ou de colocaes


so numerosos ou complexos demais para ser analisados na tela.
Ou, ainda, voc vai querer grav-los permanentemente,
submet-los a anlises estatsticas, produzir grcos, etc.
Em todos esses casos, o mais simples a fazer gerar um arquivo no
formato CSV com os resultados. Esses arquivos so facilmente
manipulveis por programas estatsticos ou processadores de texto.
Corpora Arquivos de texto Contagens Buscas e Colocaes Gravando

. Gerando um arquivo .CSV

1 ## Gravando os dados em um arquivo .CSV:


2 arquivo = open("PalavrasFrequentes.csv", "w") #w = gravar

3 #Escreve o cabealho (note: o ponto-e-vrgula e \n)


4 arquivo.write("PALAVRA ; OCORRNCIAS \n")

5 for frequencia, palavra in t[0:20]:


6 arquivo.write(palavra + ";" + str(frequencia) + "\n")

7 arquivo.close()