Você está na página 1de 11

COLETA DE CORPUS

NA WEB
CURSO BÁSICO
José Antonio V. S. de M. Oliveira
Aula 5 – Junho/2010
Revisão de Expressões Regulares

 Ponto
 Lista
 Lista negada
 Opcional
 Asterisco
 Mais
Revisão de Expressões Regulares

 Chaves {n,m}
 Âncoras(^$)
 Borda
 Escape
 Ou
 Grupo
 Retrovisores
 Barra-Letra
Cygwin
 Cygwin é um sistema UNIX que é executado em um
ambiente Windows.
 UNIX é um padrão de sistema operacional criado em 1969
pela AT&T
 Ramificou-se em vários sistemas (Linux, MacOSX, BSD,
Solaris, HP/UX etc.)
 O Cygwin evita que se tenha um computador só com
Unix ou uma instalação de Máquina Virtual no
Windows.
 Instalação simples e direta
 Sempre que precisar de um pacote que ainda não esteja
instalado execute o Setup.exe
Porque um UNIX?
 É possível fazer as mesmas coisas de outro jeito no
Windows, mas com mais dificuldade.
 A Internet nasceu e cresceu baseada em
computadores com o Sistema Operacional UNIX.
 Já existem centenas de programas e pacotes
desenvolvidos para UNIX que ainda não existem
ou ainda estão “engatinhando” no Windows.
Shell
 Shell – Aquela tela preta cheia de letras...
 Serve de interface entre o usuário e o sistema operacional
 Interpretador de comandos e de scripts simples
 O Shell não morde! Ele é seu amigo! 
Shell
 Tudo é cAsE-SeNSiTivE no Cygwin (no UNIX em
geral)
 comando ≠ Comando ≠ cOmanDo
 Comandos básicos:
 ls : Lista os arquivos de uma pasta
 ls –ls
 cd : muda a pasta atual
 cd /cygdrive/c/
 cd ..
 cd /
 mkdir : Cria uma pasta
 mkdir /cygdrive/c/corpusweb/
Shell
 rm : Apaga um arquivo
 rm arquivo.txt (apaga o arquivo.txt)
 rm * (apaga tudo! Cuidado com os curingas)
 more : Exibe na tela o conteúdo do arquivo
 more arquivo2.txt
 ps : lista os processos em execução
 Cada processo tem um identificador chamado PID
 kill -9 : termina o processo (envia sinal de saída)
 kill -9 1234 (Termina o processo com PID 1234)
 man : Exibe o manual de um comando
 man ps
 man rm
Shell
 Encadeando comandos com “|” (pipe)
 ls -ls | more (executa o comando ls -ls e envia o
resultado para o comando more)
 Guardando o resultado com “>” e “>>”
 ls -ls > saida.txt (guarda o resultado do comando ls -ls
no arquivo saida.txt, sobrescrevendo)
 ls -ls >> saida.txt (guarda o resultado do comando ls
-ls no arquivo saida.txt, concatenando com o conteúdo
que existir)
Arquivos
 Pastas (diretórios) e arquivos têm permissões
(escrita, leitura e execução)
 Nomes com espaços precisam ser “escapados”
(Lembre-se das ER)
 Meus\ arquivos\ recebidos
 Pastas “.” e “..”
 Arquivos ocultos
 .arquivo_oculto
grep
 Comando para casar Expressões regulares em
arquivos. (Sigla “Global Regular Expression Print)
 grep -e‘expressão regular’ arquivo
 grep -e'<summary[^>]*>[^<]*<\/summary>'
feed.atom

Você também pode gostar