Escolar Documentos
Profissional Documentos
Cultura Documentos
8, Rue du prado - 31 100 Toulouse - France Tl: +33 (0)5 61 33 10 07 - Fax: + 33 (0)5 61 33 10 43
Web : www.image-zafar.com
VOCABULRIO DE BASE
O corpus
Entenderemos por corpus um conjunto de textos reunidos. Supomos que este conjunto foi reunido em funo de um objetivo particular, ou seja, que ele constitui um objeto para o analista, por exemplo, um conjunto de entrevistas ou de respostas uma questo aberta, uma obra literria, um conjunto de artigos sobre um tema dado, etc.
Introduo
A utilizao da analise dos dados pela descrio das estruturas textuais datada do comeo desta disciplina (Benzcri 1962); Contudo, foi bem depois que os softwares de analise de dados textuais apareceram. Os estudos efetuados foram bem orientados para uma abordagem puramente formal das estruturas textuais (Lebart, Salem), eles se foca principalmente em comparar as distribuies de palavras entre diferentes textos; isto no impede as diferenas de ponto de vista dependentes do tipo de corpus tratado, do tipo do contedo ser revelado, ponto de vista que, em definitivo, imprime sua marca na maneira na qual definimos os contextos e as unidades textuais serem contadas. Que formas grficas devem ser mantidas? Devemos ou no rejeitar algumas da analise? Procuramos comparar sua distribuio em diversos textos ou, ao contrrio, descrever sua organizao em um corpus particular? Que tipo de corte para reter o estudo das distribuies? A metodologia ALCESTE trs respostas estas questes. Ela trs a marca de uma dupla experincia (abordagem formal, categorizao conceitual) e se as dificuldades encontradas foram afastadas da metodologia da analise do contedo tradicional para a abordagem de um tipo de analise mais lexical, certos esquemas metodolgicos foram, contudo, conservados como por exemplo a noo de unidade de contexto.
Entendemos por unidade de contexto, todo segmento de texto podendo servir de suporte ao estudo das coocorrncias*. Estas unidades de pequena dimenso, e sero consideradas como instantneas no movimento do senso, da mesma maneira que uma foto d um instantneo no movimento de um local, o objetivo da analise de fornecer uma descrio tipolgica destes instantneos com a ajuda de ligaes entre estas unidades de contexto, implicadas pelas coocorrncias entre as formas (pressupondo que as unidades de contexto associadas ao mesmo tipo de formas provm, mais provavelmente, de um mesmo domnio de utilizao que chamaremos de mundo Para esta descrio, utilizamos um mtodo de classificao hierrquica descendente, que permite diferenciar diversos nveis de partio de todas as unidades de contexto de mesmo perfil podendo servir de base para uma analise no corpus.
* Chamamos ocorrncia a apario de um elemento da lngua em um texto. Chamamos coocorrncia a apario simultnea de duas unidades lingusticas.
Classificao simples
Fazemos uma nica classificao nas unidades de contexto (U.C.), a priori suas unidades de contexto. O utilizador pode Ento definir Geralmente uma classificao simples apropriada quando o corpus de pequeno tamanho ou quando tratamos de respostas a questes abertas.
Classificao dupla
Como indica seu nome, efetuamos duas classificaes sucessivas sobre as unidades de contexto de grandeza ligeiramente diferente. O comprimento destas unidades de contexto em nmero de palavras calculado por Alceste seguindo o tamanho e a natureza do corpus a ser tratado. Uma classificao dupla tem por vantagem descartar todo risco devido ao cortar e assegurar a estabilidade. Tal classificao apropriada no caso de um corpus grande.
* Esse nmero de palavras analisadas diferentes deve ser superior a uma limiar , o valor de calculado pelo software seguindo o tamanho do texto analisar.
IMAGE
IMAGE
Exemplo : Eis um exemplo de reagrupamento de unidades de contexto elementares U.C.E. em unidades de contexto U.C. para uma classificao dupla, esse agrupamento se faz, naturalmente, no interior de cada U.C.I.
U.C.I.
U.C.E. 1 U.C.E. 2 U.C.E. 3 U.C.E. 4 U.C.E. 5 U.C.E. 6
U.C. 1
U.C. 2
U.C. 3
Observamos assim que neste caso o reagrupamento das U.C.E. juntas a 3 U.C., as unidades de contexto U.C.1, U.C.2, e U.C.3 assim constitudas esto destinadas a uma Classificao Descendente Hierarquica.
Essas informaes so introduzidas com a ajuda de palavras comeando por um smbolo estrela (*Sexo, *Idade, etc.), de onde vm as informaes das palavras estreladas ou fora do corpus (Cf pgina 9). Observao : No documento Como preparar o copus, voc achar as mais amplas informaes sobre a preparao e limpeza de um corpus. Este documento pode ser baixado no site www.image.cict.fr.
amarelo de
* O Chi ou Chi-dois ou de Karl Pearson usado para testar a independncia das linhas e
das colunas do quadro, falamos tambm da mtrica ou da distancia do Chi
2.
IMAGE
Abaixo o quadro:
.........Formeai..................Formap
ij
ij
Este mtodo utilizado para descrever com a ajuda de alguns fatores a estrutura de um quadro de coocorrncias. Os quadros submetidos A.F.C. no Alceste crescem o vocabulrio conseguido com as classes das U.C.E. Nosso objetivo de dar uma representao espacial esquemtica de relaes entre classes.
Esse quadro (I x J) destinado classificao um quadro binrio de presena-ausncia. O quadro dividido em seguida em duas partes distintas seguindo as linhas como indica o esquema abaixo:
( I1 x J ) ( I2 x J )
a) Como complemento a uma ajuda representao de ligaes entre classes; b) Para apresentar relaes locais entre formas de uma mesma classe. Para mais detalhes deste procedimento nos referimos biografia. O quadro de partida sempre um quadro de presena-ausncia. O objetivo de representar por uma rvore de relaes entre os perfis colunas desse quadro. Para isso, as colunas so representadas pelos pontos em um espao particular. Um quadro de distncias calculado entre pontos. Agregamos, em seguida, a cada passo, os dois pontos mais prximos substituindo-os por um ponto mdio. Procedemos assim at no haver mais que um nico ponto resultante. O critrio de distancia utilizado aqui a inrcia inter-classe calculada com a mtrica do Chi-dois, a classificao assim obtida representada por uma rvore hierrquica chamada dendrograma da classificao ascendente (ver exemplo detalhado na pgina 14).
A Partir desta partio, criamos duas sob o conjunto J1 et J2 formas do tipo que aparece nos quadros (I1
J1) e (I2
( I1 x J1 )
Forte densidade em 1
0
( I2 x J 2 )
forte densidade em 1
Na etapa seguinte, a analise se concentra no maior dos sub-quadros (em nmero de linhas). Nesse caso, trabalharemos nos (I1 x J1) ou (I2 x J2), assim por diante at a obteno de um nmero de classes terminais predefinidas antecipadamente, por padro 10 classes; o utilizador pode modificar este parmetro em funo da natureza de seu corpus.
IMAGE
IMAGE
Diferentes dicionrios permitem identificar as locues, as palavras ferramentas e efetuar uma lematizao nas formas textuais identificadas. Esta etapa estabelece um dicionrio do vocabulrio do seu corpus, depois um dicionrio de formas reduzidas. Por exemplo: ela vai mostrar as formas esconde, escondidas, escondem, no mesmo radical escond+er onde a frequncia ser tidas em conta.
Etapa B : durante esta etapa Alceste corta o corpus em unidades de contexto e efetua sua classificao em funo da distribuio do vocabulrio. Esta etapa essencial porque nestas classes, caracterizadas pelo seu vocabulrio dominante, que vai apoiar-se na sua interpretao.
resultados. Achamos As diferentes classes retidas, sua dependncia mtua, O vocabulrio Dominante, as palavras estreladas e as palavras ferramentas caractersticas de cada uma das classes. sobre estes elementos que voc basear sua interpretao.
Enfim
etapa D: depois da obteno definitiva da classificao, Esta etapa Efetua clculos complementrios sobre cada uma das classes, como A lista das unidades de contexto elementares, a classificao ascendente, os Segmentos repetidos, o calculo de concordncias, etc.
IMAGE
IMAGE
Aqui a primeira tela chamada de Tela de Sntese agrupando as trs classes dos enunciados retidos:
Eu gostaria de continuar meus estudos, mas no por um perodo muito longo, eu quero passar minha patente, e em seguida ver do lado de uma formao tcnica, uma coisa de mecnico, enfim, estudos no muito longos. Minha vida sentimental, eu penso em me casar, depois dos meus estudos, depois de ter uma super casa e tambm um ou vrios carros. Eu sou faixa preta em jud, e gostaria de continuar a consagrar tempo para competio, no club onde eu dou aula crianas.
0002 *sexo_m *associao_no [U.C.I. n2, sexo masculino, no membro da associao]
Em cinco anos, ter um trabalho, ficar nele por dois anos, depois ter um acidente de trabalho para ter dinheiro facilmente. Quero me casar cinco vezes, ter duas casas e um monte de carros, entrar na poltica para dormir, ter uma cama enorme para dormir com muitas mulheres, e camareiras para fazer todo o trabalho, matar as pessoas que me irritam e morrer velho sem ter dado dinheiro a ningum
Eu quero continuar meus estudos at o bacharelado e fazer um trabalho que me satisfaa, eu quero um carro Sport bonito, uma mulher e um filho pequeno
0004 *sexo_f *associao_no [U.C.I. n4, sexo feminino, no membro da associao]
Eu quero fazer longos estudos, e ter um bom emprego, tambm ter um apartamento, ser independente e ter um gato, no preciso fazer tudo ao mesmo tempo, no quero me sentir pressionada, para a famlia, o ideal ter um marido e filhos, depois eu ponho o dinheiro numa poupana, para poder viajar. Eu fiz uma viagem recentemente e eu gostei muito, por isso que quero viajar. Bom, eu quero fazer longos estudos no grande ciclo, depois eu me caso, mas eu vou aproveitar a vida antes de me atarefar. 0005 *sexo_f *associao_sim [U.C.I. n5, sexo feminino, membro da associao]
Um projeto que eu sempre quis fazer, ter um bom emprego que pague, no ter filhos, no me casar, ter minha independncia, ter um super carro, ser biloga, isso desde os meus quinze anos, tambm sempre quis ir Amrica (isso tambm com quinze anos), ter vrios telefones no meu apartamento, ter a plula quando eu tiver vontade de fazer amor com um cara, ter um corpo atltico, ter minha permisso provisria por trs meses.
A partir deste corpus preparado e formatado, comeamos a analise. Depois de diferentes clculos, Alceste nos fornece um conjunto importante de resultados que lhe sero apresentados de maneira didtica na ordem lgica de ajuda interpretao.
IMAGE
Figura n1 Esta tela permite descobrir a sntese dos resultados da analise pelo Alceste. Observamos na parte esquerda o nome do texto, futuro.txt, sua data de modificao, seu tamanho 25 kb, o plano de analise futuro.pl (para cada analise do Alceste, preciso um plano de analise contendo o conjunto de parmetros da analise em questo). O texto formado por 61 entrevistas, 4280 palavras, ento 826 formas distintas que se decompem depois da reduo do vocabulrio em 96 formas reduzidas, 84 formas suplementares que vo ser as palavras ferramentas (artigos, pronomes, marcadores de tempo, de lugar, de espao) e 7 modalidades variveis. Na parte de seleo das U.C.E., encontramos 67,5% da U.C.E. classificadas, em outros termos 67,5% de discurso retido e classificado. A parte direita da tela apresenta as trs classes obtidas, que correspondem aos trs tipos de discurso (presenas significativas das formas na classe, suas ausncias significativas, e as categorias gramaticais correspondentes). Depois de ter validado esta tela, encontramos uma tela panormica permanente
IMAGE 10
Figura n2 Como observamos, esta tela se decompe em janelas independentes e autnomas. Cada janela apresenta um resultado importante. Podemos passar de uma classe a outra com a ajuda dos botes situados em baixo da tela. Observamos na janela de classificao descendente (figura n1) que a classe n2 a primeira a ser dissociada. Esta classe dos meninos que fazem parte de uma associao de bairro, tanto que a encontramos em duas modalidades de variveis, a de sexo masculino e membro de uma associao (*sexo_m, *assoc_sim) nas presenas significativas. O discurso desta classe centrado ao redor dos termos tais que formao,tcnica,exame,continuar, que evoca o futuro escolar e profissional dos jovens . Se ope classe n2, a classe n1 que tambm constituda por meninos mas que no fazem parte de uma associao. Os termos que encontramos so totalmente diferentes desses da classe n2. O vocabulrio focado ao redor das palavras casa,carro,linda,mulher, no mundo imaginrio, ou publicitrio. A classe n3, quanto ela, uma classe feminina, sendo o discurso caracterstico formado por termos emprego,realisar,projeto. Observando os enunciados especficos da classe entendemos que estas palavras evocam as dificuldades
IMAGE
Figura n3 Estas U.C.E. so numeradas seguindo a ordem do texto, que permite localizar suas posies de origem no corpus. Lemos igualmente para cada U.C.E. seu valor Chi de associao na classe. Mais o valor do Chi grande, mais a ligao forte. Encontramos os termos emprego,realizar,projeto nas U.C.E. n 111 e 87 com os Chi de associao mais fortes, o que confirma sua filiao na classe n3. Para visualizar e exibir a totalidade de formas caractersticas (presenas significativas) de uma classe basta clicar no boto correspondente na barra de ferramentas :
11
IMAGE 12
Clicando no boto:
, obtemos a classificao
Figura n4 Para cada forma obtemos seu Chi de associao assim que seu efetivo na classe, seu efetivo total, sua categoria gramatical e sua concordncia. Voc observa na tela a concordncia da palavra bonita, quer dizer, as unidades textuais que contm a palavra bonita. Observao : No que diz respeito s categorias gramaticais, se uma classe marcada por adjetivos seu discurso ser mais descritivo. Do mesmo jeito, a presena significativa de marcas de tempo, de local e de espao dar as indicaes importantes para a interpretao dos resultados.
Figura n5 A classificao ascendente por classe nos permite de colocar em evidencia os grupos de palavras seguindo sua distancia de proximidade. Como indica a figura acima para a classe n1, posicionamos a tira a um dado nvel de corte, a fim de colocar em evidencia os pacotes de palavras agregadas como: (mulher-bonita), (casa-carro-casar), (mundo-se tornar). Clicando em cada um dos ramos obteremos uma concordncia mltipla de palavras formando o ramo. Eis algumas concordncias para o ramo da rvore formada pelas palavras bonitas e mulher: Meus projetos sero de ter uma mulher, uma casa bonita, e um filho. Eu espero me casar com uma mulher morena que ter belos olhos, e ser bonita fisicamente, eu quero ter uma casa bonita, uma mulher e um filho pequenos, etc.
IMAGE 14
IMAGE
13
Figura n8
Figura n7 O modulo de Analise Fatorial de Correspondncias nos d as representaes em correlao, contribuies e coordenadas das classes, dos indivduos e das formas. Clicando em um ponto, exibiremos a palavra associada. Podemos igualmente filtrar as formas em funo de seu efetivo, de seu Chi 2 ( ) de associao classe, modificar os eixos fatoriais para as projees, etc. A Analise Fatorial das Correspondncias confirma a forte oposio entre o discurso da classe n1 e este da classe n2, constatamos assim o impacto que podem ter as associaes sobre o comportamento dos jovens. A classe n3 est prxima do centro de inrcia, ou seja, um discurso pouco falado. Alm disso, um modulo 3D permite visualizar os grficos da A.F.C., naturalmente, quando o nmero de eixos superior ou igual a 3.
IMAGE
Este modulo nos permite visualizar as relaes ntre as classes em um espao em trs dimenses, atravs de representaes em correlaes, contribuies, e coordenadas. As possibilidades de zoom, de rotao do grfico, de modificaes dos eixos de projeo ou de opes de visualizao das classes fazem deste modulo uma ferramenta indispensvel para a ajuda da interpretao.
15
IMAGE 16
Figura n9
Figura n10 Poderemos com um clique duplo sobre uma palavra propor uma concordncia no texto. Podemos tambm obter concordncias mltiplas. Naturalmente, Alceste no para a, ele mantm tambm a fora dos seus mdulos de configurao, seguindo os valores dos parmetros, a ferramenta adapta o seu corpus a uma analise mais fina e rica. Duas configuraes so possveis, ou seja, a configurao simplificada para todos, e a configurao avanada para os utilizadores mais avanados.
O modulo esttico apresenta diferentes grficos sobre as reparties das classes no corpus em funo das unidades de contexto classificadas e no classificadas. Independentemente das classes obtidas, ns acessamos o dicionrio de formas, que so as formas completas ou as formas reduzidas, com seus efetivos respectivos.
IMAGE
17
IMAGE 18
BIBLIOGRAPHIE
Achard Pierre, La sociologie du langage, Que sais-je ? P.U.F., Paris, 1993
Benzcri Jean-Paul, Pratique de lAnalyse des Donnes : linguistique et lexicologie, DUNOD, Paris, 1981
Benzcri Jean-Paul, LAnalyse des Donnes (tome 1 et 2), DUNOD, Paris, 1973.
Blanchet Alain & col, Recherches sur le langage en psychologie clinique, Dunod, 1997
Bolasco Sergio, Vers une interprtation smiotique de lanalyse des don nes, METRON, 1982, vol XL, n 1-2, p 93-102 Bourdieu, P., Ce que parler veut dire, Fayard, 1982 Lacan J., Encore ; Le sminaire : livre 20, Editions du Seuil, 1975
Lafon Pierre, Salem Andr , Linventaire des segments rpts dun texte, Mots, 1983, 6,161-177.
Lebart Ludovic, Les questions ouvertes, outils de contrle, dvaluation, de valorisation, Les
langages du politique, Mots, 1990, 23,76-91 Lebart Ludovic, Salem Andr, statistiques textuelles, DUNOD, Paris, 1994. Looze (de) M.-A., Roy A., Coronni R., Reinert M., Jouve O., Two measures for identifying the perception of risk associated with the introduction of transgenic plants, Scientometrics, , Elsevier Science, 1999, vol 44, n 3, 401-426.
Reinert Max,1983, Une mthode de classification descendante hirarchique : Application
lanalyse lexicale par contexte. Cahiers de lAnalyse des Donnes, 1983, 3,187 -198.
Figure n11
Voc observa que as 4 etapas do calculo esto marcadas, assim como os valores dos diferentes tipos de analise, estes valores podem ser modificados seguindo a necessidade do utilizador. Por exemplo, um
Reinert Max,1986, Classification descendante hirarchique: un algorithme pour le traitement des tableaux logiques de grandes dimensions, in E. Diday & coll. (Eds.), Data analysis and informatics, Elsevier Science,1986, p. 23-28 Reinert Max,1986, Prsentation du logiciel ALCESTE laide dun exemple. Psychologie et Education, 1986- X (2), 58-73. Reinert Max,1987, Classification descendante hirarchique et analyse lexicale par contexte: application au corpus des posies dA. Rimbaud. Bull. de Mthodo. Sociol., 1987, 13, 53-90.
Reinert Max,1987, Un logiciel danalyse lexicale (ALCESTE). Cahiers Analyse des Donnes, 1987, 4, 471-484.
utilizador, pode no fazer uma classificao dupla e lanar uma classificao simples, Com o objetivo de tratar as respostas as questes abertas, ou desativar uma lematizao, etc
A configurao avanada representada numa tela equipada com pequenas caixas contendo os diferentes valores dos parmetros: uma abordagem inteligente e de uma grande transparncia que permite ao utilizador modificar a qualquer momento um ou vrios valores dados neste quadro, depois de relanar a analise para ir ainda mais longe na interpretao. Para fazer um tri cruzamento no Alceste, necessrio cruzar as modalidades de uma varivel com o corpus, afim de obter classes prprias a cada modalidade, ou ento cruzar uma palavra com um texto, afim de dividir o texto em uma parte contendo a palavra e uma parte que no contm a palavra. Enfim, Alceste o software de Analise de dados textuais podendo trabalhar em diferentes lnguas (Francs, Ingls, Alemo, Italiano, Portugus, Espanhol), graas a seus dicionrios de idiomas. preciso selecionar um dicionrio dado para poder analisar nesta lngua. Estes dicionrios ficam abertos, o utilizador pode modifica-los ou enriquec-los vontade. Da mesma forma, numerosos outros mdulos de tratamento existem no Alceste, mas no podemos detalh-los em um documento to sinttico.
Reinert Max,1993, Les mondes lexicaux et leur logique travers lanalyse statistique
dun corpus de rcits de cauchemars, Langage et Socit, 1993, 66, 5-39 Reinert Max,1993, Quelques problmes mthodologiques poss par lanalyse de tableaux Enoncs x Vocabulaire, in Bcue, Lebart, Rajadell (Eds), JADT 1993 (Journes Internationales dAnalyse des Donnes Textuelles), Montpellier, Telecom Paris 93 S 003, 1993, p 539-549 Reinert Max,1994, Lapproche des mondes lexicaux dans AURELIA de G. de Nerval, in Martin, E., Les Textes et Linformatique, Didier Erudition, 1994, 145-175 Reinert Max,1995, Quelques aspects du choix des units danalyse et de leur contrle dans la mthode Alceste, in Bolasco, Lebart, Salem (Eds), Analisi Statistica dei Dati Testali (JADT 1995), CISU, Roma, 1993, p. 27-34 Reinert Max,1997, Les Mondes lexicaux des six numros de la revue Le Surralisme au Service de la Rvolution , Mlusine N XVI, Editions LAge dHomme, Lausanne, 1997, p 270-302. Salem Andr, Pratique des segments rpts , klincksieck, Paris, 1987.
IMAGE
19
IMAGE 20