Você está na página 1de 121

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUCSP

Bruno Marques de Mattos

A Organização do Conhecimento nas Humanidades Digitais e o Conceito

de Leitura Distante de Franco Moretti

MESTRADO DE HISTÓRIA DA CIÊNCIA

SÃO PAULO

2019

I
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM HISTÓRIA DA CIÊNCIA

Bruno Marques de Mattos

A Organização do Conhecimento nas Humanidades Digitais e o Conceito de

Leitura Distante de Franco Moretti

MESTRADO EM HISTÓRIA DA CIÊNCIA

Dissertação apresentada à Banca Examinadora


da Pontifícia Universidade Católica de São Paulo,
como exigência parcial para obtenção do título de
Mestre em História da Ciência, sob orientação da
Profª. Drª. Ana Maria Alfonso-Goldfarb.

SÃO PAULO

2019

II
Banca Examinadora

________________________________________________

________________________________________________

________________________________________________

III
O presente trabalho foi realizado com o apoio da

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

Nº do processo 88887.163139/2018-00 (modalidade 1) - Brasil

This study was financed in part by the

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

Nº do processo 88887.163139/2018-00 (modalidade 1) - Brasil

IV
Agradecimentos

À Pontifícia Universidade Católica de São Paulo – PUCSP e a

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior – CAPES, pelo

apoio financeiro possibilitando essa pesquisa.

À professora e orientadora Drª. Ana Maria Alfonso-Goldfarb, por sua

generosidade, paciência, cobrança e didática.

Aos professores do programa que compartilharam suas experiências e

seus conhecimentos.

Aos colegas do programa, pela ajuda troca de experiências e

descontração.

Ao meu amigo Rafael Lamardo pelas conversas produtivas sobre esta

pesquisa acadêmica.

Agradeço ao meu pai Afranio pelo seu apoio, ânimo e tranquilidade.

Agradeço minha mãe Josana pela sua força, carinho e postura.

Aos meus irmãos Afranio e Adriana pela torcida.

À minha esposa e companheira Karina, pela compreensão nos meus

momentos de ausência nos fins de semana e por me apoiar nos momentos mais

cansativos.

À minha adorada Bianca, que mesmo sem entender direito o que seria

uma pesquisa acadêmica, sabia que era importante o pai ficar tanto tempo

estudando e escrevendo no computador.

V
Resumo

Esta pesquisa tem por objeto analisar um dos campos acadêmicos que mais
crescem no estudo das ciências humanas das principais instituições de ensino e
pesquisa em todo o mundo: Humanidades Digitais. Para isso, foi observado o
caminho percorrido por estudiosos e incentivadores no desenvolvimento desta
recente área de estudo, desde os primeiros projetos, passando por publicações
e grandes eventos, até os dias atuais. Linhas de pesquisas das Humanidades
Digitais também foram exploradas e analisadas, em especial a Organização do
Conhecimento. Esta área de estudo e pesquisa tem a difícil missão de adaptar
as tecnologias digitais (com suas ferramentas e metodologias inovadoras) com
as necessidades do estudo das humanidades em analisar grandes e crescentes
quantidades de textos com rapidez e precisão. Para melhor exemplificar a
complexidade da tarefa da Organização do Conhecimento nas Humanidades
Digitais, este trabalho analisa o polêmico conceito de leitura distante do
estudioso em história literária Franco Moretti. Provavelmente, um dos poucos
projetos desta nova área do conhecimento que trouxeram resultados práticos e
significativos.

Palavras-chave: Humanidades Digitais; Organização do Conhecimento; Leitura


Distante; História da Ciência.

VI
Abstract

This research aims to analyze one of the academic fields that grow most in the
study of the human sciences of the main teaching and research institutions
around the world: Digital Humanities. In order to do so, we have observed the
path taken by scholars and supporters in the development of this recent area of
study, from the first projects, through publications and major events, to the
present day. Lines of research of the Digital Humanities were also explored and
analyzed, especially the Organization of Knowledge. This area of study and
research has the difficult task of adapting digital technologies (with its innovative
tools and methodologies) to the needs of the humanities study in analyzing large
and increasing quantities of texts with speed and precision. To better exemplify
how complex the task Organization of Knowledge in the Digital Humanities will
be, this paper analyzes the polemical concept of reading distant from scholar in
literary history Franco Moretti. Probably one of the few projects in this new area
of knowledge that have brought practical and meaningful results.

Keywords: Digital Humanities; Organization of Knowledge; Distant Reading;


History of Science.

VII
SUMÁRIO

Introdução ................................................................................................. 11

Capítulo 1 - As Humanidades Digitais

1.1. Introdução às Humanidades Digitais .................................................. 15

1.2. Linhas de pesquisa das Humanidades Digitais .................................. 117

Capítulo 2 - A Organização do Conhecimento e a Leitura Distante

2.1. Organização do Conhecimento nas Humanidades Digitais ............... 146

2.2. O conceito de leitura de distante ........................................................ 156

Considerações Finais ............................................................................. 1199

Bibliografia ............................................................................................... 1102

VIII
ÍNDICE DE FIGURAS

Figura 1. Visualização de texto ................................................................. 29

Figura 2. Visualizações interativas de textos digitais do jornal The

New York Times ........................................................................................ 31

Figura 3. A evolução da tecnologia do sistema de banco de dados ......... 36

Figura 4. Uma visão geral das etapas do processo do KDD .................... 39

Figura 5. Mapa da árvore da Apple Macintosh de TreeViz ....................... 47

Figura 6. Árvores de cone com representação 3D e efeitos de sombra ... 48

Figura 7. Organograma em um navegador de árvore hiperbólica ............. 48

Figura 8. (MS) assunto principal, (P) personalidade, (M) matéria,

(E) energia, (S) espaço e (T) tempo .......................................................... 54

Figura 9. A presença de pistas nos romances de ficção policial ............... 65

Figura 10. Divergência de caráter ............................................................. 80

Figura 11. Número de palavras nos títulos de romances publicados

entre 1740 e 1850 ..................................................................................... 88

Figura 12. Número de publicações britânicas entre 1740 e 1836 ............. 90

Figura 13. Tamanho do mercado literário X tamanho dos títulos

romanescos ............................................................................................... 90

Figura 14. Romances com títulos curtos ................................................... 92

Figura 15. Títulos com uma a três palavras X títulos com mais de

15 palavras ................................................................................................ 92

Figura 16. A rede de Hamlet ...................................................................... 93

Figura 17. A rede de Hamlet sem o personagem Hamlet .......................... 95

Figura 18. A rede de Hamlet sem o personagem Claudius ....................... 95

Figura 19. A rede de Hamlet sem os personagens Hamlet e Horatio ....... 96

IX
Introdução

A sociedade contemporânea atravessa por um período de grandes

mudanças por conta da forte presença da tecnologia digital nas relações sociais,

seja no mercado de trabalho, na política, no meio ambiente, na comunicação ou

em outra esfera. Não seria diferente no espaço acadêmico.

No final do século passado, por volta dos anos de 1970, o ambiente digital

modificou de forma irreversível a maneira como as instituições de ensino e a

pesquisa acadêmica atuariam. A área de exatas foi uma das primeiras a se

beneficiarem com esse novo contexto, principalmente com a chegada dos cursos

voltados ao exercício computacional. Ao longo do tempo, outras áreas do

conhecimento inseriram a tecnologia digital nas suas rotinas de estudo e

pesquisa. Devido a complexidade de se adaptar com essa nova realidade digital,

o campo das humanidades deve ter sido o último a acatar essa nova prática.1

As ciências humanas e da computação eram tradicionalmente distantes,

entretanto, se aproximaram recentemente e desenvolveram um novo campo de

estudo, as Humanidades Digitais. Consideradas por muitos especialistas como

um campo interdisciplinar do conhecimento, essa recente área tem a disposição

de refletir sobre a produção, a apropriação e o uso das tecnologias digitais. Além

da discussão relacionada à incorporação da tecnologia digital, há reflexões

teóricas e conceituais sobre o tema. É normal encontrar projetos que associem

linguística com matemática computacional e historiografia com bancos de dados

digitais. O próprio pesquisador precisará se reposicionar em um campo cada vez

mais colaborativo, inclusive externo ao mundo acadêmico.2

1 Hockey, “The History of Humanities Computing”, 5-6.


2 Telles, “História Digital, Sociologia Digital e Humanidades Digitais”, 83-84.

1
Este estudo explora importantes pontos de uma complexa adaptação das

humanidades tradicionais no ambiente digital. A narrativa é iniciada examinando

acontecimentos importantes no avanço das Humanidades Digitais, como o

esforço de relevantes organizações e periódicos no fomento da área; a inserção

do computador pessoal e do correio eletrônico nos projetos, na comunicação e

na publicação acadêmica; a utilização do Text Enconding Initiave (TEI) e da

linguística computacional pelos pesquisadores; e a chegada da internet, do

arquivo e da biblioteca digital nas instituições. Depois, foram observadas

importantes linhas de pesquisas produzidas neste período, como a análise de

conteúdo e de texto digitais; marcação e codificação de texto; visualização e

análise de texto; e mineração de dados.3

A Organização do Conhecimento foi uma das áreas mais afetadas com

as inovações trazidas pelas Humanidades Digitais. Devido a complexidade de

incorporar técnicas e métodos digitais nos estudos das humanidades,

principalmente nas análises de grandes quantidades de texto, inúmeros projetos

são continuamente desenvolvidos no intuito de aprimorar essa adaptação.4

Para melhor compreender o objeto de estudo, esta pesquisa apresenta

um dos trabalhos mais polêmicos já tratados sobre o tema, o conceito de leitura

distante de Franco Moretti (1950-0000)5. O especialista italiano em história

literária surpreendeu o estudo de grandes quantidades de texto ao expor sua

teoria revolucionária. Para isso, realizou uma série de pesquisas que utilizavam

ferramentas e métodos de outras áreas do conhecimento, como análises

quantitativas, gráficos, mapas geográficos, árvores da evolução biológica e

3 Hockey, 8-15.
4 Alfonso-Goldfarb, Waisse & Ferraz, “New Proposals”, 1.
5 Franco Moretti, estudioso italiano de história literária, idealizador do conceito de leitura distante,

acessado em 28 de abril de 2019, https://profiles.stanford.edu/franco-moretti?releaseVersion=7.8.1.

2
teoria de rede. Além disso, estabeleceu uma nova visão na análise da história

literária ao empregar a teoria evolutiva e o conceito de sistema-mundo nas suas

pesquisas. Utilizou recursos de outras disciplinas ao examinar a influência

geográfica na formação da literatura europeia, a formação dos cânones literários,

o processo decisório do leitor na escolha de romance, o comportamento do

mercado literário internacional, as semelhanças entre o comércio

cinematográfico e o editorial, as alterações dos títulos romanescos ao longo do

tempo e a estruturação de enredo pelas interações dos personagens.6

Esta dissertação tem o intuito de apresentar um campo de estudo original,

que emprega modernos instrumentos, métodos, técnicas e conceitos, que

somente foram contemplados recentemente com a chegada da tecnologia

digital, a fim de criar novas perspectivas na Organização do Conhecimento da

História da Ciência e descobrir conteúdos inéditos, antes inacessíveis pela

deficiência da pesquisa analógica em explorar grandes quantidades de texto

histórico.

6 Boot, “Distant Reading”, 152-154.

3
CAPÍTULO 1

As Humanidades Digitais

4
1. As Humanidades Digitais

O capítulo inicial desta pesquisa é dividido em duas partes. A primeira

parte fornecerá uma visão geral do caminho percorrido até aqui pelas

Humanidades Digitais, desde suas primeiras atividades até o momento atual. No

segundo momento, a pesquisa destaca as principais linhas de pesquisas do

campo, em especial, sobre conceitos, técnicas e ferramentas que identificam e

diferenciam as Humanidades Digitais das demais áreas.

1.1. Introdução às Humanidades Digitais

Apesar de obter maior reconhecimento apenas no início do século XXI, as

Humanidades Digitais já eram estudadas e analisadas desde da metade do

século passado – mesmo que ainda não tivessem ambição para se tornar uma

disciplina ou uma nova área do conhecimento. Foi necessário um longo processo

para que as Humanidades Digitais fossem aceitas como um novo campo de

estudo. Para compreender melhor esse movimento é preciso examinar a sua

trajetória, por meio dos primeiros estudiosos e da atuação das principais

organizações de fomento e periódicos da área. Além disso, é importante

investigar a influência do avanço da tecnologia digital nos trabalhos da área,

principalmente através dos novos instrumentos que surgiam: computador

pessoal, correio eletrônico, Text Encoding Initiave7, linguística computacional,

internet, interface com o usuário, bibliotecas digitais e os documentos com

formatos digitais.

7Text Encoding Initiave (TEI) é uma organização internacional que desenvolve e mantém diretrizes para
codificação digital de textos literários e linguísticos. TEI será melhor elucidada mais adiante.

5
1.1.1. Os primeiros passos das Humanidades Digitais

Muitos estudiosos da área de Humanidades Digitais 8 defendem que o

início das Humanidades Digitais aconteceu no meio do século XX, mais

precisamente em 1946, com os planos do padre jesuíta Roberto Busa (1913-

2011) em desenvolver o Índice Thomisticus – que foi uma grande tentativa de

codificar quase 11 milhões de palavras dos textos de Tomás de Aquino nos

cartões perfurados da IBM. De acordo com essa narrativa, as Humanidades

Digitais prosseguiriam através dos avanços na linguística de corpus, porém os

projetos iniciais teriam sido muito prejudicados pela baixa capacidade de

armazenamento, pelo alto custo dos hardwares e pelo processamento limitado,

o que tornaria o progresso muito lento.9

1.1.2. A trajetória das Humanidades Digitais

Depois de um início discreto, pelas limitações técnicas, as Humanidades

Digitais se consolidariam como um importante campo no ambiente acadêmico a

partir dos anos de 1970 até meados de 1980. Mais textos eletrônicos e projetos

digitais foram iniciados neste período. Mais pessoas se depararam com

computadores em sua vida cotidiana e começaram a utilizá-los no ensino e nas

pesquisas científicas. Muitas reuniões foram realizadas no Reino Unido a partir

de 1970 para tratar sobre o tema: Cambridge (1970), Edimburgo (1972), Cardiff

(1974), Oxford (1976), Birmingham (1978) e Cambridge (1980). Em meados

desta mesma década, outra série de congressos também começaria na América

8 Hockey, 4.
Svensson, “Humanities Computing as Digital Humanities”.
Kirschenbaum, “The Remaking of Reading”, 1.
Dalbello, “A Genealogy of Digital Humanities”, 481.
9 Sula, & Hill, “The Early History of Digital Humanities”, 1.

6
do Norte – International Conference on Computing in the Humanities (ICCH),

sendo realizadas em anos ímpares para alternar com os eventos britânicos. Uma

série de artigos foi produzido nesta época, principalmente sobre o uso de

computadores no ensino, na música, na arte e na arqueologia.10

Em 1978, insatisfeitos com a interface do computador com o usuário,

órgãos de financiamento britânicos patrocinariam o desenvolvimento do

programa Oxford Concordance Program (OCP)11, na Oxford University. Este

software estaria pronto para ser distribuído em 1981, atraindo interesse de

diversos países. Outros softwares também apareceriam neste momento, o que

acarretaria em uma redução significativa nos custos de um projeto em relação

ao suporte de programação. A necessidade de evitar esforços duplos e

desnecessários chamou a atenção para a importância da área de arquivamento

e manutenção de textos. Com o advento do software packaged12 e a remoção

da necessidade de muita programação, a preparação do texto eletrônico

começaria a ocupar uma grande parte do tempo de qualquer projeto. Em 1976,

por exemplo, foi necessário estabelecer o Oxford Text Archive (OTA)13 para

garantir que um texto de pesquisa não fosse perdido. O OTA teria a missão de

manter os textos eletrônicos e, sujeito à permissão do depositante e com as

devidas permissões de direitos autorais, disponibilizar esses textos a qualquer

10 Hockey, 7-8.
11 OCP é um programa de análise de texto independente de máquina para produzir listas, índices e
concordâncias em vários idiomas e alfabetos. Lançado pela 1ª vez em 1981, foi reformulado em 1985-
86, aumentando sua eficiência. Atualmente é licenciado para cerca de 240 instituições em 23 países.
Susan Hockey, “The Oxford Concordance Program Version 2”, Library and Linguistic Computing, vol. 2,
nº 2 (janeiro 1987): 125-131.
12 Software packaged é utilizado em conjunto, executa funções semelhantes ou inclui recursos

semelhantes, sendo agrupado em um conjunto de programas de software. Acessado em 8 de janeiro de


2019, https://www.computerhope.com/jargon/p/packsoft.htm.
13 OTA desenvolve, coleta, cataloga e preserva recursos literários e linguísticos eletrônicos. Disponibiliza

mais de 4000 recursos digitais para pesquisa. Acessado em 18 de dezembro de 2018,


https://digital.humanities.ox.ac.uk/project/oxford-text-archive.

7
pessoa que desejasse usá-los para fins acadêmicos. Era o começo da biblioteca

digital. A quantidade de material não documentado destacaria a necessidade de

procedimentos de reconhecimento para a descrição de textos eletrônicos. 14

1.1.3. As principais organizações de fomento e periódicos das

Humanidades Digitais

Parte da institucionalização da computação nas humanidades resultou em

departamentos ou unidades acadêmicas, conferências, periódicos, programas

educacionais e um forte senso de identidade de estabelecer uma nova

disciplina.15 Fundada em 1966, a revista Computers and the Humanities 16 foi a

primeira revista relevante a tratar do tema, seus primeiros artigos, em 1966 e

1967, eram sobre a linguagem de programação na pesquisa nas humanidades

e a influência do computador nas artes, na história das artes e na musicologia.

Trinta anos depois (1995-1996), era possível encontrar artigos mais específicos

como design do esquema de codificação do Text Encoding Initiave (TEI), uso do

hipertexto17 na literatura de ensino, aplicação de redes neurais artificiais 18 em

estilometria19 e distribuição da frequência de palavras e semântica lexical20. Em

14 Hockey, 8.
15 Klein, Crossing Bourdaries, 57.
16 https://www.jstor.org/journal/comphuma.
17 Hipertexto é um sistema que associa documentos entre si, através de marcadores (tags, links)

integrados nos textos ou anexos ao texto. Acessado em 23 de fevereiro de 2019,


http://www.tipografos.net/internet/hipertexto.html.
18 Rede neural artificial é um modelo computacional inspirado no sistema nervoso biológico. Composto

por um grande número de elementos de processamento interconectados para resolver um determinado


problema. É configurada para uma aplicação específica, como reconhecimento de padrões ou
classificação de dados, através de um processo de aprendizagem (machine learning). Acessado em 4 de
fevereiro de 2019, https://www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html.
19 Estilometria é a aplicação do estudo do estilo linguístico. Acessado em 23 de fevereiro de 2019,

https://educalingo.com/pt/dic-en/stylometry.
20 Semântica lexical trata do significado cognitivo que envolve a relação entre a língua e os construtores

mentais que de alguma maneira representam ou estão codificados no conhecimento semântico do


falante. Márcia Cançado, “Semântica Lexical: uma entrevista com Márcia Cançado”, ReVEL, Vol. 11, nº

8
2005, a revista foi renomeada para Language Resources and Evaluation.21

Fundada em 1978, The Association for Computers and the Humanities (ACH)22,

uma das principais sociedades profissionais para as Humanidades Digitais dos

Estados Unidos, atua por meio de atividades, conferências e publicações, apoia

a pesquisa assistida por computador, o ensino e o desenvolvimento de softwares

e conteúdos das humanidades.23 Em 1973, a Association for Literary and

Linguistic Computing (ALLC) foi fundada em uma reunião no King’s College

London com o propósito original de apoiar a aplicação da computação no estudo

da linguagem e da literatura.24 Em 1986, a ALLC lançaria a Literary and Linguistic

Computing (LLC), que surgiria como a principal revista de Ciências Humanas –

desde do seu início, sua principal finalidade era na análise literária textual. Esses

periódicos tiveram um papel importante para estabelecer o uso da computação

nas humanidades.25 Posteriormente em 2012, a ALLC se tornaria European

Association for Digital Humanities (EADH), pois a medida que aumentava as

técnicas de computação disponíveis e relevantes para as humanidades, os

interesses dos membros da associação se ampliariam, abrangendo não apenas

corpus de análise de texto e linguagem, como também história, história da arte,

música, estudos de manuscritos, processamento de imagens e edições

eletrônicas.26 Por motivos similares, a mudança de nome também aconteceria

com a LLC, que em 2015 se tornaria Digital Scholarship in the Humanities (DSH),

20 (2013): 126, acessado em 10 de fevereiro de 2019,


http://www.revel.inf.br/files/9413728ff9736a3e2c00b7f18bf7db89.pdf.
21 https://link.springer.com/journal/volumesAndIssues/10579.
22 https://ach.org/.
23 https://ach.org/about-ach/history/.
24 https://eadh.org/about.
25 Svensson.
26 https://eadh.org/.

9
levando em conta todo o conhecimento digital realizado nas humanidades no

sentido mais amplo.27

1.1.4. O computador pessoal e o correio eletrônico

O desenvolvimento de duas importantes tecnologias foi importante para

as Humanidades Digitais entre o final de 1980 e início de 1990: o computador

pessoal e o correio eletrônico. No início, alguns computadores pessoais foram

desenvolvidos para jogos ou processamento de textos autônomos, e não tinham

outra função. Outros computadores eram especificamente voltados para o

mercado educacional, e não para uso geral. O HyperCard28 então surgiu,

fornecendo um modelo de cartões de arquivo com formas de vinculação entre

eles, além de incorporar uma ferramenta simples de programação, o que

possibilitaria que os estudiosos das humanidades tivessem facilidade em

escrever programas de computador. Os benefícios do hipertexto para o ensino

logo foram reconhecidos e vários exemplos apareceram.29

Em meados da década de 1980, as instalações para envio e recebimento

do correio eletrônico através das fronteiras internacionais eram fornecidas pela

maioria dos serviços acadêmicos de computação. Por exemplo, na conferência

de 1985 da ALLC, em Nice, e-mails foram trocados avidamente e uma nova era

de comunicação imediata começara.30 Em 1987, na conferência ICCH em

Columbia, na Carolina do Sul, um grupo de pessoas que trabalhava

27 https://academic.oup.com/dsh/pages/DSH_name_change.
28 Hypercard é um programa, criado por Bill Atkinson para a Apple, que combina banco de dados a uma
interface gráfica flexível e modificável pelo usuário.
Mike Harland, “Hypercard: from Computer Dictionaries to On-line Courseware Tools”, Literary and
Linguistic Computing 5, nº 1 (janeiro 1990): 89-93.
29 Conner, “The Beowulf Workstation”, 50-58.
30 Conner, “Networking in the Humanities”, 195-204.

10
principalmente no apoio das Humanidades Digitais se reuniu e concordou que

precisava encontrar uma maneira de manter contato em uma base regular. O

professor emérito do departamento de Humanidades Digitais do King’s College

London Willard McCarty (1935-0000)31, então na University of Toronto,

concordou em investigar como eles poderiam desenvolver essa ideia. No seu

retorno da conferência, ele descobriu a existência do ListServ32, que permitiria

que listas de discussão fossem implementadas em mainframes. Nascia o

Humanist33, um seminário internacional online dedicado a todos os aspectos das

Humanidades Digitais. A primeira mensagem foi enviada em 7 de maio de

1987.34

Em novembro de 1987, Nancy Ide (1948-0000)35, professora do

Departamento de Ciência da Computação na Vassar College, organizou uma

reunião na instituição, em Poughkeepsie, para examinar a possibilidade de criar

um esquema de codificação padrão para textos eletrônicos das humanidades.

Os especialistas estavam cada vez mais cansados de perder tempo

reformatando textos para adequar em softwares específicos, além de frustrados

com as inadequações dos esquemas existentes.36 Em 1986, um novo método

de codificação apareceu em cena, o Standard Generalized Markup Language

(SGML)37. Ele oferecia um mecanismo para definir um esquema de marcação

que pudesse lidar com muitos tipos diferentes de texto, além de dados e

31 Willard McCarty, professor e diretor do programa de doutorado de Humanidades Digitais da King’s


College London, https://www.mccarty.org.uk/.
32 https://www.lsoft.com.
33 https://dhhumanist.org/.
34 McCarty, “HUMANIST”, 205-209.
35 Nancy Ide, professora de Ciência da Computação da Vassar College,

https://www.vassar.edu/faculty/ide/
36 Burnard, “CAFS: A New Solution to an Old Problem”, 7-8.
37 SGML é um padrão para definir linguagens de marcação generalizadas para documentos. Acessado

em 25 de fevereiro de 2019, https://www.w3.org/TR/WD-html40-970708/intro/sgmltut.html.

11
metadados. Além disso, poderia representar uma interpretação acadêmica

complexa, bem como as características estruturais básicas dos documentos.38

1.1.5. Text Encoding Initiave (TEI) e a linguística computacional

Os participantes da reunião organizada por Nancy Ide, no Vassar College,

concordaram com um conjunto de princípios, o “Poughkeepsie Principles”, como

base para a construção de um novo esquema de codificação e confiaram a

gestão do projeto a um Comitê Diretivo com representantes da ACH, ALLC e da

Association for Computacional Linguistics 39. Posteriormente, esse grupo

levantou mais de um milhão de dólares na América do Norte e supervisionou o

desenvolvimento das Diretrizes do Text Encoding Initiative (TEI) para codificação

e intercâmbio eletrônico de texto. A primeira versão completa das Diretrizes do

TEI foi publicada em maio de 1994 e distribuída nos formatos impresso e

eletrônico. O TEI foi a primeira tentativa sistemática de categorizar e definir todas

as características dos textos de humanidades que pudessem interessar aos

estudiosos. Ao todo, cerca de 400 tags de codificação foram especificadas em

uma estrutura que foi facilmente extensível para novas áreas de aplicação. O

trabalho no TEI levou a um interesse em relação a teoria da marcação e a

representação do conhecimento nas humanidades. A publicação das Diretrizes

do TEI coincidiu com o desenvolvimento de projetos das bibliotecas digitais de

texto completo e era natural que esses projetos, que não haviam entrado em

contato com as Humanidades Digitais, baseassem seus trabalhos no TEI em vez

de inventar um esquema de marcação a partir do zero.40

38 Hockey, 12.
39 https://www.aclweb.org/portal/.
40 Hockey, 12.

12
Gradualmente, certas áreas de aplicação se desprenderam Humanidades

Digitais e desenvolveram suas próprias rotas de cultura e disseminação. A

linguística computacional41 sempre se desenvolveu independentemente das

Humanidades Digitais. No momento em que as ciências humanas precisavam

seriamente dos modelos de ferramentas desenvolvidos pela linguística

computacional (análise morfológica, análise sintática e bancos de dados

lexicais), houve uma expansão do trabalho em linguística computacional e de

corpus para atender às necessidades da comunidade de defesa e análise da

fala. Mas houve pouca comunicação entre essas comunidades e as

Humanidades Digitais acabaram não se beneficiando, como poderia ter melhor

aproveitado as técnicas de linguística computacional.42

1.1.6. A chegada da Internet

As Humanidades Digitais se desenvolveram muito com a Internet na

década de 1990, especialmente pelo World Wide Web43. Atualmente, o uso da

Internet é uma parte vital de qualquer atividade acadêmica, pois ela é a primeira

fonte de qualquer informação a ser pesquisada. Mas inicialmente, alguns

profissionais das Humanidades Digitais tiveram problemas em entender o

impacto da Internet. Os envolvidos com o TEI acharam que o HyperText Markup

Language (HTML)44 era um sistema de marcação fraco que perpetuava todos os

41 Linguística computacional é a disciplina científica e de engenharia preocupada com a compreensão da


linguagem escrita e falada a partir de uma perspectiva computacional, e a construção de artefatos que
processam e produzem linguagens de forma útil, seja em massa ou em um ambiente de diálogo.
Acessado em 5 de abril de 2019, https://plato.stanford.edu/entries/computational-linguistics/
42 Calzolari & Zampolli, “Lexical Databases and Textual Corpora”, 273-277.
43 World Wide Web é um sistema de documentos disponíveis na internet que permite o acesso de

informações no formato de hipertexto. Acessado em 25 de fevereiro de 2019,


https://webfoundation.org/about/vision/history-of-the-web/.
44 HTML é a principal linguagem da Web para criar conteúdo na internet. Acessado em 25 de fevereiro

de 2019, https://www.w3.org/html/.

13
problemas com processadores de texto e marcação baseada em aparência. Era

um meio de encontrar algum tipo de informação, mas não era considerada uma

ferramenta séria para a pesquisa nas humanidades. Instituições e organizações

interessados em entrar no campo das Humanidades Digitais viram a Web como

um excelente meio de publicação dos resultados dos estudos acadêmicos, além

de poder promover atividades entre uma comunidade além da acadêmica.

Qualquer pessoa poderia editar na Web em pouco tempo, e o foco de interesse

das humanidades era a entrega de material acadêmico pela Internet. As

vantagens eram enormes: o formato não era mais restrito ao livro impresso, não

havia praticamente quase nenhum limite de tamanho, links de hipertexto

forneciam uma maneira útil de lidar com anotações etc. A publicação poderia ser

construída de forma incremental, partes do conteúdo seriam publicados na

medida em que ficassem prontas. Assim, o conteúdo, ou parte dele, poderia ser

disponibilizado ao público imediatamente, além da possibilidade ser facilmente

editado e atualizado.45

1.1.7. Interface com o usuário e o início das bibliotecas digitais

Muitas ideias e projetos haviam sido apresentados, mas quando

chegaram ao estágio em que a teoria deveria ser colocada em prática, se

deparavam com o complexo trabalho de inserir e marcar textos e desenvolver

softwares, a partir deste momento, as atenções se direcionaram para outra área.

O SGML – principalmente em aplicativos baseados no TEI, foi aceito como uma

forma de fornecer os ganchos nos quais as rotas de navegação poderiam ser

construídas, mas ainda havia desafios na criação e no desenvolvimento de uma

45 Hockey, 13-14.

14
interface eficaz para o usuário. No entanto, deram mais ênfase na navegação do

que nas ferramentas ou técnicas de análise que formariam as principais áreas

de aplicação nas Humanidades Digitais no passado. Nos primórdios da Web, a

tecnologia para a entrega de textos codificados em SGML era desajeitada e em

muitos aspectos apresentava uma interface de usuário menos satisfatória do que

a que poderia ser fornecida com HTML bruto. Todavia, teve um grande impacto

nos projetos de publicação devido a fácil visualização. Inicialmente, a maioria

dos projetos de publicação foi iniciada por grupos de acadêmicos, mas não

demorou para que as bibliotecas considerarem colocar o conteúdo de suas

coleções na Internet. Várias instituições nos Estados Unidos montaram coleções

de texto eletrônico ou biblioteca digital para material de fonte primária das

humanidades, geralmente usando o mecanismo de busca OpenText SGML.

Outros projetos utilizaram o sistema de livros eletrônicos DynaText SGML para

a entrega de seus materiais, oferecendo uma pesquisa mais estruturada, porém

com uma interface pouco intuitiva.46

A Internet também possibilitou a realização de projetos colaborativos. A

possibilidade de outras pessoas, localizadas em qualquer parte do planeta,

contribuírem para as mesmas coleções de documentos foi um grande avanço

nos métodos de trabalho. Pesquisadores de duas instituições poderiam adicionar

arquivos de documentos desenvolvidos com um sistema de gerenciamento de

documentos baseado na Web. Também surgiram ideias sobre edição

colaborativa, onde pessoas em diferentes locais poderiam adicionar camadas de

anotações. Um dos problemas encontrado em projetos desenvolvidos por várias

46 Hockey, 14.

15
mãos era a gestão. Era preciso definir quem controlava ou examinava as

anotações e como tudo isso poderia ser conservado para o futuro.47

A adoção do TEI como modelo nos projetos das bibliotecas digitais

levantou questões sobre toda a filosofia do TEI, que havia sido concebida

inicialmente por acadêmicos, com o objetivo principal de ser mais flexível.

Qualquer tag do TEI poderia ser redefinido e tags poderiam ser adicionados.

Uma filosofia bastante diferente prevalecia na biblioteca e na ciência da

informação, onde padrões eram definidos e seguidos a risca, a fim de garantir

que os leitores pudessem encontrar os livros facilmente. As bibliotecas não

tinham grande experiência em textos eletrônicos como na comunidade

acadêmica. Contudo, o TEI foi utilizado como modelo pelos desenvolvedores do

Encoded Archival Description (EAD)48, onde teve um grande impacto como

padrão para encontrar ajuda em arquivos e coleções especiais.49

1.1.8. Documentos com diversos formatos no meio digital

Outra grande mudança dos recursos digitais na produção de conteúdos

foi a utilização de conteúdos multimídia na forma de imagens, áudios ou vídeos.

Claro que havia muitas vantagens em ter acesso a materiais com imagens de

origem na Internet, mas os profissionais de computação nas ciências humanas,

acostumados à flexibilidade oferecida pelo texto pesquisável, não consideravam

projetos de imagens como não sendo deles, pois as imagens poderiam ser

manipuladas ou aprimoradas. Pesquisas interessantes foram realizadas sobre a

vinculação de imagens ao texto. O potencial de outras formas de multimídia era

47 Neuman et al., “The Pilot Project of the Electronic Peirce Consortium”, 25-27.
48 EAD é um padrão para codificar informações descritivas sobre registros de arquivamento. Acessado
em 25 de fevereiro de 2019, https://www.loc.gov/ead/.
49 Hockey, 15.

16
reconhecido, mas a sua utilização somente seria viável com o acesso da internet

de alta velocidade e com a convergência gradual com a televisão no futuro.50

A comunidade acadêmica aceitava cada vez mais a utilização da

tecnologia digital como uma área de estudo. Mas para as ciências humanas, isso

começou a acontecer realmente no final da década de 1990. A University of

Alberta foi provavelmente a primeira instituição de ensino a ter um programa com

o título de “Humanidades Computacionais”. A Internet promoveu o uso muito

mais difundido de computadores nas humanidades. Isso foi o primeiro passo

para a definição de um novo campo ou, pelo menos, a definição de uma agenda

de pesquisa para esse novo conceito de estudo.51

1.2. Linhas de pesquisa das Humanidades Digitais

No campo das humanidades, as tentativas de utilizar o poder do algoritmo

para análise ainda tinham sucesso limitado. Os melhores resultados vieram

através de coleções digitais de fontes primárias e da literatura secundária que

cresciam lentamente. Por quase 20 anos, a maioria dos estudiosos da área foi

prejudicada pela analogia fraca e operacionalmente enganosa implícita da noção

de uma biblioteca digital. Por algum tempo, a “bola da vez” foi a recuperação de

informações, que unia dados epistêmicos a antigas estruturas e hábitos das

bibliotecas tradicionais. Mas a recuperação da informação funcionava mal,

especialmente para as humanidades, pois a desconexão entre o significado que

se procurava e sua codificação de caracteres era muito grande.52

50 Kiernan, “Digital Image Processing and the Beowulf Manuscript”, 20-24.


51 Hockey, 16.
52 McCarty, “Becoming Interdisciplinary”, 72-73.

17
Para o filósofo americano Richard Rorty (1931-2007)53, o modelo de

conhecimento no trabalho acadêmico privilegia a pesquisa com profundidade,

alcançada pelo foco cada vez mais estreito da especialização disciplinar e a

desconsideração com a plenitude da superfície, criando dificuldade na conexão

entre as disciplinas. Ele argumenta que estamos diante de uma maneira

diferente de conceber a busca pelo conhecimento, não indo a fundo para

encontrar uma única resposta, e sim, buscando muitas visões, filtrando-as em

seguida, para depois classificar e reclassificar de acordo com as questões

apresentadas.54

O estudo interdisciplinar não deve se afastar completamente da sua

disciplina original, contudo, quanto mais disciplinas forem pesquisadas, mais

diversificado e valioso o trabalho se tornará. Além disso, esse intercâmbio

unidirecional traz novas possibilidades, como estabelecer uma nova disciplina

(como a Biologia Molecular ou as Humanidades Digitais) ou até mesmo para

restabelecer uma antiga disciplina. 55

A interdisciplinaridade inerente nas Humanidades Digitais, principalmente

pela união da ciência da computação com as humanidades, trouxe o

desenvolvimento de novos conceitos e metodologias para o campo e ajudou no

avanço de algumas das principais linhas de pesquisas da área: conteúdo digital;

marcação e codificação de texto; visualização e análise de texto; mineração de

dados; e Organização do Conhecimento.56

53 Richard Rorty, filósofo americano, estudioso em filosofia analítica contemporânea,


https://plato.stanford.edu/entries/rorty/.
54 Rorty, “Being that can be Understood is Language”, 21-23.
55 McCarty, “Becoming Interdisciplinary”, 75-77.
56 Perry Willett, “Electronic Texts: Audiences and Purposes”, 240.

18
1.2.1. Conteúdo digital

O conteúdo digital – como fotos e vídeos, não foi uma descoberta recente.

A Kodak desenvolveu a primeira câmera digital nos anos de 1970. E apesar das

pessoas utilizarem câmeras digitais com mais regularidade no final da década

de 1990, a fotografia digital só ganhou força e relevância com o advento do

smartphone em 2007.57

O surgimento de computadores digitais trouxe a descoberta, a

recuperação e a criação de novas informações para todos os campos da

atividade humana. Na história, por exemplo, o trabalho digital levou a análise

quantitativa para processos políticos, sociais e econômicos. Depois vieram o

texto eletrônico, o hipertexto e o início da comunicação digital (e-mail) na década

de 1980 – neste período, através dos computadores, digitalizavam textos e os

ligavam. Então veio a década de 1990 com a proliferação da Internet, quando

imagens eram digitalizadas e os dados visuais eram manipulados. A Internet

abriu conexões que permitiam a seus usuários visualizar textos e imagens de

praticamente todos os lugares do planeta e explorar múltiplas perspectivas

através da interatividade da mídia digital.58

A partir deste milênio, o trabalho acadêmico – ensino, pesquisas,

publicações e comunicações, se tornava cada vez mais inserido no ambiente

digital. Enquanto que o conteúdo analógico tem formato contínuo de ondas de

som e luz, o conteúdo digital é constituído por dados ou eventos descontínuos.

A digitalização transforma o sinal de onda de áudio ou vídeo dividindo em pulsos

eletrônicos representados por um código binário.59

57 Raza, “The History of Digital Content”.


58 Manning, “Digital World History”.
59 Ibid.

19
O volume de informação inserido no ambiente digital cresce

exponencialmente. É surpreendente que 90% deste conteúdo foi desenvolvido

somente nos últimos dois anos. Segundo dados da pesquisa realizada pela

MerlinOne em 2017 sobre a história do conteúdo digital, atualmente metade da

população mundial tem acesso à Internet, sendo que quase todos esses

usuários acessam a Internet remotamente. Além disso, mais de um terço (37%)

da população do planeta utiliza alguma rede social.60

1.2.1.1. Texto digital

Segundo Susan Hockey, no seu livro Electronic Texts in the Humanities:

Principles and Practice, publicado pela Oxford University Press em 2000, o texto

eletrônico possui algumas importantes categorias: programas de concordância

e recuperação de textos; análise literária e linguística; estilometria e estudos de

atribuição; edições críticas e eletrônicas textuais; e dicionários e bancos de

dados lexicais. Apesar disso, ela acreditava que a característica mais

interessante do texto digital seja a facilidade e a rapidez no seu acesso.61

O texto digital possui algumas considerações práticas para as

Humanidades Digitais. A transição eletrônica no qual caracteres, pontuação e

palavras são representadas fielmente em um arquivo de computador, permitindo

a busca por palavras-chave ou contextuais. Além disso, a forma compacta dos

textos eletrônicos (importante no armazenamento); a fácil manipulação para

pesquisas ou edições; e as adaptações realizadas para uma melhor utilização

por parte das pessoas com deficiência visual são outras vantagens do formato

60 Stringfellow, “The History of Digital Content”.


61 Willett, “Electronic Texts: Audiences and Purposes”, 243.

20
digital. O texto codificado – como o desenvolvido pelo TEI, fornece melhor e mais

completa representação de um texto, permitindo a autores e editores a

oportunidade de codificar estruturas hierárquicas e múltiplos recursos

encontrados no texto. Outra categoria interessante é o hipertexto, que permite

diversas escolhas narrativas, tornando o leitor mais ativo na experiência da

leitura. A instabilidade inerente do hipertexto dificulta ou até impossibilita que

bibliotecas digitais coloquem ou mantenham seu conteúdo a longo prazo.62

1.2.1.2. Livro digital

Em 1971, Michael Hart (1947-2011)63, um estudante da Universidade de

Illinois, obteve acesso ilimitado a um enorme computador mainframe da Xerox,

no laboratório de Pesquisas de Materiais, que era usado principalmente para

processamento de dados, mas que também era conectado à ARPAnet – uma

parte do que mais tarde se tornaria a Internet64. Hart então, digitou uma cópia da

Declaração da Independência dos EUA e enviou uma mensagem na ARPAnet

dizendo que o texto estaria disponível para download. Seis pessoas aceitaram a

oferta e baixaram o conteúdo. Provavelmente, ali nascia o primeiro livro digital

do mundo.65

62 Ibid, 243-245.
63 Michael Hart, autor americano e fundador do Project Gutenberg,
https://www.gutenberg.org/wiki/Michael_S._Hart.
64 Advanced Research Projects Agency Network (ARPAnet) surgiu em 1962 no Departamento de Defesa

dos EUA e sua primeira demonstração pública foi em 1972 no First International Conference of
Computer Communications. ARPAnet foi uma das primeiras redes de packet-switching e a primeira rede
a implementar o conjunto de protocolos TCP/IP. Ambas tecnologias se tornariam a base técnica da
Internet. Acessado em 2 de março de 2019, http://www.tipografos.net/internet/arpa-arpanet.html.
65 “History of E Books.

21
No mesmo ano, Hart fundou o Project Gutenberg66, com o objetivo de

estabelecer uma biblioteca pública eletrônica com cerca de 10.000 títulos. Ele

via a publicação eletrônica como uma ferramenta utópica e democrática de

educação para o maior número possível de pessoas. A Eastgate Systems67

publicara seu primeiro trabalho de ficção hipertextual em 1987: Afternoon, do

escritor americano Michael Joyce. O conteúdo do livro foi disponível em

disquetes. Em 1992, houve um grande avanço tecnológico, quando livros digitais

no formato DOS foram convertidos em edições compatíveis com o Windows. 68

Em 1993, o escritor britânico Peter James publicou (em dois disquetes) o

romance eletrônico Host. Quando o título foi publicado inicialmente na versão

impressa, um aluno de Ciências Cognitivas da University of Sussex, no Reino

Unido, informou ao autor que havia plataformas que produziam livros digitais.

Um ano depois, a versão digital do romance seria lançada nas plataformas Mac

e PC. O leitor do romance no formato digital tinha a possibilidade de clicar em

palavras-chave e obter descrições e fotografias da pesquisa de James, além da

fotografia do escritor que “ganhava vida” ao ser clicada. No lançamento da

versão digital da obra, James foi ridicularizado pela imprensa e especialistas,

acusado de “destruir” o romance. O romance Host comercializou 12.000 cópias

eletrônicas no primeiro mês do seu lançamento.69

Atualmente, universidades e editoras acadêmicas estão publicando cada

vez menos conteúdo no formato impresso. A necessidade de reproduzir um livro

para a publicação acadêmica e o avanço profissional combinada com a escassez

66 Project Gutenberg foi o primeiro fornecedor gratuito de livros eletrônicos, acessado em 24 de


fevereiro de 2019, http://www.gutenberg.org/.
67 Eastgate Systems é uma editora e empresa de software, pioneira na publicação de hipertextos e

literatura eletrônica, acessado em 26 de fevereiro de 2019, http://www.eastgate.com/.


68 “Ebook Timeline”.
69 Shaffi, “Science Museum to Display James Novel”.

22
de editoras dispostas a publicar na maneira tradicional pode obrigar as

humanidades a adotar a publicação online com mais frequência. A utilização

mais regular de livros digitais pode mudar a maneira como o acadêmico ensina,

pesquisa ou conceba sobre sua disciplina. Estudiosos e pesquisadores

acadêmicos podem ter seus trabalhos amplamente utilizados por outros autores

e especialistas, além de alcançar grandes audiências do público, em qualquer

parte do globo que tenha acesso a Internet.70

1.2.2. Marcação e codificação de texto

A linguagem de marcação basicamente se refere ao uso de tags que

agrupam palavras ou frases em um documento. Essas marcações são aplicadas

em uma estrutura hierárquica e incorporadas ao próprio fluxo do

texto. Abordagens experimentais para resolver problemas conceituais ou

lógicos, que surgem da estrutura hierárquica de marcação, ainda não

conseguiram desenvolver uma alternativa satisfatoriamente eficaz. A marcação

de texto continua sendo uma prática padrão na edição, no processamento e na

publicação de textos digitais. A utilização de tags HTML é considerada uma

forma muito básica de marcação de texto. O HTML é utilizado para criar

instruções para que os navegadores exibam textos (especificando formato,

fonte, tamanho etc.), essa marcação então é projetada a fim de chamar a

atenção do usuário para o conteúdo do texto. Isso pode envolver qualquer coisa,

desde observar as distinções entre partes de um texto, indicar lugar ou qualquer

outro elemento relevante do texto. A ação de inserir a marcação em um texto é

um ato de interpretação do autor ou editor, uma maneira de fazer uma

70 Choudhury & Seaman, “The Virtual Library”, 537.

23
intervenção explícita em um texto, para que possa ser analisada, pesquisada ou

relacionada com outros textos. A marcação de texto é um elemento essencial no

trabalho das Humanidades Digitais, uma vez que é a principal forma de estruturar

textos à medida que são transcritos, digitalizados ou nascidos digitalmente. 71

A codificação de texto também é importante para as Humanidades Digitais

no sentido que inclui a criação e o desenvolvimento de novos produtos, gêneros

e capacidades culturais, como hipertexto, multimídia, interatividade e networking

(produtos culturais conhecidos como "novas mídias"). Para o texto ser

trabalhado no formato digital, ele deve ser codificado em formato legível para o

computador.72 Muitos especialistas de marcação de texto acharam instrutivo

conceituar a marcação como um fenômeno geral da comunicação

humana. Ampliando o entendimento de marcação com maneiras simples e

naturais, seria possível utilizar esse conceito para iluminar aspectos da natureza

geral e da história dos sistemas de escrita e impressão, particularmente em

áreas como layout de página, tipografia e pontuação.73

No entanto, embora essa perspectiva possa ser esclarecedora, a

importância da marcação para as Humanidades Digitais seria melhor abordada

considerando a origem e o desenvolvimento da marcação na editoração

baseada na computação e no processamento antecipado de texto. Embora a

marcação possa ser considerada parte de qualquer sistema de comunicação, foi

com aplicações diretas no processamento do texto digital e da tipografia, entre

as décadas de 1960 e 1980, que o uso da marcação se tornou frequente e teve

um maior progresso.74

71 Drucker et al., Introduction to Digital Humanities, 46.


72 Renear, “Text Encording”, 218-219.
73 Coombs, Renear & DeRose, “Markup Systems and the Future of Scholarly Text Processing”, 933-935.
74 Goldfarb, “A Generalized Approach to Document Markup”, 69-72.

24
A marcação descritiva possui vantagens bem definidas, como a

composição simplificada e o controle sistemático da formatação, mas para

avaliar como ela motivou uma nova teoria da natureza do texto, é necessário

entender o número, a diversidade e o valor das vantagens da marcação

descritiva na visão geral:

• vantagens para autoria, composição e transcrição – composição mais

simples; propicia edição orientada e ferramentas de edição mais naturais;

e facilita as visualizações de documentos.

• vantagens para publicação – formatação pode ser especificada e

modificada; aparelho pode ser automatizado; suporte ao dispositivo de

saída é aprimorado; e a portabilidade e a comunicação eficaz entre os

sistemas são maximizadas.

• vantagens para arquivar, recuperar e analisar – permite recuperação de

informação e procedimentos.75

Além das vantagens descritas acima, é importante ressaltar que os

objetos indicados pela marcação descritiva estão ligados com o conteúdo

intelectual do texto. Eles são objetos "lógicos" subjacentes, componentes que

obtêm sua identidade através do seu papel na realização e organização do

propósito comunicativo. O arranjo estrutural desses "objetos de conteúdo"

parece ser hierárquico – eles se aninham uns nos outros sem se sobreporem, e

possuem uma ordem linear (se uma seção contém três parágrafos, o primeiro

parágrafo precede o segundo, que por sua vez precede o terceiro).76

75 DeRose, et al., “What is Text, Really?”, 13-18.


76 Renear, 224-225.

25
O primeiro rascunho das Diretrizes do TEI foi lançado em junho de 1990,

seguindo um período de desenvolvimento, liberando revisões e extensões até

1993. No início deste processo, vários projetos das humanidades começaram a

utilizar o rascunho das Diretrizes, fornecendo feedbacks valiosos e ideias de

melhoria. Além disso, foram realizados workshops e seminários para estimular o

uso das Diretrizes e garantir uma fonte constante de experiências e novas ideias.

Ao longo tempo, as Diretrizes do TEI têm tido êxito e, portanto, quase todos os

projetos de base textual das humanidades utilizam TEI. Depois do HTML, TEI

deve ser o sistema de codificação de texto SGML/XML mais utilizado nas

aplicações acadêmicas, sendo um produto de colaboração internacional de

estudiosos de várias disciplinas, em várias instituições espalhadas pelo mundo.

A motivação original do TEI era desenvolver diretrizes de intercâmbio que

permitissem que os projetos compartilhassem dados textuais (e as teorias sobre

esses dados) e promovessem o desenvolvimento de ferramentas comuns.

Porém, diferentes disciplinas não só têm interesses e perspectivas divergentes,

como também esquemas conceituais distintos (o que é um objeto de crítica e

debate para uma disciplina, pode ser um dado neutro ou nulo para outra).77

As Diretrizes do TEI representam uma elucidação de práticas, métodos e

conceitos, auxiliando no entendimento, na representação e na comunicação. Em

projetos de base de texto, as Diretrizes do TEI poderiam auxiliar questões

textuais e sugerir novas análises e mecanismos. Ao longo do tempo, TEI se

tornou uma comunidade de pesquisa, conectando muitas disciplinas,

profissionais e instituições de diversos países, definindo-se com interesses,

conceitos, ferramentas e técnicas compartilhadas. Sua finalidade é a

77 Ibid, 233-234.

26
comunicação textual, com o objetivo principal de melhorar a compreensão da

representação textual e sua utilização, com o intuito de desenvolver métodos,

ferramentas e técnicas que podem ser relevantes para outros campos e de

apoiar aplicações práticas em publicações, arquivamentos e bibliotecas. 78

Outra questão debatida por estudiosos é sobre o papel semântico das

linguagens de marcação, em especial, sobre o paradigma da Web Semântica

(ou Web 3.0) e os dados vinculados que se desenvolveram e se disseminaram.

Este processo de discussões sobre o assunto disponibilizou várias linguagens e

modelos de dados para representar, definir logicamente e consultar dados

semânticos. Neste período, apareceu um bom número de sistemas e

componentes de softwares voltados para o processamento de dados semânticos

(armazenamento, consulta e inferência), principalmente no domínio de código

aberto. Na arquitetura da Web Semântica, as ontologias79 formais têm o papel

de definir e restringir logicamente os termos das linguagens descritivas adotadas

para definir as propriedades semânticas dos recursos de informação. Isso tem

um paralelo com a dificuldade de atribuir uma semântica a linguagens de

marcação como o TEI. As ontologias formais podem dar acesso a uma série de

ferramentas e metodologias computacionais, como aplicação de mecanismos de

inferência e raciocínio para analisar dados textuais. Outra propriedade relevante

dos formalismos da ontologia da Web Semântica seria a possibilidade de

comparar e mesclar diferentes ontologias.80

78 Mylonas & Renear, “The Text Encoding Initiative at 10: Not Just an Interchange Format Anymore – But
a New Research Community”, 5-8.
79 O termo “ontologia” no texto significa “uma descrição formalizada e compartilhada de uma descrição

conceitual de um domínio”. Tom Gruber, pesquisador, designer e um dos criadores do Siri, da Apple,
http://tomgruber.org.
80 Ciotti & Tomasi, “Formal Ontologies, Linked Data, and TEI Semantics”, 1-5.

27
1.2.3. Visualização e análise de texto

Uma infinidade de textos é disponibilizada na Internet. No entanto, para

alguns pesquisadores, o problema é o oposto: a escassez de textos digitais que

fossem facilmente acessíveis e confiáveis, seja por motivos legais (como direitos

autorais ou privacidade), desafios técnicos (como a dificuldade de reconhecer

automaticamente caracteres em documentos manuscritos) ou restrições de

recursos que tornariam impraticável a digitalização de todo um tema (registros

paroquiais espalhados pelo mundo, por exemplo). Como resultado, há uma

desigualdade significativa na disponibilidade de textos digitais, que tem um forte

impacto nos tipos de trabalho que estudiosos e pesquisados são capazes de

realizar. Pode haver tanto texto disponível na Internet que seja necessário

formas de representar recursos significativos em formas mais compactas e

eficientes, e a visualização de texto pode ajudar nesta matéria. As visualizações

transformam o texto e reduzem a quantidade de informação apresentada, com o

objetivo de chamar a atenção para informações mais relevantes. Nuvens de

palavras são especialmente propícias neste processo, porque são relativamente

simples e intuitivas – quanto maior a palavra, mais frequentemente ocorre

(Figura 1). Todavia, as nuvens de palavras são geralmente estáticas ou limitadas

interatividade. Elas fornecem a informação, mas não permitem exploração ou

experimentos.81

81 Sinclair & Rockwell, “Text Analysis and Visualization”, 275-276.

28
Figura 1. Visualização de texto. 82

Outro problema que pode ocorrer com nuvens de palavras é que elas são

frequentemente aplicadas a situações em que a análise textual não é

apropriada. Pode-se argumentar que as nuvens de palavras fazem sentido

quando se trata de analisar especificamente o uso de palavras, mas não seria

adequado por exemplo, determinar sentido a um tópico complexo como a Guerra

do Iraque examinando apenas as palavras usadas para descrever os eventos. É

importante não confundir significante com significado.83

A visualização de texto para estudiosos e pesquisadores deve acomodar

uma mistura de evidências e argumentação. A abordagem não deveria convergir

a uma única interpretação que não possa ser contestada, mas sim, examinar

objetos de estudo através de várias perspectivas razoáveis e originais possíveis,

82 Ibid., 277.
83 Harris, “Word Clouds Considered Harmful”, 1-4.

29
para desenvolver interpretações convincentes. Logo, é importante que um

sistema de visualização suporte a atividade interpretativa. Uma visualização que

produza apenas uma solução para um conteúdo poderia ser de utilidade limitada,

enquanto que uma visualização que forneça muitas formas de interagir com os

dados e com diferentes perspectivas, poderia ser muito mais proveitosa. Nesse

contexto, há uma diferença importante entre visualizações estáticas e

interativas. Uma visualização estática tem como objetivo produzir uma

perspectiva única sobre as informações disponíveis – como gráficos de pizza,

gráficos de barras ou gráficos convencionais, sendo basicamente ferramentas

de exibição. Por outro lado, as visualizações interativas visam explorar as

informações disponíveis em um processo frequentemente sequencial e

interativo.84

Nos últimos anos, houve um aumento no número de visualizações mais

complexas e orientadas a textos na web. Essa nova interface interativa possui

características inovadoras na visualização e análise de textos (Figura 2): (i)

legenda explicativa que proporciona um contexto sucinto para a visualização e

propõe ao leitor analisar os textos; (ii) interface que fornece recursos abertos de

pesquisa; (iii) exposição de termos sugeridos para explorar; (iv) representação

visual de todo o corpus; (v) contexto para cada termo de interesse; (vi)

comparação de frequência de múltiplos termos durante um longo período e ao

mesmo tempo; e (vii) link para cada variável.85

84 Sinclair, Ruecker & Radzikowska, “Information Visualization for Humanities Scholars”.


85 Sinclair & Rockwell, 276-278.

30
Figura 2. Visualizações interativas de textos digitais do jornal The New York Times.86

Ao difundir perspectivas sobre os dados, as visualizações podem se

tornar úteis aos estudiosos das humanidades, fornecendo informações

adicionais sobre pequenas quantidades de texto ou dados, especialmente para

expor padrões que resultam de filtragem, classificação, agrupamento ou de outra

forma que reorganize visualmente o material. As visualizações podem fornecer

insights semelhantes em grandes quantidades de informações que, de outra

forma, seriam muito abundantes para serem compreendidas ou processadas. As

86 Ibid., 278.

31
visualizações também podem produzir comparações entre um par de

documentos ou um documento específico com muitos outros documentos.87

Nas ciências, as informações geralmente são numéricas, e as

visualizações normalmente envolvem a conversão dos dados numéricos

analisados no formato visual e manipulável. Nas Humanidades Digitais, as

informações são frequentemente textuais ou gráficas desde o início, e as

visualizações poderiam apoiar a manipulação direta dessas formas visuais de

maneira utilizável. A visualização numérica tem um papel útil a desempenhar,

mas algumas das visualizações mais impressionantes e inovadoras nas ciências

humanas lidam diretamente com textos e imagens. Essas visualizações

fornecem uma lente adicional que pode nos ajudar a extrair os tipos de

informações que não são prontamente aparentes ou gerenciáveis.88

Com ambientes analíticos tão ricos e sofisticados, a leitura dos textos

talvez não fosse necessária. Essa questão revela os propósitos para interagir

com os textos. Se a leitura for por deleite – por exemplo, uma história

convincente, uma descrição com nuances ou um relato detalhado de um evento

histórico, a análise e a visualização do texto provavelmente não seriam

satisfatórias. Mas se o objetivo for examinar características linguísticas ou

semânticas do texto, as ferramentas analíticas podem ser pertinentes. Na

prática, as Humanidades Digitais tendem a combinar essas atividades:

apreciação da leitura de textos ou uma forma diferente de releitura de textos

através de ferramentas analíticas e interfaces de visualização.89

87 Sinclair, Ruecker & Radzikowska.


88 Ibid.
89 Sinclair & Rockwell, 276-278.

32
A análise do texto digital é um processo de decomposição – que é um

modo padrão de entender algo, afinal, uma maneira para compreender um

fenômeno complexo é dividi-lo em partes menores. Corpos podem ser

entendidos em termos de órgãos e células. Histórias podem ser entendidas em

termos de épocas e eventos. Textos podem ser entendidos em termos de

capítulos, parágrafos, frases e palavras. E o computador pode ajudar a

decompor o texto. “Concordância” era um dos usos originais para os

computadores nas humanidades. Melhores do que índices, que apenas

informam em quais páginas se encontra a palavra de interesse, as

“Concordâncias” são ferramentas que além de buscar rapidamente todas as

ocorrências do termo no texto, identificam palavras que representam o conceito

do termo pesquisado. Pesquisar e apresentar palavras na tela foi a evolução da

“concordância de impressão” para os mecanismos de busca de grandes

organizações, como o Google. Outra finalidade da análise de texto é identificar

padrões de uso de palavras por autor específico, em um campo chamado de

stylistics90. Os computadores não apenas encontravam padrões, como também

contavam e comparavam esses padrões. Contando as palavras, que mesmo

sem conteúdo semântico, eram importantes sintaticamente (número de

ocorrências do termo), pois poderia ter uma noção do estilo da escrita do autor.

Com isso, poderia até utilizar como uma ferramenta de identificação de autores

90Stylistics: análise estilística na linguística refere-se à identificação de padrões de uso na fala e na


escrita. Acessado em 7 de março de 2019, https://curve.coventry.ac.uk/cu/file/33362904-d31d-ad7a-
a7ff-b5f63bca5bc2/1/studyskills.zip/english/styla.htm.

33
anônimos, como por exemplo, o caso Unabomber91. Análise de texto deixaria de

ser apenas uma simples análise, se tornando também uma síntese.92

Os pesquisadores das humanidades digitais têm feito um grande esforço

para produzir uma visualização utilizável para os dados. Como a instrução nas

humanidades é frequentemente exploratória, os formatos interativos são, na

maioria dos casos, preferíveis aos estáticos, pois permitem que estudiosos e

pesquisadores que utilizam o sistema, possam, entre outras atividades, adicionar

ou subtrair elementos, buscar palpites ou insights, experimentar diferentes

formas etc. É importante que as expectativas do acadêmico correspondam às

possibilidades da visualização, e que ele saiba o suficiente sobre as ferramentas

de visualização para entender que trabalho interpretativo está sendo guiado e

influenciado pelos dados.93

Existe uma importante diferença entre ler uma visualização de texto e

interpretar o que está sendo visualizado. As visualizações fazem uso de uma

gramática visual, assim como a linguagem exige uma gramática linguística, e é

necessário analisar o que é visto antes de tentar analisar e compreender a

visualização. A eficácia de uma visualização dependerá primeiro da capacidade

do leitor de decifrar o que está sendo visto.94

1.2.4. Mineração de dados

91 Ted Kaczynski, conhecido como Unabomber, foi um terrorista americano doméstico por 17 anos. Ele
foi descoberto pela sua cunhada que reconheceu o estilo da sua escrita do seu “manifesto” que havia
sido publicado nos principais meios de comunicação pelo FBI. Acessado em 21 de dezembo de 2018,
https://www.nytimes.com/1998/05/05/us/17-year-search-an-emotional-discovery-and-terror-
ends.html.
92 Sinclair & Rockwell, 283-284.
93 Sinclair, Ruecker & Radzikowska.
94 Sinclair & Rockwell, 287.

34
Em termos gerais, o termo mineração de dados refere-se a qualquer

processo de análise realizado em um conjunto de dados para extrair

informações. Mineração de dados quantitativos ou informações estatísticas é

uma prática comum nas ciências sociais, onde utilizam pacotes de software para

realizar o trabalho, variando em sofisticação e complexidade. Mas a mineração

de dados nas Humanidades Digitais geralmente envolve a realização de algum

tipo de extração de informações de um corpo de texto ou de metadados para

fazer perguntas de pesquisa que podem ou não ser quantitativas.95

A mineração de dados pode ser vista como o resultado da evolução

natural da tecnologia da informação. O setor de banco de dados e o

gerenciamento de dados evoluíram no desenvolvimento de várias

funcionalidades críticas (Figura 3): coleta de dados, criação de banco de dados,

gerenciamento de dados e análise avançada de dados. A pesquisa e o

desenvolvimento em sistemas de banco de dados desde a década de 1970

progrediram dos sistemas de banco de dados hierárquicos e de rede iniciais para

sistemas de bancos de dados relacionais (onde os dados são armazenados em

estruturas de tabelas relacionais)96, ferramentas de modelagem de dados e

métodos de indexação e acesso. Além disso, o utilizador do sistema obtinha

acesso apropriado e flexível a dados por meio de linguagem de consulta,

interface com usuário, otimização de consultas e gerenciamento de

transações.97

95 Drucker et al., 43.


96 Banco de dados relacional - conjunto de tabelas descritas formalmente, onde os dados podem ser
acessados ou remontados de diversas maneiras sem a necessidade de reorganizar as tabelas do banco
de dados. Inventado em 1970 por Edgar F. Codd, jovem programador da IBM na época. Acessado em 9
de março de 2019, https://searchdatamanagement.techtarget.com/definition/relational-database.
97 Han, Kamber & Pei, Data mining, 2-4.

35
Figura 3. A evolução da tecnologia do sistema de banco de dados.98

Após o estabelecimento dos sistemas de gerenciamento de banco de

dados, a tecnologia avançou para o desenvolvimento de sistemas avançados de

bancos de dados, armazenamento de dados e mineração de dados para análise

avançada de dados e bancos de dados baseados na Web. Contudo, a

98 Ibid., 3.

36
abundância de dados sem poderosas ferramentas de análise de dados criou

uma situação rica em dados, mas pobre em conhecimento. O crescimento

contínuo da enorme quantidade de dados coletados e armazenados em grandes

e numerosos repositórios de dados excedeu muito a capacidade humana de

compreensão. Como resultado, os dados coletados em grandes repositórios de

dados tornam-se “túmulos de dados” – arquivos de dados que raramente são

visitados. Esforços têm sido feitos para desenvolver tecnologias baseadas no

conhecimento, que normalmente dependem de usuários ou especialistas para

inserir manualmente o conhecimento em bases de conhecimento. Infelizmente,

o procedimento de entrada de conhecimento manual é propenso a vieses e

erros, além de ser extremamente oneroso e demorado. A crescente lacuna entre

dados e informações exige o desenvolvimento sistemático de ferramentas de

mineração de dados que possam transformar “túmulos de dados” em “pepitas

de ouro” do conhecimento.99

1.2.4.1. Processo do Knowledge Discovery in Database – KDD

Historicamente, a noção de encontrar padrões úteis nos dados recebeu

uma variedade de nomes, incluindo mineração de dados, extração de

conhecimento, descoberta de informações, coleta de informações, arqueologia

de dados e processamento de padrões de dados. O termo mineração de dados

tem sido usado principalmente por estatísticos, analistas de dados, comunidades

de sistemas de informações gerenciais e no campo de banco de dados. A frase

Knowledge Discovery in Database100 foi cunhada no primeiro workshop do KDD

99Ibid, 4-5.
100Knowledge Discovery in Database (KDD) é um processo de extração de informações de base de
dados, que também auxilia a validação de conhecimento extraído.

37
em 1989 para enfatizar que o conhecimento é o produto final de uma descoberta

baseada em dados. O KDD refere-se ao processo geral de descoberta de

conhecimento proveitoso a partir de dados, e a mineração de dados seria uma

etapa específica deste processo. A essência da mineração de dados está na

aplicação de algoritmos específicos para extrair padrões de dados. As demais

etapas do processo do KDD (preparação, seleção e limpeza de dados,

incorporação do conhecimento prévio adequado e interpretação correta dos

resultados da mineração) são primordiais para garantir que a derivação dos

dados resulte em conhecimento utilizável. A aplicação incorreta de métodos de

mineração de dados pode ser prejudicial, resultando na descoberta de padrões

sem sentido e inválidos.101

A natureza interdisciplinar do KDD evoluiu da interseção de campos de

pesquisa, como aprendizado de máquina, reconhecimento de padrões, bancos

de dados, estatística, inteligência artificial, aquisição de conhecimento para

sistemas especialistas, visualização de dados e computação de alto

desempenho. O objetivo unificador seria extrair conhecimento de alto nível de

dados no baixo nível de um contexto de grandes conjuntos de dados. A etapa

da mineração de dados do KDD atualmente depende muito de técnicas

conhecidas, como aprendizado de máquina, reconhecimento de padrões e

estatísticas, para encontrar padrões de dados. O KDD se concentra no processo

geral da descoberta do conhecimento dos dados, incluindo como os dados são

armazenados e acessados; como os algoritmos podem ser dimensionados para

conjuntos de dados massivos e ainda executados com eficiência; como os

resultados podem ser interpretados e visualizados; e como a interação entre

101 Fayyad, Piatetsky-Shapiro & Smyth, “From Data Mining to Knowledge Discovery in Databases”, 39-40.

38
homem e máquina pode ser modelada e suportada. O processo do KDD pode

ser visto como uma atividade multidisciplinar que engloba técnicas além do

escopo de qualquer disciplina específica. Abaixo, é possível observar as cinco

etapas do processo de KDD (Figura 4): (i) seleção; (ii) pré-processamento; (iii)

transformação; (iv) mineração de dados e (v) interpretação/ avaliação.102

Figura 4. Uma visão geral das etapas do processo do KDD.103

1.2.4.2. Mineração de texto

A mineração de texto procura extrair informações úteis de coleções de

documentos através da identificação e exploração de dados textuais não

estruturados. O sistema de mineração de texto deriva muito de sua inspiração e

direção de pesquisa no sistema de mineração de dados, sendo possível

observar muitas semelhanças arquitetônicas de alto nível. Por exemplo, os dois

sistemas dependem de rotinas de pré-processamento, algoritmos de descoberta

102 Ibid, 39-41.


103 Ibid., 41.

39
de padrões e elementos de camada de apresentação (como ferramentas de

visualização) para aprimorar a navegação de conjuntos de respostas.104

Como a mineração de dados pressupõe que os dados já foram

armazenados em um formato estruturado, grande parte do foco de pré-

processamento recai em duas tarefas críticas: limpeza e normalização de dados;

e criação de extensos números de junções de tabelas. Em relação aos sistemas

de mineração de texto, as operações de pré-processamento focam

principalmente na identificação e extração de recursos representativos para

textos em linguagem natural. Essas operações são responsáveis pela

transformação de dados armazenados não estruturados em coleções de

documentos em um formato intermediário mais estruturado. Além disso, devido

a centralidade do texto da linguagem natural na sua finalidade, a mineração de

texto também se baseia em avanços feitos por outras disciplinas da ciência da

computação relacionadas ao manejo da linguagem natural. Por exemplo, a

mineração de texto explora técnicas e metodologias das áreas de recuperação

de informações, extração de informações e linguística computacional baseada

em corpus.105

Um elemento-chave da mineração de texto é seu foco na coleção de

documentos. A maioria das soluções de mineração de texto visa descobrir

padrões em enormes coleções de documentos, que podem ser estáticas

(quando o conteúdo inicial de documentos permanece inalterado) ou dinâmicas

(caracterizadas pela inclusão de documentos novos ou atualizados ao longo do

processo). Técnicas de exploração automatizadas na mineração de texto são

104 Feldman, “Practical Text Mining”, 478.


105 Feldman & Sanger, The Text Mining Handbook, 1.

40
um requisito importante para que os pesquisadores possam reconhecer padrões

sutis em um grande número de documentos em linguagem natural. No entanto,

os sistemas de mineração de texto geralmente não executam seus algoritmos

de descoberta de conhecimento em coleções de documentos não estruturados.

Sendo assim, uma importante função da mineração de texto é dedicada nas

operações de pré-processamento (que incluem diversos tipos de técnicas

selecionadas e adaptadas de recuperação da informação, extração da

informação e pesquisa de linguística computacional), transformando o conteúdo

bruto e não estruturado, em um formato intermediário na estruturação de

dados.106

Como os algoritmos de mineração de texto operam nas representações

de documentos baseadas em recursos e não em documentos subjacentes,

muitas vezes há uma compensação entre dois importantes objetivos. O primeiro

objetivo seria alcançar a ajuste correto do volume e do nível semântico dos

recursos para retratar o significado de um documento com precisão, o que

conduz as operações de pré-processamento de mineração de texto a selecionar

ou extrair mais recursos para representar documentos. O outro objetivo seria

identificar recursos de uma maneira que seja digitalmente mais eficiente e prático

para a descoberta de padrões, um processo que enfatiza a simplificação de

conjuntos dos recursos representativos. Essa simplificação às vezes é apoiada

pela validação, normalização ou referência cruzada de recursos contra

vocabulários controlados ou fontes externas de conhecimento, como dicionários

106 Feldman et al., “Knowledge Management”, 3-8.

41
de sinônimos, ontologias ou bases de conhecimento para auxiliar na geração de

conjuntos representativos menores de recursos semanticamente mais ricos. 107

Alguns grupos de pesquisa têm se empenhado no desenvolvimento de

ferramentas de mineração de texto mais eficazes. Por exemplo, o GTech.Edu

– Grupo de Pesquisa em Tecnologia Aplicada à Educação –, da Universidade

Federal do Rio Grande do Sul – UFRGS, uma equipe interdisciplinar liderada

pelo professor Eliseo Reategui, formada por pesquisadores e estudantes de

diferentes áreas – Ciência da Computação, Educação, Letras, Psicologia e

Design –, que em 2007 desenvolveu a Sobek Mining,108 uma ferramenta de

mineração de texto que elabora diagramas de texto a partir dos conceitos mais

relevantes utilizando a análise de frequência de cada termo.109

1.2.5. A Organização do Conhecimento

Organização do Conhecimento (Knowledge Organization - KO) é sobre

atividades como descrição de documentos, indexação e classificação realizadas

em bibliotecas, bancos de dados, arquivos etc. Essas atividades são feitas

geralmente por bibliotecários, arquivistas, especialistas do assunto, bem como

por algoritmos de computador. A Organização do Conhecimento, como campo

de estudo, se preocupa com a natureza e a qualidade dos Processos da

Organização do Conhecimento (Knowledge Organizing Processes – KOP) e com

os Sistemas de Organização do Conhecimento (Knowledge Organizing Systems

– KOS), utilizados para organizar documentos, representações de documentos

e conceitos. A Biblioteconomia e Ciência da Informação (Library and Information

107 Feldman & Sanger, 5-6.


108 http://sobek.ufrgs.br.
109 Reategui et al., “Sobek: a Text Mining Tool”, 60-61.

42
Science – LIS) é a disciplina central mais ativa da Organização do Conhecimento

no sentido estrito da palavra. Outras áreas, como a sociologia do conhecimento

e a metafísica, são disciplinas relacionadas com a Organização do

Conhecimento no sentido mais amplo da palavra.110

Com o crescimento contínuo da utilização das novas tecnologias digitais

no campo da Organização do Conhecimento, muitas vezes os profissionais da

área se veem aplicando padrões para descrição de uma natureza objetiva. Com

isso, a Organização do Conhecimento acaba sendo vista mais como uma

atividade sintática do que como uma atividade semântica, conforme diferencia o

professor e conferencista Julian Warner:

“O trabalho semântico preocupa-se com transformações

motivadas pelo significado ou significado de símbolos, enquanto o

trabalho sintático é determinado apenas pela forma dos símbolos,

operando neles em seu aspecto como sinais. O trabalho semântico

requer o envolvimento humano direto, enquanto o trabalho sintático

originalmente humano pode ser transferido para a tecnologia da

informação, onde se torna um processo de máquina”.111

As atividades tradicionais baseadas nas pessoas são cada vez mais

desafiadas por técnicas de recuperação da informação baseadas no

computador. Seria apropriado investigar as contribuições relativas das diferentes

abordagens e quais os desafios atuais tornam necessário aprofundar esse

entendimento. No próximo capítulo, será possível observar a evolução da

110 Hjorland, “What is Knowledge Organization (KO)?”, 86.


111 Warner, “Description and Search Labor for Information Retrieval”, 1785; tradução do autor.

43
Organização do Conhecimento com a introdução das Humanidades Digitais.

Avaliando características (positivas e negativas) e dificuldades apresentadas ao

longo deste novo processo, além de citar estudos e projetos desenvolvidos na

área da Organização do Conhecimento.

44
CAPÍTULO 2

A Organização do Conhecimento e a Leitura Distante

45
2. A Organização do Conhecimento e a Leitura Distante

A chegada da tecnologia digital nas ciências humanas ampliou a

percepção da Organização do Conhecimento da área, revelando novos

trabalhos como o conceito de leitura distante, projetado pelo italiano Franco

Moretti, um dos trabalhos de maior repercussão já produzido pelo campo das

Humanidades Digitais. É interessante analisar essa nova realidade das

humanidades tradicionais, com a Organização do Conhecimento inserida no

ambiente digital, investigando progressos e dificuldades retratados por

estudiosos da área. Mais adiante neste capítulo, será abordado o conceito de

leitura distante, verificando como Moretti desenvolveu seu estudo e examinando

os debates lançados entre o idealizador e seus críticos.

2.1. Organização do Conhecimento nas Humanidades Digitais

O trabalho das Humanidades Digitais na Organização do Conhecimento

trouxe novas perspectivas para o campo das humanidades tradicionais com a

possibilidade de utilizar tecnologias digitais na organização de grandes

quantidades de texto. Contudo, segundo as professoras Ana Maria Alfonso-

Goldfarb, Silvia Waisse e Márcia Ferraz, essa nova realidade ainda não

conseguiu ultrapassar algumas barreiras, como a falta de padrões definidos ou,

até mesmo, a inviabilidade de gerar qualquer padrão, devido à complexidade dos

dados. Elas citam como exemplo o centro de pesquisa do programa de pós-

graduação da História da Ciência da Pontifícia Universidade Católica de São

Paulo – PUCSP, o CESIMA, que, após estruturar um banco de dados digital com

milhares de documentos do campo da História da Ciência, enfrentou uma série

de adversidades para indexar ou classificar esses documentos, visto que

46
nenhum dos sistemas de classificação disponíveis satisfazia quando era preciso

analisar os significados dos conceitos ao longo dos séculos.112

2.1.1. Árvores do conhecimento

No início da década de 1990, pesquisadores desenvolveram métodos

modernos de navegação em árvores que ofereciam uma visão geral e novas

estratégias de pesquisa. Resumidamente, essa ‘metáfora da árvore’ partia de

um único ‘tronco’ que, de forma ordenada e hierárquica, se dividia em vários

‘ramos’ do conhecimento. Três modelos de navegação em árvore se

destacariam na época: (i) mapas de árvore (Figura 5) – elaborado com

retângulos alinhados que apresentava a estrutura da árvore; (ii) árvores de cone

(Figura 6) – formado por um layout tridimensional (3D) circular em formato de

cone e conectado por links; e (iii) árvore hiperbólica (Figura 7) – modelo flexível

que proporcionava ao usuário redesenhar a árvore, alterando os locais de

bifurcação.113

Figura 5. Mapa da árvore da Apple Macintosh de TreeViz.114

112 Alfonso-Goldfarb, Waisse, & Ferraz, “New proposals”, 2.


113 Shneiderman et al., “Innovation Trajectories for Information Visualizations”, 87-91.
114 Ibid., 89.

47
Figura 6. Árvores de cone com representação 3D e efeitos de sombra. 115

Figura 7. Organograma em um navegador de árvore hiperbólica.116

115Robertson, Mackinlay & Card, “Cone Trees”, 193.


116Lamping, Rao & Pirolli, “A Focus+Context Technique Based on Hyperbolic Geometry for Visualizing
Large Hierarchies”, 401.

48
Mais adiante, novos modelos de árvore foram desenvolvidos, como os de

diagramas, por exemplo. Alguns estudiosos continuavam céticos por considerar

que uma evolução real somente ocorreria mediante uma mudança mais radical,

com a tradicional árvore hierárquica sendo substituída pelo modelo de rede não-

hierárquico. Entretanto, outros pesquisadores acreditavam que os modelos de

rede, na verdade, não eram sucessores, mas variações dos diagramas de

árvore. Por meio de uma visualização mais detalhada, um amplo escopo e uma

extensa capacidade de detectar vários ‘nós espaço-temporais’ em um mesmo

diagrama, o modelo de rede possibilitaria uma melhor perspectiva e análise das

alterações dos conceitos ao longo do tempo – característica importante no

estudo da História da Ciência –, sendo muito valioso nessa nova etapa da

Organização do Conhecimento.117

2.1.2. As humanidades se tornando digitais

Para Todd Presner118, o campo das Humanidades Digitais não seria uma

substituição ou rejeição do estudo das humanidades tradicionais, mas uma

expansão do seu escopo, por mais que as novas tecnologias pudessem

sobrecarregar abordagens tradicionais ao conhecimento e deslocar certas

disciplinas, campos acadêmicos e práticas pedagógicas. Por exemplo, campos

tradicionalmente baseados em texto, como a história ou a literatura, começavam

a recorrer a novas ferramentas de autoria, mineração de dados e análise de texto

para examinar corpus complexos de textos em grande escala e com excepcional

nível de precisão. Além disso, a apresentação do conteúdo no formato físico

117Alfonso-Goldfarb, Waisse, & Ferraz, “New Proposals”, 2-4.


118Todd Presner, presidente do Programa de Humanidades Digitais da UCLA e fundador da HyperCities.
(plataforma colaborativa de mapeamento digital).

49
deixaria de ser um meio normativo na produção e disseminação do

conhecimento, sendo absorvido por configurações modernas de multimídia,

novas ferramentas, técnicas inovadoras e mídias digitais que modificariam

bastante a produção e a propagação do conhecimento nas artes, humanidades

e ciências sociais. Na primeira fase dos estudos nas Humanidades Digitais, entre

final de 1990 e início dos anos 2000, houve um grande esforço nos projetos de

digitalização em larga escala e no estabelecimento da infraestrutura tecnológica,

com maior atenção para a análise de texto (sistemas de classificação, marcação,

codificação de texto e edição acadêmica). No segundo ciclo, conhecido como

“Humanidades Digitais 2.0”, ambientes e ferramentas foram desenvolvidos para

a produção e interação do conhecimento que já ‘nascia digital’, introduzindo

novos paradigmas disciplinares, campos convergentes, metodologias híbridas e

modelos inéditos de publicação que não se limitariam ao formato físico. 119

As tecnologias digitais foram mais facilmente assimiladas por algumas

áreas de conhecimento, caso das ciências sociais, mas nem tanto por outras,

como no campo da História. Diversas razões dificultavam a utilização de

ferramentas e tecnologias digitais no estudo da História: (i) informações

coletadas na pesquisa acadêmica poderiam ser interpretadas de diversas

maneiras, como pela abordagem histórica ou por especificidades próprias de

lugares ou tempos distintos; (ii) historiadores dão maior enfoque nos dados

gerados pelo processo – por exemplo, como seria viver, trabalhar e se relacionar

socialmente na época analisada –, tornando o estudo mais complexo que as

triviais classificações sociológicas sugeridas pelos dados; e (iii) autenticidade

dos dados gerados, fator primordial para historiadores, mas não para os

119 Presner, “Digital Humanities 2.0”.

50
sociólogos que, por sua vez, se concentram mais na amostragem e na

intepretação (análise de dados).120

O ambiente digital não figurava mais como um meio neutro para o fluxo

de informações e era preciso atentar na utilização de métodos digitais e

estatísticos no estudo da História. Combinações binárias poderiam simplificar

demasiadamente as informações obtidas, empobrecendo o resultado final. As

informações coletadas por historiadores são fenômenos únicos de dados não

estruturados que dificilmente poderiam ser apresentados em uma estrutura

formal e quantitativa. Além disso, seria extremamente complexo codificar o

tempo e, mais ainda, o contexto.121

No início da década de 2010, inúmeros projetos buscavam oferecer

soluções tecnológicas para estudiosos e pesquisadores. Por exemplo, a análise

produzida por Jean-B. Michel e sua equipe, de um corpus de textos digitalizados

contendo cerca de 4% de todos os livros já impressos até aquele momento,

permitiria investigar tendências culturais quantitativamente. O trabalho de Michel

focava nos fenômenos linguísticos e culturais refletidos na língua inglesa, entre

os anos de 1800 e 2000, e pretendia fornecer insights sobre campos tão diversos

como lexicografia, evolução da gramática, memória coletiva, censura e

epidemiologia histórica.122

A análise de grandes bancos de dados através de uma abordagem mais

quantitativa trouxe enormes ganhos estatísticos, porém seria difícil elucidar

precisamente a temporalidade do conteúdo apreciado e, consequentemente, as

mudanças conceituais inseridas no assunto pesquisado. O processo

120 Alfonso-Goldfarb, Waisse, & Ferraz, “New Proposals”, 6-8.


121 Weldon, “Historians and Their Data,” 301.
122 Michel et al., “Quantitative Analysis of Culture”, 176.

51
desenvolvido através de uma análise quantitativa precisaria ser melhor ajustado,

com uma extração de dados mais completa, qualificada e profunda, para maior

proximidade com as fontes originais. O conteúdo extraído de textos era

analisado através de quadros conceituais predefinidos. Entretanto, se algum

dado coletado não se encaixasse em algum desses conceitos preconcebidos,

poderia ser descartado ou privado de uma melhor apreciação. A utilização de

análises quantitativas no estudo de textos ainda teria um logo caminho pela

frente.123

2.1.3. A Organização do Conhecimento no campo da História da Ciência

no ambiente digital

A História da Ciência é um campo de estudo autônomo que utiliza áreas

do conhecimento de outras disciplinas para desenvolver seus projetos. Com

isso, possui uma difícil tarefa ao catalogar e classificar sua produção científica

dentro de um padrão rígido do sistema de organização do conhecimento

baseado na disciplina. Até por essa razão, a inserção da tecnologia digital pode

revelar alguns problemas da área: (i) as próprias disciplinas estão sujeitas a um

processo histórico em transformação; (ii) alguns objetos de investigação

científica resistem serem classificados por grades disciplinares rígidas; e (iii) o

ambiente digital substituiu sequências espaciais e temporais de exibição,

alterando a ênfase tradicional do conhecimento nas abordagens orientadas ao

usuário.124

123 Alfonso-Goldfarb, Waisse, & Ferraz, “New proposals”, 11-12.


124 Alfonso-Goldfarb, Waisse, & Ferraz, “From Shelves to Cyberspace”, 551.

52
Em relação aos objetos de pesquisa no campo da História da Ciência,

segundo Georges Canguilhem (1904-1995)125, existe uma grande diferença

entre o objeto da ciência, que seria construído a partir da reflexão metódica sobre

coisas e fenômenos existentes no mundo, resultando em objetos epistêmicos de

primeira ordem, e o objeto da História da Ciência, que seria um produto de

segunda ordem da historicidade do discurso científico ou da historicização da

epistemologia.126

Com o surgimento da ciência moderna, a unidade de conhecimento aceita

por milênios pelos estudiosos dividiu-se em várias disciplinas autônomas. Os

pesquisadores sabiam que seus objetos de estudo não se restringiriam aos

limites da identidade disciplinar. Paralelo a isso, a natureza interdisciplinar nos

estudos da História da Ciência tornava-se amplamente reconhecida. Apesar da

nova realidade digital ofertar acesso facilitado ao crescimento exponencial de

informações disponíveis, a falta de ferramentas conceituais e metodológicas

apropriadas fazem com que pesquisadores percam um tempo precioso na

adaptação do que seriam recursos úteis no meio digital127

No passado, as classificações documentais foram construídas com o

propósito de organizar sequencialmente livros em prateleiras ou entradas em

catálogos. A recuperação on-line na Internet acabou com a necessidade de

mecanizar essa exibição espacial sequencial, embora tenha levantado outras

questões sobre a sequência de exibição temporal. Questiona-se, por exemplo,

125 Georges Canguilhem foi filósofo e médico francês. Especialista em epistemologia e História da
Ciência.
126 Alfonso-Goldfarb, Waisse, & Ferraz, “From Shelves to Cyberspace”, 552.
127 Ibid., 556.

53
como deveria ser exibido a ordem dos resultados de uma pesquisa e quais

seriam as outras opções de navegação.128

Shiyali Ranganathan (1892-1972)129 define classificação como o

mapeamento do universo multidimensional de assuntos ao longo de uma linha,

para o qual fornece regras. Ele propõe cinco categorias que considera

fundamentais: tempo (Time), espaço (Space), energia (Energy), matéria (Matter)

e personalidade (Personality), formando a sigla PMEST, utilizada para identificar

as categorias fundamentais. O tempo e o espaço não requerem elucidação

particular, a energia corresponde a qualquer tipo de ação e a matéria liga-se a

materiais e propriedades. Personalidade seria a característica distintiva de um

sujeito. Como exemplo (Figura 8):130

Figura 8. (MS) assunto principal, (P) personalidade, (M) matéria,


(E) energia, (S) espaço e (T) tempo.131

As classificações tradicionais aplicam fórmulas de assuntos e facetas

predefinidas sob as quais os documentos são incluídos e, portanto, procedem

de cima para baixo. No entanto, um esquema facetado livremente envolve

analisar facetas de um documento primeiro para, em seguida realizar uma

síntese que resulte em ‘assuntos’ ou ‘classes principais’, movendo-se de forma

‘ascendente’ – o que Ranganathan, do ponto de vista epistemológico, definiu

128 Vickery, “Faceted Classification for the Web”, 147.


129 Shiyali R. Ranganathan foi matemático e importante bibliotecário indiano.
130 Alfonso-Goldfarb, Waisse, & Ferraz, “From Shelves to Cyberspace”, 558.
131 Ibid., 558.

54
como ‘analítico-sintético’. Até o momento, o modelo facetado apresenta-se como

um dos poucos, se não o único, que inclui assuntos interdisciplinares e

multidisciplinares, os diferenciando e estabelecendo regras para a sua

formação. Por essa razão, esse modelo ajusta-se à História da Ciência com

perfeição. Bastaria adicionar algumas facetas aos exemplos dados acima para

alterar o assunto principal atribuído aos documentos. Por exemplo, “A Estrutura

da Proteína e do Microscópio Eletrônico no Século XX” não pertencia mais ao

simples assunto principal “química”, mas ao complexo assunto “história da

química” pois incluiria noções de química como um processo autônomo, ciência,

relações com instrumentos científicos e elementos epistemológicos, sociológicos

e históricos particulares. Além de oferecer liberdade às restrições disciplinares e

de prateleira, as facetas e a formação dinâmica dos assuntos não seriam

construções meramente lineares, e sim, incluiriam noções de integração e

complexidade muito valiosas ao pensamento sistêmico e cibernético

contemporâneo.132

A Organização do Conhecimento na História da Ciência não representaria

apenas uma mera taxonomia de disciplinas. Na verdade, possuiria

características capazes de moldar profundamente padrões de pensamento de

uma comunidade em um singular laço temporal-espacial. Os sistemas

tradicionais de organização do conhecimento ainda são direcionados conforme

antigos conceitos da Organização do Conhecimento, afeitos à necessidade de

ordenar livros em prateleiras das bibliotecas físicas.133 Para a gestão de

informações inserida em uma realidade digital, os objetos de pesquisa

132 Ibid., 558-559.


133 Alfonso-Goldfarb, Ferraz & Rattansi, “Lost Royal Society Documents”, 435-437.

55
atravessam os limites disciplinares e o armazenamento de dados passa a ser

virtual e remoto. Embora a História da Ciência seja um campo interdisciplinar de

pesquisa por natureza e origem, seu modelo de Organização do Conhecimento

permanece disciplinado e baseado nessas prateleiras obsoletas, ocasionando

graves distorções e anacronismos que podem levar estudiosos e especialistas

da área a desperdiçar um tempo precioso em sua atividade ou, até mesmo,

perder documentos essenciais ao seu trabalho. Os conceitos apresentados

pelos modelos facetados podem ser de grande valia na construção de uma nova

Organização do Conhecimento inserida no ambiente digital, em especial para o

estudo da História da Ciência. A classificação por meio de um esquema facetado

oferece possibilidades de atender as necessidades de um campo interdisciplinar,

facilitando o trabalho acadêmico e colocando pesquisadores mais próximos de

seus recursos.134

2.2. O conceito de leitura distante

O conceito de leitura distante foi desenvolvido através de uma série de

pesquisas lideradas pelo historiador literário Franco Moretti. Um surpreendente,

inovador e polêmico método de estudo da história literária que utiliza ferramentas

e conceitos de outras áreas do conhecimento como análises quantitativas,

gráficos, mapas geográficos, árvores da evolução biológica e teoria de rede.

Moretti criou uma abordagem incomum na teoria evolutiva e no conceito de

sistema-mundo ao buscar compreender melhor características das literaturas

nacionais e mundial. Analisou a influência da geografia na formação da literatura

europeia, a formação dos cânones literários, o processo decisório do leitor na

134 Alfonso-Goldfarb, Waisse, & Ferraz, “From Shelves to Cyberspace”, 559-560.

56
escolha de romance, o comportamento do comércio literário internacional, as

semelhanças entre os mercados cinematográfico e editorial, as alterações dos

títulos romanescos ao longo do tempo e a estruturação de enredo pelas

interações dos personagens.

O conceito de leitura distante foi concebido por Moretti no decorrer de

duas décadas aproximadamente, entre 1994, quando escreveu o artigo “Modern

European Literature: A Geographical Sketch” para a revista New Left Review, e

2013, quando publicou o seu livro Distant Reading. Durante essa trajetória,

vários especialistas e críticos literários interagiram no processo, corroborando ou

criticando suas ideias, tornando o estudo mais rico e interessante. 135

2.2.1. A influência da geografia na formação da literatura europeia moderna

Na obra European Literature and the Latin Middle Ages, publicada em

1948, o estudioso literário alemão Ernst Robert Curtius (1886-1956)136 entendia

que só havia espaço para uma literatura: a literatura moderna. E a existência de

Estados-nação consistia em uma negação desta unidade europeia. O espaço

geográfico estreito da Europa praticamente obrigava que as culturas nacionais

interagissem entre si. Entretanto, existiam resistências a esse sistema, como na

literatura russa. Naquela época, as culturais locais atuavam como

microambientes na Europa, cada uma com sua história e seus costumes, mas

sempre interagindo com outras culturas137.

135 Moretti, Distant Reading, 1-2.


136 Ernest Robert Curtius, estudioso e filólogo alemão, conhecido pelo seu estudo Europäische Literatur
und Lateinisches Mittelalter, em 1948.
137 Curtis, European Literature and the Latin Middle Ages, 14-16.

57
Para Moretti, a grande tragédia barroca138 do século XVI transmitiria a

ideia de uma Europa multicêntrica. E dois pontos se destacavam na formação

deste estilo: a forma trágica sendo resultado paradoxal da violência na formação

dos Estados-nação e a forma como a literatura europeia era influenciada pelos

novos tempos. As culturas nacionais distantes e suas diferentes versões

solidificadas no contexto de Estado-nação acabaram ajudando a evolução da

tragédia barroca. Moretti acreditava que a literatura europeia tinha muito a

ganhar com a perda da unidade continental. Ele credita o distanciamento entre

a ilha britânica e o resto do continente europeu como sendo fundamental para a

evolução do trabalho de William Shakespeare (1564-1616).139

A partir da segunda metade do século XVIII, ocorreria uma verdadeira

revolução na literatura europeia com a chegada de um novo estilo, que cresceria

com muito sucesso no continente: o romance. A diversidade europeia

proporcionaria ao romance um espaço descontinuo interessante para explorar

diversos caminhos simultaneamente. Uma vasta rede de literaturas nacionais

permitiu a criação de um sistema literário europeu, formando um conjunto de

literaturas nacionais.140 Curtius assim descrevia a literatura europeia em um

continente multicêntrico:

“De 1100 a 1275 - de Song of Roland a The Romance of the

Rose - a literatura francesa e a cultura intelectual são o modelo para

as outras nações. [...] Mas a literária primária passou pela Itália a partir

de 1300: Dante, Petrarca, a Alta Renascença. Isto reagiu sobre

138 Barroco: estilo que predominou a arquitetura, pintura, literatura e música no século XVII na Europa.
139 Moretti, “Modern European Literature”, 90-92.
140 Moretti, Distant Reading, 17-23.

58
França, Inglaterra, o começo dos "anos dourados" da Espanha, que

por sua vez, domina a literatura europeia por mais de um século. [...]

Não é até o início do século XVII que a França finalmente se emancipa

da dominação italiana e espanhola, no qual ela assume uma primazia

que permanece inabalável até cerca de 1780. Enquanto isso, desde

1590 a Inglaterra desenvolveu uma grande literatura própria, no

entanto recebe pouca atenção no continente até o século XVIII. A

Alemanha nunca conseguiu competir com as potências mundiais

literárias da Romênia. Sua hora não chega até a Era de Goethe. Até

então, embora ela receba influências externas, não irradia

nenhuma.”141

A literatura francesa, como única sobrevivente do romance no passado,

conseguiria unir a lógica de um grande Estado moderno, com sua economia

capitalista, ao realismo do século XIX.142 Com Paris sendo uma grande e

influente metrópole europeia, a cultura francesa desenvolveria grande parte de

sua poesia moderna através de Charles Baudelaire (1821-1867).143

Novos espaços sociais em uma mesma região geográfica influenciaram

para que houvesse uma explosão modernista no século XX. Como na tragédia

barroca e, posteriormente, no romance, um novo público, avesso ao mercado e

que rejeitava padronizações, ofereceria ambientes livres e receptivos, com mais

chances de uma experimentação formal.144

141 Curtis, European Literature and the Latin Middle Ages, 34; tradução do autor.
142 Moretti, “Modern European Literature”, 99-100.
143 Baudelaire foi poeta, teórico e crítico francês. Conhecido como “Pai do Simbolismo”, foi precursor do

movimento simbolista e fundador da poesia moderna. Considerado um dos maiores poetas franceses, sua
obra influencia a literatura mundial até hoje. https://www.todamateria.com.br/charles-baudelaire/
144 Moretti, Distant Reading, 34-37.

59
Uma nova narrativa mais melodramática surgiria na França e na

Inglaterra. Mais semelhante ao estilo do folhetim, ela valorizava as ficções

policial e científica. Rapidamente capturou milhões de novos leitores, preparando

o caminho para a indústria da imagem e do som. Mesmo com a forte influencia

cultural e social de importantes capitais europeias no século XX, como Madrid,

Roma e Moscou, acontecia um fenômeno que valorizaria grandes metrópoles,

como Barcelona, Milan e Petersburg. As afinidades culturais se tornavam mais

relevantes que as proximidades geográficas. Por exemplo, Paris se tornava mais

‘próxima’ de Buenos Aires do que de Lyon e Berlim se identificava mais com

Manhattan do que com Munique. Com isso, fronteiras entre as nações europeias

perdiam sua importância. As novas gerações, com suas atitudes radicais e

ousadas, não prosperariam na rigidez das províncias, mas se adaptariam

facilmente nas grandes cidades, onde seus costumes e hábitos eram mais

aceitos.145

A Europa sofreu vários golpes que enfraqueceriam seu universo simbólico

de Estado-nação: devastações militares, soberania política limitada e migração

de sua hegemonia econômica para os Estados Unidos e, posteriormente, para

os países asiáticos. No campo cultural, surgiriam novas mídias que triunfariam

sobre a palavra escrita: o som e a imagem. Além da chegada da internet, que

reformularia a cultura europeia para sempre.146

2.2.2. O ‘Matadouro da Literatura’

145 Moretti, “Modern European Literature”, 101-105.


146 Ibid., 107-109.

60
Ao observar o catálogo de uma pequena coleção de livros de sucesso de

meados do século XIX, Moretti percebe que apenas uma ínfima parcela daquelas

obras ainda era conhecida e que quase a totalidade daqueles títulos havia

desaparecido ao longo do tempo:

“Era a primeira página de um catálogo de 1845: a biblioteca

circulante de Columbell, em Derby: uma pequena coleção, do tipo que

só queria livros de sucesso. Mas hoje, apenas alguns títulos ainda

soam familiares. Os outros, nada. Se foi. A história do mundo é o

matadouro do mundo, diz um famoso aforismo hegeliano; e da

literatura. A maioria dos livros desaparece para sempre - e a maioria

realmente erra o argumento: se definirmos hoje o cânone dos

romances britânicos do século XIX em duzentos títulos (o que é um

número muito alto), eles ainda seriam apenas 0,5 por cento de todos

os romances publicados”. 147

Ao analisar a literatura daquele período, ele constata que o cânone

literário148 britânico do século XIX seria composto por aproximadamente

duzentas obras. Isso quer dizer que menos de um por cento dos romances que

foram publicados naquela época ainda ‘sobrevivia’ atualmente. Moretti

denominaria esse processo como ‘Matadouro da Literatura’.149

Esse processo, que faz com que um enorme contingente de autores não

seja lido ao longo da história literária, proporciona a Moretti um novo sentido no

147 Moretti, “The Slaughterhouse of Literature”, 207; tradução do autor.


148 Cânone literário é um conjunto de livros considerados como referência em um determinado período,
estilo ou cultura.
149 Moretti, Distant Reading, 66-67.

61
estudo da área como um todo. Contudo, havia um grande obstáculo: se a leitura

de duzentas obras do cânone britânico do século XIX já era uma tarefa árdua,

seria humanamente impossível ler (atentamente) mais de vinte mil títulos

produzidos naquele período. Um estudo mais amplo e complexo sobre a história

literária requereria novas habilidades e técnicas, como amostragem, estatísticas,

aplicação de modelos de árvore, entre outras. Para Moretti, era importante

manter a maior parte possível de títulos a salvo deste ‘Matadouro da Literatura’,

para que as gerações seguintes pudessem ter acesso e avaliar quais autores ou

obras teriam o privilégio de serem ‘canonizados’. Ele entendia que eram os

leitores, e não os professores, que deveriam determinar o cânone literário, pois

na sua visão, decisões acadêmicas eram meros ecos de um processo que já

acontecia nas ruas. Por exemplo, o trabalho de Conan Doyle (1859-1930)150 era

extremamente valorizado pela população em geral, mas somente foi ter

reconhecimento acadêmico cem anos depois.151

Fora do ambiente acadêmico, era o mercado que definia o cânone

literário. Os romances para serem lidos precisavam ser adquiridos antes. E as

editoras só imprimiriam livros que tivessem demanda. Títulos que tinham uma

boa procura popular se mantinham ‘vivos’, até que outra geração os tivesse

acesso, e assim por diante.152

2.2.3. ‘Retornos crescentes’

150 Sir Arthur Conan Doyle, escritor, poeta e historiador escocês, que ficou mundialmente conhecido pelas
histórias que escreveu sobre Sherlock Holmes, o detetive ficcional mais popular da história.
https://www.arthurconandoyle.com/
151 Moretti, “The Slaughterhouse of Literature”, 207-209.
152 Ibid., 209-210.

62
Com a finalidade de interpretar melhor a influência do mercado editorial

na formação do cânone literário, Moretti utilizou outro segmento mercadológico

como objeto de estudo, o da indústria cinematográfica. Ele então analisa a tese

elaborada pelos economistas Arthur De Vany (1937-0000) e William David Walls

(1961-0000)153, que retrata o comércio de filmes através de um modelo

matemático e estatístico da dinâmica da informação. A partir deste momento, o

estudo faria uma análise comparativa entre os mercados literário e

cinematográfico, com o intuito de encontrar características semelhantes no

comportamento mercantil de seus respectivos cânones.154

Uma das principais descobertas ao analisar o mercado de filmes era que

existia um ciclo de feedbacks, que Moretti mais tarde chamaria de ‘retornos

crescentes’. Ele observou que probabilidade de um interessado escolher um

filme em particular era proporcional a quantidade de vezes que essa película

havia sido selecionada anteriormente. Esse comportamento decisório do

consumidor fazia com que vinte por cento filmes exibidos fosse responsável por

oitenta por cento do faturamento das bilheterias. Os filmes com pouco tempo de

exibição, portanto com poucas referências sobre conteúdo ou qualidade, tinham

uma procura descentralizada. Contudo, com maior tempo em cartaz, a demanda

se tornava mais concentrada em poucas produções cinematográficas. Moretti

percebeu que esse comportamento se repetia no mercado editorial, onde a

procura se tornava centralizada em poucos romances ao longo do tempo,

formando o cânone literário. Por exemplo, a medida que os leitores

selecionavam os livros de Conan Doyle, aumentava a procura pelas suas obras.

153 De Vany & Walls., The Market for Motion Pictures, 783–797.
154 Moretti, “The Slaughterhouse of Literature”, 210.

63
Esse comportamento fazia com que seus romances ocupassem uma fatia cada

vez maior no seu mercado.155

A sistemática do consumo de livros através dos ‘retornos crescentes’ era

simples e fácil de entender, mas qual seria a razão dessas obras terem sido

selecionadas nas primeiras vezes, antes do ciclo de feedbacks? O modelo

econômico desenvolvido por Vany e Walls tinha um ponto cego. Afinal, qual

evento iniciava essa troca de informações entre os leitores? A teoria econômica

conseguia analisar o comportamento de escolha após a seleção inicial, mas não

a motivação original pela preferência por uma determinada obra.156

2.2.4. Modelo de árvore no estudo da história literária

Para entender o que motivava leitores a optarem por certos títulos sem ter

referências, Moretti lideraria um grupo de pesquisa com a tarefa de analisar

textos do cânone literário Conan Doyle (criador de Aventuras de Sherlock

Holmes) e textos de autores rivais da mesma época, que pertenciam ao mesmo

gênero literário: ficção policial. Moretti definiu esse estilo como objeto desta

pesquisa por dois motivos. Primeiro que as histórias de detetive tinham um

enredo relativamente simples e de fácil compreensão, depois porque eles

possuíam um dispositivo específico: ‘pistas’. Para o pesquisador italiano, essa

era a principal razão do sucesso de Doyle. O modelo de árvore seria utilizado

para verificar a importância de ‘pistas’ na trama. Quatro ramificações se

destacariam na análise (Figura 9). A primeira, na parte inferior, alguns escritores

não utilizavam as ‘pistas’, e por isso eram esquecidos ao longo do tempo. Outros

155 Ibid., 201-211.


156 Moretti, Distant Reading, 70.

64
autores compreendiam a importância e as utilizavam, mas de forma equivocada,

sem qualquer função na história, como retratada na segunda bifurcação. Na

terceira ramificação, ‘pistas’ tinham função, mas não eram visíveis ao leitor.

Neste momento, os últimos rivais eram descartados. Entretanto, metade dos

livros de Conan Doyle também havia sido descartada. Nesta última divisão,

‘pistas’ deveriam ter sido descobertas pelo leitor, fator essencial para o sucesso

das histórias do gênero. Porém, Moretti concluiu que essa informação seria

muito subjetiva e difícil de verificar.157

Figura 9. A presença de pistas nos romances de ficção policial. 158

157 Moretti, “The Slaughterhouse of Literature”, 212-216.


158 Ibid., 73.

65
O modelo de árvore funcionaria como uma metáfora cognitiva, que

poderia revelar um olhar inédito no estudo da história literária. Além das

ramificações geradas por um dispositivo, era possível utilizar esse mesmo

método de análise com uma variável mais complexa: o gênero. Havia um padrão

no estudo de histórias de ficção policial com a análise de duas unidades formais:

o dispositivo e o gênero. Neste modelo de árvore, os ramos (escolhas formais)

não se reproduziam, mas sim, se moviam por caminhos distintos, transformando

o gênero em um campo de movimentos divergentes. E a maior parte dos

escritores se movia errado, o que levava a desaparecerem em ‘galhos mortos’.159

Moretti observou uma forte característica dos escritores pesquisados.

Aqueles que tinham um estilo já definido não costumam alterar sua forma de

escrever, mesmo cientes que os resultados não seriam favoráveis

comercialmente. Isso criava uma rigidez na evolução da literatura, que

dependeria de novas gerações de escritores para evoluir e escrever dentro de

um novo paradigma. Por exemplo, Agatha Christie (1890-1976)160, uma escritora

de romances de ficção policial de grande sucesso, que somente surgiria 30 anos

após Conan Doyle, acarretando um salto de uma geração na evolução da

popularidade do gênero. As mudanças literárias eram abruptas e estruturais, e

não lentamente, com pequenas e contínuas melhorias ou passos

intermediários.161

159 Moretti, Distant Reading, 71-78.


160 Agatha Christie, escritora inglesa de maior destaque no gênero de ficção policial. Conhecida como a
rainha do crime, suas obras venderam mais de um bilhão de cópias na língua inglesa e outro bilhão de
cópias traduzidas. www.agathachristie.com/about-christie, acessado em 27 de outubro de 2018.
161 Moretti, “The Slaughterhouse of Literature”, 218-222.

66
Apesar de Moretti defender que ‘pistas’ fosse um dispositivo essencial

para gênero de ficção policial, o filósofo e linguista búlgaro Tzvetan Todorov

(1939-2017) apresentaria duas formas distintas de narração:

“A primeira pode ser chamada de ‘curiosidade’; ela vai do efeito

à causa: a partir de certo efeito (um cadáver e alguns indícios) é

preciso encontrar sua causa (o culpado e aquilo que o levou a cometer

o crime). A segunda forma é o ‘suspense’, e aqui se vai da causa ao

efeito: mostram-nos primeiro as causas, os dados iniciais (gângsteres

que preparam golpes), e nosso interesse é mantido pela expectativa

do que vai acontecer, ou seja, dos efeitos (cadáveres, crimes,

brigas)”.162

A função da forma narrativa tinha sua importância no mercado, mas

existia a questão do tempo histórico. Para o historiador francês Fernand Braudel

(1902-1985),163 havia uma multiplicidade de tempo, onde uma nova história

social econômica poderia criar um movimento cíclico de vanguarda em intervalos

temporais. Uma série de conjunturas que estabelecia grandes seções abertas

do passado. Uma história que poderia ser capaz de atravessar longos períodos

de tempo: anos, décadas, ou até mesmo, séculos.164

Contudo, mesmo que o modelo de árvore pudesse reconhecer as

motivações primárias dos leitores a escolherem por determinadas obras, isso

somente conseguia identificar o padrão (dispositivo) de sucesso dos romances

canônicos, mas não analisava as características de 99% dos textos literários que

162 Todorov, Poética da Prosa, 68-70.


163 Fernand P. A. Braudel, historiador francês e um dos principais representantes da École des Annales.
164 Braudel, History and the Social Sciences, 27.

67
não pertenciam ao universo canônico. Para Moretti, o modelo conseguiu revelar

que o caminho dos cânones era apenas uma das várias possibilidades, e isso

poderia tornar diferente a história da literatura. O método proposto com suas

mais variadas ramificações (a maior parte desconhecida) poderia ser uma nova

extensão no estudo da história literária. A criação desta nova metodologia de

análise tinha como objetivo ampliar e fornecer mais informações ao estudo no

campo, mas era difícil prevê se os novos dados apresentados seriam relevantes

ou não na evolução do estudo da história da literatura.165

2.2.5. Análise comparativa entre os mercados cinematográfico e editorial

Durante sua pesquisa, Moretti analisou pequenos e grandes mercados

literários e percebeu que as distinções entre eles não se resumiam apenas ao

tamanho, como se os pequenos fossem réplicas proporcionalmente menores

dos grandes. Eles também se diferenciavam na estrutura. O tamanho da

composição de vendas não afetava somente a quantidade de livros ofertada,

mas também a sua variedade. Nos pequenos comércios, as obras mais famosas

e generalistas tinham amplo destaque na exposição, enquanto que as menos

conhecidas e com pouca atratividade comercial praticamente desapareciam das

prateleiras:166

“Uma biblioteca pequena é o signo de um mercado pequeno:

‘um espaço demasiadamente estreito’, para a crescente divisão de

trabalho da narrativa oitocentista; assim, ele desencoraja as formas

mais especializadas (como os romances jacobinos, ou os contos

165 Moretti, “The Slaughterhouse of Literature”, 225-227.


166 Moretti, Atlas do Romance Europeu, 168-171.

68
regionais, ou as importações estrangeiras) e seleciona, ao contrário, o

gênero ‘generalista’, de múltiplas finalidades, do romance histórico”. 167

Moretti pesquisou sobre o domínio da indústria cinematográfica

americana no mercado mundial, relacionando os gêneros com a demanda

geográfica dos filmes. Ele percebeu que essa correlação (quantidade de obras

ofertadas x diversidade de gêneros disponíveis) que acontecia no mercado de

filmes, também se repetia no mercado editorial. Durante seu estudo, dois estilos

cinematográficos chamaram sua atenção: (i) os filmes de ação, que dependiam

de um bom enredo para ter sucesso e tinham uma ampla e sólida distribuição

em quase todo mercado internacional; e (ii) as comédias, que tinham a narrativa

como ponto fraco e eram pouco atraentes no mercado estrangeiro.168

Em relação ao mercado literário europeu do século XIX, Moretti observou

que os romances britânicos e franceses tinham conseguido simplificar o

consumo cultural europeu, formando uma massa de centenas de milhares de

leitores que consumiam praticamente os mesmos livros, durante o mesmo

período. Percebendo que esse comportamento era semelhante com o início da

indústria cultural, Moretti então realiza um experimento sobre a disseminação

das produções hollywoodianas pelo mundo. A princípio, ele busca informações

no período de uma década, de quais seriam as cinco películas de maior

performance de vendas (Top 5) por ano. Mapeando apenas países que tinham

dados mais organizados e confiáveis, ele consegue uma amostra de 46 países,

sendo 25 europeus, durante os anos de 1986 a 1995.169

167 Ibid., 170.


168 Moretti, Distant Reading, 91-93.
169 Moretti, “Planet Hollywood”, 90.

69
Moretti chega a conclusão que a indústria de Hollywood tinha um amplo

domínio nos filmes de maior bilheteria nas nações analisadas. Em 13 países

observados, mais de 90% dos filmes mais assistidos eram dos Estados Unidos

(sendo que em cinco desses países, todos os filmes eram americanos). Em

outros 24 países, as películas de Hollywood representavam entre 75 e 90% na

relação do Top 5. Em alguns casos específicos, como na França (forte rejeição

cultural dos EUA) e nos países da Escandinávia e leste europeu (por razões

pontuais), a presença americana era menor (menos de 75%) na relação dos

cinco filmes mais exibidos. Além disso, o estudo indicaria que filmes de ação e

aventura produzidos em Hollywood eram os mais exportados. Moretti

interpretaria que o sucesso deste gênero estava em uma narrativa mais simples,

o que facilitava o entendimento de outras culturas e amenizava a barreira da

língua estrangeira, além do apelo visual. Por outro lado, os números

apresentados pelo estudo apontaram que os filmes de comédia eram pouco

atraentes no mercado internacional. A principal justificativa deste baixo

desempenho comercial estaria na diferença entre as culturas americana e local

(consumidora do conteúdo). Piadas ou situações engraçadas dependeriam da

sintonia entre emissor e o receptor da mensagem. Por exemplo: o sucesso de

uma piada poderia depender de uma suposição implícita, que só seria entendida

pelo receptor, se este tivesse o conhecimento histórico da cultura do emissor.

Não é por acaso que as comédias nacionais geralmente fazem mais sucesso.

Além de analisar os gêneros de ação e comédia, o estudo também trouxe outros

dados interessantes. Filmes infantis costumavam ter melhores performances nas

regiões mais ricas. Produções com enredo dramático tinham maior procura nos

70
países europeus, o que indicava que a história cultural desses países

influenciava no interesse por este determinado estilo.170

Os resultados revelaram que cada região do mundo funcionava como um

ecossistema cultural, selecionando determinados formatos de filme e rejeitando

outros. O modelo darwiniano estava inserido nesta geografia cultural: a luta pelo

espaço. Produções cinematográficas lutavam por uma fatia do mercado. Se um

determinado gênero ocupasse um espaço com êxito, outros estilos teriam

dificuldades nas vendas. Moretti então compara a difusão dos romances anglo-

franceses na Europa do século XIX com a disseminação dos filmes americanos

pelo mundo no século XX. A influência dos países exportadores de conteúdo

(seja em livros ou filmes) produzia um duplo efeito nas culturas dos países

importadores e consumidores deste material. A princípio gerava conflito entre a

forma (estrangeira) e a matéria (local), além disso, absorver obras estrangeiras

criava incertezas para escritores e cineastas locais, pois exercia uma forte

pressão na construção das formas e nas suas produções. Isso originou

morfologicamente um subdesenvolvimento cultural.171

2.2.6. Sistema-mundo literário

O estudo da história literária tinha centenas de línguas e literaturas para

ser examinadas e Moretti não aceitava que mais leitura seria a melhor solução

para analisar a literatura mundial. Era inviável analisar milhares de títulos

britânicos, franceses, chineses, argentinos e de outros países, apenas do século

XIX. O estudo da história literária se resumia a uma fração canônica, que

170 Moretti, Distant Reading, 97-103.


171 Moretti, “Planet Hollywood”, 99-101.

71
representava menos de um por cento das publicações literárias. A literatura

mundial deixava de ser um objeto de estudo para se tornar um problema. Moretti

acreditava que era necessário desenvolver uma nova metodologia de pesquisa

para o campo.172

Durante sua pesquisa sobre literatura comparada e literatura mundial,

Moretti conheceu o modelo conceitual de sistema-mundo173, desenvolvido

principalmente por Immanuel Wallerstein (1930-0000)174, que descrevia como

seria o sistema capitalista mundial desenvolvido a partir de uma nova divisão

internacional do trabalho, dividindo as regiões do mundo em categorias: (i)

países-núcleo, que desenvolveriam produtos de alta tecnologia; (ii) países semi-

periféricos, que produziriam gêneros industrializados de baixa tecnologia; e (iii)

países periféricos, que seriam responsáveis pelas matérias-primas.175

Para realizar a complexa tarefa de analisar a literatura mundial, Moretti

utilizou recursos da teoria do sistema-mundo. Para ele, existiam interferências

entre as literaturas nacionais, mas de forma desigual. A literatura de um país

periférico poderia ser influenciada, interceptada e até mesmo alterada por outra

cultura (estrangeira), provavelmente oriunda de um país núcleo, entretanto o

inverso dificilmente aconteceria, pois, a cultura da região periferia era ignorada

pelo núcleo.176

172 Moretti, “Conjectures on World Literature”, 54-55.


173 Sistema-mundo é uma teoria sobre a divisão inter-regional e transnacional do trabalho, descrevendo
a posição de cada região em relação a economia mundial, além de características políticas e econômicas
internas. Immanuel Wallerstein, The Modern World-System I: Capitalist Agriculture and the Origins of the
European World-Economy in the Sixteenth Century (New York: Academic Press, 1974).
174 Immanual Wallerstein, sociólogo e pesquisador americano, desenvolveu a teoria do sistema-mundo

moderno. Ele é autor de vários livros e artigos que retratam a teoria do sistema-mundo. Acessado em 14
de novembro de 2018, https://www.iwallerstein.com/
175 Wallerstein, The Modern World-System, 224-233.
176 Moretti, “Conjectures on World Literature”, 55-56.

72
Moretti enxergava que a leitura atenta poderia ser utilizada apenas se o

objeto de pesquisa se limitasse ao cânone literário. Ele afirmava que era preciso

aprender a ‘não ler’ – por meio de uma leitura distante. Esse método de estudo

permitia ao pesquisador analisar outras informações além do texto escrito, como

dispositivos, temas, gêneros ou sistemas. Era inevitável que houvesse perdas

no estudo de alguns textos nesta complexa análise, mas seriam insignificantes

perto do ganho que teria na compreensão total do sistema.177

Diante de suas reflexões sobre a teoria do sistema-mundo e a evolução

da literatura mundial, Moretti desenvolveu o que seria um sistema-mundo

literário. Nele, a cultura da periferia (quase todas não-europeias e algumas

poucas do velho continente) não conseguiria desenvolver um romance moderno

de forma autônoma e autentica, pois o conteúdo local seria influenciado pela

cultura estrangeira (principalmente a francesa e a inglesa). Ele ainda precisaria

comprovar sua tese, e para isso, inicia uma pesquisa sobre a difusão do romance

moderno na história literária de quatro continentes, recortando um período

aproximado entre 1750 e 1950, explorando títulos da Europa oriental no final do

século XVIII, do sul da Europa no início do século XIX, de meados do mesmo

século na América Latina, de romances árabes e turcos da década de 1870, de

novelas da África Ocidental de 1920 a 1950, entre outros. Depois de realizar

mais de vinte estudos críticos e independentes, os grupos de pesquisa liderados

crítico literário italiano chegariam a mesma conclusão, que o romance moderno

da cultura periférica era composto pela junção da forma estrangeira com a

matéria (realidade) local.178

177 Moretti, Distant Reading, 53-56.


178 Moretti, “Conjectures on World Literature”, 58-60.

73
O núcleo anglo-francês exercia enorme pressão para que o sistema

literário fosse uniforme, mas o predomínio cultural do núcleo não conseguia

sobrepor completamente as particularidades regionais da periferia. Depois de

1750, o romance surgiria em quase todas as regiões com um padrão que

misturava a cultura da Europa Ocidental com os costumes locais. 179

Três elementos se destacavam na formação dos romances: (i) o enredo

estrangeiro, com seus “padrões” que ditavam o que seria a normalidade das

relações sociais; (ii) a matéria local, que fornecia personagens com seus

costumes regionais; e (iii) a forma local, através de uma narração típica da

região. Este último elemento era mais instável, pois os narradores analisavam,

comentavam ou explicavam quando os “padrões normais” estrangeiros

interagiam com personagens e costumes locais na história. A definição do que

seria “normal” pela cultura estrangeira era uma forma simbólica e velada do

poder do núcleo, que podia variar de uma localidade para a outra. Moretti achava

que esse formalismo sociológico era apropriado para analisar a literatura mundial

e que a principal variação entre as literaturas era a fala do narrador. Contudo,

ficaria inviável uma analise linguística da narração de inúmeros textos escritos

por diversos idiomas. Além disso, haveria um ponto em que o estudo da literatura

mundial necessitaria de um especialista da literatura nacional.180

Tradicionalmente, a analise cultural em grande escala utilizava duas

metáforas cognitivas básicas: a árvore e a onda. A árvore, derivada da árvore

filogenética,181 era descontinua e tinha a função de retratar o objeto de estudo

179Ibid., 64.
180Moretti, Distant Reading, 57-59.
181 Árvore filogenética é um diagrama, utilizado no estudo da teoria da evolução darwiniana, que

representa as relações evolutivas entre organismos. Elas são hipóteses, não fatos definidos. O padrão de
ramificação de uma árvore filogenética reflete como espécies evoluíram a partir de um ancestral comum.

74
através de ramificações, traçando um caminho lógico da unidade à diversidade.

Já a onda seria o oposto, desconsiderava a diversidade e analisava o objeto de

forma uniforme e contínua. Enquanto que as árvores seriam como Estados-

nações, com seus limites territoriais, a onda representaria o mercado

globalizado, sem fronteiras. Apesar de suas diferenças, essas duas metáforas

se tornariam importantes no estudo da história cultural. A literatura nacional seria

analisada sob a ótica do modelo de árvore, enquanto a literatura mundial

utilizaria a teoria da onda.182

2.2.6.1. Críticas a teoria do sistema-mundo literário

Em 2007, Jerome David Salinger (1919-2010)183 criticou a análise

relacional feita por Moretti entre o sistema-mundo e o comportamento do

mercado literário internacional. Na visão dele, havia uma relação de

interdependência econômica entre os países no sistema-mundo, porém isso não

se repetia no mercado editorial. Por exemplo, o núcleo econômico precisava da

força produtiva da periferia (a mão-de-obra barata), mas esse cenário não

acontecia no sistema-mundo literário, pois o núcleo não necessitava da periferia

para produzir suas obras. Para Moretti, a argumentação de Salinger limitava a

aplicação do conceito de Wallerstein no estudo história literária. Na verdade, o

pesquisador italiano pretendia fazer uma analogia do contexto econômico no

sistema-mundo ao intercambio literário, não a produção de livros. Todavia, essa

critica trouxera algo que Moretti ainda não tinha enxergado, a influência

assimétrica no sistema literário. A atividade literária do núcleo determinava

Acessado em 22 de novembro de 2018. https://pt.khanacademy.org/science/biology/her/tree-of-


life/a/phylogenetic-trees.
182 Moretti, Distant Reading, 59-62.
183 J. D. Salinger, escritor americano conhecido pelo romance The Catcher in the Rye, de 1951.

75
grande parte do trabalho realizado na periferia, mas o inverso dificilmente

acontecia. Considerando que a literatura periférica não seria necessária ao

núcleo, então somente metade do conceito de Wallerstein poderia ser aplicado

no sistema-mundo literário.184

O conceito revolucionário desenvolvido pesquisador italiano e abordado

no seu artigo “Conjectures on World Literature”, em 2000, levantou inúmeros

questionamentos de especialistas e pesquisadores literários. 185 Analisando as

criticas direcionadas ao seu trabalho, Moretti se concentra nas três principais

áreas de desacordo entre ele e seus críticos: o status paradigmático do romance;

a relação núcleo-periferia e suas consequências à forma literária; e a natureza

da análise comparativa. Para o pesquisador italiano, os movimentos literários

dependiam de três grandes variáveis: (i) o gênero, com sua formalização e uso

de linguagem; (ii) a rápida difusão das formas, com fórmulas rígidas e estilo

simplificado; e (iii) a densidade linguística.186

Moretti admitiu que sua tese sobre a difusão cultural entre países estava

incompleta e concordou quando Donald Sassoon (1946-0000)187 afirmou que os

países não decidiam se tornar culturalmente dominante, e que na verdade, não

estava claro como isso ocorria. A medida em que o movimento cultural se

tornava uma atividade produtiva, os instrumentos à disposição do Estado eram

basicamente econômicos: subsídios, protecionismo, quotas etc. Porém, na visão

de Sassoon, isso não era suficiente para aumentar o poder cultural de uma

nação, ocorrendo geralmente de forma quase espontânea, através de

184 Moretti, Distant Reading, 107-108


185 Prof. Christopher Prendergast (University of Cambridge), Prof ª Francesca Orsini (University of
London), Prof. Efrain Kristal (University of California, Los Angeles), Prof. Jonathan Arac (University of
Pittsburgh), Profª. Emily Apter (New York University) e Profª Jale Parla (Istambul Bilgi University).
186 Moretti, “More Conjectures”, 73-75.
187 Donald Sassoon, professor de História Europeia Comparada na Universidade de Londres.

76
subprodutos de um consagrado poderio econômico, como prestígio, influência,

história ou oportunidade. Para alcançar um determinado domínio era preciso,

ainda que não suficiente, possuir grandes meios de produção e difusão dos bens

cultuais, como por exemplo editoras literárias, produtoras musicais, imprensa

atuante, indústria cinematográfica (incluindo uma boa rede de distribuição),

estúdios de rádio e TV. Também era necessário ter um forte e sólido mercado

consumidor interno, pois a exportação do conteúdo cultural era geralmente um

subproduto de uma indústria que já prosperava internamente. Sassoon então

propõe um conjunto de características que poderiam determinar um domínio

cultural de uma nação: (i) Estados culturalmente dominantes, onde a produção

local abundante já atenderia um mercado interno forte e exigente, além de

importar moderadamente valores estrangeiros (por exemplo, Grã-Bretanha e

França no século XIX e os EUA desde 1945); Estados protecionistas que

poderiam ter um mercado cultural doméstico forte, mas que seriam incapazes

de exportar ou impedir as importações. (a antiga URSS, por exemplo); Estados

cujo mercado cultural interno absorva tanto os mercados locais quanto as

produções estrangeiras, mas que não tem condições de exportar

significativamente (como Japão e Índia); e Estados culturalmente dominados,

que consomem principalmente a produção estrangeira (como os exemplos de

Bélgica e Bulgária).188

Efraín Kristal (1959-0000)189 criticou Moretti ao utilizar a rígida divisão

internacional de trabalho da teoria do sistema-mundo como modelo para o

estudo do sistema-mundo literário. Mesmo tendo uma visão favorável ao

188 Sasson, “On Cultural Markets”, 113-115.


189 Efraín Kristal, professor e especialista em literatura latino-americana comparada na UCLA.

77
conceito de literatura mundial, ele acreditava que os principais países da Europa

ocidental não detinham o monopólio sobre a criação das formas, pois elas

poderiam se mover em várias direções: do centro para a periferia, da periferia

para o centro e de uma periferia para outra. Apesar de aceitar que o estudo da

literatura comparada ficaria empobrecida se fosse limitada a cultura europeia ou

americana, Kristal discordava em limitar o estudo da escrita nas periferias ao

conteúdo normativo das metrópoles. Para ele, escritores da Ásia, Europa

Oriental e demais regiões periféricas poderiam criar formas, como os

romancistas dos países núcleo.190

Moretti tinha restrições para aceitar que as formas poderiam se mover em

várias direções, como acreditava Kristal. Para ele, seria muito improvável o

movimento de uma periferia para outra sem passar pelo centro, e que seria mais

difícil ainda o movimento da periferia em direção ao centro. Enquanto que o

movimento do centro para a periferia seria algo normal e bem mais trivial. Como

Kristal, ele também não acreditava que o Ocidente tivesse o monopólio sobre as

criações das formas, mas que as culturas dos países núcleo dispunha de mais

recursos para investir em tecnologias e nas produções.191

Apesar da hegemonia material e a hegemonia intelectual fossem bem

próximas, não eram exatamente idênticas. Por exemplo, mesmo estando atrás

economicamente da Grã-Bretanha (hegemonia material) nos séculos XVIII e

XIX, a França possuía uma melhor narrativa literária (hegemonia intelectual), e

por esta razão, seus romances se tornaram mais bem-sucedidos e relevantes

que os britânicos na Europa. Possuir a hegemonia material da região ajudava,

190 Kristal, “Considering Coldy...”, 73-74.


191 Moretti, “More Conjectures”, 75-77.

78
mas não significava necessariamente que teria uma hegemonia literária na

região.192

O professor Jonathan Arac (1945-0000)193 também discordava de Moretti

e não aceitava que a estruturação dos textos produzidos na Europa ocidental

fosse autônoma. Por exemplo, The History of the Adventures of Joseph Andrews

and of his friend Mr. Abraham Adams, um dos primeiros romances britânicos

publicados, em 1742, foi definido pelo seu autor Henry Fielding (1707-1754)

como um “épico cômico em prosa, escrito após a maneira de Cervantes”.

Portanto, uma obra concebida no próprio núcleo literário moderno influenciada

de uma adaptação de uma região que se tornaria periferia mais adiante. A

relação entre núcleo e periferia seria então sincrônica, pois a relação permitia

que o núcleo fosse central, mas a definição de como seria o sistema literário

durante um determinado período dependeria da atuação dos dois em

conjunto.194

2.2.7. Literatura mundial: teoria da evolução ou sistema-mundo?

Os ensaios de Moretti sobre leitura distante eram sustentados

basicamente por duas teorias, que aparentemente pareciam ser bastante

distintas. A primeira seria a teoria da evolução, construída em três estudos: (i) a

influência geográfica no progresso da literatura na Europa; (ii) o processo

decisório no consumo de livros e formação dos cânones literários; e (iii) o modelo

de árvore que buscava identificar características (formas e gêneros) que

levavam o romance a ter sucesso. Essa primeira teoria era utilizada

192 Ibid., 77-78.


193 Jonathan Arac, professor e critico literário, especialista em literatura britânica 1740-1940.
194 Arac, “Anglo-globalism?”, 38.

79
principalmente para analisar as literaturas nacionais. A segunda era a teoria do

sistema-mundo de Wallerstein, que analisava as relações de domínio econômico

e a influência cultural entre os países. Por essa ótica, Moretti analisou o comércio

internacional de filmes e livros. A partir da teoria de Wallerstein, Moretti insere

uma visão do campo das ciências econômicas em suas pesquisas sobre a

história literária, em especial nas análises sobre a literatura mundial. Moretti

então esboça uma comparação entre as duas teorias, a fim de captar quais

contribuições elas estariam dando ao estudo da história literária, além de

analisar se elas eram compatíveis.195

É possível visualizar duas variáveis na “árvore de Darwin” (Figura 10): a

história (eixo vertical) – passagem do tempo em intervalos de mil gerações; e a

forma (eixo horizontal) – progresso da diversificação morfológica, onde surge

espécies com variedades marcantes ou inteiramente novas.196

Figura 10. Divergência de caráter. 197

195 Moretti, Distant Reading, 121-123.


196 Ibid.,124-125.
197 Darwin, The Origin of Species, 116-117.

80
Segundo Moretti, foi neste ponto que a teoria da evolução mais contribuiu

na história literária:

“Uma teoria que tem como problema central a multiplicidade de

formas existentes no mundo; que os explica como resultado de

divergência e ramificação, e que fundamenta divergência em um

processo de separação espacial [...] Muitas formas diferentes, em um

espaço descontínuo: não um ponto de partida ruim, para o estudo da

literatura mundial.”198

A teoria da evolução (por meio do modelo de árvore) fornece uma visão

do quão longe uma determinada forma poderia se distanciar (diferenciar) de

outra, que a partir de um ponto de origem em comum, produziria inúmeras

categorias (ramificações), diferente do sistema-mundo que era limitado em três

categorias: núcleo, periferia e semi-periferia. No conceito desenvolvido por

Wallerstein, o mundo se tornaria único e de forma desigual, pois o capitalismo

restringia a produção no mundo e sua rede internacional acentuaria o desnível

entre as três esferas. Esse comportamento se repetia no sistema-mundo literário

que também era desigual. Muitas literaturas nacionais e locais tinham seu

desenvolvimento afetado por causa de suas posições diminuídas no sistema.

Resumindo, a teoria da evolução exibia a diversificação, marca das literaturas

nacionais que foram produzidas por meio de diversas culturas separadamente,

enquanto que o sistema-mundo se definia como único e desigual, símbolos da

literatura mundial.199

198 Moretti, “Evolution, World-Systems, Weltliteratur”, 114; tradução do autor.


199 Moretti, Distant Reading, 125-128.

81
Itamar Even-Zohar (1939-0000),200 que desenvolveu a teoria dos

polissistemas,201 muito semelhante à análise de sistema-mundo, observou que

dentro do sistema literário internacional não havia simetria e que a literatura dos

países núcleo interferiam constantemente na cultura dos países periféricos, mas

que o inverso não acontecia, o que aumentava a desigualdade do sistema.202

Moretti tinha um pensamento semelhante ao de Even-Zohar, que o

mercado operava com mecanismos de difusão, onde obras literárias dos países

núcleos eram incessantemente exportados para as regiões periféricas, onde

eram lidos, admirados, imitados e transformados em modelos. O que acabava

interferindo na autonomia da produção literária dos países importadores. Essa

difusão assimétrica contribuía para que houvesse uma forte semelhança entre

as literaturas do sistema. Romances escritos nos países periféricos eram

bastante parecidos dos editados nos países do núcleo. Essa prática se repetia

com os filmes de ação americano, que tinham sua essência copiada por

produções de outras regiões, em especial de culturas periféricas.203

A principal contribuição da teoria do sistema-mundo na composição do

conceito de leitura distante foi concluir que a literatura mundial era única e

desigual. Essa grande difusão imposta pelo mercado editorial internacional

criava uma mesmice nas formas literárias, pois dificultava o surgimento de estilos

originais nas periferias e semi-periferias, por causa da forte influência cultural

que recebia do núcleo. A difusão se tornava a grande força conservadora da

literatura mundial. Oposta a esta atmosfera, a teoria da evolução buscava a

200 Itamar Even-Zohar é sociólogo, linguística e pesquisador israelense. Docente na University of Tel Aviv.
201 A teoria dos polissistemas, analisou conjuntos de relações na literatura e na linguagem. Mais adiante,
analisou complexos sistemas socioculturais. Essa teoria foi publicada na obra de Even-Zohar, Polysystem
Studies (Durham: Duke University Press, 1990).
202 Even-Zohar, Papers in Historical Poetics, 14-20.
203 Moretti, “Evolution, World-Systems, Weltliteratur”, 115-116.

82
diversificação ao longo do tempo com suas ramificações. Apesar de

incompatíveis, ambas teorias eram verdadeiras e importantes no estudo da

literatura mundial. E Moretti tinha argumentos histórico e morfológico para

defender essa afirmação.204

O argumento histórico seria que a diversificação (da teoria da evolução) e

a mesmice (da teoria do sistema-mundo) estavam presentes na história literária,

porém em épocas e com mecanismos sociais diferentes. A diversificação seria

o resultado de quando ainda existia um relativo isolamento das culturas humanas

pelo mundo, desde suas origens até poucos séculos atrás. A mesmice teria se

iniciado mais tarde, por volta do século XVIII, quando o mercado literário

internacional se tornou forte o suficiente para que umas culturas subjugassem

outras. Era como se a literatura mundial fosse dividida em antes e depois de sua

globalização. Na explicação morfológica, o mercado literário internacional seria

estabelecido por um divisor temporal entre divergência e convergência na

formação da literatura. A divergência como principal característica da literatura

até os primeiros quinze séculos da existência do romance, quando as transações

internacionais de livros não eram tão frequentes. E a convergência se tornando

ativa na literatura mundial a partir do século XVIII, com a formação do comércio

internacional literário.205

A convergência entre as literaturas regionais no sistema-mundo literário

pode ser melhor observada através de uma análise descrita na obra O discurso

e a cidade, de Antônio Candido (1918-2017), que traz uma análise de três

clássicos literários: L’Assommoir, do francês Émile Zola (1840-1902), lançado

204 Moretti, Distant Reading, 127-128.


205 Moretti, “Evolution, World-Systems, Weltliteratur”, 116-117.

83
em 1877; I Malavoglia, do italiano Giovanni Verga (1840-1922), de 1881; e O

Cortiço, de Aluísio de Azevedo (1857-1913), publicado em 1890. Candido

enxergou a difusão no sistema literário, quando encontrou traços da obra de

Zola, da França (núcleo), estavam nos trabalhos de Verga, da Itália (semi-

periferia), e de Azevedo, do Brasil (periferia). Ele observou uma espécie de

assimetria interna no processo de difusão. Grande parte da estrutura do enredo

de Zola era retida por Verga e Azevedo, porém seu estilo era transformado.206

No final do século XIX, os romances modernos começariam a chegar com

mais frequência nas culturas periféricas. A crescente importação desses

romances influenciaria a literatura local, mas com algumas diferenças. Apesar

das especificidades das culturas regionais, existia uma lógica formal na

construção de uma obra literária local, que combinava seu estilo com o enredo

dos romances importados. Essa combinação era possível pois os romances

eram compostos por duas camadas distintas, a história (enredo) e o discurso

(estilo). Os enredos dos romances importados eram praticamente mantidos, mas

a influencia local mudava ou eliminava o estilo original. O resultado era uma

forma híbrida que combinava diferentes culturas e tradições, que de vez em

quando não conseguia integrar de forma harmônica a trama com o estilo

narrativo, criando uma discordância entre a história original e a realidade local.

Para Moretti, isso acontecia por duas razões. Primeiro que o enredo geralmente

era o ponto principal de um romance, portanto, fazia sentido que fosse

preservado. A segunda razão era linguística. As obras literárias que eram

comercializadas para outros países precisavam de tradução, com isso a língua

do texto original era reformulada e adaptada ao mercado local. Enquanto que o

206 Candido, O Discurso e a Cidade, 105-108; 125-127.

84
enredo não dependia da linguagem, o estilo geralmente era modificado no

processo de tradução ou adaptação cultural.207

Apesar de conhecido por quase dois séculos, o termo “literatura mundial”

possuía dois significados distintos. O primeiro havia sido concebido pela teoria

evolutiva, definido como um conjunto de diferentes culturas locais que possuía

forte diversidade e produzia várias formas por meio da divergência. O segundo

significado era proveniente do próprio sistema literário, que estabelecido pelo

mercado internacional, apresentava uma grande quantidade de formas literárias

muito similares, além de ter a convergência como seu principal mecanismo de

mudança. Essa seria uma grande oportunidade de repensar a história literária.

Com dois conceitos de literatura mundial que possuíam estruturas tão distintas,

que exigiriam metodologias e abordagens teóricas completamente diferentes. O

estudo da literatura mundial no século XXI teria um excelente desafio intelectual

pela frente.208

2.2.7.1. Críticas à concepção de Moretti sobre a literatura mundial

A concepção de literatura mundial apresentada por Moretti utilizava

ferramentas, abordagens e metodologias diferentes dos tradicionais estudos da

história da literatura, causando críticas no meio das humanidades tradicionais.

Apesar de aprovar a inclusão de outras áreas do conhecimento, como análise

quantitativa, geografia e evolução biológica, no estudo da história da literatura,

Christopher Prendergast (1942-0000)209 criticava o ensaio de Moretti sobre

gráficos, mapas e árvores.210 Para ele, o pesquisador italiano havia

207 Moretti, Distant Reading, 131-134.


208 Moretti, “Evolution, World-Systems, Weltliteratur”, 118-121.
209 Christopher Prendergast, professor da University of Cambridge e membro da Academia Britânica.
210 Moretti, Graphs, Maps, Trees.

85
implementado um conjunto de hipóteses de maneira experimental, aberta e

inconclusiva. Trançando apenas possíveis caminhos com grande possibilidade

de encontrar inúmeros bloqueios ou becos sem saída. Além disso, Prendergast

não aceitava uma definição de literatura mundial concebida por uma equação de

dois conceitos tão distintos: a análise do mercado literário e a teoria da evolução.

Apesar de derivarem de dois processos discrepantes, eles se convergiam em

um único objetivo, a sobrevivência ou não de uma obra ao longo do tempo – a

formação do cânone literário. 211

Segundo Moretti, para que a relação entre dois conceitos tão distintos

tivesse lógica, era fundamental separar os processos em dois momentos. O

modelo de árvore trazia uma explicação sobre a escolha inicial e individualizada

do leitor por um determinado romance, enquanto que a análise sobre oferta e

demanda de livros mostrava a sobrevivência dos romances após a seleção

inicial.212

Prendergast também considerava muito simplicista a análise sobre o

modelo de árvore, que objetivava compreender como era o processo de escolha

inicial do leitor (sem referência) por uma obra. Ele acreditava que o dispositivo

(‘pistas’, no caso das ficções policiais) seria apenas parte da explicação da

escolha do leitor. Publicação, distribuição, revisão, publicidade e outros fatores

também seriam importantes influenciadores neste processo decisório. Moretti

contra argumentava alegando que essas pressões externas apenas se tornariam

relevantes após iniciada a troca de informações entre os leitores sobre

determinada obra, e não neste primeiro momento.213

211 Prendergast, “Evolution and Literary History”, 42-45.


212 Moretti, Distant Reading, 144-147.
213 Moretti, “The End of The Beginning, 72-73.

86
Segundo Prendergast, somente com a teoria da evolução já seria possível

explicar como se formava os cânones literários, pois alguns livros tinham

qualidade superior em relação a outros. E que a análise mercadológica editorial

apenas reiterava o veredito já dado pela teoria evolutiva: uma seleção natural

dos melhores214. Mas para Moretti, a lógica entre a sobrevivência ou

esquecimento de um romance no mercado estaria mais ligada a adequação do

seu conteúdo ao ambiente em que estivesse inserido do que pela sua qualidade.

Outra particularidade do mercado era que ele ampliava a diferença entre os livros

de maior e menor preferência. Resumindo, seriam dois agentes causais: um

seria a escolha do leitor por uma determinada obra e o outro seria a atuação do

mercado literário que ampliaria a preferência desta obra. Por exemplo, para

Moretti, Doyle merecia vender 10 vezes mais que seus rivais, até mesmo 100

vezes. Mas não 100 mil vezes mais. Essa diferença exponencial nas vendas não

era condizente com as reais diferenças morfológica e qualitativa dos romances.

Ele acreditava que sua teoria dos ‘retornos crescentes’ explicaria esse exagero

produzido pelo mercado.215

2.2.8. Análise sobre a evolução do tamanho dos títulos de romances

A crescente digitalização de quase todos os livros dos séculos XVIII, XIX

e XX seria a oportunidade que Moretti esperava para realizar um estudo com um

número bem maior dos que formavam o cânone literário (composto

aproximadamente por um por cento dos romances publicados), em especial o

período entre 1750 e 1850 na Europa. Para isso, ele precisaria de ferramentas

214 Prendergast, “Evolution and Literary History”, 49-53


215 Moretti, “The End of The Beginning”, 76-77.

87
tecnológicas e metodologias inovadoras para realizar uma boa análise

quantitativa de uns 7000 títulos que consistiria sua amostra na pesquisa.216

Logo no início da análise, Moretti percebe uma grande mudança no

número de palavras nos títulos das obras do século XVIII, que se tornaram mais

curtos no espaço de duas gerações. É possível visualizar no gráfico (Figura 11)

que o número de palavras mantém uma mediana estável entre dez e vinte

palavras nos primeiros 25 anos, mas que começa a cair por volta de 1770 para

dez palavras e mais ainda em 1790, para seis palavras, permanecendo nesta

marca até meados do século XIX.217

Figura 11. Número de palavras nos títulos de romances publicados entre 1740 e 1850.218

Isso acontecia porque os títulos eram verdadeiros resumos dos romances,

apresentando principais eventos da história, personagens, cenários e até o final.

216 Moretti, “Style, Inc”, 134-136.


217 Moretti, Distant Reading, 182-184.
218 Ibid., 183.

88
Mas o ambiente cultural foi se modificando e tornado incompatível com esse

costume. Entre os séculos XVIII e XIX, a demanda por romances na Grã-

Bretanha cresceu rapidamente (Figura 12), de alguns poucos livros publicados

por ano nas primeiras décadas do século XVIII para aproximadamente uma

centena de publicações no início do século seguinte, princípio dos anos

vitorianos. A medida que mais romances circulavam e aumentava o número de

leitores, revistas da época começaram a publicar resenhas e críticas dos

romances, tornando aquele título que trazia o resumo da história obsoleto e

desnecessário. Outro motivo para o encurtamento dos títulos foi a maior

concorrência entre as publicações. Para se destacar em um mercado

competitivo, títulos curtos eram melhores e mais fáceis de serem lembrados.

Neste momento, é possível perceber que Moretti uniu a tecnologia que propiciou

uma melhor análise quantitativa (no caso, gráficos) com sua competência de

estudioso da história literária (compreendia o contexto e as peculiaridades da

época) para compreender o motivo pelo qual os títulos diminuíram ao longo do

tempo.219

Continuando sua análise sobre modificação do tamanho de títulos dos

romances ao longo do tempo, Moretti cruza os dados de dois gráficos, tamanho

do mercado literário e comprimento de títulos romanescos (Figura 13), e observa

que existia uma correlação temporal entre os dois processos: quanto mais o

mercado literário se expandia, menor ficava o tamanho dos títulos dos romances.

219 Moretti, “Style, Inc”, 139-141.

89
Figura 12. Número de publicações britânicas entre 1700 e 1836. 220

Figura 13. Tamanho do mercado literário X tamanho de títulos romanescos. 221

220 Moretti, Distant Reading, 188.


221 Ibid., 189.

90
Assim, o comprimento médio dos títulos ia diminuindo e com isso os títulos

longos desapareciam. Títulos com apenas uma, duas ou três palavras, que

representavam apenas cinco por cento na década de 1740, se multiplicavam

rapidamente (Figura 14), chegando ser entre vinte e trinta por cento em 1800.

Além disso, títulos longos eram alterados para se tornarem menores (Figura 15).

Essa mesma prática se repetiu na publicidade cem anos mais tarde, quando as

descrições mais detalhadas do século XIX foram substituídas pela brevidade

oblíqua evocativa atual. O crescimento do mercado literário cria uma restrição

na apresentação (publicidade) dos romances.222

Uma questão que intrigava Moretti nesta tendência de romances serem

apresentados em poucas palavras era: como um resumo de toda a história

poderia ser substituído por poucas palavras? Ele então analisa os títulos curtos

e constata três grupos que se destacam dentro deste universo: (i) títulos com

nome próprio (Octavia e George Barnwell), que compõem cerca de um terço do

total; (ii) títulos com artigo-substantivo (The Steam-Boat e The Smuggler) e com

combinações de artigo-adjetivo-substantivo (The Tuscan Vase e The Invisible

Gentleman), com aproximadamente trinta por cento; e (iii) títulos com abstrações

conceituais (Fatality e Enthusiasm not Religion), por volta de dez por cento. E

essa grande mudança no tamanho dos títulos trazia uma grande também na

forma. Moretti acreditava que apesar do mercado impor títulos curtos, que isso

poderia favorecer a imaginação literária, com a arte da alusão e da condensação.

Com a necessidade de reduzir os títulos em função da expansão do mercado,

autores e editores aprendem a comprimir o significado, desenvolvendo ‘sinais’

222 Moretti, “Style, Inc”, 142-145.

91
com o intuito de colocar o livro no nicho mercadológico apropriado. Poucas

palavras que fariam o potencial leitor a identificar o gênero da obra.223

Figura 14. Romances com títulos curtos.224

Figura 15. Títulos com uma a três palavras X títulos com mais de 15 palavras.225

223 Ibid., 194-204.


224 Moretti, Distant Reading, 193.
225 Ibid., 193.

92
2.2.9. Teoria de rede

Nos últimos anos, os estudos literários observaram o advento do que

seriam ‘evidências quantitativas’. Contudo, pela inexistência de uma tecnologia

eficiente na época, não conseguiam usufruir dessas informações para que

produzissem resultados significativos. Recentemente, com a utilização de

bancos de dados digitais e a recuperação automatizada de dados, foi possível

pesquisar, por exemplo, a linguagem e o estilo de uma grande quantidade de

romances com extrema rapidez. Isso seria o começo da teoria de rede idealizada

por Moretti, que analisaria as conexões dentro de grandes objetos de estudo.

Esses objetos também seriam conhecidos como ‘nós’ ou ‘vértices’, e suas

conexões de ‘arestas’. Essa análise, de como os vértices estariam ligados por

arestas, revelou características surpreendentes de grandes sistemas.226

Figura 16. A rede de Hamlet.227

226 Moretti, ”Network Theory, Plot Analysis”, 1.


227 Moretti, Distant Reading, 213.

93
Uma rede é feita de vértices e arestas. Um enredo é feito de personagens

e interações (ações). Os personagens seriam os vértices e as interações, as

arestas. Moretti então, utiliza como exemplo a clássica obra Hamlet, de William

Shakespeare, para aplicar a teoria de rede (Figura 16).

Sobre The Murder of Gonzago, Moretti utiliza o ato da fala como uma

interação (aresta) e prefere lidar apenas com as conexões explícitas na sua rede.

Para ele, a sua teoria já apresentaria uma vantagem inicial. Enquanto que na

peça, o espectador está diante da ação ‘presente’ da história no palco (ação

‘passada’ não está mais diante dos seus olhos), na análise de rede nada

desaparece. O ‘passado’ se torna passado, mas não desaparece na percepção

da trama. Segundo Moretti, tornar o passado tão visível quanto o presente é uma

grande mudança inserida pelo uso das redes.228

Com a aplicação da teoria de rede, é possível reduzir o enredo a

personagens e interações, subtraindo todo o resto. Esse processo de redução e

subtração torna a estrutura do modelo muito menor que o objeto original. Com

essa simplificação na forma que a história é apresentada, seria possível

enxergar estruturas subjacentes de um objeto complexo. Feito o modelo, Moretti

propõe fazer experimentos, retirando personagens centrais da história, como

remover o personagem Hamlet da rede, para ver o que acontece (Figura 17). O

resultado é que a rede quase se divide pela metade, com as duas bordas (direita

e esquerda) ligadas apenas por três arestas que ligam Horário a Claudius, Osric

e Queen (rainha Gertrude). Neste experimento, é possível perceber a

importância de Hamlet na trama, mas não por ser protagonista da história, e sim,

por proporcionar estabilidade à rede. Para comprovar essa afirmação, Moretti

228 Ibid., 214-217.

94
remove o que seria o segundo personagem mais central da trama, Claudius

(Figura 18). A consequência é que poucas arestas periféricas são subtraídas, e

com isso, a estrutura da rede é pouco afetada.229

Figura 17. A rede de Hamlet sem o personagem Hamlet.230

Figura 18. A rede de Hamlet sem o personagem Claudius.231

229 Moretti, ”Network Theory, Plot Analysis”, 4-5.


230 Moretti, Distant Reading, 221.
231 Ibid., 221.

95
Contudo, se remover Hamlet e em seguida o personagem Horatio

(Figura 19), ocorre uma fragmentação tão radical na estrutura da rede, que os

personagens Ghost (o fantasma de Hamlet) e Fortinbras, que interagem no início

e no final da história respectivamente, se separaram um do outro e do resto da

trama, praticamente esfacelando a obra de Shakespeare. Nota-se que apesar

de Horatio ser menos protagonista que Claudius no enredo, ele é mais

importante em termos estruturais.232

Figura 19. A rede de Hamlet sem os personagens Hamlet e Horatio.233

Outro detalhe da análise de rede em Hamlet é a formação de um

hexagonal composto por seis personagens centrais: Hamlet, Claudius, Queen

(rainha Gertrude), Polonius, Ophelia e Laertes, a parte mais densa da rede.

232 Moretti, ”Network Theory, Plot Analysis”, 5.


233 Moretti, Distant Reading, 222.

96
Esses personagens principais também estariam ligados a todos os outros da

trama, o que configuraria um Clustering (agrupamento), um conceito técnico da

teoria de redes, que Mark Newman 234 explica assim:

“Em muitas redes verifica-se que se o vértice A estiver

conectado ao vértice B e o vértice B ao vértice C, então há uma

probabilidade elevada de que o vértice A também esteja conectado ao

vértice C. Na linguagem das redes sociais, o amigo de seu amigo

provavelmente também é seu amigo. Em termos de topologia de rede,

transitividade significa a presença de um número elevado de triângulos

na rede - conjuntos de três vértices, cada um deles conectado a cada

um dos outros”.235

O conceito de agrupamento explica a razão pela qual a remoção de

Claudius afeta pouco a estrutura da rede. Ele pertence a uma região muito

interconectada e por isso, permanece tão sólida mesmo sem a presença do

personagem. Com Horatio (que não faz parte do hexagonal pertencente a parte

mais densa da rede) acontece o oposto. Ele está situado na parte da rede onde

o agrupamento é tão baixo, que sem a sua presença, ela praticamente se

desintegra. Horatio é como se fosse a ‘porta de entrada’ de boa parte da borda

esquerda da rede, onde estão os personagens menos conectados do enredo.236

2.2.10. A leitura distante e as Humanidades Digitais

234 Mark Newman, físico britânico e professor na University of Michigan e do Santa Fe Institute, é
conhecido pelo seu trabalho em sistemas de rede, ganhador do Lagrange Prize 2014.
235 Newman, “The Structure and Function of Complex Networks”, 183; tradução do autor.
236 Moretti, Distant Reading, 226-228.

97
O conceito de leitura distante ainda pode ser considerado uma obra

inacabada e inconclusiva, possuindo algumas brechas ao longo da sua

concepção. Contudo, trouxe algumas inovações metodológicas e conceituais

interessantes que podem ser exploradas mais adiante por outras linhas de

pesquisas das Humanidades Digitais, em especial, na Organização do

Conhecimento. A utilização de métodos e ferramentas de outras áreas tão

distintas da história literária – análise quantitativa, pesquisa de mercado, estudo

de gráfico, árvore genealógica, teoria de rede, entre outros –, além de evidenciar

a natureza interdisciplinar típica das Humanidades Digitais, abre um horizonte

de possibilidades para inovações nos estudos das ciências humanas. Franco

Moretti saiu da sua ‘zona de conforto’ – estudo tradicional da história da literatura

–, no qual dominava, para se expor em um universo que era pouco familiarizado,

o ambiente digital. A sua ousadia pode ser muito valiosa para o futuro das

Humanidades Digitais.

98
Considerações Finais

A Organização do Conhecimento compreende um processo de

representação e destina-se, principalmente, à recuperação eficaz por parte dos

usuários. O objetivo deste processo é possibilitar e facilitar o acesso à

informação, que por sua vez, tem a competência e a intenção de produzir

conhecimento.237 O termo knowledge organization systems (KOS) foi utilizado

por Gail Hodge (1945-2017) para englobar dicionários, glossários, arquivos de

autoridade, taxonomias, sistemas de classificação, cabeçalhos de assunto,

tesauros, redes semânticas e ontologias.238

A Organização do Conhecimento está intimamente ligada a noção de

classificação. Ranganathan sintetiza a complexa tarefa de classificar, e enfatiza

a importância desta atividade para a evolução da humanidade:

“Na classificação dos assuntos, ideias são abstratas que

precisam ser organizadas e classificadas. [...] A capacidade

classificatória inata do classificador tem mais necessidade de ser

reforçada pelo treinamento sistemático. Isso é essencialmente

treinamento intelectual. Envolve treinamento no processo de

abstração de atributos de entidades, selecionando os poucos dentre

uma infinidade, e descobrindo uma medida adequada então como as

bases para a classificação. Esse processo de abstração é algo

congênito para o intelecto humano. A prática disso, com salvaguardas

adequadas, tem sido responsável por grande parte do progresso

humano”.239

237 Barreto,“A Condição da Informação”, 67-68.


238 Hodge, Systems of Knowledge Organization for Digital Libraries, 3-4.
239 Ranganathan, Prolegomena to library classification, 548.

99
Se as teorias de classificação podem ser divididas conforme a finalidade

(filosóficas ou bibliográficas), a amplitude de aplicação (gerais ou

especializadas) ou ao tipo de característica (naturais ou artificiais), após a teoria

da classificação facetada, elas também podem ser divididas de acordo com a

forma de apresentação, em enumerativas (hierárquicas) ou analítico-sintéticas.

O diferencial do sistema classificatório proposto por Ranganathan é a utilização

de uma estrutura dinâmica e multidimensional. E talvez este seja o caminho mais

lógico a ser seguido no processo evolutivo da Organização do Conhecimento

nas Humanidades Digitais.240

No século XX, a dificuldade de representar um texto não estruturado

dividiu as ciências sociais quantitativas das humanidades. Em vez de

simplesmente contar palavras ou volumes, leitores distantes tratariam cada vez

mais a escrita como um campo de relações a ser modelado, usando equações

que conectem os conhecimentos linguísticos aos sociais. A especialização

sempre será valiosa, mas nada impede a utilização de métodos e conceitos de

outras áreas do conhecimento, a fim de obter ganho na pesquisa acadêmica ou

na resolução de algum problema. A utilização de modernas ferramentas digitais

pode até ser assustador para alguns pesquisadores das humanidades

tradicionais, mas esses inovadores métodos de estudo foram essenciais na

criação de novas conexões interdisciplinares. O conceito de leitura distante

apresentou três princípios importantes ao trabalho da Organização do

Conhecimento nas Humanidades Digitais: (i) que é quase inviável obter uma

conclusão definitiva sobre o trabalho literário em qualquer época, pois o estudo

da história literária se resume praticamente aos cânones; (ii) que a base teórica

240 Barbosa, Teoria e Prática dos Sistemas de Classificação Bibliográfica, 16.

100
para a pesquisa acadêmica não precisa necessariamente ser iniciada do zero,

mas que pode ser auxiliada pela ciência computacional; e (iii) que é importante

sempre adquirir novos textos em escala, para gerar novas perspectivas.241

Atualmente, alguns problemas persistem nas frentes de pesquisa da

Organização do Conhecimento nas Humanidades Digitais. A questão sobre o

rigor da modelagem de dados frente ao desenvolvimento da web semântica

ainda está aberta. Enquanto isso, as facetas figuram proeminentemente em

todos esses estágios deste rico processo.

241 Underwood, “Distant Reading and Recent Intellectual History”, 530-533.

101
Bibliografia

Alfonso-Goldfarb, Ana M. “Centenário Simão Mathias: Documentos, Métodos e


Identidade da História da Ciência”. International Journal for the History of
Science – Circumscribere 4 (2008): 5-9. Acessado em 4 de novembro de
2018. https://revistas.pucsp.br/circumhc/article/view/679

_______, Silvia Waisse & Márcia H. M. Ferraz. “From Shelves to Cyberspace:


Organization of Knowledge and the Complex Identity of History of
Science”. Isis 104, nº 3 (setembro 2013): 551-560. Acessado em 15 de
outubro de 2018. http://doi.org/10.1086/673274.

_______, _______ & _______. “New Proposals for Organization of Knowledge


and Their Role in the Development of Database for History of Science”.
International Journal for the History of Science – Circumscribere 21
(2018): 1-12. Acessado em 18 de outubro de 2018.
http://dx.doi.org/10.23925/1980-7651.2018v21;p1-12

_______, Márcia H. M. Ferraz & Piyo M. Rattansi, “Lost Royal Society


Documents on ‘Alkahest’ (Universal Solvent) Rediscovered”. Notes and
Records of the Royal Society 64 (setembro 2010): 435-452. Acessado em
7 de maio de 2019. https://doi.org/10.1098/rsnr.2010.0074.

Arac, Jonathan. “Anglo-Globalism”. New Left Review 16 (julho-agosto 2002):


35-45.

Barbosa, Alice. Teoria e Prática dos Sistemas de Classificação Bibliográfica. Rio


de Janeiro: Instituto Brasileiro de Bibliografia e Documentação, 1969.

Barreto, Aldo de Albuquerque. “A Condição da Informação”. São Paulo em


Perspectiva 16, nº 3 (julho 2002): 67-74. Acessado em 4 de fevereiro de
2019. http://dx.doi.org/10.1590/S0102-88392002000300010.

102
Boot, Peter. “Distant Reading”. Literary and Linguistic Computing 30, nº 1 (abril
2015): 152-154. Acessado em 2 de maio de 2019,
https://doi.org/10.1093/llc/fqu010.

Braudel, Fernand. History and the Social Sciences: the Lougue Durée, trad.
Sarah Matthews. Chicago: University of Press, 1980.

Burnard, Lou. “CAFS: A New Solution to an Old Problem”. Literary and Linguistic
Computing 2, nº 1 (janeiro 1987): 7-12. Acessado 14 de novembro de
2018. https://doi.org/10.1093/llc/2.1.7.

Calzolari, Nicoletta & Antonio Zampolli. “Lexical Databases and Textual Corpora:
A Trend of Convergence between Computational Linguistics Computing”.
In Research in Humanities Computing 1: Selected Papers from the
ALLC/ACH Conference, Toronto, June 1989, ed. Susan Hockey, Nancy
Ide, & Ian Lancashire, 272-307. Oxford: Clarendon Press, 1991.

Candido, Antônio. O Discurso e a Cidade. São Paulo: Duas Cidades, 1993.

Choudhury, G. Sayeed, & David Seaman, “The Virtual Library”. Companion to


Digital Literary Studies, ed. Ray Siemens & Susan Schreibman, 534-546.
Oxford: Blackwell Publishing, 2013.

Ciotti, Fabio & Francesca Tomasi. “Formal Ontologies, Linked Data, and TEI
Semantics”. Journal of the Text Encoding Initiative 9 (setembro 2016):
1-22. Acessado em 24 de fevereiro de 2019.
https://journals.openedition.org/jtei/1480.

Conner, Patrick W. “The Beowulf Workstation: One Model of Computer-Assisted


Literary Pedagogy”. In Literary and Linguistic Computing 6, nº 1, 50-58.
Oxford: Oxford University Press, 1991.

_______. “Networking in the Humanities: Lessons from ANSAXNET”. Computers


and the Humanities 26, nº 3 (junho 1992): 195-204. Acessado em 6 de
fevereiro de 2019. https://www.jstor.org/stable/30204467

103
Coombs, James H., Allen H. Renear & Steven J. DeRose. “Markup Systems and
the Future of Scholarly Text Processing”. In Communications of the ACM
30, nº 11, ed. Peter J. Denning, 933-947. Nova York: ACM, 1987.

Curtius, Ernst R. European Literature and the Latin Middle Ages. Nova Jersey:
Princeton University Press, 2013.

Dalbello, Marja. “A Genealogy of Digital Humanities”. Journal of Documentation


67, nº 3 (2011): 480-506. Acessado em 6 de janeiro de 2019.
https://doi.org/10.1108/00220411111124550.

Darwin, Charles. The Origin of Species. Londres: John Murray, 1859.

DeRose, Steven J., David G. Durand, Elli Mylonas & Allen H. Renear. “What is
Text, Really?”. Journal of Computing in Higher Education 1, nº 2
(dezembro 1990): 3-26. Acessado em 17 de fevereiro de 2019.
https://doi.org/10.1007/BF02941632

Drucker, Johanna, David Kim, Iman Salehian & Anthony Bushong. Introduction
to Digital Humanities: concepts, methods, and tutorials for studens and
instructors. Los Angeles: First Edition, 2014.

“Ebook timeline”. The Guardian (janeiro 2002). Acessado em 1 de abril de 2019.


https://www.theguardian.com/books/2002/jan/03/ebooks.technology.

Even-Zohar, Itamar. Papers in Historical Poetics. Tel Aviv: Porter Institute for
Poetics and Semiotics, 1978.

Fayyad, Usama, Gregory Piatetsky-Shapiro & Padhraic Smyth. “From Data


Mining to Knowledge Discovery in Databases”. AI Magazine 17, nº 3
(março 1996): 37-54. Acessado em 14 de janeiro de 2019.
https://doi.org/10.1609/aimag.v17i3.1230.

Feldman, Ronen. “Practical Text Mining”. In PKDD ’98 Proceedings of the 2nd
European Symposium on Principles of Data Mining and Knowledge
Discovery, ed. Jan M. Zytkow & Mohamed Quafafou, 478. Berlim;
Heidelberg: Springer-Verlag, 1998.

104
_______ & James Sanger. The Text Mining Handbook: Advanced Approaches
in Analyzing Unstructures Data. Nova York: Cambridge University Press,
2007.

_______, Moshe Fresko, Haym, Yonatan Aumann, Orly Liphstat, Yonatan Schler
& Martin. “Knowledge Management: A Text Mining Approach”. In
Proceedings of the Second International Conference on Practical Aspects
of Knowledge Management (PAKM98), ed. Ulrich Reimer, 1-10. Basiléia:
CEUR Workshop Proceedings, 1998.

Fitzpatrick, Kathleen. Planned Obsolescence: Publishing, Technology, and the


Future of the Academy. Claremont: Modern Language Association, 2010.

Goldfarb, C. F. “A Generalized Approach to Document Markup”. In Proceedings


of the ACM SIGPLAN SIGOA Symposium on Text Manipulation, org. Paul
Abrahams, 68-73. Nova York: ACM, 1981.

Han, Jiawei, Micheline Kamber & Jian Pei. Data mining: concepts and
techniques, 3ª ed. Waltham: Elsevier, 2012.

Harris, Jacob. “Word Clouds Considered Harmful”. Nieman Journalism Lab


(outubro 2011): 1-4. Acessado 28 de fevereiro de 2019.
https://www.labor.ucla.edu/wp-content/uploads/2015/03/word-clouds-
harmful.pdf.

“History of E Books, A”. History Cooperative (setembro 2018). Acessado em 1


de janeiro de 2019. https://historycooperative.org/a-history-of-e-books/.

Hjorland, Birger. “What is Knowledge Organization (KO)?”. Knowledge


Organization: International Journal 35, nº 2/3 (julho 2008): 86-101.
Acessado em 6 de março de 2019.
https://doi.org/10.5771/0943-7444-2008-2-3-86.

Hockey, Susan. “The History of Humanities Computing”. In A Companion to


Digital Humanities, ed. Susan Schreibman, Ray Siemens, & John
Unsworth, 2-19. Oxford: Blackwell Publishing, 2004.

105
Hodge, Gail. Systems of Knowledge Organization for Digital Libraries: Beyond
Traditional Authority Files. Washington: The Digital Library Federation
Council on Library and Information Resources, 2000.

Kiernan, Kevin S. “Digital Image Processing and the Beowulf Manuscript”.


Literary and Linguistic Computing 6, ed. Marilyn Deegan, Andrew Armour
& Mark Infusino (1991): 20-27. Acessado em 4 de janeiro de 2019.
http://www.uky.edu/~kiernan/eBeo_archives/articles90s/ksk-llc.htm.

Klein, Lauren F., & Matthew K. Gold. “Debates in the Humanities”. The MIT Press
(2016). Acessado em 17 de maio de 2018.
http://dhdebates.gc.cuny.edu/debates.

Klein, Julie T. Crossing Bourdaries: Knowledge, Disciplinarities, and


Interdisciplinatiries. Charlottesville: University Press of Virginia, 1996.

Kirschenbaum, Matthew. “The Remaking of Reading: Data Mining and the Digital
Humanities”, National Science Foundation Symposium on Next
Generation of Data Mining and Cyber-Enabled Discovery for Innovation
(2007): 1-5. Acessado em 5 de janeiro de 2019.
https://pdfs.semanticscholar.org/9b33/4177e179ba9783a74533169bdc8d
3d07a7aa.pdf.

Kristal, Efraín. ”Considering Coldy...”. New Left Review 15 (maio-junho 2000):


61-74.

Lamping, John, Ramana Rao & Peter Pirolli. “A Focus+Context Technique


Based on Hyperbolic Geometry for Visualizing Large Hierarchies”. In
Proceedings of the ACM CHI 95 Human Factors in Computing Systems,
401-408. Denver: ACM Press, 1995.

Presner, Todd. “Digital Humanities 2.0: A Report on Knowledge”. Emerging


Disciplines, ed. Melissa Bailar (junho 2010). Acessado 2 de fevereiro de
2019. http://cnx.org/content/m34246/latest/.

106
Manning, Patrick. “Digital World History: An Agenda”. Digital History Project (abril
2007). Acessado em 20 de dezembro de 2018.
http://digitalhistory.unl.edu/essays/manningessay.php.

McCarty, Willard. “Becoming Interdisciplinary”. In A New Companion to Digital


Humanities, ed. Susan Schreibman, Ray Siemens & John Unsworth,
69-83. West Sussex: Wiley Blackwell, 2016.

McCarty, Willard. “HUMANIST: Lessons from a Global Electronic Seminar”.


Computers and the Humanities 26, nº 3 (junho de 1992): 205-222.
Acessado em 12 de dezembro de 2018.
https://www.jstor.org/stable/30204468.

Melo, Maria A. F., & Bräscher, Marisa. “Termo, Conceito e Relações Conceituais:
Um Estudo das Propostas de Dahlberg e Hjorlend”. Ciência da Informação
41, nº 1 (janeiro-abril 2014): 67-80.

Michel, Jean-Baptiste, Yuan K. Shen, Aviva P. Aiden, Adrian Veres, Matthew K.


Gray, The Google Books Team, Joseph P Pickett, Dale Hoiberg, Dan
Clancy, Peter Norvig, Jon Orwant, Steven Pinker & Martin A. Nowak,
“Quantitative Analysis of Culture Using Millions of Digitized Books”,
Science 331, nº 6014 (janeiro 2011): 176-182.

Moretti, Franco. Atlas do Romance Europeu 1800-1900. Trad. Sandra Guardini


Vasconcelos. São Paulo: Boitempo Editorial, 2003.

_______. “Conjectures on World Literature”. New Left Review 1 (janeiro-fevereiro


2000): 54-68.

_______. Distant Reading. Nova York: Verso Books, 2013.

_______. “Evolution, World-Systems, Weltliteratur”. In International Symposium


on Studying Transcultural Literary History, org. Gunilla Lindberg-Wada,
113-121. Berlim e Nova York: Walter de Gruyter & Co, 2006.

_______. Graphs, Maps, Trees. Nova York: Verso Books, 2005.

107
_______. Literature, Measured. São Francisco: Pamphlets of the Stanford
Literary Lab, 2016.

_______. “Modern European Literature: A Geographical Sketch”. New Left


Review I 206 (julho-agosto 1994): 86-109.

_______. “More Conjectures”. New Left Review 20 (março-abril 2003): 73-81.

_______. “Network Theory, Plot Analysis”. Literary Lab Pamphlet 2 (maio 2011):
1-31. Acessado em 22 de novembro de 2018.
https://litlab.stanford.edu/LiteraryLabPamphlet2.pdf.

_______. “Operationalizing”: Or, the Function of Measurement in Modern Literary


Theory”. Pamphlets of the Stanford Literary Lab 6 (dezembro 2013): 1-13.
Acessado em 22 de novembro de 2018.
https://litlab.stanford.edu/LiteraryLabPamphlet6.pdf

_______. “Planet Hollywood”. New Left Review 9 (maio-junho 2001): 90-101.

_______. “Style Inc. Reflections on Seven Thousand Titles (British Novels,


1740-1850)”. Critical Inquiry 36, nº 1 (outono 2009): 134-158. Acessado
em 25 de setembro de 2018. http//doi.org/10.1086/606125.

_______. “The End of the Beginning: A Replay to Christopher Prendergast”. New


Left Review 41 (setembro-outubro 2006): 71-86.

_______. “The Slaughterhouse of Literature”. MQL: Modern Language Quarterly


61, nº 1 (março 2000): 207-227.

_______. “World-System Analysis, Evolutionary Theory, ‘Weltliteratur’”. Review


28, nº 3 (2005): 217-228.

Mylonas, Elli & Allen Renear. “The Text Encoding Initiative at 10: Not Just an
Interchange Format Anymore – But a New Research Community”. In
Computers and the Humanities 33, nº 1, 1-9. Nova York: Springer, 1999.

108
Newman, Michael. “The Structure and Function of Complex Networks”. SIAM
Review 45, nº 2 (maio 2003): 167-256. Acessado em 22 de abril de 2019,
https://doi.org/10.1137/S003614450342480.

_______, Mary Keeler, Christian Kloesel, Joseph Ransdell & Allen Renear. “The
Pilot Project of the Electronic Peirce Consortium”. In ALLC ACH’92
Conference Abstracts and Program, org. Nuria Rodrígues, Murtha Baca,
Francesca Albrezzi, & Rachel Longaker, 25-27. Oxford: Christ Church,
1992.

Prendergast, Christopher. “Negotiating World Literature”. New Left Review 8


(março-abril 2001): 100-121.

_______. “Evolution and Literary History: A Response to Franco Moretti”. New


Left Review 34 (julho-agosto 2005): 40-62.

Presner, Todd. “Digital Humanities 2.0: A Report on Knowledge”. Emerging


Disciplines: Shaping New Fields of Scholarly Inquiry in and Beyond the
Humanities, org. Melissa Bailar (junho 2010). Acessado 2 de fevereiro de
2019. http://cnx.org/content/m34246/latest/.

Ranganathan, Shiyali Ramamrita. Prolegomena to Library Classification.


Bombay: Asia Publishing House, 1967.

Raza, Sheeraz. “The History of Digital Content”. ValueWalk (fevereiro 2018).


Acessado em 21 de dezembro de 2018.
https://www.valuewalk.com/2018/02/history-digital-content-infographic/.

Reategui, E., M. Klemann, D. Epstein & A. Lorenzatti. “Sobek: a Text Mining Tool
for a Educational Applications”. In International Conference on Data
Mining, 59-64. Las Vegas:Anais do DMIN ‘11, 2011.

Renear, Allen H. “Text Encording”, A Companion to Digital Humanities, ed. Susan


Schreibman, Ray Siemens & John Unsworth, 218-239. Oxford: Blackwell
Publishing, 2004

109
Rorty, Richard. "Being That Can Be Understood Is Language." In Gadamer’s
Repercussions: Reconsidering Philosophical Hermeneutics, ed. Krajewski
Bruce, 21-29. Berkeley: University of California Press, 2004.

Robertson, George G., Jock D. Mackinlay & Stuart K. Card. “Cone Trees:
Animated 3D Visualizations of Hierarchical Information”. In Proceedings
ACM SIGCHI Conference on Human Factors in Computing Systems,
189-194. Nova York: ACM Press, 1991.

Sasson, Donald. “On Cultural Markets”. New Left Review 17 (setembro-outubro


2002): 113-126.

Shaffi, Sarah. “Science Museum to Display James Novel”. The Bookseller (março
2014). Acessado em 2 de janeiro de 2019.
https://www.thebookseller.com/news/science-museum-display-james-
novel.

Shneiderman, Bem, Cody Dunne, Puneet Sharma & Ping Wang. “Innovation
trajectories for information visualizations: Comparing treemaps, cone
trees, and hyperbolic trees”. Sage Publishing 11, nº 2 (dezembro 2014):
87-105. Acessado em 13 de abril de 2019.
https://doi.org/10.1177/1473871611424815.

Sinclair, Stéfan & Geoffrey Rockwell. “Text Analysis and Visualization: Making
Meaning Count”. In A New Companion to Digital Humanities, ed. Susan
Schreibman, Ray Siemens & John Unsworth, 274-290. West Sussex:
Willey Blackwell, 2016.

Sinclair, Stéfan, Stan Ruecker & Milena Radzikowska. “Information Visualization


for Humanities Scholars”. Literary Studies in the Digital Age: A
Methodological Primer (2013). Acessado em 4 de março de 2019.
https://dlsanthology.mla.hcommons.org/information-visualization-for-
humanities-scholars/.

110
Stringfellow, Angela. “The History of Digital Content”. MerlinOne (fevereiro 2018).
Acessado em 23 de dezembro de 2018.
https://merlinone.com/history-of-digital-content-infographic/.

Sula, Chris A., & Heather Hill. “The Early History of Digital Humanities”. In Digital
Humanities 2017, org. Michael Sinatra, Stéfan Sinclair, Cecily Raynor, &
Dominic Forest, 1-5. Montreal: McGill University; University de Montréal,
2017.

Svensson, Patrik. “Humanities Computing as Digital Humanities”. Digital


Humanities Quarterly 3, nº 3 (2009). Acessado em 4 de abril de 2018.
http://www.digitalhumanities.org/dhq/vol/3/3/000065/000065.html.

Telles, Helyon V., “História Digital, Sociologia Digital e Humanidades Digitais:


Algumas Questões Metodológicas”, Revista Observatório Palmas 3, nº 5
(agosto 2007): 74-101. Acessado em 2 de maio de 2019.
https://doi.org/10.20873/uft.2447-4266.2017v3n5p74.

Todorov, Tzvetan. Poética da Prosa, trad. Claudia Berliner. São Paulo: Martins
Fontes, 2003.

Underwood, Ted. “Distant Reading and Recent Intellectual History”. In Debates


in the Digital Humanities 2016, ed. Matthew K. Gold & Lauren F. Klein,
530-533. Minnesota: University of Minnesota Press, 2016.

Vany, Arthur S. & W. David Walls. “The Market for Motion Pictures: Rank,
Revenue, and Survival”. Economic Inquiry 35, nº 4 (outubro 1997): 783-
797. Acessado em 11 de fevereiro de 2019.
https://doi.org/10.1111/j.1465-7295.1997.tb01964.x

Vickery, Brian. “Faceted Classification for the Web”. In Axiomathes 18, nº 2,


145-160. Heidelberg: Springer Netherlands, 2008.

Wallerstein, Immanuel. The Modern World-System: Capitalist Agriculture and the


Origins of the European World-Economy in the Sixteenth Century. New
York: Academic Press, 1976.

111
Warner, Julian. “Description and Search Labor for Information Retrieval”. Journal
of the American Society for Information Science and Technology 58, nº 12
(Agosto 2007): 1783-1790. Acessado em 6 de março de 2019.
https://doi.org/10.1002/asi.20664.

Weldon, Stephen P. “Historians and Their Data,”. In Crossing Oceans: Exchange


of Products, Instruments and Procedures in the History of Chemistry and
Related Sciences, org. A. M. Alfonso-Goldfarb, Walter Carnielli & Robert
Anderson, 299-322. Campinas: CLE/UNICAMP, 2015.

Willett, Perry. “Electronic Texts: Audiences and Purposes”. A Companion to


Digital Humanities, ed. Susan Schreibman, Ray Siemens & John
Unsworth, 240-253. Oxford: Blackwell Publishing, 2004.

112

Você também pode gostar