Escolar Documentos
Profissional Documentos
Cultura Documentos
PUCSP
SÃO PAULO
2019
I
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
SÃO PAULO
2019
II
Banca Examinadora
________________________________________________
________________________________________________
________________________________________________
III
O presente trabalho foi realizado com o apoio da
IV
Agradecimentos
seus conhecimentos.
descontração.
pesquisa acadêmica.
momentos de ausência nos fins de semana e por me apoiar nos momentos mais
cansativos.
À minha adorada Bianca, que mesmo sem entender direito o que seria
uma pesquisa acadêmica, sabia que era importante o pai ficar tanto tempo
V
Resumo
Esta pesquisa tem por objeto analisar um dos campos acadêmicos que mais
crescem no estudo das ciências humanas das principais instituições de ensino e
pesquisa em todo o mundo: Humanidades Digitais. Para isso, foi observado o
caminho percorrido por estudiosos e incentivadores no desenvolvimento desta
recente área de estudo, desde os primeiros projetos, passando por publicações
e grandes eventos, até os dias atuais. Linhas de pesquisas das Humanidades
Digitais também foram exploradas e analisadas, em especial a Organização do
Conhecimento. Esta área de estudo e pesquisa tem a difícil missão de adaptar
as tecnologias digitais (com suas ferramentas e metodologias inovadoras) com
as necessidades do estudo das humanidades em analisar grandes e crescentes
quantidades de textos com rapidez e precisão. Para melhor exemplificar a
complexidade da tarefa da Organização do Conhecimento nas Humanidades
Digitais, este trabalho analisa o polêmico conceito de leitura distante do
estudioso em história literária Franco Moretti. Provavelmente, um dos poucos
projetos desta nova área do conhecimento que trouxeram resultados práticos e
significativos.
VI
Abstract
This research aims to analyze one of the academic fields that grow most in the
study of the human sciences of the main teaching and research institutions
around the world: Digital Humanities. In order to do so, we have observed the
path taken by scholars and supporters in the development of this recent area of
study, from the first projects, through publications and major events, to the
present day. Lines of research of the Digital Humanities were also explored and
analyzed, especially the Organization of Knowledge. This area of study and
research has the difficult task of adapting digital technologies (with its innovative
tools and methodologies) to the needs of the humanities study in analyzing large
and increasing quantities of texts with speed and precision. To better exemplify
how complex the task Organization of Knowledge in the Digital Humanities will
be, this paper analyzes the polemical concept of reading distant from scholar in
literary history Franco Moretti. Probably one of the few projects in this new area
of knowledge that have brought practical and meaningful results.
VII
SUMÁRIO
Introdução ................................................................................................. 11
VIII
ÍNDICE DE FIGURAS
romanescos ............................................................................................... 90
Figura 15. Títulos com uma a três palavras X títulos com mais de
15 palavras ................................................................................................ 92
IX
Introdução
mudanças por conta da forte presença da tecnologia digital nas relações sociais,
No final do século passado, por volta dos anos de 1970, o ambiente digital
beneficiarem com esse novo contexto, principalmente com a chegada dos cursos
o campo das humanidades deve ter sido o último a acatar essa nova prática.1
1
Este estudo explora importantes pontos de uma complexa adaptação das
teoria revolucionária. Para isso, realizou uma série de pesquisas que utilizavam
3 Hockey, 8-15.
4 Alfonso-Goldfarb, Waisse & Ferraz, “New Proposals”, 1.
5 Franco Moretti, estudioso italiano de história literária, idealizador do conceito de leitura distante,
2
teoria de rede. Além disso, estabeleceu uma nova visão na análise da história
histórico.
3
CAPÍTULO 1
As Humanidades Digitais
4
1. As Humanidades Digitais
parte fornecerá uma visão geral do caminho percorrido até aqui pelas
século passado – mesmo que ainda não tivessem ambição para se tornar uma
formatos digitais.
7Text Encoding Initiave (TEI) é uma organização internacional que desenvolve e mantém diretrizes para
codificação digital de textos literários e linguísticos. TEI será melhor elucidada mais adiante.
5
1.1.1. Os primeiros passos das Humanidades Digitais
partir dos anos de 1970 até meados de 1980. Mais textos eletrônicos e projetos
de 1970 para tratar sobre o tema: Cambridge (1970), Edimburgo (1972), Cardiff
8 Hockey, 4.
Svensson, “Humanities Computing as Digital Humanities”.
Kirschenbaum, “The Remaking of Reading”, 1.
Dalbello, “A Genealogy of Digital Humanities”, 481.
9 Sula, & Hill, “The Early History of Digital Humanities”, 1.
6
do Norte – International Conference on Computing in the Humanities (ICCH),
sendo realizadas em anos ímpares para alternar com os eventos britânicos. Uma
por exemplo, foi necessário estabelecer o Oxford Text Archive (OTA)13 para
garantir que um texto de pesquisa não fosse perdido. O OTA teria a missão de
10 Hockey, 7-8.
11 OCP é um programa de análise de texto independente de máquina para produzir listas, índices e
concordâncias em vários idiomas e alfabetos. Lançado pela 1ª vez em 1981, foi reformulado em 1985-
86, aumentando sua eficiência. Atualmente é licenciado para cerca de 240 instituições em 23 países.
Susan Hockey, “The Oxford Concordance Program Version 2”, Library and Linguistic Computing, vol. 2,
nº 2 (janeiro 1987): 125-131.
12 Software packaged é utilizado em conjunto, executa funções semelhantes ou inclui recursos
7
pessoa que desejasse usá-los para fins acadêmicos. Era o começo da biblioteca
Humanidades Digitais
Trinta anos depois (1995-1996), era possível encontrar artigos mais específicos
14 Hockey, 8.
15 Klein, Crossing Bourdaries, 57.
16 https://www.jstor.org/journal/comphuma.
17 Hipertexto é um sistema que associa documentos entre si, através de marcadores (tags, links)
https://educalingo.com/pt/dic-en/stylometry.
20 Semântica lexical trata do significado cognitivo que envolve a relação entre a língua e os construtores
8
2005, a revista foi renomeada para Language Resources and Evaluation.21
Fundada em 1978, The Association for Computers and the Humanities (ACH)22,
desde do seu início, sua principal finalidade era na análise literária textual. Esses
com a LLC, que em 2015 se tornaria Digital Scholarship in the Humanities (DSH),
9
levando em conta todo o conhecimento digital realizado nas humanidades no
de 1985 da ALLC, em Nice, e-mails foram trocados avidamente e uma nova era
27 https://academic.oup.com/dsh/pages/DSH_name_change.
28 Hypercard é um programa, criado por Bill Atkinson para a Apple, que combina banco de dados a uma
interface gráfica flexível e modificável pelo usuário.
Mike Harland, “Hypercard: from Computer Dictionaries to On-line Courseware Tools”, Literary and
Linguistic Computing 5, nº 1 (janeiro 1990): 89-93.
29 Conner, “The Beowulf Workstation”, 50-58.
30 Conner, “Networking in the Humanities”, 195-204.
10
principalmente no apoio das Humanidades Digitais se reuniu e concordou que
1987.34
que pudesse lidar com muitos tipos diferentes de texto, além de dados e
https://www.vassar.edu/faculty/ide/
36 Burnard, “CAFS: A New Solution to an Old Problem”, 7-8.
37 SGML é um padrão para definir linguagens de marcação generalizadas para documentos. Acessado
11
metadados. Além disso, poderia representar uma interpretação acadêmica
uma estrutura que foi facilmente extensível para novas áreas de aplicação. O
texto completo e era natural que esses projetos, que não haviam entrado em
38 Hockey, 12.
39 https://www.aclweb.org/portal/.
40 Hockey, 12.
12
Gradualmente, certas áreas de aplicação se desprenderam Humanidades
Internet é uma parte vital de qualquer atividade acadêmica, pois ela é a primeira
de 2019, https://www.w3.org/html/.
13
problemas com processadores de texto e marcação baseada em aparência. Era
um meio de encontrar algum tipo de informação, mas não era considerada uma
vantagens eram enormes: o formato não era mais restrito ao livro impresso, não
forneciam uma maneira útil de lidar com anotações etc. A publicação poderia ser
medida em que ficassem prontas. Assim, o conteúdo, ou parte dele, poderia ser
editado e atualizado.45
45 Hockey, 13-14.
14
interface eficaz para o usuário. No entanto, deram mais ênfase na navegação do
a que poderia ser fornecida com HTML bruto. Todavia, teve um grande impacto
dos projetos de publicação foi iniciada por grupos de acadêmicos, mas não
46 Hockey, 14.
15
mãos era a gestão. Era preciso definir quem controlava ou examinava as
levantou questões sobre toda a filosofia do TEI, que havia sido concebida
Qualquer tag do TEI poderia ser redefinido e tags poderiam ser adicionados.
Claro que havia muitas vantagens em ter acesso a materiais com imagens de
projetos de imagens como não sendo deles, pois as imagens poderiam ser
47 Neuman et al., “The Pilot Project of the Electronic Peirce Consortium”, 25-27.
48 EAD é um padrão para codificar informações descritivas sobre registros de arquivamento. Acessado
em 25 de fevereiro de 2019, https://www.loc.gov/ead/.
49 Hockey, 15.
16
reconhecido, mas a sua utilização somente seria viável com o acesso da internet
tecnologia digital como uma área de estudo. Mas para as ciências humanas, isso
para a definição de um novo campo ou, pelo menos, a definição de uma agenda
cresciam lentamente. Por quase 20 anos, a maioria dos estudiosos da área foi
de uma biblioteca digital. Por algum tempo, a “bola da vez” foi a recuperação de
17
Para o filósofo americano Richard Rorty (1931-2007)53, o modelo de
apresentadas.54
18
1.2.1. Conteúdo digital
O conteúdo digital – como fotos e vídeos, não foi uma descoberta recente.
A Kodak desenvolveu a primeira câmera digital nos anos de 1970. E apesar das
smartphone em 2007.57
19
O volume de informação inserido no ambiente digital cresce
somente nos últimos dois anos. Segundo dados da pesquisa realizada pela
população mundial tem acesso à Internet, sendo que quase todos esses
Principles and Practice, publicado pela Oxford University Press em 2000, o texto
por parte das pessoas com deficiência visual são outras vantagens do formato
20
digital. O texto codificado – como o desenvolvido pelo TEI, fornece melhor e mais
parte do que mais tarde se tornaria a Internet64. Hart então, digitou uma cópia da
dizendo que o texto estaria disponível para download. Seis pessoas aceitaram a
do mundo.65
62 Ibid, 243-245.
63 Michael Hart, autor americano e fundador do Project Gutenberg,
https://www.gutenberg.org/wiki/Michael_S._Hart.
64 Advanced Research Projects Agency Network (ARPAnet) surgiu em 1962 no Departamento de Defesa
dos EUA e sua primeira demonstração pública foi em 1972 no First International Conference of
Computer Communications. ARPAnet foi uma das primeiras redes de packet-switching e a primeira rede
a implementar o conjunto de protocolos TCP/IP. Ambas tecnologias se tornariam a base técnica da
Internet. Acessado em 2 de março de 2019, http://www.tipografos.net/internet/arpa-arpanet.html.
65 “History of E Books.
21
No mesmo ano, Hart fundou o Project Gutenberg66, com o objetivo de
estabelecer uma biblioteca pública eletrônica com cerca de 10.000 títulos. Ele
Unido, informou ao autor que havia plataformas que produziam livros digitais.
Um ano depois, a versão digital do romance seria lançada nas plataformas Mac
22
de editoras dispostas a publicar na maneira tradicional pode obrigar as
mais regular de livros digitais pode mudar a maneira como o acadêmico ensina,
acadêmicos podem ter seus trabalhos amplamente utilizados por outros autores
atenção do usuário para o conteúdo do texto. Isso pode envolver qualquer coisa,
23
intervenção explícita em um texto, para que possa ser analisada, pesquisada ou
trabalho das Humanidades Digitais, uma vez que é a principal forma de estruturar
trabalhado no formato digital, ele deve ser codificado em formato legível para o
naturais, seria possível utilizar esse conceito para iluminar aspectos da natureza
um maior progresso.74
24
A marcação descritiva possui vantagens bem definidas, como a
avaliar como ela motivou uma nova teoria da natureza do texto, é necessário
informação e procedimentos.75
parece ser hierárquico – eles se aninham uns nos outros sem se sobreporem, e
possuem uma ordem linear (se uma seção contém três parágrafos, o primeiro
25
O primeiro rascunho das Diretrizes do TEI foi lançado em junho de 1990,
uso das Diretrizes e garantir uma fonte constante de experiências e novas ideias.
Ao longo tempo, as Diretrizes do TEI têm tido êxito e, portanto, quase todos os
projetos de base textual das humanidades utilizam TEI. Depois do HTML, TEI
debate para uma disciplina, pode ser um dado neutro ou nulo para outra).77
77 Ibid, 233-234.
26
comunicação textual, com o objetivo principal de melhorar a compreensão da
marcação como o TEI. As ontologias formais podem dar acesso a uma série de
78 Mylonas & Renear, “The Text Encoding Initiative at 10: Not Just an Interchange Format Anymore – But
a New Research Community”, 5-8.
79 O termo “ontologia” no texto significa “uma descrição formalizada e compartilhada de uma descrição
conceitual de um domínio”. Tom Gruber, pesquisador, designer e um dos criadores do Siri, da Apple,
http://tomgruber.org.
80 Ciotti & Tomasi, “Formal Ontologies, Linked Data, and TEI Semantics”, 1-5.
27
1.2.3. Visualização e análise de texto
fossem facilmente acessíveis e confiáveis, seja por motivos legais (como direitos
realizar. Pode haver tanto texto disponível na Internet que seja necessário
experimentos.81
28
Figura 1. Visualização de texto. 82
Outro problema que pode ocorrer com nuvens de palavras é que elas são
a uma única interpretação que não possa ser contestada, mas sim, examinar
82 Ibid., 277.
83 Harris, “Word Clouds Considered Harmful”, 1-4.
29
para desenvolver interpretações convincentes. Logo, é importante que um
produza apenas uma solução para um conteúdo poderia ser de utilidade limitada,
enquanto que uma visualização que forneça muitas formas de interagir com os
dados e com diferentes perspectivas, poderia ser muito mais proveitosa. Nesse
interativo.84
propõe ao leitor analisar os textos; (ii) interface que fornece recursos abertos de
visual de todo o corpus; (v) contexto para cada termo de interesse; (vi)
30
Figura 2. Visualizações interativas de textos digitais do jornal The New York Times.86
86 Ibid., 278.
31
visualizações também podem produzir comparações entre um par de
fornecem uma lente adicional que pode nos ajudar a extrair os tipos de
talvez não fosse necessária. Essa questão revela os propósitos para interagir
com os textos. Se a leitura for por deleite – por exemplo, uma história
32
A análise do texto digital é um processo de decomposição – que é um
ocorrências do termo), pois poderia ter uma noção do estilo da escrita do autor.
Com isso, poderia até utilizar como uma ferramenta de identificação de autores
33
anônimos, como por exemplo, o caso Unabomber91. Análise de texto deixaria de
para produzir uma visualização utilizável para os dados. Como a instrução nas
maioria dos casos, preferíveis aos estáticos, pois permitem que estudiosos e
91 Ted Kaczynski, conhecido como Unabomber, foi um terrorista americano doméstico por 17 anos. Ele
foi descoberto pela sua cunhada que reconheceu o estilo da sua escrita do seu “manifesto” que havia
sido publicado nos principais meios de comunicação pelo FBI. Acessado em 21 de dezembo de 2018,
https://www.nytimes.com/1998/05/05/us/17-year-search-an-emotional-discovery-and-terror-
ends.html.
92 Sinclair & Rockwell, 283-284.
93 Sinclair, Ruecker & Radzikowska.
94 Sinclair & Rockwell, 287.
34
Em termos gerais, o termo mineração de dados refere-se a qualquer
uma prática comum nas ciências sociais, onde utilizam pacotes de software para
transações.97
35
Figura 3. A evolução da tecnologia do sistema de banco de dados.98
98 Ibid., 3.
36
abundância de dados sem poderosas ferramentas de análise de dados criou
de ouro” do conhecimento.99
99Ibid, 4-5.
100Knowledge Discovery in Database (KDD) é um processo de extração de informações de base de
dados, que também auxilia a validação de conhecimento extraído.
37
em 1989 para enfatizar que o conhecimento é o produto final de uma descoberta
101 Fayyad, Piatetsky-Shapiro & Smyth, “From Data Mining to Knowledge Discovery in Databases”, 39-40.
38
homem e máquina pode ser modelada e suportada. O processo do KDD pode
ser visto como uma atividade multidisciplinar que engloba técnicas além do
etapas do processo de KDD (Figura 4): (i) seleção; (ii) pré-processamento; (iii)
39
de padrões e elementos de camada de apresentação (como ferramentas de
em corpus.105
40
um requisito importante para que os pesquisadores possam reconhecer padrões
dados.106
identificar recursos de uma maneira que seja digitalmente mais eficiente e prático
41
de sinônimos, ontologias ou bases de conhecimento para auxiliar na geração de
mineração de texto que elabora diagramas de texto a partir dos conceitos mais
42
Science – LIS) é a disciplina central mais ativa da Organização do Conhecimento
área se veem aplicando padrões para descrição de uma natureza objetiva. Com
43
Organização do Conhecimento com a introdução das Humanidades Digitais.
44
CAPÍTULO 2
45
2. A Organização do Conhecimento e a Leitura Distante
Goldfarb, Silvia Waisse e Márcia Ferraz, essa nova realidade ainda não
Paulo – PUCSP, o CESIMA, que, após estruturar um banco de dados digital com
46
nenhum dos sistemas de classificação disponíveis satisfazia quando era preciso
cone e conectado por links; e (iii) árvore hiperbólica (Figura 7) – modelo flexível
bifurcação.113
47
Figura 6. Árvores de cone com representação 3D e efeitos de sombra. 115
48
Mais adiante, novos modelos de árvore foram desenvolvidos, como os de
que uma evolução real somente ocorreria mediante uma mudança mais radical,
com a tradicional árvore hierárquica sendo substituída pelo modelo de rede não-
árvore. Por meio de uma visualização mais detalhada, um amplo escopo e uma
Organização do Conhecimento.117
Para Todd Presner118, o campo das Humanidades Digitais não seria uma
49
deixaria de ser um meio normativo na produção e disseminação do
e ciências sociais. Na primeira fase dos estudos nas Humanidades Digitais, entre
final de 1990 e início dos anos 2000, houve um grande esforço nos projetos de
áreas de conhecimento, caso das ciências sociais, mas nem tanto por outras,
lugares ou tempos distintos; (ii) historiadores dão maior enfoque nos dados
gerados pelo processo – por exemplo, como seria viver, trabalhar e se relacionar
dos dados gerados, fator primordial para historiadores, mas não para os
50
sociólogos que, por sua vez, se concentram mais na amostragem e na
O ambiente digital não figurava mais como um meio neutro para o fluxo
os anos de 1800 e 2000, e pretendia fornecer insights sobre campos tão diversos
epidemiologia histórica.122
51
desenvolvido através de uma análise quantitativa precisaria ser melhor ajustado,
com uma extração de dados mais completa, qualificada e profunda, para maior
frente.123
no ambiente digital
isso, possui uma difícil tarefa ao catalogar e classificar sua produção científica
baseado na disciplina. Até por essa razão, a inserção da tecnologia digital pode
usuário.124
52
Em relação aos objetos de pesquisa no campo da História da Ciência,
entre o objeto da ciência, que seria construído a partir da reflexão metódica sobre
epistemologia.126
125 Georges Canguilhem foi filósofo e médico francês. Especialista em epistemologia e História da
Ciência.
126 Alfonso-Goldfarb, Waisse, & Ferraz, “From Shelves to Cyberspace”, 552.
127 Ibid., 556.
53
como deveria ser exibido a ordem dos resultados de uma pesquisa e quais
para o qual fornece regras. Ele propõe cinco categorias que considera
54
como ‘analítico-sintético’. Até o momento, o modelo facetado apresenta-se como
formação. Por essa razão, esse modelo ajusta-se à História da Ciência com
perfeição. Bastaria adicionar algumas facetas aos exemplos dados acima para
contemporâneo.132
55
atravessam os limites disciplinares e o armazenamento de dados passa a ser
pelos modelos facetados podem ser de grande valia na construção de uma nova
seus recursos.134
56
escolha de romance, o comportamento do comércio literário internacional, as
2013, quando publicou o seu livro Distant Reading. Durante essa trajetória,
microambientes na Europa, cada uma com sua história e seus costumes, mas
57
Para Moretti, a grande tragédia barroca138 do século XVI transmitiria a
continente multicêntrico:
as outras nações. [...] Mas a literária primária passou pela Itália a partir
138 Barroco: estilo que predominou a arquitetura, pintura, literatura e música no século XVII na Europa.
139 Moretti, “Modern European Literature”, 90-92.
140 Moretti, Distant Reading, 17-23.
58
França, Inglaterra, o começo dos "anos dourados" da Espanha, que
por sua vez, domina a literatura europeia por mais de um século. [...]
literárias da Romênia. Sua hora não chega até a Era de Goethe. Até
nenhuma.”141
para que houvesse uma explosão modernista no século XX. Como na tragédia
141 Curtis, European Literature and the Latin Middle Ages, 34; tradução do autor.
142 Moretti, “Modern European Literature”, 99-100.
143 Baudelaire foi poeta, teórico e crítico francês. Conhecido como “Pai do Simbolismo”, foi precursor do
movimento simbolista e fundador da poesia moderna. Considerado um dos maiores poetas franceses, sua
obra influencia a literatura mundial até hoje. https://www.todamateria.com.br/charles-baudelaire/
144 Moretti, Distant Reading, 34-37.
59
Uma nova narrativa mais melodramática surgiria na França e na
Manhattan do que com Munique. Com isso, fronteiras entre as nações europeias
facilmente nas grandes cidades, onde seus costumes e hábitos eram mais
aceitos.145
60
Ao observar o catálogo de uma pequena coleção de livros de sucesso de
meados do século XIX, Moretti percebe que apenas uma ínfima parcela daquelas
obras ainda era conhecida e que quase a totalidade daqueles títulos havia
número muito alto), eles ainda seriam apenas 0,5 por cento de todos
duzentas obras. Isso quer dizer que menos de um por cento dos romances que
Esse processo, que faz com que um enorme contingente de autores não
61
estudo da área como um todo. Contudo, havia um grande obstáculo: se a leitura
de duzentas obras do cânone britânico do século XIX já era uma tarefa árdua,
para que as gerações seguintes pudessem ter acesso e avaliar quais autores ou
acontecia nas ruas. Por exemplo, o trabalho de Conan Doyle (1859-1930)150 era
editoras só imprimiriam livros que tivessem demanda. Títulos que tinham uma
boa procura popular se mantinham ‘vivos’, até que outra geração os tivesse
150 Sir Arthur Conan Doyle, escritor, poeta e historiador escocês, que ficou mundialmente conhecido pelas
histórias que escreveu sobre Sherlock Holmes, o detetive ficcional mais popular da história.
https://www.arthurconandoyle.com/
151 Moretti, “The Slaughterhouse of Literature”, 207-209.
152 Ibid., 209-210.
62
Com a finalidade de interpretar melhor a influência do mercado editorial
consumidor fazia com que vinte por cento filmes exibidos fosse responsável por
oitenta por cento do faturamento das bilheterias. Os filmes com pouco tempo de
153 De Vany & Walls., The Market for Motion Pictures, 783–797.
154 Moretti, “The Slaughterhouse of Literature”, 210.
63
Esse comportamento fazia com que seus romances ocupassem uma fatia cada
simples e fácil de entender, mas qual seria a razão dessas obras terem sido
econômico desenvolvido por Vany e Walls tinha um ponto cego. Afinal, qual
Para entender o que motivava leitores a optarem por certos títulos sem ter
gênero literário: ficção policial. Moretti definiu esse estilo como objeto desta
não utilizavam as ‘pistas’, e por isso eram esquecidos ao longo do tempo. Outros
64
autores compreendiam a importância e as utilizavam, mas de forma equivocada,
terceira ramificação, ‘pistas’ tinham função, mas não eram visíveis ao leitor.
livros de Conan Doyle também havia sido descartada. Nesta última divisão,
‘pistas’ deveriam ter sido descobertas pelo leitor, fator essencial para o sucesso
das histórias do gênero. Porém, Moretti concluiu que essa informação seria
65
O modelo de árvore funcionaria como uma metáfora cognitiva, que
método de análise com uma variável mais complexa: o gênero. Havia um padrão
Aqueles que tinham um estilo já definido não costumam alterar sua forma de
intermediários.161
66
Apesar de Moretti defender que ‘pistas’ fosse um dispositivo essencial
brigas)”.162
do passado. Uma história que poderia ser capaz de atravessar longos períodos
canônicos, mas não analisava as características de 99% dos textos literários que
67
não pertenciam ao universo canônico. Para Moretti, o modelo conseguiu revelar
que o caminho dos cânones era apenas uma das várias possibilidades, e isso
mais variadas ramificações (a maior parte desconhecida) poderia ser uma nova
campo, mas era difícil prevê se os novos dados apresentados seriam relevantes
mas também a sua variedade. Nos pequenos comércios, as obras mais famosas
prateleiras:166
68
regionais, ou as importações estrangeiras) e seleciona, ao contrário, o
geográfica dos filmes. Ele percebeu que essa correlação (quantidade de obras
filmes, também se repetia no mercado editorial. Durante seu estudo, dois estilos
de um bom enredo para ter sucesso e tinham uma ampla e sólida distribuição
performance de vendas (Top 5) por ano. Mapeando apenas países que tinham
69
Moretti chega a conclusão que a indústria de Hollywood tinha um amplo
observados, mais de 90% dos filmes mais assistidos eram dos Estados Unidos
cultural dos EUA) e nos países da Escandinávia e leste europeu (por razões
cinco filmes mais exibidos. Além disso, o estudo indicaria que filmes de ação e
interpretaria que o sucesso deste gênero estava em uma narrativa mais simples,
uma piada poderia depender de uma suposição implícita, que só seria entendida
Não é por acaso que as comédias nacionais geralmente fazem mais sucesso.
regiões mais ricas. Produções com enredo dramático tinham maior procura nos
70
países europeus, o que indicava que a história cultural desses países
outros. O modelo darwiniano estava inserido nesta geografia cultural: a luta pelo
dificuldades nas vendas. Moretti então compara a difusão dos romances anglo-
(seja em livros ou filmes) produzia um duplo efeito nas culturas dos países
criava incertezas para escritores e cineastas locais, pois exercia uma forte
ser examinadas e Moretti não aceitava que mais leitura seria a melhor solução
71
representava menos de um por cento das publicações literárias. A literatura
para o campo.172
periférico poderia ser influenciada, interceptada e até mesmo alterada por outra
pelo núcleo.176
moderno. Ele é autor de vários livros e artigos que retratam a teoria do sistema-mundo. Acessado em 14
de novembro de 2018, https://www.iwallerstein.com/
175 Wallerstein, The Modern World-System, 224-233.
176 Moretti, “Conjectures on World Literature”, 55-56.
72
Moretti enxergava que a leitura atenta poderia ser utilizada apenas se o
objeto de pesquisa se limitasse ao cânone literário. Ele afirmava que era preciso
aprender a ‘não ler’ – por meio de uma leitura distante. Esse método de estudo
comprovar sua tese, e para isso, inicia uma pesquisa sobre a difusão do romance
73
O núcleo anglo-francês exercia enorme pressão para que o sistema
estrangeiro, com seus “padrões” que ditavam o que seria a normalidade das
relações sociais; (ii) a matéria local, que fornecia personagens com seus
região. Este último elemento era mais instável, pois os narradores analisavam,
seria “normal” pela cultura estrangeira era uma forma simbólica e velada do
poder do núcleo, que podia variar de uma localidade para a outra. Moretti achava
que esse formalismo sociológico era apropriado para analisar a literatura mundial
por diversos idiomas. Além disso, haveria um ponto em que o estudo da literatura
179Ibid., 64.
180Moretti, Distant Reading, 57-59.
181 Árvore filogenética é um diagrama, utilizado no estudo da teoria da evolução darwiniana, que
representa as relações evolutivas entre organismos. Elas são hipóteses, não fatos definidos. O padrão de
ramificação de uma árvore filogenética reflete como espécies evoluíram a partir de um ancestral comum.
74
através de ramificações, traçando um caminho lógico da unidade à diversidade.
critica trouxera algo que Moretti ainda não tinha enxergado, a influência
75
grande parte do trabalho realizado na periferia, mas o inverso dificilmente
no sistema-mundo literário.184
dependiam de três grandes variáveis: (i) o gênero, com sua formalização e uso
de linguagem; (ii) a rápida difusão das formas, com fórmulas rígidas e estilo
Moretti admitiu que sua tese sobre a difusão cultural entre países estava
de Sassoon, isso não era suficiente para aumentar o poder cultural de uma
76
subprodutos de um consagrado poderio econômico, como prestígio, influência,
ainda que não suficiente, possuir grandes meios de produção e difusão dos bens
estúdios de rádio e TV. Também era necessário ter um forte e sólido mercado
poderiam ter um mercado cultural doméstico forte, mas que seriam incapazes
Bélgica e Bulgária).188
77
conceito de literatura mundial, ele acreditava que os principais países da Europa
ocidental não detinham o monopólio sobre a criação das formas, pois elas
para o centro e de uma periferia para outra. Apesar de aceitar que o estudo da
várias direções, como acreditava Kristal. Para ele, seria muito improvável o
movimento de uma periferia para outra sem passar pelo centro, e que seria mais
movimento do centro para a periferia seria algo normal e bem mais trivial. Como
Kristal, ele também não acreditava que o Ocidente tivesse o monopólio sobre as
criações das formas, mas que as culturas dos países núcleo dispunha de mais
próximas, não eram exatamente idênticas. Por exemplo, mesmo estando atrás
78
mas não significava necessariamente que teria uma hegemonia literária na
região.192
fosse autônoma. Por exemplo, The History of the Adventures of Joseph Andrews
and of his friend Mr. Abraham Adams, um dos primeiros romances britânicos
publicados, em 1742, foi definido pelo seu autor Henry Fielding (1707-1754)
relação entre núcleo e periferia seria então sincrônica, pois a relação permitia
que o núcleo fosse central, mas a definição de como seria o sistema literário
conjunto.194
79
principalmente para analisar as literaturas nacionais. A segunda era a teoria do
e a influência cultural entre os países. Por essa ótica, Moretti analisou o comércio
então esboça uma comparação entre as duas teorias, a fim de captar quais
80
Segundo Moretti, foi neste ponto que a teoria da evolução mais contribuiu
na história literária:
literatura mundial.”198
que também era desigual. Muitas literaturas nacionais e locais tinham seu
literatura mundial.199
81
Itamar Even-Zohar (1939-0000),200 que desenvolveu a teoria dos
dentro do sistema literário internacional não havia simetria e que a literatura dos
mercado operava com mecanismos de difusão, onde obras literárias dos países
difusão assimétrica contribuía para que houvesse uma forte semelhança entre
bastante parecidos dos editados nos países do núcleo. Essa prática se repetia
com os filmes de ação americano, que tinham sua essência copiada por
conceito de leitura distante foi concluir que a literatura mundial era única e
criava uma mesmice nas formas literárias, pois dificultava o surgimento de estilos
200 Itamar Even-Zohar é sociólogo, linguística e pesquisador israelense. Docente na University of Tel Aviv.
201 A teoria dos polissistemas, analisou conjuntos de relações na literatura e na linguagem. Mais adiante,
analisou complexos sistemas socioculturais. Essa teoria foi publicada na obra de Even-Zohar, Polysystem
Studies (Durham: Duke University Press, 1990).
202 Even-Zohar, Papers in Historical Poetics, 14-20.
203 Moretti, “Evolution, World-Systems, Weltliteratur”, 115-116.
82
diversificação ao longo do tempo com suas ramificações. Apesar de
pelo mundo, desde suas origens até poucos séculos atrás. A mesmice teria se
iniciado mais tarde, por volta do século XVIII, quando o mercado literário
outras. Era como se a literatura mundial fosse dividida em antes e depois de sua
internacional literário.205
pode ser melhor observada através de uma análise descrita na obra O discurso
83
em 1877; I Malavoglia, do italiano Giovanni Verga (1840-1922), de 1881; e O
de Zola era retida por Verga e Azevedo, porém seu estilo era transformado.206
construção de uma obra literária local, que combinava seu estilo com o enredo
Para Moretti, isso acontecia por duas razões. Primeiro que o enredo geralmente
84
enredo não dependia da linguagem, o estilo geralmente era modificado no
possuía dois significados distintos. O primeiro havia sido concebido pela teoria
Com dois conceitos de literatura mundial que possuíam estruturas tão distintas,
pela frente.208
85
implementado um conjunto de hipóteses de maneira experimental, aberta e
não aceitava uma definição de literatura mundial concebida por uma equação de
Segundo Moretti, para que a relação entre dois conceitos tão distintos
inicial.212
inicial do leitor (sem referência) por uma obra. Ele acreditava que o dispositivo
86
Segundo Prendergast, somente com a teoria da evolução já seria possível
apenas reiterava o veredito já dado pela teoria evolutiva: uma seleção natural
seu conteúdo ao ambiente em que estivesse inserido do que pela sua qualidade.
Outra particularidade do mercado era que ele ampliava a diferença entre os livros
seria a escolha do leitor por uma determinada obra e o outro seria a atuação do
mercado literário que ampliaria a preferência desta obra. Por exemplo, para
Moretti, Doyle merecia vender 10 vezes mais que seus rivais, até mesmo 100
vezes. Mas não 100 mil vezes mais. Essa diferença exponencial nas vendas não
Ele acreditava que sua teoria dos ‘retornos crescentes’ explicaria esse exagero
período entre 1750 e 1850 na Europa. Para isso, ele precisaria de ferramentas
87
tecnológicas e metodologias inovadoras para realizar uma boa análise
número de palavras nos títulos das obras do século XVIII, que se tornaram mais
que o número de palavras mantém uma mediana estável entre dez e vinte
palavras nos primeiros 25 anos, mas que começa a cair por volta de 1770 para
dez palavras e mais ainda em 1790, para seis palavras, permanecendo nesta
Figura 11. Número de palavras nos títulos de romances publicados entre 1740 e 1850.218
88
Mas o ambiente cultural foi se modificando e tornado incompatível com esse
por ano nas primeiras décadas do século XVIII para aproximadamente uma
Neste momento, é possível perceber que Moretti uniu a tecnologia que propiciou
uma melhor análise quantitativa (no caso, gráficos) com sua competência de
tempo.219
que existia uma correlação temporal entre os dois processos: quanto mais o
mercado literário se expandia, menor ficava o tamanho dos títulos dos romances.
89
Figura 12. Número de publicações britânicas entre 1700 e 1836. 220
90
Assim, o comprimento médio dos títulos ia diminuindo e com isso os títulos
longos desapareciam. Títulos com apenas uma, duas ou três palavras, que
rapidamente (Figura 14), chegando ser entre vinte e trinta por cento em 1800.
Além disso, títulos longos eram alterados para se tornarem menores (Figura 15).
Essa mesma prática se repetiu na publicidade cem anos mais tarde, quando as
poderia ser substituído por poucas palavras? Ele então analisa os títulos curtos
e constata três grupos que se destacam dentro deste universo: (i) títulos com
total; (ii) títulos com artigo-substantivo (The Steam-Boat e The Smuggler) e com
Gentleman), com aproximadamente trinta por cento; e (iii) títulos com abstrações
conceituais (Fatality e Enthusiasm not Religion), por volta de dez por cento. E
essa grande mudança no tamanho dos títulos trazia uma grande também na
forma. Moretti acreditava que apesar do mercado impor títulos curtos, que isso
91
com o intuito de colocar o livro no nicho mercadológico apropriado. Poucas
Figura 15. Títulos com uma a três palavras X títulos com mais de 15 palavras.225
92
2.2.9. Teoria de rede
romances com extrema rapidez. Isso seria o começo da teoria de rede idealizada
93
Uma rede é feita de vértices e arestas. Um enredo é feito de personagens
arestas. Moretti então, utiliza como exemplo a clássica obra Hamlet, de William
Sobre The Murder of Gonzago, Moretti utiliza o ato da fala como uma
interação (aresta) e prefere lidar apenas com as conexões explícitas na sua rede.
Para ele, a sua teoria já apresentaria uma vantagem inicial. Enquanto que na
‘passada’ não está mais diante dos seus olhos), na análise de rede nada
da trama. Segundo Moretti, tornar o passado tão visível quanto o presente é uma
subtração torna a estrutura do modelo muito menor que o objeto original. Com
remover o personagem Hamlet da rede, para ver o que acontece (Figura 17). O
resultado é que a rede quase se divide pela metade, com as duas bordas (direita
e esquerda) ligadas apenas por três arestas que ligam Horário a Claudius, Osric
importância de Hamlet na trama, mas não por ser protagonista da história, e sim,
94
remove o que seria o segundo personagem mais central da trama, Claudius
95
Contudo, se remover Hamlet e em seguida o personagem Horatio
(Figura 19), ocorre uma fragmentação tão radical na estrutura da rede, que os
96
Esses personagens principais também estariam ligados a todos os outros da
um dos outros”.235
Claudius afeta pouco a estrutura da rede. Ele pertence a uma região muito
personagem. Com Horatio (que não faz parte do hexagonal pertencente a parte
mais densa da rede) acontece o oposto. Ele está situado na parte da rede onde
234 Mark Newman, físico britânico e professor na University of Michigan e do Santa Fe Institute, é
conhecido pelo seu trabalho em sistemas de rede, ganhador do Lagrange Prize 2014.
235 Newman, “The Structure and Function of Complex Networks”, 183; tradução do autor.
236 Moretti, Distant Reading, 226-228.
97
O conceito de leitura distante ainda pode ser considerado uma obra
interessantes que podem ser exploradas mais adiante por outras linhas de
o ambiente digital. A sua ousadia pode ser muito valiosa para o futuro das
Humanidades Digitais.
98
Considerações Finais
humano”.239
99
Se as teorias de classificação podem ser divididas conforme a finalidade
Conhecimento nas Humanidades Digitais: (i) que é quase inviável obter uma
da história literária se resume praticamente aos cânones; (ii) que a base teórica
100
para a pesquisa acadêmica não precisa necessariamente ser iniciada do zero,
mas que pode ser auxiliada pela ciência computacional; e (iii) que é importante
101
Bibliografia
102
Boot, Peter. “Distant Reading”. Literary and Linguistic Computing 30, nº 1 (abril
2015): 152-154. Acessado em 2 de maio de 2019,
https://doi.org/10.1093/llc/fqu010.
Braudel, Fernand. History and the Social Sciences: the Lougue Durée, trad.
Sarah Matthews. Chicago: University of Press, 1980.
Burnard, Lou. “CAFS: A New Solution to an Old Problem”. Literary and Linguistic
Computing 2, nº 1 (janeiro 1987): 7-12. Acessado 14 de novembro de
2018. https://doi.org/10.1093/llc/2.1.7.
Calzolari, Nicoletta & Antonio Zampolli. “Lexical Databases and Textual Corpora:
A Trend of Convergence between Computational Linguistics Computing”.
In Research in Humanities Computing 1: Selected Papers from the
ALLC/ACH Conference, Toronto, June 1989, ed. Susan Hockey, Nancy
Ide, & Ian Lancashire, 272-307. Oxford: Clarendon Press, 1991.
Ciotti, Fabio & Francesca Tomasi. “Formal Ontologies, Linked Data, and TEI
Semantics”. Journal of the Text Encoding Initiative 9 (setembro 2016):
1-22. Acessado em 24 de fevereiro de 2019.
https://journals.openedition.org/jtei/1480.
103
Coombs, James H., Allen H. Renear & Steven J. DeRose. “Markup Systems and
the Future of Scholarly Text Processing”. In Communications of the ACM
30, nº 11, ed. Peter J. Denning, 933-947. Nova York: ACM, 1987.
Curtius, Ernst R. European Literature and the Latin Middle Ages. Nova Jersey:
Princeton University Press, 2013.
DeRose, Steven J., David G. Durand, Elli Mylonas & Allen H. Renear. “What is
Text, Really?”. Journal of Computing in Higher Education 1, nº 2
(dezembro 1990): 3-26. Acessado em 17 de fevereiro de 2019.
https://doi.org/10.1007/BF02941632
Drucker, Johanna, David Kim, Iman Salehian & Anthony Bushong. Introduction
to Digital Humanities: concepts, methods, and tutorials for studens and
instructors. Los Angeles: First Edition, 2014.
Even-Zohar, Itamar. Papers in Historical Poetics. Tel Aviv: Porter Institute for
Poetics and Semiotics, 1978.
Feldman, Ronen. “Practical Text Mining”. In PKDD ’98 Proceedings of the 2nd
European Symposium on Principles of Data Mining and Knowledge
Discovery, ed. Jan M. Zytkow & Mohamed Quafafou, 478. Berlim;
Heidelberg: Springer-Verlag, 1998.
104
_______ & James Sanger. The Text Mining Handbook: Advanced Approaches
in Analyzing Unstructures Data. Nova York: Cambridge University Press,
2007.
_______, Moshe Fresko, Haym, Yonatan Aumann, Orly Liphstat, Yonatan Schler
& Martin. “Knowledge Management: A Text Mining Approach”. In
Proceedings of the Second International Conference on Practical Aspects
of Knowledge Management (PAKM98), ed. Ulrich Reimer, 1-10. Basiléia:
CEUR Workshop Proceedings, 1998.
Han, Jiawei, Micheline Kamber & Jian Pei. Data mining: concepts and
techniques, 3ª ed. Waltham: Elsevier, 2012.
105
Hodge, Gail. Systems of Knowledge Organization for Digital Libraries: Beyond
Traditional Authority Files. Washington: The Digital Library Federation
Council on Library and Information Resources, 2000.
Klein, Lauren F., & Matthew K. Gold. “Debates in the Humanities”. The MIT Press
(2016). Acessado em 17 de maio de 2018.
http://dhdebates.gc.cuny.edu/debates.
Kirschenbaum, Matthew. “The Remaking of Reading: Data Mining and the Digital
Humanities”, National Science Foundation Symposium on Next
Generation of Data Mining and Cyber-Enabled Discovery for Innovation
(2007): 1-5. Acessado em 5 de janeiro de 2019.
https://pdfs.semanticscholar.org/9b33/4177e179ba9783a74533169bdc8d
3d07a7aa.pdf.
106
Manning, Patrick. “Digital World History: An Agenda”. Digital History Project (abril
2007). Acessado em 20 de dezembro de 2018.
http://digitalhistory.unl.edu/essays/manningessay.php.
Melo, Maria A. F., & Bräscher, Marisa. “Termo, Conceito e Relações Conceituais:
Um Estudo das Propostas de Dahlberg e Hjorlend”. Ciência da Informação
41, nº 1 (janeiro-abril 2014): 67-80.
107
_______. Literature, Measured. São Francisco: Pamphlets of the Stanford
Literary Lab, 2016.
_______. “Network Theory, Plot Analysis”. Literary Lab Pamphlet 2 (maio 2011):
1-31. Acessado em 22 de novembro de 2018.
https://litlab.stanford.edu/LiteraryLabPamphlet2.pdf.
Mylonas, Elli & Allen Renear. “The Text Encoding Initiative at 10: Not Just an
Interchange Format Anymore – But a New Research Community”. In
Computers and the Humanities 33, nº 1, 1-9. Nova York: Springer, 1999.
108
Newman, Michael. “The Structure and Function of Complex Networks”. SIAM
Review 45, nº 2 (maio 2003): 167-256. Acessado em 22 de abril de 2019,
https://doi.org/10.1137/S003614450342480.
_______, Mary Keeler, Christian Kloesel, Joseph Ransdell & Allen Renear. “The
Pilot Project of the Electronic Peirce Consortium”. In ALLC ACH’92
Conference Abstracts and Program, org. Nuria Rodrígues, Murtha Baca,
Francesca Albrezzi, & Rachel Longaker, 25-27. Oxford: Christ Church,
1992.
Reategui, E., M. Klemann, D. Epstein & A. Lorenzatti. “Sobek: a Text Mining Tool
for a Educational Applications”. In International Conference on Data
Mining, 59-64. Las Vegas:Anais do DMIN ‘11, 2011.
109
Rorty, Richard. "Being That Can Be Understood Is Language." In Gadamer’s
Repercussions: Reconsidering Philosophical Hermeneutics, ed. Krajewski
Bruce, 21-29. Berkeley: University of California Press, 2004.
Robertson, George G., Jock D. Mackinlay & Stuart K. Card. “Cone Trees:
Animated 3D Visualizations of Hierarchical Information”. In Proceedings
ACM SIGCHI Conference on Human Factors in Computing Systems,
189-194. Nova York: ACM Press, 1991.
Shaffi, Sarah. “Science Museum to Display James Novel”. The Bookseller (março
2014). Acessado em 2 de janeiro de 2019.
https://www.thebookseller.com/news/science-museum-display-james-
novel.
Shneiderman, Bem, Cody Dunne, Puneet Sharma & Ping Wang. “Innovation
trajectories for information visualizations: Comparing treemaps, cone
trees, and hyperbolic trees”. Sage Publishing 11, nº 2 (dezembro 2014):
87-105. Acessado em 13 de abril de 2019.
https://doi.org/10.1177/1473871611424815.
Sinclair, Stéfan & Geoffrey Rockwell. “Text Analysis and Visualization: Making
Meaning Count”. In A New Companion to Digital Humanities, ed. Susan
Schreibman, Ray Siemens & John Unsworth, 274-290. West Sussex:
Willey Blackwell, 2016.
110
Stringfellow, Angela. “The History of Digital Content”. MerlinOne (fevereiro 2018).
Acessado em 23 de dezembro de 2018.
https://merlinone.com/history-of-digital-content-infographic/.
Sula, Chris A., & Heather Hill. “The Early History of Digital Humanities”. In Digital
Humanities 2017, org. Michael Sinatra, Stéfan Sinclair, Cecily Raynor, &
Dominic Forest, 1-5. Montreal: McGill University; University de Montréal,
2017.
Todorov, Tzvetan. Poética da Prosa, trad. Claudia Berliner. São Paulo: Martins
Fontes, 2003.
Vany, Arthur S. & W. David Walls. “The Market for Motion Pictures: Rank,
Revenue, and Survival”. Economic Inquiry 35, nº 4 (outubro 1997): 783-
797. Acessado em 11 de fevereiro de 2019.
https://doi.org/10.1111/j.1465-7295.1997.tb01964.x
111
Warner, Julian. “Description and Search Labor for Information Retrieval”. Journal
of the American Society for Information Science and Technology 58, nº 12
(Agosto 2007): 1783-1790. Acessado em 6 de março de 2019.
https://doi.org/10.1002/asi.20664.
112