Você está na página 1de 43

Jornalismo de dados - introdução

Leonardo Foletto, 2014/1


O que é?

Jornalismo produzido com dados


(e no mundo digital tudo é dado, bit, 0 e 1)

"Faro jornalístico" + coletar/raspar dados +


diferentes possibilidades de combinar dados +
estratégias para narrar/visualizar uma história
Antepassados
_ Jornalismo de precisão (1960, 1970)
Uso de técnicas de pesquisa das ciências sociais para a prática de jornalismo
Philip Meyer. É uma maneira de expandir o kit de ferramentas do repórter para
acessar informações pouco acessadas por jornalistas.

_ Reportagem Assistida por Computador (desde 1980)


Toda e qualquer apuração jornalística que faça uso de informática para
encontrar as informações desejadas.
Tecnologia digital
_ Populariza e expande a ideia da RAC

_ Tira do "nicho" de reportagens especiais/investigativas;

_ Informação é abundante, o desafio não é tanto achar,


mas processar, relacionar, contextualizar e apresentar;
Contexto;
_ Notícias fluem na medida em que acontecem (blogs, celulares,
redes sociais). Quem vai organizar? Como organizar?
_ Big Data: tudo é dado abaixo do sol. Quantificável.
Google: 24 petabytes (1 milhão de GB) por dia; Youtube: 1 hora de
vídeo por s.
Facebook: 10 milhões de fotos por hora; 3 bilhões de
likes/comentários por dia; 400 milhões de twitts por dia;
_ Datafication: não porquê, mas o que;
_ “Algoritmização do mundo”; Facebook Graphic Search;
_ Web social, “bolhas”;
_ Questão: e a privacidade?
“Privacidade para os fracos, transparência para os fortes”;
_ Open data - dados abertos
Por que fazer?
_ “Toda pessoa tem direito a informação”; Declaração
Universal dos Direitos Humanos, art. 19
_ Ganhar tempo;
_ Novas abordagens para contar histórias;
_ Interpretações independentes de informação oficial;
_ Valorizar o jornalismo local;
_ Ver relações de interesse onde antes não se via;
_ Organizar informações dispersas na rede e dar sentido a
elas;
Como?
1) Coletar/raspar/scrapear dados

2) Entender/contextualizar/cruzar dados

3) Editar/apresentar (texto, imagem, som,


vídeo, infográfico…)
Algumas referências
_ Datajournalism Handbook - http://datajournalismhandbook.org/pt
_ Knight Center - Universidade do Texas - https://knightcenter.utexas.edu/
_ Abraji - http://abraji.org.br/
_ Escola de Dados - http://escoladedados.org/
_ Hackshackers - http://hackshackers.com/ - SP - http://www.meetup.
com/Hacks-Hackers-Sao-Paulo/
_ Alberto Cairo - http://www.thefunctionalart.com/
_ Marcelo Soares - http://afinaldecontas.blogfolha.uol.com.br/
_ Paul Bradshaw - http://onlinejournalismblog.com/
_ Transparência Hacker - thackday@googlegroups.com
_ LabHacker Câmara dos Deputados: http://epocanegocios.globo.
com/Inspiracao/Empresa/noticia/2014/01/como-camara-dos-deputados-
criou-um-espaco-so-para-hackers.html
Valeu!

leofoletto@gmail.com
facebook.com/leonardofoletto
@leofoletto
Jornalismo de dados: antepassados
Leonardo Foletto, 2014/1
Referências

1) Jornalismo de precisão (1960-)

2) Reportagem Assistida por Computador (1970-);


Jornalismo de precisão
Philip Meyer: “Precision Journalism: a reporter introduction
to social cientific methods” (1972)
_ “Via de ampliação do equipamento instrumental para
que o repórter convertesse em material de indagação
minuciosa os assuntos até então inacessíveis ou somente
acessíveis de maneira muito vaga”
_Curso que fez na Universidade de Harvard entre 1966 e
1967, sobre métodos empíricos de investigação social;
Jornalismo de precisão (2)
_ Métodos de pesquisa de ciências sociais – incluindo
análises estatísticas e verificação de hipóteses – à prática do
jornalismo;
_ “A primeira e fundamental ferramenta do Jornalismo de
Precisão é a imaginação e a segunda, a aprendizagem de
certas regras - tampouco demasiadas - da metodologia
científica. Só com ambas pode-se abordar uma infinidade de
projetos de pressuposto insuficiente, reduzido volume de
dados e acesso aberto a qualquer curioso” (MEYER, 1973)
Jornalismo de precisão (3)
_ Detroit Free Press, 1967
Meyer comandou uma pesquisa feita que derrubou as duas
teorias até então aceitas sobre os atos de vandalismo na cidade.
Ao contrário do que se pensava, as depredações não partiam
predominantemente de pessoas com baixo nível de instrução e
de negros oriundos do Sul. Com o cruzamento de dados, o
Detroit Free Press "descobriu que as pessoas com nível superior
haviam participado dos distúrbios em percentagens similares às
que não tinham chegado a completar o 2º grau".
Jornalismo de precisão (4)
Como?
Philip Meyer:“No verão de 1967, a Knight Newspapers enviou-me para ajudar
o Detroit Free Press e sua equipe sobrecarregada a cobrir um distúrbio por
questões raciais na cidade. (...) Contratamos consultores da Universidade de
Michigan e organizamos uma pesquisa com uma amostra das residências na
área dos conflitos, usando entrevistas pessoais. As questões eram designadas
a testar aquelas hipóteses. Descobrimos que os residentes que eram criados
no norte eram mais suscetíveis a participar dos tumultos do que seus vizinhos
do sul.”

Fonte: http://www.observatoriodaimprensa.com.br/news/view/_jornalismo_literario_e_jornalismo_de_precisao
Reportagem Assistida por
Computador
_ Contexto: aproximação entre jornalismo e ciência, proposto
pelo jornalismo de precisão, e crescente número de
computadores e bases de dados;
_ Conjunto de técnicas de apuração jornalística que usam a
informática para encontrar informações;
_ Busca avançada, planilhas, banco de dados (relacionaos,
digitais ou não);
_ Referência no Brasil: José Roberto Toledo (http://toledol.com.br/)
Exemplo de RAC
_ “Os homems de bens da Alerj”, O Globo, 2003 (Angelina
Nunes).
Com base em pIanilhas de Excel, com dados e cifras, os
jornalistas acompanharam como enriqueceram os deputados
estaduais fluminenses no período de duas legislaturas (1996 a
2001);
http://memoria.oglobo.globo.com/jornalismo/premios-
jornalisticos/os-homens-de-bens-da-alerj-8876006
Jornalismo de dados - panoramas
mundial e brasileiro

Leonardo Foletto - 2014/1


Anos 2000 pra cá
“Principal estratégia de grande parte da imprensa para a
recuperação da audiência, que vem caindo há décadas”
(Marcelo Träsel, Datajournalism Handbook)

_ jornalistas + designers + programadores (hackers)


_ núcleos especiais (mídia tradicional), grupos
independentes (ativistas, jornalistas freelas, hackers)
Mundo: mídias tradicionais
_ Los Angeles Times (http://datadesk.latimes.com/)
_ The Guardian (http://www.guardian.co.uk/data)
_ La Nación (http://blogs.lanacion.com.ar/data/)
_ Zeit online (http://blog.zeit.de/open-data/ - http://opendata.zeit.de/pisa-
wohlstands-vergleich/visualisierung.php#/en/BRA-OECD)
_ El País (http://blogs.elpais.com/periodismo-con-futuro/periodismo-de-
datos/)
_ BBC (http://www.bbc.co.uk/news/uk-15975720)

Lista internacional: http://ow.ly/tlRZM


Brasil: contexto
_ Constituição Federal, Artigo V, Inciso XXXIII: “Todos têm direito a
receber dos órgãos públicos informações de seu interesse particular, ou de
interesse coletivo ou geral, que serão prestadas no prazo da lei, sob pena de
responsabilidade, ressalvadas aquelas cujo sigilo seja imprescindível à
segurança da sociedade e do Estado;
_ Lei de Acesso a Informação (http://www.acessoainformacao.
gov.br/)
_ Transparência:
Brasil: http://www.portaltransparencia.gov.br/
SC: http://sc.transparencia.gov.br/
Brasil: mídias tradicionais
_ Estadão Dados (http://blog.estadaodados.com/)
_ZH Dados (http://zerohora.clicrbs.com.br/rs/pagina/zh-dados.
html)
Blog Livre Acesso (http://wp.clicrbs.com.br/livreacesso/)
_ Folha SP Dados (http://folhaspdados.blogfolha.uol.com.br/)
_ Gazeta do Povo (http://www.gazetadopovo.com.br/dados/)
Brasil: grupos independentes
_ Ecolab: http://ecolab.oeco.org.br/pt
InfoAmazônia: http://infoamazonia.org/pt/
_ Agência Pública: http://www.apublica.org/
Os Caminhos da Corrupção: http://www.apublica.
org/2012/07/infografico-interativo-os-caminhos-da-corrupcao/
_ Repórter Brasil: reporterbrasil.org.br
Moendo Gente: http://moendogente.org.br/
_ Transparência Hacker: http://thacker.com.br/
Monitor Legislativo: http://olhonasemendas.com.br/
Cultura hacker
_ Quatro camadas da chamada cultura da Internet – os
cientistas (a tecnomeritocrática), a comunitária virtual, a
empresarial e os hackers (CASTELLS, 2003, p.34-35);
_ Principais características: a subscrição a ideais de liberdade
de acesso à informação, que levam a uma ética de
compartilhamento, e a apropriação de tecnologias, no sentido de
compreender seu funcionamento e desenvolver a capacidade de
modificá-las, para benefício próprio ou coletivo.

_ Hackathons/hackdays (maratonas de
Hackers + jornalistas
_ No jornalismo de dados há mais clara a necessidade de troca
entre jornalistas e hackers;
_ São ambientes propícios ao compartilhamento de valores
éticos da cultura hacker, essencialmente a questão da
transparência radical das fontes de acesso a informação e o
trabalho colaborativo;
_ É mais fácil tornar o jornalista um hacker ou um hacker
jornalista?
Hackathons/hackdays
_Hackatão: http://blogs.estadao.com.br/hackatao/2012/06/24/o-fim-da-maratona/
_ Hackathon Câmara dos Deputados: http://globotv.globo.com/rbs-sc/bom-
dia-santa-catarina/v/congresso-hackathon-e-realizado-na-camara-de-deputados-para-
escolha-de-aplicativos/2921875/
1) Meu Congresso Nacional: http://www.meucongressonacional.com/
2) Monitora Brasil: serviço para celulares que serve para que o
eleitor acompanhe as atividades dos deputados, além de
projetos propostos e outras informações.
3) Deliberatório: http://deliberatorio.com.br/
Outro: Política Esporte Clube: http://politicaesporteclube.com/
Jornalismo de dados - coletando

Leonardo Foletto - 2014/1


Como começar?
1) Pauta (ou ideia de pauta);
2) Busca, busca, busca, busca, busca em:
_ Google e outras ferramentas de busca (avançada) (http://www.
google.com.br/advanced_search, http://www.wolframalpha.com/)
_ Bases de dados públicas
_ Fóruns, lista de emails;
_ Pedido de acesso a informação (http://www.queremossaber.org.br/)
_ Perguntar a um especialista
Busca na rede
Todo documento encontrado na Web, seja qual for sua
natureza, deve atender a 4 princípios básicos:

1) Princípio verificativo ou comprobatório


2) Princípio explicativo (relacionado positiva ou negativamente
com a hipótese)
3) Princípio editorial ou de crédito
4) Princípio da permanência
Ferramentas de busca
Diretório: é um diretório que contém uma lista de websites classificada
por temas, tal qual um catálogo. http://www.dmoz.org/
Buscadores: Indexam (incorporam) em seu sistema as novas inclusões
das milhões de páginas que circulam pela Web. O resultado remete à
página exata, dentro do site, que contém os parâmetros solicitados na
janela de busca. http://www.cuil.pt/
Metabuscadores: são buscadores avançados, que permitem a
recuperação de sites a partir de buscas em paralelo, cruzando a
informação trazida por buscadores separados. http://www.metacrawler.
com
Buscas eficientes
_ Formatos: PDF não (mas se você quiser, "filetype:pdf")
É possível buscar, por exemplo, apenas planilhas (inserindo
"filetype:XLS ou filetype:CSV"), bancos de dados ("filetype:MDB,
filetype:SQL, filetype:DB"); planilhas pra download (inurl:
downloads filetype:xls)
_ Redes sociais: Hashtags ##### (agora também no Facebook)
_ Crowdsourcing: pergunte na rede o que você quer saber
http://ajudeumreporter.com.br/, https://twitter.com/ajudeumreporter
Documentos oficiais e base de dados
Sugestões:
_ Busque informações usando o mapa do site.
_ Use a pesquisa avançada do Google para vasculhar o site
internamente.
_ Guarde os documentos que pareçam importantes em pastas
temáticas.
_ Não confie nos links. Se a informação é importante, faça uma
captura de tela.
_ http://dados.gov.br/cartilha-publicacao-dados-abertos/
Armadilhas dos dados
_ PIB: é usado como o indicador número um porque os governos
precisam dele para supervisionar sua principal fonte de renda — os
impostos sobre o consumo. Quando um governo não é financiado por
essas taxas, ou quando seu orçamento não é público, não há razão
para coletar dados de PIB e pode se dar melhor perante aos eleitores
fabricando esses dados;
_ Criminalidade sempre está em ascensão;
Dados não costumam ser adulterados. Mas policiais respondem a
incentivos. Quando a performance está vinculada a uma métrica
baseada em crimes solucionados, os policiais são incentivados a
reportar ao máximo incidentes que não exigem investigação;
“Raspar” dados
"Extrair" informações (geralmente em grande quantidade) da
internet;
Scrappers são programas simples de lidar, o grande desafio e o
exercício constante é encontrar um padrão nos dados das
páginas web - algumas páginas são bem simples, outras
complexas.
https://scraperwiki.com
Outras ferramentas
_ Mozenda (http://www.mozenda.com/) um software de interface
simples que automatiza boa parte do trabalho
_ Screen Scraper (http://www.screen-scraper.com/), uma
ferramenta mais complexa, que trabalha com diversas
linguagens de programação para extrair dados da Web.
_ Google Refine (http://code.google.com/p/google-refine/) para
manipular dados confusos e transportá-los para formatos
maleáveis.
Fontes internacionais
_ Índice de portais: http://datacatalogs.org/, http://thedatahub.
org/
_ Dados “curados” sobre tudo: http://www.freebase.com/
_ Fórum de perguntas e respostas sobre diversos temas, como
consultar e obter uma fonte específica, que ferramentas de
visualização usar: http://getthedata.org/
_ ScraperWiki: https://scraperwiki.com/

_ Repositório da internet: Internet Archive: https://archive.org


Fontes de dados públicos Brasil
_ IBGE (http://www.ibge.gov.br/)
_ http://dados.gov.br/
_ Transparência Pública (http://www3.transparencia.gov.br/)
_ Transparência SC: http://sc.transparencia.gov.br/
_ Transparência no Legislativo: http://transparencia.alesc.sc.gov.
br/
Analisando exemplos (1)
Compromissos de Campanha prefeitura SP - 2012
http://folhaspdados.blogfolha.uol.com.br/2012/10/27/mapa-mostra-
compromissos-de-campanha-de-serra-e-haddad/

_ Quais dados/informações obtiveram?


_ Relacionaram com o quê?
_ De que forma apresentaram?
Respostas (1)
_ Como extraíram os dados?
Comunicados enviados à imprensa, 59 compromissos foram
registrados, sendo 35 realizados pelo candidato petista e 24 pelo
tucano;
_ Com o que foi cruzado?
Com as regiões onde os candidatos visitarem em SP e com os dois
turnos de eleição
_ Como apresentaram?
Mapa simples (Mapbox)
Analisando exemplos (2)
Os Caminhos da Corrupção
(http://www.apublica.org/2012/07/infografico-interativo-os-caminhos-da-
corrupcao/)

_ Como extraíram os dados?


_ Com o que foi cruzado?
_ Como apresentaram?
Respostas (2)
_ Como extraíram os dados?
Relatórios CGU, em especial sobre Educação, na Amazônia
(disponíveis na rede)
_ Com o que foi cruzado?
Listas de: irregularidades, cidades, tipos de irregularidades,
programas de governo,
_ Como apresentaram?
Infográfico interativo
Analisando exemplos (3)
Trem do Samba - http://super.abril.com.br/multimidia/trem-
samba-722528.shtml

_ Como extraíram os dados?


_ Com o que foi cruzado?
_ Como apresentaram?
Valeu!

leofoletto@gmail.com
facebook.com/leonardofoletto
@leofoletto

Você também pode gostar