Você está na página 1de 23

Big data: uma nova proposta didtica no ensino de cincias atravs

de ferramentas pblicas e gratuitas

Big data: a new didactic proposal in science education making use


of free public tools

VERSO PRELIMINAR - NO DISTRIBUIR!


Resumo
Vivemos num universo digital que, em 2010, atravessou a marca de
um zettabyte de dados. Essa enorme quantidade de dados, processada em
computadores extremamente velozes, com tcnicas otimizadas, permite
encontrar insights em novos e emergentes tipos de dados e contedos, para
responder a perguntas que foram anteriormente consideradas fora de nosso
alcance. Essa a ideia de Big Data. No entanto, embora muito se fale com
relao s empresas e seus esforos para aumentar suas vendas, Big Data
realmente pode, em certa medida, transformar a maneira como vivemos.
Neste trabalho, apresentamos uma proposta didtica para a utilizao de Big
Data no Ensino de Cincias, atravs de ferramentas pblicas e gratuitas.
Palavras-chaves: big data, ensino de cincias, proposta didtica
Abstract
We live in a digital world that, in 2010, crossed the mark of a zettabyte data.
This huge amount of data processed on computers extremely fast with
optimized techniques, allows us to find insights in new and emerging types of
data and content, to answer questions that were previously considered beyond
our reach. This is the idea of Big Data. However, although much is spoken
about the companies and their efforts to increase their sales, Big Data actually
can, to some extent, "transform how we live." In this paper, we present a
didactic proposal for the use of Big Data in Science Teaching, making use of
public free tools.
Keywords: big data, science education, didactic proposal
Introduo
O universo digital est repleto de postagens e curtidas nas redes sociais,
imagens e vdeos de telefones celulares enviados para o YouTube, filmes
digitais de alta definio, movimentaes bancrias, imagens de cmaras de
segurana, colises subatmicas registradas pelo LHC do CERN, chamadas
telefnicas, mensagens SMS, etc. (GANTZ; REINSEL, 2012).
Em 2010, esse universo digital atravessou a marca de 1 zettabyte (um
milho de petabytes ou aproximadamente 1021) de dados (ZIKOPOULOS et al.,
2013, p. 9), devendo dobrar a cada dois anos (GANTZ; REINSEL, 2012).
Vivemos na onda do Big Data.
2

Para facilitar a visualizao de nmeros to grandes, se cada byte


ocupasse um copo, os vrios zettabytes do universo digital de hoje
necessitariam de um volume prximo ao bilho de quilmetros cbicos
ocupados por todos os cinco oceanos terrestres.
Embora o termo Big Data tenha possivelmente surgido numa conversa
hora do almoo no Vale do Silcio nos anos 90, segundo Diebold (2012), desde
2008 fala-se cada vez mais sobre Big Data (Figura 1) ela tornou-se uma
buzzword.

Figura 1 - Evoluo da produo de artigos sobre Big Data no Social Sciences Citation
Index
Fonte: (ZHU, 2013)

Dentre as muitas definies de Big Data encontradas, preferimos a


seguinte, por a julgarmos mais esclarecedora para os propsitos deste
trabalho:
Big data mais do que simplesmente uma questo de
tamanho, uma oportunidade de encontrar insights em
novos e emergentes tipos de dados e contedos, para
tornar seu negcio mais gil e para responder a
perguntas que foram anteriormente consideradas fora de
seu alcance (IBM, s.d.).

O ttulo do livro de Mayer-Schnberger e Cukier (2013), Big Data: Uma


Revoluo que vai transformar a maneira como vivemos, trabalhamos e
3

pensamos, d uma boa ideia do tamanho da proposta do Big Data e, tambm,


da hype que o acompanha.
Costuma-se caracterizar o Big Data por 5 Vs. Os trs primeiros foram
definidos por Laney (2001):
Volume: como j dito, caminhamos para os zettabytes;
Velocidade: se o processamento no for muito rpido, o sistema ser
inundado pelo fluxo de dados e, pior, os dados estaro desatualizados
antes de serem processados;
Variedade: aqui reside um dos maiores desafios, j que os dados so,
em geral, desestruturados, porque vm de inmeras fontes, tais como
emails, postagens em blogs e redes sociais, documentos eletrnicos em
diferentes formatos, mensagens SMS, sensores, etiquetas RFID,
arquivos de vdeo com codificaes diversas e muitas outras;

Hurwitz et al. (2013, p. 16) acrescentam um quarto V, dizendo que a


simplificao acima pode ser enganosa e excessivamente simplista e que
ainda mais importante o quarto V:
Veracidade: necessrio que os dados sejam autnticos e faam
sentido;

No entanto, vrios analistas (p.ex., (BEULKE, 2011)) argumentam que


nada disso ter utilidade sem o quinto V:
Valor: fundamental que os dados acrescentem valor ao seu
utilizador, para que o enorme investimento necessrio para o Big
Data no seja um investimento intil.

Na verdade, h uma srie de mitos sobre Big Data (ver, por exemplo,
(CRAWFORD, 2013)), tais como:
A falsa 'garantia' de que os dados sero anonimizados antes de
serem processados, j que j foi demonstrado que geralmente
possvel desanonimizar os dados ao cruz-los com outras bases de
dados;
4

A falsa promessa de que Big Data vai mudar nossas vidas para
melhor, sabendo que muito do que se faz com ele aperfeioar os
mecanismos de nossa incitao ao consumo;
A falsa ideia de que Big Data o futuro da Cincia, o quinto
paradigma, de que "com dados suficientes, os nmeros falam por si",
descartando a necessidade de modelos, teorias, anlise crtica, etc.
Na verdade, os nmeros, poucos ou muitos, nunca falam; a mente
humana que lhes d significado.

Estes e outros mitos sobre o Big Data tornam-se ainda mais relevantes
nestes dias em que as recentes denncias de vigilncia e a interceptao do
trfego em telefones, emails e redes sociais pela Agncia de Segurana
Nacional (NSA) dos EUA e seu programa PRISM inflamam as preocupaes
com a privacidade no Big Data (GALLAGHER, 2013). No entanto, como se
mostrar a seguir, nossa proposta pedaggica, mais do que meramente
capacitar estudantes em infraestruturas computacionais ou trein-los anlise
preditiva, visa propiciar aos nossos estudantes, futuros profissionais de
Cincias, especialmente de Fsica, uma preparao tanto em termos tcnicos
como em ticos, para os desafios cientficos propostos pelo Big Data ao mundo
real no qual vo exercer suas profisses.

Aplicaes prticas do Big Data


Embora muito se fale de Big Data com relao s empresas e seus
esforos para melhor conhecer seus clientes e hbitos de consumo e, com
isso, aumentar suas vendas, o Big Data realmente pode, em certa medida,
transformar a maneira como vivemos.
Como se sabe, o Google no apenas realiza alegadas cem bilhes de
pesquisas mensais de termos na Web (Sullivan, 2012), como as armazena
todas, identificadas por hora e local de origem em seus gigantescos data
centers ao redor do mundo. Essas informaes so utilizadas pelos programas
de publicidade geridos pelo Google, tais como DoubleClick, Google Analytics,
5

Google AdWords e Google AdSense, de onde provm mais de 90% da renda


da empresa Google (GOOGLE INC., 2013).
Desde maio de 2006, a Google disponibiliza ao pblico a ferramenta de
anlise Google Trends1. A partir daquelas informaes armazenadas, ela
calcula um ndice em tempo real, dirio e semanal do volume de consultas dos
usurios do Google sobre qualquer termo de busca. Pode-se pesquisar a
evoluo ao longo do tempo das buscas no Google de termos especficos,
comparar a evoluo de at cinco termos simultaneamente, ou, simplesmente,
descobrir quais so os termos mais pesquisados numa certa regio do mundo
e num certo intervalo de tempo. Por exemplo, na Figura 2 mostram-se os
termos mais pesquisados no Google no Brasil na primeira semana de maio de
2013.

Figura 2 - Termos mais pesquisados no Google no Brasil na primeira semana de maio de


2013
Fonte: Autor

Dentre os milhares de trabalhos cientficos realizados utilizando o


Google Trends, em vrias reas do conhecimento, incluindo Sade Pblica,
Medicina, Economia, Educao, Poltica, dentre outras, um dos mais famosos
foi o de Ginsberg et al. (2009), publicado na prestigiosa revista Nature, em que

1
http://www.google.com/trends/
6

esses autores utilizaram-no para rastrear afeces semelhantes gripe na


populao dos EUA (Figura 3). Esses pesquisadores concluram que, em reas
do mundo em que haja uma grande populao de utilizadores do Google,
pode-se observar uma alta correlao entre a busca de termos relacionados,
tais como gripe, tosse, e outros, e surtos de gripe, com um atraso de apenas
um dia, em vez dos relatrios oficiais das autoridades de sade que podem ter
atraso de semanas, sendo, portanto, de grande interesse para a medicina
preventiva e para a sade pblica.
Alm disso, os dados oficiais da gripe no so publicados pelos CDC
entre temporadas (linhas vermelhas interrompidas na Figura 3), enquanto que
as estimativas geradas pelas buscas podem, por vezes, ser usadas para
preencher as lacunas (linhas pretas) (MOHEBBI et al., 2011). Com isso, os
dados provindos das buscas podem "prever o presente", j que esto
disponveis enquanto a atividade foco acontece (MOHEBBI et al., 2011),
permitindo, por exemplo, que as autoridades sanitrias intervenham logo no
comeo de uma epidemia.

Figura 3 - Comparao de estimativas (em preto) com porcentagens de afeces


semelhantes gripe (ILI) reportadas pelos Centros de Controle e Preveno de Doenas
(vermelho)
Fonte: (GINSBERG et al., 2009)

Naturalmente, h que ter conscincia de que as causas subjacentes aos


comportamentos de busca podem no ser conhecidas e que os usurios do
Google podem no estar experimentando eles mesmos os sintomas de
doenas semelhantes gripe. Da mesma forma, os utilizadores do Google no
representam uma amostra aleatria da populao; apesar de mais de trs
7

quartos dos adultos dos EUA usarem a Internet, vrios subgrupos esto sub-
representadas (MOHEBBI et al., 2011).
De fato, em 2013 o Google previu um surto de gripe com quase o dobro
da intensidade reportada pelas autoridades norte-americanas. Vrios
pesquisadores sugerem que uma ampla cobertura da mdia sobre a severa
temporada de gripe, incluindo uma declarao de emergncia de sade pblica
pelo estado de Nova York, teria provocado um grande aumento nas pesquisas
relacionadas gripe por pessoas que no estavam doentes e, com isso,
causado um processo de realimentao nas previses do Google (BUTLER,
2013).
De qualquer forma, tendncias mundiais atualizadas da gripe esto
disponveis online numa pgina especialmente criada, chamada Google Flu
Trends2 (tendncias da gripe).
Em 2012, o Frum Econmico Mundial de Davos publicou seu relatrio
Big Data, Big Impact: New Possibilities for International Development, (WORLD
ECONOMIC FORUM, 2012). Nele, argumenta-se que os dados provenientes
de telefones celulares tem interesse especial, porque, para muitas pessoas de
baixa renda, esta a sua nica forma de tecnologia interativa e, ao mesmo
tempo, ela identifica as necessidades e comportamentos dos usurios
individuais, em vez de simplesmente sobre a populao como um todo. Esse
documento cita uma pesquisa, segundo a qual, conversas relacionadas com a
alimentao no Twitter no s mostraram correlaes muito fortes com a
inflao dos preos dos alimentos, como puderam indicar onde e como as
pessoas j estavam mudando seu comportamento em funo disso.

Cientistas de dados
Segundo Mattmann (2013), para resolver os desafios do Big Data,
necessria uma nova raa denominada cientistas de dados (MATTMANN,
2013). Mas, como sempre, sero precisos educadores especializados para
form-los, os chamados educational data scientists (Buckingham Shum et al.,
2013).

2
http://www.google.org/flutrends/
8

No final de 2008, o Computing Community Consortium, uma colaborao


da National Science Foundation dos EUA e um grupo de pesquisadores lderes
de cincia da computao do governo, acadmicos e corporativos (LOHR,
2012) publicou um influente relatrio sobre Big Data (BRYANT et al., 2008).
Nesse relatrio, os autores fazem uma srie detalhada de recomendaes
estratgicas ao governo dos EUA, envolvendo recursos da ordem de centenas
de milhes de dlares, envolvendo aumento da capacidade da infraestrutura de
computao distribuda e de comunicao de dados. No entanto, a questo da
formao de pessoal apenas mencionada, recomendando, genericamente,
proporcionar oportunidades de financiamento para mais estudantes e
pesquisadores em computao de Big Data (BRYANT et al., 2008).
Para Eynon (2013), no campo da educao, Big Data ainda um
assunto relativamente de nicho, mas est claramente comeando a crescer. No
entanto, Eynon (2013) alerta que, em tempos de austeridade, os discursos
comerciais tornam-se mais significativos em nossos debates sobre educao,
demonstrando uma nfase maior em processos de administrao escolar. Ou,
como expressa Eynon (2013), Learning analytics apresentada como uma
forma de correo tcnica para a pesquisa e a prtica da educao, em vez
de um foco sobre o uso dessas mesmas ferramentas para capacitar, apoiar e
facilitar a prtica da pesquisa crtica. Segundo Long e Siemens (2011),
corremos o risco de um retorno ao behaviorismo como uma teoria de
aprendizagem se limitarmos nossa anlise aos dados comportamentais dos
estudantes.
Mattmann (2013) afirma que novos cursos interdisciplinares sero
necessrios. Segundo ele, mais universidades deveriam seguir o exemplo das
Universidade da Califrnia, Berkeley e de Stanford que criaram cursos
introdutrios para os cientistas da computao sobre tcnicas de Big Data.
Segundo esse autor, os cientistas naturais, tambm, devem se familiarizar com
as questes de computao e de formato dos dados.
Segundo Kate Mueller (DUMBILL et al., 2013), dizer que s o pessoal da
cincia da computao se tornam bons especialistas de Big Data ou bons
analistas de dados um erro, em termos de pessoas que veem a estrutura
9

subjacente e resolvem problemas, mesmo se eles no tm realmente


capacidades tcnicas de alto nvel.

Ensino de Cincias
Entusiastas do Big Data falam no fim da teoria, que o Mtodo
Cientfico est obsoleto (ANDERSON, 2008), que Big Data um novo
paradigma de pesquisa, superando o Qualitativo, o Emprico, o Normativo e a
Simulao (Figura 4),
Como lembra Schwartsman (2013), a dificuldade de obter dados sempre
foi um obstculo para a cincia. Foi para contorn-la que desenvolvemos
conceitos como amostragem e as ferramentas estatsticas para interpret-los.
Mas hoje, o Big Data, em vez das amostragens, pretende trabalhar com toda a
populao.
Como diz Shelly Farnham (DUMBILL et al., 2013), em vez de pensar
como um cientista social, estudando algumas pessoas no laboratrio, est-se
falando agora, na verdade, em analisar os padres de toda uma sociedade, o
que, naturalmente, afeta o tipo de questes ou problemas que se pode
resolver.

Figura 4 - Big Data como um novo paradigma.


Fonte: (ZHU, 2013)
10

"O corao da cincia a medio", diz Erik Brynjolfsson, diretor do


Centro para Negcios Digitais da Sloan School of Management do MIT
"Estamos vendo uma revoluo na medio, e ela vai revolucionar a economia
organizacional e economia pessoal" (apud LOHR, 2013).
Segundo Anderson (2008), o Google conquistou o mundo da publicidade
com nada mais do que matemtica aplicada. Seu grande trunfo consiste em
descobrir quais as 'melhores' pginas para cada determinado assunto; e faz
bilhes de dlares com seus acertos. No entanto, a mquina por trs dessas
pesquisas no tem recursos de anlise semntica, isto , no faz a menor ideia
do significado do texto da pgina, e tambm no faz anlise causal de por que
seus utilizadores preferem uma pgina a outra. Usando uma estatstica bsica,
o Google simplesmente posiciona as pginas mais visitadas e com maior
tempo de permanncia do leitor em posies mais altas nas listas de
resultados. assim que ele tenta combinar os anncios de seus clientes com o
contedo da pgina, sem qualquer conhecimento real sobre eles (Anderson,
2008).
Tendemos a concordar com Lin (2011), especialista em Big Data, que,
com esses grandes volumes de dados de que dispomos hoje, estamos
(re)entrando na era de ouro do empirismo. De fato, Galileu foi inovador
justamente por se concentrar nos novos fenmenos observados, os quais s
foram ser explicados teoricamente por cientistas posteriores, incluindo Newton.
Mais do que familiarizar com as questes de computao e de formato
dos dados (MATTMANN, 2013), acreditamos que os estudantes, futuros
profissionais de Cincias, devem tambm ser familiarizados com os desafios
cientficos propostos pelo Big Data.
Certamente, anlise preditiva no um assunto novo. No entanto, a
capacidade de aplicar esta prtica para grandes conjuntos de dados, sejam
estruturados ou no-estruturados, um salto evolutivo para o mundo da
anlise de dados.
Segundo Higginbotham (2011), para que Big Data realmente se torne
uma fora de mudana no mundo dos negcios, as empresas tero que
11

desenvolver ferramentas para o homem comum - ou pelo menos para o


gerente de nvel mdio. Muito semelhantemente banda larga, computadores,
eletricidade e outras grandes mudanas na produtividade, Big Data ter que
chegar s massas para realmente mudar o mundo.
Acreditamos, como (SEARLS, 2013), que, tal como aconteceu com os
PCs, a Internet e a comunicao mvel, ns, como indivduos, seremos
capazes de fazer mais com nossos prprios dados do que as grandes
empresas, sem necessidade de aprender Hadoop1, MapReduce2 e outras
tantas ferramentas do Big Data, to logo nos sejam disponibilizados meios
acessveis para tal.
Um exemplo dessas ferramentas o BigSheets3 da IBM.
BigSheets funciona como uma grande planilha (Figura 5) e pode ser
usado para coletar e analisar petabytes de dados no estruturados. Como
trabalha num paradigma familiar, fcil para as pessoas usarem-no (KIM,
2011), sem a necessidade de conhecimento de linguagens de programao
(PETRAZICKIS et al., 2012).

3
http://www-01.ibm.com/software/ebusiness/jstart/bigsheets/
12

Figura 5 - Ferramenta BigSheets da IBM.


Fonte: (PETRAZICKIS et al., 2012).

Esto surgindo, tambm, outras ferramentas, que tentam canalizar


grandes quantidades de dados em uma compreenso mais humana, tais como
Tableau4, Karmasphere5, Revolution Analytics6 e HDInsight7.
Stanton (2012, p. 6) prope utilizar o programa de anlise de dados de
cdigo aberto conhecido como R8 e sua interface grfica R-Studio9 para
trabalhar com exemplos de dados reais para ilustrar os desafios do Big Data e
algumas das tcnicas utilizadas para enfrentar esses desafios.
Vale notar, todavia, que, embora mais acessveis para o utilizador, nem
todas essas ferramentas so gratuitas, ainda que de custo razoavelmente
baixo.

4
http://www.tableausoftware.com/
5
http://karmasphere.com/what-we-do
6
http://www.revolutionanalytics.com/
7
http://www.windowsazure.com/pt-br/home/features/hdinsight/
8
http://cran.r-project.org/
9
http://www.rstudio.com/
13

Acreditamos que um exemplo dessa classe de ferramentas gratuitas o


Microsoft GeoFlow10. Trata-se de um plug-in para o software MS Excel 2013
que permite traar dados geogrficos e temporais visualmente, analisar os
dados em 3D, seja em formato de colunas, grficos ou falsa cor semelhante a
grficos trmicos, superpor essa visualizao a mapas do Bing e at criar
passeios interativos compartilhveis. Trata-se de um mtodo poderoso,
permitindo descobertas que dificilmente poderiam ser feitas a partir de tabelas
e grficos 2D tradicionais. Apesar do MS GeoFlow ser capaz de processar 1
milho de linhas de tabelas para gerar o mapa em 3D em pouco tempo, ele
bastante acessvel j que pode ser baixado gratuitamente e executa bem,
mesmo num computador com processador de 1 GHz e 1GB de memria RAM,
sem placa de vdeo dedicada.

Figura 6 - Exemplo de grfico trmico produzido pelo MS GeoFlow


Fonte: (Bing, 2013)

Outra ferramenta interessante o Google Correlate11, um projeto


experimental do extinto Google Labs. Ele disponibiliza uma metodologia de
dados semelhante ao Google Flu Trends, discutido acima, mas em sentido
inverso, com um desempenho comparvel e em apenas uma frao do tempo
utilizado para a construo o modelo Flu Trends original (MOHEBBI et al.,
2011). Ao contrrio do Google Trends, no Google Correlate, introduz-se uma
srie de dados temporais ou regionais e se obtm uma lista das consultas no
10
http://office.microsoft.com/en-us/download-geoflow-for-excel-FX104036784.aspx
11
http://www.google.com/trends/correlate
14

Google cujas frequncias seguem padres que melhor se correlacionam com


os dados, segundo o coeficiente de determinao R2 (MOHEBBI et al., 2011).
Mohebbi et al. (2011) alertam que Google Correlate requer indicadores com
padres espaciais e temporais nicos: indicadores com pouca variao ou com
variao muito regular so improvveis de fazerem surgir resultados
significativos. Por outro lado indicadores com variao nica podem, ainda
assim, no fornecer resultados devido falta de comportamentos de busca de
informaes para esse indicador.
Para conhecer melhor esta ferramenta e seu potencial para o Ensino de
Cincias, testamo-la com a variao semanal da atividade solar, medida pela
variao do nmero de manchas solares3 de 5 jan. 2003 a 31 mar. 2013.
Observa-se, da Figura 7, uma boa correlao para vrios termos, sendo
que o que melhor correlacionou (R2=0, 7523) foi 'wireless hotspot', que significa
locais em que a tecnologia wi-fi est disponvel. Inicialmente pode-se no ver
relao causal entre as buscas por esses locais no Google e as variaes do
nmero de manchas solares ou com a atividade solar. No entanto, este um
momento frutfero de aprendizado para o estudante de Cincias: observado um
fenmeno novo - a correlao -, buscar uma explicao causal para ele. Sabe-
se que a atividade solar tem vrios efeitos sobre nossa vida diria, dentre os
quais variaes nas condies de radiocomunicao, distrbios e tempestades
geomagnticas, mudanas nas condies climticas e auroras polares
(Vitinskii, 1965). Desta forma, um mecanismo causal possvel relacionando
buscas por hotspots de wi-fi e as variaes da atividade solar seria o de que
mximos nessa atividade prejudicam o alcance dos hotspots e, por isso,
usurios acostumados a se utilizarem de determinados hotspots se veriam
obrigados a procurar novos hotspots para se conectarem.
15

Figura 7 - Termos de busca no Google com frequncias correlacionadas positivamente


variao semanal do nmero de manchas solares de 5 jan. 2003 a 31 mar. 2013.
Fonte: Autor.

No grfico produzido, pelo Google Trends, para o termo wireless


hotspot (Figura 8), essa correlao fica razoavelmente aparente.
Vale sempre a pena lembrar o alerta dos estatsticos correlao no
implica em causao(FIELD, 2003, p. 10), que significa que estabelecer uma
correlao no implica estabelecer uma relao causal, at porque no
sabemos o que causou o qu (PESSOA JR., 2006). Kant considerava mesmo
que a causalidade seria apenas uma categoria do entendimento humano, ou
seja, uma maneira necessria pela qual organizamos a experincia perceptiva,
mas sem existncia real (PESSOA JR., 2006). No entanto, Tufte considera que
"correlao no causalidade, mas com certeza uma pista" (TUFTE, 2006,
p. 5). de acordo com esta viso de Tufte que acreditamos haver um potencial
nestas ferramentas de big data para encontrar correlaes inesperadas, e at
inusitadas, que podero, no entanto, servir de pistas para fenmenos
interessantes, do ponto de vista cientfico.
16

Figura 8 - Comparao entre a frequncia de pesquisa do termo wireless hotspot no


Google e a variao semanal do nmero de manchas solares de 5 jan. 2003 a 31 mar.
2013.
Fonte: Autor.

Naturalmente, para confirmar ou no a hiptese aventada acima


para a relao entre as variaes no nmero de manchas solares com
as da frequncia de busca no Google do termo 'wireless hotspot', seria
necessrio que os estudantes aprofundassem suas pesquisas em vrias outras
fontes, o que seria extremamente produtivo em termos de aprendizado de
Cincias, especialmente em compreenso das noes de fenmeno,
observao, medida, leis fsicas, teoria, dentre outras, mas ultrapassa o mbito
deste trabalho.
Vrias outras experincias foram realizadas com o Google Trends, mas,
por falta de espao, nos restringiremos a este exemplo.
Concordamos com Kim (2011) em que o que isto mostra que, com o
surgimento de grandes volumes de dados, tambm estamos vendo o
surgimento de ferramentas muito poderosas, mas simples, que podem
democratizar a anlise de dados. Isso leva Dumbill et al. (2013) a se
perguntarem como pode uma instituio realmente preparar seus
17

alunos em um ambiente como este, onde todas as ferramentas esto


mudando to rapidamente?
A School of Information Studies (iSchool), na Universidade de Siracusa
(EUA), mantm uma ps-graduao (Certificate of Advanced Study) em cincia
de dados (data science). Segundo Kate Mueller (DUMBILL et al., 2013), o
currculo l se concentra em ensinar um tipo de mentalidade analtica e
envolvente, de modo que se possa usar qualquer ferramenta necessria, em
vez de um currculo fechado em torno de ferramentas especficas.
Em face do exposto anteriormente, nossa proposta didtica para a
utilizao de Big Data no Ensino de Cincias, fazendo uso de ferramentas
pblicas e gratuitas, tais como o Microsoft GeoFlow, o Google Trends, o
Google Correlate e outras que vierem a surgir em breve.
O principal objetivo desta proposta investigar a viabilidade do uso Big
Data no Ensino de Cincias, tendo, como mediadores, o computador e as
ferramentas pblicas e gratuitas do Big Data, tais como o Microsoft GeoFlow, o
Google Trends, o Google Correlate e outras que devem vir a surgir em breve.
Mais do que meramente em capacit-los em infraestruturas computacionais ou
trein-los anlise preditiva, o objetivo das atividades pedaggicas a serem
realizadas durante este projeto para propiciar ao nossos estudantes, futuros
profissionais de Cincias, especialmente de Fsica, uma preparao tanto em
termos tcnicos como em ticos, para os desafios cientficos propostos pelo
Big Data ao mundo real no qual vo exercer suas profisses, alm de uma
melhor compreenso, embasada na prtica do Big Data, sobre a construo do
conhecimento fsico, especialmente numa melhor compreenso das noes de
fenmeno, observao, medida, leis fsicas, teoria, causalidade, dentre outras.
No vislumbramos motivo para que a produo de dados digitais tenda a
diminuir. Com isso, ainda que a moda do Big Data seja substituda pela next
big thing, certamente a Cincia e a Economia necessitaro de algum tipo de
anlise dessas enormes massas de dados. Da nossa experincia, observamos
que produzir perguntas um desafio maior do que obter respostas a elas com
essas ferramentas do Big Data. Aqui, acreditamos, que os profissionais de
Cincias so mais necessrios.
18

Nossa proposta tem embasamento no Construcionismo de Papert, o


qual ressalta a importncia de ferramentas, mdias e contextos no
desenvolvimento humano e em como seus dilogos com artefatos promovem a
autoaprendizagem e facilitam a construo de novos conhecimentos
(ACKERMANN, 2001).
importante compreender, porm, que os micromundos de Papert no
so meros objetos de aprendizagem, a partir dos quais o aluno aprenda, mas
ambientes intelectuais cuja nfase est no processo (PAPERT, 1985, pp.
218-219). Essa foi sua controversa viso dos computadores como ferramenta
de aprendizado, em vez de instrumento de ensino (1985, pp. 1718),
antecipando, assim, a ideia de Rosa (2008) de o aluno pensar-com e aprender-
com o computador. Vale lembrar, tambm, a viso de Turkle, expressa em seu
livro Evocative objects: things we think with (TURKLE, 2007), dos
computadores como objetos evocativos, isto , coisas que pensamos com.
Inicialmente, sero discutidas, com a Coordenao do Curso de
Licenciatura em Fsica da Ulbra, possveis formas de integrar as atividades
relacionadas a este projeto no curso, seja por sua incorporao disciplina
Histria e Epistemologia da Fsica, da qual o pesquisador titular, seja atravs
de atividades complementares a serem desempenhadas pelos alunos
interessados, ou por outras quaisquer formas que forem decididas. Em todo
caso, essas atividades devero ser apoiadas por alunos de iniciao cientfica
desse curso.
Decididas as atividades e sua forma de integrao no curso, elas
devero ser realizadas, em forma piloto, durante o primeiro semestre letivo de
2014. Ser feito um registro cuidadoso das atividades realizadas e das reaes
dos alunos; ao final, ser realizada uma avaliao crtica das atividades, de
seus registros e de seu resultado para o desenvolvimento da compreenso dos
alunos participantes sobre a construo do conhecimento fsico, atravs de
mapas conceituais (NOVAK; GOWIN, 1984).
Ser, em seguida, feita uma anlise crtica dessa avaliao e dos mapas
conceituais, visando a eventual reformulao das atividades e sua
readequao para nova aplicao. Os resultados desta aplicao piloto, bem
19

como de sua anlise crtica, sero apresentados e discutidos Coordenao do


Curso, visando a readequao das atividades.
Aps os devidos aperfeioamentos, as atividades reformuladas devero
ser realizadas com uma nova turma de alunos no primeiro semestre de 2015,
agora j em escala de produo. Igualmente, sero feitos novos registros das
atividades e avaliao dos resultados, os quais sero tambm analisados e
discutidos com a Coordenao de curso.
Aps uma terceira e ltima rodada de aplicao de atividades e anlises
dos resultados, ser feito um relatrio final avaliando a proposta como um todo.
Como fruto deste projeto, esperam-se atingir os seguintes resultados:
1. Concluses sobre a viabilidade do uso Big Data no Ensino de Cincias,
tendo, como mediadores, o computador e as ferramentas pblicas e
gratuitas do Big Data;
2. Formulao de uma estratgia produtiva da utilizao de Big Data no
Ensino de Cincias, especialmente de Fsica, tendo, como mediadores,
o computador e as ferramentas pblicas e gratuitas do Big Data, visando
uma melhor compreenso, embasada na prtica do Big Data, sobre a
construo do conhecimento fsico, especialmente numa melhor
compreenso das noes de fenmeno, observao, medida, leis
fsicas, teoria, causalidade, dentre outras;
3. Formao de uma nova gerao de profissionais de cincias,
familiarizados com os desafios cientficos propostos pelo Big Data, tanto
em termos cientficos e tcnicos como em ticos;

Concluso
Acreditamos que esta a primeira proposta de utilizao de Big Data no
Ensino de Cincias no Brasil, com um vis que no meramente de uma
capacitao em infraestruturas computacionais ou de treinamento em anlise
preditiva, mas uma preparao de nossos estudantes, futuros profissionais de
Cincias, tanto em termos tcnicos como em ticos, para os desafios
cientficos propostos pelo Big Data ao mundo real no qual vo exercer suas
profisses, alm de uma melhor compreenso, embasada na prtica do Big
20

Data, sobre a construo do conhecimento fsico, especialmente numa melhor


compreenso das noes de fenmeno, observao, medida, leis fsicas,
teoria, causalidade, dentre outras.

Notas
1
Hadoop uma plataforma de software em Java de computao distribuda
voltada para clusters e processamento de grandes massas de dados.
2
MapReduce um modelo de programao para o processamento de grandes
conjuntos de dados, usado para fazer a computao distribuda em clusters
de computadores.
3
Obtidos em
ftp://ftp.ngdc.noaa.gov/STP/SOLAR_DATA/SUNSPOT_NUMBERS/INTERNA
TIONAL/daily/RIDAILY

Referncias

ACKERMANN, E. K. Piagets Constructivism, Paperts Constructionism: Whats


the difference? Future of learning group publication, v. 5, n. 3, p. 438, 2001.

ANDERSON, C. The End of Theory: The Data Deluge Makes the Scientific
Method Obsolete. Wired, n. 16.07, 23. Jun. 2008.

BEULKE, D. Big Data Impacts Data Management: The 5 Vs of Big Data [Blog
post]. 1. Nov. 2011. Disponvel em: <http://davebeulke.com/big-data-impacts-
data-management-the-five-vs-of-big-data/>. Acesso em: 7/5/2013.

BING. Geoflow for Excel: 3D Big Data Visualization Built on Bing Maps
[Blog post]. 30. Apr. 2013. Disponvel em:
<http://www.bing.com/blogs/site_blogs/b/search/archive/2013/04/11/geoflow.as
px?mkt=zh-CN>. Acesso em: 8/5/2013.

BRYANT, R. E.; KATZ, R. H.; LAZOWSKA, E. D. Big-Data Computing:


Creating revolutionary breakthroughs in commerce, science, and society.
Washington, DC: Computing Community Consortium, 2008.

BUCKINGHAM SHUM, S.; HAWKSEY, M.; BAKER, R. S. J. D. et al.


Educational data scientists. In: LAK 13 - THE THIRD INTERNATIONAL
CONFERENCE ON LEARNING ANALYTICS AND KNOWLEDGE. New York:
ACM Press, 2013. p. 278281.

BUTLER, D. When Google got flu wrong. Nature, v. 494, n. 7436, p. 155156,
2013.

CRAWFORD, K. Think Again: Big Data. Foreign Policy, 9. May. 2013.


21

DIEBOLD, F. X. A Personal Perspective on the Origin(s) and Development


of Big Data: The Phenomenon, the Term, and the Discipline, Second
Version. 1. Aug. 2012. Disponvel em:
<http://econpapers.repec.org/RePEc:pen:papers:13-003>. Acesso em:
9/5/2013.

DUMBILL, E.; LIDDY, E. D.; STANTON, J.; MUELLER, K.; FARNHAM, S.


Educating the Next Generation of Data Scientists. Big Data, v. 1, n. 1, p. 21
27, 2013.

EYNON, R. Editorial: The rise of Big Data: what does it mean for education,
technology, and media research? Learning, Media and Technology, v. 38, n.
2, p. 14, 2013.

FIELD, H. Causation in a Physical World. (M. J. Loux & D. W. Zimmerman,


Eds.) Oxford Handbook of Metaphysics. Oxford: Oxford University Press,
2003.

GALLAGHER, S. What the NSA can do with big data. Ars Technica, 11. Jun.
2013.

GANTZ, J.; REINSEL, D. The Digital Universe in 2020: Big Data, Bigger
Digital Shadows, and Biggest Growth in the Far East. Framingham, MA, 2012.

GINSBERG, J.; MOHEBBI, M. H.; PATEL, R. S. et al. Detecting influenza


epidemics using search engine query data. Nature, v. 457, n. 7232, p. 10124,
2009.

GOOGLE INC. Google Inc. Announces First Quarter 2013 Results.


Mountain View, CA: Google, 2013. Disponvel em:
<http://investor.google.com/earnings/2013/Q1_google_earnings.htm
l>. Acesso em: 8/5/2013.

HIGGINBOTHAM, S. Data for doctors: Big data meets a big business [Blog
post]. Disponvel em: <http://gigaom.com/2011/08/08/data-for-doctors-big-data-
meets-a-big-business/>. Acesso em: 15/5/2013.

HOFER, B. K.; PINTRICH, P. R. The Development of Epistemological Theories:


Beliefs About Knowledge and Knowing and Their Relation to Learning. Review
of Educational Research, v. 67, n. 1, p. 88140, 1997.

HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data for
Dummies. Hoboken, NJ: John Wiley & Sons, 2013.

IBM. What is big data? s.d. Disponvel em: <http://www-


01.ibm.com/software/data/bigdata/>. Acesso em: 10/5/2013.
22

KIM, R. IBM makes big data easy for the little guy [Blog post]. Disponvel em:
<http://gigaom.com/2011/08/26/ibm-makes-big-data-easy-for-the-little-guy/>.
Acesso em: 15/5/2013.

LANEY, D. 3-D Data Management: Controlling Data Volume, Velocity and


Variety. Stamford, CT: META Group Inc., 2001. Disponvel em: <
http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-
Controlling-Data-Volume-Velocity-and-Variety.pdf>>. Acesso em: 7/5/2013.

LINTOOL [JIMMY LIN]. rationalism vs. empiricism: with big data were (re-
)entering the golden age of empiricism: no doubt the pendulum will swing back
later. [Twitter post]. 28. Sep. 2011. Disponvel em:
<http://twitter.com/lintool/status/119144451967959040>. Acesso em: 22/4/2013.

LOHR, S. Amid the Flood, A Catchphrase Is Born. The New York Times, 12.
Aug. 2012. p. BU3.

LONG, P.; SIEMENS, G. Penetrating the Fog: Analytics in Learning and


Education. EDUCAUSE Review, v. 46, n. 5, p. 3032, 2011.

MATTMANN, C. A. Computing: A vision for data science. Nature, v. 493, n.


7433, p. 473-475, 2013.

MAYER-SCHNBERGER, V.; CUKIER, K. Big Data: A Revolution That Will


Transform How We Live, Work, and Think. London: Hodder, 2013.

MOHEBBI, M.; VANDERKAM, D.; KODYSH, J. et al. Google Correlate


Whitepaper. 2011. Disponvel em:
<http://www.google.com/trends/correlate/whitepaper.pdf>. Acesso em:
28/4/2013.

NOVAK, J. D.; GOWIN, D. B. Learning how to Learn. Cambridge, MA:


Cambridge University Press, 1984.

PAPERT, S. A. Logo: Computadores e Educao. So Paulo: Brasiliense,


1985.

PAPERT, S. A. Whats the big idea? Toward a pedagogy of idea power. IBM
Systems Journal, v. 39, n. 3.4, p. 720729, 2000.

PESSOA JR., O. F. O que uma Causa? Cadernos de Histria da Cincia, v.


2, n. 2, p. 2945, 2006.

PETRAZICKIS, L.; STEINFELD, B.; BUTUC, M. Data Discovery with BigSheets.


In: H.-A. Jacobsen; Y. (Jenny) Zou; J. Chen (Eds.); CASCON 12 Proceedings
of the 2012 Conference of the Center for Advanced Studies on Collaborative
Research, Markham, OT, November 5-7, 2012. Anais.... Riverton, NJ: IBM
Corp., 2012.
23

ROSA, M. A Construo de Identidades online por meio do Role


Playing Game: relaes com o ensino e aprendizagem de
matemtica em um curso distncia. Tese (Doutorado em Educao
Matemtica) Rio Claro, SP: Universidade Estadual Paulista, 2008.

SCHWARTSMAN, H. Big Data. Folha de So Paulo. So Paulo: Grupo


Folha, 31. mar. 2013. Disponvel em:
<http://www1.folha.uol.com.br/colunas/helioschwartsman/1254758-big-
data.shtml>. .

SEARLS, D. People will do more with Big Data than big companies can
[Blog post]. 1. May 2013. Disponvel em:
<http://blogs.law.harvard.edu/doc/2013/05/01/people-will-do-more-with-big-
data-than-big-companies-can/>. Acesso em: 7/5/2013.

STANTON, J. An Introduction to Data Science. Syracuse, NY: Syracuse


University - School of Information Studies, 2012.

SULLIVAN, D. Google: 100 Billion Searches Per Month, Search To Integrate


Gmail, Launching Enhanced Search App For iOS. 8. Aug. 2012. Disponvel em:
<http://searchengineland.com/google-search-press-129925>. Acesso em:
8/5/2013.

TUFTE, E. R. The Cognitive Style of PowerPoint: Pitching Out Corrupts


Within. Cheshire, CT: Graphics Press, 2006.

TURKLE, S. Evocative objects: things we think with. Cambridge, MA: MIT


Press, 2007.

VITINSKII, Yu. I. Solar Activity Forecasting, NASA TTF-289, NASA,


Washington, D.C., 1965.

WORLD ECONOMIC FORUM. Big Data, Big Impact: New Possibilities for
International Development. Cologny, 2012. Disponvel em:
<http://www.weforum.org/reports/big-data-big-impact-new-possibilities-
international-development>. Acesso em: 9/5/2013.

ZHU, J. Big Data for Social Science Research: Hypes, Myths, and Realities.
21. Jan. 2013. Disponvel em:
<http://com.cityu.edu.hk/COMDOC/Seminar/ppt/2013/seminarPPT-2013-01-
21.pdf>. .

ZIKOPOULOS, P. C.; DEROOS, D.; PARASURAMAN, K. et al. Harness the


Power of Big Data: The IBM Big Data Platform. New York: McGraw-Hill, 2013.