Você está na página 1de 4

INFORMAÇÕES E TECNOLOGIA

Coloque os cientistas de
dados certos para fazer
as perguntas “erradas”
por Josh Sullivan
19 DE MARÇO DE 2014

Não seria ótimo pegar o próximo Bernie Madoff bem antes que seu esquema de pirâmide financeira
desmoronasse diante de nós?

Essa pergunta não é retórica. Os avanços no campo da ciência de dados nos trouxeram a um ponto em
que é razoável esperar que um esquema contínuo de fraude possa ser identificado nas fases iniciais
por pessoas com acesso aos dados certos para fazer referências cruzadas e consultas. Agora, mais do
que nunca, empresas e até mesmo cidadãos comuns têm acesso a conjuntos de dados enormes. Eles
podem usar informações disponíveis publicamente em domínios distribuídos, como redes sociais,
projetos de software livre, estatísticas governamentais e até mesmo padrões climáticos.

Porém, os dados por si só não significam nada. É a habilidade do cientista de dados que faz a
diferença. Os melhores cientistas de dados nos permitem ver os dados em um conjunto, visualizar
relações entre pontos de dados, desenterrar informações, virar as expectativas de cabeça para baixo –
e, em última análise, resolver questões que eram insolúveis para as empresas.

Mas o que torna um cientista de dados excepcional? Quando comecei a experimentar com aquilo
que hoje chamamos de ciência de dados, eu achava que qualquer pessoa que tentasse fazer esse
trabalho precisaria ter formação clássica em método científico, estatística, matemática ou ciência
da computação, que é como eu entrei no campo. Hoje, sei que, apesar dessas habilidades serem
importantes, essa lista não é nem um pouco exclusiva. Além disso, é possível ter todas elas e ainda
assim não ser capaz de descobrir o que pode ser feito com os números.

COPYRIGHT © 2014 HARVARD BUSINESS SCHOOL PUBLISHING CORPORATION. TODOS OS DIREITOS RESERVADOS. 2
Fundamentalmente, o que diferencia um ótimo cientista de dados é ter uma intensa curiosidade –
esse é o X da questão. É possível ensinar matemática e ferramentas analíticas, mas não é possível
transmitir a tenacidade necessária para experimentar e continuar trabalhando até chegar à melhor
pergunta, que quase nunca é aquela com a qual você começou.

No entanto, se insistir em trabalhar sozinho, nem mesmo um cientista de dados extremamente


curioso conseguirá produzir as informações de maior valor. Elas vêm de equipes de alto desempenho
que combinam pessoas individualmente curiosas e naturalmente criativas, mas também colaborativas
em sua abordagem à arte e à ciência da experimentação. Uma ótima equipe de ciência de dados
é como um quarteto de jazz, em que os indivíduos estão sempre dando continuidade ao que os
outros fizeram e cada um leva a música a um lugar novo e inesperado. Na verdade, minha equipe
de fato inclui um músico – e um especialista em florestamento – além de estatísticos e cientistas
da computação. As habilidades cognitivas que permitem que mentes criativas enxerguem padrões
nas fugas de Bach ou nas taxas de crescimento de árvores contribuem de forma engenhosa para que
se vejam padrões, por exemplo, em marcadores de código genético ou de doenças para aumentar a
eficácia farmacêutica.

Além de mudar meu conceito de quem são as “pessoas certas” para a ciência de dados, também
desenvolvi um apreço pelo valor das “perguntas erradas”. A ideia de que uma equipe deve começar
com o pé esquerdo pode parecer contraintuitiva, mas nossa equipe de ciência de dados na Booz Allen
passa muito tempo fazendo as perguntas “erradas” (e experimentando com elas) a fim de chegar às
perguntas melhores que produzem soluções para os clientes.

Isso aconteceu recentemente com um grande sistema financeiro que estudamos. Nossa tarefa era
encontrar uma maneira de detectar fraudes com antecedência, o que impediria muitas delas e
economizaria dinheiro para nosso cliente. As fraudes haviam se manifestado de centenas de maneiras
diferentes. Porém, eram tantos casos de fraude e os fraudadores se moviam tão rapidamente que
não conseguíamos acompanhar os padrões necessários para monitorá-los. Trabalhando com dez
anos de dados e 400 variáveis, estávamos tentando criar um modelo que mostrasse como era o
comportamento “ruim” com o objetivo de detectá-lo e barrar futuros criminosos.

Assim, mudamos a natureza da pergunta que estávamos fazendo. Em vez de: “Como criar um modelo
do que é ruim?”, nós nos perguntamos: “E se criássemos um modelo do que é bom?”. Descobrimos
que criar um modelo que mostra como é uma boa pessoa que age em conformidade com as leis é
uma forma muito mais eficaz de detectar e evitar fraudes. Na prática, isso significou ir além das
transações individuais para se concentrar em padrões de comportamento de pessoas que são, por
exemplo, muito constantes em termos de onde moram e da renda que têm. À luz dos padrões de
“bom” comportamento, fica mais fácil detectar anomalias interessantes e agir de acordo com elas.
O comportamento “ruim” e as inconstâncias associadas a ele (como um esquema Ponzi no estilo
de Madoff) destacam-se fortemente. Começando com essa pergunta errada, acabamos conseguindo
identificar mais de US$ 1 bilhão em fraudes enormes e generalizadas para nosso cliente.

COPYRIGHT © 2014 HARVARD BUSINESS SCHOOL PUBLISHING CORPORATION. TODOS OS DIREITOS RESERVADOS. 3
À medida que se baseiam em dados para resolver desafios cada vez mais complexos, as empresas
passarão a depender mais da curiosidade, da tenacidade e da recusa de aceitar o status quo por parte
dos seus cientistas de dados. Para aprender a fazer (e responder) as perguntas mais importantes
usando a ciência de dados, uma empresa precisa estar disposta a iniciar experimentos com dados,
fazendo as perguntas “erradas” repetidas vezes e aprendendo em iterações rápidas. Quando você
começar a perguntar por que suas análises de dados estão produzindo determinados resultados,
revelará a questão mais relevante: “Como isso me ajuda a chegar ao problema que desejo resolver?”.

A verdadeira natureza da ciência de dados consiste em fazer uma série de perguntas – e em aceitar
falhas analíticas, que acabam levando às perguntas mais importantes, às informações melhores e
às decisões de maior valor. Então, por que não fazer uma pergunta como: “Como podemos pegar o
próximo Bernie Madoff antes que seu esquema de pirâmide financeira desmorone diante de nós?”.
Talvez não seja exatamente a pergunta certa, mas é exatamente o tipo de desafio que leva um ótimo
cientista de dados a refletir.

O Dr. Josh Sullivan é vice-presidente da Booz Allen Hamilton no Grupo de Inovações Estratégicas da empresa, liderando as
áreas de ciência de dados e análise de dados em nuvem. Ele é líder técnico sênior em tecnologias emergentes, ciência de
dados e desenvolvimento de software complexo.

COPYRIGHT © 2014 HARVARD BUSINESS SCHOOL PUBLISHING CORPORATION. TODOS OS DIREITOS RESERVADOS. 4
Os direitos autorais dos artigos digitais da Harvard Business Review pertencem à Harvard
Business School Publication Corp. O conteúdo desses artigos não pode ser copiado, enviado
por e-mail a vários sites nem publicado em uma lista de discussão sem a permissão expressa e
por escrito do detentor dos direitos autorais. Entretanto, os usuários podem imprimir artigos,
baixá-los ou enviá-los por e-mail para uso individual.

Você também pode gostar