Você está na página 1de 16

INTRODUÇÃO À

CIÊNCIA DE
DADOS

Saulo Samuel Pereira Furtado


Papéis dos envolvidos
em projetos de big data
e ciência de dados
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

 Reconhecer os perfis e as responsabilidades de funções relacionadas


à ciência de dados.
 Identificar as tarefas dos papéis administrativos nos processos de
ciência de dados.
 Definir as tarefas dos papéis técnicos nos processos de ciência de
dados.

Introdução
Hoje as empresas disputam fatias de mercado em um cenário cada vez
mais competitivo, no qual toda venda interessa e cada cliente importa.
Não apenas para se diversificarem, mas também para tomarem melhores
decisões de negócio, as empresas entenderam que precisam usar os
dados a seu favor. Elas precisam coletar e entender os dados do passado,
buscar correlações e respostas que predizem o futuro e, então, agir de
forma mais garantida para a boa fluidez dos negócios.
Contudo, as empresas perceberam que podem oferecer ao cliente
produtos e serviços que também utilizem dados, melhorando a sua
experiência com maior possibilidade de retenção e fidelização. Para
tanto, é necessária uma equipe de colaboradores especializados, que
conheçam desde o processo de coleta, armazenamento e processamento
até a geração de visualizações relacionadas a esses dados, de modo que
seja possível extrair valor deles.
2 Papéis dos envolvidos em projetos de big data e ciência de dados

Neste capítulo, você vai estudar sobre os perfis profissionais envolvidos


em um projeto de ciência de dados e big data. Alguns deles são mais
voltados para o negócio da empresa e o mercado em que ela atua, já
outros são mais direcionados a construir produtos e oferecer serviços
orientados a dados e baseados em tecnologia, auxiliando na tomada de
decisão e agregando valor para o negócio e para o cliente.

1 Perfis e responsabilidades de funções


relacionadas à ciência de dados
Como destaca a Oracle (2020), a maior empresa de sistemas gerenciadores
de banco de dados do mundo, os cientistas de dados são mais eficazes traba-
lhando em equipes: eles nunca trabalham sozinhos. Essa afirmação parece
ser uma verdade absoluta para qualquer profissão em todo mercado, mas é
especialmente verdadeira quando se refere a projetos de ciência de dados e
big data. Isso se dá, em grande medida, porque esse é um assunto no qual é
possível ser profundamente técnico em vários domínios do conhecimento e, ao
mesmo tempo, ter de lidar com projetos com graus de complexidade diferentes.
Uma equipe de ciência de dados e big data com maior chance de sucesso
nos seus projetos será composta por profissionais de diferentes áreas, os quais
somam à equipe a sua expertise e contribuem para a interdisciplinaridade dos
projetos. Um projeto de ciência de dados e big data não é apenas um projeto
de tecnologia da informação (TI), mas um projeto corporativo, um projeto
de negócio em que a empresa está inserida. Ele pode ou não começar pela
TI, mas com certeza não fica apenas nela, entregando o seu valor para as áreas
de negócio interessadas no projeto.
Embora esse tópico seja recente e haja certa liberdade para que as empresas
escolham os seus profissionais, dependendo muitas vezes do seu orçamento,
naturalmente você perceberá que uma equipe de ciência de dados e big data
será composta por profissionais de negócios e de tecnologia da informação.
Nessas equipes, entre os vários domínios do conhecimento, geralmente
os profissionais se dividem em dois grandes perfis ou pilares, como você vê
na Figura 1:

 administrativos ou de negócios;
 técnicos ou de TI.
Papéis dos envolvidos em projetos de big data e ciência de dados 3

Figura 1. Os pilares de uma equipe de ciência de dados e big data.

Obviamente, cada pilar conta com profissionais diferentes e olhares dis-


tintos. Porém, você verá que ambos são igualmente importantes para o bom
andamento de um projeto de ciência de dados e big data. Vale ressaltar que há
uma margem para definir como cada profissional atuará e as responsabilidades
de cada um, mas a seguir você verá tópicos gerais do que esperar de cada
profissional desses pilares.

2 Tarefas dos papéis administrativos


nos processos de ciência de dados
Em uma equipe de ciência de dados e big data, os papéis administrativos (ou
de negócios) são aqueles mais direcionados para o negócio da empresa e o
mercado no qual ela está inserida. Esses profissionais são aqueles com visão
para produtos, serviços, riscos, oportunidades de negócio, e estão preocupados
com a atuação da empresa, os seus negócios, projetos e processos como um todo.
4 Papéis dos envolvidos em projetos de big data e ciência de dados

Usuário solicitante
O usuário solicitante é o profissional mais interessado no produto fi nal
alcançado pela equipe de ciência de dados e big data: as análises, res-
postas obtidas ou até mesmo novas funcionalidades para o sistema de
informação empresarial. Ele está na ponta, onde há perguntas importantes
a serem respondidas sobre o negócio, e necessita de melhor embasamento
para auxiliá-lo na tomada de decisão ou simplesmente zela pela melhoria
contínua da sua área e do negócio como um todo.
Como o nome indica, o usuário solicitante geralmente é quem tem de-
terminada necessidade de negócio no seu cotidiano e solicita a construção
de um projeto orientado a dados para que essa necessidade seja suprida.
A questão de para quem essa solicitação será feita vai depender do grau
de maturidade e entendimento que os próprios usuários têm sobre esse
processo na empresa e o quão forte está a presença da equipe de ciência
de dados e big data na corporação.
Em empresas nas quais os processos referentes a projetos orientados
a dados ainda não estão totalmente definidos (ou quando a equipe de
ciência de dados e big data ainda não está suficientemente madura ou não
tem uma presença tão forte na empresa), essa solicitação poderá ser feita
diretamente à equipe, e o projeto acabará se concretizando apenas com
essas duas partes. Já em empresas em que os processos envolvendo projetos
orientados a dados são bem-definidos (ou quando a equipe de ciência de
dados e big data já é madura ou tem uma presença forte na empresa), essa
solicitação em geral passa primeiramente por um analista de negócio. Esse
profissional entenderá a solicitação de modo a otimizar o projeto e poderá
acrescentar outros profissionais, a depender da solicitação feita e do seu
grau de complexidade.
Os usuários solicitantes geralmente não fazem restrições quanto às
tecnologias empregadas, visto que o seu interesse está no produto final:
se ele o atende e o quão confiável é para fundamentar as suas decisões
de negócio. Contudo, esses profissionais devem zelar pela boa descrição
e pelo detalhamento do que querem e necessitam que seja realizado, com
clareza nas suas necessidades e objetividade naquilo que precisa ou não
ser feito. Em resumo, são de sua responsabilidade:
Papéis dos envolvidos em projetos de big data e ciência de dados 5

 a descrição precisa da sua necessidade e de como inicialmente propõem


supri-las;
 o acompanhamento da realização do projeto;
 a remoção dos impedimentos quanto à usabilidade do produto final;
 a validação de uso nas principais etapas que ocorrerem no decorrer
do projeto;
 a validação de uso final e conclusão da solicitação de projeto.

Analista de negócios
O analista de negócios é o profissional que faz a ponte entre o usuário solicitante
e a equipe de ciência de dados e big data, servindo como intermediário entre
ambos. Ele em geral tem conhecimento profundo de negócios e não superficial
em TI, e faz uso dos conhecimentos de ambas áreas para remover impedimentos
e garantir que tudo o que for necessário seja produzido com a devida qualidade.
O analista de negócios está em constante processo de análise dos produtos
e serviços oferecidos pela empresa. Ele identifica novos negócios, tendências
e oportunidades, e pode repensar e relançar produtos já existentes ou pro-
por o lançamento de novos produtos e serviços. Nessa jornada em busca de
oportunidades de negócio, é possível que o analista de negócios sugira criar
ou melhorar um produto orientado a dados. Isso significa que, além da sua
atuação, ele ainda pode se adequar ao perfil de usuário solicitante, partindo
dele a necessidade de um produto orientado a dados. Logo, a participação do
analista de negócios se faz muito valiosa, não só para a equipe de ciência de
dados e big data e os seus produtos, mas para a empresa em geral.
Em empresas pequenas, pode não ser possível ter um analista de negócios
nos projetos orientados a dados, mas a participação desse profissional pode
ser crucial para o bom andamento e a conclusão dos projetos. Servindo como
“cola” que une as áreas de negócios e de TI, o analista de negócios não só terá
o papel de “traduzir” o que uma área diz para a outra, mas também de retirar
obstáculos que possam impedir o bom andamento do projeto e de sugerir
formas de construção, uso e validação dele.
O analista de negócios é um profissional com grande interesse no produto
final. Invariavelmente, os projetos enfrentarão percalços e atritos, e cabe ao
analista de negócios o papel de mediador de conflitos, a fim de buscar sempre
o equilíbrio entre o esforço para se criar um produto orientado a dados e o
valor que esse produto pode agregar ao negócio.
6 Papéis dos envolvidos em projetos de big data e ciência de dados

Em uma equipe de ciência de dados e big data, o analista de negócios deve:

 dominar o negócio da empresa;


 conhecer os produtos e serviços tanto da própria empresa quanto da
concorrência;
 encontrar oportunidades de negócio e sugerir produtos e serviços que
atendam a elas;
 ser um facilitador entre as áreas de negócios e de TI;
 remover impedimentos e mediar conflitos;
 zelar pelo bom andamento dos projetos.

Gerente de projetos
Veja que, até agora, não falamos sobre o escopo do projeto, a formação da
equipe, o custo do projeto, o que é o produto final e as suas etapas de entrega,
a liderança do projeto, a definição dos stakeholders e executores, a documen-
tação e o registro das atividades, o cronograma, etc. Essas são algumas das
responsabilidades do gerente de projetos.
O gerente de projetos é o profissional que garante o bom andamento do
projeto como um todo, mas não se envolve com o teor do projeto em si ou se
o produto final realmente tem um significado para o negócio — esses são
pontos que são discutidos pelos usuários solicitantes e analistas de negócios.
O gerente de projetos deve garantir que a construção de um projeto tenha um
ciclo de vida (início, meio e fim), seja cumprido no prazo acordado, tenha
sido executado por todos aqueles que se comprometeram no início, e que o
feedback do usuário solicitante seja ouvido.
Perceba que as atribuições de um gerente de projetos se encaixam não
apenas em projetos orientados a dados, mas em qualquer projeto da empresa.
Algumas das suas responsabilidades são as seguintes:

 liderar a equipe para um objetivo em comum;


 definir o escopo do projeto;
 definir o cronograma e garantir que ele seja cumprido;
 identificar os obstáculos e deliberar soluções;
 avaliar riscos e mitigá-los;
 negociar conflitos entre as partes interessadas;
 documentar o projeto quanto à sua construção e fazer saber aos demais.
Papéis dos envolvidos em projetos de big data e ciência de dados 7

O PMI (Project Management Institute ou instituto de gestão de projetos) é uma instituição


sem fins lucrativos reconhecida internacionalmente, que serve como uma associação
para profissionais de gestão de projetos. Trata-se de uma instituição respeitada que
investiga as boas práticas da gestão de projetos.
De tempos em tempos, essa organização lança o guia Project Management Body of
Knowledge (PMBOK), que, em 2020, já está na sua 6ª edição, lançada em 2017. Esse
guia traz as melhores práticas e diretrizes em gestão de projetos e discorre sobre todo
o ciclo de vida de um projeto.
Há ainda as certificações oferecidas por esse instituto. Entre as várias possíveis,
a mais conhecida é a que certifica o profissional como PMP (Project Management
Professional ou profissional de gestão de projetos). Esse profissional, quando atua em
uma empresa com uma equipe especializada e focada em gestão de projetos, lidera
o que o instituto chama de PMO (Project Management Office ou escritório de gestão
de projetos), responsável por gerir os diversos projetos da empresa.

Dependendo do tipo e da abordagem utilizada nos projetos de TI da empresa,


pode-se ou não ter o papel do gerente de projetos. Em empresas que utilizam
métodos ágeis para o desenvolvimento de software, como o Scrum ou XP,
as responsabilidades de gerência do projeto podem ser distribuídas entre os
demais integrantes da equipe.

3 Tarefas dos papéis técnicos nos processos


de ciência de dados
Os papéis técnicos (ou de tecnologia da informação) de uma equipe de ciência
de dados e big data são voltados, em sua maioria, para os sistemas de infor-
mação e computação, a construção e a manutenção de produtos e serviços
ligados à tecnologia, seja para uso do cliente final ou para uso interno das
áreas de negócio. Obviamente, quanto mais conhecimento de negócio esses
profissionais tiverem, melhor. Contudo, são papéis que geralmente necessitam
de analistas de negócios e/ou de gerentes de projetos ou papéis similares para
intermediarem os projetos, de modo a melhor entenderem as necessidades de
negócios da empresa e concluírem os projetos com êxito e qualidade.
8 Papéis dos envolvidos em projetos de big data e ciência de dados

Administrador de banco de dados


Os administradores de bancos de dados, conhecidos como DBAs (por sua
denominação em inglês, Database Administrator), são os profissionais
responsáveis por criar e manter bancos de dados. Nos primórdios da com-
putação, eles trabalhavam mais com bancos de dados SQL ou relacionais,
mas esse papel tem sido desenvolvido por profissionais que trabalham
também com bancos de dados NoSQL. Principalmente pela integridade
de dados que ela proporciona, essa categoria de banco de dados é utilizada
nas empresas há bastante tempo e em praticamente todas as áreas, o que
fez com que o DBA fosse um dos profissionais mais requisitados pelo
mercado de trabalho.
Os DBAs não só criam e mantêm bancos de dados SQL, mas são respon-
sáveis também pelas seguintes atividades:

 manutenção do servidor físico do banco de dados;


 recuperação de desastres;
 melhoria no desempenho de consultas ao banco de dados feito por
aplicações da empresa;
 controle de acesso aos dados;
 criação de objetos (tabelas, funções, procedimentos, visualizações,
etc.) no banco de dados;
 uso dos dados da empresa para alimentar os processos de negócios.

Todos esses pontos são importantes, mas é o último citado que fez o DBA
não ser visto somente como parte operacional de TI, mas também como parte
estratégica de negócio. Com um profundo conhecimento de como os dados
dos bancos de dados são criados, armazenados e utilizados, os DBAs sempre
foram profissionais importantes para um projeto voltado a dados. Atualmente,
são vistos como profissionais tradicionais de TI, mantendo bancos de dados
robustos e operantes, que alimentam sistemas de informação empresariais
operacionais e estratégicos.
Dessa forma, os DBAs somam à equipe de ciência de dados e big data não
só a sua expertise em armazenamento e consumo dos dados, mas também o
significado e o valor que eles têm para o negócio. Além disso, são também os
precursores dos engenheiros de dados. Para cumprirem as suas responsabili-
dades, os DBAs geralmente trabalham com os seguintes itens:
Papéis dos envolvidos em projetos de big data e ciência de dados 9

 banco de dados SQL e NoSQL (como Oracle, SQL Server, MySQL,


Hive, MongoDB);
 linguagem SQL e as suas extensões (como PL-SQL para Oracle, T-SQL
para SQL Server e HSQL para o Hive);
 sistemas operacionais Linux e Windows;
 infraestrutura de TI (servidores, redes de computadores e segurança).

Engenheiro de dados
Assim como os cientistas de dados, os engenheiros de dados são profissionais
novos no mercado de trabalho. Da mesma forma, eles são profissionais ex-
tremamente valiosos para uma equipe orientada a dados. Os engenheiros de
dados cuidam de todos os processos, desde a captura e o armazenamento dos
dados — geralmente sistemas NoSQL — até a entrega para uso dos cientistas
de dados ou até mesmo dados processados para a área de negócios.
Além disso, esses profissionais são capazes de lidar com o grande volume,
a velocidade, a variedade, a veracidade e o valor dos dados — hoje concei-
tualmente chamados de cinco Vs do big data, como você viu anteriormente.
São algumas responsabilidades dos engenheiros de dados:

 criar e manter sistemas de captura e armazenamento de dados sob


demanda, em lote ou em tempo real (streaming);
 cuidar do inventário dos dados brutos;
 cuidar da catalogação e manter metadados de todos os dados;
 fazer a classificação dos dados quanto ao seu teor e sensibilidade frente
aos diversos acessos;
 fazer o versionamento e definir o ciclo de vida dos dados e o seu tempo
de vida;
 garantir a confiabilidade dos dados;
 recuperar dados pertinentes ao negócio em tempo hábil.

O engenheiro de dados precisa dominar algumas tecnologias e ferramentas


de uso recorrente em uma equipe de ciência de dados e big data. Algumas
delas são as seguintes:

 Hadoop (Hadoop Common, Hadoop Yarn, HDFS e Hadoop MapReduce);


 outras tecnologias do ecossistema Hadoop (Spark, HBase, Hive, Pig,
Flume, Sqoop, Mahout etc.);
10 Papéis dos envolvidos em projetos de big data e ciência de dados

 sistemas operacionais Linux;


 computação em nuvem (AWS, Google Cloud Platform, Microsoft Azure);
 bancos de dados SQL (como Oracle, SQL Server e MySQL) e NoSQL
(como MongoDB, Cassandra e Redis).

No site da AWS Amazon (maior empresa de computação em nuvem do mundo), você


conhecerá um pouco sobre bancos de dados NoSQL. Atualmente, é a empresa de
sistema de banco de dados com maior expansão no mercado.

Cientista de dados
O cientista de dados é peça fundamental em um projeto orientado a dados.
É ele que tem a missão de extrair conhecimento dos dados da empresa,
geralmente preparados e entregues pelo engenheiro de dados, a fim de agregar
valor ao negócio. Estamos falando de um profissional multidisciplinar por
natureza, portanto, esse profissional:

 utiliza programação e outros conhecimentos de computação para ma-


nipular dados;
 detém conhecimento matemático e estatístico para validar as análises
feitas nos dados;
 possui razoável expertise do negócio da empresa e do mercado onde ela
está inserida para saber fazer as perguntas corretas e como respondê-
-las com os dados.

De acordo com Sharda, Delen e Turban (2019, p. 544):


Cientistas de dados usam uma combinação de suas habilidades empresa-
riais e técnicas para investigar Big Data, buscando maneiras de aprimorar
práticas atuais de análise de negócios (desde descritivas e preditivas até
prescritivas) e, assim, melhorar as decisões para novas oportunidades
de negócios.

O cientista de dados geralmente é uma pessoa curiosa e investigativa, que


manipula os dados à procura de correlações e explicações para determinadas
Papéis dos envolvidos em projetos de big data e ciência de dados 11

necessidades de negócio. Ainda, deve saber reportar as suas descobertas e


análises aos profissionais de negócio e tomadores de decisão, sabendo pontuar:

 de onde são os dados,


 em qual contexto aqueles dados estão inseridos;
 quais perguntas pretendem responder;
 quais as respostas propostas;
 qual nível de confiança têm as suas análises e respostas.

Um cientista de dados precisa também dominar técnicas de machine le-


arning (em português, aprendizado de máquina), pois é com esse tipo de
técnica que se torna possível predizer acontecimentos futuros com base em
dados do passado. Machine learning é o ato de fazer o computador aprender
correlações em dados de forma que, quando novos dados forem apresentados,
a máquina consiga dizer do que se trata ou até mesmo nos fazer saber quando
determinado evento vai ocorrer no futuro — por exemplo, uma oportunidade
de investimento na bolsa de valores ou uma possível compra de um cliente
no seu site.
Em um projeto orientado a dados, os cientistas de dados geralmente coletam
dados históricos de uma área da empresa (como logística ou departamento
financeiro) e aplicam conhecimentos estatísticos e machine learning em busca
de correlações nos dados do passado, que possam ser confiáveis a ponto de
conseguirem predizer o futuro. Veja, então, que não se trata de saber somente o
que aconteceu no passado e por que aconteceu, mas também o que acontecerá
no futuro e o que se pode fazer a respeito.
O cientista de dados é responsável por:

 coletar os dados corretos para determinado problema de negócio;


 manipular os dados de modo a entender as suas características e
particularidades;
 aplicar conhecimento estatístico para encontrar correlações ou infor-
mações pertinentes ao negócio em estudo;
 testar hipóteses provenientes dos profissionais de negócio ou aquelas
concebidas pelo próprio profissional;
 garantir um nível de confiabilidade nas análises feitas;
 buscar por padrões nos dados do passado, a fim de treinar o computador
para a predição de eventos futuros;
 reportar as suas descobertas, conclusões e valor agregado ao negócio
adquiridos com todo o processo.
12 Papéis dos envolvidos em projetos de big data e ciência de dados

Um cientista de dados geralmente domina:

 linguagem de programação R e/ou Python e as suas bibliotecas (Pandas,


Numpy, Scikit-learn, Tensorflow);
 linguagem SQL;
 matemática e estatística descritiva e inferencial;
 Machine learning (aprendizado supervisionado, não supervisionado
e por reforço);
 assunto ao qual os dados se referem.

Como você viu neste capítulo, há muitos caminhos que pode seguir, em
termos de equipes de ciência de dados e big data. Sejam mais voltados para o
negócio ou para a tecnologia da informação, todos os papéis têm importância na
empresa, ainda que contribuam de maneiras diferentes. Nesse sentido, é certo
que ter uma equipe especializada no desenvolvimento de projetos orientados a
dados é um grande diferencial, principalmente por garantir que o projeto terá
os seus custos otimizados, atenderá à solicitação de negócio, será documentado
e cumprido no prazo acordado. Esses fatores são fundamentais para qualquer
empresa, por conta da alta competitividade de mercado.

ORACLE. O que é ciência de dados? [2020]. Disponível em: https://www.oracle.com/br/


data-science/what-is-data-science.html. Acesso em: 15 abr. 2020.
SHARDA, R.; DELEN, D.; TURBAN, E. Business Intelligence e análise de dados para gestão
do negócio. 4. ed. Porto Alegre: Bookman, 2019.

Leituras recomendadas
AWS. O que é NoSQL? 2020. Disponível em: https://aws.amazon.com/pt/nosql/. Acesso
em: 15 abr. 2020.
LEDESMA, B. Como prever a gravidez de clientes aumenta as vendas: caso Target. [2020].
Disponível em: https://www.analisepreditiva.com.br/como-prever-a-gravidez-de-
-clientes-aumenta-as-vendas-caso-target/. Acesso em: 15 abr. 2020.
PROJECT MANAGEMENT INSTITUTE. [Site]. [2020]. Disponível em: https://www.pmi.
org/. Acesso em: 15 abr. 2020.
Papéis dos envolvidos em projetos de big data e ciência de dados 13

Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.

Você também pode gostar