Ciência de Dados

CIÊNCIA DE DADOS
CURSO FGV – MÓDULO I
The DATA Science handbook, Field Caldy.
Tornando-se um Unicórnio
Ciência de dados significa fazer um trabalho de análise que, por uma razão ou outra,
requer uma quantidade substancial de habilidades skills de software.
Às vezes, a entrega final é o tipo de coisa que um estatístico ou uma empresa analista
pode fornecer, mas atingir esse objetivo exige habilidades de software que seu analista
típico simplesmente não tem. Por exemplo, um conjunto de dados pode ser tão grande
que você precisa usar computação distribuída para analisá-lo ou tão complicado em seu
formato que muitas linhas de código são necessárias para analisá-lo. Em muitos casos, os
cientistas de dados também precisam escrever grandes pedaços de software de produção
que implementem suas ideias analíticas em tempo real. Na prática, geralmente existem
outras diferenças também. Por exemplo, os cientistas de dados geralmente precisam
extrair recursos a partir de dados brutos, o que significa que eles lidam com problemas
muito abertos, como quantificar o “spamness” de um e‐mail.
É muito difícil encontrar pessoas que possam construir bons modelos estatísticos, hackear
software de qualidade e relacione tudo isso de maneira significativa com os problemas de
negócios.
São muitos chapéus para usar! Esses indivíduos são tão raros que os recrutadores
costumam ligar para eles “unicórnios”.
A mensagem deste livro é que não é apenas possível, mas também relativamente simples
para se tornar um “unicórnio”. É apenas uma questão de adquirir o particular equilíbrio de
habilidades necessárias. Muito poucos programas educacionais ensinam todas as essas
habilidades, e é por isso que os unicórnios são raros, mas isso é principalmente um
acidente histórico.
É perfeitamente razoável que uma única pessoa tenha toda a paleta de habilidades, desde
que estejam dispostos a ignorar os limites tradicionais entre diferentes disciplinas
Este livro tem como objetivo ensinar tudo o que você precisa saber para ser um cientista
de dados. Meu palpite é que você é um programador de computador procurando aprender
sobre análise ou mais de um matemático tentando em sua codificação. Você também
pode ser um empresário que precisa do conhecimento técnico habilidades para responder
às suas perguntas de negócios ou simplesmente um leigo interessado.
Seja você quem for, este livro ensinará os conceitos de que você precisa.
Este livro não é abrangente. A ciência de dados é uma área muito grande para qualquer
pessoa ou livro para cobrir tudo isso. Além disso, o campo está mudando tão rápido que
qualquer livro “abrangente” estaria desatualizado antes de sair das prensas. Em vez
disso, apontei para dois objetivos. Em primeiro lugar, quero dar uma base sólida no visão
geral do que é ciência de dados, como fazê-lo e os fundamentos conceitos que resistirão
ao teste do tempo. Em segundo lugar, quero dar um “completo” conjunto de habilidades,
no sentido de que você tem o conhecimento básico para ir e fazer o trabalho de ciência de
dados (você pode codificar em Python, você conhece as bibliotecas usar, a maioria dos
grandes modelos de aprendizado de máquina, etc.), mesmo que projetos específicos ou
empresas podem exigir que você adquira um novo conjunto de habilidades em algum
lugar outro.
1.2. Não são cientistas de dados, apenas pagam a mais aos estatísticos?
Nate Siver, um Estatístico famoso pela precisão nas previsões das eleições dos US, uma
vez disse: “Vejo cientistas de dados como um termo atrativo para estatístico” (I think data
scientist is a sexed-up term for statititiciam), ele tem um ponto, mas o que diz é apenas
parcialmente verdade. A disciplina Estatística lida principalmente como métodos
matemáticos rigorosos para resolver problemas bem definidos. Os cientistas de dados
passam a maior parte do tempo obtendo dados em um formato em que métodos
estatísticos poderiam até ser aplicados. Isso envolve certificar-se de que o problema de
análise é uma boa combinação para os objetivos de negócios, extraindo características dos
dados brutos e lidar com quaisquer patologias dos dados ou casos de borda estranhos.
Uma vez que o trabalho pesado é feito, você pode aplicar ferramentas estatísticas para
obter os resultados finais, embora, na prática, muitas vezes você nem precise deles.
Os estatísticos profissionais precisam fazer uma certa quantidade de pré-processamento,

mas há uma enorme diferença de grau.
Historicamente, a ciência de dados surgiu como um campo independente da estatística.
A maioria dos primeiros cientistas de dados eram programadores de computador ou

especialista em machine learning que estavam trabalhando em problemas de Big Data.
Eles estavam analisando conjuntos de dados do tipo que os estatísticos não tocam:
páginas HTML, arquivos de imagem, e-mails, logs de saída bruta de servidores web e
assim por diante. Esses conjuntos de dados não se encaixam no molde de bancos de
dados relacionais ou ferramentas estatísticas, então por décadas, eles foram apenas
acumulando sem ser analisado. A ciência de dados surgiu como uma forma de finalmente
ordenhá-los para insights.
Em 20 anos, suspeito que estatísticas, ciência de dados (data sciencie) e aprendizado de
máquina (machine learning), borrar (se mesclar), em uma única disciplina. As diferenças
entre elas são, afinal, realmente apenas uma questão de grau e/ou acidente histórico. Mas
em termos práticos, para por enquanto, resolver problemas de ciência de dados requer
habilidades que um estatístico normal não tem. Na verdade, essas habilidades, que
incluem uma extensa engenharia de software e extração de recursos específicos de
domínio, constituem a esmagadora a maior parte do trabalho que precisa ser feito. No
trabalho diário de um cientista de dados, estatísticas desempenha segundo violino.
1.2. Como este livro está organizado.
Este livro está organizado em treze seções. A primeira, Coisa que você sempre vai usar,
cobre tópicos que, na minha experiência, você vai acabar usando em quase projeto de
Data Science. São competências essenciais, absolutamente indispensáveis para ciência de
dados em qualquer nível.
A primeira seção também foi escrita com foco em pessoas que precisam de Data Sciencie
para responder a uma questão específica, mas não aspiram a se tornarem cientistas de
dados. Se você está neste campo, então há uma boa chance de que a Parte I do livro lhe
dê tudo o que você precisa.
Na segunda sessão, Coisas que você ainda precisa saber , cobre o núcleo adicional
habilidades para um cientista de dados. Algumas delas, como o agrupamento, são tão
comuns que eles quase chegaram à primeira seção, e eles poderiam facilmente
desempenhar um papel na qualquer projeto. Outros, como o processamento de linguagem
natural, são assuntos um pouco especializados que são críticos em certos domínios, mas
supérfluos em outros.
Na minha opinião, um cientista de dados deve estar familiarizado com todos esses
assuntos, mesmo que nem sempre usem todos. A seção final, Coisas que é bom saber,
cobre uma variedade de tópicos que são opcionais. Alguns desses capítulos são apenas
expansões de tópicos do primeiro duas seções, mas dão mais embasamento teórico e
discutem alguns tópicos adicionais. Outros são materiais inteiramente novos, que surgem
em dados ciência, mas que você poderia seguir por uma carreira sem nunca se deparar.
1.3 Como usar este livro?
Este livro foi escrito com três casos de uso em mente:
1) Você pode lê-lo de capa a capa. Se você fizer isso, deve dar-lhe um autocontido curso
de ciência de dados que o deixará pronto para enfrentar problemas reais. Se você tem
uma sólida experiência em programação de computadores, ou em matemática, então
algumas delas serão revisadas.
2) Você pode usá-lo para se atualizar rapidamente sobre um assunto específico. Tentei
para tornar os diferentes capítulos bastante autocontidos, especialmente os capítulos após
a primeira seção.
3) O livro contém muitos códigos de amostra, em pedaços grandes o suficiente para

use como ponto de partida para seus próprios projetos.
….
A general introduction to data analytics (MOREIRA et al., 2018) Seções 1.1, 1.2 e 1.3
O que podemos fazer com os dados?
Até recentemente, os pesquisadores que trabalhavam com análise de dados lutavam para
obter dados para seus experimentos. Os avanços recentes na tecnologia de
processamento de dados, armazenamento de dados e transmissão de dados, associados a
softwares de computador avançados e inteligentes, reduzindo custos e aumentando a
capacidade, mudaram este cenário. É a época da Internet das Coisas, onde o objetivo é
ter tudo ou quase tudo conectado. Dados previamente produzidos em papel agora estão
online. A cada dia, uma quantidade maior de dados é gerada e consumida.
Sempre que você colocar um comentário em sua rede social, faça upload de uma
fotografia, alguma música ou um vídeo, navegue pela Internet ou adicione um comentário
um site de comércio eletrônico, você está contribuindo para o aumento de dados. Além
disso, máquinas, transações financeiras e sensores, como câmeras de segurança, são
cada vez mais coletando dados de fontes muito diversas e difundidas.
Em 2012, estimou-se que, a cada ano, a quantidade de dados disponíveis em o mundo

dobra [1]. Outra estimativa, de 2014, previa que até 2020 toda a informação será
digitalizada, eliminada ou reinventada em 80% dos processos e produtos da década
anterior [2]. Em um terceiro relatório, de 2015, foi previu que o tráfego de dados móveis
será quase 10 vezes maior em 2020 [3]. O resultado de todos esses rápidos aumentos de
dados é chamado por alguns de “explosão de dados”
Apesar da impressão que isso pode dar - que estamos nos afogando em dados – há vários
benefícios em ter acesso a todos esses dados. Esses dados fornecem uma rica fonte de
informações que podem ser transformadas em novas, conhecimento útil, válido e
compreensível para o ser humano. Assim, há um crescente interesse em explorar esses
dados para extrair esse conhecimento, usando-o para tomada de decisão em uma ampla
variedade de campos: agricultura, comércio, educação, meio ambiente, finanças, governo,
indústria, medicina, transporte e Cuidado. Várias empresas ao redor do mundo estão
percebendo a mina de ouro que têm e o potencial desses dados para apoiar seu trabalho,
reduzir o desperdício e atividades de trabalho perigosas e tediosas, e aumentar o valor de
seus produtos e seus lucros.
A análise desses dados para extrair tal conhecimento é tema de uma vibrante área
conhecida como data analytics, ou simplesmente “analytics”.
Você pode encontrar várias definições de análise na literatura. A definição aqui adotada é:
Analytics é a ciência que analisa dados brutos para extrair conhecimento útil (padrões)
deles.
Este processo também pode incluir coleta de dados, organização, pré-processamento,

transformação, modelagem e interpretação Analytics como uma área de conhecimento
envolve a entrada de muitas áreas diferentes. A ideia de generalizar o conhecimento de
uma amostra de dados vem de um ramo de estatística conhecido como aprendizado
indutivo, uma área de pesquisa com longa história. Com os avanços dos computadores
pessoais, o uso de recursos para resolver problemas de aprendizagem indutiva tornam-se
cada vez mais popular. A capacidade computacional tem sido usada para desenvolver
novos métodos. Ao mesmo tempo, surgiram novos problemas que exigem um bom
conhecimento ciências da computação. Por exemplo, a capacidade de realizar uma
determinada tarefa com mais eficiência computacional tornou-se um assunto de estudo
para as pessoas que trabalham em estatísticas computacionais.
Paralelamente, vários pesquisadores sonharam em poder reproduzir comportamento

humano usando computadores. Eram pessoas da área de inteligência artificial. Eles
também usaram estatísticas para suas pesquisas, mas a ideia de reproduzir o
comportamento humano e biológico em computadores foi um fonte de motivação. Por
exemplo, reproduzir como o cérebro humano funciona com redes neurais artificiais vem
sendo estudado desde a década de 1940; reproduzindo como as formigas trabalham com
algoritmo de otimização de colônia de formigas desde a década de 1990. O termo
aprendizado de máquina (ML – machine learning) surgiu nesse contexto como o “campo
de estudo que dá aos computadores a capacidade de aprender sem serem explicitamente
programados”, de acordo com Arthur Samuel em 1959 [4].
Na década de 1990, um novo termo apareceu com um significado diferente: mineração de

dados (DM). A década de 1990 foi a década do surgimento da inteligência de negócios
como consequência das instalações de dados terem capacidade maior e mais barata. As
empresas começam a coletar cada vez mais dados, visando solucionar ou melhorar as
operações comerciais, por exemplo, detectando fraudes com cartões de crédito,
aconselhando o público sobre os constrangimentos da rede rodoviária nas cidades, ou
melhorando relacionamento com clientes utilizando técnicas mais eficientes de marketing
relacional.
A questão era poder minerar os dados para extrair o conhecimento necessário para uma
determinada tarefa. Este é o objetivo da mineração de dados.
1.1 Big Data e Data Science
Nos primeiros anos do século 20, surgiu o termo big data. Big data, um tecnologia de
processamento de dados, foi inicialmente definida pelos “três Vs”, embora mais alguns Vs
foram propostos desde então. Os três primeiros Vs nos permitem definir uma taxonomia
de big data. São eles: volume, variedade e velocidade.
Volume está preocupado em como armazenar big data: repositórios de dados para
grandes quantidades de dados.
A Variedade está preocupada em como reunir dados de diferentes fontes.
A Velocidade diz respeito à capacidade de lidar com dados que chegam muito rápido, em
fluxos conhecidos como fluxos de dados. Analytics também é descobrir conhecimento de
fluxos de dados, indo além do componente de velocidade do big data.
Outro termo que apareceu e às vezes é usado como sinônimo de big data é Data Science.
De acordo com Provost e Fawcett [5], Big Data são dados conjuntos muito grandes
para serem gerenciados por tecnologias convencionais de processamento de
dados, exigindo o desenvolvimento de novas técnicas e ferramentas para
armazenamento de dados, processamento e transmissão. Essas ferramentas
incluem, por exemplo, MapReduce, Hadoop, Spark e Storm. Mas o volume de dados
não é a única caracterização de grandes dados. A palavra “grande” pode se referir ao
número de fontes de dados, à importância dos dados, à necessidade de novas técnicas de
processamento, à rapidez com que os dados chegar, à combinação de diferentes
conjuntos de dados para que possam ser analisados em tempo, e sua ubiquidade, uma
vez que qualquer empresa, organização sem fins lucrativos ou indivíduo tem acesso aos
dados agora.
Assim, o Big Data está mais preocupado com a tecnologia. Ele fornece uma computação
ambiente, não apenas para análise, mas também para outras tarefas de processamento
de dados.
Essas tarefas incluem processamento de transações financeiras, processamento de dados

da web e processamento de dados georreferenciados.
A ciência de dados - Data Science - se preocupa com a criação de modelos capazes de

extrair padrões a partir de dados complexos e o uso desses modelos em problemas da
vida real. A ciência de dados extrai conhecimento significativo e útil dos dados, com o
apoio de tecnologias adequadas. Tem uma estreita relação com análise e mineração de
dados.
A Data Sciencie vai além da mineração de dados, fornecendo uma extração de

conhecimento quadro, incluindo estatísticas e visualização.
Portanto, enquanto Big Data dá suporte à coleta e gerenciamento de dados, A Data

Science aplica técnicas a esses dados para descobrir novos e úteis conhecimento: Big Data
coleta e Data Science descobre. Outros termos como descoberta ou extração de
conhecimento, reconhecimento de padrões, análise de dados, engenharia, e vários outros
também são usados. A definição que usamos de dados a análise abrange todas essas
áreas que são usadas para extrair conhecimento dos dados.
1.2 Arquiteturas de Big Data
À medida que os dados aumentam em tamanho, velocidade e variedade, novas

tecnologias de computador tornar-se necessário. Essas novas tecnologias, que incluem
hardware e software, deve ser facilmente expansíveis à medida que mais dados são
processados. Está Propriedade é conhecido como escalabilidade. Uma maneira de obter
escalabilidade é distribuindo as tarefas de processamento de dados em vários
computadores, que podem ser combinados em aglomerados de computadores. O leitor
não deve confundir clusters de computadores com clusters produzidos por técnicas de
clustering, que são técnicas de análise em que um conjunto de dados é particionado para
encontrar grupos dentro dele.
Mesmo que o poder de processamento seja expandido pela combinação de vários

computadores em um cluster, criando um sistema distribuído, software convencional para
sistemas geralmente não podem lidar com big data. Uma das limitações é a distribuição
eficiente de dados entre as diferentes unidades de processamento e armazenamento.
Para lidar com esses requisitos, novas ferramentas e técnicas de software foram
desenvolvidos. Uma das primeiras técnicas desenvolvidas para processamento de big data
usando clusters foi MapReduce.
MapReduce é um modelo de programação que possui duas etapas: mapear e reduzir. A

implementação mais famosa do MapReduce é chamada Hadoop.
MapReduce divide o conjunto de dados em partes – pedaços – e armazena na memória de

cada computador de cluster o pedaço do conjunto de dados necessário para este
computador para realizar sua tarefa de processamento. Como exemplo, suponha que você
precise calcule o salário médio de 1 bilhão de pessoas e você tem um cluster com 1000
computadores, cada um com uma unidade de processamento e uma memória de
armazenamento pode ser dividido em 1000 blocos – subconjuntos – com dados de 1
milhão de pessoas cada. Cada pedaço pode ser processado independentemente por um
dos computadores. Os resultados produzidos por cada um desses computadores (o salário
médio de 1 milhão de pessoas) pode ser calculada, retornando a média salarial final.
Para resolver de forma eficiente um problema de BIG DATA, um sistema distribuído deve
atender a seguintes requisitos:
Certifique-se de que nenhum pedaço de dados seja perdido e que toda a tarefa seja
concluída. Se um ou mais computadores tem uma falha, suas tarefas e os dados
correspondentes pedaço, deve ser assumido por outro computador no cluster.
• Repetir a mesma tarefa e o bloco de dados correspondente em mais de um computador

de cluster; isso é chamado de redundância. Assim, se um ou mais computadores
falharem, o computador redundante continua com a tarefa.
• Os computadores que tiveram falhas podem retornar ao cluster novamente quando

forem fixo.
• Os computadores podem ser facilmente removidos do cluster ou extras incluídos no à

medida que a demanda de processamento muda. Uma solução que incorpora esses
requisitos deve ser ocultada do analista de dados os detalhes de como o software
funciona, como os blocos de dados e as tarefas são divididos entre os computadores do
cluster.
1.3 SMALL DATA
Na direção oposta das tecnologias e métodos de Big Data, há um movimento em direção a

uma análise mais pessoal e subjetiva de pedaços de dados, denominados “pequenos
dados”. Small data é um conjunto de dados cujo volume e formato permitem seu
processamento e análise por uma pessoa ou uma pequena organização. Assim, em vez de
coleta de dados de várias fontes, com diferentes formatos, e gerados em velocidades
crescentes, criando grandes repositórios de dados e instalações de processamento, dados
pequenos favorecem a partição de um problema em pequenos pacotes, que pode ser
analisado por diferentes pessoas ou pequenos grupos de forma distribuída e forma
integrada. As pessoas estão continuamente produzindo pequenos dados enquanto
realizam suas tarefas diárias, seja navegando na web, comprando um produto em uma
loja, passando por exames médicos e usando aplicativos em seus celulares. Quando esses
dados são coletadas para serem armazenadas e processadas em grandes servidores de
dados, elas se tornam big data.
Para ser caracterizado como small data, um conjunto de dados deve ter um
tamanho que permita sua compreensão de um usuário.
O tipo de conhecimento buscado em big e small data também é diferente, com a

primeiro procurando correlações e o segundo por relações de causalidade. Enquanto
Big Datas fornecem ferramentas que permitem às empresas entender seus clientes, Small
Datas as ferramentas de dados tentam ajudar os clientes a se entenderem. Assim, o big
data é preocupados com clientes, produtos e serviços, e os pequenos dados estão
preocupados com os indivíduos que produziram os dados.
1.4 O QUE SÃO DADOS?
Mas do que tratam os dados? Os dados, na era da informação, são um grande conjunto
de bits codificar números, textos, imagens, sons, vídeos e assim por diante. A menos que
adicionemos informação aos dados, eles não têm sentido. Quando adicionamos
informações, dando um significado para eles, esses dados tornam-se conhecimento. Mas
antes que os dados se tornem conhecimento, normalmente, eles passam por várias etapas
onde ainda são chamados de dados, apesar de serem um pouco mais organizados; ou
seja, eles têm algumas informações associadas a eles.
Vejamos o exemplo de dados coletados de uma lista privada de conhecidos ou contatos.
As informações apresentadas na Tabela 1.1, geralmente chamadas de dados tabulares,

são caracterizada pela forma como os dados são organizados.
Nos dados tabulares, os dados são organizados em linhas e colunas, onde cada coluna
representa uma característica dos dados e cada linha representa uma ocorrência dos
dados. Uma coluna é chamada de um atributo ou, com o mesmo significado, um recurso,
enquanto uma linha é referida como uma instância, ou com o mesmo significado, um
objeto.
Instância ou Objeto Exemplos do conceito que queremos caracterizar.
Exemplo 1.1
No exemplo da Tabela 1.1, pretendemos caracterizar pessoas em nossa lista de contatos

privados. Cada membro é, neste caso, uma instância ou objeto. Isto corresponde a uma
linha da tabela.
Atributo ou Recurso Atributos, também chamados de recursos, são características de as

instâncias.
Tabela 1.1 Conjunto de dados de nossa lista de contatos privados.

Exemplo 1.2 Na Tabela 1.1, contato, idade, nível educacional e empresa são quatro
atributos diferentes.
A maioria dos capítulos deste livro espera que os dados estejam em formato tabular; ou
seja, já organizado por linhas e colunas, cada linha representando uma instância e cada
coluna representando um atributo. No entanto, uma tabela pode ser organizados de forma
diferente, tendo as instâncias por coluna e os atributos por linha.
Existem, no entanto, dados que não são possíveis de representar em uma única tabela.
Exemplo 1.3 Como exemplo, se alguns dos contatos são parentes de outros contatos,
seria necessária uma segunda tabela, conforme a Tabela 1.2, representando as relações
familiares. Você deve observar que cada pessoa referida na Tabela 1.2 também existe na
Tabela 1.1, ou seja, existem relações entre atributos de tabelas diferentes.
Conjuntos de dados representados por várias tabelas, deixando claro as relações entre
essas tabelas, são chamadas de CONJUNTOS DE DADOS RELACIONAIS. Esta informação é
facilmente manipulada usando bancos de dados relacionais. Neste livro, apenas formas
simples de dados relacionais deve ser usado. Isso é discutido em cada capítulo sempre
que necessário.
»»
OBJETIVOS
Ao final deste módulo, esperamos que você seja capaz de:
Obter conhecimentos introdutórios sobre as áreas de Ciência de Dados e Big Data, suas
causas e oportunidades;
Descrever os conhecimentos necessários para atuar nessa área e
Demonstrar como resolver problemas reais por meio de perguntas sobre dados.
Unidade 1. A Revolução dos dados
O que é Big Data?
Grande quantidade de dados.
Volume de quantidade de dados: Representada a quantidade que temos em MB, Gbs, Tbs,
produzidos anualmente, implicando na necessidade de se ter grande poder computacional
para o armazenamento da massa de dados e também de grande poder computacional
para processamento desta quantidade de dados.
Variedade de tipos de dados e;
Trata-se da heterogeneidade dos dados gerados. Imagens, textos, vídeos áudios e etc.
Velocidade de tipos de dados.
Trata-se do enorme fluxo de dados transmitidos em tempo real dentro da rede mundial de
computadores.
Velocidade basicamente é a velocidade com que capturamos e salvados informações e as

deixamos disponíveis para análise.
Análise de dados de streaming.
O que é ciência de dados?
É a ciência que analisa dados brutos para extrair conhecimento útil deles.
Big data versus ciência de dados

o Big Data está mais preocupado com a tecnologia.
A ciência de dados está preocupado com a criação de modelos capazes de extrair padrões
de dados complexos e com o uso desses modelos em problemas da vida real.
Big Data
Há muita sobreposição entre os termos “ciência de dados” e “big data”. Dentro prática, há
uma relação próxima entre eles, mas na verdade eles significam coisas separadas. Big
Data refere-se a várias tendências em armazenamento e processamento de dados, que
trouxeram novos desafios, ofereceram novas oportunidades e exigiram novas soluções.
Muitas vezes, esses problemas de Big Data exigiam um nível de software conhecimentos
de engenharia que estatísticos normais e analistas de dados não eram capazes de lidar.
Também levantou muitas questões difíceis e mal colocadas, como a melhor forma de
segmentar usuários com base em dados brutos de fluxo de cliques. Essa demanda é o que
virou “cientista de dados” em um cargo novo e distinto. Mas os cientistas de dados
modernos abordam problemas de qualquer escala e só usam tecnologias de Big Data
quando são ferramenta certa para o trabalho.
Big Data também é uma área em que a engenharia de software de baixo nível se
preocupa
tornam-se especialmente importantes para os cientistas de dados. É sempre importante
que eles
pensar muito sobre a lógica de seu código, mas as preocupações com o desempenho são
estritamente preocupação secundária. No entanto, em Big Data, é fácil adicionar
acidentalmente vários horas para o tempo de execução do seu código, ou até mesmo
fazer com que o código falhe várias horas devido a um erro de memória, se você não ficar
de olho no que está acontecendo dentro do computador.
CLUSTER
Cluster é junção de duas ou mais máquinas operando para realizar conjuntamente no

processamento, análise e interpretação de dados.
A função do cluster é combinar o funcionamento de vários computadores dentro de um
mesmo sistema, a fim de potencializar o seu desempenho.
Muitas vezes isso permite o uso de hardware simples, evitando a necessidade de utilização
de servidores complexos ou dos chamados supercomputadores para realizar a mesma
tareja, reduzindo, assim, os investimentos.
Small Data
É a solução que analisa um conjunto de dados de volume e formato reduzidos. Essa

característica faz com que as informações sejam mais acessíveis, processáveis e
compreensíveis.
Assim, enquanto o Big Data está focado em análises em grande escala, o Small Data
fornece informações mais qualitativas e precisas. Em outras palavras, pequenas pista e
informações valiosas.
Ferramentas para processamento de dados não estruturados:

Word2vec
TF-IDF e
Bag-of-words
5
Além dos "3 Vs" iniciais, velocidade, volume e variedade, fala-se ainda de Veracidade e
Valor, sendo veracidade o enorme volume de dados permite uma análise mais apurada e
exata, e Valor diz respeito que o acesso a uma quantidade de massiva de dados possibilita
à geração de valor.
4
Quanto maior a amostra, mais difícil de se encontrar padrões significativos ao mesmo
tempo que as distorções de "tamanho" podem dar relevância à trivialidades
3
Algumas das ferramentas existentes são: Word2vec, TF-IDF e Bag of Words.
2
É um conjunto de dados em menor escala, cujo volume, complexidade, variedade são
menores de que um Big Data, passiveis de ser processados por uma pessoa ou por uma
pequena organização. Por exemplo os referentes ao setor de compras de uma empresa.
1
Big Data está relacionado com tecnologia, diz respeito a todos os dados gerados
habitualmente pela atividade humana e Data Sciencie diz trata-se da ciência aplicada na
análise e processamento destes dados brutos, com o fim de extrair padrões e obtenção de
soluções para vida real.
TOMADA DE DECISÃO BASEADA EM DADOS
Competências
Superior completo em: Ciências da Computação, Sistemas de Informação, Engenharia (Produção,

Elétrica, Computação), Matemática, Estatística, Física ou correlatos;
VBA – virtual basics aplictions, Macros
Python/R;
SQL;
Diferenciais
SAS - Certificação, exame gratuito
VB, C, C#, Java;
Estrutura básica de Big Data (Hadoop, Hive/Spark, Sqoop).
Power BI
Conhecimento avançado em Power BI, Excel e Access
Conhecimento em banco de dados e scripts em SQL
SQL, ferramentas de visualização de dados (Tableau, Looker, QuickSight,
Mineração de Dados
Conhecimento básico de PHP, CSS e HTML.
Domínio em Wordpress;
Conhecimento básico em React;
Excel básico, python ou R básico
Apache Airflow
Experiência prática no uso de ferramentas de BI (Looker, Tableau, PowerBI, etc.).

- Clean Code, de Robert C. Martim
- Refactoring - Martin Fowler
- Domain Driver Desing - Eric Evans
GROINER, estruturas de dados js 8:20 Mythic4l M4n Month 10:30 FOWLER, code smells 12:20 ANICHE,
tdd

Ciência de Dados

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ciência de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

CIÊNCIA DE DADOS

CURSO FGV – MÓDULO I

The DATA Science handbook, Field Caldy.

Os estatísticos profissionais precisam fazer uma certa quantidade de pré-processamento,

Historicamente, a ciência de dados surgiu como um campo independente da estatística.

A maioria dos primeiros cientistas de dados eram programadores de computador ou

1.2. Como este livro está organizado.

1.3 Como usar este livro?

Este livro foi escrito com três casos de uso em mente:

3) O livro contém muitos códigos de amostra, em pedaços grandes o suficiente para

O que podemos fazer com os dados?

Em 2012, estimou-se que, a cada ano, a quantidade de dados disponíveis em o mundo

Este processo também pode incluir coleta de dados, organização, pré-processamento,

Paralelamente, vários pesquisadores sonharam em poder reproduzir comportamento

Na década de 1990, um novo termo apareceu com um significado diferente: mineração de

1.1 Big Data e Data Science

A Variedade está preocupada em como reunir dados de diferentes fontes.

Essas tarefas incluem processamento de transações financeiras, processamento de dados

A ciência de dados - Data Science - se preocupa com a criação de modelos capazes de

A Data Sciencie vai além da mineração de dados, fornecendo uma extração de

Portanto, enquanto Big Data dá suporte à coleta e gerenciamento de dados, A Data

1.2 Arquiteturas de Big Data

À medida que os dados aumentam em tamanho, velocidade e variedade, novas

Mesmo que o poder de processamento seja expandido pela combinação de vários

MapReduce é um modelo de programação que possui duas etapas: mapear e reduzir. A

MapReduce divide o conjunto de dados em partes – pedaços – e armazena na memória de

• Repetir a mesma tarefa e o bloco de dados correspondente em mais de um computador

• Os computadores que tiveram falhas podem retornar ao cluster novamente quando

• Os computadores podem ser facilmente removidos do cluster ou extras incluídos no à

1.3 SMALL DATA

Na direção oposta das tecnologias e métodos de Big Data, há um movimento em direção a

O tipo de conhecimento buscado em big e small data também é diferente, com a

1.4 O QUE SÃO DADOS?

Vejamos o exemplo de dados coletados de uma lista privada de conhecidos ou contatos.

As informações apresentadas na Tabela 1.1, geralmente chamadas de dados tabulares,

Instância ou Objeto Exemplos do conceito que queremos caracterizar.

No exemplo da Tabela 1.1, pretendemos caracterizar pessoas em nossa lista de contatos

Atributo ou Recurso Atributos, também chamados de recursos, são características de as

Tabela 1.1 Conjunto de dados de nossa lista de contatos privados.

Ao final deste módulo, esperamos que você seja capaz de:

Descrever os conhecimentos necessários para atuar nessa área e

Unidade 1. A Revolução dos dados

O que é Big Data?

Grande quantidade de dados.

Variedade de tipos de dados e;

Velocidade de tipos de dados.

Velocidade basicamente é a velocidade com que capturamos e salvados informações e as

Análise de dados de streaming.

O que é ciência de dados?

Big data versus ciência de dados

Cluster é junção de duas ou mais máquinas operando para realizar conjuntamente no

É a solução que analisa um conjunto de dados de volume e formato reduzidos. Essa

Ferramentas para processamento de dados não estruturados:

TOMADA DE DECISÃO BASEADA EM DADOS

Superior completo em: Ciências da Computação, Sistemas de Informação, Engenharia (Produção,

VBA – virtual basics aplictions, Macros

Estrutura básica de Big Data (Hadoop, Hive/Spark, Sqoop).

Conhecimento avançado em Power BI, Excel e Access

Conhecimento em banco de dados e scripts em SQL

SQL, ferramentas de visualização de dados (Tableau, Looker, QuickSight,

Conhecimento básico de PHP, CSS e HTML.

Conhecimento básico em React;

Excel básico, python ou R básico