Você está na página 1de 14

DATA ANALYTICS FOR BUSINESS

University of Colorado Boulder 


Traduzido por ​Gisele Cristina Costa Jardim 
 
SEMANA 1
A  análise  de  dados  é  um  processo  que  cria  clareza  no  caos.  Ele  nos  permite  entender  o  que  vemos  no  mundo 
real  usando  dados  e  métodos  avançados  junto  com  nosso  intelecto  para  criar  percepções  que  podemos  usar 
para  resolver  problemas  reais.  A  análise  de  dados  nos  ajuda  a  entender  o  que  está  acontecendo,  o  que 
provavelmente  acontecerá  em  seguida  e  o  que  devemos  fazer  a  respeito.  Em  sua  empresa,  você  pode  usar  a 
análise de dados para crescer, se tornar mais lucrativo e criar o máximo valor no mercado e para seus acionistas.  
 

Thinking about Analytical Problems 


A  primeira  pergunta  a  fazer  é  se  você  pode  realizar  uma  análise  que  realmente  influenciará  uma  decisão 
significativa.  Se  você  puder  dizer  algo  como  se  minha  análise  mostra  o  resultado  x,  farei  uma  coisa,  e  se  ela 
mostrar  o  resultado  y  farei  outra  coisa,  e  a  escolha  que  faço  importa,  então  você  está  em  boa  forma.  Se  você 
descobrir  que  provavelmente  toma  a  mesma  decisão,  independentemente  do  resultado, ou que a decisão em si 
realmente não é tão importante, então reconsidere investir em uma análise.  
 

A  próxima  coisa  que você deve pensar é como seria o resultado de sua análise. Que tipo de história eu esperava 


ser  capaz  de  contar?  Como  veria  realmente  o  resultado  x  ou  o  resultado  y  nos  dados?  Existe  uma  tabela  ou 
gráfico  específico  que  ilustraria  a  diferença? Quanto mais específico você puder descrever a saída, melhor. Você 
pode até mesmo esboçar antecipadamente como será sua apresentação final. 
 

Com  uma  visão  clara  do  resultado  em  mente,  você  pode  começar  a pensar na análise em si. Que métodos você 
precisará  aplicar?  Quais  ferramentas  você precisa? Agora que sabemos que tipo de análise você pretende fazer, 
precisamos considerar de onde obteremos os dados necessários para fazê-lo.  
 

Em  primeiro  lugar,  é  possível  que  tudo  já  esteja  feito.  Antes  de  investir  muito tempo e energia, é uma boa ideia 
perguntar  por  aí  para  ver  se  alguém  já  fez  essa  análise  antes.  Ou  se  alguém  já  reuniu  os  dados  de  que  você 
precisa  para  fazer  a  análise.  Se  sim,  você  acabou  de  economizar  muito  trabalho  desnecessário.  Supondo  que 
você  esteja  no  caminho  certo,  você  deseja  delinear  cada  tipo  de  dados  de  que  precisa  em  sua  análise  e 
determinar  se  eles  existem  na  nova  organização  e  como  pretende  obtê-los.  Se  você  tiver  sorte,  tudo  que  você 
precisa  já  foi  colocado  em  um  local  comum,  como  um  data  warehouse  ou  ambiente  de  business  intelligence. 
Nesse caso, pode ser apenas uma questão de extraí-lo para análise.  

No  entanto,  muitas  vezes  nem  tudo de que você precisa é tão fácil de conseguir. Portanto, você terá que pensar 


sobre quais etapas são necessárias para realmente obter os dados, e se é mesmo viável fazer isso. 
 

Em  alguns  casos, pode ser necessário entrar em contato com pessoas fora de sua empresa para obter os dados. 


E  pode  haver  casos  em  que  você  precise  configurar  um  experimento  ou  outro  processo  de  pesquisa  para 
realmente  gerar  os  dados  necessários  contratados  para  análise.  Você  também  precisa  pensar  no  tempo 
necessário  para  obter  os  dados  e  realizar  a  análise,  e  garantir  que  o  cronograma  e  o  investimento  continuem 
fazendo sentido em termos da decisão de negócios que você precisa tomar.  
 

Se  você  precisar  de  uma  resposta  até  sexta-feira  e  a  análise  levar  duas  semanas  para  ser  concluída,  você 
precisa  encontrar  uma  abordagem  diferente.  Depois  de  determinar  que  você  pode  obter  tudo  o  que  precisa  e 
seu  cronograma  é  bom,  é  hora  de  começar.  Agora  você  pode  prosseguir  com  a  coleta  de  dados,  realizando  a 
análise, obtendo o resultado e tomando a decisão de negócios que leva à ação que deseja realizar. 
 

Comece  com  as  decisões  que  deseja  tomar,  determine  quais  resultados  da  análise  ajudariam  a  tomar  essa 
decisão.  Projete  a  análise  que  cria  essas  saídas  e  determine  quais  dados  são  necessários  para  análise  e  como 
obtê-los. 
 

Conceptual Business Models 


O  que é um modelo conceitual de negócios? Um modelo de negócios conceitual é um diagrama que ilustra como 
funciona  um  segmento  de  mercado  ou  negócios.  Ele  mostra  elementos  importantes no negócio e mapeia como 
esses elementos se relacionam entre si. 
 

Como  analista de dados, você trabalhará com dados que descrevem todas as coisas em seu diagrama. Portanto, 
parece  natural  começar  a  olhar  para  cada  elemento  e  se  perguntar  de  onde  vêm  as  informações  sobre  esse 
elemento,  e  começar  a  determinar  se  você  tem  a  capacidade  de  vincular  as  coisas  da  mesma  maneira,  usando 
esses dados. 
 

The Information-Action Value Chain 


Para  que  você  tenha  sucesso  como  profissional  analítico  em  uma  organização  real,  é  fundamental  que  você 
tenha  um  bom  entendimento  prático  de  onde  vêm  os  dados  que  usa  e  quais  fenômenos  do  mundo  real  esses 
dados  descrevem.  Também  é  importante  que  você  entenda  como  os  resultados  de  suas  análises serão usados 
​para  tomar  decisões  e,  em  última  análise,  como  eles  levarão  a  alguma  ação  específica  a  ser  realizada  no 
mercado. 
 

Quanto  melhor  você  compreender  o  valor  de  cada  etapa,  mais  eficaz  será  como  analista.  A  maneira  como 
ilustramos  essa  ideia  é  por  meio de uma estrutura que chamamos de cadeia de valor de ação-informação, que é 
uma  ideia  que  descreve  um  processo  sequencial  onde  cada  etapa  adiciona  algum  tipo  de  valor  a  um objeto ou 
uma ideia relativa a um ponto final ou resultado desejado.  
 

O  ponto  aqui  é  que  para  cada  evento  de  interesse  no  mundo  real,  é  necessário  que  haja  um  sistema  que  o 
capture.  Começaremos  com  a  parte  de  ​cadeia  de  valor​,  que  ocorre  antes da análise. Para analisar um trabalho, 
precisamos  ter  dados,  e  precisamos  de  um  mecanismo  para  capturar  a  representação  física  ou  digital  desse 
fenômeno  do  mundo  real  e  colocá-lo  em  algum  lugar.  Normalmente,  isso  acontece  por  meio  de  algum  tipo  de 
sistema Front-end ou um sistema que interage diretamente com clientes ou objetos físicos.  
 

Precisamos  de  um  sistema  que  capture  cada  evento,  chamamos  de  ​sistema  de  origem​,  acontece  que  muitos 
sistemas  de  origem  são  ótimos  para  capturar  dados,  mas  não  tão  bons  para  análise.  Minha  análise pode exigir 
que  eu  obtenha  informações  de  mais  de  um  sistema  de  origem,  para  isso,  podemos  reunir  os dados em algum 
local  comum,  na  maioria  das  vezes,  esse  local  é  um  sistema  físico  chamado  ​Data  Warehouse​.  ​Vamos  nos 
concentrar  em  algo  que  chamamos  de  Banco  de  dados  relacional  e  em  uma  linguagem  de  programação 
chamada ​Structured Query (SQL)​.  
 

Definindo os três tipos de análise: 


● Análise  Descritiva:  ​ajuda  a  descrever  como as coisas são agora ou o que aconteceu no passado; a ideia 
é  usar  essas  informações  para  entender  melhor  o  ambiente  de  negócios  e como ele  funciona, e aplicar 
esse  conhecimento  junto  com  a visão de negócios para tomar melhores decisões no futuro; essa análise 
pode assumir a forma de agregações simples ou dados de tabulação cruzada.  
● Análise  Preditiva:  ​ajuda  a  pegar  o  que  sabemos  sobre  o  que  aconteceu  no  passado  e  usar  essas 
informações  para  nos  ajudar  a  prever  o  que  acontecerá  no  futuro,  isso  quase  sempre  envolve  a 
aplicação de métodos estatísticos avançados ou outras técnicas numéricas.  
● Análise  Prescritiva:  ​ajuda  a  vincular  explicitamente  a  análise  à  tomada  de  decisão,  fornecendo 
recomendações  sobre  o  que  devemos  fazer  ou  que  escolha  devemos  fazer  para  alcançar  um 
determinado  resultado;  geralmente  envolve  a  integração  de  técnicas  de  otimização  numérica  com 
regras de negócios e até modelo financeiro. 
 

Real World Events and Characteristics 


Acontece  que  quase  tudo  no  mundo  real  pode  ser  transformado  em  dados.  A  tecnologia  está  continuamente 
nos  permitindo  ir  além,  tanto  em  termos  dos  tipos  e  informações que podem ser capturados, quanto do grande 
volume de dados que podem ser capturados e armazenados. 
 

Falaremos  sobre  pessoas:  As  pessoas  possuem  características  que  as  descrevem,  como  idade,  gênero, 
nacionalidade,  etnia,  raça,  estado  civil  e  estado  familiar.  Nível  educacional,  nível  socioeconômico,  status  de 
moradia.  A  lista  continua  e  continua.  As  pessoas  também  têm  preferências, crenças, atitudes e motivações que 
ajudam  a  definir  quem  são.  Eles  podem  não ser óbvios ou fáceis de obter, mas existem e existem métodos para 
capturar informações sobre eles.  
 

Freqüentemente,  agrupamos  essas  características  em  algumas  categorias  amplas  que  você pode encontrar em 
um  contexto  de  negócios.  Ou  seja,  demografia,  psicografia  e  tecnologia.  Os  dados  demográficos  descrevem 
amplamente  as  características  do  nível  da  população,  como  idade,  sexo,  nacionalidade,  etc.  E  são  as 
características  mais  amplamente  utilizadas  em  muitos  tipos  diferentes  de  análise.  Os  psicográficos  falam  mais 
sobre  as  opiniões,  atitudes  e  interesses  das  pessoas.  Eles  incluem preferências, gostos e desgostos e tendem a 
revelar ideias sobre por que as pessoas fazem o que fazem.  
 

A  tecnologia  é  realmente  um  subconjunto  da  psicografia  que  se  concentra  em  como  as  pessoas  abordam  a 
tecnologia  e  quais  são  suas  motivações  e  atitudes  em  relação  ao  uso  de  tecnologias novas e existentes. Todos 
esses  eventos  relacionados  podem  ser  do  interesse  da  empresa  e  do  analista.  Além  das  características,  as 
pessoas  também  possuem  identificadores.  Eles  têm  nomes,  endereços,  números  de  telefone,  endereços  de 
e-mail,  identificadores  de  Facebook  e  Twitter,  e  todos  os  tipos  de  atributos  únicos  que podem ser usados ​para 
identificá-los  no  mundo  real.  Vamos  mudar  um  pouco  das  próprias  pessoas  para  onde  essas  pessoas  estão  e 
para onde vão.  
 

Podemos pensar sobre isso pelo menos de duas maneiras.  


Primeiro,  podemos  pensar  sobre  a  ideia  de  localização  física,  onde  as  pessoas  vivem,  como  se  movem  e  onde 
estão  em  determinado  momento.  As  pessoas  se  deslocam,  elas  viajam.  E  eles  têm  padrões  naturais  de 
movimento em suas vidas diárias. 
 

Também  podemos  pensar  em localização no sentido virtual. As pessoas podem navegar no ambiente online por 


meio  da  navegação  na  web.  Eles  podem  frequentar  determinados  sites ou estar presentes em um determinado 
momento  em  um  local  online.  Claro,  eles  também  estão  acessando  a  web  de  algum  local  físico  e,  graças  à 
conectividade  móvel,  eles  podem  até  se  mover  enquanto  fazem  isso.  Em  muitos  setores,  algumas  das 
informações  mais  importantes  e  freqüentemente  usadas  são  sobre  transações  ou  eventos  que  envolvem  uma 
troca  entre  pessoas  ou  empresas.  De  longe,  a  transação  de  interesse  mais  comum  em  análise  de  negócios  é 
uma compra, o evento em que alguém compra um produto ou serviço que nossa empresa está vendendo. 
 

Falaremos  sobre  objetos:  Os  objetos  também  têm  uma  localização  física  e  podem se mover. Pense no caminho 
de  entrega  de  um  pacote  ou  como  sua  bagagem  se  move  quando  você  voa.  Considere  a  maneira  como  as 
matérias-primas  podem  entrar  na  fábrica  e  passar  progressivamente  por  uma  linha  de  montagem, 
transformadas  em  produto  e  armazenadas.  Também  tendemos  a  vender  produtos  em  e  por  meio  de canais de 
vendas,  como  lojas  ou  sites.  Além  disso,  os  objetos  não  apenas  existem  e  são  movidos,  eles  podem realmente 
fazer coisas, especialmente em máquinas. 
 

Data Capture by Source Systems 


Principais  sistemas  corporativos:  ​geralmente  são  sistemas  de  grande  escala  vinculados  diretamente  às 
operações  financeiras  de  uma  empresa,  esse  sistema  geralmente  se concentra nos recursos da empresa, sejam 
eles ativos financeiros, materiais ou capacidade de produção.  
 

Os  sistemas  de  clientes  e  pessoas  podem  ser  críticos  para  os  negócios,  mas  se  concentram  mais  nas 
organizações  de  pessoas,  tanto  dentro  quanto  fora  da  empresa.  Os  mais  expansivos  desses  sistemas  são  os 

 
sistemas  de  gerenciamento  de  relacionamento  com  o  cliente  ou  CRM.  Os  sistemas  de  CRM  são  usados  ​para 
rastrear  e  gerenciar  as  interações  do  cliente  em  todos  os  pontos  de  contato  e  durante  todo  o  ciclo  de  vida  do 
cliente com a empresa. 
 

Os  sistemas  de  atendimento  ao  cliente  ​geralmente  são  usados  ​por  representantes  de  call  center  ou  outro 
pessoal  que  tem  contato  direto  com  os  clientes.  Eles  geralmente  fornecem  acesso  às  informações  da  conta  do 
cliente,  ofertas  de  marketing  ou  outras  funções  necessárias  para  ajudar  a  preservar  os  clientes.  Eles  também 
ajudam a registrar o que aconteceu durante a interação, incluindo notas e comentários.
 

Os  sistemas  de  recursos  humanos  ​são focados internamente e rastreiam informações sobre os funcionários da 


empresa,  incluindo  informações  de  funções  e  salários,  informações  de  tempo  e  despesas,  executam  suas 
informações de gerenciamento e uma variedade de outros atributos e características do trabalho forçado. 
 

Os  sistemas  de  gerenciamento  de  produtos  ​são usados ​para rastrear informações sobre os próprios produtos. 


Eles  geralmente  contêm  atributos  e  características  do  produto  e  podem  até  conter  informações  descritivas  ou 
voltadas para as vendas que estão vinculadas aos sistemas voltados para o cliente. 
 

Os  sistemas  de  gerenciamento  de  conteúdo  ​são um pouco mais amplos. Eles podem ser usados ​para todos os 


tipos  de  fins  comerciais.  Mas  o  que  eles  fazem  é  organizar  e armazenar conteúdo. O conteúdo pode ser textos, 
documentos,  imagens,  música,  vídeo,  onde  fazemos  praticamente  qualquer  coisa.  Esses  sistemas  geralmente 
disponibilizam  conteúdo  para  qualquer  parte  da  empresa  que  necessite,  desde  equipes  internas até ambientes 
voltados para o cliente, como sites. 
 

Os  sistemas  analíticos  e  de  gerenciamento  da  web  online  ​são  bastante  específicos,  mas  quase  todas  as 
empresas  com  um  site  têm  um.  O  que  esses  sistemas  fazem  é  rastrear como os usuários navegam em um site. 
Eles  ajudam  a  identificar  problemas  com  sites,  influenciam  o  design  do  site  e  medem  a  atividade  e  o 
desempenho. 
 

Os  sistemas  de  operação  técnica  ​são  geralmente  muito  táticos,  ajudando  a  monitorar  processos  ou  outros 
sistemas para garantir que estão funcionando corretamente e para identificar problemas quando ocorrem. 
 
Os  sistemas  de  monitoramento de processo medem o que está acontecendo em cada estágio de um processo, 
como  uma  sequência  de  fabricação  ou  uma  série  de  operações  de  software. Os sistemas de monitoramento de 
alarmes  e  falhas  detectam  anomalias  nos  processos  ou  nas  operações  da  máquina  e  alertam  as  pessoas  ou 
outros sistemas que uma ação ou atenção é necessária. 
 

Telemática  e  sistemas  de  processamento  de  dados  de  máquina  ​capturam  dados  diretamente  de  máquinas  e 
dispositivos  onde  quer  que  estejam  e  alimentam  todos  os  tipos  de outros sistemas, incluindo os que acabamos 
de  descrever.  Esse  tipo  de  dados  é  particularmente  estimulante  para  a  comunidade  analítica,  à  medida  que 
ideias como a internet das coisas e a casa conectada se tornam realidade. 
 

SEMANA 2 
Data Storage and Databases 
Onde  armazenamos?  Considerando  que  estamos  potencialmente  capturando  grandes  quantidades  de  dados 
em  nossos  sistemas  de  origem.  É  natural  perguntar  para  onde  diabos  vão  todas  as  coisas?  Bem, acontece que 
cada  fonte  geralmente  tem  seu  próprio  sistema  de  armazenamento  para  armazenar  dados  relevantes  a  esse 
sistema. Infelizmente, isso não é necessariamente ideal para nós, analistas, por alguns motivos.  
 

Em  primeiro  lugar,  é  provável  que  o  sistema  de  armazenamento  da  origem  seja  otimizado  para  desempenho 
funcional,  não  para  extração  e  análise  de  dados.  Como  exemplo,  você  pode  ter  visto os termos processamento 
transacional  online  ou  OLTP.  Esses  termos  se  referem  a  sistemas  de  armazenamento  que  são  otimizados para 
operações e transações de negócios versus aqueles que são otimizados para análises. 
 

Embora  seja  possível  realizar  análises  em  sistemas  transacionais,  geralmente  é  muito  mais  fácil  fazê-lo  em 
sistemas  analíticos.  O  segundo  desafio  com  os  sistemas  de  armazenamento  de  origem  é  que  eles  geralmente 
contêm  muito  mais  informações  do  que  realmente  precisamos  para  análises.  Não  é incomum que um banco de 
dados  de  origem  contenha  todos  os  tipos  de  dados  de  trabalho  internos  que  realmente  não  têm  uso  fora  da 
operação do sistema.  
 

Por  fim,  como  os  sistemas  de  origem  geralmente  lidam  com  volumes  muito  altos  de  dados,  eles  podem  não 
armazenar  dados  por  muito  tempo  para  otimizar  o  desempenho  geral  desse  sistema.  Isso  significa  que,  se 
quisermos  que  os  dados,  ou  algum  subconjunto  dos  dados,  estejam  disponíveis  por  um  período  mais  longo, 
precisamos  pegá-los e colocá-los em um local de armazenamento de longo prazo. ​Uma solução comum é reunir 
dados  em  um  local  de  armazenamento  separado, este pode ser um repositório central de dados, onde os dados 
são colocados fisicamente; também pode ser um repositório virtual, onde os dados estão fisicamente localizados 
em locais diferentes, mas aparecem para o usuário como se estivessem em um local comum.  
 

Como armazenamos? Um arquivo de texto delimitado contém dados que representam uma tabela bidimensional 
com  colunas  e  linhas.  Esses  dados  em  si  são  armazenados  como  texto  com  quebras  entre  as  colunas  e linhas, 
identificados  por  meio  de  caracteres  específicos  ou  códigos  de  formatação  chamados  delimitadores;  os 
delimitadores  mais  comuns  são  vírgulas,  tabulações  e  barras  verticais;  a  barra  vertical  é  o  caractere  da  linha 
vertical que você vê no teclado. 
 

Um  segundo  tipo  de  arquivo  é  uma  Linguagem  de  marcação  extensível  ou  arquivo  XML.  XML  é  uma  estrutura 
flexível  de  codificação  de  documentos  e  dados  que  foi  desenvolvida  no  final  dos  anos  90,  principalmente  para 
facilitar  o  compartilhamento  de  dados  pela  Internet,  no  entanto, ele possui uma ampla variedade de aplicativos, 
desde  páginas  da  web  até  aplicativos  e  sistemas  de  mensagens. O bom do XML é que ele é um padrão comum 
e  permite  uma  estruturação  de dados mais complexa do que estou fazendo no arquivo de texto; a desvantagem 
é que requer uma interface mais sofisticada para interpretar os dados e a estrutura para análise. 
 

Um  terceiro  tipo de arquivo é um arquivo de log. Os arquivos de log são geralmente usados ​para capturar dados 


de eventos de um sistema e são comuns em dados de máquina, mensagens e aplicativos de análise da web.  
 

A  vantagem  dos  arquivos  de  log  é  que  eles  são  muito  flexíveis,  podendo  capturar  praticamente  qualquer 
estrutura  de  dados  desejada.  No  entanto,  isso  ocorre  às  custas  de  um  processo  muito  mais  complicado  de 
leitura  e  uso  dos  dados;  na  verdade,  existem  ferramentas  de  software  específicas  que  se  especializam  em 
analisar arquivos de log. 
 

O  último  tipo  de  arquivo  de  dados  que  discutiremos  é,  na  verdade,  uma  classe de arquivos que são específicos 
para  ferramentas  comuns  de  análise  de  dados.  A  maioria  das  ferramentas  tem  seus  próprios  formatos  de 
arquivo  proprietários  para  armazenar dados, junto com outras informações chamadas metadados, que descreve 
cálculos,  operações  ou  outros  atributos  dos  próprios  dados,  de  longe,  o  mais  comum  deles  é  o  arquivo  de 
planilha do Microsoft Excel. 
 
Um  ​banco  de  dados  ​é  simplesmente  uma  coleção  organizada  de  dados.  Quando  dizemos  banco  de  dados, 
normalmente  estamos  nos  referindo  à  estrutura  e  ao  design de um ambiente de dados, bem como aos próprios 
dados.  Um  banco  de  dados  busca  armazenar  dados  de  uma forma mais complexa do que seria possível em um 
arquivo  de  dados.  Especificamente,  um  banco  de  dados  geralmente  armazena  várias  entidades  de  datas 
diferentes  com  algumas  informações  unificadas  sobre  como  essas  entidades  são  organizadas  ou  relacionadas. 
Isso permite o acesso a uma ampla gama de informações em um ambiente comum. 
 

Normalmente,  um  banco  de  dados  é  construído  usando  um  sistema  de  gerenciamento  de  banco  de  dados  ou 
DBMS.  Um  sistema  de  gerenciamento  de  banco  de  dados  é um aplicativo de software usado para criar, manter 
e  acessar  bancos  de  dados.  Um  ​sistema  de  arquivos  é  basicamente  o  equivalente  digital  de  um  arquivo 
organizado.  Pense  em  seu próprio computador, é assim que você provavelmente armazena a maioria das coisas 
em  seu  PC  ou  Mac.  O  bom  de  um  sistema  de  arquivos  é  que  posso colocar praticamente tudo o que quero lá e 
apenas  anotar  seu  nome  e  localização  para  que  possa  encontrá-lo  mais  tarde.  Os  sistemas  de  arquivos  são 
atraentes  porque  podem  lidar  com  todos  os  tipos  de  informações,  incluindo  o  que  chamamos  de  dados  não 
estruturados.  
 

A  desvantagem  de  armazenar  dados  em  sistemas  de  arquivos  é  que  não  é  tão  óbvio  como  os  dados  foram 
acessados,  visto  que  você  está enviando vários locais de arquivos diferentes. Também não está claro como faço 
a  análise  de dados em algo como um documento, foto ou vídeo sem algum tipo de processamento intermediário 
para  transformá-lo  em  algo  mais  estrutural.  Um  exemplo  importante  de  sistema  de  arquivos  é  o  Hadoop 
Distributed File System ou HDFS, que é uma manifestação de big data do conceito de sistema de arquivos. 
 

Tipos de arquivo: 
Existem  vários  tipos  de  bancos  de  dados  mas;  de  longe  o  mais  comum  é  o  Banco  de  Dados  Relacional.  O 
conceito  básico  por  trás  dos  bancos  de  dados  relacionais  é  que  armazenamos  informações  em  tabelas 
bidimensionais  e,  em  seguida,  encontramos relacionamentos específicos entre essas tabelas, acontece que essa 
pode  ser  uma  maneira  realmente  eficiente  e  eficaz  de  armazenar  dados  que  é  muito  fácil  de  entender,  o  que 
contribui para sua popularidade. 
 

Quatro bancos de dados alternativos comuns: 


● Um  banco  de  dados  de  grafos  é  baseado  na  teoria  dos  grafos  ou  no  estudo  de  relacionamentos 
para-sábios  entre  objetos.  Esses  bancos  de  dados  tendem  a  funcionar  bem  com  dados  altamente 
interconectados,  como  relacionamentos  entre  pessoas  ou  locais,  e  têm  aplicativos  em  análise  de  redes 
físicas e sociais. 
● Um  armazenamento  de  documentos,  como  o  próprio  nome  sugere,  geralmente  é  projetado  para 
armazenar  documentos,  junto com peças-chave de metadados que descrevem esses documentos. É útil 
para  armazenar  dados  não  estruturados  ou  diferentes tipos de dados de uma forma um pouco mais útil 
do que um sistema de arquivos típico. 
● Bancos  de  dados  colunares  são  mecanismos  de  armazenamento  que  buscam  melhorar  o desempenho 
do  acesso  aos  dados.  Concentrando-se  em  colunas  de  tabelas  de  dados,  em  vez  da  abordagem 
baseada em linha de sistemas de banco de dados relacionais. 
● Os  armazenamentos  de valores-chave são muito simples, mas maneiras eficientes de armazenar dados. 
Eles  armazenam  informações  em  pares  muito  pequenos.  Normalmente,  uma  chave  e  um  valor.  Este 
método  de  armazenamento  de dados é muito flexível, pois não requer o design e a estrutura extensa de 
outros tipos de banco de dados. 
 

Virtualization, Federation, and In-Memory Computing 


A  ideia  por  trás  da  virtualização  de  dados  é  que  mantemos  os  dados  de  origem  onde  estão  para  cada  origem, 
mas  fazemos  com  que  pareça  que  todos os dados estão em um só lugar e permitimos que os usuários acessem 
esses dados usando uma interface comum.  
 

Com  a  virtualização  de  dados,  não  buscamos  necessariamente  alterar  os  dados  ou  integrar  dados  de  várias 
fontes.  Mas  tornamos  muito  mais  simples  para  os  usuários  obtê-lo  sem  ter  que  se  preocupar  com  detalhes  do 
formato de dados e da tecnologia subjacentes.  
 

Uma  vantagem  da  virtualização  de  dados  é  que  podemos  evitar  ter  que  armazenar  dados  em  vários  locais, 
nomeadamente  no  sistema  de  origem  e  em  algum  banco  de  dados  de  destino.  Outra  vantagem  é  que  as 
alterações  nos  dados  de  origem  geralmente  são  refletidas  imediatamente  na  camada  de  acesso  do  usuário,  já 
que não preciso esperar que os processos ETL sejam executados e mova os dados de um lugar para outro. 
 

No entanto, a virtualização de dados tem algumas limitações.  


 
Em  primeiro  lugar,  embora  remova  uma  camada  de  dados  no  ambiente,  ele  adiciona  uma  camada  de 
processamento  e  pode  levar  mais  tempo  para  executar  as  operações  de  extração  de  dados,  uma  vez  que essa 
camada  adicional  deve  traduzir  as  instruções  do  usuário  para  qualquer  idioma  apropriado  para  as  fontes  em 
questão.  Além  disso,  se  qualquer  limpeza  de  dados  ou  operações  de  transformação  complexas  forem 
necessárias,  esses  processos  serão  adicionados  à  carga  de  processamento  e  podem  desacelerar  ainda  mais  o 
acesso, nesses casos, pode ser melhor usar processos ETL mais tradicionais. 
 

Novamente,  a  virtualização  de  dados  por  si  só  faz  com  que  os  dados  pareçam  estar  em  um  só  lugar,  não  faz 
sentido,  necessariamente,  como  os  dados  de  diferentes  fontes  se  relacionam,  o  que  é  uma  das  principais 
vantagens de construir um banco de dados centralizado.  
 

É  aqui  que  entra a federação de dados. Com a federação de dados, não apenas fazemos com que pareça que os 


dados  estão  em um só lugar, mas realmente ajustamos esses dados em um modelo de dados integrado comum. 
Realizamos  todas  as  mesmas  transformações  e  estabelecemos  todos  os  mesmos  relacionamentos  entre 
entidades  de  dados  que  faríamos  em  um  banco  de  dados  físico,  mas  fazemos  tudo  virtualmente,  ou  seja,  sem 
realmente mover os dados. 
 

As  vantagens  da  federação  de  dados  são  semelhantes  às  da  virtualização  de  dados,  com  o  benefício adicional 
de  apresentar  ao  usuário  uma  visão  mais  integrada  dos  dados  de  várias  fontes,  obviamente,  isso  acarreta  um 
processamento  ainda  mais  complexo  que  pode  resultar  em  um  desempenho  mais  lento  quando  os  dados  são 
acessados  ​ou  extraídos.  Tanto  a  virtualização  quanto  a federação de dados geralmente são realizadas por meio 
de  aplicativos  de  software  especializados  que  se  conectam  a  uma  variedade  de sistemas de origem diferentes. 
Embora  eliminem  a  necessidade  de  mover  dados  usando  processos ETL, eles ainda requerem desenvolvimento 
e manutenção para estabelecer essas conexões e apresentar uma visão unificada dos dados aos usuários. 
 

As  outras  duas  ideias  que  queremos  discutir,  computação  em  memória  e  análise  em  banco  de  dados,  são  um 
pouco  diferentes  porque  buscam  maximizar  o  desempenho  das  operações  analíticas  em  vez  de  minimizar  a 
movimentação  de  dados  no  armazenamento  físico.  Com  a  computação in-memory, todos os dados necessários 
para  análise  são  carregados  na  memória  de  acesso  aleatório  de  um  computador  ou  servidor,  ou  RAM,  onde 
podem ser acessados ​muito rapidamente.  
 

Normalmente, toda uma estrutura de dados, incluindo relacionamentos entre entidades de dados, é armazenada 
e  disponibilizada  para  fins  analíticos.  A  vantagem  dessa  abordagem é obviamente a velocidade. Como analista, 
posso  aplicar  técnicas  complexas  aos  dados  em  muito  menos  tempo  do  que  levaria  se  tentasse  acessar  os 
dados  armazenados  no disco localmente ou em um servidor remoto, e uma vez que os dados estão na memória, 
posso  tentar  muitas  coisas  diferentes  sem  ter  que  esperar  muito  entre  cada  tentativa,  isso  permite  esforços 
analíticos que requerem exploração e tentativa e erro para serem realizados. 
 

The Relational Database 


Os  aplicativos  que  executam  bancos  de  dados  relacionais  são  chamados  de  sistemas  de  gerenciamento  de 
banco  de  dados  relacional  ou RDBMS. Embora existam tipos de banco de dados emergentes, se você quiser ser 
um  analista  eficaz  na  maioria  das  organizações,  quase  certamente  precisará  entender  o  que  são  bancos  de 
dados relacionais, como funcionam e como extrair dados deles. 
 

Em  bancos  de  dados  relacionais,  armazenamos  informações  em  tabelas  e,  em  seguida,  definimos 
relacionamentos  específicos  entre  essas  tabelas.  Uma  tabela  é  uma  estrutura  bidimensional  que  armazena 
dados  em  linhas  e  colunas.  A  maioria  dos  bancos  de  dados  relacionais  são  orientados por linha, o que significa 
que  as  idéias  ou  itens  descritos  na  tabela  são  armazenados  em  linhas,  com  as  colunas  das  tabelas  contendo 
atributos que descrevem as idéias ou itens de interesse. 
 

Data Tools Landscape 


Ferramentas  de  relatório  padrão  são usadas para fornecer um uso repetitivo estável de dados. Normalmente, os 
relatórios  padrão  são  criados  depois  que  já  identificamos  uma  maneira  específica  de  ver  os  dados  que 
consideramos  útil  ou  esclarecedora.  Usamos  ferramentas  de  relatórios  para  automatizar  a  geração  desses 
relatórios  periodicamente.  Mensalmente,  semanalmente,  diariamente,  de  hora  em  hora,  então  não  temos  que 
fazer  isso  anualmente.  Esses  relatórios  podem  ou  não  fornecer  algumas  funções  manipuladas  limitadas,  como 
filtragem  ou  capacidade  de  redução,  e  geralmente  são  direcionados  a  empresas  e  usuários.  Ferramentas  de 
relatórios  padrão  foram  algumas  das  primeiras  ferramentas  de  inteligência  de  negócios  criadas  e já existem há 
um bom tempo. Embora o nível de sofisticação e usabilidade tenha aumentado substancialmente com o tempo. 
 

A  ideia  de  painel  é  uma  extensão  do  relatório  padrão.  À  medida  que  mais  e  mais  relatórios padrão são criados 
em  uma  organização,  fica  mais  difícil  isolar  as  informações  mais  importantes  de  que  um  executivo  ou  outro 
tomador  de  decisão  pode  precisar  para  dar  sentido  ao  negócio.  Uma  solução  para  esse  problema  é  pegar  um 
subconjunto  de  relatórios  e  apresentá-los  em  uma  visão  simplificada  que  permite  que  as  métricas  mais 
importantes  sejam  rapidamente  identificadas  e  interpretadas.  Os  painéis  também  tendem a ser um pouco mais 
dinâmicos  e  podem  apresentar  informações  mais  oportunas  do  que  alguns  relatórios  padrão.  Como  o  nome 
sugere,  a  analogia  aqui  é  o painel do seu carro, que permite que você veja as coisas mais importantes que estão 
acontecendo enquanto você dirige. 
 

A  visualização  de  dados  é  o  processo  de  organizar os dados de forma que possamos ver mais facilmente o que 


está acontecendo e desenhar conclusões com base no que vemos. 
Essas  ferramentas  facilitam  a  agregação  e  manipulação  de  dados  e  fornecem  um  espectro  de  técnicas  de 
visualização  avançada  para  o  usuário.  Na  verdade,  essas  ferramentas  estão  se  tornando  rapidamente  os 
aplicativos de curso de trabalho em muitas organizações de análise de negócios. 
 

A  exploração  de  dados  é  uma  extensão  inteligente  da  ideia  de  visualização  de  dados.  As  ferramentas  de 
exploração  de  dados  buscam  orientar  proativamente  o  analista  de  dados,  digitalizando  automaticamente  os 
dados  e  fornecendo  pistas  ou  sugestões  sobre  o  que  o  analista  de  dados  pode  olhar  a  seguir.  Eles  também 
fornecem  ferramentas  de  navegação  avançadas  que  permitem  ao  analista  explorar  com  eficiência  um conjunto 
de  dados.  Esses  recursos  são  geralmente  integrados  a  algumas  das  mesmas  ferramentas  especializadas  em 
visualização de dados. 
 

A  última  classe  de  ferramentas  que  apresentaremos  são  ferramentas  de modelagem estatística e programação 


avançada.  Essas  ferramentas  são  usadas  para  executar  procedimentos  analíticos  altamente  sofisticados  em 
dados,  geralmente  usando  técnicas  estatísticas.  Eles  são  as  principais  ferramentas  dos  cientistas  de  dados  e 
também  uma  parte  importante  do  kit  de  ferramentas  do  analista  de  dados. Eles variam de pacotes de software 
orientados  por  interface  altamente  integrados  a  ambientes  de  programação  bruta  onde  analistas  podem 
manipular dados diretamente usando uma ou mais linguagens de programação. 
 

The Tools of the Data Analyst 


Vamos  chamar  o  primeiro  método  de  abordagem  de  arquivo intermediário. Nesta abordagem, extraímos dados 
de  um  banco  de  dados  ou  outro  local  onde  os  dados  são  armazenados  e  exportamos  os  dados  de  que 
precisamos para um arquivo independente, como um arquivo de texto ou arquivo Excel. Isso geralmente envolve 
escrever  código  SQL  no  banco  de  dados  para  extrair  apenas  os  dados  de  que  precisamos.  Em  seguida, 
importamos  os  dados  para  uma  ferramenta  analítica  como  o  Excel,  uma ferramenta de inteligência de negócios 
ou  um  pacote  de  software  estatístico  ou  ambiente  de  programação.  Uma  vez  que  os  dados estão no ambiente 
analítico,  posso  executar  qualquer  tipo  de  análise desejada. Observe que essa abordagem pressupõe que todos 
os dados de que preciso já estão integrados em um ambiente de banco de dados. 
 

Um  segundo  método  pode  ser  chamado  de  abordagem  de  conexão  direta.  Com  essa  abordagem,  conectamos 
nossa  ferramenta  analítica  diretamente  a  um  banco de dados ou outra fonte de dados usando o que é chamado 
de  conectividade  de  banco  de  dados  aberto,  ou  conexão  ODBC,  ou  alguma  outra  interface  de  programa  de 
aplicativo ou conexão API. 
 

Em  termos  gerais,  APIs  são mecanismos padrão para troca de informações entre programas e ODBC é um caso 


especial de API usada para conectar-se a bancos de dados. 
 

Vamos  passar  para  as  ferramentas  de  business  intelligence,  que  incluem  relatórios  padrão,  visualização  de 
dados  e  ferramentas  de  exploração  de  dados.  Essas  ferramentas  são  uma  boa  escolha  para  uma  ampla 
variedade  de  necessidades  analíticas  destinadas  a  tornar  a  manipulação  complexa  de dados mais fácil e rápida 
do que outras ferramentas.  
 

Nem  é  preciso  dizer  que  a  análise  requer  exploração  extensiva  ou  técnicas  de  visualização  avançadas. 
Ferramentas  adequadas  para  essas  operações  produzirão  melhores  resultados.  As  ferramentas  de  business 
intelligence  também  são  preferíveis  nos  casos  em  que  a  saída  da  análise  será  amplamente  compartilhada  ou 
transformada  em  um  relatório  padrão,  pois  geralmente  incluem  uma  funcionalidade  de  distribuição  de 
agendamento  mais  avançada.  A  modelagem  estatística  e  as  ferramentas  de  programação  avançadas  são  a 
escolha  óbvia  quando  precisamos  fazer  análises  altamente  sofisticadas,  especialmente  usando  técnicas 
analíticas avançadas. 
 

SEMANA 3 
Introduction to SQL 
Então,  o  que  é  SQL?  Como  os  próprios  bancos  de  dados  relacionais,  o  SQL  foi desenvolvido no início dos anos 
1970  para  ajudar  os  usuários  a  manipular  e  extrair  dados  desses  bancos  de  dados.  É  uma linguagem baseada 
na  álgebra  relacional,  que  é  um  conjunto  de  operações  matemáticas  que  falam  sobre  como  as  coisas  se 
relacionam,  como  cruzamentos,  uniões  e  diferenças.  o  SQL  é,  na  verdade,  uma  linguagem  muito  mais  ampla, 
que  pode  ser  usada  para  criar  e  manipular  dados  dentro  de  um  banco de dados, usando definição de dados ou 
operações  de  manipulação  de  dados.  A  ideia  por  trás  de  uma  consulta  SQL  é  extrair  apenas  os  dados  que 
queremos de uma tabela de banco de dados ou conjunto de tabelas.  

Comandos mais usados: 


 
 

● O  comando  SELECT  definem  quais  atributos,  colunas  ou  campos  eu  desejo  extrair  da  tabela. 
Normalmente  não  estou  interessado  em  todos  os  atributos  de  uma  tabela,  então  select  me  permite 
trazer de volta apenas aqueles que preciso.  
● O  comando  FROM  define  a  tabela  da  qual  desejo  extrair  os  dados.  Os  comandos  SELECT  e  FROM 
trabalham  juntos  e  são  necessários  em  todas  as  consultas  SQL.  Todos  os  outros  comandos  são 
opcionais.  
● O  comando  where  adiciona  filtros  que  restringem  quais  linhas  de  dados  são  extraídas  da  tabela. 
Semelhante  à  maneira  como  o  comando  SELECT  retorna  apenas  as  colunas  que  desejo,  o  comando 
WHERE retorna apenas dados com base nas linhas que desejo incluir.  
● O  comando  GROUP  BY  é  usado  para  definir  o  nível  de  agregação  que  desejo no conjunto de dados de 
saída.  
● Se  eu  quiser  dados  agregados  e  quiser  filtrar  ainda  mais  o  conjunto  de  saída  com  base  nessas 
agregações,  uso  o  comando  HAVING.  O  comando  HAVING  é semelhante ao comando WHERE, exceto 
que opera em linhas agregadas de dados versus as linhas subjacentes da tabela do banco de dados.  
● Finalmente,  o  comando  ORDER  BY  permite  definir  como  desejo  que  o  conjunto  de  saída  seja 
classificado. 

Aggregating and Sorting Data in SQL 


O  que  queremos  dizer  quando  falamos agregações de dados? Uma agregação basicamente pega os valores em 
várias linhas de dados e retorna um valor.  
 

● Função MAX: analisa um conjunto de valores e retorna o maior entre eles.   

●  

SELECT 
max(exemplox) 
FROM 
exemploy 
 

● Função MIN: analisa um grupo de valores e retorna o menor entre eles.  

●  

SELECT 
min(exemplox) 
FROM 
exemploy
 
 

● Função SUM: realiza a soma dos valores em uma única coluna e retorna esse resultado.  

SELECT 
sum(exemplox) 
FROM 
exemploy 
WHERE 
z=1  

● Função AVG: podemos calcular a média aritmética dos valores em uma única coluna.  

●  

SELECT 
avg(exemplox) 
FROM 
exemploy  

● Função COUNT: retorna o total de linhas selecionadas. 


●  

SELECT 
count(exemplox) 
FROM 
exemploy 
WHERE 
z=1  
● Função GROUP BY: dividimos os registros que serão agregados em grupos de valores.  

●  

SELECT 

max(exemplox) 
FROM 
exemploy 
GROUP BY ​z  

● Função  HAVING:  em  conjunto  com  group  by,  usamos  para filtrar os resultados que serão submetidos à 


agregação. 
SELECT 

max(exemplox) 
FROM 
exemploy 
GROUP BY​ z 
HAVING m ​ ax(exemplox) > 10  

Extracting Data from Multiple Tables 


Com  frequência,  vamos  ser  obrigados  a  obter  dados  de  diversas  tabelas  e,  para  selecionar  campos  de  várias 
tabelas,  precisamos  informar  o  seguinte:  o  nome  de  cada  tabela,  os  nomes  dos  campos  dos  quais  estamos 
selecionando os dados e o relacionamento entre as tabelas.   

Um exemplo do Macoratti:  
Supondo  que  desejamos  obter  o  nome  e  a  nota  de  cada  aluno  do  banco  de  dados  Escola.mdb,  os  dados  que 
desejamos  encontram-se  em  duas  tabelas:  Tblalunos  (o  nome  do  aluno),  Tblnotas  (o código do curso e a nota). 
A sintaxe para o comando SQL extrair esse dado: (nome e nota, ordenados pelo nome do aluno) é: 
 

SELECT T​ blalunos.nome, Tblnotas.nota 


FROM T
​ blalunos ​INNER JOIN T
​ blnotas ON Tblalunos.codaluno = Tblnotas.codaluno  
ORDER BY​ Tblalunos.nome;  

 
Abordaremos três tipos de Joins:  
● Inner  Join:  retorna  apenas  linhas  de  dados onde há uma correspondência de valor de chave comum. Em 
outras palavras, quando os valores específicos no campo-chave são os mesmos em ambas as tabelas. 
● Full  Outer  Join:  completa  retorna  todas  as  linhas  de  dados  de  ambas  as  tabelas,  haja  ou  não  uma 
correspondência de valor-chave entre elas. 
● Left  Join:  retorna  todas  as  linhas  de  dados  em  uma  tabela  e  adiciona  dados  de  quaisquer  linhas  na 
segunda tabela onde há uma correspondência de valor-chave.  

Stacking Data with UNION Command 


O  objetivo  desse  comando  é  combinar  os  resultados  de  duas  consultas,  ou  seja,  usamos  quando  queremos 
combinar  duas  colunas similares a partir de tabelas que não estão relacionadas. Em uma consulta ONION, todas 
as colunas correspondentes devem possuir o mesmo tipo de dado. 
 

SELECT​ x, y, z 
FROM w ​  
UNION 
SELECT x​ , y, z 
FROM​ v   

 
 

Extending SQL Queries Using Operators 


Existem três tipos de operadores, vamos falar sobre eles: 
● Operadores  de  comparação:  Os  operadores  de  comparação  ajudam  a  descobrir  se  uma 
condição  entre  dois  campos  ou  funções  de  campos é verdadeira ou falsa. Para usar operadores 
de comparação, nós os colocamos entre dois campos, funções e campos ou valores fixos. 
 
 

● Operadores  aritméticos:  Podemos  usar  operadores  aritméticos  de  duas  maneiras  diferentes. 
Podemos  usá-los  em  conjunto  com  operadores  de  comparação  em  where  e  com  instruções 
para construir condições mais complexas como essas. 
 
 

● Operadores  lógicos:  Quase  todos  eles  são  usados  ​principalmente  em  cláusulas,  pois  estamos 
tentando definir condições específicas para hesitação de linha ou agregado.  
 

 
 
Using SQL Subqueries 
Existem  alguns  motivos  pelos  quais  podemos  usar  subconsultas.  Na  análise  de  dados,  geralmente  tentamos 
vários  dados  de  alguma  forma  exclusiva  imediatamente  pela  primeira  vez.  Conforme  pensamos  na  melhor 
maneira  de  extrair  os  dados,  podemos  ter  várias  etapas  que  queremos  isolar  na  tarefa  para  ter  certeza  de que 
estão  fazendo  exatamente  o  que  queremos  que  façam.  Construir  consultas  e  peças  de  dentro  para  fora  pode 
nos permitir testar cada etapa com mais eficácia e chegar ao resultado final com mais rapidez.  

Analytical Organizations - Roles 


Vamos  descrever  as  principais  atividades  funcionais  que  ocorrem  em  um  ambiente  de  dados  real. 
Especificamente, arquitetura de dados, gerenciamento de dados, relatórios, análise e modelagem Ad-Hoc. 
 

● Arquitetura  de  dados  refere-se  ao  design  no  ambiente  de  dados  para  atender  às  necessidades  da 
empresa. 
● O gerenciamento de dados envolve a construção e manutenção reais do ambiente de dados. 
● Os  relatórios,  como  discutimos  no  módulo  dois,  permitem  renderizações  periódicas padrão de métricas 
específicas ou relacionamentos de dados. 
● A  análise  ad-hoc  se  refere  amplamente  à  análise  direcionada  que  busca  responder  a  uma  pergunta 
específica,  especialmente  uma  que  seja  nova  ou  pouco  frequente.  Se  nos  pegamos  fazendo  a  mesma 
coisa  repetidamente,  estamos realmente fazendo reportagens. No entanto, há uma ligação natural entre 
análises ad-hoc e relatórios. 
● Finalmente,  a  modelagem  se  refere  à  análise  avançada  ou  aplicação  de  dados  usando  técnicas  de 
ordem superior, incluindo procedimentos estatísticos.  
 

Agora  que  temos  uma  noção  das  funções  gerais  executadas  no  ambiente  de  dados,  vamos  falar  sobre  as 
equipes  ou  funções  específicas  que  oferecem  suporte  a  todas  essas  funções.  Começaremos  com  funções 
centradas em TI mais técnicas e avançaremos para funções mais analíticas e relacionadas aos negócios.  

Vamos  começar  com  algumas áreas de suporte de TI altamente técnicas, uma delas é infraestrutura. As equipes 


de  infraestrutura  gerenciam  o  hardware  físico  e  as  conexões  existentes  dentro  da  empresa  e  que se conectam 
com  o  mundo  externo.  A  maior  parte  dessa  atividade  provavelmente  será  transparente  para  os  usuários  dos 
dados, mas é crítica para a operação do ambiente de dados.  

Outra  área  é  o  desenvolvimento  de  sistemas  e  aplicativos  na  administração.  Essas  equipes  criam  e  mantêm 
sistemas  que  capturam  informações  para  o  negócio.  Eles  também  podem  fornecer  funções  auxiliares,  como  TI 
corporativa, que ajudam a administrar software e outras ferramentas.  

Há  outro  conjunto  de  funções  técnicas  que  estão  mais  diretamente  associadas  ao  ambiente  de  dados. 
Chamaremos  essas  funções  de  gerenciamento  de  dados  técnicos  e  entrega  de  inteligência  de  negócios.  O 
primeiro  deles  é  o  arquiteto  de  dados.  O  arquiteto  de  dados  é  responsável  pelo  design  real  do  ambiente  de 
dados  e  geralmente  é  a  pessoa  responsável  por  estruturar  os  modelos  de  dados  usados  ​em  bancos  de  dados 
corporativos  para  armazenamento  e  acesso  de  dados.  Essa  função  normalmente  é  encontrada  em  uma 
organização de TI em uma equipe de data warehouse ou em uma equipe maior de arquitetura corporativa.  

Uma  segunda  função  é  a  do  administrador  de banco de dados ou DBA. O DBA é amplamente responsável pelo 


próprio  banco  de  dados.  Incluindo  a  criação  do  banco de dados e manutenção do banco de dados para garantir 
estabilidade,  acessibilidade  e  desempenho  eficiente.  Uma  função  importante  que  o  DBA  também  pode 
desempenhar  é  ajudar  o  analista  ou  outros  usuários  de  banco de dados a ajustar suas consultas para execução 
eficiente.
 

Uma terceira função nesta área é a do desenvolvedor ETL, ou mais geralmente, um desenvolvedor de integração 
de  dados.  Como um lembrete, ETL significa extrair, transformar e carregar, ou o processo de pegar dados de um 
lugar,  manipulá-los  e  colocá-los  em  outro  lugar.  Esses  desenvolvedores  são  amplamente  responsáveis  ​por 
preencher  um  banco  de  dados  e  garantir que os dados sejam carregados corretamente nas várias estruturas de 
banco de dados.  

A  última  função  que  discutiremos  nesta  área  é  a  inteligência  de  negócios  ou  desenvolvimento  de  BI.  O 
desenvolvedor  de  BI  fica  bem  no  limite  do  que  a  maioria  das  organizações  considera  uma  função  de  TI.  Essa 
função  pode  assumir  algumas  formas  diferentes,  mas  geralmente  o  Desenvolvedor  de  BI  gerencia  alguns  dos 
aspectos  mais  técnicos  de  um  conjunto  de  ferramentas  de  business  intelligence,  incluindo  manutenção.  E  é 
frequentemente responsável pela implementação técnica e distribuição de relatórios padrão. 
 

Vamos  passar  para  alguns  rolos  mais  alinhados  com  a  manipulação  e  análise  de dados. O primeiro é o analista 
de  banco  de  dados,  que  é  alguém  que  tem  as  habilidades  para  acessar  o  banco  de  dados  diretamente, 
geralmente  escrevendo  consultas  SQL,  e  que  pode  ter  a  habilidade  de  fazer  pelo  menos  algumas  análises  nos 
dados.  Um analista de dados pode ou não acessar o banco de dados diretamente, mas geralmente tem contexto 
adicional  suficiente  sobre  o  negócio  para  executar  uma  ampla  gama  de  análises  nos  dados  e  tirar  uma 
conclusão.  Essa  é  a função central em torno da qual a maioria das funções de análise de dados giram em muitas 
organizações.   

 
 

O  modelador  é  uma  extensão  mais  qualificada  do  analista  de  dados.  O  modelador  normalmente  passa a maior 
parte  do  tempo  realizando  análises  preditivas  e  prescritivas  de  dados  usando  técnicas sofisticadas que são um 
pouco mais avançadas do que uma função básica de analista de dados. 
 

A  última  função  nesta  área  é  um pouco diferente e muitas vezes mal compreendida. Essa é a função do analista 


de  negócios.  A  análise de negócios não é realmente uma função de análise de dados, é o processo de análise de 
como  um  negócio  funciona,  normalmente  com  o  objetivo  de  identificar  maneiras  pelas  quais  um  processo  ou 
sistema  de  negócios  pode  ser  aprimorado.  Às  vezes,  a  análise  de  negócios  incorpora  dados,  mas,  ao  contrário 
da análise de dados, não é realmente o objetivo principal. 
 

Analytical Organizations - Structures 


A  maneira  como  as  equipes  analíticas  são  estruturadas  dentro  de  uma  organização  tende  a  depender  de  uma 
questão básica. Quão centralizadas ou descentralizadas devem ser essas organizações? As atividades analíticas  
devem  ser  reunidas  em  uma  equipe  ou  devem  ser  incorporadas  a  várias  equipes?  Como você pode imaginar, a 
resposta depende de vários fatores diferentes. 
 

Começaremos  com  um  ​modelo  totalmente  centralizado​,  onde  alguns  conjuntos  de  atividades  analíticas  são 
realizados  usando  uma equipe centralizada. Por exemplo, uma equipe analítica empreendedora pode atender às 
necessidades  de  marketing,  finanças,  operações,  atendimento  ao  cliente,  etc;  com  relação  a  relatórios, análises 
ad hoc e modelagem estatística. 
 

Um  modelo  centralizado  tem  algumas  vantagens  principais.  Em  primeiro  lugar,  normalmente  podemos  atingir 
um  nível  mais  alto  de  consistência  quando  a  análise  é  feita  por  uma única equipe, pois é mais fácil garantir que 
métodos  comuns  sejam  usados ​de uma análise para a próxima. Também é mais fácil garantir que as prioridades 
da  equipe,  incluindo  quais  análises  são  feitas  e  quando,  estejam  alinhadas  com  as  necessidades  gerais  da 
empresa versus as necessidades de apenas um grupo.  

Em  um  modelo  centralizado,  a  equipe  que  executa  a  análise  geralmente  não  é a mesma que solicitou a análise. 
A colaboração é necessária e a organização solicitante pode não obter prioridade de outras necessidades. Nesse 
caso,  a  equipe  centralizada responde menos às organizações periféricas e é mais difícil para essas organizações 
controlar  seus  destinos.  Uma  segunda  desvantagem  está  relacionada  aos  contextos,  alguém  que  trabalha  no 
marketing e o faz o tempo todo terá um grau mais alto de contextos de marketing.  
 

Finalmente,  embora  o  modelo  centralizado  exija  menos  pessoas,  ele  depende  de  alguma  consistência na carga 
de  trabalho.  É  mais  difícil  preencher  o  prato  de  uma  equipe  analítica  centralizada  com  atividades  não 
centralizadas e não analíticas quando a carga de trabalho é leve.  

O  segundo  modelo,  denominado  ​modelo  alocado​,  busca  melhorar  a  capacidade  de  resposta  da  organização 
analítica  enquanto  retém  a  maioria  dos  benefícios  de  uma  abordagem  centralizada.  Nesse  modelo,  uma 
atividade  analítica sentimental ainda é realizada por meio de uma equipe centralizada. Mas dentro dessa equipe, 
a  capacidade  específica  é reservada para uma ou mais das funções periféricas. Novamente, o principal benefício 
dessa  abordagem  é  a  capacidade  de  resposta  aprimorada  à  organização  que  solicita  a  análise.  Também  pode 
ter  o  benefício  de  melhorar  o  contexto  do grupo de analistas, especialmente quando os indivíduos são alocados 
para uma única função por um longo período de tempo. 
 

Modelo  coordenado​:  Nesse  modelo,  a  equipe  e  as  prioridades  dos  recursos  analíticos  são  totalmente 
controladas  por  equipes  funcionais.  No  entanto,  essas  equipes  estão  ligadas  por  algum  conjunto  de  estruturas 
governamentais,  metodologias  padrão  ou  comunidades  como  grupos  de  usuários  ou  centros  de  excelência. Os 
benefícios dessa abordagem se baseiam nos do modelo alocado.  
 

O  último  modelo  organizacional  que  discutiremos  é  o  ​modelo  distribuído​,  no  qual  as  atividades  analíticas  são 
totalmente  realizadas  em  organizações  periféricas  com  pouca  ou  nenhuma  coordenação.  As  vantagens  deste 
modelo  são  semelhantes  ao  modelo  coordenado.  Ou  seja,  um  alto  grau  de  capacidade  de  resposta  e  contexto 
pode  ser  alcançado.  A  equipe  também  tem  total  flexibilidade  em  como  realizar  análises,  uma  vez  que  não 
precisa necessariamente aderir a padrões centralizados.  
 

No  lado  negativo,  há  pouca  garantia de consistência nos métodos ou mesmo nas fontes de dados. É muito mais 


provável  que  os  esforços  sejam  duplicados  e  essa  abordagem  geralmente  requer  o  maior  número  de  recursos. 
Uma vez que são poucos mecanismos para identificar sobreposição e agilizar atividades. 
 

Então,  qual  desses  modelos  é  o  preferido?  Bem,  isso  realmente  depende.  Existem  organizações que obtiveram 
sucesso usando cada um desses modelos e até combinações desses modelos.  
 

Em  vez  de  classificar  os  modelos,  por  que  não  procuramos  alguns  fatores  que  tendem  a  tornar  cada  modelo 
mais  ou  menos  viável  em  uma  organização?  O  fator  mais  significativo  que  influencia  nosso  modelo 
organizacional  é  o  tamanho  da  empresa.  Acontece  que as organizações analíticas realmente começam a ter um 
bom desempenho quando atingem uma massa crítica de recursos.   

 
 

Data Governance 
A  ideia  de  governança  de  dados  tem o objetivo de estruturar como os dados são gerenciados e usados ​em uma 
organização.  Estabelecendo  regras  e  processos  em  torno  de  uma  variedade  de  operações  e  decisões 
relacionadas a dados.  

Uma  função  principal  da  governança  de  dados  é  estabelecer  e  manter  padrões  em  torno  dos  dados. Isso pode 
assumir  algumas  formas  diferentes.  O  primeiro  é  identificar  quais  fontes  são  preferidas  para cada tipo de dado 
ou  métrica  usado  em  uma  organização.  Existe  uma  ideia  chamada  Master  Data  Management,  ou  MDM,  que 
identifica  os  dados  mais  críticos  em  uma  organização  e garante que haja um entendimento claro de onde esses 
dados devem vir e onde devem ser armazenados.  

Uma  ideia  relacionada  é  a  de  dados  de  referência comuns. De um modo geral, os dados de referência fornecem 


conjuntos  de  valores  permitidos  para  determinados  atributos  de  dados  ou  fornecem  informações  descritivas 
adicionais  sobre  ideias-chave  no  ambiente  de  dados  da  empresa.  Às  vezes,  esses  dados  são  vagamente 
chamados  de  dados  de  pesquisa  ou dados dimensionais. A governança de dados ajuda a garantir que os dados 
de referência sejam completos e precisos.  

O  último  conjunto de controles gira em torno do acesso aos dados e conformidade. Um processo de governança 
pode ajudar a descobrir quem deve ter acesso aos dados em quais circunstâncias.  

A  segunda  função  principal da governança de dados é estabelecer e manter a responsabilidade pelos dados. Os 


administradores  de  dados geralmente são responsáveis ​por garantir que sua área tenha as definições corretas e 
são  responsáveis  ​pelo  estado  geral  de  seu  domínio  de  dados.  A  governança  também  pode  ajudar  a  identificar 
quem é responsável por abordar vários tipos de problemas de qualidade de dados.  

A  terceira  função da governança de dados é ajudar a gerenciar o processo geral de desenvolvimento de dados e 
comunicar  as  mudanças  no  ambiente  de  dados.  Muitas  equipes  usam  dados  e  cada  uma  delas  provavelmente 
tem  uma  longa  lista  de  adições  ou  modificações  que  gostariam  de  ver  implementadas. No entanto, geralmente 
não  há  capacidade  suficiente  para  realizá-los  todos  e  deve  haver  alguma  forma  de  priorizar  o  trabalho  que 
precisa  ser  feito.  A  governança  pode  ajudar  fornecendo  um  processo  para  verificar,  avaliar  e  priorizar  quais 
projetos  de  dados  são  realizados,  geralmente  racionalizando esses projetos em relação às prioridades gerais de 
negócios da empresa.  

Como  os  ambientes  de  dados  estão  em  constante  evolução,  também  precisa  haver  algum  mecanismo  para 
permitir  que  os  usuários  dos  dados  saibam  quando  novos  dados  são  adicionados.  Ou  alguma  mudança  ou 
melhoria  é  feita.  Ter  uma  abordagem  de  governança  de  dados  bem  estruturada  pode  facilitar  a  comunicação 
sobre os dados e garantir que todos estejam informados e cientes das mudanças.  

 
A  última  função  que  a  governança  de  dados  desempenha  é  fornecer  informações  sobre  o  próprio ambiente de 
dados.  Há  um  ampla  classe  de  atividades  chamada  gerenciamento  de  metadados,  que  ajuda  a  controlar  os 
metadados ou dados sobre os dados. 
 

Pode  haver  muita  variação  em  como  a  governança de dados é implementada em uma organização. No entanto, 


existem algumas características que quase sempre estão presentes em um programa de sucesso.  

O  primeiro  é  a  representação  multifuncional.  O  objetivo  da  governança  de  dados  é  colocar  todos  na  mesma 
página,  para  fazer  isso,  todos  precisam  estar  envolvidos.  As  melhores  estruturas  de  governança  têm  ampla 
participação  de  equipes  técnicas e não técnicas, geralmente por meio de algo como um conselho de governança 
de dados que reúne esses grupos e trata de questões de governança.  

O  segundo  é  um processo e cronograma contínuos. Um conselho de governança de dados não adianta muito se 
nunca  se  reúne  ou  não  se  reúne  com  frequência suficiente, ou se não toma decisões, ou se não tem mecanismo 
para executar as decisões. Um programa sólido de governança de dados fornece a estrutura. 
 

O  terceiro  elemento  comum  é  um  conjunto  de  funções  definidas.  Alguém  precisa  atuar  como  o  líder  efetivo do 
programa. Este pode ser um presidente do Conselho de Governança ou outro líder.  

Data Privacy 
Em  primeiro  lugar,  o  conjunto  de  leis  e  regulamentos  que  regem  a  privacidade  de  dados  é  extenso  e  muito 
complexo  e  esses  regulamentos  variam  dependendo  de  onde  você  está.  Em  segundo  lugar,  o  panorama  da 
privacidade de dados está mudando muito rapidamente e o que é verdade hoje pode não ser amanhã. 
 

Níveis 
O  nível  superior  são  os  padrões  legais  que  foram  estabelecidos  por  lei,  ordem  ou  regra  para  obrigar  o 
tratamento  de  certas  classes  de  dados.  As  normas  legais  devem  ser  seguidas  por  quaisquer  organizações 
sujeitas  a  elas. Não há muita escolha no assunto e as consequências podem ser graves se os padrões legais não 
forem seguidos.  

O  segundo  nível  é  o  padrão  ético.  Esses  padrões  são  estabelecidos  por  organizações  da  indústria  ou 
profissionais  que  buscam  atingir  algum  nível  de  tratamento  não  vinculativo  de  informações.  A  violação  dessas 
normas pode ter consequências, mas geralmente elas são impostas fora dos tribunais.  

O  terceiro  nível  de  padrões  são  os  padrões  de  política,  que  são  padrões  internos  estabelecidos  por  uma 
organização  para  orientar  seu  próprio  tratamento  de  dados,  geralmente  por meio de algo como uma política de 
privacidade. A empresa decide como fazer cumprir esses padrões.  

O  último  nível  de  padrões  é  simplesmente  o  que  podemos  chamar  de bom julgamento. Mesmo se alguma ação 


não  for proibida por padrões legais, éticos ou de política. Devemos sempre nos perguntar: essa é realmente uma 
boa ideia e quais seriam as consequências de usar os dados de determinada maneira?  

Como  a  maioria  dos  termos  associados à privacidade de dados, PII tem uma definição longa. Conforme definido 


pelo  US  National  Institutes  of  Standard  ou  NIST,  PII  inclui qualquer informação sobre um indivíduo mantida por 
uma  agência,  inclusive.  Um,  qualquer  informação  que  possa  ser  usada  para  distinguir  ou  rastrear  a  identidade 
de  um  indivíduo,  como  nome,  número  do  seguro  social,  data  e  local  de  nascimento,  nome  da  mãe  /  solteira  ou 
registros  biométricos.  E  dois,  quaisquer  outras  informações  vinculadas  ou  vinculáveis  ​a  um  indivíduo,  como 
informações médicas, educacionais, financeiras e de emprego.  

Na  área  de  conectividade  com  a  Internet  e  big  data,  a  capacidade  de  vincular  informações  em  domínios 
desesperados nunca foi tão grande.  

O  segundo  tipo  de  informação  que  discutiremos  são  as  informações financeiras do consumidor, ou CFI. O CFI é 


definido  nos  Estados  Unidos  pelo  Gramm-Leach-Bliley  Act,  também  conhecido  como  Financial  Services 
Modernization Act de 1999. 
 

CFI  é  qualquer  informação  que  não  esteja  publicamente  disponível,  e  que  um  consumidor  fornece  a  uma 
instituição  financeira  para  obter um produto ou serviço financeiro da instituição. Resulta de uma transação entre 
o  consumidor  e  a  instituição  envolvendo  um  produto  ou  serviço  financeiro,  ou  que  uma  instituição  financeira 
obtém informações sobre um cliente em conexão com o fornecimento de um produto ou serviço financeiro.  

O  CPNI  é  coletado  por  empresas  de  telecomunicações sobre ligações telefônicas de clientes. Inclui a hora, data, 


duração  e  número  de destino de cada chamada. O tipo de rede que o cliente assina e qualquer outra informação 
que apareça na conta telefônica do cliente.  

O  último  tipo  de  informação  sobre  o  qual  falaremos  são  informações  de  saúde  protegidas  ou  PHI.  PHI  é 
considerado  um  dos  tipos  de  informação  mais  sensíveis  e,  conseqüentemente,  está  entre  aquelas  rigidamente 
controladas  e  regulamentadas.  Um,  o  PHI  é  criado  ou  recebido  por  um  provedor  de  saúde,  plano  de  saúde, 
empregador ou câmara de compensação de saúde.  
 

Em  segundo  lugar,  está  relacionado  com  a  saúde  ou  condição  física  ou  mental  passada,  presente  ou  futura  de 
um  indivíduo,  a  prestação  de  cuidados  de  saúde  a  um  indivíduo  ou  o  pagamento  passado,  presente  ou  futuro 
pela prestação de cuidados de saúde a um indivíduo.  

A  maioria  dos  campos  acadêmicos,  científicos,  jurídicos  e  médicos  têm  padrões  bem estabelecidos que tornam 
os  órgãos  que  responsabilizam  os  membros  por  um  amplo  conjunto  de  comportamentos  éticos,  alguns  dos 
quais  incluem  o  uso  de  dados. No  mundo  dos  negócios,  verifica-se  que  alguns  dos  órgãos  de  ética  e  padrões 
  ​

mais  relevantes  operam  na  área  de marketing, o que faz sentido, já que geralmente interagimos com os clientes 


por meio de algum tipo de atividade de mercado ou interface. 
 

Data Quality 
O  que  exatamente  é  qualidade  de  dados?  Existem  duas  definições  gerais  que  podemos  aplicar.  O  primeiro,  e 
aquele  que  você  vê  na  maioria  dos  artigos  técnicos  ou  documentos  de  padrões,  é  a  adequação  para  uso  ou 
atende à definição de requisitos.  
 

Essa  definição  basicamente  diz  que  a  qualidade  dos  dados  é o grau em que os dados podem ser usados ​para a 


finalidade  pretendida.  A  segunda  definição  é  um  pouco  mais  filosófica  e  sugere  que  a qualidade dos dados é o 
grau em que os dados representam com precisão o mundo real.  

Existem  algumas  características  que  geralmente  ajudam  a  definir  bons  dados.  O  primeiro  é  a  integridade  ou 
uma medida para saber se temos ou não todos os dados que esperamos ter.   

● Estamos capturando todos os eventos que deveríamos capturar?  


● Quando capturamos um evento, temos todos os atributos desse evento que esperamos ter?  
● Se usarmos dados de referência, todos os valores nesses dados de referência são contabilizados?  

Uma  segunda  ideia  é  a  precisão,  uma  medida  para  saber  se  os dados que temos são um representante preciso 
da ideia que está tentando capturar.  
 

● Se o ponto de dados for um número, é o número certo?  


● Se for uma string, é a string certa e está escrita corretamente?  
● Os carimbos de data / hora e outros atributos são capturados corretamente?  

● O  conceito  de  consistência  é  uma  extensão  da  precisão.  Capturo  os  mesmos  dados  sempre da mesma 
maneira?  

 
● Ou se eu capturar em dois lugares diferentes, tenho os mesmos valores?  
 

Uma  terceira  medida  é  o  que  podemos  chamar  de  conformidade  ou  validade.  Se  os  dados  armazenados estão 
em conformidade com a sintaxe, a codificação e outras especificações de um modelo de dados. 
 

● Os dados estão armazenados no formato correto? 


● Se códigos forem usados ​para atributos, eles são os códigos esperados?  
● Os  pedaços  de  dados  são  nomeados  usando  as  convenções  que  foram  estabelecidas  para um sistema 
ou banco de dados?
 

Uma  quarta  medida  é  a  oportunidade,  que  indica se os dados são capturados ou disponibilizados logo após um 


evento  do  mundo  real  para  que  sejam  úteis.  Você  pode  ouvir  o  termo  latência de dados para descrever quanto 
tempo leva para que os dados estejam disponíveis para algo como relatórios ou análises. 
 

A  quinta  e  última  medida  que incluiremos é a proeminência, que é o grau em que temos visibilidade das origens 


dos  dados.  Essa  é  uma  medida  de  segunda  ordem,  mas  mostra  quanta  confiança  temos  de  que  os  dados  que 
estamos vendo são reais e precisos. 

Você também pode gostar