Escolar Documentos
Profissional Documentos
Cultura Documentos
Descrição
Conceitos e aplicações dos princípios de Big Data, Internet das Coisas, computação distribuída, plataformas
em nuvem, processamento e fluxo de dados.
Propósito
Conhecer os conceitos e as tecnologias de Big Data, como grande diferencial para o profissional de
tecnologia da informação com sólida formação.
Objetivos
Módulo 1
Módulo 2
Módulo 3
Módulo 4
Introdução
Atualmente, o termo Big Data é usado com muita frequência para descrever aplicações que envolvem
grandes volumes de dados. Porém, mais do que isso, trata-se de um conjunto de tecnologias que
gerenciam aplicações que, além do grande volume de dados, trabalham com dados que podem ser
gerados com muita velocidade, de diversas fontes e em diferentes formatos. Com a popularização
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 2/77
9/5/23, 3:15 PM Princípios de Big Data
das tecnologias de computação em nuvem e da Internet das Coisas (IoT, do inglês Internet of
Things), o ecossistema de aplicações de Big Data se ampliou bastante.
Os provedores de serviços na nuvem oferecem facilidades para que os clientes possam escalar seus
sistemas – nos aspectos de hardware e software – com um custo muito inferior ao que teriam se
tivessem de investir em infraestrutura própria. De fato, é um modelo de negócio que terceiriza a base
tecnológica para empresas que são extremamente eficientes em lidar com ela, desse modo as
organizações possam se concentrar no desenvolvimento de soluções de negócios que as
diferenciem em relação à concorrência.
Ao longo deste conteúdo, entenderemos os conceitos relacionados à tecnologia de Big Data e como
ela se relaciona com outras tecnologias, como computação na nuvem e IoT. Assim, teremos uma
visão ampla sobre o assunto e conseguiremos conectá-lo a temas muito populares, como a
inteligência artificial e o aprendizado de máquina.
1 - Introdução e Aplicações ao
Big Data
Ao final deste módulo, você será capaz de reconhecer
os conceitos e as aplicações de Big Data.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 3/77
9/5/23, 3:15 PM Princípios de Big Data
Ligando os pontos
Você sabe o que é Big Data? Qual estratégia você adotaria para desenvolver uma aplicação e trabalhar com
grande volume de dados de formatos diferentes, gerados com alta velocidade?
Essa facilidade de interação em grande escala implica o tráfego, a geração e o consumo de gigantescos
volumes de dados. Aplicações que se encaixam nessa categoria passaram a ser chamadas de Big Data.
Apesar de esse termo ser muito comum hoje em dia, não é apenas mais uma tendência do momento.
Existem conceitos muito bem consolidados a respeito de aplicações de Big Data que são resumidos nos 5
Vs: Volume, Velocidade, Variedade, Veracidade e Valor. Por exemplo, o Volume trata da quantidade de dados
com a qual a aplicação opera.
Para ser caracterizada como Big Data, a aplicação deve trabalhar com dados da ordem de Petabytes que
correspondem a aproximadamente mil vezes um Terabyte. Além disso, essas aplicações trabalham com
dados em diversos formatos que são agrupados em: estruturados, não estruturados e semiestruturados.
Com toda essa diversidade, trabalhar com Big Data envolve muitos desafios. O primeiro deles é a formação
de profissionais qualificados que devem ter uma visão holística das tecnologias, identificando como elas se
combinam para criar um ecossistema colaborativo que atenda às demandas solicitadas pelos usuários.
Outro desafio é lidar com a manutenção de um sistema desse tipo. Certamente, quem fornece uma
aplicação de Big Data lida com negócios de grandes proporções que, se tiverem problemas, podem levar a
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 4/77
9/5/23, 3:15 PM Princípios de Big Data
É inegável que há grandes oportunidades em trabalhar com Big Data. É uma necessidade da sociedade
moderna. E a tendência é que aumente muito mais. Podemos vislumbrar um mundo onde diversos serviços
como de saúde, segurança e públicos, de um modo geral, sejam prestados com muita eficiência com o
auxílio das tecnologias de Big Data.
Esta é uma realidade. Cabe a nós percebermos isso e investirmos em nossa qualificação para atuar
proativamente nesse processo.
Após a leitura do case, é hora de aplicar seus conhecimentos! Vamos ligar esses pontos?
Questão 1
As aplicações de Big Data fazem parte de nosso dia a dia. Pensando em termos de aplicabilidade,
assinale a alternativa que, em sua visão, apresenta um exemplo de Big Data:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 5/77
9/5/23, 3:15 PM Princípios de Big Data
Questão 2
Considere o seguinte cenário: você trabalha em uma empresa de grande porte que designou você para
um projeto de Big Data que já está em operação. Você será o responsável pela manutenção do sistema.
Nesse caso, que estratégia deve adotar para ser bem-sucedido no trabalho?
Questão 3
Não há dúvida quanto à importância das aplicações de Big Data para a sociedade moderna. Mas essas
aplicações são desenvolvidas por pessoas. Por isso, certamente, é necessário investir na formação de
profissionais que atendam a essa necessidade. Neste cenário, quais seriam seus argumentos para investir
na formação profissional e desenvolver aplicações de Big Data?
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 6/77
9/5/23, 3:15 PM Princípios de Big Data
Chave de respostaexpand_more
Introdução e Contextualização
Desde a popularização da Internet, com o avento da World Wide Web, na década de 1990, utilizamos, cada
vez mais, aplicações e serviços que armazenam nossos dados e os utilizam para fazer previsões sobre
nosso comportamento. Não é à toa que muitas empresas da Internet nos fazem ofertas que, de fato,
coincidem com nossos interesses. Isso só é possível porque produzimos constantemente uma quantidade
gigantesca de dados em diversas atividades, por exemplo quando:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 7/77
9/5/23, 3:15 PM Princípios de Big Data
Assistimos a um vídeo.
Ou seja, mesmo sem estarmos cientes, fornecemos dados que podem ser utilizados para um estudo de
nosso padrão comportamental.
Os dados precisam ser tratados por um ciclo de vida, de modo que possamos extrair informações úteis
deles e, em um passo seguinte, transformar essas informações em conhecimento. Como consequência
desse processo, áreas como a Ciência de Dados (Data Science) e o Aprendizado de Máquina (Machine
Learning) cresceram muito nos últimos anos.
Quando escutamos falar sobre o termo Big Data, trata-se, normalmente, de uma descrição para enormes
conjuntos de dados; no entanto, existem outros aspectos importantes que estão envolvidos e que precisam
ser tratados, como:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 8/77
9/5/23, 3:15 PM Princípios de Big Data
add_chart
Volume e disponibilização
Quando comparamos os conjuntos de dados tradicionais com aplicações de Big Data, além do volume de
dados, temos de considerar a forma como esses dados são disponibilizados.
miscellaneous_services
Técnica adequada
Em muitos casos, os dados não são estruturados e precisam de técnicas de análise que produzam
respostas em tempo muito curto.
O principal estímulo para analisar dados nesse contexto é a possibilidade de descobrir oportunidades que
podem se materializar por meio da detecção de segmentações de mercado, aumento de engajamento de
público-alvo e compreensão aprofundada dos valores ocultos. Por tudo isso, essa área tem grandes
desafios para aplicar métodos eficazes e eficientes de organização e gerenciamento desses conjuntos de
dados.
Devido ao potencial de valor que as aplicações de Big Data podem gerar, tanto empresas como agências
governamentais têm investido nessa área, por meio do desenvolvimento de soluções que capturem dados
com mais qualidade para, posteriormente, facilitar as etapas de armazenamento, gerenciamento e análise.
Saiba mais
Dados provenientes de fontes distintas permitem fazer um mapeamento muito detalhado do
comportamento das pessoas. Isso também desperta discussões nos campos ético e legal. No Brasil, temos
disposições constitucionais sobre a inviolabilidade do sigilo de dados e das comunicações, e a Lei Geral de
Proteção dos Dados (Lei nº 13.709/2018), que visa proteger os cidadãos quanto ao uso indevido dos seus
dados. Porém, ainda há muito a ser feito a respeito disso, o que acaba gerando novas oportunidades de
pesquisa e desenvolvimento de projetos envolvendo segurança e privacidade.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 9/77
9/5/23, 3:15 PM Princípios de Big Data
gerenciados e processados em um tempo aceitável. Assim, o Big Data pode ser visto como uma fronteira
para inovação, competição e produtividade.
Além das fontes de dados tradicionais, os sistemas de Big Data podem ser alimentados por meio de
dados que estão na nuvem e são produzidos por sistemas de IoT, sendo que, em muitos casos, esse
processo ocorre em tempo real. Trata-se do processo de aquisição de dados.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 10/77
9/5/23, 3:15 PM Princípios de Big Data
Os dados precisam ser armazenados de modo eficiente para otimizar o seu acesso e segurança.
Esse armazenamento pode ser feito de diversas maneiras na nuvem ou em bancos de dados
estruturados ou não estruturados, que tenham:
É o processo de armazenar os dados em lotes, para, então, fazer o seu processamento. Isso é feito
para lidar com grandes volumes de dados, não sendo viável fazer o processamento dos dados em
fluxos.
É o processamento de dados à medida que são produzidos ou recebidos. Essa situação ocorre com
frequência em processos de eventos produzidos por sensores, atividades do usuário em um site,
negociações financeiras que têm como característica comum o fato de os dados serem criados
como uma série de eventos de fluxo contínuo.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 11/77
9/5/23, 3:15 PM Princípios de Big Data
Os relatórios são uma organização dos dados com o objetivo de fazer resumos informativos e
monitorar o desempenho de diferentes áreas de uma empresa. A análise, por sua vez, consiste em
explorar dados e relatórios para extrair informações que agreguem valor e que possam ser usadas
para melhor compreender e melhorar o desempenho dos negócios. Os relatórios de Big Data podem
ser:
Predefinidos: são relatórios prontos para uso que podem ser entregues de forma recorrente a um
grupo de usuários finais. Normalmente, trazem informações estáticas com a possibilidade de
diferentes níveis de detalhes. O termo usado para se referir ao detalhamento de um relatório é
chamado de granularidade.
Painéis (dashboards): esses relatórios apresentam uma visão abrangente do desempenho dos
negócios. Ele é composto por indicadores de desempenho, conhecidos, principalmente, pela sigla
KPI – key performance indicator – que ajudam a medir a eficiência de um processo. Para facilitar a
compreensão, abordaremos os KPI mais adiante.
Alertas: esses relatórios são usados para emitir notificações sempre que determinada condição
previamente estabelecida ocorra, para que os responsáveis pelo processo sejam acionados e
tomem as medidas adequadas.
KPI
Os KPI são indicadores de desempenho que integram os painéis (dashboards). Esses indicadores podem
ser de três tipos:
Estratégicos
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 12/77
9/5/23, 3:15 PM Princípios de Big Data
Oferecem uma visão geral do negócio e são utilizados pela presidência e diretoria de uma empresa. Como
exemplo, temos o faturamento bruto de uma empresa em determinado período.
Táticos
São um detalhamento dos KPI estratégicos e têm como público-alvo a gerência da empresa. Como exemplo,
podemos citar o faturamento das vendas de um determinado segmento da empresa, que pode ser um
produto ou serviço específico.
Operacionais
Ajudam no acompanhamento detalhado de uma atividade da empresa. Como exemplo, podemos citar o KPI
MTBS, que é um acrônimo para tempo médio de parada para manutenção – do inglês: mean time between
stopages – usado para medir o tempo médio que um equipamento está disponível para uso até que ele pare
para manutenção.
Os 5 Vs do Big Data
Uma forma de definir a complexidade do Big Data é por meio da descrição de suas características. Hoje há 5
características conhecidas como os 5 Vs do Big Data, mas nem sempre foi assim. Vamos conhecer um
pouco da história:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 13/77
9/5/23, 3:15 PM Princípios de Big Data
Essa evolução para explicar o conceito de Big Data vem do fato de estarmos trabalhando com um
ecossistema complexo, que envolve aspectos tecnológicos de software e hardware, além de questões
econômicas, sociais e éticas que ainda estão sendo compreendidas. Agora, vamos analisar com mais
detalhes os 5Vs que compõem a tecnologia de Big Data.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 14/77
9/5/23, 3:15 PM Princípios de Big Data
Volume de Dados
Volume.
Essa característica está relacionada com a escala da geração e coleta de massas de dados. Temos muitos
exemplos práticos de aplicações em que o volume de dados é gigantesco, como sistemas de transações
bancárias e de trocas de e-mails e mensagens. É fato que a percepção de grandes volumes de dados está
relacionada com a tecnologia disponível em um determinado momento.
Byte (B)
Unidade de informação
digital, também chamado de
octeto, que consiste em uma
sequência de 8 bits (binary
digits).
Kilobyte (KB)
Corresponde a
1KB = 2
10
B = 1024 bytes.
Megabyte (MB)
E i l
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 15/77
9/5/23, 3:15 PM Princípios de Big Data
Equivale a
1M = 2
10
KB = 2
20
B .
Gigabyte (GB)
Temos que
10 20 30
1GB = 2 MB = 2 KB = 2 B
Terabyte (TB)
Corresponde a
1T B = 2
10
GB .
Petabyte (PB)
Temos que 1P B = 2
10
TB .
Exabyte (EB)
Equivale a 1EB = 2
10
PB .
Zetabyte (ZB)
Temos que 1ZB = 2
10
EB .
Yottabyte (YB)
E i l 1Y B 2
10
ZB
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 16/77
9/5/23, 3:15 PM Princípios de Big Data
Equivale a 1Y B = 2
10
ZB .
Atenção
Quando nos referimos ao volume de uma aplicação de Big Data, normalmente, estamos tratando de
petabytes (PB) de dados.
Velocidade
Essa característica se refere a dois aspectos:
timer
A velocidade da geração de dados.
timer
A velocidade de processamento dos dados.
Basicamente, temos o problema clássico de computação: produtor x consumidor. O consumidor representa
o papel do analista que precisa fazer consultas rapidamente, mas pode sofrer limitações do tempo de
resposta do produtor, ou seja, o sistema pode possuir um ritmo mais lento para disponibilizar os dados para
consulta.
Variedade
Um projeto de Big Data pode ter vários tipos de dados, como áudio, vídeo, página da web e texto e tabelas
de bancos de dados tradicionais. Esses tipos de dados podem ser classificados como:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 17/77
9/5/23, 3:15 PM Princípios de Big Data
Dados estruturados
São armazenados de maneira organizada, e fáceis de serem processados e analisados. Normalmente, são
dados numéricos ou de texto que podem ser armazenados em um banco de dados relacional e manipulados
usando a linguagem SQL (do inglês Structured Query Language).
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 18/77
9/5/23, 3:15 PM Princípios de Big Data
Semiestruturado
Os dados semiestruturados mesclam as duas formas de dados. Como exemplo de dados semiestruturados,
temos arquivos nos formatos XML (do inglês eXtended Markup Language) e JSON (do inglês Java Script
Object Notation).
Veracidade
Essa característica está relacionada à qualidade dos dados. Isso é essencial, especialmente do ponto de
vista de suporte para a tomada de decisão, pois é a veracidade dos dados que nos dá o grau de confiança
para fazer o que precisamos por meio da integridade e da precisão dos dados.
Veracidade.
Valor
Valor
Essa é a principal característica de um projeto de Big Data e justifica todo o trabalho de extrair valor dos
dados, que são a matéria-prima do negócio e, por isso, precisam passar por diversas etapas de tratamento e
gerenciamento, até que possam ser consumidos pelo processo de análise. Podemos aplicar técnicas de
ciência de dados e machine learning para obter informações e conhecimentos que vão direcionar ações
para as diversas frentes de um negócio.
local_hospital
Área de saúde
Por meio das análises de dados, os pesquisadores podem encontrar o melhor tratamento para determinada
doença e ter uma compreensão detalhada sobre as condições de uma região monitorada, tendo a
possibilidade de propor ações com impacto positivo na saúde das pessoas.
account_balance
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 20/77
9/5/23, 3:15 PM Princípios de Big Data
Governo
Os setores ligados ao governo que utilizam sistemas de Big Data podem melhorar a prestação de serviços
para os cidadãos por meio da integração dos dados das diversas áreas, conseguindo, assim, detectar
fraudes, melhorar a educação, segurança pública, entre tantos outros serviços.
live_tv
Mídia e entretenimento
Os anúncios que são feitos quando vemos vídeos na Internet são mais efetivos quando combinam com
nosso perfil. As empresas de mídia e entretenimento analisam os dados dos usuários e trabalham para
personalizar a oferta de produtos e serviços.
connected_tv
Internet das coisas (IoT)
Dispositivos de IoT geram dados contínuos e os enviam para um servidor. Quando esses dados são
extraídos, podem ser analisados para compreender padrões e traçar estratégias mais efetivas para melhorar
os resultados dos processos monitorados.
video_library
Visão geral de Big Data
No vídeo a seguir, falaremos sobre os principais conceitos da tecnologia de Big Data, com destaque especial
aos 5V’s.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 21/77
9/5/23, 3:15 PM Princípios de Big Data
Questão 1
Gerenciar um projeto de Big Data é uma tarefa complexa. Isso ocorre devido às características próprias
desses projetos, que, além de lidar com grandes volumes de dados, ainda precisam tratar de diversas
questões da sua arquitetura. Nesse sentido, assinale a alternativa correta a respeito da arquitetura de
um projeto de Big Data.
Entre os aspectos que devem ser considerados em um projeto de Big Data, está a
A necessidade de garantir a privacidade dos dados, para que apenas as pessoas
autorizadas possam acessá-los.
Um dos fatores que precisam ser tratados na arquitetura de um projeto de Big Data é a
B
padronização dos dados, de modo que possam ser armazenados em tabelas.
As fontes de dados constituem a base da arquitetura dos projetos de Big Data, uma vez
C
que garantem que os dados não sejam corrompidos.
Os projetos de Big Data podem crescer rapidamente, por isso é fundamental tratar
D
aspectos relacionados às fontes de dados.
Questão 2
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 23/77
9/5/23, 3:15 PM Princípios de Big Data
O termo Big Data é bastante popular atualmente. Um dos motivos para isso ocorre devido à
popularização do uso das aplicações que funcionam na Internet. Nesse sentido, selecione a opção
correta a respeito das aplicações de Big Data:
Uma das dificuldades atuais associadas aos projetos de Big Data é o uso para
A prestação de serviços públicos, uma vez que são caros e seu benefício não é facilmente
quantificável.
A tecnologia de Big Data pode ser usada para monitorar os sinais vitais de pacientes
C
que podem ser transmitidos via Internet.
Uma possível aplicação de Big Data é na prestação de serviços de utilidade pública, mas
E os benefícios só podem ser percebidos se houver total integração entre todos os
sistemas dos diversos setores que compõem o Estado.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 24/77
9/5/23, 3:15 PM Princípios de Big Data
2 - Conceitos de IOT e
Computação Distribuída
Ao final deste módulo, você será capaz de categorizar
conceitos de Internet das Coisas e computação
distribuída.
Ligando os pontos
Você sabe o que é Internet das Coisas (IoT)? O que você faria diante da necessidade de transferir dados de
sensores para locais a muitos quilômetros de distância?
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 25/77
9/5/23, 3:15 PM Princípios de Big Data
A necessidade de melhorar a capacidade de prestar serviços de maior qualidade em diversas áreas levou à
criação da Internet das Coisas (IoT): um conjunto de tecnologias que utilizam os protocolos de
comunicação da internet para trafegar dados na rede mundial.
A IoT já está presente em nossas vidas, mas ainda tem muito espaço para crescer. Com ela, os governos
podem criar cidades inteligentes com serviços de controle de trânsito, monitoramento de regiões de risco e
de segurança mais eficientes.
Na iniciativa privada, a IoT já é aplicada com muito sucesso para monitoramento de plantações, na
mineração e exploração de petróleo. A ideia é simples: equipamentos com sensores monitoram
determinada região com o objetivo de detectar a ocorrência de algum evento anormal.
Esses dados de monitoramento são enviados para uma central via internet, que os processa e os analisa. Na
ocorrência de algum padrão de anomalia, o sistema direciona os responsáveis sobre quais ações devem
aplicar, para que a situação volte à normalidade.
Com a descrição do que é a IoT, é fácil encontrarmos muitas aplicações práticas. Mas quais são os passos
que devemos tomar para concretizá-las?
Em seguida, vem a etapa tecnológica: quais recursos vamos utilizar para fazer o monitoramento?
A parte tecnológica da IoT é bem consolidada. Além de haver muitos sensores ofertados no mercado,
também temos à disposição tecnologias como Arduino, NodeMCU e Raspberry PI, que facilitam o
desenvolvimento de aplicações sofisticadas.
Outro ponto importante são os protocolos de comunicação entre os dispositivos e a internet, que também
são bem conhecidos.
Como sempre, o componente mais importante de tudo isso é a qualificação de profissionais que
desenvolvam habilidades para perceber a oportunidade de aplicações dessas tecnologias e a capacidade
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 26/77
9/5/23, 3:15 PM Princípios de Big Data
para implementá-las.
Após a leitura do case, é hora de aplicar seus conhecimentos! Vamos ligar esses pontos?
Questão 1
Você já conhece a importância da IoT para atender diversas demandas da sociedade. Nessa linha de
raciocínio, qual é a relação entre os aspectos tecnológicos e as aplicações de IoT?
Questão 2
Você sabe que as aplicações de IoT utilizam diversas tecnologias para coletar, realizar tráfego e
tratamento dos dados. Nesse contexto, assinale a alternativa que, em sua visão, apresenta um exemplo
concreto de uma dessas três ações:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 27/77
9/5/23, 3:15 PM Princípios de Big Data
Enviar dados de monitoramento de sensores por e-mail para serem processados por um
A
sistema de machine learning.
Utilizar um sistema de interação com o usuário para analisar os dados coletados por
D
dispositivos de monitoramento.
Aplicar um sistema que controle a quantidade de água que deve ser aplicada em
E
determinada plantação de acordo com o monitoramento das condições do solo.
Questão 3
A diversidade de tecnologias aumenta o potencial de benefícios de uma aplicação, mas também traz
desafios. O primeiro deles é a formação de profissionais. Nesse sentido, que estratégia você adotaria para
sensibilizar os responsáveis por empresas que potencialmente se beneficiariam de aplicações de IoT a
investirem na qualificação de profissionais nessa área?
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 28/77
9/5/23, 3:15 PM Princípios de Big Data
Chave de respostaexpand_more
Introdução e Contextualização
O avanço da tecnologia criou dispositivos e sensores eletrônicos que geram enormes quantidades de
dados. Esses equipamentos podem ser utilizados em diversas aplicações, tais como:
avaliação da pressão arterial de pacientes que precisam de atenção especial com cuidados de saúde etc.
A lista de aplicações é muito grande! Para que todas essas aplicações sejam
possíveis, precisamos ter à disposição uma tecnologia de coleta e troca de dados
que conecte os dispositivos por meio de componentes de hardware e software.
A Internet das Coisas (IoT) é a infraestrutura que viabiliza a conexão e comunicação por meio da Internet
desses objetos remotos.
A IoT é uma tecnologia que aumenta as conexões entre pessoas, computadores e dispositivos eletrônicos –
estes últimos são chamados de “coisas”. Trata-se de uma revolução, pois a IoT viabiliza a extensão da
realidade física para além de limitações espaciais, como, por exemplo, o acompanhamento da saúde de
pacientes em regiões de difícil acesso. Essa tecnologia nos fornece acesso a dados sobre o meio físico
com grande nível de detalhes, os quais, posteriormente, podemos analisar, compreender e tomar as ações
adequadas, para otimizar processos, corrigir problemas, detectar oportunidades de melhorias e aumentar o
nosso conhecimento a respeito de um contexto.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 29/77
9/5/23, 3:15 PM Princípios de Big Data
Um dos aspectos interessantes que devemos observar sobre a IoT é que os dados podem vir de diferentes
fontes, oferecendo uma visão mais nítida sobre o que estamos monitorando. Nesse momento, já podemos
notar uma estreita relação entre as tecnologias de IoT e Big Data:
Diferentes formatos
Podemos ter dados que são emitidos por diferentes sensores que retratam a variedade de representações
do que estamos monitorando.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 30/77
9/5/23, 3:15 PM Princípios de Big Data
4. Qual é o valor dos dados que os dispositivos nos fornecem para que possamos priorizá-los
adequadamente?
Resposta
A compreensão dos dados gerados pelos dispositivos de IoT nos oferece oportunidades para melhorar
nossa relação com as pessoas e aperfeiçoar processos e atividades sociais sobre aprendizado, saúde,
trabalho e entretenimento. Ao mesmo tempo, abre discussões sobre aspectos éticos e legais, pois todo
esse detalhamento abre a possibilidade de um conhecimento detalhado sobre a nossa privacidade que
precisa ser tratado com bastante cuidado.
Além dos aspectos legais e éticos, devemos notar que as aplicações de IoT são, naturalmente, distribuídas
com sensores e dispositivos capazes de enviar e receber dados usando protocolos de comunicação para a
Internet. Outra questão tecnológica que devemos observar é que esses equipamentos possuem restrições
de recursos de memória e processamento, portanto, é necessário utilizá-los com bastante eficiência, apesar
de que eles, normalmente, são usados para uma tarefa específica.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 31/77
9/5/23, 3:15 PM Princípios de Big Data
device_thermostat
Objetos físicos (ou "coisas")
Componentes eletrônicos e sensores responsáveis pela coleta de dados e aplicação de ações. Exemplo:
termostatos usados para controlar a temperatura de um ambiente.
storage
Computação
Faz o gerenciamento do ciclo de vida dos dados, desde a coleta e o armazenamento até o processamento
dos dados.
sync_alt
Protocolos de comunicação
Viabilizam a troca dados via Internet entre os objetos físicos e outros sistemas.
room_preferences
Serviços
Provêm autenticação e gerenciamento de dispositivos, além de oferecer a infraestrutura.
Para tratar da integração desses componentes de IoT, utilizamos a computação distribuída, pois é um
modelo mais adequado para gerenciar essas unidades não centralizadas por meio do compartilhamento de
responsabilidades e riscos. Apesar de, nesse cenário, os componentes estarem geograficamente
espalhados, eles são executados como um sistema para melhorar a eficiência e o desempenho.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 32/77
9/5/23, 3:15 PM Princípios de Big Data
Distribuição e processamento
Distribuição de armazenamento e processamento de dados entre os nós da rede, para que a
eficiência dos processos seja otimizada.
Tolerância a falhas
Outro princípio importante diz respeito à tolerância a falhas, pois é muito provável que haja
intermitência da operação dos nós das redes, portanto a política de computação distribuída já
deve estar preparada para reorganizar o fluxo de dados na rede, de maneira que possam ser
roteados de um outro modo e que a rede continue em operação.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 33/77
9/5/23, 3:15 PM Princípios de Big Data
Uma arquitetura básica de computação distribuída de IoT é composta pelas camadas de:
É a tecnologia que permite o uso remoto de recursos computacionais de software e hardware. Por
exemplo, quando utilizamos repositórios na Internet para armazenar dados ou servidores de
aplicação, estamos trabalhando com computação em nuvem. Essa camada é responsável por:
lógica de negócios;
É uma extensão da camada de nuvem que aproxima servidores aos dispositivos de IoT. Esses
servidores podem colaborar entre si por meio de trocas de dados e realizar processamentos que vão
otimizar a operação do sistema como um todo. Entre suas principais características, temos:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 34/77
9/5/23, 3:15 PM Princípios de Big Data
controle de respostas;
virtualização e padronização.
Essa camada relaciona-se diretamente com os sensores e controladores que ficam na “borda” da
arquitetura. Dessa forma, os dados podem ser armazenados e processados para, então, serem
enviados à camada de névoa. Podemos destacar os seguintes aspectos dessa camada:
uso de computadores industriais que são específicos para trabalhar com determinados
dispositivos eletrônicos.
uso de sistemas integrados – também chamados de sistemas de bordo – que já vêm configurados
nas placas.
utilização de Gateways para interconectar os dispositivos com a rede por meio da conversão de
protocolos e de sinais.
São os dispositivos responsáveis por gerar os dados e, quando acionados, realizar ações. Por
exemplo, em um sistema de irrigação, temos sensores que fazem o monitoramento da umidade do
solo e controladores que fazem a irrigação até obter o nível adequado de umidade.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 35/77
9/5/23, 3:15 PM Princípios de Big Data
Um aspecto que podemos perceber rapidamente é a mudança da velocidade do fluxo de dados ao longo da
arquitetura que mostramos na imagem. Em sua parte inferior, temos os dados gerados pelos sensores a
uma velocidade superior, à medida que vamos avançando até a camada de nuvem.
Protocolos de comunicação
Os sistemas de IoT precisam de protocolos que permitam que os dispositivos eletrônicos possam se
comunicar com outros nós da rede ‒ sendo que um nó pode ser um dispositivo eletrônico, um computador
ou um servidor. Alguns dos principais protocolos de comunicação de IoT são:
HTTP
O HTTP (Hyper Text Transport Protocol) é o Protocolo de Transporte de Hipertexto. É o protocolo do modelo
cliente-servidor mais importante utilizado na Web, em que a comunicação entre um cliente e um servidor
ocorre por meio de uma mensagem do tipo “solicitação x resposta”. A dinâmica básica da comunicação
segue os seguintes passos:
O servidor retorna uma mensagem de resposta, contendo o recurso solicitado, caso a solicitação tenha
sido aceita.
MQTT
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 36/77
9/5/23, 3:15 PM Princípios de Big Data
CoAP
O CoAP (Constrained Application Protocol) é o Protocolo de Aplicação Restrita. Utiliza a arquitetura REST
(Representation State Transfer ou Transferência de Estado Representacional) e oferece suporte ao
paradigma de “solicitação x resposta”, exatamente como ocorre no caso REST/HTTP. Além disso, ele é
executado em um protocolo de transporte UDP (User Datagram Protocol).
XMPP-IOT
O XMPP-IOT (Extensible Messaging and Presence Protocol for the IoT) é o Protocolo de Mensagem
Extensível e de presença para a IoT. Também é um protocolo aberto que foi projetado para trocas de
mensagens instantâneas. Ele usa a arquitetura cliente-servidor rodando sobre TCP, onde sua comunicação é
baseada em XML e possui extensões que possibilitam o uso do modelo de “publicação x assinatura”.
Arduino
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 37/77
9/5/23, 3:15 PM Princípios de Big Data
Arduino.
Foi criado no Ivrea Interaction Design Institute em 2002. Ele oferece um ecossistema de hardware,
linguagem de programação, bibliotecas e dispositivos que nos ajudam a desenvolver projetos que podem ter
diversas aplicações. Uma das principais características do Arduino é que todas as suas placas e seu
software são de código aberto. Essa característica ajudou a popularizar o Arduino, que possui uma
comunidade de desenvolvedores engajada em divulgar projetos e conhecimentos em fóruns on-line.
NODEMCU
É um dos principais kits eletrônicos de código aberto para desenvolvimento de aplicações de IoT. Ele é
baseado na família do microcontrolador ESP8266 e possui recursos que facilitam trabalhar com
dispositivos conectados à Internet para monitoramento e controle.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 38/77
9/5/23, 3:15 PM Princípios de Big Data
NODEMCU.
Raspberry PI
Raspberry PI.
É uma plataforma de computação de placa única. Seu propósito inicial foi a aplicação no ensino de ciência
da computação, evoluindo para funções mais amplas. Possui uma interface de baixo nível de controle auto-
operado por portas de entrada-saída, chamado GPIO (General Purpose Input-Output), e usa o Linux como
seu sistema operacional padrão.
video_library
IoT e Computação Distribuída
No vídeo a seguir, abordaremos os conceitos das tecnologias de IoT e Computação Distribuída,
relacionando-os com Big Data.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 39/77
9/5/23, 3:15 PM Princípios de Big Data
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 40/77
9/5/23, 3:15 PM Princípios de Big Data
As aplicações de Internet das Coisas (IoT) estão cada vez mais presentes em nosso dia a dia. Algumas
das características dos projetos de IoT são a produção de um grande volume de dados e o uso de
computação distribuída, e, por isso, devem ser tratados como projetos de Big Data. Em relação às
tecnologias de IoT e de computação distribuída, assinale a alternativa correta.
Questão 2
Os projetos de Internet das Coisas (IoT) têm sido utilizados com sucesso em diversas áreas. De
maneira simplificada, os sensores geram dados que são enviados para servidores de aplicação por
meio da tecnologia de Internet. Nesse sentido, selecione a opção correta a respeito dos protocolos para
aplicações de IoT:
Projetos de IoT são exemplos típicos de aplicações de Big Data e, portanto, devem ser
A
desenvolvidos com o protocolo UDP, como é o caso do XMPP-IOT.
O HTTP é o protocolo padrão para aplicações de IoT, sendo utilizado por todos os
B demais protocolos como uma camada intermediária que garante a qualidade dos
dados.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 42/77
9/5/23, 3:15 PM Princípios de Big Data
E Alguns dos protocolos usados pelos projetos de IoT são construídos com tecnologias
proprietárias mais adequadas para tratar a diversidade de dados, como é o caso do
CoAP.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 43/77
9/5/23, 3:15 PM Princípios de Big Data
Ligando os pontos
Você sabe como utilizar serviços na nuvem? Que estratégia adotaria para implementar uma solução em
que os clientes pagariam apenas pelos serviços computacionais que utilizassem?
Portanto, toda a preocupação com configuração, atualização, segurança e manutenção do ambiente fica
sob a responsabilidade do prestador de serviços. Isso é excelente para clientes e usuários desses serviços,
que podem focar a atenção em detalhes de seu negócio.
A computação em nuvem possui muitos modelos de serviços. Alguns exemplos de modelos são: Software
como Serviço (SaaS), Plataforma como Serviço (PaaS) e Infraestrutura como Serviço (IaaS). Cada um deles
é focado em um escopo.
Isso tem uma implicação direta na forma como os clientes desses serviços devem pagar por eles: pagar
pelo que usa. É uma forma muito inteligente de separar responsabilidades, aumentar a produtividade e
reduzir a necessidade de correções de problemas de ambiente de trabalho.
Outra questão que devemos considerar sobre a computação em nuvem é sua aplicação para Big Data e IoT.
É natural que isso ocorra, pois o tratamento de toda essa diversidade de tecnologias já faz parte de seu
escopo.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 44/77
9/5/23, 3:15 PM Princípios de Big Data
Após a leitura do case, é hora de aplicar seus conhecimentos! Vamos ligar esses pontos?
Questão 1
Os nomes das tecnologias nem sempre fazem referência a termos técnicos, mas, ainda assim,
precisam comunicar bem a ideia do que realizam. Um exemplo disso é a computação em nuvem.
Assinale a alternativa que, em sua visão, apresenta uma aplicação nesse sentido:
Questão 2
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 45/77
9/5/23, 3:15 PM Princípios de Big Data
Você já conhece a relevância dos serviços de nuvem para atender às demandas de mercado atuais.
Esses serviços podem ser encaixados em categorias específicas. Em sua visão, um modelo de nuvem
em que o usuário pode utilizar editores de texto colaborativos hospedados na nuvem é:
Questão 3
Considere o seguinte cenário: você é o responsável pela aquisição de um serviço que potencialize a
colaboração dos membros de uma equipe de desenvolvimento. Você foi informado ainda que são previstas
as inclusões de novas funcionalidades no sistema e que ele sempre deve utilizar a última versão estável da
linguagem de programação. Quais escolhas você faria para seu projeto?
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 46/77
9/5/23, 3:15 PM Princípios de Big Data
Chave de respostaexpand_more
Conceitos
Computação em nuvem (do original em inglês Cloud Computing) é o termo usado para se referir a uma
categoria de serviços de computação sob demanda disponíveis na Internet. Além de reduzir os custos
necessários para oferecer os serviços, a tecnologia de computação em nuvem também aumenta a
confiabilidade do sistema. Por isso, é cada vez mais comum encontrarmos aplicações que fazem a
integração entre as diversas tecnologias e que oferecem os meios para que programas e dispositivos
possam se comunicar na Internet.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 47/77
9/5/23, 3:15 PM Princípios de Big Data
SaaS
SaaS (Software as a Service) ocorre quando uma aplicação é oferecida via Internet e seu preço é dado de
acordo com as necessidades de uso da parte contratante, tais como a quantidade de licenças, por exemplo.
Esse tipo de serviço é bastante interessante para o cliente, pois ele vai pagar apenas as funcionalidades do
sistema que lhe serão úteis. Além disso, não é necessário que o usuário se preocupe com instalação,
ambiente para execução, manutenção e atualizações, pois tudo isso fica sob a responsabilidade do
prestador de serviço.
PaaS
IaaS
DaaS
DaaS (Desktop as a Service) oferece computadores (desktops) virtuais aos usuários finais pela Internet, que
são licenciados com uma assinatura por usuário. A forma como os dados podem ser persistidos nas
máquinas virtuais também é tratada por esses serviços. Os computadores podem ser persistentes e não
persistentes:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 48/77
9/5/23, 3:15 PM Princípios de Big Data
Persistente: os usuários podem personalizar e salvar uma área de trabalho para que mantenha a
aparência sempre que fizer logon na máquina.
Não persistente: os desktops são apagados cada vez que o usuário se desconecta, pois eles são apenas
um meio de acessar os serviços de nuvem compartilhados.
XaaS
XaaS (Everything as a Service) é um termo geral usado para se referir à entrega de qualquer coisa como um
serviço. Entre os exemplos de XaaS, podemos citar modelos gerais de computação em nuvem, como
Software como Serviço (SaaS), Plataforma como Serviço (PaaS) e Infraestrutura como Serviço (IaaS); e
modelos mais especializados, como comunicação como um serviço (CaaS), monitoramento como serviço
(MaaS), recuperação de desastres como serviço (DRaaS) e redes como serviço (NaaS).
Tipos de Nuvem
Existem três diferentes maneiras de implantar uma infraestrutura de nuvem e disponibilizar programas que
possuem vantagens e desvantagens associadas ao contexto em que serão utilizadas. Os três tipos de
nuvens são:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 49/77
9/5/23, 3:15 PM Princípios de Big Data
Nuvem pública.
Nuvem pública
Essa configuração é adequada para as empresas que ainda estão na etapa de crescimento de sua
infraestrutura e nas quais a demanda por serviços é instável, podendo estar muito baixa em alguns
momentos e muito alta em outros. Desse modo, as empresas podem pagar apenas pelo que estão
usando e, se necessário, ajustar a sua infra na nuvem com base na demanda, sem a necessidade de fazer
um investimento inicial em hardware, economizando dinheiro e tempo de configuração.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 50/77
9/5/23, 3:15 PM Princípios de Big Data
Nuvem privada.
Nuvem privada
Todos os serviços são executados por servidores dedicados que dão ao contratante total controle sobre a
gestão dos programas e da segurança da rede. Na prática, o usuário contratante pode monitorar e
otimizar o desempenho da execução dos serviços de acordo com suas necessidades. O principal valor de
uma nuvem privada é a privacidade que ela oferece. Essa característica é especialmente interessante para
empresas que trabalham com dados confidenciais e querem isolamento da Internet aberta.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 51/77
9/5/23, 3:15 PM Princípios de Big Data
Nuvem híbrida.
Nuvem híbrida
Combina aspectos das implementações de nuvem pública e privada. Por exemplo, os dados confidenciais
permanecem na nuvem privada, devido à segurança que esse tipo de nuvem oferece. As operações que
não usam dados confidenciais, por sua vez, são feitas na nuvem pública, onde as empresas contratantes
podem dimensionar a infraestrutura para atender às suas demandas com custos reduzidos. No caso de
operações de Big Data, as nuvens híbridas podem ser utilizadas para atuar com dados não confidenciais
na nuvem pública e manter os dados confidenciais protegidos na nuvem privada.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 52/77
9/5/23, 3:15 PM Princípios de Big Data
Ao longo dos anos, a demanda por soluções de Big Data tem aumentado e a oferta de serviços
acompanhou esse processo. As soluções das plataformas de Big Data tratam de:
dns
Gestão de dados
Disponibilização de servidores de banco de dados para gerenciamento de Big Data.
analytics
Análise de dados
Inteligência de negócios por meio de programas utilitários para tratamento e extração de dados de Big Data.
handyman
Ferramentas de desenvolvimento
Oferta de ambientes de desenvolvimento de programas para fazer análises personalizadas que podem se
integrar com outros sistemas.
Além de todos esses aspectos, a plataforma oferece os serviços de segurança e proteção aos dados por
meio do controle de acesso. Portanto, é um modelo muito interessante para quem trabalha com Big Data,
devido à redução de complexidade da gestão de tantos detalhes e possibilidade de focar no negócio em si.
Toda a facilidade oferecida por uma plataforma de Big Data ajuda os profissionais a se concentrarem na
excelência dos seus trabalhos, em especial, porque estão trabalhando com conjuntos de dados de grande
volume. Alguns dos perfis dos profissionais que trabalham com essas plataformas são:
engineering
Engenheiros de dados
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 53/77
9/5/23, 3:15 PM Princípios de Big Data
Profissionais que fazem toda a gestão do fluxo dos dados: coleta, agregação, limpeza e estruturação dos
dados, para que possam ser utilizados em análises.
manage_search
Cientistas de dados
Profissionais que utilizam a plataforma para estudar padrões e descobrir relacionamentos em grandes
conjuntos de dados.
Saiba mais
Normalmente, existem dois perfis distintos em ciência de dados, que são:
Análise exploratória e visualização de dados: consiste na análise dos dados por meio de técnicas
estatísticas.
Algoritmos de aprendizado de máquina: nesse perfil, os dados são analisados com o objetivo de encontrar
associações não triviais que possam ser úteis para desenvolver estratégias de negócios, como aumentar
engajamento de clientes e potencializar vendas.
O data lake é recurso essencial nas plataformas de Big Data, pois as organizações utilizam os dados como
a base para realizar análises e desenvolver estratégias que as auxiliem a potencializar seus negócios. Cada
plataforma oferece uma tecnologia de data lake. Agora, veremos algumas dessas plataformas:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 54/77
9/5/23, 3:15 PM Princípios de Big Data
Sua primeira oferta como serviço ocorreu em 2006 e seu modelo é usado como referência por outras
plataformas de armazenamento e computação em nuvem. Ainda em 2006, a Amazon lançou uma
plataforma de computação chamada Elastic Cloud Compute (EC2), que fornece serviços de
processamento de dados virtualizados, que podem ser ajustados para atender às necessidades do
contratante. O nome do serviço de data lake da Amazon é Amazon Simple Storage Service (S3),
utilizado por muitas empresas para o desenvolvimento de soluções de Big Data na nuvem.
É a plataforma de nuvem da Microsoft que foi lançada em 2010. Ela oferece ferramentas e serviços
que foram projetados para permitir que organizações que trabalham com grandes conjuntos de
dados realizem todas as suas operações na nuvem. Entre os seus pontos positivos, estão a
segurança e a governança de dados, bem como a integração com ferramentas analíticas. Além
disso, ela possui o Azure Data Lake, que permite trabalhar com dados complexos.
É a plataforma de nuvem do Google. Ela utiliza a mesma tecnologia dos serviços de Big Data
proprietários do Google, como YouTube e pesquisa Google. Ela também oferece serviços de
armazenamento. Seu data lake é o Google Cloud Storage, projetado para trabalhar com exabytes de
dados.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 55/77
9/5/23, 3:15 PM Princípios de Big Data
É a plataforma de nuvem da IBM. Ela oferece várias soluções de data lake com o objetivo de atender
aos diferentes perfis de necessidades dos seus clientes. Também é uma solução que tem
dimensionamento ajustável, como as demais vistas. Com essa plataforma, os usuários podem
escolher entre três tipos de armazenamento: de objeto, em bloco ou armazenamento de arquivo,
dependendo das estruturas de dados com as quais estão trabalhando. Além disso, a IBM possui, na
sua plataforma Watson, ferramentas analíticas que podem se integrar totalmente aos dados
armazenados nos serviços em nuvem da IBM.
video_library
Plataformas em Nuvem para Aplicações de
BigData
No vídeo a seguir, abordaremos a programação em nuvem, as plataformas e suas aplicações para Big Data.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 56/77
9/5/23, 3:15 PM Princípios de Big Data
Os serviços de nuvem oferecem diversas facilidades para projetos de Big Data. Eles são uma
combinação de tecnologias que envolvem hardware e software por meio da Internet. Nesse sentido,
assinale a alternativa correta a respeito dos modelos de serviços na nuvem.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 57/77
9/5/23, 3:15 PM Princípios de Big Data
Os modelos de serviço de nuvem só podem ser usados para projetos de Big Data
C
voltados para aplicações de Internet das Coisas.
Apesar da redução de custos para montar uma infra, os serviços de nuvem têm como
D desvantagem a dificuldade para expandir o uso de novas tecnologias em um projeto de
Big Data.
Os serviços de nuvem são muito úteis para projetos de Big Data, pois flexibilizam o uso de tecnologias e
a adequação do tamanho da infraestrutura para atender às demandas dos clientes. Existem vários
modelos, como, por exemplo, o SaaS (software como serviço), PaaS (plataforma como serviço) e IaaS
(infraestrutura como serviço).
Questão 2
A tecnologia de computação na nuvem é um importante recurso para projetos de Big Data. Para atender
a essa demanda de mercado, grandes empresas da Internet oferecem plataformas com soluções de
hardware e software. A respeito das plataformas de Big Data na nuvem, selecione a opção correta.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 58/77
9/5/23, 3:15 PM Princípios de Big Data
A Amazon é uma das gigantes da Internet que disponibiliza uma plataforma de nuvem
C
chamada MQTT, que pode ser utilizada para projetos de Internet das Coisas.
Um dos perfis dos profissionais que trabalham com plataformas de Big Data na nuvem é
D o de engenheiro de dados que se caracteriza por desenvolver aplicações de aprendizado
de máquina.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 59/77
9/5/23, 3:15 PM Princípios de Big Data
4 - Processamento e Streaming de
Dados
Ao final deste módulo, você será capaz de identificar
aplicações de processamento e streaming de dados.
Ligando os pontos
Você sabe como utilizar a arquitetura REST para implementar Web Services com Java? Que estratégia
adotaria para implementar um Web Service para prover serviços a outras aplicações?
A velocidade com que a tecnologia avança cria situações curiosas e até mesmo impensáveis para os que
não passaram por ela. Por exemplo, na década de 1990, era muito comum alugar fitas de filmes para assistir
no final de semana e não esquecer de devolvê-las rebobinadas na segunda-feira.
Hoje, temos à disposição diversos serviços de streaming, onde podemos escolher vários filmes em um
catálogo, assistir a uma parte deles, continuar quando quisermos e, ainda, classificá-los de acordo com
nosso grau de satisfação.
A primeira é a velocidade com que podemos acessar um grande volume de dados. Essas características são
típicas de aplicações de Big Data.
Outra questão importante é a classificação que damos aos filmes. Esses dados serão processados
posteriormente com os dados de outros consumidores para identificar perfis de usuários. Dessa forma, o
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 60/77
9/5/23, 3:15 PM Princípios de Big Data
prestador de serviço pode nos oferecer filmes que se encaixem melhor com nossas preferências, sem, no
entanto, impedir que escolhamos outro filme do catálogo.
Semelhante ao exemplo que acabamos de apresentar, podemos encontrar muitas outras aplicações de
streaming na prática, como é o caso de IoT com Big Data. Inúmeras situações precisam ser monitoradas em
tempo real para verificar condições do ambiente.
A partir do processamento e da análise desses dados, pode ser necessário tomar uma ação que vai prevenir
perdas materiais e, principalmente, preservar a vida das pessoas. Essas aplicações são caracterizadas pelo
grande volume e pela grande velocidade de fluxo de dados, o que demanda técnicas muito eficientes para
detecção de anomalias.
As aplicações de Big Data se encaixam em diversos cenários. É uma miscelânea de tecnologias e métodos
eficientes para coletar, processar e analisar dados. O profissional que deseja trabalhar com essa área tem
muitas oportunidades de atuação e está investindo em uma carreira com muitas demandas para serem
atendidas.
Após a leitura do case, é hora de aplicar seus conhecimentos! Vamos ligar esses pontos?
Questão 1
Você já sabe o que é um serviço de streaming. Também já conhece a definição de IoT. Nesse sentido,
assinale a alternativa que apresenta um exemplo de uso de tecnologia com Big Data:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 61/77
9/5/23, 3:15 PM Princípios de Big Data
Questão 2
Atualmente, é comum que muitos influenciadores digitais façam “Lives” em plataformas Web, onde
apresentam suas opiniões e interagem com seu público. Essas “Lives” são um exemplo prático de
aplicações de streaming. Em sua visão, que característica justifica essa afirmação?
A interação entre os usuários e influenciadores gera dados que podem ser utilizados
B
para aumentar o engajamento nas redes sociais.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 62/77
9/5/23, 3:15 PM Princípios de Big Data
Os serviços de streaming são caracterizados pelo grande volume e pela grande velocidade com a qual
os dados são gerados. Ao realizar “Lives”, os influenciadores digitais e o público estão gerando um
grande volume de dados que precisam ser tratados de forma eficiente para manter a qualidade da
interação e que podem ser utilizados para aumentar o processo de interação com aplicações de
algoritmos de aprendizado de máquina.
Questão 3
Considere o seguinte cenário: você acompanha a ocorrência de desastres ambientais que, além da
destruição de bens materiais, ceifam muitas vidas. Atualmente, você tem estudado sobre as possibilidades
de aplicações de processamento e streaming de dados. Que sugestões de aplicações você faria para evitar
esses desastres, ou, pelo menos, minimizar as consequências deles, utilizando processamento e streaming
de dados?
Chave de respostaexpand_more
Conceitos
O streaming de dados é o processo de transmissão de um fluxo contínuo de dados. Por sua vez, um fluxo de
dados é formado por diversos elementos de dados que são ordenados no tempo. Como exemplo, temos a
transmissão de dados de uma gravação de vídeo, pois as imagens que vemos são séries de dados que
seguem uma ordem cronológica. Assim, os dados representam que algo ocorreu – que chamamos de
“evento” – de modo que houve uma mudança de estado sobre um processo que pode fornecer informações
úteis. Por isso, muitas organizações investem para obter, processar e analisar esses dados.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 63/77
9/5/23, 3:15 PM Princípios de Big Data
Streaming de dados.
Atenção
Em muitas situações, essas análises podem ser feitas ao longo de dias ‒ o que é, por exemplo, bastante
comum na manutenção preditiva de equipamentos ‒ mas, em outros casos, esses processos entre coletas e
análises devem ser feitos em tempo real – situação típica de processos de operação de equipamentos com
riscos à vida e ao patrimônio.
Dados de
sensores
embarcados em
equipamentos.
Arquivos de logs
de atividades de
d d
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 64/77
9/5/23, 3:15 PM Princípios de Big Data
navegadores da
web.
Logs de
transações
financeiras.
Monitores de
saúde pessoais.
Sistemas de
segurança
patrimonial.
Esses foram apenas alguns exemplos, mas temos muitas outras situações que envolvem grandes volumes
de dados que são transmitidos em fluxos contínuos, como se estivessem sendo transportados por uma
esteira alimentando continuamente um sistema de processamento de dados.
Atualmente, o fluxo de dados e seu processamento aumentaram sua importância devido ao crescimento da
Internet das Coisas (IoT), pois o fluxo de dados dessas aplicações é muito grande e precisa de um
tratamento específico. Os sistemas de IoT podem ter vários sensores para monitorar diferentes etapas de
um processo. Esses sensores geram um fluxo de dados que é transmitido de forma contínua para uma
infraestrutura de processamento, que, por sua vez, monitora qualquer atividade inesperada em tempo real ou
salva os dados para analisar padrões mais difíceis de detectar posteriormente.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 65/77
9/5/23, 3:15 PM Princípios de Big Data
Os conceitos de aplicações de Big Data sempre precisam levar em consideração a complexidade em que
estão contextualizados. Isso ocorre com os dados de streaming de sensores, navegadores da web e outros
sistemas de monitoramento que possuem características que precisam ser tratadas de um modo diferente
em relação aos dados históricos tradicionais.
Características do processamento de
fluxos de dados
Devido aos aspectos que envolvem o processamento de fluxo de dados, podemos destacar algumas
características, que são:
Continuidade expand_more
Especialmente para processos de tempo real, os fluxos de dados são contínuos e acontecem sempre
que um evento é disparado ou quando ocorre uma mudança de estado no sistema. Portanto, o
sistema de processamento deve estar preparado para ser acionado sempre que for requisitado.
Heterogeneidade expand_more
Os dados de fluxo podem vir de diferentes fontes com diferentes formatos e que podem estar
geograficamente distantes. Uma das características de Big Data é a variedade que abrange estas
situações: formatos, fontes de dados e localização geográfica.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 66/77
9/5/23, 3:15 PM Princípios de Big Data
Imperfeição expand_more
Muitos fatores podem influenciar para que os elementos de um fluxo de dados sejam prejudicados
por perda e corrupção. Devido à variedade das fontes e dos formatos, esse processo é ainda mais
complexo de ser gerenciado. Ainda há a possibilidade de que os elementos de dados em um fluxo
possam chegar fora de ordem. Isso implica que o sistema também precisa levar em consideração
essas falhas e ter uma medida de tolerância para fazer ajustes, quando for possível, e o
processamento dos dados.
Volatilidade expand_more
Os elementos de fluxo de dados são gerados em tempo real e representam estados de um sistema
que está sob monitoramento. Isso implica que a recuperação desses dados, quando ocorre uma
falha de transmissão, é bastante difícil. Não se trata apenas de retransmitir os dados, mas também
da impossibilidade de reproduzir o estado do sistema quando os dados foram gerados. Portanto, é
necessário desenvolver estratégias que minimizem esse problema, como redundâncias de
monitoramento e armazenamento de dados.
Escalabilidade expand_more
Uma aplicação de processamento de fluxo de dados precisa ter flexibilidade para gerenciar o
aumento brusco de volume de dados. Uma situação desse tipo pode ocorrer quando partes do
sistema falham e uma grande quantidade de dados de logs é enviada para alertar sobre a ocorrência
do problema, podendo aumentar a taxa de envio dos dispositivos para o servidor de aplicação.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 67/77
9/5/23, 3:15 PM Princípios de Big Data
Portanto, o projeto do sistema deve contemplar tais casos com estratégias para adição automática
de mais capacidade computacional à medida que a demanda por recursos aumenta.
Ordenação expand_more
Os elementos de um fluxo de dados estão associados a uma marcação no tempo. Essa marcação é
fundamental para que os dados possam ser agrupados em estruturas sequenciais que façam
sentido. Podemos pensar em uma transmissão de vídeo ao vivo, em que é esperado que o conteúdo
siga uma sequência linear, pois não faria sentido ver um vídeo em que os quadros são transmitidos
fora de ordem. Portanto, um projeto desse tipo precisa evitar que haja discrepâncias sobre a ordem
de transmissão dos dados, além de ter mecanismos de controle de qualidade.
Os dados em um fluxo de dados são voláteis, mas, em muitas situações, é útil mantê-los
armazenados, para que possamos analisá-los posteriormente. Para isso, precisamos aplicar técnicas
que garantam a condição de originalidade dos dados, ou seja, que eles não foram modificados e que,
além disso, tenham informações sobre sua qualidade. Essas situações implicam que o
desenvolvimento de um projeto de processamento de fluxo de dados deve garantir a consistência
dos dados, para que possam ser armazenados e analisados em outro momento. Quando os dados
passam por essas etapas, eles têm a propriedade de durabilidade.
Os sistemas são sujeitos a falhas. E quando falamos em sistema, precisamos visualizar toda a
complexidade que envolve programas, dispositivos físicos e infraestrutura. Esse tipo de situação
pode ser tratado por meio de algumas abordagens, como, por exemplo:
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 68/77
9/5/23, 3:15 PM Princípios de Big Data
Data warehouse.
Os dados de uma organização podem vir de diversas fontes, como registros de vendas, sistemas de
controle de estoque e interações com usuários – que são aquelas pesquisas em que a empresa pergunta
sobre a qualidade do seu atendimento. Esses dados são armazenados em um data warehouse e, então,
processados em lotes por um sistema de análise de dados.
Por outro lado, temos muitas situações práticas em que o tempo entre a coleta do dado e a ação sobre uma
determinada configuração é crucial. Alguns dos casos típicos em que isso ocorre estão relacionados às
seguintes situações:
Monitoramento
De saúde e prestação de socorro a vítimas.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 69/77
9/5/23, 3:15 PM Princípios de Big Data
Operação de equipamentos
Como transportadores de carga em aviões e caminhões aplicados à mineração.
Ajustes ad hoc
De eventos de divulgação de produtos e de prestação de serviços que tenham como objetivo aumentar o
engajamento do público.
Comentário
A lista não se encerra com esses exemplos, mas eles já ilustram bem o fato de que existem muitas
situações reais em que o processamento em lote não é adequado para aplicações de tempo real e, portanto,
precisamos aplicar estratégias de processamento do fluxo de dados para obtermos informações que nos
permitam atuar rapidamente e com maiores chances de alcançar o nosso objetivo com sucesso.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 70/77
9/5/23, 3:15 PM Princípios de Big Data
Sistemas como os de IoT são modelados de forma mais adequada, como fluxos de dados transitórios,
apesar de também ser útil armazená-los em tabelas para registro e fazer estudos posteriores. A análise
desses dados permite que possamos fazer a sua mineração, ou seja, realizar processamentos que nos
auxiliem a detectar tendências e mudanças de estado. Como resultado desse trabalho, podemos:
Identificar perfis
O que nos permite direcionar estratégias mais eficientes para aumentar o engajamento de clientes e
oferecer serviços personalizados.
video_library
Processamento e Streaming de Dados
No vídeo a seguir, abordaremos os conceitos de processamento e streaming de dados, relacionando-os à
tecnologia de Big Data em aplicações de aprendizado de máquina.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 71/77
9/5/23, 3:15 PM Princípios de Big Data
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 72/77
9/5/23, 3:15 PM Princípios de Big Data
Projetos de Big Data são complexos, pois muitos aspectos devem ser considerados. Um desses
aspectos corresponde ao fluxo de dados que são conhecidos como streamings. Nesse sentido,
assinale a alternativa correta a respeito das características e desafios em relação ao processamento de
fluxo de dados em projetos de Big Data.
Quando um sistema de fluxo de dados de Big Data falha, é possível recuperar os dados
A
reiniciando-o.
Aplicações de streaming são caracterizadas por fluxos não contínuos de dados, sendo,
B desse modo, um desafio dimensionar uma infraestrutura, para evitar a ociosidade do
sistema.
Muitas das aplicações de Big Data que utilizam fluxos de dados são de tempo real,
D cujos dados precisam ser processados com muita velocidade, pois, em muitos casos, o
seu valor é reduzido ao longo do tempo.
Uma das vantagens de trabalhar com sistemas de fluxos de dados é o fato de que eles
E são oriundos da mesma fonte, o que reduz a complexidade da infraestrutura necessária
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 73/77
9/5/23, 3:15 PM Princípios de Big Data
para o processamento.
Questão 2
A utilização de estatística e métodos de aprendizado de máquina em aplicações de Big Data é cada vez
mais comum. Um dos fatores que influencia para que isso ocorra é o fato de ter à disposição grandes
volumes de dados com variações que permitam que os modelos generalizem as soluções. Nesse
sentido, assinale a alternativa correta a respeito da descoberta de conhecimento a partir de fluxo de
dados em projetos de Big Data.
Uma das estratégias mais adequadas para lidar com fluxo de dados para algoritmos de
A aprendizado de máquina é submeter os dados a um processo de tratamento para
garantir a qualidade deles antes de submetê-los aos algoritmos.
Aplicações de Internet das Coisas produzem dados que podem fornecer informações
B úteis a respeito da topologia de sistemas monitorados, possibilitando, assim, a atuação
mais precisa.
Os projetos de Big Data que envolvem fluxos de dados são úteis apenas para avaliar o
C estado do sistema em certo período e não devem ser armazenados com o objetivo de
obter histórico de comportamento.
Considerações finais
Ao longo deste conteúdo, estudamos o conjunto de tecnologia que envolve o conceito de Big Data. É
interessante notarmos que, em um primeiro momento, associamos Big Data a aplicações de banco de
dados. Porém, quando analisamos um pouco mais, vimos que estamos tratando de uma tecnologia que vai
além de banco de dados, relacionando-se às tecnologias de redes, processamento eficiente, Internet das
Coisas (IoT), computação distribuída, análise estatística e aprendizado de máquina.
Atualmente, vivemos em uma época com grandes oportunidades de demanda de profissionais para
desenvolver aplicações nas mais variadas áreas, como no entretenimento, na prestação de serviços de
monitoramento, e nas áreas de segurança, saúde, finanças, entretenimento, mídia e agronegócio. Portanto,
Big Data é uma excelente área para se especializar e procurar oportunidades de desenvolvimento
profissional.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 75/77
9/5/23, 3:15 PM Princípios de Big Data
headset
Podcast
Para finalizar o seu estudo, ouça o podcast a seguir, que aborda os principais conceitos de Big Data e sua
relação com as tecnologias de IoT, Computação Distribuída, Plataformas em Nuvem e Streaming de Dados.
Explore +
Acesse o site do Arduino e estude os diversos exemplos didáticos de como construir projetos
superinteressantes. Em seguida, tente programar esses projetos no site do Tinkercad.
Acesse o site oficial do Spark e procure por Streaming Programming. Desse modo, você vai aprofundar seu
conhecimento sobre processamento de fluxo de dados, além de encontrar exemplos práticos desenvolvidos
no Spark.
Referências
BRASIL. Lei nº 13.709 de 14 de agosto de 2018. Dispõe sobre a proteção de dados pessoais e altera a Lei
nº 12.965, de 23 de abril de 2014 (Marco Civil da Internet). Diário Oficial da República Federativa do Brasil, 15
ago. 2018. Consultado na Internet em: 10 set. 2021.
GANTZ, J.; REINSEL, D. Extracting value from chaos. IDC iView, pp 1–12, 2011.
LANEY, D. 3-d data management: controlling data volume, velocity and variety. META Group Research Note,
2001.
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 76/77
9/5/23, 3:15 PM Princípios de Big Data
RUSSOM, P. Big Data Analytics. TDWI Best Practices Report, Fourth Quarter 2011. TDWI Research, 2011.
Download material
Relatar problema
https://stecine.azureedge.net/repositorio/00212ti/04085/index.html# 77/77
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Descrição
Conceitos de Business Intelligence (BI) e sistemas de suporte à tomada de decisão, entendimento de Data Warehouse (DW), seus
componentes e sua arquitetura, bem como a compreensão do ciclo de vida do projeto.
Propósito
Compreender os conceitos basilares de Business Intelligence e Data Warehouse como requisitos essenciais para a análise e o
entendimento do ambiente organizacional, e para uma maior assertividade durante o levantamento de requisitos com os usuários
envolvidos e na elaboração de documentos para apoiar o projeto de DW.
Objetivos
Módulo 1
Business Intelligence
Definir o conceito de Business Intelligence e seus componentes nos diferentes níveis organizacionais.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 1/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Módulo 2
Módulo 3
Descrever o processo de levantamento de requisitos e mapeamento de fontes de dados para Data Warehouse.
Introdução
O crescimento de uma empresa revela desafios relacionados ao conhecimento do seu próprio negócio e sobre o
comportamento do mercado, que pode influenciar direta ou indiretamente na saúde da empresa. O conhecimento permite aos
gestores de uma organização tomarem decisões mais direcionadas, focando em aspectos de melhoria das atividades,
aumentando as oportunidades de crescimento e minimizando riscos que possam impactar em seus resultados.
No entanto, poucos sabem que esse conhecimento já se encontra em posse da organização: em sistemas destinados às
operações diárias, sistemas de controle de estoque, nas planilhas de vendas, nos e-mails trocados com fornecedores e
clientes, e até mesmo em feedbacks e menções recebidos nas redes sociais. Todos são exemplos de dados brutos, que, se
lapidados por meio de técnicas e processos bem definidos, podem se transformar em conhecimento. Por isso, devem ser
tratados como um ativo extremamente importante da organização para obtenção da inteligência organizacional, também
conhecida como Business Intelligence (BI).
Neste conteúdo, vamos compreender as diferentes necessidades informacionais dentro de uma organização, os tipos de
sistemas que as apoiam e como é possível projetarmos estruturas para organizarmos esses dados e informações,
denominados Data Warehouse (DW), reconhecendo seus componentes e sua arquitetura, o funcionamento do ciclo de vida de
um projeto de DW e as fases de levantamento de requisitos e mapeamento de fontes de dados para Data Warehouse.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 2/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
1 - Business Intelligence
Ao final deste módulo, você será capaz de definir o conceito de Business Intelligence e seus componentes nos
diferentes níveis organizacionais.
Ligando os pontos
Você sabe o que é Business Intelligence? Em um cenário em que fosse contratado para auxiliar no aumento das vendas de um cliente,
qual estratégia você adotaria? Para respondermos a essas perguntas, vamos analisar algumas situações práticas.
A popularização das tecnologias trouxe inúmeros benefícios para a sociedade. Um exemplo prático disso são os bancos de dados
que permitem armazenar diversos dados, criando, assim, um histórico dos eventos que ocorreram em uma empresa de vendas. Esses
dados podem ser analisados posteriormente e fornecer importantes entendimentos a respeito do negócio. É aí que entra a Business
Intelligence (BI) ou simplesmente Inteligência de Negócios.
A BI utiliza um conjunto de técnicas para obter informações relevantes a respeito de um processo. Obviamente, é pré-requisito
fundamental ter fontes de dados disponíveis e confiáveis. A partir dessas fontes de dados, começamos a construir as perspectivas do
negócio que estamos analisando por meio de Data Marts (DMs). As perspectivas correspondem às diferentes visões dos atores a
respeito do negócio. Já os DMs são uma organização resumida dos dados que traduzem essas perspectivas. Vamos a um exemplo.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 3/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Uma loja virtual vende diversos tipos de roupas. Depois de seis meses de operação, os responsáveis perceberam alguns padrões e
querem formalizá-los para construir estratégias que ajudem no aumento das vendas.
O primeiro ponto a ser observado, como já vimos, é ter um banco de dados que registre tudo o que está acontecendo sobre detalhes
das vendas: qual a roupa, o valor, o dia da venda e informações sobre o cliente.
Em seguida, passamos a estudar os perfis dos clientes em grandes grupos com o objetivo de detectar padrões:
Aplicar BI para organizar um negócio é um passo estratégico muito eficaz para tomar decisões baseadas na realidade dos
acontecimentos. Precisamos ficar atentos aos aspectos tecnológicos e utilizá-los como suporte para o fortalecimento e o
crescimento de um negócio.
Questão 1
Imagine que você seja o responsável por uma rede de lojas e queira utilizar soluções de BI para aumentar suas vendas, mas não
possua um registro de suas operações. Para aplicar BI em seu negócio, o que você deve fazer?
A Criar uma base de dados que possa ser explorada por técnicas de BI.
B Utilizar a intuição para construir dados próximos da realidade e, em seguida, implementar BI.
Adquirir um software de BI no mercado que seja capaz de produzir excelentes análises do negócio sem a
C
dependência de um banco de dados.
D Como não há uma cultura de gerenciamento de dados, não há como aplicar BI.
As técnicas de BI são muito úteis para construir estratégias eficazes que fortalecem um negócio. No entanto, elas são baseadas
em fontes de dados confiáveis. Na ausência deles, tudo é especulação e envolve enormes riscos. No caso em questão, é
fundamental que o responsável pela rede de lojas organize seus dados, para que possa aplicar BI posteriormente.
Questão 2
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 4/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Suponha que você seja o responsável pelo treinamento de uma equipe de desenvolvedores para criar uma solução de BI. Essa
equipe é formada por profissionais que já sabem trabalhar com banco de dados e são experientes com linguagens de
programação orientadas a objetos, como Java, C# e Python. Nesse caso, qual deve ser seu foco no treinamento dessa equipe
para maximizar o aprendizado?
C Na otimização do uso de uma linguagem de programação e de um banco de dados para manipular dados.
E No debate teórico sobre os grandes benefícios potenciais que as técnicas de BI podem produzir para um negócio.
As técnicas de BI são usadas para extrair informações relevantes obtidas dos dados de um negócio. Para implementá-las, são
necessárias uma visão detalhada do negócio e uma qualificação técnica que permita o desenvolvimento de soluções práticas. No
caso em questão, a equipe já tem experiência em banco de dados e linguagens de programação. Então, para potencializar o
aprendizado, é necessário mergulhar em um exemplo prático que terá como resultado a produção de um Data Mart (DM).
Questão 3
Considere o seguinte cenário: você foi contratado para desenvolver uma solução de BI para uma livraria que trabalha apenas com
material digital. Um dos grandes problemas enfrentados por esse tipo de negócio é a pirataria. Apesar disso, a livraria consegue
realizar boas quantidades de vendas mensais, mas deseja aumentar as vendas em, pelo menos, 30%. Nesse caso, que solução você
indicaria aos responsáveis pela livraria a fim de atingir esse objetivo?
Chave de respostaexpand_more
A BI pode ajudar os responsáveis pela livraria de muitas formas. A primeira delas é com o estudo do perfil dos clientes, que,
apesar do problema descrito, continuam comprando os livros na loja. É necessário trabalhar para aumentar o engajamento
desses clientes com o envio de informações a respeito de produtos e promoções que realmente sejam interessantes para eles.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 5/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
A partir dessa fidelização, esses clientes devem ser estimulados a convidar outras pessoas para conhecer a livraria. Nesse meio
tempo, a BI ajuda a entender se essas estratégias estão surtindo efeito e quais os segmentos que demandam mais atenção.
Esse conjunto resulta em um ambiente analítico com informações gerenciais em formato de relatórios e dashboards, que facilitam a
visualização, de forma mais ampla, do que aconteceu, do que está acontecendo ou do que ainda poderá acontecer na empresa.
Exemplo
Para que o gerente do supermercado possa realizar uma análise do que já aconteceu e identificar quais são os produtos mais
vendidos no verão, é necessário analisar os dados dos três últimos anos nos meses de dezembro a março. Se esse mesmo gerente
possui a necessidade de acompanhar a venda dos produtos para que seu estoque não seja zerado, ele precisa de relatórios diários ou
semanais do fluxo de venda.
Mas como as análises sobre os dados podem auxiliar na tomada de decisão sobre o que acontecerá?
O estudo de acontecimentos passados pode revelar comportamentos futuros. Então, é possível analisar os produtos comprados
pelos clientes, traçar os perfis de consumo destes e sugerir novos produtos que se encaixem nos perfis mapeados, pois, de acordo
com os produtos comprados, há uma probabilidade que eles se interessem por alguns itens relacionados às suas compras passadas.
Esses tipos de análises são classificados como diagnóstica, descritiva, preditiva e prescritiva. De acordo com o Glossário do Gartner
Group (GARTNER, 2020), tais análises são descritas da seguinte forma:
Análise diagnóstica
Examina os dados do passado para responder a perguntas como “O que aconteceu?”, caracterizando a questão sobre os
produtos mais vendidos no verão, como no exemplo do supermercado.
Análise descritiva
Examina os dados para responder perguntas como: “O que aconteceu?” ou “O que está acontecendo?”. Um exemplo disso é a
análise semanal de vendas.
Análise preditiva
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 6/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Utiliza técnicas de mineração de dados e se baseia nos dados do passado para responder perguntas sobre o que acontecerá.
Análise prescritiva
É considerada uma análise mais avançada, na qual os dados são analisados para determinar ações que podem ser tomadas
para que algo aconteça.
Exemplo: “O que pode ser feito para que a venda de produtos do setor de higiene pessoal seja alavancada?”
A análise prescritiva utiliza análise gráfica, simulação, processamento de eventos complexos, redes neurais, motores de
recomendação, heurística e aprendizagem de máquinas.
A forma de analisar os dados está relacionada aos objetivos da organização, cujo interesse é visualizar os dados relevantes para
facilitar a tomada de decisão.
Conforme Laudon e Laudon (2014), os objetivos de um Sistema de Informação Gerencial (SIG) em uma organização
são:
O SIG disponibiliza relatórios para usuários no nível de gerente que possuem objetivos mais específicos.
Já os Sistemas de Apoio à Decisão (SAD) são baseados em conhecimentos que apoiam a tomada de decisão nas
organizações com ferramentas de análises e visão por diferentes perspectivas de análises. Eles processam grandes
volumes de dados, consolidam e disponibilizam ambientes analíticos com consultas em formato de relatórios e
dashboards.
Há i d Si t d I f ã E ti (SIE) d ti d àt d d d i ã d ti d S
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 7/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Há ainda o Sistema de Informação Executiva (SIE), destinado à tomada de decisão dos executivos da empresa. Suas
análises são mais resumidas e a interface de análise é mais fácil e objetiva.
Os três tipos de sistemas de informação gerencial possuem o objetivo de apoiar a tomada de decisão, cada qual destinado a um
público específico.
O Data Warehouse (DW) é um sistema de informação gerencial focado no apoio à tomada de decisão, que, normalmente, é realizada
pelos gestores da organização. O conceito Data Warehouse (DW) ou armazém de dados surgiu entre os anos 1980 e 1990, com o
trabalho desenvolvido pelos pesquisadores Devlin e Murphy (1988), com o nome Business Data Warehouse (BDW), que buscava
integrar dados para apoiar as análises sobre os dados de uma organização.
Comentário
Apesar de Bill Inmon já usar o termo Data Warehouse nos anos 1970 (KEMPE, 2012), o artigo citado (DEVLIN; MURPHY, 1988)
descreveu o problema a ser resolvido e a solução a ser implementada para a integração dos dados empresariais. Posteriormente,
Inmon difundiu o conceito do Data Warehouse e hoje é conhecido como o pai do DW. O professor Ralph Kimball também é uma
referência no conceito de Data Warehouse e possui uma abordagem de implementação diferente da apresentada por Inmon
(KIMBALL, 1998).
Atenção
A escolha da abordagem a ser implementada por uma organização ocorre conforme a sua necessidade de análise. Contudo, muitas
vezes, a abordagem bottom-up é escolhida por ser mais fácil de implementar, explorando um assunto por vez e evoluindo com o
desenvolvimento dos Data Marts até que se obtenha o Data Warehouse desejado.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 8/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
O Data Mart é um armazém de dados focado em um assunto da organização. Ele é um subconjunto de um Data Warehouse. O Data
Warehouse é formado por vários Data Marts ligados por perspectivas de análises em comum. Para uma implementação mais rápida
do ambiente analítico, ele pode ser construído por Data Mart.
Nesse caso, é importante compreender o Data Mart como parte de um todo (DW) que será integrado aos
demais assuntos, fornecendo análises para toda a organização.
Agora, vamos analisar o cenário hipotético de um estudo de caso: uma locadora de veículos.
Para aumentar os lucros e fidelizar os clientes, oferecendo benefícios em seus aluguéis, a locadora deseja conhecer quais são os
clientes que alugaram veículos nos últimos seis meses, pelo menos uma vez por mês. Para isso, foi construído um ambiente de
análise com o Data Mart AlugueDM, tornando possível responder à pergunta sobre os clientes, conforme observado na imagem a
seguir.
Para responder a essa pergunta, foi construído o Data Mart VendaDM, conforme observado na imagem a seguir.
O Data Mart VendaDM possui a mesma perspectiva de análise que o Data Mart AlugueDM. Essa perspectiva é a visão de cliente. Com
a perspectiva de análise em comum nos dois Data Marts, é possível relacioná-los e analisar as informações de aluguel e venda de
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 9/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Com o exemplo da locadora de veículos, é possível verificar que o Data Warehouse e o Data Mart fornecem análises gerenciais que
facilitam e melhoram a performance das atividades das organizações com análises consistentes ao longo tempo.
O processo de extração captura dados de diversas fontes, aplica tratamentos, padroniza e integra os dados, fornecendo consultas por
diferentes visões de análises.
Nos ambientes analíticos, ao carregarmos os dados no DW/DM, eles não sofrerão atualizações, garantindo, assim, que uma mesma
consulta feita no mês passado e hoje apresentarão o mesmo resultado. Nos sistemas transacionais, por sua vez, os dados sofrem as
operações básicas de inclusão, alteração e deleção de registros.
O DW/DM permite análises ao longo do tempo. A visão Tempo é muito importante no ambiente analítico, pois os dados históricos são
referentes a um momento no tempo. É essa característica que permite avaliar, por exemplo, qual foi o percentual de crescimento de
vendas de produtos do setor de higiene pessoal no primeiro trimestre do ano em relação ao primeiro trimestre do ano passado.
eleção
Remoção, perda, destruição.
Além das características principais, os sistemas DW/DM diferem dos sistemas transacionais por:
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 10/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Os sistemas transacionais possuem dados detalhados e são usados, principalmente, pelos usuários que, por exemplo, ao realizarem
atendimento ao público ou controle de estoque, acessam poucas linhas por transação e são normalizados.
Níveis de decisão.
Exemplo
O sistema de apoio ao fluxo de vendas do cenário de análise de um supermercado recebe todas as ocorrências de eventos de
compras realizadas pelos clientes em várias lojas físicas e pelo e-commerce.
Todas as operações de inclusão, alteração e deleção de registros ocorrem durante o período do atendimento ao cliente. Assim, esse
sistema deve estar disponível para que a operação do supermercado não seja prejudicada. Em outras palavras, não pode haver
concorrência de acesso aos dados, gerando lentidão a esse ambiente.
As análises realizadas nas bases de dados dos Sistemas de Apoio Operacional são pontuais e coletam poucos registros por vez.
Exemplo
Quais foram os produtos que o cliente João comprou hoje na loja física?
Seu funcionamento é baseado em consultas ao banco de dados da empresa, que são formuladas por critérios predefinidos e
altamente estruturados.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 11/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Caso seja necessário analisar o volume de compras efetuadas pelo cliente João nos últimos dois anos, nas lojas física e pelo e-
commerce, isso não será possível. O volume de dados a ser analisado é muito grande para concorrer com as operações que estão
sendo realizadas no Sistema de Apoio Operacional (transacional).
Saiba mais
Além das informações internas de outros sistemas organizacionais, os SADs buscam fontes de dados externas, como as cotações
das bolsas de valores e os preços dos concorrentes. Esses sistemas são usados pelos gerentes de nível mais alto, que usam técnicas
analíticas e modelos estatísticos e matemáticos sofisticados para produzir conhecimento.
Nesse ambiente analítico, os dados ficam disponíveis para responder às perguntas com eficiência sem concorrer com as operações
transacionais da organização. Em um Data Warehouse/Data Mart, as análises históricas são respondidas com bastante eficiência,
pois sua arquitetura é projetada para explorar grandes volumes de dados, como veremos no próximo módulo.
video_library
Principais características de sistemas de BI
No vídeo a seguir, abordamos os conceitos basilares de sistemas de Business Intelligence. Vamos lá!
Questão 1
Sobre o conceito de Business Intelligence (BI), que tem como objetivo fornecer análises para a tomada de decisão em
organizações privadas ou públicas, é possível afirmar que:
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 12/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
A É um sistema que fornece relatórios sobre os dados produzidos pela organização.
B É uma ferramenta que transforma os dados para a construção das análises solicitadas pela organização.
É um conjunto de técnicas e ferramentas que dão suporte à criação de um ambiente analítico, no qual as análises
C
podem ser feitas por meio de relatórios e dashboardss.
D É uma ferramenta de criação de dashboardss com as possíveis análises que a organização possa precisar.
É um ambiente que fornece análises somente sobre os fatos que estão ocorrendo atualmente na organização,
E
como, por exemplo, “Quantos produtos foram vendidos essa semana?”.
O conceito de Business Intelligence (BI) fornece apoio à construção do conhecimento para a tomada de decisão, utilizando um
conjunto de técnicas e ferramentas que coletam, integram e organizam os dados, com os tratamentos necessários, e
disponibilizam informações que darão suporte às decisões estratégicas da organização.
Questão 2
A É orientado a assunto, não integra dados, é não volátil e apresenta dados históricos.
É orientado a assunto, possui dados integrados, que são alterados ao longo do tempo, e apresenta dados
B
históricos.
C Possui foco departamental, não integra dados, é não volátil e apresenta dados históricos.
D É orientado a assunto, possui dados integrados, é não volátil e apresenta dados históricos.
E Possui foco departamental e dados integrados, é não volátil e apresenta dados históricos.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 13/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
O Data Warehouse é orientado a assunto, integra dados de vários sistemas, não é passível de alterações dos acontecimentos
passados e armazena dados históricos, possibilitando análises ao longo do tempo.
starstarstarstarstar
Ligando os pontos
Você sabe o que é Data Warehouse? Quais são os benefícios do Data Warehouse para um negócio? Vamos entender melhor esse
conceito na prática.
O Data Warehouse (DW) é um sistema que concentra dados de diferentes fontes de forma estruturada e é usado para fornecer
subsídios às análises que serão realizadas posteriormente pelas técnicas de BI. Portanto, estamos falando sobre ter uma política de
gerenciamento de dados. Não há como obter sucesso na aplicação de técnicas de BI sem ela.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 14/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
O DW não é uma fonte primária, e sim o resultado da combinação e do tratamento de diversas fontes que são relevantes para o
negócio. Um processo muito comum para construí-lo é aplicar técnicas de ETL, que, basicamente, é formado de três etapas distintas:
Resumindo, significa obter os dados já mapeados de uma fonte que pode ser formada de tabelas ou arquivos, submetê-los a um
processo de transformação, convertendo-os em um formato padronizado, e salvar esses dados no DW. Existem muitas ferramentas
para essa finalidade como, por exemplo, SAP BODS e Pentaho.
Alguns aspectos fundamentais do gerenciamento do ciclo de vida do DW são a organização e a confiabilidade dos dados, a
periodicidade com que são incrementados e utilizados, e a segurança da informação.
Em especial, devemos olhar com cuidado a segurança da informação, pois os dados do DW são o resultado de um processo de
transformação, ou seja, já há valor agregado. Então, uma violação de segurança pode causar muitos danos. Por isso, as empresas de
médio e grande porte que trabalham com serviços on-line podem ter muitas vantagens ao utilizar o DW.
Um processo de descoberta de conhecimento em banco de dados é chamado de Knowledge Discovery in Databases (KDD). Consiste
no estudo dos dados e como se relacionam de forma a compreender padrões sobre os perfis dos clientes, periodicidade de consumo
de serviços e outras características que ajudem a melhorar o desempenho do negócio.
Questão 1
Você já sabe que manter um DW é fundamental para aplicar técnicas de BI. Nesse sentido, que aspecto sobre o DW é essencial?
O fato de corresponder a uma tecnologia que só pode ser aplicada por alguns fornecedores de sistemas
C
gerenciadores de banco de dados.
E A necessidade de uma política de segurança de acesso e gerenciamento de ciclo de vida dos dados.
Os dados que o DW armazena são resultado de um processo de extração de diversas fontes, transformação e carga em um
repositório estruturado que será utilizado por outras etapas para aplicação das técnicas de BI. Portanto, devem ser protegidos e
ter seu ciclo de vida gerenciado por políticas bem definidas.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 15/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Questão 2
Uma importante técnica para obter informações relevantes que deem apoio à tomada de decisão é a KDD. Para que ela possa ser
aplicada, é necessário ter um DW confiável. Nesse contexto, que exemplo de resultado pode ser obtido por uma técnica de KDD?
C As pessoas com qualificação em BI que são grandes consumidores de novas tecnologias no mês de novembro.
A KDD é caracterizada pela descoberta não trivial de como os dados se relacionam. Portanto, não é o resultado de uma consulta
simples em uma tabela do DW. Os resultados que esperamos de uma técnica de KDD é a descoberta de perfis de usuários,
periodicidade e relacionamento entre eventos. No caso em questão, a KDD relacionou determinada qualificação com o consumo
de um tipo de produto em determinado mês do ano.
Questão 3
Considere o seguinte cenário: você foi designado para gerenciar a etapa de ETL para fornecer dados a um DW que já está em
operação. Logo depois que assumiu a função, você descobriu que os programas de conversão possuem muitos problemas, apesar de
estarem funcionando corretamente. Nesse contexto, que estratégia você adotaria para melhorar a qualidade desses programas?
Chave de respostaexpand_more
Em time que está ganhando, não se mexe, certo? Bem, não é esse o caminho que devemos adotar. É claro que não devemos
chegar a um projeto e fazer modificações profundas logo no início, em especial quando já exista uma rotina que, apesar de ser
problemática, funcione. No entanto, também não devemos deixar o problema continuar e gerar danos que possam ser muito
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 16/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
prejudiciais. O ideal é mapear todos os programas de conversão, qualificar e conscientizar o time nas melhores práticas de
desenvolvimento e, passo a passo, melhorar e testar cada um dos programas para evitar transtornos no futuro. Nunca devemos
esquecer que a BI depende de dados confiáveis.
A construção do DW/DM envolve alguns pontos que devem ser considerados pela organização, como a infraestrutura disponível, o
escopo, a disponibilidade dos dados e os profissionais capacitados que executarão as atividades relacionadas à arquitetura do
ambiente.
Um projeto de construção de um DW/DM é composto por alguns passos importantes. São eles:
1. Entendimento do negócio
Levantar os requisitos para conhecer a necessidade da organização é um passo fundamental para o início de um
projeto de DW/DM. O escopo a ser definido deve conter as análises desejadas pela organização para as perspectivas
de análises e os indicadores que serão analisados. É necessário definir o grão que será analisado no ambiente e
entender como o tempo deve se comportar no ambiente a ser criado.
Esse passo verifica a disponibilidade e a viabilidade dos dados necessários para a construção das análises.
Área em que os dados são armazenados temporariamente para que sejam tratados.
Processo de extração de dados das fontes de origem, transformação dos dados para adequar à análise e carga dos
dados no DW/DM.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 17/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Especificação e desenvolvimento de consultas, relatórios, aplicativos de análise e outros componentes das aplicações
de BI.
rão
Nível de detalhamento dos dados.
Saiba mais
Grão: Nível de detalhamento dos dados.
Segundo Kimball e Ross (2013), a arquitetura de um DW/DM possui quatro componentes distintos no ambiente de BI:
As fontes de dados são, em geral, provenientes de sistemas transacionais da organização, que contêm elementos de dados de onde
informações possam ser extraídas e analisadas.
Os sistemas transacionais são aqueles que interessam para a análise de dados, como, por exemplo: sistemas de vendas, contas a
pagar e a receber, folha de pagamento, controle de estoque, controle de crédito. Esses dados são conhecidos como estruturados, ou
seja, é possível recuperar o conteúdo a partir de uma estrutura previamente estabelecida e padronizada.
No entanto, outras fontes de dados, como planilhas em Excel, documentos em Word, log file (arquivos de log), menções em redes
sociais, arquivos de áudio, arquivos de imagens podem ser utilizados na análise. Essas fontes são denominadas semiestruturadas ou
não estruturadas, pois possuem pouco ou nenhum padrão inicialmente preestabelecido e seu tratamento é mais complexo. Esses
dados podem conter conhecimento extremamente valioso para o negócio.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 18/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
O sistema ETL é definido por Kimball e Ross (2013) como um ambiente composto por uma área de trabalho, estruturas de dados
instanciadas e um conjunto de tarefas organizadas em três etapas: extração, transformação e carga.
Extração
A extração é a etapa que coleta os dados, identifica-os, copia os que são necessários para as análises e armazena esse conjunto
de dados em uma base de dados temporária. Além das fontes de sistemas transacionais, outras fontes de dados podem ser
consideradas, como dados semiestruturados (arquivos XML, JSON) e dados não estruturados (texto). Essas fontes podem
complementar as análises de DWs/DMs ou ainda compor Data Marts baseados apenas em dados extraídos de fontes de dados
não estruturados.
Transformação
A transformação dos dados consiste em aplicar tratamentos para limpar e padronizar os dados, colocando-os em conformidade,
converter campos numéricos, formatar datas, integrar dados, aplicar metadados em dados não estruturados etc.
Essa etapa contribui com a melhoria dos sistemas transacionais, apontando inconsistências que possam ser encontradas nos
dados que foram extraídos. Devido ao grande volume de dados manipulados, é inviável que, a cada problema encontrado, o
analista responsável pelo DW/DM informe ao sistema transacional. Para resolver esse problema, há mecanismos de controle de
carga/log que registram as inconsistências e que podem ser consultados conforme a necessidade.
Carga
A carga dos dados ocorre após a transformação. Eles são inseridos na estrutura definitiva, representada pela área de
apresentação do DW/DM, onde são acomodados de forma organizada no modelo de dados multidimensional definido para o
DW/DM.
A área de apresentação é o local onde os dados estão organizados no modelo dimensional e disponibilizados para usuários e
aplicações de BI. Nesse momento, os dados estão prontos para uso e podem ser consumidos pela organização para apoiar a tomada
de decisão.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 19/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Além dessas informações, são armazenados os tratamentos aplicados, o relacionamento entre os dados, o entendimento de
conceitos e definições de negócio, a verificação das regras de negócios aplicadas e todas as demais informações importantes para o
desenvolvimento desse ambiente.
Kimball e Ross (2013) afirmam que os metadados são análogos à enciclopédia do DW/BI. Por isso, o analista deve estar atento para
povoar e manter o repositório de metadados.
Barbieri (2020) explica que os metadados definem os dados sob várias óticas, tais como:
Relacionamentos
“Trabalha para”, “mantido por”, “tem como gestor(es) o(s”), “localizado em” etc.
Formas de tratamento
Fórmulas, cálculos, manipulações, procedimentos etc.
Regras
Obrigatoriedade de presença dos dados naquele contexto, regras de qualidade exigidas para formas, valores, conteúdos etc.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 20/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Informações históricas
“Inventado em”, “descoberto por”, “desativado em” etc.
A principal vantagem de trabalhar com os metadados é o fato de que todas as informações importantes estão armazenadas e podem
ser consultadas sempre que for necessário.
Esse fluxo de atividades é apoiado por um conjunto de tarefas de entendimento, levantamento de requisitos e documentação,
realizado pelos analistas de BI. Tais artefatos geram um banco de metadados sobre o ambiente analítico com informações
importantes sobre o conhecimento produzido neste.
Comentário
Apesar de o atendimento e a atuação da equipe de BI serem eficientes quanto à entrega de um ambiente controlado, assistido e
apoiado por metadados, em organizações onde a demanda é muito volumosa e a equipe de BI não consegue atender às
necessidades dos usuários de forma rápida, surge a necessidade de um modelo Self-Service, no qual o usuário pode acessar,
modelar e analisar os dados sem o auxílio da equipe de BI.
Com essa forma de acesso aos dados, os usuários podem gerar suas análises de maneira mais rápida, obtendo os resultados
desejados com um tempo inferior ao atendimento do analista especializado em BI. No entanto, apesar de o modelo Self-Service
oferecer maior rapidez na confecção das análises pelos usuários, alguns pontos de atenção devem ser observados. São eles:
Nesse modelo, os dados ficam descentralizados, onde cada usuário cria seu próprio conjunto de dados e aplica regras de negócio sob
seu ponto de vista.
A falta de tratamento e observação das inconsistências de dados pode apresentar resultados errados.
Análises sobre o mesmo assunto podem apresentar resultados diferentes, prejudicando a tomada de decisão.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 21/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
O Data Warehouse disponibiliza uma base de dados organizada com diversas perspectivas de análises ao longo do tempo. Esse
repositório de dados oferece consultas predefinidas e análises no formato Self-Service.
Além dessas possibilidades, ir em busca da descoberta de conhecimento e da mineração de dados é uma das etapas da Descoberta
de Conhecimento em Bases de Dados, ou Knowledge Discovery in Databases (KDD), e está relacionada com o Data Warehouse no
que diz respeito a dados tratados e disponíveis para análises, pois o DW pode fornecer dados para os processos de KDD, gerando
valor para a organização. Porém, lembre-se: uma solução não substitui a outra. Elas são complementares no processo de busca pelo
conhecimento.
Essas técnicas podem revelar padrões de comportamento, auxiliando a tomada de decisão. No cenário de análise do supermercado,
o DW fornece consultas sobre o volume de compras realizadas pelos clientes, e os processos de KDD podem descobrir padrões
existentes nas compras realizadas.
Exemplo 1
Apesar de não haver uma fonte confiável que valide essa descoberta, é um fato muito conhecido no mundo de BI e interessante
para ser analisado.
Um grande varejista dos EUA, observando os padrões de compra de seus clientes, verificou que o aumento da venda de fraldas às
sextas-feiras estava relacionado à venda de cerveja, e, na maioria das vendas, os clientes eram do sexo masculino. A explicação
para esse fato curioso é que os papais iam comprar fralda para seus pequenos e acabavam levando a cerveja para seu final de
semana.
De posse desse conhecimento, o varejista posicionou estrategicamente as fraldas ao lado das cervejas para aumentar os lucros.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 22/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Exemplo 2
Outro exemplo voltado ao bem-estar de pacientes e com foco na diminuição de gastos é a descoberta antecipada de possíveis
cirurgias de alto risco realizadas por pacientes que possuem problemas relacionados à coluna. O estudo sobre a recorrência de
consultas com ortopedistas e as ocorrências de exames correlacionados e terapias dedicadas a essa patologia pode sinalizar
futuras cirurgias.
Com esse conhecimento, os gestores responsáveis pelo acompanhamento clínico dos pacientes podem oferecer tratamentos
direcionados e efetivos para que cirurgias desnecessárias não sejam realizadas, reduzindo os riscos ao paciente e diminuindo os
gastos com internações.
Atenção
Sua implementação deve se preocupar com os recursos disponíveis para sua concepção, de modo que o resultado seja alcançado.
Além disso, é muito importante que o objetivo da construção esteja bem definido e seja orientado às necessidades dos usuários da
organização, à disponibilidade de recursos e dos dados. A construção do DW deve considerar esses pontos e ter um plano de
desenvolvimento para que os objetivos sejam alcançados.
O desenvolvimento de um projeto é dividido em fases e possui um início e um fim. Para iniciar qualquer atividade que envolva várias
fases, você precisa planejar a execução dessas fases, como ilustrado na imagem a seguir:
Definição
Planejamento do dos Especificação e
Modelagem Implantação
requisitos Projeto físico desenvolvimento
projeto dimensional
de negócio de ETL
Especificação da Desenvolvimento da
aplicação de BI aplicação de BI Manutenção
Gerenciamento do projeto
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 23/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
O planejamento do projeto é a primeira fase do ciclo de vida de um projeto de DW. Nessa fase, são definidos o escopo do projeto, a
viabilidade de recursos, as tarefas a serem desenvolvidas no projeto e o encadeamento delas.
Saiba mais
Kimball e Ross (2013) afirmam que um bom planejamento e a definição bem elaborada dos requisitos aumentam a probabilidade de
sucesso de um projeto de DW, pois seu desenvolvimento é baseado nas necessidades dos usuários do negócio. Isso apoia a
importância dessas duas fases para o desenvolvimento do DW.
Saiba mais
Kimball e Ross (2013) afirmam que um bom planejamento e a definição bem elaborada dos requisitos aumentam a probabilidade de
sucesso de um projeto de DW, pois seu desenvolvimento é baseado nas necessidades dos usuários do negócio. Isso apoia a
importância dessas duas fases para o desenvolvimento do DW.
Observe que o ciclo de vida do projeto, após a definição dos requisitos do negócio, é dividido em três trilhas
distintas da fase de desenvolvimento.
Trilha tecnológica
Atenção
A etapa arquitetura tecnológica se preocupa com a definição estrutural e compreende os componentes necessários à implementação
de um DW. Esses componentes estão relacionados à arquitetura de dados, à infraestrutura utilizada e às tecnologias necessárias na
construção e utilização de um DW.
Essa etapa é seguida da seleção e instalação dos produtos, que define as ferramentas que serão utilizadas na construção, realiza a
instalação, faz o teste de integração e as executa.
Trilha de dados
A segunda trilha se dedica ao tratamento dos dados e encadeia as fases: modelagem dimensional, projeto físico e especificação e
desenvolvimento de ETL.
Modelagem Dimensional
A etapa modelagem dimensional estuda as análises que serão desenvolvidas no ambiente analítico e une o conhecimento dos
requisitos definidos para criar uma estrutura capaz de acomodar os dados dimensionalmente. Nessa etapa, é definido o modelo de
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 24/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Projeto Físico
Na etapa seguinte, projeto físico, é definida a estrutura física para a construção do modelo de dados dimensional, como a definição do
padrão de nomenclatura utilizada e a configuração do ambiente do banco de dados.
O tamanho das caixas de cada etapa não representa o esforço realizado em cada uma delas. A construção
do ETL é uma tarefa muito custosa, que demanda aproximadamente 70% do esforço empregado na trilha
de dados.
Trilha da aplicação de BI
A terceira trilha do ciclo de vida está concentrada na definição e construção da camada de visualização
dos dados.
O desenho das consultas desejadas pelos usuários é um artefato muito interessante e contribui com o alinhamento das expectativas
dos usuários que acessarão o DW por meio de análises predefinidas. Essa definição é realizada na etapa de especificação da
aplicação de BI.
Seguindo a tarefa de especificação, a etapa desenvolvimento da aplicação de BI constrói as consultas na ferramenta de relatórios
analíticos definida para o projeto.
A fase de implantação é a união das tarefas desenvolvidas em cada trilha do ciclo e deve ocorrer quando todas as fases estiverem
concluídas. Novas necessidades surgirão após a implementação do ambiente analítico, o que faz parte do processo de
desenvolvimento e crescimento do DW de uma organização.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 25/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Neste módulo, foi abordada a arquitetura tradicional de um Data Warehouse, além de outras possíveis abordagens, e foram
apresentadas as fases do ciclo de vida de um projeto de Data WareHouse.
video_library
Arquitetura de Data Warehouse e ciclo de vida de projeto
Assista, no vídeo a seguir, a uma apresentação da arquitetura DW, na qual visitamos cada fase do ciclo de vida do projeto, culminando
com a ideia da sobreposição da arquitetura DW contida nesse ciclo de vida do projeto.
Questão 1
Metadados são muito importantes para sistemas de Business Intelligence (BI) e mantêm informações relevantes sobre os dados.
O banco de metadados de um projeto de BI:
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 26/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Documenta os dados contidos no DW/DM, os tratamentos sobre os dados, o relacionamento entre eles, o
B entendimento de conceitos e definições e a verificação das regras de negócios aplicadas sobre os tratamentos
realizados.
Documenta os processos de extração, conceitos e definições de negócio e os erros que ocorrem nos sistemas
C
transacionais, que são fontes para os sistemas de BI.
Documenta o mapeamento dos processos de extração e os resultados obtidos pelas consultas, mas não registra
D
regras de negócio e conceitos.
Não apresenta conhecimento sobre o ambiente, e sim estatísticas das execuções de consultas realizadas pelos
E
usuários.
Os metadados de um projeto de BI documentam as informações sobre os dados, sobre o relacionamento do conjunto de dados
contido no DW/DM, os tratamentos aplicados, além das informações voltadas ao negócio.
Questão 2
O desenvolvimento de um projeto possui início e fim, além de ser dividido em fases. Em qualquer atividade composta por fases, é
necessário, inicialmente, planejar a execução dessas fases, com o objetivo de viabilizar que o projeto consiga ser, de fato,
implantado na organização. Dentre as diversas fases de um projeto, o planejamento é a primeira fase do ciclo de vida de um
projeto de Data Warehouse. Nessa fase, são definidos:
O escopo do projeto, o processo ETL, as tarefas a serem desenvolvidas no projeto e o mapeamento das fontes de
A
dados.
D
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 27/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Na fase de planejamento, deve ser considerado o escopo do projeto, no qual as necessidades dos envolvidos no negócio ―
denominadas requisitos do usuário ― são levantadas e servem para delimitar a abrangência do projeto, que tem de se manter
alinhado ao objetivo organizacional. Já a viabilidade de recursos, as tarefas a serem desenvolvidas no projeto e seu
encadeamento, que também ocorrem na fase de planejamento, servem como base para que, na fase do gerenciamento do
projeto, seja possível coordenar a devida condução e execução das tarefas, aumentando, assim, a probabilidade de sucesso do
projeto de DW.
starstarstarstarstar
Ligando os pontos
Você já ouviu falar sobre o conceito de granularidade de um Data Warehouse e como ele pode ajudar a melhorar o desempenho de
um negócio? Que estratégia você adotaria para implementar solução de BI usando um DW? Vamos entender melhor esses conceitos
na prática.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 28/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Para obtermos um bom resultado, precisamos estabelecer metas bem definidas. Para atingirmos as metas, precisamos cumprir uma
série de pré-requisitos. E tudo isso precisa ser acompanhado. É aí que entram os indicadores de desempenho, mais conhecidos como
KPIs (Key Performance Indicator). Por meio desses indicadores, podemos acompanhar o desempenho dos processos e atuar, quando
necessário, para corrigir falhas, ou melhorar processos que nos ajudem a atingir nossas metas.
Os KPIs são apenas mais um instrumento que a BI nos fornece para gerenciar com melhor transparência os processos. Portanto, eles
devem reproduzir esses processos. Outro ponto que devemos considerar é o nível de detalhe que esperamos desses indicadores. É o
que chamamos de granularidade.
Certamente, as informações que os membros da diretoria de uma empresa de vendas de produtos eletrodomésticos esperam ver são
muito mais agregadas do que o time da parte operacional. Esse exemplo nos ajuda a perceber que os indicadores podem ser
formados por outros indicadores em uma estrutura hierárquica que nos auxilia a detectar problemas.
O painel dos indicadores de desempenho é chamado de Dashboard. Aqui, cabe uma curiosidade: utilizamos esses nomes em inglês,
pois eles se popularizaram e são comumente referenciados em livros e artigos científicos.
Conhecer os KPIs, construir hierarquia de indicadores com diferentes níveis de granularidade, padronizar processos de análise e
desenvolver uma boa política de ciclo de vida de gerenciamento dos dados de um DW constituem-se elementos estruturais basilares
para uma aplicação bem-sucedida de técnicas de BI.
Questão 1
Você já sabe que é essencial conhecer os KPIs para escolher aqueles que fazem sentido em seu negócio. Suponha que você
tenha desenvolvido um projeto e pretenda usar um KPI como recurso de BI para melhorar a qualidade do gerenciamento. Nesse
caso, o KPI deve:
A ser mensurável.
B ser conhecido.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 29/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Um KPI, obrigatoriamente, deve ser mensurável. É fundamental que ele produza um número que auxilie o responsável a investigar
a ocorrência de problemas e que possa atuar para corrigi-lo. Para atingir esse objetivo, é basilar que os dados estejam
disponíveis no DW, pois eles são a fonte para calcular os KPIs.
Questão 2
A granularidade de um KPI é o resultado da estruturação hierárquica da informação que reflete os processos que estão sendo
monitorados. Considere que você seja o responsável por uma empresa que possui equipamentos pesados, como caminhões,
carregadeiras, tratores e escavadeiras aplicados para mineração de cobre. Nesse contexto, um KPI operacional é:
Os KPIs ajudam a controlar as diversas partes de um negócio. Estruturá-los em níveis hierárquicos é muito útil para dar a visão
necessária a cada grupo de uma empresa, a fim de que possa agir conforme seu nível de responsabilidade. No caso em questão
– um exemplo de KPI operacional para uma empresa que trabalha com equipamentos pesados de mineração –, é essencial que a
equipe de operação tenha informações sobre o tempo médio de falha dos equipamentos para tomar decisões sobre quais devem
ir para a manutenção e que estratégias devem ser tomadas para atingir as metas de produção.
Questão 3
Considere o seguinte cenário: você foi contratado para gerenciar uma equipe responsável pela análise de KPIs do departamento de
desenvolvimento de software de uma empresa de grande porte. Ao assumir o cargo, você descobriu que o responsável anterior fazia
todo o controle usando planilhas eletrônicas, e que os dados não eram confiáveis. Além disso, os “KPIs” eram controlados por meio
de cores: vermelho é muito ruim, amarelo demanda atenção, e verde significa que está tudo bem. Quais escolhas você faria para
melhorar esse processo?
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 30/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Chave de respostaexpand_more
Nunca é uma boa prática chegar a um projeto e criticar quem estava à frente dele anteriormente. Em contrapartida, o cenário
descrito – que, infelizmente, é muito comum – demonstra claramente que não havia na empresa um projeto de BI. É bastante
habitual ver pessoas no mercado usando termos de BI sem fazer a mínima ideia do que estão falando.
O primeiro item que um sistema de BI precisa é de dados confiáveis. Esses dados devem estar organizados em um DW, e nunca
em planilhas. Além disso, o KPI deve ser mensurável, ou seja, deve produzir um número de dados que tenha significado, para
que os responsáveis possam atuar na correção de falhas quando for necessário. O BI tem como objetivo melhorar os processos
de um negócio, ou seja, jamais pode ser visto como um instrumento de punição. Portanto, no caso em questão, é essencial
elencar um plano para mapear processos, estruturar o DW e criar KPIs adequados com as devidas granularidades.
Cenário 1
Marcos é gerente de vendas em uma grande rede de fast-food. Todos os dias, às 16 horas, ele precisa verificar se é necessário fazer a
reposição de algum item utilizado na confecção dos lanches da lanchonete. Se o item estiver com a disponibilidade comprometida,
ele deverá enviar a solicitação de reposição ao setor de reabastecimento, para que o item seja entregue na manhã seguinte.
Para fazer o controle dos itens, Marcos imprime a lista dos pedidos, conta a quantidade de lanches servidos em cada pedido e faz o
cálculo de kits utilizados, para saber se é necessário repor ou não algum item. Esse processo é tão custoso para Marcos que, há dias,
ele não consegue terminar a análise em tempo de solicitar os itens para o dia seguinte.
Analisando o cenário
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 31/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
É a dificuldade em saber se é necessário ou não solicitar a reposição de itens, até às 17 horas, todos os dias da semana.
Saber se há necessidade de solicitar a reposição de algum item diariamente e fazer a solicitação dentro do prazo de forma
mais rápida.
Ele verifica todos os pedidos e calcula a média, manualmente, dos itens utilizados, com o objetivo de saber se há algum item
que precisa ser reposto.
Soluções propostas
Podemos propor como solução do problema de Marcos projetar um Data Mart e construir consultas, onde o menor nível de análise
estivesse em Mês.
Exemplo
Primeiramente, o tempo de desenvolvimento desse cenário poderia durar em torno de dois meses. A consulta por quantidade de itens
por mês pode até ser útil para outro tipo de tomada de decisão, inclusive para a melhoria do processo de Marcos, mas não para sua
necessidade atual.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 32/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Resposta
Uma investigação mais detalhada sobre o problema de Marcos permitiu verificar a solução mais adequada para resolver seu
problema. De acordo com a necessidade descrita anteriormente, um relatório no sistema de vendas fornecerá a informação sobre os
itens que precisam ser repostos.
Conclusão do cenário
Com a observação e análise do caso, é fácil concluir que o planejamento do projeto e o levantamento de requisitos produzem o
entendimento sobre a necessidade da organização e o conhecimento do objetivo para a construção do DW, que deve estar bem
definido e justificar essa necessidade.
Sem essas definições, o sucesso do projeto está comprometido, pois, se não houver um objetivo para tal solução, o ambiente não
será utilizado, ou sua construção poderá não ser finalizada.
Atenção
O entendimento sobre o problema a ser resolvido deve ser a primeira tarefa realizada para o desenvolvimento de um projeto, pois a
investigação permite conhecer o cenário, os stakeholders (partes interessadas), o problema e as possíveis soluções a serem
adotadas.
Essa primeira fase é o levantamento de requisitos e se aplica a qualquer tipo de projeto, inclusive ao projeto de DW.
O levantamento de requisitos para o DW possui características particulares em relação ao levantamento de requisitos para os
Sistemas de Apoio Operacional.
São elas:
Saiba mais
Levantamento de requisitos DW
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 33/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Essas características estão presentes em Sistemas de Apoio à Decisão (SAD). Vamos conhecê-las a seguir.
O entendimento da necessidade é realizado pelo analista de negócios. Ele é responsável por investigar a necessidade, entender as
dores dos usuários e traduzir o entendimento em requisitos para o projeto.
Kimball e Ross (2013) abordam o levantamento de requisitos focado na necessidade do negócio e afirmam que os requisitos
determinam quais dados devem estar disponíveis no DW, como são organizados e com que frequência são atualizados.
Dica
O primeiro passo é entrevistar os usuários e entender quais são as atividades realizadas por eles. Conhecer a atividade realizada pelo
usuário auxilia no entendimento do fluxo dos dados que será analisado. Você pode realizar reuniões mais específicas com usuários
individuais, pequenos grupos ou grupos que reúnem todos os interessados no desenvolvimento do DW. A estratégia pode ser traçada
conforme a necessidade.
O levantamento de requisitos é apoiado por técnicas que auxiliam a condução das entrevistas. Durante essa fase, as informações
coletadas devem ser anotadas. O resultado do levantamento conterá a descrição de cenário do negócio com as dores, os objetivos,
as análises desejadas etc.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 34/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Nas análises desejadas, podem ser identificadas as possíveis perspectivas de análise e os indicadores. As perspectivas de análise
descrevem os fatos que ocorreram em determinado assunto, e os indicadores são as medidas que podem ser descritas pelas
perspectivas de análise.
Atenção
Uma importante informação que deve ser verificada no levantamento de requisitos para o DW é a periodicidade com a qual os dados
serão carregados no ambiente. A periodicidade pode ser diária, semanal ou mensal, ou ainda quase que em tempo real. Essa decisão
depende da necessidade da organização.
Quando a carga dos dados ocorre diariamente, o processo de ETL acessa a base de dados do sistema transacional, todos os dias,
obedecendo a uma janela temporal para a extração dos dados. Normalmente, a extração ocorre no período em que as transações dos
sistemas de origem são diminuídas, como, por exemplo, à noite. Essa estratégia é usada para que a extração dos dados não concorra
com as operações transacionais, prejudicando o andamento das operações na organização.
Quando a carga é realizada mensalmente, o processo de ETL acessa a base de dados do sistema transacional após o fechamento
mensal do negócio, populando a base do DW apenas uma vez ao mês. Essa informação deve estar registrada no documento principal
de especificação do projeto.
Cenário 2
Vamos relembrar o cenário de análise do supermercado.
Paulo e Ricardo são gerentes de uma grande rede de supermercados. Eles contrataram o desenvolvimento de uma solução que apoie
a tomada de decisão da organização.
Para entender as necessidades de Paulo e Ricardo, algumas reuniões de levantamento foram feitas com eles e com alguns usuários
que constroem análises gerenciais. Durante as reuniões, foram coletadas as seguintes informações:
opulando a Base
Inserindo dados nas tabelas que compõem a base.
1ª Característica
O supermercado possui um sistema de apoio ao fluxo de vendas que recebe todas as ocorrências de eventos de compras realizadas
pelos clientes em lojas físicas e pelo e-commerce.
2ª Característica
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 35/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Todas as operações de inclusão, alteração e deleção de registros ocorrem durante o período do atendimento ao cliente.
3ª Característica
Sempre que uma venda ocorre, um serviço informa ao sistema de estoque quais produtos foram vendidos e a quantidade vendida.
Comentário
Aqui, temos a visão Produto, a visão Tempo e a medida Quantidade de Produtos Vendidos. As visões Produto e Tempo descrevem a
medida Quantidade de Produtos Vendidos, ou seja, informam qual produto foi vendido e em que momento ele foi vendido.
Para acompanhar a venda de produtos e o estoque, identificamos, novamente, as visões Produto e Tempo. No entanto, precisamos
saber qual a Quantidade do Produto no Estoque. A Quantidade de Produto no Estoque é mais uma medida identificada.
Exemplo
As medidas são os fatos que ocorreram em determinado momento. Por exemplo, o produto foi vendido. O fato ocorrido é a venda do
produto. Nesse caso, além de sabermos que a venda ocorreu, também sabemos a quantidade que foi vendida.
Na última análise desejada pelos usuários, além da visão Produto, qual(is) outra(s) visão(ões) ou medida(s) pode(m) ser
identificada(s)? expand_more
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 36/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Contudo, durante o levantamento de requisitos, foi informado pelos usuários que o Lucro não está no sistema origem. Para obter o
lucro no final do mês, o valor da venda do produto é extraído por meio de um relatório do sistema SisVendas, assim como o preço do
produto comprado no fabricante é extraído do sistema SisEstoque. Com as duas informações em uma planilha, o lucro é calculado.
Aqui, temos uma medida calculada que precisa ser documentada com a fórmula de cálculo, para que seja possível apresentar o
resultado esperado.
Após identificar as visões de análise, é hora de documentar as informações obtidas sobre elas. Essas informações podem ser
verificadas com os gestores e aprofundadas com os analistas responsáveis pelos sistemas de origem (sistemas transacionais).
A Visão (Dimensão) contém os dados referentes ao domínio que está sendo tratado. Por exemplo, a visão Produto contém o código
do Produto, que é importante na identificação do produto no sistema origem, e a descrição do produto permite saber qual é o produto
analisado.
Descreve os
- produtos do DW - -
Supermercado.
Códigos de produtos
Identifica que deixaram de ser
unicamente um comercializados não
Código do produto 1, 2, 3
produto no sistema podem ser
SisVendas. reutilizados em
novos produtos.
Nome do produto
Descrição do que está sendo Pode conter até 100
Detergente
Produto produto comercializado no caracteres.
SisVendas.
Fabricante do
produto que está
Fabricante do Pode conter até 200
sendo Limpa+
produto caracteres.
comercializado no
SisVendas.
Grupamento do
produto que está
Categoria do Pode conter até 50
sendo Limpeza
produto caracteres.
comercializado no
SisVendas.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 37/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
A coluna Visão de análise contém o nome da visão, a coluna Atributo apresenta os dados referentes ao produto, e a coluna Conceito
descreve cada um dos atributos. O conceito é extremamente importante para um ambiente analítico, pois o usuário e os analistas
saberão o que é o dado, tanto na construção das análises quanto na manutenção do ambiente.
A coluna Exemplos contém alguns exemplos dos dados para auxiliar nas próximas etapas do projeto. A coluna Observação é livre
para adicionar comentários importantes sobre cada um dos dados, caso tenham, e regras de negócio que deverão ser aplicadas aos
dados.
Além das visões citadas, há mais duas importantes para o cenário. Você consegue identificá-las? expand_more
Após a documentação das visões de análise, é hora de documentar as medidas, também conhecidas como indicadores. Os
indicadores são organizados em tabelas-fato, que registram os fatos ocorridos.
O quadro a seguir ilustra a conceituação dos indicadores identificados durante o levantamento com os usuários:
Apresentar o cálculo da
Quantidade de Quantidade do produto Soma das unidades do
função soma de
Produtos Vendidos vendido em um pedido. produto.
quantidades vendidas.
Apresentar o cálculo da
Quantidade de Produto Preço do produto no Soma das unidades do
função soma de
no Estoque momento da venda. produto.
quantidades em estoque.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 38/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
A coluna Indicador lista o nome dos indicadores, a coluna Conceito lista os conceitos ou as definições dos indicadores, a coluna
Fórmula de cálculo descreve como os indicadores devem ser calculados, e a coluna Observação contém informações adicionais.
Matriz de granularidade
Para facilitar o entendimento e a compreensão da relação entre as visões e os indicadores do DW/DM, temos a matriz de
granularidade. Em formato de matriz, são organizados as visões (atributos) e os indicadores que estão relacionados com essas
visões.
O quadro a seguir ilustra a relação entre as visões identificadas no levantamento e os indicadores que serão analisados nas consultas
predefinidas:
Visões
Descrição do produto
Código do fabricante
Código do produto
Número do cliente
Data do estoque
Nome do cliente
Mês do estoque
Ano do estoque
Data da venda
Mês de venda
Ano da venda
Indicadores
Quantidade
de
x x x x x x x x
produtos
vendidos
Quantidade
de
x x x x x x
produtos
no estoque
Preço do
produto x x x x x x x
vendido
x x x x x
Preço do
produto
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 39/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Visões
comprado
do
fabricante
Lucro do
produto x x x x x
vendido
Comentário
Como podemos observar, no eixo X da matriz, estão organizadas as Visões Tempo, Cliente, Fabricante e Produto. No eixo Y da matriz,
estão organizados os Indicadores Quantidade de Produtos Vendidos, Quantidade de Produto no Estoque, Preço do Produto Vendido,
Preço do Produto Comprado do Fabricante e Lucro do Produto Vendido.
De acordo com a matriz, sabemos que a Quantidade de Produtos Vendidos pode ser analisada pela data de venda do produto ao
cliente. Por exemplo, sabemos a quantidade de sabonetes vendidos no dia 20/08/2020, no mês 08/2020 ou ainda no ano de 2020.
Em nosso exemplo, há poucas visões e indicadores, o que facilita saber quais são os possíveis cruzamentos entre eles. No entanto,
no levantamento de um DW/DM real, há inúmeros cruzamentos, e a matriz permite a visualização das análises que serão possíveis no
ambiente analítico de forma mais simples e objetiva. Além disso, a matriz de granularidade apoia os analistas que estão atuando no
projeto.
A granularidade é referente ao grão de análise do DW/DM, ou seja, o nível de detalhamento dos dados. Quanto mais granular/menor a
granularidade, mais detalhada é a informação. Quanto mais alta a granularidade, menos detalhada é a informação.
Comentário
Por exemplo, é possível analisar o Preço do Produto Vendido por data da venda (dia, mês e ano), mas o Preço do Produto Comprado
do Fabricante só pode ser analisado por mês e pelo ano. Isso significa que a informação sobre a venda dos produtos ao cliente é
mais granular do que a informação sobre a compra do produto com o fabricante para o abastecimento do estoque.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 40/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Se essa nova análise utilizar as visões e indicadores já mapeados no levantamento, será simples desenhar esse novo layout e
entregar a análise ao cliente, deixando-o satisfeito com a entrega e agregando valor à organização.
Contudo, se as visões ou os indicadores não estiverem mapeados, os participantes do projeto ― tanto analistas quanto usuários ―
deverão ser reunidos, para que seja estudada a melhor forma de atendimento da nova necessidade. Para isso, alguns pontos
precisam ser considerados no impacto no projeto, como tempo e dinheiro.
Quantidade de
Mês de venda Produto Categoria
Produtos Vendidos
Abril / 2020
2 Pão de Forma Padaria 150
Suco de Uva
3 Bebida 63
Integral
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 41/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Descrição
Visões
• Mês da venda.
• Categoria do produto.
Indicadores
Filtros
A descrição de uma análise deve conter o desenho do relatório ou dashboard para que seja possível o alinhamento das expectativas
com o cliente. O desenho permite que ele visualize suas futuras análises de forma mais fácil e mais aproximada do produto que será
entregue.
Além dos desenhos, devem estar presentes: a descrição de cada análise, com o objetivo, os atributos que estarão na análise, os
indicadores, filtros obrigatórios e filtros dinâmicos, caso sejam necessários.
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 42/48
9/5/23, 3:16 PM Conceito de Business Intelligence e seu componente Data Warehouse
Código do Produto
Qtd
Cada
Produto TB
Produto Sisvendas
Produto Código Nome do produto valor Unitário Preç
O apontamento da origem dos dados é muito importante, pois pode ser que o dado não exista no sistema transacional, ou ainda, pode
não ser possível extraí-lo do sistema origem. Uma vez que essa situação ocorra, deve ser levado ao gestor para que o entendimento
seja alinhado sobre o dado.
Levantamento de
Requisitos
Verificar as origens apontadas é uma análise mais detalhada da origem dos dados mapeados nas etapas anteriores, em que ocorre a
especificação da necessidade, e os conceitos são definidos. O analista que realiza essa tarefa poderá localizar o dado no sistema
origem, conhecer sua real localização, com o nome da tabela que será acessada, o nome, o tamanho e o tipo de dado do campo.
Comentário
https://stecine.azureedge.net/repositorio/00212ti/04086/index.html# 43/48