Ebook Da Unidade - Big Data, Ia e Cloud Computing

Big Data e
Ciência de Dados
Unidade 4
Big Data, Ia e Cloud Computing
Diretor Executivo
DAVID LIRA STEPHEN BARROS
Gerente Editorial
CRISTIANE SILVEIRA CESAR DE OLIVEIRA
Projeto Gráfico
TIAGO DA ROCHA
Autoria
JÉSSICA LAISA DIAS DA SILVA
ALAN DE OLIVEIRA SANTANA
AUTORIA
Jéssica Laisa Dias da Silva
Olá. Sou graduada em Sistemas da Informação pela Universidade de
Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação
pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente,
sou doutoranda em Sistema e Computação pela UFRN e professora
conteudista na elaboração de cadernos.
Alan de Oliveira Santana

Olá. Sou graduado em Ciência da Computação pela Universidade
do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da
Computação pela Universidade Federal do Rio Grande do Norte (UFRN).
Atualmente, sou professor conteudista, elaborador de cadernos de
questões e doutorando em Ciências da Computação. Como cientista,
atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de
sistemas com ênfase na educação.
Desse modo, fomos convidados pela Editora Telesapiens a integrar

seu elenco de autores independentes. Estamos muito satisfeitos com o
convite e a possibilidade de auxiliar em seu desenvolvimento intelectual
e profissional. Bons estudos!
ICONOGRÁFICOS
Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez
que:
OBJETIVO: DEFINIÇÃO:
para o início do houver necessidade
desenvolvimento de se apresentar um
de uma nova novo conceito;
competência;
NOTA: IMPORTANTE:
quando necessária as observações
observações ou escritas tiveram que
complementações ser priorizadas para
para o seu você;
conhecimento;
EXPLICANDO VOCÊ SABIA?
MELHOR: curiosidades e
algo precisa ser indagações lúdicas
melhor explicado ou sobre o tema em
detalhado; estudo, se forem
necessárias;
SAIBA MAIS: REFLITA:
textos, referências se houver a
bibliográficas necessidade de
e links para chamar a atenção
aprofundamento do sobre algo a ser
seu conhecimento; refletido ou discutido
sobre;
ACESSE: RESUMINDO:
se for preciso acessar quando for preciso
um ou mais sites se fazer um resumo
para fazer download, acumulativo das
assistir vídeos, ler últimas abordagens;
textos, ouvir podcast;
ATIVIDADES: TESTANDO:
quando alguma quando uma
atividade de competência for
autoaprendizagem concluída e questões
for aplicada; forem explicadas;
SUMÁRIO
Técnicas de Aprendizado de Máquina.................................................... 12
Abordagem de técnicas gerais de Big Data................................................12
Entendendo o Aprendizado de Máquina ...................................................................... 15
Aprendizagem supervisionada........................................................................... 17
Aprendizagem não supervisionada................................................................ 17
Técnicas de aprendizado usadas em Big Data ......................................................... 17
Análise preditiva ........................................................................................................... 19
Previsão de demanda ............................................................................................... 19
Sistemas de recomendação................................................................................ 20
Agrupamento .................................................................................................................. 21
Gerência de Dados e Computação na Nuvem....................................22
Computação na Nuvem.............................................................................................................. 22
Modelo de implementação ..................................................................................24
Modelos de serviço.....................................................................................................25
Computação em Nuvem e Big Data .................................................................................26
Gerenciamento de dados de Computação em Nuvem......................................29
Bioinformática.....................................................................................................32
Histórico da Bioinformática .....................................................................................................32
Workflow de Bioinformática....................................................................................35
Proveniência de dados em Bioinformática............................................... 36

Aplicações da Bioinformática................................................................................................. 39
Bioinformata........................................................................................................................................ 40
Inovação Tecnológica e Novas Tendências......................................................... 42
Inovação tecnológica ...................................................................................................................43
Big Social Data................................................................................................................44
Tecnologia Blockchain......................................................................46
Internet das Coisas......................................................................................................47

Big Data e Ciência de Dados 9
04
UNIDADE
10 Big Data e Ciência de Dados
INTRODUÇÃO
Nesta unidade, vamos abordar sobre o aprendizado de máquina e
suas técnicas, bem como estas podem contribuir no processo de análise
de dados e tomada de decisão.
As organizações usam várias técnicas e tecnologias para realizar a

manipulação, análise e visualização de Big Data. Estas técnicas surgiram
com contribuições dos campos da estatística, ciência da Computação,
matemática e economia, com algumas idealizadas para lidar
especificamente com Big Data e outras foram ajustadas para trabalhar
nesse contexto.
Estudaremos ainda sobre gerência de dados por meio da

Computação na Nuvem e como esse modelo possibilita acesso por
demanda a um agrupamento de elementos computacionais que
podem ser configuráveis, como CPU, armazenamento e memória. Serão
abordados os modelos de implantações e modelos de serviço em Nuvem.
Ao longo do capítulo, abordaremos sobre Bioinformática,

juntamente com seus conceitos, características, histórico e aplicações.
Também abordaremos exemplos de tecnologias que trabalham com esse
tipo de solução e ainda veremos como esta se relaciona com a ciência
dos dados e Big Data.
Por fim, será estudado nessa unidade sobre inovações e tendências

tecnológicas no campo de ciência de dados e Big Data, como também,
abordaremos os desafios futuros neste campo. Vamos lá!
OBJETIVOS
Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no
desenvolvimento das seguintes objetivos de aprendizagem até o término
desta etapa de estudos:
1. Compreender as técnicas de aprendizado de máquina.
2. Entender a gerência de dados e Computação na Nuvem.
3. Assimilar o conceito de Bioinformática.
4. Adquirir noções de inovação tecnológica e novas tendências.
Então? Preparado para adquirir conhecimento sobre um assunto

fascinante e inovador como esse? Vamos lá!
Técnicas de Aprendizado de Máquina
OBJETIVO:
Neste capítulo, conceituaremos sobre o aprendizado

de máquina e suas técnicas, bem como estas podem
contribuir no processo de análise de dados e tomada
decisão. Vamos lá!
Abordagem de técnicas gerais de Big Data

Conforme Pai (2016), as organizações utilizam algumas técnicas
e tecnologias para realizar a manipulação, análise e visualização de
Big Data. Estas técnicas surgiram com contribuições dos campos da
estatística, ciência da Computação, matemática e economia, com
algumas idealizadas para lidar especificamente com Big Data e outras
foram ajustadas para trabalhar nesse contexto.
Neste sentido, a contribuição das áreas citadas para a análise em Big

Data, precisa de técnicas multidisciplinares para processar com qualidade
o grande volume de dados no momento da execução (PAI, 2016). A seguir
será exposto a contribuição de cada área previamente citada:
• Matemática: utiliza técnicas e fórmulas matemáticas tradicionais

com o intuito de resolver problemas relacionados à correlação de
dados.
• Estatística: conjunto de técnicas matemáticas que contribuem

com a análise e apresentação de dados. A análise estatística e
suas decisões são fundamentadas no entendimento de como o
acaso implica certos eventos ou resultados (KALLA, 2018).
• Métodos otimizados: referem-se a reduzir custos ou aumentar a

eficiência da produção. Um algoritmo de otimização é um método
que é executado interativamente fazendo um comparativo com
diversas soluções até que se encontre uma ótima ou pelo menos,
uma satisfatória (IIT Madras). Estes algoritmos são aplicados para
resolver problemas quantitativos em muitas áreas, como física,

biologia, engenharia e economia (PAI, 2016).
• Data Mining: como já estudamos anteriormente em outra unidade,

a mineração de dados está inserida como parte do processo
de Descoberta de Conhecimento em Banco de Dado (KDD –
Knowledge Discovery in Databases), o qual tem por objetivo a
seleção dos métodos a serem usados por busca de padrões nos
dados, seguido da busca por padrões de interesse num modo
particular de representação, juntamente com o objetivo pelo
melhor ajuste dos parâmetros do algoritmo para atividades que se
deseja aplicar (TAN et al., 2005).
• Machine Learning: conjunto de procedimentos que podem

identificar de modo automático, padrões em dados e, em
consequência, utilizar os padrões descobertos para prever dados
futuros ou executar outros tipos de tomadas de decisão (LI et al.,
2001).
• Redes neurais: trata-se de um paradigma de programação de

inspiração biológica que permite um computador aprender a partir
de dados observacionais.
• Processamento de sinal: tem por objetivo de operar, analisar e

deduzir de um sinal, dados que possam ser extraídos de forma útil.
• Métodos de visualização: são técnicas utilizadas para elaborar

tabelas, imagens, diagramas e outras formas de disponibilização
de modo intuitivo para entender os dados.
REFLITA:
Você deve recordar das outras unidades algumas das

técnicas acima, porém nesta fazemos uma reflexão delas
alinhadas ao Big Data. É muito importante que o profissional
de TI trabalhe com técnicas como: data mining, redes
neurais, aprendizado de máquina, principalmente os
profissionais de ciência de dados, devem estar atentos a
essas habilidades.
Assim, você pode observar no contexto geral, temos essas técnicas

sendo utilizadas para as mais diversas aplicações, como já estudamos
no contexto de Big Data, destacadas na Figura 1 abaixo, como a área da
Computação Social relacionada com as interações em mídias sociais na
Internet, Bioinformática, Finanças e na Astronomia, alguns exemplos são
apresentados a seguir.
Figura 1 – Ferramentas, técnicas e aplicação
Ferramentas Matemáticas
Matemática Métodos
Estáticas
Fundamental otimizados
Técnicas de Análises de dados
Data Minig
Aprendizado
Redes Neurais
de Maquina
Processamento Método de
de sinal Visualização
Aplicações Big Data
Computação
Binformática Astronomia Financeira
social
Fonte: Zhoua et al. (2017).

Dessa forma, abordaremos nas próximas sessões sobre técnicas de

Aprendizado de Máquina e como elas podem contribuir no contexto de
Big Data.
SAIBA MAIS:
No artigo Big Data e o aprendizado de máquina, realiza-

se uma abordagem geral sobre como o aprendizado
de máquina pode ser utilizado e como traz valor para as
aplicações de Big Data. Acesse clicando aqui.
Na próxima seção, será explanado melhor o que é o Aprendizado

de Máquina e as técnicas mais usadas no contexto de Big Data.
Entendendo o Aprendizado de Máquina

Conforme Zhou et al. (2017), as técnicas de Machine Learning
(Aprendizado de Máquina) promovem grandes impactos em uma
variedade de aplicações na Computação, tais como: processamento,
compreensão de linguagem natural, neurociência e Internet das Coisas.
Vale ressaltar que o surgimento e o avançar da era Big Data

estimulou amplos interesses no aprendizado de máquina. Dessa forma,
temos o Big Data produzindo informações importantes e utilizando
algoritmos de aprendizado de máquina, em que podemos extrair padrões
e criar modelos preditivos.
Nesse contexto, temos por outro lado os algoritmos de aprendizado

de máquina clássicos que passaram por impactos críticos para atender
às necessidades, gerando a necessidade de escalabilidade para o
aprendizado de máquina poder crescer e trazer aperfeiçoamento nas
técnicas para trabalhar com os grandes volumes de dados (GANTZ, 2012).
As técnicas de aprendizado de máquina possibilitam aos usuários

a realização de previsões por meio de grandes volumes de dados. Esses,
por sua vez, ajudam o desenvolver por meio de algoritmos eficientes, os
quais são responsáveis por fornecer um grande potencial e ser uma parte
essencial da análise de Big Data (GANTZ, 2012).
Conforme com Michalski et al. (2013), a área de aprendizado de

máquina (AM) fornece o desenvolvimento de técnicas computacionais
que modificam os aspectos de seu comportamento na forma em que a
experiência é adquirida.
Figura 2 – Aprendizado de máquina
Fonte: Freepik
O aprendizado indutivo pode ser dividido em três tipos: aprendizado

supervisionado, aprendizado não supervisionado e aprendizado semi-
supervisionado. Desta forma, a classificação está relacionada com os
métodos adotados no processo de generalização do conhecimento
(MONARD; BARANAUSKAS, 2003).
IMPORTANTE:
É importante destacar que existem quatro métodos: apren-

dizado supervisionado, aprendizado não supervisionado,
aprendizado semissupervisionado e aprendizado por re-
forço, porém, destacamos apenas os três mais usados, o
aprendizado supervisionado e o aprendizado não supervi-
sionado (MOURA, 2017).
Aprendizagem supervisionada
A aprendizagem supervisionada é direcionada quando se é aplicada
técnicas em que algoritmos indutores podem realizar inferências por meio
de exemplos rotulados, ou seja, cada exemplo observado é descrito por
um conjunto de atributos e pelo valor da classe, também chamado de
atributo meta, a qual o exemplo pertence (RUSSELL; NORVIG, 2003).
Dessa forma, o objetivo do algoritmo é obter um modelo capaz de

classificar exemplos não rotulados recebidos como entrada. Um exemplo
seria um caso de aprendizagem no qual se consegue prever se uma
transação do cartão de crédito de certo indivíduo é falsa ou não..
Aprendizagem não supervisionada

Aprendizagem não supervisionada se refere ao algoritmo indutor
não possuir a informação sobre a classe à qual pertence. O intuito na
aprendizagem não supervisionada é buscar similaridades ou diferenças
no conjunto de valores dos atributos dos exemplos que possibilitam a
elaboração de agrupamentos ou clusters.
Desta forma, exemplos agrupados podem ser atribuídos a uma

mesma classe, enquanto exemplos dispersos estão mais propensos a
pertencer a classes distintas (RUSSELL; NORVIG, 2003).
O algoritmo k-médias e o algoritmo de agrupamento hierárquico são

exemplos de técnicas de aprendizado não supervisionado. Um exemplo
deste tipo pode ser a classificação de indivíduo que tenha predisposição
em adquirir diabetes por meio da avaliação de sua alimentação e rotina.
Entretanto, não é informado quais pessoas realmente têm ou não diabetes.
Técnicas de aprendizado usadas em Big Data

É importante frisar que depois que se tem um conjunto de dados
estruturados, o passo seguinte no processo de aprendizado é a aplicação
de um método de aprendizagem.
As técnicas de aprendizado de máquina utilizam algoritmos que,

por sua vez, realizam o trabalho computacional e todo o processamento
dos dados (MOURA, 2017).
Conforme Moura (2017) descreve, algumas técnicas de aprendizado

de máquina são:
• Redes neurais: existem vários tipos de redes neurais, mas em

suma, elas consistem em um conjunto de nós, também chamados
de neurônios, disponíveis em várias camadas com interconexões
ponderadas entre eles, de modo que o neurônio trata um conjunto
de valores de entrada para gerar um valor de saída que por sua
vez, é passado para outros neurônios nas camadas seguintes.
• Árvore de decisão: essa técnica usa algoritmos em formato de

árvore, ou seja, uma raiz com galhos que levam até folhas. Cada
árvore contém nós, ramos, folhas e ligações entre eles, de forma
que um ramo é um conjunto de nós que testam cada atributo
da classificação e cada ramo referente ao valor do atributo. Já
as folhas fazem a classificação para os ramos. A classificação é o
resultado final que se quer encontrar ou prever com o algoritmo.
• Regressão: é uma técnica usada quando se deseja prever valores

de algo futuro, fundamentando-se em comportamento de
variáveis passadas. A análise da regressão pode ser usada como
um procedimento descritivo da análise de dados com diversos
objetivos, como: descrever a relação entre variáveis para entender
um método, prever o valor de uma variável por meio do valor
das outras variáveis, substituir a medição de uma variável pela
observação dos valores de outras variáveis e controlar os valores
de uma variável em uma faixa de interesse (ROZA, 2016). Um
exemplo seria prever o valor de mercado de um imóvel utilizando
um algoritmo de regressão linear.
Figura 3 – Big Data e Aprendizado de Máquina
Fonte: Freepik
Análise preditiva
Essa é uma das técnicas mais usadas nas aplicações de Big Data
para realizar previsão, uma vez que essa análise consiste no uso de dados
e técnicas de aprendizado de máquina para determinar a probabilidade
de futuros resultados com base nas informações adquiridas no passado.
Um exemplo muito conhecido de Big Data e aprendizado de

máquina trabalhando em conjunto foi o caso da Target, segunda maior
rede de varejo dos EUA.
A empresa conseguiu identificar um padrão de itens que suas

clientes consumiam quando estavam grávidas, desde hidratantes, até
suplementos, a marca ainda detectou as consumidoras que seriam mães,
oferecendo produtos específicos e até desconto.
Previsão de demanda
Uma boa previsão de demanda ajuda qualquer empresa a vender
mais nas épocas de pico, assim como a evitar prejuízos e desperdícios em
períodos de baixa.
Porém, nem sempre é fácil fazer uma projeção da procura pelos

produtos da marca. Para que essas previsões sejam corretas, é necessário
contar com um grande volume de dados e com o aprendizado a partir do
histórico da própria empresa e do mercado.
Justamente por isso, a combinação de Big Data e Machine Learning

é extremamente útil para trazer confiança e clareza às decisões de
negócios.
Com base no processamento de dados, uma companhia pode

realizar antecipações de demandas considerando diversos fatores
financeiros, econômicos e mercadológicos.
Um exemplo de marca que apostou nessa estratégia foi a Nestlé,

maior empresa de alimentos e bebidas do mundo, ao utilizar as tecnologias
em questão, a companhia conseguiu melhorar em 9% a acuracidade da
sua previsão de demanda (SONDA, 2020).
Sistemas de recomendação
Essa técnica trabalha do seguinte modo: após ter os dados coletados
e analisados por meio da combinação das técnicas de aprendizado de
máquina e Big Data, é possível realizar recomendações a partir de um
conjunto de dados coletados.
REFLITA:
Você pode perceber no seu cotidiano que sites como

Amazon e a plataforma da Netflix utilizam isso para
recomendar seus recursos personalizados aos usuários,
de forma que os sistemas fazem sugestões ao usuário,
aperfeiçoando a experiência e melhorando o engajamento.
Conforme Taurion (2013) destaca, a utilização de interfaces de voz

com o usuário perguntando e o computador respondendo em viva voz,
é um exemplo de sucesso, com o muito conhecido Siri da Apple, é um
aplicativo que usa o processamento de linguagem natural para responder
perguntas, fazer recomendações e executar várias ações.
Agrupamento
Outra técnica que pode podemos destacar é o Clustergram, utilizada
para visualizar análises de clusters (cluster analysis) ou agrupamentos, as
quais se combina as técnicas de aprendizado de máquina e Big Data para
realizar a análise de agrupamentos que fazem a classificação de objetos
em diversos grupos, cada um contendo os objetos semelhantes segundo
alguma função de distância estatística.
Esta classificação deve ser feita de modo automática, sem

intervenção do usuário, sem características dos grupos e sem a utilização
de grupos de teste previamente conhecidos para direcionar a classificação
(TAURION, 2013)
RESUMINDO:
Chegamos ao final da unidade, pela qual estudamos como

a análise do Big Data precisa de técnicas multidisciplinares
para processar com qualidade o grande volume de dados no
momento da execução. Descrevemos como o surgimento e
o avanço das aplicações de Big Data estimularam o amplo
interesse no aprendizado de máquina, o que acarretou
no fato de Big Data produzir informações importantes e
utilizar algoritmos de aprendizado de máquina, em que
se podem extrair padrões e criar modelos preditivos.
Estudamos ainda como o aprendizado de máquina fornece
o desenvolvimento de técnicas computacionais que
modificam os aspectos de seu comportamento na forma
em que a experiência é adquirida. Destacamos dois tipos
mais utilizados e o descrevemos, especialmente, ligando-
os ao aprendizado supervisionado e não supervisionado.
Por fim, foi descrito algumas técnicas e alguns exemplos de
como combinar as técnicas de aprendizado de máquinas e
Big Data, pode contribuir em aplicações, como empresas
como Netflix, Amazon, e varejista de mercado, ganharam
muitas vantagens devido a associarem esses recursos.
Gerência de Dados e Computação na Nuvem
OBJETIVO:
Como já é do nosso cotidiano utilizarmos os recursos de

Computação em Nuvem para “guardar” nossas aplicações,
arquivos e trabalhos que ficam disponíveis nela. Agora,
neste capítulo, vamos nos deter a estudar mais afinco este
recurso tecnológico.
Neste capítulo, estudaremos sobre a gerência de dados por
meio da Computação na Nuvem e como ela se relaciona
com as aplicações em Big Data. Prontos? Vamos lá!
Computação na Nuvem
A Computação em Nuvem pode ser conceituada como um modelo
que possibilita acesso por demanda a um agrupamento de elementos
computacionais que podem ser configuráveis, como CPU, armazenamento
e memória. Estes, por sua vez, podem ser disponibilizados de modo rápido
com o mínimo esforço de gerenciamento ou assistência do provedor da
Nuvem (MELL; GRANCE, 2009).
Figura 4 – Computação em Nuvem
Fonte: Pixabay
Podemos destacar a importância que a Computação em Nuvem

traz para as empresas abaixo, como exposto por Savarese Neto (2019):
• Redução de custos: tem um custo minimizado com aquisição

de hardware e com mão de obra para instalar e dar suporte a
softwares, sistemas e servidores, como também, o ganho de custo
reduzido com relação à economia de energia com os dispositivos
funcionando e de espaço físico nas empresas.
• Flexibilidade: um ganho nesse aspecto relaciona-se ao fato

de explorar novos meios de organizar a equipe, permitindo, por
exemplo, o home office.
• Escalabilidade: neste quesito há um ganho relacionado aos

gestores de TI, pois não necessitam decidir o que será preciso
para contratar os serviços e evita o risco de não utilizar recursos
desnecessários ou necessitar obter um aumento da estrutura em
curto espaço de tempo. Com a Computação em Nuvem, existe a
possibilidade de adquirir maior capacidade de armazenamento e
de processo de modo automático.
• Desempenho: com relação ao desempenho, obtém-se uma

vantagem com relação aos data centers que contêm as principais
soluções da Computação em Nuvem, pois sempre estão sendo
atualizados, permitindo assim a garantia de utilizar a melhor
tecnologia para a experiência dos usuários.
Assim, podemos entender que a Computação em Nuvem está

sendo um recurso muito importante para a indústria, principalmente para
as de tecnologias.
A Nuvem é uma metáfora para a Internet ou infraestrutura de

comunicação entre os elementos arquiteturais, fundamentado em uma
abstração que esconde a complexidade de infraestrutura (BUYYA et al. 2009).
Desta maneira, parte dessa infraestrutura é tida como um serviço e

estes são geralmente alocados em centros de dados, usando hardwares
compartilhados para Computação e armazenamento (BUYYA et al. 2009).
IMPORTANTE:
É importante destacar que existem algumas propriedades

básicas que diferem a Computação em Nuvem dos
sistemas distribuídos tradicionais (e.g. sistemas em grade,
clusters, P2P etc.) e estão relacionadas ao seu caráter
atrativo: autosserviço sob demanda, elasticidade rápida,
pagamento conforme o serviço usado (Pay-as-you-go),
nível de qualidade de serviço (SLA), agrupamento ou
Pooling de recursos.
Na próxima seção, serão apresentados os modelos de

implementação da Computação em Nuvem.
Modelo de implementação
É importante descrever que o acesso e disponibilidade aos
ambientes de Computação em Nuvem, apresentam diferentes tipos de
modelos de implementação. Algumas exceções ou aberturas de acesso
dependem do tipo de informação e do nível de visão.
Essas particularidades e outras se dão porque as empresas requerem

permissões diferentes aos seus usuários para que possam acessar e
utilizar determinados recursos em seus ambientes de Computação em
Nuvem.
Assim, temos os seguintes modelos de implementação da

Computação em Nuvem, podendo estes serem divididos em Nuvem
pública, privada, comunidade e híbrida (MELL; GRANCE, 2009).
Segue a descrição de cada um conforme Machado et al. (2009):
• Nuvem privada
Nesse modelo de implementação de Nuvem privada, a infraestrutura

de Nuvem é usada de forma particular na organização, de modo
que, a Nuvem local ou remota, pode ser administrada pela própria
empresa ou por terceiros. Este modelo trata a implementação
de determinadas políticas de acesso aos serviços. As técnicas
usadas por fornecer tais características podem ser em nível de

gerenciamento de redes, configurações dos provedores de serviços
e usada em tecnologias de autenticação e autorização.
• Nuvem pública
Nesse modelo de implementação de Nuvem pública, a infraestrutura

de nuvens é disponível para o público em geral, podendo ser
acessada por qualquer usuário que conheça a localização do
serviço, assim, entendemos este modelo de implementação como
não existindo restrições de acesso quanto ao gerenciamento
de redes, e menos ainda, usando técnicas para autenticação e
autorização.
• Nuvem comunidade
Nesse modelo de implementação de Nuvem comunidade, acontece

o compartilhamento por várias empresas de uma Nuvem, sendo
esta mantida por uma comunidade específica que compartilha
seus interesses, bem como, os requisitos de segurança, política e
requisitos sobre flexibilidade. Vale ressaltar que este tipo de modelo
de implementação pode existir localmente ou remotamente e,
geralmente, é administrado por alguma empresa da comunidade
ou por terceiros.
• Nuvem híbrida
Nesse modelo de implementação de Nuvem híbrida, há como

componente duas ou mais nuvens que podem ser privadas,
comunidade ou pública, permanecendo como entidades únicas
e ligadas por uma tecnologia padronizada ou proprietária que
possibilita a portabilidade de dados e aplicações.
Na próxima seção, estudaremos sobre os modelos de serviços

oferecidos pela Computação em Nuvem.
Modelos de serviço
Outro aspecto importante para destacar na Computação em
Nuvem, são os modelos de serviços que ajudam a atender às demandas
de serviços conforme os padrões e características, assim, criou-se uma

série de modelos de serviço de Cloud. Os principais modelos segundo
Pedroso (2014) são:
• SaaS (Software como Serviço): esse modelo trata da capacidade

de disponibilizar aplicações ao usuário final. A principal contribuição
é a abstração de tudo que está por trás da execução da aplicação
para usuário, assim o custo é minimizado e não existe a necessidade
de saber e interagir com a tecnologia e infraestrutura. Como
exemplos que utilizam os serviços do modelo, temos a Customer
Relationship Management (CRM) da Salesforce e o Google Docs.
• PaaS (Plataforma como Serviço): esse modelo trata a camada

que possibilita usar recursos da Nuvem com pouca necessidade
de intervenção na infraestrutura de TI. A ênfase está no
desenvolvimento de aplicações importantes ao negócio, sem
necessidade em dar suporte a toda infraestrutura do ambiente.
Exemplos desse modelo são o Google App Engine e Microsoft
Azure.
• IaaS (Infraestrutura como Serviço): esse modelo trata de prover

os recursos computacionais básicos, como o hardware para
processamento e armazenamento e deixando os detalhes de
responsabilidade do contratante a administração do ambiente de
software. Exemplos desse modelo são o Amazon Elastic Cloud
Computing (EC2) e o Eucalyptus.
Computação em Nuvem e Big Data

No contexto para melhorar o gerenciamento e minimizar os custos,
as aplicações de Big Data têm usado ambientes de Cloud Computing ou
Computação em Nuvem (AGRAWAL et al., 2011).
Estes ambientes possibilitam que as empresas e pessoas

aluguem capacidade de Computação e armazenamento sob demanda
e com pagamento com base na utilização, em vez de fazerem grandes
investimentos de capital necessários para a construção e instalação de
equipamentos de Computação em larga escala (SOUSA et al., 2010).
Além do que, a Computação em Nuvem disponibiliza ambientes

com ampla capacidade de armazenamento, escalabilidade, elásticos,
com alto desempenho e elevada disponibilidade.
Dessa forma, a Nuvem permite ser uma opção mais viável para
a idealização de aplicações de gestão e análise de grandes massas de
dados (AGRAWAL et al., 2011)
A cada dia as empresas e os consumidores estão buscando na

Nuvem um meio mais prático para gerenciar seus dados, uma vez que ela
possibilita o acesso rápido e sempre disponível aos dados, mesmo com
proporção de que um maior número de dispositivos com amplos níveis de
inteligência esteja conectado a diversas redes DURBANO (2020).
Desse modo, o consumidor deixa de se importar com a capacidade

de armazenamento dos dispositivos e acabam utilizando mais da
Computação em Nuvem (REINSEL, 2018).
Figura 6 – Computação em Nuvem e Big Data
Fonte: Pixabay
Conforme Hashem (2013), a Computação em Nuvem e Big Data

estão correlacionadas. O Big Data oferece aos usuários a capacidade
de utilizar Computação para processar e analisar uma massa de dados
em tempo rápido, já a infraestrutura de Computação em Nuvem,
pode contribuir como uma plataforma eficiente para trabalhar com o
armazenamento de dados precisos por fazer análise de Big Data.
Por conseguinte, o desenvolvimento da Computação em Nuvem

oferece soluções para o armazenamento e processamento de Big Data,
no qual o surgimento de Big Data também foi responsável por acelerar o
desenvolvimento da Computação em Nuvem (CHEN, 2016).
Entretanto, conforme Taurion (2013) afirma, os custos da Computação

em Nuvem são minimizados devido a utilização de servidores virtuais,
contudo estes podem gerar um aumento de custo com relação a grande
massa de dados por redes de comunicação e para o provedor da Nuvem.
SAIBA MAIS:
Leia sobre a Computação em Nuvem usada nas aplicações

de Big Data no artigo Como usufruir do seu Big Data com a
Computação em Nuvem. Acesse clicando aqui.
Podemos ainda destacar um exemplo interessante de uso de

Big Data em Nuvem, o Etsy, um site de e-commerce especializado em
produtos de artesanato e artigos de época que contém mais de onze
milhões de usuários, resultando em 25 milhões de visitantes únicos e 1,1
bilhões de page views por mês.
Atualmente, o Etsy captura mais de 5GB de dados por dia, dessa

forma, a grande massa de dados é analisada em uma Nuvem pública para
gerar uma análise melhor do comportamento dos seus clientes e realizar
análises preditivas (TAURION, 2013).
Dessa forma, o Etsy tem conseguido definir quais os produtos que

melhor se adequam e as preferências de um determinado cliente. Assim,
não é necessário instalar grandes servidores para realizar esta análise,
uma vez que a Etsy utiliza a Nuvem e paga apenas pelo tempo utilizado
para realizar a tarefa (TAURION, 2013).
Ainda temos empresas como Amazon, Microsoft, Google, entre

outras tantas que fazem uso desses recursos de Computação e Nuvem
e Big Data.
Gerenciamento de dados de Computação

em Nuvem
Temos que destacar o fator do gerenciamento de dados ser
considerado um ponto crítico no aspecto de Computação em Nuvem
devido os SGBDs relacionais não possuírem escalabilidade quando
milhares de sítios são considerados (WEI et al., 2009).
Dessa forma, elementos de armazenamento de dados, processamento

de consultas e gerência transacional têm se tornado mais flexíveis para
algumas abordagens, de modo a garantir a escalabilidade, porém ainda não
há soluções que juntem estes elementos de modo a melhorar o desempenho
sem implicar a consistência dos dados (ABADI, 2009).
Nesse contexto, diversas abordagens surgem para gerenciar dados

em nuvens, dentre as quais podemos citar o Microsoft Azure e HBase
(BRANTNER et al., 2008).
Um ponto importante é o trade-off entre as funções e os custos

operacionais enfrentados pelos provedores de serviços, nos quais
destacam-se os serviços em Nuvem para dados que disponibilizam
APIs que contêm mais restrições do que os SGBD relacionais, com
uma linguagem minimalista de consulta e promovendo a garantia de
consistência limitada (ABOUZEID et al., 2009).
Por conseguinte, temos a exigência e a necessidade de maior

esforço de programação dos desenvolvedores, todavia, possibilita aos
provedores idealizarem serviços mais previsíveis.
Segundo Armbrust et al. (2009), a construção de um sistema de

armazenamento que junta os vários recursos de Computação em Nuvem
de modo a ampliar a escalabilidade, a disponibilidade e consistência dos
dados, é um problema de campo aberto para estudos e pesquisa.
Assim, temos os SGBDs em Nuvem que surgiram para serem

usados como atrativo para chamar clientes de vários setores do mercado,
desde pequenas empresas com o intuito de minimizar o custo total, por
meio da utilização de infraestrutura e sistemas de terceiros, como até
grandes empresas que sempre buscam soluções para gerenciar suas
grandes quantidades de máquinas e possibilitar o atendimento de um

aumento inesperado de tráfego (ABADI, 2009).
Figura 7 – Banco de dados e infraestrutura
Fonte: Pixabay
A infraestrutura de SGBDs em Nuvem possui várias vantagens para

os usuários. A seguir, temos algumas dessas vantagens conforme Curino
et al. (2010):
• Previsibilidade e custos reduzidos proporcionais à qualidade do

serviço (QoS) e cargas de trabalho em tempo real.
• Complexidade técnica minimizada devido às interfaces de acesso

unificadas e a delegação de tuning, bem como a administração de
SGBDs.
• Elasticidade e escalabilidade, permitindo a percepção de recursos

quase infinitos, como ainda, o provedor tem que possibilitar a
garantia da ilusão de recursos infinitos por meio de cargas de
trabalho dinâmicas e reduzir os custos operacionais relacionados
a cada usuário.
Contudo, existem vários sistemas e arquiteturas que estão sendo

implementados para atender às novas demandas de aplicações com variados
requisitos de processamento e armazenamento (ABOUZEID et al., 2009).
Estes novos sistemas tentam fornecer uma visão de armazenamento

e escalabilidade infinitos, mas devem tratar o problema de provisionar
recursos.
Esse problema, que em SGBDs tradicionais contêm em definir quais

recursos são alocados para um único banco de dados, no contexto de
ambiente em Nuvem, torna-se um problema de otimização quando se
tem uma grande quantidade de usuários, múltiplos SGBDs em Nuvem e
grandes centros de dados (ABOUZEID et al., 2009).
Dessa forma, os SGBDs em Nuvem oferecem uma oportunidade

para explorar a economia em escala, gerando balanceamento dinâmico de
carga e gerenciamento da economia em escala (ABOUZEID et al., 2009).
RESUMINDO:
Neste capítulo, para entender o gerenciamento de

Computação em Nuvem, abordamos primeiro um pouco
mais sobre o entendimento deste recurso, tendo em vista
que a Computação em Nuvem é muito importante para
a indústria, principalmente para as áreas de tecnologia.
O termo Nuvem é uma metáfora para a Internet ou
infraestrutura de comunicação entre os elementos
arquiteturais, fundamentado em uma abstração que
esconde a complexidade de infraestrutura. Estudamos
sobre como descrever o acesso e disponibilidade aos
ambientes de Computação em Nuvem, apresentando
os diferentes tipos de modelos de implementação, que
são: Nuvem pública, privada, comunidade e híbrida. Logo
após, estudamos sobre os modelos de serviços e, assim,
a partir do entendimento desses conceitos, podemos
compreender melhor sobre o gerenciamento de dados em
Nuvem, os pontos críticos dessa infraestrutura. Vimos ainda
o surgimento dos SGBDs em Nuvem que são usados como
atrativo para clientes de vários setores do mercado, desde a
pequenas e grandes empresas com o intuito de minimizar o
custo. Por fim, apresentamos o uso combinado de Big Data
e Computação em Nuvem trazendo a importância destes
para as diversas aplicações existentes e para as empresas.
Bioinformática
OBJETIVO:
Neste capítulo, estudaremos sobre a bioinformática

juntamente com seus conceitos, características, histórico
e aplicações. Também, abordaremos exemplos de
tecnologias que trabalham com esse tipo de solução e
ainda veremos como elas se relacionam com a Ciência dos
Dados e Big Data. Vamos lá!
Histórico da Bioinformática
Ao longo do tempo, a biologia molecular cresceu exponencialmente.
Isso se deve pelo fato do aperfeiçoamento da automação na produção
de dados de sequências de genótipos para fenótipos, tornando-se muito
mais uma ciência de informação.
Contudo, conforme Medeiros Filho et al. (2002), esse aumento

no volume de sequências genéticas a serem armazenadas, passou a
precisar de algoritmos computacionais eficientes que fornecessem o
compartilhamento, análise e armazenamento desses dados.
Figura 8 – Os avanços na Biologia
Fonte: Pixabay
De acordo com Edwards et al. (2009), o mais interessante para

os cientistas enfatizarem é o quesito da análise desses dados estarem
associados a qualidade das sequências e suas anotações suportadas nos
bancos de dados públicos.
Deste modo, surgiu a Bioinformática como um novo campo de

estudos e trabalho que oferece um meio de conexão entre os dados
biológicos e as hipóteses científicas indagadas nas pesquisas ligadas, por
exemplo, ao fluxo da informação gênica.
Temos a Bioinformática sendo uma área multidisciplinar envolvendo

as áreas de engenharia de softwares, matemática, estatística, ciência
da Computação e a biologia molecular, em que necessita de sistemas
computacionais robustos, bem como profissionais qualificados e
especializados (MEDEIROS FILHO et al., 2002).
Lorenzoni (2019) descreve algumas funções da Bioinformática,

apresentadas a seguir:
• A implementação de novos algoritmos e estatísticas.
• Análise e interpretação de diversos tipos de dados biológicos.
• Desenvolvimento e idealização de ferramentas que possibilitem o

acesso e gerenciamento eficazes de variados tipos de informações.
Essas funções da Bioinformática, tem como intuito, de modo

sucinto, a realização de trabalhos nos seguintes campos, de acordo com
Lorenzoni (2019):
• Análise de sequência incluindo o alinhamento de sequência,

pesquisa em banco de dados, a busca de motivos e padrões,
descoberta de genes e promotores, reconstruir as relações
evolutivas e montagem e comparação de genoma.
• Análises estruturais incluindo comparação, classificação, previsão

de proteínas e estruturas de ácidos nucleicos.
• Análise funcional que incluem o perfil de expressão gênica,

previsão de interação proteína-proteína, prever a localização
subcelular, reconstruir e simular as vias metabólicas.
Na Figura 9, há a representação da visão geral com os objetos de

estudo relacionados à Bioinformática.
Figura 9 – Representação de algumas das principais áreas da Bioinformática
Alinhamento
de sequência
Dinâmica Biologia de
molecular sistemas
Abordagem
computacional
Atrocamento Modelagem
para os
molecular comparativa
sistemas
biólogicos
Modelagem ab
FIlogênia
inito
Predição
de função
génetica
Fonte: Adaptada de Verli (2014).
De modo geral, podemos destacar, por meio da representação

anterior que os objetos de estudo relacionados à Bioinformática são
vários e sequências de biomoléculas, nos quais incluem: comparações
entre sequências (alinhamento); identificação de padrões em sequências
(assinaturas); caracterização de relações evolutivas (filogenia); construção
e anotação de genomas; construção de redes (biologia de sistemas);
obtenção de modelos 3D para proteínas e outras biomoléculas (por
exemplo, modelagem comparativa); identificação do modo de interação
de moléculas (atracamento); seleção de compostos com maior potencial

de inibição (atracamento); caracterização da flexibilidade molecular
(dinâmica molecular); avaliação do efeito de mudanças na estrutura e
ambiente molecular na dinâmica e função de biomoléculas (dinâmica
molecular) (LORENZONI, 2019).
SAIBA MAIS:
Para saber mais sobre o assunto, faça a leitura do

artigoBioinformática: descubra o que é e como essa ciência
vem crescendo a cada dia. Acesse clicando aqui.
Este artigo traz algumas aplicações que usam Bioinformática, como:

armazenamento, processamento de sequências biológicas, manipulação
e organização de bases de dados biológicas; modelação de processos
metabólicos e regulatórios de tecidos de celulares de organismos e ao
nível celular modelação e simulação de processos biológicos.
Nessa próxima seção, serão apresentadas outras características de

Bioinformática como workflow.
Workflow de Bioinformática
Um workflow científico pode ser conceituado como uma
especificação formal de um processo científico que representa as etapas
a serem executadas em algum experimento (DEELMAN et al., 2009).
Essas etapas ou atividades podem ser programas ou sistemas

que concebem a automatização a um processo, otimizando o modo de
trabalho.
Várias áreas da biologia molecular usam workflows em seus

experimentos científicos (BOEKEL et al., 2015), nos quais, usualmente
são processados dados originados de projetos ligados ao genoma,
transcriptoma, metaboloma, entre outros, de modo que, cada execução
de um workflow científico de Bioinformática pode produzir um grande
massa de dados, que devem ser armazenados para execuções novas
análises ou confirmações de resultados.
Podemos destacar que um dos problemas ao qual a Bioinformática é

focada, é a montagem de fragmentos de DNA, de modo que os fragmentos
de DNA são originados do sequenciamento de alto desempenho e são
chamados reads.
Entende-se as reads como strings de um alfabeto que representa

o DNA ou o RNA. Por meio dos alinhamentos das reads, a montagem
consegue sequências contíguas (contigs) que representam o DNA original
da amostra (ZERBINO, 2008).
Por conseguinte, a montagem de fragmentos pode utilizar um

genoma de referência, neste caso, as reads são alinhadas contra um
genoma de organismo filogeneticamente próximo ao organismo do qual
provêm as reads.
Por outro lado, a montagem sem um genoma de referência é

chamada de montagem de novo (BLEIDORN, 2017).
IMPORTANTE:
Vale ressaltar que os experimentos científicos da

Bioinformática geralmente são representados como
workflows científicos que são usados especialmente em
projetos do genoma e transcriptoma em experimentos que
englobam análise de sequenciamento de DNA e/ou RNA,
como a montagem de fragmentos.
Segundo Saldanha (2012), as análises são precisas, pois os

fragmentos criados pelos sequenciadores automáticos devem fazer a
verificação da sua qualidade, verificando se estão juntos, se os fragmentos
forem muito pequenos ou ter identificadas suas funções biológicas, entre
outras. Essas análises podem ser feitas em várias etapas e em diferentes
ferramentas que compõem os workflows.
Proveniência de dados em Bioinformática

Já vimos que a Bioinformática é multidisciplinar e que contém
a utilização intensa de ferramentas computacionais. Conforme Mattos
et al. (2008), esta ciência tem como intuito a coleta, organização,

armazenamento, recuperação e a análise de dados biológicos,
promovendo assim a inferência ou busca de informações sobre a biologia
e/ou evolução dos organismos.
Vale destacar que a Bioinformática e seus experimentos podem

ser efetuados por várias fases, sendo executados em programas com
configurações específicas e parâmetros por equipes variadas e que
processam uma grande massa de dados.
Segundo Paula (2012), oferecer a proveniência de dados em projetos

de Bioinformática, exige uma solução que possibilite armazenar a ligação
entre os dados processados, combinando-os com as informações das
execuções de cada processo e de seus resultados.
A definição tratada por Buneman et al. (2001) apresenta o termo

proveniência como “linhagem” ou “pedigree” que se refere o histórico
de como aquele dado foi criado ou derivado. Isto implica relatar que o
significado de proveniência é a origem ou procedência.
De acordo com Almeida (2015), a proveniência de dados torna-

se cada vez mais presente no ambiente científico, tanto para oferecer
a garantia da origem dos dados, como para realizar avaliação e a sua
acurácia.
Figura 10 – Dados biológicos
Fonte: Pixabay
Segundo de Paula (2012), a proveniência possibilita que os cientistas

estudem com mais detalhes seus experimentos e, sempre que necessário,
possam refazê-los de um modo mais estruturado e controlado.
A utilidade da proveniência de dados vai além da reprodução de

experimentos, pois a procedência tem uma grande utilidade ao fornecer
aos cientistas uma variedade de aplicações de análise de dados,
possibilitando, por exemplo, a verificação e a qualidade dos dados oriundas
por meio da análise de suas referências ancestrais e determinando a
confiabilidade dos estudos (MARINHO et al., 2009).
Conforme Goble (2002) relata, algumas funcionalidades da

proveniência de dados, são:
• Qualidade dos dados: por meio do histórico de todo processo de

elaborar dados ou execução do experimento de quem o originou,
que base de dados veio, em que o dado foi armazenado, entre
outros, fazendo a estimativa do grau de qualidade e confiabilidade
pelo qual o dado foi utilizado.
• Controle de replicação: a proveniência detalhada possibilita

que um dado ou experimento possa ser replicado por meio dos
mesmos métodos, mesmas ferramentas e parâmetros.
• Propriedade e segurança: é contido um controle rigoroso sobre

o dono do experimento e todos seus dados, tanto para fins de
direitos autorais e citações, como também para responsabilidades
caso os dados possam estar errados.
• Informacional: informações relevantes para a pesquisa são

extraídas na proveniência, como: o autor, membros da equipe,
local, etc., pelo qual, oferecem uma certa importância para a
interpretação dos dados.
Na próxima seção, estudaremos sobre as aplicações da

Bioinformática.
Aplicações da Bioinformática
Assim, podemos destacar no campo da Bioinformática algumas
aplicações e suas contribuições, descritas conforme Lorenzoni (2019):
• Aplicada na área agrícola: a Bioinformática é adotada em

pesquisas agrícolas por conta do seu grande volume de dados
inerentes às diferentes culturas. Essa técnica possibilita uma análise
mais completa dos dados, contribuindo com o entendimento dos
pesquisadores.
Ao associar os recursos genéticos vegetais com a Bioinformática,

é possível obter ganhos nos mais diversos programas de melhoramento,
obtendo cultivos mais resistentes a estresses bióticos e abióticos,
melhorando a qualidade nutricional e gerando novas formas de energia
renováveis.
Exemplos de uso da Bioinformática:
• Genética comparativa: a genética comparativa consiste em

avaliar planta modelo e planta não modelo. As espécies podem
revelar uma organização de seus genes, uma em relação à outra,
que é usada para transferir informações dos sistemas de plantas
modelo para outras culturas alimentares.
• Fontes de energias renováveis: é sabido que um dos melhores

meios para obter energia é a biomassa vegetal, como exemplos
temos o milho, cana, entre outras.
Por meio das ferramentas de Bioinformática, é possível detectar

variações nas sequências associadas a fenotipagem e que possam
identificar genótipos superiores para maximizar a produção de biomassa.
Assim, combinando o uso da interação das ômicas com a

Bioinformática, é possível aumentar a capacidade de desenvolvimento de
culturas para serem usadas como matéria-prima de biocombustível.
• Melhoramento de plantas: ajuda a compreender a base genética

e molecular de todos os processos biológicos nas plantas. Isso é
importante, pois possibilita a exploração eficaz de plantas como
recursos biológicos no desenvolvimento de novas culturas com

melhor qualidade e custos econômicos em ambientais reduzidos.
Assim, isso pode acontecer devido aos dados serem acessados e

analisados por meio de ferramentas de Bioinformática.
• Melhoramento para qualidade nutricional: um dos exemplos

mais clássicos de alimentos biofortificados é o arroz dourado,
o qual foi enriquecido com betacaroteno que no organismo é
facilmente convertido para vitamina A.
• Fitopatologia: a Bioinformática possibilitou mapear todo o

genoma de muitos organismos, contribuindo, dessa forma, com
o entendimento da arquitetura genética de microrganismos e
patógenos para verificar como esses afetam a planta hospedeira,
usando a abordagem metagenômica e transcriptômica.
Destaca-se que a Bioinformática tem muitas aplicações práticas no

gerenciamento atual de doenças de plantas no que diz respeito ao estudo
das interações do hospedeiro-patógeno.
Bioinformata
Neste contexto da Bioinformática e seus objetos de estudos, surge
outro tipo de profissional: o bioinformata. Esse deve ter a habilidade e
competência de identificar os problemas biológicos e solucioná-los por
meio do uso de ferramentas computacionais (SOARES, 2006).
Esse profissional de Bioinformática deve ter habilidades não

somente de aptidão em conhecimentos técnicos computacionais,
como também, dominar a ciência de dados e Big Data, saber lidar com
o desenvolvimento de sistemas, entender ainda sistemas já existentes
e deve ter conhecimentos específicos de Ciências Biológicas, como a
Biologia Molecular, destacando-se que a linguagem de programação
mais adotada nessa área é o Python.
Figura 11 – Bioinformata
Fonte: Pixabay
Esse profissional, bioinformata, tem que utilizar ferramentas robustas

e de grande poder computacional para solucionar problemas biológicos.
Em particular, deve lidar com problemas que envolvem grandes volumes
de dados.
Atualmente, estamos inseridos na era do Big Data, em que é

gerado a cada dia um conjunto gigantesco de dados, assim, é preciso
mais recursos para analisá-los.
RESUMINDO:
Estudamos, neste capítulo, um pouco mais sobre a

tecnologia da Bioinformática e como se relaciona com a
Computação e soluções como Big Data, tendo em vista
que este campo de pesquisa traz grandes contribuições
para a biologia e que, por meio dos seus recursos, geram
grande quantidade de dados que podem ser analisados
trazendo importantes contribuições acadêmicas.
Inovação Tecnológica e Novas Tendências
OBJETIVO:
Neste capítulo, vamos abordar as novas tendências e

inovações tecnológicas no campo de ciência de dados e
Big Data, como também, abordaremos os desafios futuros
neste campo. Vamos lá!
Com a grande produção de dados e novas tecnologias sendo

desenvolvidas, as técnicas de Big Data e Ciência de Dados acabam
crescendo e contribuindo para estes avanços.
Muitos especialistas relatam que o Big Data pode trazer grandes

mudanças de contexto econômico e social. Podemos citar algumas
tendências tecnológicas relatas por Paredes (2019):
• Os sistemas de armazenamento distribuído NoSQL são tendências

de crescimento devido a serem tão importantes para grandes
necessidades de dados e infraestrutura, como para empresas
como Google, Amazon e Facebook.
• Os sistemas distribuídos para promover o processamento e

análise de sinais e eventos de Internet das Coisas em tempo real
que possibilitam analisar uma grande massa de dados de modo
imediato.
• Os bancos de dados com processamento com base em Unidades

de Processamento Gráfico (GPUs) que estimulam o cálculo
de informações em massa e ajudam a minimizar os tempos de
treinamento de modelos e projetos de aprendizado de máquina.
• Os chatbots que possibilitam responder a consultas e executar

ações práticas e de modo automático e por meio de uma
linguagem natural.
Após esses exemplos de algumas tendências tecnológicas, na

próxima seção, será estudado sobre exemplos de inovação tecnológica.
Inovação tecnológica
O Big Data traz inovações em vários aspectos, como: contribui
no desenvolvimento de novas tecnologias, aplicações e na forma de
processos de tomada de decisões nas empresas.
Já estudamos também que há grandes inovações nas empresas

trazendo vantagens competitivas.
Segundo Amaral (2016), algumas inovações importantes que o Big

Data fornece nas suas aplicações é a capacidade de tornar os processos
produtivos mais eficientes, com custos reduzidos, produtividade e
intervalos de paradas não programadas menores.
No campo da Administração, o Big Data possibilita um ganho

no campo de fraudes, em que fornece a redução delas ao diminuir os
passivos judiciais e a verificação do pagamento de impostos.
Promove ainda inovação no campo do relacionamento com os

clientes, melhorando a fidelização, maior qualidade de seus produtos e
serviços.
O Big Data também gera modificação no relacionamento das

empresas com seus fornecedores e parceiros comerciais (AMARAL, 2016).
Conforme Taurion (2013), uma inovação é a capacidade do Big Data

impactar nos processos da empresa, dessa forma, acontecer o necessário
para que os próprios processos sejam revisados e incorporados os
resultados nas análises das fases de suas tarefas.
Exemplificando ofertas personalizadas para os clientes, usualmente

são realizadas quando planejadas e com antecedência de dias, tendo
uma campanha, realizam o filtro de clientes selecionados e enviam para
eles os e-mails com as ofertas, ou seja, dessa forma o Big Data se torna
uma oportunidade para identificar e enviar ofertas em tempo real.
Figura 12 – Inovação
Fonte: Pixabay
Nas próximas sessões, serão destacadas tecnologias que surgiram

trazendo inovação ligadas à como a Big Data.
Big Social Data

Uma das grandes tendências atuais de explorar Big Data é nas
redes sociais, como Facebook, YouTube e Twitter, por meio da conexão,
as pessoas estão produzindo exabytes de dados em suas interações (TAN
et al. 2013).
O volume, a velocidade e a capacidade de processar os dados de

diversas fontes, criam grandes desafios, dispersos ou combinados, a serem
superados ligados ao armazenamento, processamento, visualização e
análise dos dados.
NOTA:
Existe uma grande tendência de indivíduos se juntarem e

formarem grupos, algo que é uma característica de qualquer
sociedade (CASTELLS, 2000). Esse comportamento pode
ser replicado nos dias atuais por meio do avanço das mídias
sociais e grupos on-line que destacam o poder de unir
usuários ao redor de todo mundo.
Já vimos, ao longo dos nossos estudos, que a quantidade de dados

gerada na rede só aumenta a cada instante e novas unidades de medida
surgem para classificar as grandes massas de dados.
Esse grande volume de dados de diferentes tipos está sendo produzido

por diferentes fontes independentes, distribuídas e descentralizadas que
geram de modo rápido, dados com relações complexas e em evolução,
sendo chamados de Big Data (SILVA et al., 2013).
Figura 13 – Redes sociais e Big Data
Fonte: Pixabay
Podemos destacar que o Big Data representa inovação no aspecto

da tecnologia, pois por trabalhar com bancos de dados NoSQL, realizar
processamento massivo paralelo, conter funções capazes de coletar,
tratar e analisar dados não estruturados como comentários postados no
Facebook, tem ganhado grande destaque global (TAURION, 2013).
Com isto, percebemos como ele traz contribuições devido ao

grande uso das redes sociais que acabam se tornando uma grande fonte
de dados para aplicar Big Data, trazendo informações importantes para
diversos segmentos de empresas.
IMPORTANTE:
É importante destacar que toda esta produção massiva e

diária das redes sociais, traz um problema muito conhecido
que são as tão faladas fake news, fato de espalhar notícias
falsas pela web. Percebemos, com a análise adequada dos
dados, um fator crítico e que traz um grande impacto, bem
como necessidade de poder possibilitar a verificação e
veracidade de tantas notícias geradas ao mesmo tempo.
Dessa forma, com a diversidade e quantidade de usuários usando

as redes sociais, torna este campo bastante explorado por analistas
e pesquisadores que buscam extrair ou inferir informações, podendo
estar relacionadas a outros campos como: predição de comportamento,
marketing, comércio eletrônico, entre outras interações (TAN et al., 2013).
Isso implica afirmar que essas análises devem ser eficientes, como
efetuadas quase em tempo real e com a capacidade de prover trabalhos
com vários grafos.
Tecnologia Blockchain
Temos atualmente o surgimento de uma nova tecnologia, o banco
de dados de blockchain. O BigchainDB trata de combinar as vantagens de
bancos de dados distribuídos, por sua vez, o blockchain refere-se a trilhas
descentralizadas e imutáveis de auditoria e troca de ativos.
Este tipo de tecnologia traz inovação no campo de transações

financeiras, assim, o blockchain traz oportunidades para aqueles que
trabalham com soluções computacionais como Big Data, ciências de
dados e inteligência artificial.
Esse banco de dados, blockchain, tem característica de

escalabilidade e utiliza ambientes de Big Data. Esse tem a capacidade
de liberar o potencial de aplicações altamente importantes em Big Data,
contribuindo para o controle compartilhado de infraestrutura, trilhas de
auditoria em dados e permitir a troca de dados universal.
Figura 14 – Blockchain
Fonte: Pixabay
Um exemplo do uso de Big Data e Blockchain foi o consórcio de

47 bancos japoneses que se associaram a uma startup de blockchain
conhecida como Ripple para facilitar as transferências de dinheiro entre
contas bancárias usando o próprio blockchain, visto que os blockchains
oferecem risco minimizados quando comparados com as transações
tradicionais.
Assim, com a utilização, é permitido detectar padrões nos gastos do

consumidor e identificar transações de risco com maior velocidade, bem
como, reduzir o custo com as transações em tempo real (MATOS, 2020).
Internet das Coisas

Com certeza você sabe ou já ouviu falar sobre o termo Internet
das Coisas, que está tão em alta nas discussões em meios acadêmicos
e comerciais. Descrevemos a Internet das Coisas como a tecnologia
que contém uma taxa enorme de objetos sendo conectada à Internet,
compreendendo o que é denominada hoje como Internet das coisas
(Internet of Things ou IoT) (RATHOREA, 2016).
Esses objetos podem ser sensores, bancos de dados e outros

dispositivos ou software, existindo muitos domínios nos quais IoT ajuda e
facilita a vida das pessoas de modo bastante relevante em tarefas como
a assistência médica, automação, transporte e respostas emergências a
desastres naturais (RATHOREA, 2016).
Figura 15 – Internet das Coisas
Fonte: Pixabay
Os vários sensores produzem diferentes tipos de características,

exemplificando as tags que são aplicadas na identificação por
radiofrequência (RFID) e que disponibilizam a localização e tempo; os
GPSs, responsáveis por identificar a localização e marca-passos que
extraem informações sobre o coração (O’LEARY, 2013).
Nisto, os objetos de IoT tem englobando a si uma interface de rede,

possibilitando que as comunicações entre eles ofereçam vários serviços
para os usuários (NIYATO, 2016).
Contudo, muitas oportunidades são descritas pela capacidade

de analisar e utilizar grandes quantidades de dados de IoT, inclusive
aplicativos em cidades inteligentes, sistemas inteligentes de transporte
e de rede, medidores inteligentes de energia e dispositivos remotos de
monitoramento de saúde do paciente (MARJANI, 2017)
Conforme O’leary (2013), uma grande parte dos dados são

originados de objetos do universo da Internet das Coisas, tendo em vista
que produzem grandes massas de dados.
Outra característica é a velocidade dos dados, relacionada à IoT, ser

mais elevada quando comparada com o processamento tradicional, pois
os sensores podem capturar dados continuamente.
Esses dados também têm característica de grande variedade, visto que

temos cada vez mais vários tipos de sensores e diferentes fontes de dados.
Por fim, temos que a veracidade dos dados estão mais garantindo
confiabilidade devido ao modo que a qualidade dos sensores e outras
fontes de dados, tem melhorado com o tempo. Gerando, assim, que esses
aspectos associados impulsionam a geração de Big Data pela Internet
das Coisas.
RESUMINDO:
Estudamos, neste capítulo, uma visão geral de tendências

e tecnologias que estão surgindo, bem como elas se
relacionam com as aplicações Big Data. Vimos que a solução
computacional Big Data possibilita a inovação em vários
aspectos, no quesito de contribuir no desenvolvimento de
novas tecnologias, aplicações e na forma de processos de
tomada de decisões nas empresas. Algumas inovações
importantes que o Big Data fornece com suas aplicações
é a capacidade de tornar os processos produtivos mais
eficientes, com custos reduzidos, produtividade e intervalos
de paradas não programadas menores.
No campo da administração, o Big Data possibilita um
ganho no campo das fraudes, em que fornece a redução
delas, reduz passivos judiciais e avalia o pagamento de
impostos. Vimos ainda que a grande tendência das redes
sociais atuais está sendo um campo bastante explorado
por analistas e pesquisadores que buscam extrair ou inferir
informações sobre os dados gerados pelas redes.
Em seguida, estudamos o surgimento de uma tecnologia,
o Blockchain, que traz inovação no campo de transações
financeiras e se tornou uma oportunidade para aqueles
que trabalham com soluções computacionais como Big
Data, ciência de dados e inteligência artificial. Por fim,
estudamos outro recurso tecnológico, a Internet das Coisas
e vimos como funciona como uma grande geradora de
fonte de dados para utilizar Big Data e como elas podem
se relacionar.
REFERÊNCIAS
ABADI, J. Data management in the cloud: Limitations and
opportunities. IEEE Data Eng. Bull, v. 32, p. 3-12. 2009.
ABOUZEID, A. et al. Hadoopdb: an architectural hybrid of mapreduce

and dbms technologies for analytical workloads. PVLDB, p. 922-933. 2009.
AGRAWAL, D.; DAS, S.; El Abbadi, A. Big Data and cloud computing:
current state and future opportunities. In: INTERNATIONAL CONFERENCE
ON EXTENDING DATABASE TECHNOLOGY, 14., 2009, New York.
Proceedings […] New York: EDBT/ICDT, 2009. p. 530-533.
ALMEIDA, R. Proveniência de dados em workflow de Bioinformática

utilizando banco de dados baseado em grafo. Dissertação (Mestrado) –
Departamento de Ciência de Computação. UNB. Brasília. 2015.
AMARAL, F. Introdução à Ciência de Dados. São Paulo: Alta Books,

2016.
BIOINFORMÁTICA: descubra o que é e como essa ciência vem

crescendo a cada dia. Profissionais IT, 2019. Disponível em:https://www.
profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-
como-essa-ciencia-vem-crescendo-a-cada-dia/. Acesso em: 19 jun.
2020.
BLEIDORN, C. Assembly and data quality. [S. l.]: Springer, 2017.
BOEKEL, J. et al. Multi-omic data analysis using galaxy. Nature

Research, v. 33, n. 2, p. 137-139. 2015.
BRANTNER, M. et al. Building a database on s3. In: ACM SIGMOD

INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 8., 2008,
New York. Proceedings […] New York: ACM Press, 2008. p. 251.
BUNEMAN, P. et al. Why and where: a characterization of data

provenance. In: BUSSCHE, J. V. den et al. Database Theory. Berlin: Springer
Berlin Heidelberg, 2001.
CHEN, M.; MAO, S.; LIU, Y. Big Data: a survey. New York: [s. n.], 2014.
DAVIDSON, J. What is Statistics? SSCC, [s. d.]. Disponível em: https://

www.sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html.
Acesso em: 15 jun. 2020.
COMO usufruir do seu Big Data com a Computação em Nuvem.

Tech Mundo, [s. d.]. Disponível em: https://www.tecmundo.com.br/
mercado/139695-usufruir-big-data-computacao-Nuvem.htm. Acesso
em: 18 jun. 2020.
DEELMAN, Ewa et al. Workflows and e-Science: An overview of

workflow system features and capabilities. Future Generation Computer
Systems, v. 25, n. 5, p. 528-540. 2009.
DURBANO, V. Computação em Nuvem. Ecoit, [s. d.]. Disponível em:

https://ecoit.com.br/computacao-em-Nuvem/. Acesso em: 19 jun. 2020.
EDWARDS, D.; STAJICH, J.; HASEN, D. Bioinformatics: tools and

applications. New York: Springer, 2009.
GOBLE, C. Position statement: Musings on provenance, workflow

and (semantic web) annotations for bioinformatics. In: WORKSHOP ON
DATA DERIVATION AND PROVENANCE, Chicago. [S.l.: s.n.], 2002.
HASHEM, T. et al. The rise of “Big Data” on cloud computing: Review

and open research issues. Information Systems, v. 47, p. 98-115. 2014.
KALLA, S. What is statistics? Explorable, [s. d.]. Disponível em:

https://explorable.com/what-isstatistics. Acesso em: 15 jun. 2020.
LI, W; HAN, J; PEI, J. Cmar: Accurate and efficient classification

based on multiple class-association rules. In: IEEE INTERNATIONAL
CONFERENCE ON DATA MINING, 1., 2001, San Jose. Proceedings […] San
Jose: ICDM, 2001. p. 369-376.
LORENZONI, R. Bioinformática – parte II: Fundamentos e aplicações.

Laborgene, 2020. Disponível em: https://www.laborgene.com.br/
fundamentos-da-bioinformatica/. Acesso em: 18 jun. 2020.
MARINHO, A. et al. A strategy for provenance gathering in

distributed scientific workflows. In: CONGRESS ON SERVICES, 1., 2009, [S.
l.]. Proceedings […] [S.l.: s. n.], 2009. p. 344-347.
MATOS, D. Big Data e as Oportunidades com Blockchain. Ciência de

Dados, 2020. Disponível em: http://www.cienciaedados.com/big-data-e-
as-oportunidades-com-blockchain/. Acesso em: 19 jun. 2020.
MATTOS, A. et al. Gerência de Workflows Científicos: uma análise

crítica no contexto da Bioinformática. São Paulo: [s. n.], 2008.
MEDEIROS FILHO, F. C. et al. Bioinformática: Manual do Usuário.

Biotecnologia Ciência e Desenvolvimento, Brasília, v. 5, n. 29, p. 12-25.
2002.
MICHALSKI, R. S.; CARBONELL, J. G.; MITCHELL, T. M. Machine

learning: An artificial intelligence approach. [S. l.]: Springer Science and
Business Media, 2013.
MOURA C. Aprendizado de Máquina: conceitos e práticas da área

que está movendo o mundo. Profissionais IT, 2017. Disponível em: https://
bit.ly/3zViE27. Acesso em: 17 jun. 2020.
NIYATO, D. Market Model and Optimal Pricing Scheme of Big Data

and Internet of Things (IoT). IEEEXPLORE, [s. d.]. Disponível em: https://
ieeexplore.ieee.org/document/7510922. Acesso em: 18 jun. 2020.
O’LEARY, E. ‘Big Data’, The ‘Internet Of Things’ And The ‘Internet of

Signs’. Intell. Sys. Acc. Fin. Mgmt., v. 20, p. 53-65. 2013.
PAI, V. Big Data new challenges, tools and techniques. IJERME, v. 1,

n. 1, p. 1-8. 2016.
PAREDES, A. Tendências Big Data 2019 para que o futuro não te

pegue de surpresa. IEB School, 2019. Disponível em: https://www.
iebschool.com/pt-br/blog/software-de-gestao/big-data/tendencias-
big-data-2019-para-que-o-futuro-nao-te-pegue-de-surpresa/. Acesso
em: 19 jun. 2020.
PEDROSO C. Big Data e Cloud Computing. Canal Tech, [s. d.].

Disponível em: https://canaltech.com.br/computacao-na-Nuvem/Big-
Data-e-Cloud-Computing/. Acesso em: 18 jun. 2020.
RATHOREA, U.; AHMAD, A.; PAUL, A. Urban planning and building

smart cities based on the Internet of Things using Big Data analytics.
Computer Networks, 2016.
REINSEL, D.; GANTZ, J.; RYDNING, E. The Digitization of the World:

From Edge to Core. Seagate. Seagate, 2018. Disponível em: https://www.
seagate.com/files/www-content/ourstory/trends/files/idc-. Acesso em:
19 jun. 2020.
ROZA, S. Aprendizagem de máquina para apoio à tomada de

decisão em vendas do varejo utilizando registros de vendas. Instituto de
Engenharia, 2018. Disponível em: https://www.institutodeengenharia.org.
br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/. Acesso
em: 17 jun. 2020.
RUSSELL, S.; NORVIG, P. Artificial intelligence – a modern approach.

Prentice Hall, v. 2, n. 1, 2003.
SALDANHA, V. Bionimbus: uma arquitetura de federação de nuvens

computacionais híbrida para a execução de workflows de Bioinformática.
Dissertação (Mestrado em Ciência da Computação). UNB. Brasília. 2012.
SAVARESE NETO, E. Computação em Nuvem: o que é, como

funciona e importância. Disponível em: https://fia.com.br/blog/
computacao-em-Nuvem/. Acesso em: 18 jun. 2020.
SOARES, E. Profissão do futuro: bioinformata vive entre bits e

células. [S. l.]: Portal IDGNow, 2006.
SOUSA, C.; MOREIRA, O. Computação em Nuvem: conceitos,

tecnologias, aplicações e desafios. ResearchGate, [s. d.]. Disponível
e m : h t t p s : // w w w. re s e a rc h g a t e . n e t /p ro f i l e /J a v a m _ M a c h a d o /
p u b l i c a t i o n /2 37 6 4 47 2 9 _ C o m p u t a c a o _ e m _ N u ve m _ C o n c e i to s _
Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.
pdf. Acesso em: 17 jun. 2020.
TAN, N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining,

(First Edition). Boston: Addison-Wesley Longman Publishing Co., Inc.,
2005.
TAN, W. et al. Social-Network-Sourced Big Data Analytics. Internet

Computing. IEEE Computer Society, v. 17, n. 5, p. 62-69, 2013.
TAURION, C. Big Data. São Paulo: BRASPORT, 2013.
THOMPSON, D.; HIGGINS, G. Machine learning e Big Data. Sonda,

[s. d.]. Disponível em: https://blog.sonda.com/machine-learning-e-big-
data/. Acesso em: 17 jun. 2020.
VERLI, H. et al. Bioinformática da Biologia à flexibilidade molecular.

GrandAdm, [s. d.]. Disponível em: http://www.gradadm.ifsc.usp.br/
dados/20171/7600011-3/Bioinformatica_1.1.pdf. Acesso em: 18 jun. 2020.
ZERBINO, D. et al. Velvet: algorithms for de novo short read assembly

using de bruijn graphs. Genome research, Cold Spring Harbor Lab, v. 18,
n. 5, p. 821-829. 2008.
ZHOUA, L. et al. Machine learning on Big Data: Opportunities and

challenges. Neurocomputing, p. 350-361. 2017.

Ebook Da Unidade - Big Data, Ia e Cloud Computing

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ebook Da Unidade - Big Data, Ia e Cloud Computing

Enviado por

Direitos autorais:

Formatos disponíveis

Big Data e

Alan de Oliveira Santana

Desse modo, fomos convidados pela Editora Telesapiens a integrar

Abordagem de técnicas gerais de Big Data................................................12

Entendendo o Aprendizado de Máquina ...................................................................... 15

Aprendizagem não supervisionada................................................................ 17

Técnicas de aprendizado usadas em Big Data ......................................................... 17

Análise preditiva ........................................................................................................... 19

Previsão de demanda ............................................................................................... 19

Gerência de Dados e Computação na Nuvem....................................22

Modelo de implementação ..................................................................................24

Computação em Nuvem e Big Data .................................................................................26

Gerenciamento de dados de Computação em Nuvem......................................29

Histórico da Bioinformática .....................................................................................................32

Proveniência de dados em Bioinformática............................................... 36

Inovação Tecnológica e Novas Tendências......................................................... 42

Inovação tecnológica ...................................................................................................................43

Big Social Data................................................................................................................44

Internet das Coisas......................................................................................................47

As organizações usam várias técnicas e tecnologias para realizar a

Estudaremos ainda sobre gerência de dados por meio da

Ao longo do capítulo, abordaremos sobre Bioinformática,

Por fim, será estudado nessa unidade sobre inovações e tendências

1. Compreender as técnicas de aprendizado de máquina.

2. Entender a gerência de dados e Computação na Nuvem.

3. Assimilar o conceito de Bioinformática.

4. Adquirir noções de inovação tecnológica e novas tendências.

Então? Preparado para adquirir conhecimento sobre um assunto

Técnicas de Aprendizado de Máquina

Neste capítulo, conceituaremos sobre o aprendizado

Abordagem de técnicas gerais de Big Data

Neste sentido, a contribuição das áreas citadas para a análise em Big

• Matemática: utiliza técnicas e fórmulas matemáticas tradicionais

• Estatística: conjunto de técnicas matemáticas que contribuem

• Métodos otimizados: referem-se a reduzir custos ou aumentar a

resolver problemas quantitativos em muitas áreas, como física,

• Data Mining: como já estudamos anteriormente em outra unidade,

• Machine Learning: conjunto de procedimentos que podem

• Redes neurais: trata-se de um paradigma de programação de

• Processamento de sinal: tem por objetivo de operar, analisar e

• Métodos de visualização: são técnicas utilizadas para elaborar

Você deve recordar das outras unidades algumas das

Assim, você pode observar no contexto geral, temos essas técnicas

Técnicas de Análises de dados

Aplicações Big Data

Fonte: Zhoua et al. (2017).

Dessa forma, abordaremos nas próximas sessões sobre técnicas de

No artigo Big Data e o aprendizado de máquina, realiza-

Na próxima seção, será explanado melhor o que é o Aprendizado

Entendendo o Aprendizado de Máquina

Vale ressaltar que o surgimento e o avançar da era Big Data

Nesse contexto, temos por outro lado os algoritmos de aprendizado

As técnicas de aprendizado de máquina possibilitam aos usuários

Conforme com Michalski et al. (2013), a área de aprendizado de

O aprendizado indutivo pode ser dividido em três tipos: aprendizado

É importante destacar que existem quatro métodos: apren-

Dessa forma, o objetivo do algoritmo é obter um modelo capaz de

Aprendizagem não supervisionada

Desta forma, exemplos agrupados podem ser atribuídos a uma

O algoritmo k-médias e o algoritmo de agrupamento hierárquico são

Técnicas de aprendizado usadas em Big Data

As técnicas de aprendizado de máquina utilizam algoritmos que,

Conforme Moura (2017) descreve, algumas técnicas de aprendizado