Você está na página 1de 57

Big Data e Ciência

de Dados
Unidade IV
Big Data, Ia E Cloud Computing
Diretor Executivo
DAVID LIRA STEPHEN BARROS
Gerente Editorial
CRISTIANE SILVEIRA CESAR DE OLIVEIRA
Projeto Gráfico
TIAGO DA ROCHA
Autoria
JÉSSICA LAISA DIAS DA SILVA
ALAN DE OLIVEIRA SANTANA
AUTORIA
Jéssica Laisa Dias da Silva
Olá, possuo graduação em Sistema da Informação pela Unifacisa
– Universidade de Ciências Sociais Aplicadas. Sou mestre em Sistema e
Computação pela UFRN-Universidade Federal de Rio Grande do Norte.
Atualmente sou doutoranda em Sistema e Computação pela UFRN-
Universidade Federal de Rio Grande do Norte e professora conteudista
elaborando cadernos.

Alan de Oliveira Santana


Olá, possuo graduação em Ciência da Computação – Universidade
do Estado do Rio Grande do Norte – e Mestre em Sistemas da Computação
– Universidade Federal do Rio Grande do Norte. Atualmente sou professor
conteudista, elaborador de cadernos de questões e doutorando em
Ciências da Computação. Como cientista, atuo no desenvolvimento e
avaliação de técnicas de desenvolvimento de sistemas com ênfase na
educação.

Desse modo, fomos convidados pela Editora Telesapiens a integrar


seu elenco de autores independentes. Estou muito satisfeito com o
convite e a possibilidade de auxiliar em seu desenvolvimento intelectual
e profissional. Bons estudos!
ICONOGRÁFICOS
Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez
que:

OBJETIVO: DEFINIÇÃO:
para o início do houver necessidade
desenvolvimento de de se apresentar um
uma nova compe- novo conceito;
tência;

NOTA: IMPORTANTE:
quando forem as observações
necessários obser- escritas tiveram que
vações ou comple- ser priorizadas para
mentações para o você;
seu conhecimento;
EXPLICANDO VOCÊ SABIA?
MELHOR: curiosidades e
algo precisa ser indagações lúdicas
melhor explicado ou sobre o tema em
detalhado; estudo, se forem
necessárias;
SAIBA MAIS: REFLITA:
textos, referências se houver a neces-
bibliográficas e links sidade de chamar a
para aprofundamen- atenção sobre algo
to do seu conheci- a ser refletido ou dis-
mento; cutido sobre;
ACESSE: RESUMINDO:
se for preciso aces- quando for preciso
sar um ou mais sites se fazer um resumo
para fazer download, acumulativo das últi-
assistir vídeos, ler mas abordagens;
textos, ouvir podcast;
ATIVIDADES: TESTANDO:
quando alguma quando o desen-
atividade de au- volvimento de uma
toaprendizagem for competência for
aplicada; concluído e questões
forem explicadas;
SUMÁRIO
Técnicas de aprendizado de máquinas..............................................12

Abordagem de Técnicas gerais de Big Data...............................................12

Entendendo de Aprendizado de Máquina ................................................................... 15

Aprendizagem supervisionada........................................................................... 17

Aprendizagem não-supervisionada............................................................... 17

Técnicas de aprendizado usado em Big Data .......................................................... 18

Análise preditiva ........................................................................................................... 19

Previsão de demanda .............................................................................................. 20

Sistemas de recomendação................................................................................ 20

Agrupamento .................................................................................................................. 21

Gerência de dados e computação na nuvem.................................. 22

Computação nas nuvens .......................................................................................................... 22

Modelo de Implantação ..........................................................................................24

Modelos de Serviço ...................................................................................................25

Computação em nuvem e Big Data ..................................................................................26

Gerenciamento de Dados de computação em nuvem.......................................29

Bioinformática................................................................................................33

Histórico da Bioinformática .....................................................................................................33


Workflow de Bioinformática................................................................................. 36

Proveniência de Dados em Bioinformática................................................37

Aplicações da Bioinformática................................................................................................. 39

Inovação tecnológica e novas tendências........................................43

Inovação Tecnológica ..................................................................................................................44

Big Social Data................................................................................................................45

Tecnologia Blockchain..............................................................................................47

Internet das Coisas..................................................................................................... 48


Big Data e Ciência de Dados 9

04
UNIDADE
10 Big Data e Ciência de Dados

INTRODUÇÃO
Nesta unidade vamos abordar sobre o aprendizado de máquina e
suas técnicas, bem como estas podem contribuir no processo de análise
de dados e tomada decisão.

As organizações usam várias técnicas e tecnologias para realizar


a manipulação, análise e visualização de Big Data. Estas técnicas
surgiram com contribuições dos campos da estatística, ciência da
computação, matemática e economia, com algumas idealizadas para lidar
especificamente com Big Data e outras foram ajustadas para trabalhar
nesse contexto.

Estudaremos ainda sobre gerência de dados por meio da


computação na nuvem, estudaremos sobre este modelo que possibilita
acesso por demanda a um agrupamento de elementos computacionais
que podem ser configuráveis, como CPU, armazenamento e memória.
Será abordado os modelos de implatanções e modelos de serviço em
nuvem.

Ao longo do capítulo, abordaremos sobre bioinformática


juntamente com seus conceitos, características, histórico e aplicações.
Também abordaremos exemplos de tecnologias que trabalham com esse
tipo de solução e ainda veremos como esta se relaciona com a ciências
dos dados e Big Data.

Por fim, será estudado nessa unidade sobre inovações e tendências


tecnológicas no campo de ciências de dados e Big Data, como também,
abordaremos os desafios futuros neste campo. Vamos lá !!
Big Data e Ciência de Dados 11

OBJETIVOS
Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no
desenvolvimento das seguintes objetivos de aprendizagem até o término
desta etapa de estudos:

1. Compreender as técnicas de aprendizado de máquina;

2. Entender a gerência de dados e computação na nuvem;

3. Assimilar o conceito de bioinformática;

4. Adquirir noções de inovação tecnológica e novas tendências.

Então? Preparado para uma viagem sem volta rumo ao conhecimento?


Ao trabalho!
12 Big Data e Ciência de Dados

Técnicas de aprendizado de máquinas

OBJETIVO:

Neste capítulo conceituaremos sobre o aprendizado de


máquina e suas técnicas, bem como estas podem contribuir
no processo de análise de dados e tomada decisão. Vamos lá!

Abordagem de Técnicas gerais de Big Data


Conforme Pai (2016), as organizações utilizam algumas técnicas
e tecnologias para realizar a manipulação, análise e visualização de
Big Data. Estas técnicas surgiram com contribuições dos campos da
estatística, ciência da computação, matemática e economia, com
algumas idealizadas para lidar especificamente com Big Data e outras
foram ajustadas para trabalhar nesse contexto.

Neste sentido, a contribuição das áreas citadas para a análise em Big


Data, precisa de técnicas multidisciplinares para processar com qualidade
o grande volume de dados no momento da execução (PAI, 2016). Abaixo
será exposto a contribuição de cada área previamente citada:

• Matemática: utiliza técnicas e fórmulas matemáticas tradicionais


com o intuito de resolver problemas relacionados a correlação de
dados.

• Estatística: conjunto de técnicas matemáticas que contribuem


com a análise e apresentação de dados. A análise estatística e
suas decisões são fundamentadas no entendimento de como o
acaso implica em certos eventos ou resultados (KALLA, 2018).

• Métodos Otimizados: estes se referem a reduzir custos ou


aumentar a eficiência da produção. Um algoritmo de otimização
é um método que é executado iterativamente fazendo um
comparativo com diversas soluções até que se encontre uma ótima
ou pelo menos, uma satisfatória (IIT Madras). Estes algoritmos são
Big Data e Ciência de Dados 13

aplicados para resolver problemas quantitativos em muitas áreas,


como física, biologia, engenharia e economia (PAI, 2016).

• Data Mining: Como já estudamos anteriormente em outra unidade,


a mineração de dados está inserida como parte do processo
de Descoberta de Conhecimento em Banco de Dado (KDD –
Knowledge Discovery in Databases), o qual, tem por objetivo a
seleção dos métodos a serem usados por busca padrões nos
dados, seguido da busca por padrões de interesse num modo
particular de representação, juntamente com o objetivo pelo
melhor ajuste dos parâmetros do algoritmo para atividades que se
deseja aplicar (TAN et al., 2005).

• Machine Learning: conjunto de procedimentos que podem


identificar de modo automático, padrões em dados e, em
consecutivo, utilizar os padrões descobertos para prever dados
futuros ou executar outros tipos de tomadas de decisão (LI et al,
2001).

• Redes Neurais: trata-se de um paradigma de programação de


inspiração biológica que permite um computador aprender a partir
de dados observacionais.

• Processamento de Sinal: tem por objetivo operar, analisar, e


deduzir de um sinal, dados que possam ser extraídos de forma útil.

• Métodos de Visualização: são técnicas utilizadas para elaborar


tabelas, imagens, diagramas e outras formas de disponibilização
de modo intuitivo para entender os dados.

REFLITA:

Algumas dessas técnicas acima você deve recordar das


outras unidades, porém nesta fazemos um reflexão delas
alinhadas ao Big Data. É muito importante que o profissional
de TI trabalhe com técnicas como: data mining, redes
neurais, aprendizado de máquina principalmente os
profissionais de ciências de dados deve estar atento a
essas habilidades.
14 Big Data e Ciência de Dados

Assim, você pode observar no contexto geral, temos essas técnicas


sendo utilizadas para as mais diversas aplicações, como já estudamos
no contexto de Big Data, destacadas na figura 1 abaixo, como a área da
Computação Social relacionada com as interações em mídias sociais na
internet, Bioinformática, Finanças e na Astronomia, o qual, são alguns
exemplos apresentados abaixo.
Figura 1: Ferramentas, técnicas e aplicação
Ferramentas Matemáticas

Matemática Métodos
Estáticas
Fundamental otimizados

Técnicas de Análises de dados

Data Minig

Aprendizado
Redes Neurais
de Maquina

Processamento Método de
de sinal Visualização

Aplicações Big Data

Computação
Binformática Astronomia Financeira
social

Fonte: Zhoua et al. (2017).


Big Data e Ciência de Dados 15

Dessa forma, abordaremos nas próximas sessões sobre técnicas de


Aprendizado de Máquina e como elas podem contribuir no contexto de
Big Data.

SAIBA MAIS:

“Big Data e o aprendizado de máquina”, pelo qual, realiza-


se uma abordagem geral sobre como o aprendizado
de máquina pode ser utilizado e como traz valor para as
aplicações de Big Data. Clique aqui para acessar.

Na próxima sessão será explanado melhor o que é o Aprendizado


de Máquina e as técnicas mais usadas no contexto de Big Data.

Entendendo de Aprendizado de Máquina


Conforme Zhou et al (2017), as técnicas de Machine Learning
(Aprendizado de Máquina) promovem grandes impactos em uma
variedade de aplicações na computação, tais como: processamento,
compreensão de linguagem natural, neurociência e Internet das Coisas.

Vale ressaltar que o surgimento e o avançar da era Big Data


estimulou amplos interesses no Aprendizado de Máquina. Dessa forma,
temos o Big Data produzindo informações importantes e utilizando
algoritmos de Aprendizado de Máquina, onde, através destes, podemos
extrair padrões e criar modelos preditivos.

Nesse contexto, temos por outro lado os algoritmos de Aprendizado


de Máquina clássicos que tiveram que passar por impactos críticos para
atender as necessidades, gerando a necessidade de escalabilidade para
o Aprendizado de Máquina poder crescer e trazer aperfeiçoamento nas
técnicas para trabalhar com os grandes volumes de dados (GANTZ, 2012).

As técnicas de aprendizado de máquina possibilitam aos usuários a


realização de previsões através de grandes volumes de dados. Esses por
sua vez, ajudam o desenvolver através de algoritmos eficientes, o qual,
está sendo responsáveis por fornecer um grande potencial e ser uma
parte essencial da análise de Big Data (GANTZ, 2012).
16 Big Data e Ciência de Dados

Conforme com Michalski et al. (2013), a área da Aprendizado de


Máquina (AM) fornece o desenvolvimento de técnicas computacionais
que modificam os aspectos de seu comportamento na forma em que a
experiência é adquirida.
Figura 2: Aprendizado de Máquina

Fonte: Freepik

O aprendizado indutivo pode ser dividido em três tipos: aprendizado


supervisionado, aprendizado não supervisionado e aprendizado semi-
supervisionado. Desta forma, a classificação está relacionada com os
métodos adotados no processo de generalização do conhecimento
(MONARD; BARANAUSKAS, 2003).

IMPORTANTE:

É importante destacar que existem quatro métodos: apren-


dizado supervisionado, aprendizado não supervisionado,
aprendizado semi-supervisionado e aprendizado por re-
forço, porém, destacamos apenas os três mais usados, o
aprendizado supervisionado e o aprendizado não supervi-
sionado (MOURA, 2017).
Big Data e Ciência de Dados 17

Na próxima seção é apresentado os dois tipos de aprendizagem


mais utilizados.

Aprendizagem supervisionada
Aprendizagem supervisionado são direcionadas quando se é
aplicada técnicas onde algoritmos indutores podem realizar inferências
através de exemplos rotulados, ou seja, cada exemplo observado é
descrito por um conjunto de atributos e pelo valor da classe, também
chamado de atributo meta, à qual, o exemplo pertence (RUSSELL;
NORVIG, 2003).

Dessa forma, o objetivo do algoritmo é obter um modelo capaz de


classificar exemplos não rotulados recebidos como entrada. Um exemplo
seria um caso de aprendizagem onde se consegue prever se uma
transação do cartão de crédito de certo indivíduo é falsa ou não.

Aprendizagem não-supervisionada
Aprendizagem não-supervisionada se refere ao algoritmo indutor
não possuir a informação sobre a classe à qual pertence. O intuito na
aprendizagem não supervisionada é buscar similaridades ou diferenças
no conjunto de valores dos atributos dos exemplos que possibilitam a
elaboração de agrupamentos ou clusters.

Desta forma, exemplos agrupados podem ser atribuídos a uma


mesma classe, enquanto exemplos dispersos estão mais propensos a
pertencer a classes distintas (RUSSELL; NORVIG, 2003).

O algoritmo k-médias e o algoritmo de agrupamento hierárquico, são


exemplos de técnicas de aprendizado não supervisionado. Um exemplo
deste tipo pode ser a classificação de indivíduo que tenham predisposição
em adquirir diabetes através da avaliação de sua alimentação e rotina.
Entretanto, não é informado quais pessoas realmente tem ou não diabetes.
18 Big Data e Ciência de Dados

Técnicas de aprendizado usado em Big Data


É importante frisar que depois que se tem um conjunto de dados
estruturados, o passo seguinte no processo de aprendizado é a aplicação
de um método de aprendizagem.

As técnicas de Aprendizado de Máquina utilizam algoritmos que,


por sua vez, realizam o trabalho computacional e todo o processamento
dos dados (MOURA, 2017).

Conforme Moura (2017) descreve, algumas técnicas de Aprendizado


de Máquina são:

• Redes Neurais: existem vários tipos de Redes Neurais, mas em


suma, elas consistem em um conjunto de nós, também chamados
de neurônios, disponíveis em várias camadas com interconexões
ponderadas entre eles, de modo que o neurônio trata um conjunto
de valores de entrada para gerar um valor de saída que por sua
vez, é passado para outros neurônios nas camadas seguintes.

• Árvore de Decisão: essa técnica usa algoritmos em formato de


árvore, ou seja, uma raiz com galhos que levam até folhas. Cada
árvore contém nós, ramos, folhas e ligações entre eles, de forma
que um ramo é um conjunto de nós que testam cada atributo
da classificação e cada ramo referente ao valor do atributo. Já
as folhas fazem a classificação para os ramos. A classificação é o
resultado final que se quer encontrar ou prever com o algoritmo.

• Regressão: é uma técnica usada quando se deseja prever valores


de algo futuro, fundamentando-se em comportamento de
variáveis passadas. A análise da regressão pode ser usada como
um procedimento descritivo da análise de dados com diversos
objetivos, como: descrever a relação entre variáveis para entender
um método, prever o valor de uma variável através do valor
das outras variáveis, substituir a medição de uma variável pela
observação dos valores de outras variáveis e controlar os valores
de uma variável em uma faixa de interesse (ROZA, 2016). Um
Big Data e Ciência de Dados 19

exemplo seria prever o valor de mercado de um imóvel utilizando


um algoritmo de regressão linear.
Figura 3: Big Data e Aprendizado de Máquina

Fonte: Freepik

Dessa forma, nas próximas sessões destacaremos algumas técnicas


combinadas com Aprendizado de Máquina e descreveremos como elas
podem trabalhar juntas.

Análise preditiva
Essa é uma das técnicas mais usadas nas aplicações de Big Data
para realizar previsão, uma vez que essa análise consiste no uso de dados
e técnicas de Aprendizado de Máquina para determinar a probabilidade
de futuros resultados com base nas informações adquiridas no passado.

Um exemplo muito conhecido de Big Data e Aprendizado de


Máquina trabalhando em conjunto, foi caso da Target, segunda maior rede
de varejo dos EUA.

A empresa conseguiu identificar um padrão de itens que suas


clientes consumiam quando estavam grávidas, onde, desde hidratantes,
até suplementos, a marca ainda detectou as consumidoras que seriam
mães, oferecendo produtos específicos e até desconto.
20 Big Data e Ciência de Dados

Previsão de demanda
Uma boa previsão de demanda ajuda qualquer empresa a vender
mais nas épocas de pico, assim como a evitar prejuízos e desperdícios em
períodos de baixa.

Porém, nem sempre é fácil fazer uma projeção da procura pelos


produtos da marca. Para que essas previsões sejam corretas, é necessário
contar com um grande volume de dados e com o aprendizado a partir do
histórico da própria empresa e do mercado.

Justamente por isso, a combinação de Big Data e Machine Learning,


é extremamente útil para trazer confiança e clareza às decisões de
negócios.

Com base no processamento de dados, uma companhia pode


realizar antecipações de demandas considerando diversos fatores
financeiros, econômicos e mercadológicos.

Um exemplo de marca que apostou nessa estratégia foi a Nestlé,


maior empresa de alimentos e bebidas do mundo, ao utilizar as tecnologias
em questão, a companhia conseguiu melhorar em 9% a acuracidade da
sua previsão de demanda (SONDA, 2020).

Sistemas de recomendação
Essa técnica trabalha do seguinte modo: após ter os dados coletados
e analisados por meio da combinação das técnicas de Aprendizado de
Máquina e Big Data, é possível realizar recomendações a partir de um
conjunto de dados coletados.

Você pode perceber no seu contidiano que Sites como Amazon e


a plataforma da Netflix, utilizam desses recursos para recomendar seus
recursos personalizados aos seus usuários, de forma que os sistemas
fazem sugestões ao usuário, aperfeiçoando a experiência e melhorando
o engajamento.

Conforme Taurion (2013) destaca, a utilização de interfaces de voz


com o usuário perguntando e o computador respondendo em viva voz,
é um exemplo de sucesso, com o muito conhecido Siri da Apple, pelo
Big Data e Ciência de Dados 21

qual, é um aplicativo que usa o processamento de linguagem natural para


responder perguntas, fazer recomendações e executar várias ações.

Agrupamento
Outra técnica que pode podemos destacar é o Clustergram, utilizada
para visualizar análises de clusters (cluster analysis) ou agrupamentos,
onde se combina as técnicas de Aprendizado de Máquina e Big Data para
realizar análise de agrupamentos que fazem a classificação de objetos em
diversos grupos, cada um dos quais, contendo os objetos semelhantes
segundo alguma função de distância estatística.

Esta classificação deve ser feita de modo automática, sem


intervenção do usuário, sem características dos grupos e sem a utilização
de grupos de teste previamente conhecidos para direcionar a classificação
(TAURION, 2013)

RESUMINDO:

Chegamos ao final da unidade, pela qual estudamos como


a análise do Big Data precisa de técnicas multidisciplinares
para processar com qualidade o grande volume de dados no
momento da execução. Descrevemos como o surgimento e
o avanço das aplicações de Big Data estimularam o amplo
interesse no Aprendizado de Máquina, o que acarretou no
fato de Big Data produzir informações importantes e utilizar
algoritmos de Aprendizado de Máquina, onde através
destes, pode-se extrair padrões e criar modelos preditivos.
Estudamos ainda como o Aprendizado de Máquina fornece o
desenvolvimento de técnicas computacionais que modificam
os aspectos de seu comportamento na forma em que a
experiência é adquirida. Destacamos dois os tipos mais
utilizados e o descrevemos, especialmente, os ligando ao
aprendizado supervisionada e não supervisionada. Por fim,
foi descrito algumas técnicas e alguns exemplos de como
combinar as técnicas de Aprendizado de Máquinas e Big Data,
pode contribuir em aplicações, o qual, exemplos de empresas
como Netflix, Amazon, e varejista de mercado, ganharam
muitas vantagens devido associarem esses recursos.
22 Big Data e Ciência de Dados

Gerência de dados e computação na nuvem

OBJETIVO:

Como já é do nosso contidiano utilizarmos os recursos de


computação em nuvem para “guardar” nossas aplicações,
arquivos e trabalhos que ficam disponíveis nela. Agora
nesta unidade vamos nos deter a estudar mais afinco este
recurso tecnólogico.
Neste capítulo iremos estudar sobre a gerência de dados por
meio da computação na nuvem e como esta se relaciona
com as aplicações em Big Data. Prontos? Vamos lá!!

Computação nas nuvens


A computação em nuvem pode ser conceituada como um modelo
que possibilita acesso por demanda a um agrupamento de elementos
computacionais que podem ser configuráveis, como CPU, armazenamento
e memória. Estes, por sua vez, podem ser disponibilizados de modo rápido
com o mínimo esforço de gerenciamento ou assistência do provedor da
nuvem (MELL; GRANCE, 2009).
Figura 4: Computação em nuvem

Fonte: Pixabay
Big Data e Ciência de Dados 23

Podemos destacar a importância que a computação em nuvem traz


para as empresas abaixo, como exposto por SAVARESE NETO (2019):

• Redução de custos: tem um custo minimizado com aquisição


de hardware e com mão de obra para instalar e dar suporte a
softwares, sistemas e servidores, como também, o ganho de custo
reduzido com relação à economia de energia com os dispositivos
funcionando e de espaço físico nas empresas.

• Flexibilidade: um ganho nesse aspecto relaciona-se ao fato


de explorar novos meios de organizar a equipe, permitindo, por
exemplo, o home office.

• Escalabilidade: neste quesito a um ganho relacionado aos


gestores de TI, pois não necessitam decidir o que será preciso
para contratar os serviços e evita o risco de não utilizar recursos
desnecessário ou necessitar ter que obter um aumento da estrutura
em curto espaço de tempo. Com a computação em nuvem, existe
a possibilidade de adquirir maior capacidade de armazenamento
e de processo de modo automático.

• Desempenho: com relação ao desempenho, obtém-se uma


vantagem com relação aos data centers que contém as principais
soluções da computação em nuvem, onde sempre estão sendo
atualizados, permitindo assim a garantia de sempre utilizar a
melhor tecnologia para a experiência dos usuários.

Assim, podemos entender que a computação em nuvem está


sendo um recurso muito importante para a indústria, principalmente para
as de tecnologias.

A nuvem é uma metáfora para a internet ou infraestrutura de


comunicação entre os elementos arquiteturais, fundamentado em uma
abstração que esconde à complexidade de infraestrutura (BUYYA et al. 2009).

Desta maneira, parte dessa infraestrutura é tida como um serviço e


estes são geralmente alocados em centros de dados, usando hardwares
compartilhados para computação e armazenamento (BUYYA et al. 2009).
24 Big Data e Ciência de Dados

IMPORTANTE:

É importante destacar que existem algumas propriedades


básicas que diferem a computação em nuvem dos
sistemas distribuídos tradicionais (e.g. sistemas em grade,
clusters, P2P, etc) e estão relacionadas ao seu caráter
atrativo: autosserviço sob demanda, elasticidade rápida,
pagamento conforme o serviço usado (Pay-as-you-go),
nível de qualidade de serviço (SLA), agrupamento ou
Pooling de recursos.

Na próxima sessão está apresentado os modelos de implantação


da computação nuvem.

Modelo de Implantação
É importante descrever que o acesso e disponibilidade aos
ambientes de computação em nuvem, apresentam diferentes tipos de
modelos de implantação. Algumas exceções ou aberturas de acesso
dependem do tipo de informação e do nível de visão.

Essas particularidades e outras se dão porque as empresas requerem


permissões diferentes aos seus usuários para que possam acessar e
utilizar determinados recursos em seus ambientes de computação em
nuvem.

Assim, temos os seguintes modelos de implantação da computação


em nuvem, podendo estes serem divididos em nuvem pública, privada,
comunidade e híbrida (MELL; GRANCE, 2009).

Segue abaixo a descrição de cada um conforme Machado et al. (2009):

• Nuvem Privada:

Nesse modelo de implantação de nuvem privada, a infraestrutura


de nuvem é usada de forma particular na organização, de modo que, esta
nuvem local ou remota, pode ser administrada pela própria empresa ou
por terceiros. Este modelo trata a implantação de determinadas políticas
de acesso aos serviços. As técnicas usadas por fornecer tais características
Big Data e Ciência de Dados 25

podem ser em nível de gerenciamento de redes, configurações dos


provedores de serviços e usada tecnologias de autenticação e autorização.

• Nuvem Pública:

Nesse modelo de implantação de nuvem pública, a infraestrutura


de nuvens é disponível para o público em geral, podendo ser acessada
por qualquer usuário que conheça a localização do serviço, assim,
entendemos este modelo de implantação como não existindo restrições
de acesso quanto ao gerenciamento de redes, e menos ainda, usando
técnicas para autenticação e autorização.

• Nuvem Comunidade:

Nesse modelo de implantação de nuvem comunidade, acontece


o compartilhamento por várias empresas de uma nuvem, sendo
está mantida por uma comunidade específica que compartilha seus
interesses, bem como, os requisitos de segurança, política e requisitos
sobre flexibilidade. Vale ressaltar que este tipo de modelo de implantação
pode existir localmente ou remotamente e geralmente é administrado por
alguma empresa da comunidade ou por terceiros.

• Nuvem Híbrida:

Nesse modelo de implantação de nuvem híbrida, há como


componente duas ou mais nuvens que podem ser privadas, comunidade
ou pública, permanecendo como entidades únicas e ligadas por uma
tecnologia padronizada ou proprietária que possibilita a portabilidade de
dados e aplicações.

Na proxima sessão estudaremos sobre os modelos de serviços


oferecidos pela computação em nuvem.

Modelos de Serviço
Outro aspecto importante para destacar na computação em
nuvem, são os modelos de serviços que ajudam a atender às demandas
de serviços conforme os padrões e características, assim, criou-se uma
série de modelos de serviço de Cloud. Os principais modelos segundo
Pedroso (2014) são:
26 Big Data e Ciência de Dados

• SaaS (Software como Serviço): esse modelo trata da capacidade


de disponibilizar aplicações ao usuário final. A principal contribuição
é a abstração de tudo que está por trás da execução da aplicação
para usuário, assim, o custo desse é minimizado e não existe a
necessidade de saber e interagir com a tecnologia e infraestrutura.
Como exemplos que utilizam os serviços do modelo, temos a
Customer Relationship Management (CRM) da Salesforce e o
Google Docs;

• PaaS (Plataforma como Serviço): esse modelo trata a camada


que possibilita usar recursos da nuvem com pouca necessidade
de intervenção na infraestrutura de TI. A ênfase está no
desenvolvimento de aplicações importantes ao negócio, sem
necessidade em dar suporte a toda infraestrutura do ambiente.
Exemplos desse modelo são o Google App Engine e Microsoft
Azure;

• IaaS (Infraestrutura como Serviço): esse modelo trata de prover


os recursos computacionais básicos, como o hardware para
processamento e armazenamento e deixando os detalhes de
responsabilidade do contratante a administração do ambiente de
software. Exemplos desse modelo são o Amazon Elastic Cloud
Computing (EC2) e o Eucalyptus.

Computação em nuvem e Big Data


No contexto para melhorar o gerenciamento e minimizar os custos,
as aplicações de Big Data têm usado ambientes de Cloud Computing ou
Computação em Nuvem (AGRAWAL et al., 2011).

Estes ambientes possibilitam que as empresas e pessoas


aluguem capacidade de computação e armazenamento sob demanda
e com pagamento com base na utilização, em vez de fazerem grandes
investimentos de capital necessários para a construção e instalação de
equipamentos de computação em larga escala (SOUSA et al., 2010).
Big Data e Ciência de Dados 27

Além do que, a Computação em Nuvem disponibiliza ambientes


com ampla capacidade de armazenamento, escalabilidade, elásticos,
com alto desempenho e elevada disponibilidade.

Dessa forma, a nuvem permite ser uma opção mais viável para a
idealização de aplicações de gestão e análise de grandes massas de
dados (AGRAWAL et al., 2011)

Cada dia mais as empresas e consumidores estão buscando na


Nuvem um meio mais prático para gerenciar seus dados, uma vez que ela
possibilita o acesso rápido e sempre disponível aos dados, mesmo com
proporção de que um maior número de dispositivos com amplos níveis de
inteligência esteja conectado a diversas redes DURBANO (2020).

Desse modo, o consumidor deixa de se importar com a capacidade


de armazenamento dos dispositivos e acabam utilizando mais da
computação em Nuvem (REINSEL, 2018).
Figura 5: Computação em nuvem e Big Data

Fonte: Pixabay

Conforme Hashem (2013), a computação em nuvem e Big Data


estão correlacionadas. O Big Data oferece aos usuários a capacidade de
utilizar computação para processar e analisar uma massa de dados em
tempo rápido e a infraestrutura de computação em nuvem pode contribuir
28 Big Data e Ciência de Dados

como uma plataforma eficiente para trabalhar com o armazenamento de


dados precisos por fazer análise de Big Data.

Por conseguinte, o desenvolvimento da computação em nuvem


oferece soluções para o armazenamento e processamento de Big Data,
o qual, o surgimento de Big Data também foi responsável por acelerar o
desenvolvimento da computação em nuvem (CHEN, 2016).

Entretanto, conforme Taurion (2013) afirma os custos da computação


em nuvem são minimizados devido a utilização de servidores virtuais,
entretanto, estes podem gerar um aumento de custo com relação a
grande massa de dados por redes de comunicação e para o provedor da
nuvem.

SAIBA MAIS:

Saiba sobre a computação em nuvem usada nas aplicações


de Big Data neste artigo, intitulado: “Como usufruir do seu
Big Data com a computação em nuvem”.
Clique aqui para acessar.

Podemos ainda destacar um exemplo interessante de uso de


Big Data em nuvem, o Etsy, um site de e-commerce especializado em
produtos de artesanato e artigos de época que contém mais de onze
milhões de usuários, resultando em 25 milhões de visitantes únicos e 1,1
bilhões de page views por mês.

Atualmente o Etsy captura mais de 5GB de dados por dia, dessa


forma, a grande massa de dados é analisada em uma nuvem pública para
gerar um analise melhor do comportamento dos seus clientes e realizar
análises preditivas (TAURION, 2013).

Dessa forma, o Etsy tem conseguindo definir quais os produtos que


melhor se adequam e as preferências de um determinado cliente. Assim,
não é necessário instalar grandes servidores para realizar esta análise,
uma vez que a Etsy utiliza a nuvem e paga apenas pelo tempo utilizado
para realizar a tarefa (TAURION, 2013).
Big Data e Ciência de Dados 29

Ainda temos empresas como Amazon, Microsoft, Google, entre


outras tantas que fazem uso desses recursos de computação e nuvem
e Big Data.

Gerenciamento de Dados de computação


em nuvem
Temos que destacar o fator do gerenciamento de dados ser
considerado um ponto crítico no aspecto de computação em nuvem
devido os SGBDs relacionais não possuírem escalabilidade quando
milhares de sítios são considerados (WEI et al., 2009).

Dessa forma, elementos de armazenamento de dados,


processamento de consultas e gerência transacional, tem se tornado mais
flexíveis para algumas abordagens, de modo a garantir a escalabilidade,
porém, ainda não há soluções que juntem estes elementos de modo a
melhorar o desempenho sem implicar a consistência dos dados (ABADI,
2009).

Nesse contexto, diversas abordagens surgem para gerenciar dados


em nuvens, dentre as quais podemos citar o Microsoft Azure e HBase
(BRANTNER et al., 2008).

Um ponto importante é o trade-off entre às funções e custos


operacionais enfrentados pelos provedores de serviços, o qual, destaca-
se os serviços em nuvem para dados que disponibilizam APIs que
contém mais restrições do que os SGBD relacionais, com uma linguagem
minimalista de consulta e promovendo a garantia de consistência limitada
(ABOUZEID et al., 2009).

Por conseguinte, temos a exigência e a necessidade de maior


esforço de programação dos desenvolvedores, todavia, possibilita aos
provedores idealizarem serviços mais previsíveis.

Segundo Armbrust et al. (2009), a construção de um sistema de


armazenamento que junta os vários recursos de computação em nuvem
de modo a ampliar a escalabilidade, a disponibilidade e consistência dos
dados, é um problema de campo aberto para estudos e pesquisa.
30 Big Data e Ciência de Dados

Assim, temos os SGBDs em nuvem que surgiram para serem usados


como atrativo para chamar clientes de vários setores do mercado, desde
pequenas empresas com o intuito de minimizar o custo total, através da
utilização de infraestrutura e sistemas de terceiros, como até grandes
empresas que sempre buscam soluções para gerenciar suas grandes
quantidades de máquinas e possibilitar o atendimento de um aumento
inesperado de tráfego (ABADI, 2009).
Figura 6: Banco de Dados e Infraestrutura

Fonte: Pixabay

A infraestrutura de SGBDs em nuvem possui várias vantagens para


os usuários. A seguir temos algumas dessas vantagens conforme Curino
et al. (2010):

• Previsibilidade e custos reduzidos proporcionais à qualidade do


serviço (QoS) e cargas de trabalho em tempo real.

• Complexidade técnica minimizada devido às interfaces de acesso


unificadas e a delegação de tuning, bem como, a administração
de SGBDs.

• Elasticidade e escalabilidade, permitindo a percepção de recursos


quase infinitos, como ainda, o provedor tem que possibilitar a
garantia da ilusão de recursos infinitos por meio de cargas de
Big Data e Ciência de Dados 31

trabalho dinâmicas e reduzir os custos operacionais relacionadas


a cada usuário.

Contudo, existem vários sistemas e arquiteturas que estão sendo


implementados para atender as novas demandas de aplicações com
variados requisitos de processamento e armazenamento (ABOUZEID et
al., 2009).

Estes novos sistemas tentam fornecer uma visão de armazenamento


e escalabilidade infinitos, mas devem tratar o problema de provisionar
recursos.

Esse problema, que em SGBDs tradicionais contém em definir quais


recursos são alocados para um único banco de dados, no contexto de
ambiente em nuvem, torna-se um problema de otimização quando se
tem uma grande quantidade de usuários, múltiplos SGBDs em nuvem e
grandes centros de dados (ABOUZEID et al., 2009).

Dessa forma, os SGBDs em nuvem oferecem uma oportunidade


para explorar a economia em escala, gerando balanceamento dinâmico
de carga e gerenciamento da economia em escala (ABOUZEID et al.,
2009).
32 Big Data e Ciência de Dados

RESUMINDO:

Neste capítulo para entender o gerenciamento de


computação em nuvem, abordamos primeiro um pouco
mais sobre o entendimento deste recurso, tendo em vista
que a computação em nuvem é muito importante para
a indústria principalmente para as áreas de tecnologia.
O termo nuvem é uma metáfora para a Internet ou
infraestrutura de comunicação entre os elementos
arquiteturais, fundamentado em uma abstração que
esconde à complexidade de infraestrutura. Estudamos
sobre como descrever o acesso e disponibilidade aos
ambientes de computação em nuvem, apresentando
os diferentes tipos de modelos de implantação, o qual
são: nuvem pública, privada, comunidade e híbrida. Logo
após, estudarmos sobre os modelos de serviços e assim,
a partir do entendimento desses conceitos, podemos
compreender melhor sobre o gerenciamento de dados
em nuvem, os pontos críticos dessa infraestrutura. Vimos
ainda o surgimento dos SGBDs em nuvem que são usados
como atrativo para clientes de vários setores do mercado,
desde de pequenas a grandes empresas com o intuito de
minimizar o custo. Por fim, apresentamos o uso combinado
de Big Data e computação nuvem trazendo a importância
destes paras as diversas aplicações existentes e para as
empresas.
Big Data e Ciência de Dados 33

Bioinformática

OBJETIVO:

Neste capítulo estudaremos sobre o que se trata a bioin-


formática juntamente com seus conceitos, características,
histórico e aplicações. Também abordaremos exemplos
de tecnologias que trabalham com esse tipo de solução e
ainda veremos como este se relaciona com a ciências dos
dados e Big Data. Vamos lá!!

Histórico da Bioinformática
Ao longo do tempo, a biologia molecular cresceu exponencialmente.
Isso se deve pelo fato do aperfeiçoamento da automação na produção
de dados de sequências de genótipos para fenótipos, tornando-se muito
mais uma ciência de informação.

Contudo, conforme Camargo Filho et al. (2002), esse aumento


no volume de sequências genéticas a serem armazenadas, passou a
precisar de algoritmos computacionais eficientes que fornecessem o
compartilhamento, análise e armazenamento desses dados.
Figura 7: Os avanços na Biologia

Fonte: Pixabay
34 Big Data e Ciência de Dados

De acordo com Edwards et al. (2009), o mais interessante para


os cientistas enfatizarem é o quesito da análise desses dados estarem
associados a qualidade das sequências e suas anotações suportadas nos
bancos de dados públicos.

Deste modo, surgiu a bioinformática como um novo campo de


estudos e trabalho que oferece um meio de conexão entre os dados
biológicos e as hipóteses científicas indagadas nas pesquisas ligadas, por
exemplo, ao fluxo da informação gênica.

Temos a bioinformática sendo uma área multidisciplinar envolvendo


as áreas de engenharia de softwares, matemática, estatística, ciência
da computação e a biologia molecular, o qual, necessita de sistemas
computacionais robustos, bem como, profissionais qualificados e
especializados (CAMARGO FILHO et al., 2002).

Lorenzoni (2019) Descreve algumas funções da bioinformática,


apresentadas abaixo:

• A implementação de novos algoritmos e estatísticas;

• Análise e interpretação de diversos tipos de dados biológicos;

• Desenvolvimento e idealização de ferramentas que possibilitem o


acesso e gerenciamento eficazes de variados tipos de informações.

Essas funções da bioinformática, tem como intuito, de modo


sucinto, a realização de trabalhos nas seguintes campos de acordo com
Lorenzoni (2019):

• Análise de sequência incluindo o alinhamento de sequência,


pesquisa em banco de dados, a busca de motivos e padrões,
descoberta de genes e promotores, reconstruir as relações
evolutivas e montagem e comparação de genoma.

• Análises estruturais incluindo comparação, classificação, previsão


de proteínas e estruturas de ácidos nucleicos.

• Análise funcional que incluem o perfil de expressão gênica,


previsão de interação proteína-proteína, prever a localização sub-
celular, reconstruir e simular as vias metabólicas.
Big Data e Ciência de Dados 35

Abaixo temos a figura 8, representando a visão geral com os objetos


de estudo relacionados à bioinformática.
Figura 8: Representação de algumas das principais áreas da Bioinformática

Alinhamento
de sequência

Dinâmica Biologia de
molecular sistemas

Abordagem
computacional
Atrocamento Modelagem
para os
molecular comparativa
sistemas
biólogicos

Modelagem ab
FIlogênia
inito

Predição
de função
génetica

Fonte: Adaptado de Verli (2014)

De modo geral, podemos destacar, por meio da representação


acima que os objetos de estudo relacionados a bioinformática são vários
e sequências de biomoléculas, o qual, incluem: comparações entre
sequências (alinhamento); identificação de padrões em sequências
(assinaturas); caracterização de relações evolutivas (filogenia); construção
e anotação de genomas; construção de redes (biologia de sistemas);
obtenção de modelos 3D para proteínas e outras biomoléculas (por
exemplo, modelagem comparativa); identificação do modo de interação
de moléculas (atracamento); seleção de compostos com maior potencial
de inibição (atracamento); caracterização da flexibilidade molecular
(dinâmica molecular); avaliação do efeito de mudanças na estrutura e
36 Big Data e Ciência de Dados

ambiente molecular na dinâmica e função de biomoléculas (dinâmica


molecular). (LORENZONI, 2019)

SAIBA MAIS:

Saiba sobre Bioinformática neste artigo intitulado:


“Bioinformática: descubra o que é e como essa ciência vem
crescendo a cada dia”. Clique aqui para acessar.

Este artigo traz algumas aplicações que usam bioinformática, como:


armazenamento, processamento de sequências biológicas, manipulação
e organização de bases de dados biológicas; modelação de processos
metabólicos e regulatórios de tecidos de celulares de organismos e ao
nível celular modelação e simulação de processos biológicos.

Nessa próxima sessão será apresentada outras características de


bioinformática como workflow.

Workflow de Bioinformática
Um workflow científico pode ser conceituado como uma
especificação formal de um processo científico que representa as etapas
a serem executados em algum experimento (DEELMAN et al., 2009).

Essas etapas ou atividades podem ser programas ou sistemas


que concebem a automatização a um processo, otimizando ao modo de
trabalho.

Várias áreas da Biologia Molecular usam workflows em seus


experimentos científicos (BOEKEL et al., 2015), nos quais, usualmente
são processados dados originados de projetos ligados ao genoma,
transcriptoma, metaboloma, entre outros, de modo que, cada execução
de um workflow científico de Bioinformática pode produzir um grande
massa de dados, os quais, devem ser armazenados para execuções
novas análises ou confirmações de resultados.

Podemos destacar que um dos problemas ao qual a Bioinformática é


focada, é a montagem de fragmentos de DNA, de modo que os fragmentos
Big Data e Ciência de Dados 37

de DNA são originados do sequenciamento de alto desempenho e são


chamados reads.

Entende-se as reads como strings de um alfabeto que representa


o DNA ou o RNA. Por meio dos alinhamentos das reads, a montagem
consegue sequências contíguas (contigs) que representam o DNA original
da amostra (ZERBINO, 2008).

Por conseguinte, a montagem de fragmentos pode utilizar um


genoma de referência, neste caso, as reads são alinhadas contra um
genoma de organismo filogeneticamente próximo ao organismo do qual
provêm as reads.

Por outro lado, a montagem sem um genoma de referência é


chamada de montagem de novo (BLEIDORN, 2017).

IMPORTANTE:

Vale ressaltar que os experimentos científicos da


Bioinformática geralmente são representados como
workflows científicos que são usados especialmente em
projetos do genoma e transcriptoma em experimentos que
englobam análise de sequenciamento de DNA e/ou RNA,
como a montagem de fragmentos.

Segundo Saldanha (2012), as análises são precisas pois os fragmentos


criados pelos sequenciadores automáticos devem fazer a verificação da
sua qualidade, verificando se estão ajuntados e se os fragmentos forem
muito pequenos ou ter identificadas suas funções biológicas, dentre
outras. Essas análises podem ser feitas em várias etapas e em diferentes
ferramentas que compõem os workflows.

Proveniência de Dados em Bioinformática


Já vimos que a Bioinformática é multidisciplinar e que contém a uti-
lização intensa de ferramentas computacionais. Conforme Mattos et al.
(2008), esta ciência tem como intuito a coleta, organização, armazena-
mento, recuperação e a análise de dados biológicos, promovendo assim
38 Big Data e Ciência de Dados

a inferência ou busca de informações sobre a biologia e/ou evolução dos


organismos.

Vale destacar que a Bioinformática e seus experimentos, podem


ser efetuados por várias fases, sendo executado em programas com
configurações específicas e parâmetros por equipes variadas e que
processam uma grande massa de dados.

Segundo de Paula (2012), oferecer a proveniência de dados em


projetos de Bioinformática, exige uma solução que possibilite armazenar a
ligação entre os dados processados, combinando-os com as informações
das execuções de cada processo e de seus resultados.

A definição tratada por Buneman et al. (2001) apresenta o termo


proveniência como “linhagem” ou “pedigree” que se refere o histórico de
como aquele dado foi criado ou derivado. Isto implica em relatar que o
significado de proveniência é a origem ou procedência.

De acordo com Almeida (2015), a proveniência de dados vem


se tornando cada vez mais presente no ambiente científico, tanto para
oferecer a garantia da origem dos dados, como para realiza avaliação e a
sua acurácia.
Figura 9: Dados biológicos

Fonte: Pixabay

Segundo de Paula (2012), a proveniência possibilita que os cientistas


estudem com mais detalhes em seus experimentos e, sempre que
necessário, possam refazê-los de um modo mais estruturado e controlada.
Big Data e Ciência de Dados 39

A utilidade da proveniência de dados vai além da reprodução de


experimentos, pois a procedência tem um grande utilidade ao fornecer
aos cientistas, uma variedade de aplicações de análise de dados,
possibilitando, por exemplo, a verificação e a qualidade dos dados oriundas
por meio da análise de suas referências ancestrais e determinando a
confiabilidade dos estudos (MARINHO et al., 2009).

Conforme Goble (2002) relata, algumas funcionalidades da


proveniência de dados, são:

• Qualidade dos Dados: por meio do histórico de todo processo de


elaborar dados ou execução do experimento de quem o originou,
que base de dados veio, em que o dado foi armazenado e entre
outros, fazendo a estimativa do grau de qualidade e confiabilidade
pelo qual o dado foi utilizado;

• Controle de replicação: a proveniência detalhada possibilita


que um dado ou experimento possam ser replicados através dos
mesmos métodos, mesmas ferramentas e parâmetros;

• Propriedade e segurança: é contido um controle rigoroso sobre


o dono do experimento e todos seus dados, tanto para fins de
direitos autorais e citações, como também para responsabilidades
caso os dados possam estar errados;

• Informacional: informações relevantes para a pesquisa são ex-


traídas na proveniência, como: o autor, membros da equipe, local
e etc., pelo qual, oferecem uma certa importância para a interpre-
tação dos dados.

Aplicações da Bioinformática
Assim, podemos destacar no campo da bioinformática algumas
aplicações e suas contribuições, o qual, estão descritas conforme
Lorenzoni (2019):

• Aplicada na área agrícola: a bioinformática vem sendo adotada


em pesquisas agrícolas por conta do seu grande volume de dados
inerentes as diferentes culturas. Essa técnica possibilita uma análise
40 Big Data e Ciência de Dados

mais completa dos dados, contribuindo com o entendimento dos


pesquisadores.

Ao associar os recursos genéticos vegetais com a bioinformática,


é possível obter ganhos nos mais diversos programas de melhoramento,
obtendo cultivos mais resistentes a estresses bióticos e abióticos,
melhorando a qualidade nutricional e gerando novas formas de energia
renováveis.

Exemplos de uso da bioinformática:

• Genética comparativa: a genética comparativa consiste em


avaliar planta modelo e planta não modelo. As espécies podem
revelar uma organização de seus genes, uma em relação à outra,
que é usada para transferir informações dos sistemas de plantas
modelo para outras culturas alimentares.

• Fontes de energias renováveis: é sabido que um dos melhores


meios para obter energia é a biomassa vegetal, como exemplos
temos o milho, cana, entre outras.

Através das ferramentas de bioinformática é possível detectar


variações nas sequências associadas a fenotipagem e que possam
identificar genótipos superiores para maximizar a produção de biomassa.

Assim, combinando o uso da interação das ômicas com a


bioinformática, é possível aumentar a capacidade de desenvolvimento de
culturas para serem usadas como matéria-prima de biocombustível.

• Melhoramento de plantas: ajuda a compreender a base genética


e molecular de todos os processos biológicos nas plantas. Isso é
importante pois possibilita a exploração eficaz de plantas como
recursos biológicos no desenvolvimento de novas culturas com
melhor qualidade e custos econômicos em ambientais reduzidos.

Assim, isso pode acontecer devido os dados serem acessados e


analisados através de ferramentas de bioinformática.

• Melhoramento para qualidade nutricional: um dos exemplos


mais clássicos de alimentos biofortificados é o arroz dourado,
Big Data e Ciência de Dados 41

o qual, foi enriquecido com betacaroteno que no organismo é


facilmente convertido para vitamina A.

• Fitopatologia: a bioinformática possibilitou o mapear de todo o


genoma de muitos organismos, contribuindo dessa forma com
o entendimento da arquitetura genética de microrganismos e
patógenos para verificar como esses afetam a planta hospedeira,
usando a abordagem metagenômica e transcriptômica.

Destaca-se que a bioinformática tem muitas aplicações práticas no


gerenciamento atual de doenças de plantas no que diz respeito ao estudo
das interações do hospedeiro-patógeno.

Bioinformata

Neste contexto da bioinformática e seus objetos de estudos, surge


outro tipo de profissional: o bioinformata. Esse deve ter a habilidade e
competência de identificar os problemas biológicos e solucioná-los
através do uso de ferramentas computacionais (SOARES, 2006).

Esse profissional de Bioinformática deve ter habilidades não


somente de aptidão em conhecimentos técnicos computacionais, como
também, dominar as ciências de dados e Big Data, saber lidar com
o desenvolvimento de sistemas e entender ainda sistemas já existentes
e deve ter conhecimentos específicos de Ciências Biológicas, como
a Biologia Molecular por exemplo, destacando-se que a linguagem de
programação mais adotada nessa área é o Python.
Figura 10: Bioinformata

Fonte: Pixabay
42 Big Data e Ciência de Dados

Esse profissional, bioinformata, tem que utilizar ferramentas robustas


e de grande poder computacional para solucionar problemas biológicos.
Em particular, deve lidar com problemas que envolvem grandes volumes
de dados.

Atualmente estamos inseridos na era do Big Data, em que é gerado


a cada dia um conjunto gigantesco de dados, assim, é preciso mais
recursos para analisá-los.

RESUMINDO:

Estudamos neste capítulo um pouco mais sobre a


tecnologia da bioinformática e como está se relaciona com
a computação e soluções como Big Data, tendo em vista
que este campo de pesquisa traz grandes contribuições
para a biologia e que por meio dos seus recursos, geram
grande quantidade de dados que podem ser analisados
trazendo importantes contribuições académicas.
Big Data e Ciência de Dados 43

Inovação tecnológica e novas tendências

OBJETIVO:

Continuando os estudos, vamos abordar as novas


tendências e inovações tecnológicas no campo de ciências
de dados e Big Data, como também, abordaremos os
desafios futuros neste campo. Vamos lá!!

Com a grande produção de dados e novas tecnologias sendo


desenvolvidas, as técnicas de Big Data e Ciências de Dados acabam
crescendo e contribuindo para estes avanços.

Muitos especialistas relatam que o Big Data pode trazer grandes


mudanças de contexto econômico e social. Podemos citar algumas
tendências tecnológicas relatas por Paredes (2019):

• Os sistemas de armazenamento distribuído NoSQL são tendências


de crescimento devido serem tão importantes para grandes
necessidades de dados e infraestrutura, como para empresas
como Google, Amazon e Facebook.

• Os sistemas distribuídos para promover o processamento e


análise de sinais e eventos de internet das coisas em tempo real
que possibilitam analisar uma grande massa de dados de modo
imediata.

• Os bancos de dados com processamento baseado em GPUs


(Unidade de Processamento Gráfico) que estimulam o cálculo
de informações em massa e ajudam a minimizar os tempos de
treinamento de modelos e projetos de aprendizado de máquina.

• Os chatbots que possibilitam responder a consultas e executar


ações prática e de modo automático e através de uma linguagem
natural.

Após esse exemplos de algumas tendências tecnológicas


na próxima na sessão será estudado sobre exemplos de inovação
tecnológica
44 Big Data e Ciência de Dados

Inovação Tecnológica
O Big Data traz inovações em vários aspectos, como: contribui
no desenvolvimento de novas tecnologia, aplicações e na forma de
processos de tomada de decisões nas empresas.

Já estudamos também que esta traz grandes inovações nas


empresas trazendo vantagens competitivas.

Segundo Amaral (2016), algumas inovações importantes que o Big


Data vem fornecendo as suas aplicações é a capacidade de tornar os
processos produtivos mais eficientes, com custos reduzidos, produtividade
e intervalos de paradas não programadas menores.

No campo da administração, o Big Data possibilita um ganho no


campo de fraudes, onde fornece a redução delas ao reduzir os passivos
judiciais e a verificação do pagamento de impostos.

Promove ainda inovação no campo do relacionamento com os


clientes, melhorando a fidelização, maior qualidade de seus produtos e
serviços, bem como.

O Big Data também vem gerando modificação no relacionamento das


empresas com seus fornecedores e parceiros comerciais (AMARAL, 2016).

Conforme Taurion (2013), uma inovação é a capacidade do Big Data


impactar nos processos da empresa, dessa forma, acontecer o necessário
para que os próprios processos sejam revisados e incorporados os
resultados nas análises das fases de suas tarefas.

Exemplificando ofertas personalizadas para os clientes, usualmente


são realizadas quando planejadas e com antecedência de dias, onde
tendo uma campanha, realizam o filtro de clientes selecionados e enviam
para eles os e-mails com as ofertas, ou seja, dessa forma o Big Data se
torna uma oportunidade para identificar e enviar ofertas em tempo real.
Big Data e Ciência de Dados 45

Figura 11: Inovação

Fonte: Pixabay

Nas próximas sessões, será destacadas tecnologias que surgiram


trazendo inovação ligadas à como a Big Data.

Big Social Data


Uma das grandes tendências atual de explorar Big Data é nas redes
sociais como: Facebook, YouTube e Twitter, onde, por meio da conexão, as
pessoas estão produzindo exabytes de dados em suas interações (TAN
et al. 2013).

O volume, a velocidade e a capacidade de processar os dados de


diversas fontes, criam grandes desafios, dispersos ou combinados, a serem
superados ligados ao armazenamento, processamento, visualização e
análise dos dados.

NOTA:

Existe uma grande tendência de indivíduos se juntarem e


formarem grupos, algo que é uma característica de qualquer
sociedade (CASTELLS, 2000). Esse comportamento pode
ser replicado nos dias atuais por meio do avanço das mídias
sociais e grupos online que destacam o poder de unir
usuários ao redor de todo mundo.
46 Big Data e Ciência de Dados

Já vimos ao longo dos nossos estudos que a quantidade de dados


gerados na rede só aumenta a cada instante e novas unidades de medida
surgem para classificar as grandes massas de dados.

Esse grande volume de dados de diferentes tipos está sendo


produzidos por diferentes fontes independentes, distribuídas e
descentralizadas que geram de modo rápido, dados com relações
complexas e em evolução, o qual, são chamados de Big Data (SILVA et
al., 2013).
Figura 12: Redes socias e Big Data

Fonte: Pixabay

Podemos destacar que o Big Data representa inovação no aspecto


da tecnologia, pois por trabalhar com bancos de dados NoSQL, realizar
processamento massivo paralelo, conter funções capazes de coletar,
tratar e analisar dados não estruturados como comentários postados no
Facebook, tem ganhado grande destaque global (TAURION, 2013).

Com isto, percebemos como ele traz contribuições devido ao


grande uso das redes sociais que acabam se tornando uma grande fonte
de dados para aplicar Big Data, trazendo informações importantes para
diversos segmentos de empresas.
Big Data e Ciência de Dados 47

IMPORTANTE:

É importante, destacar que toda esta produção massiva e


diária das redes sociais, traz um problema muito conhecido
que são as tão faladas fake news, o qual, é o fato de
espalhar notícias falsas pela web. Disto percebemos com
a análise adequada dos dados, é um fator crítico e que traz
um grande impacto, bem como, necessidade de poder
possibilitar a verificação e veracidade de tantas notícias
geradas ao mesmo tempo.

Dessa forma, com a diversidade e quantidade de usuários usando as


redes sociais, vem tornando este campo bastante explorado por analistas
e pesquisadores que buscam extrair ou inferir informações, podendo
estar relacionadas a outros campos como: predição de comportamento,
marketing, comércio eletrônico, entre outras interações (TAN et al., 2013).

Isso implica afirmar que essas análises devem ser eficientes, como
efetuadas quase em tempo real e com a capacidade de prover trabalhos
com vários grafos.

Tecnologia Blockchain
Temos atualmente o surgimento de uma nova tecnologia, o banco
de dados de Blockchain. O BigchainDB trata de combinar as vantagens
de bancos de dados distribuídos, por sua vez, o Blockchains se refere a
trilhas descentralizadas e imutáveis de auditoria e troca de ativos.

Este tipo de tecnologia traz inovação no campo de transações


financeiras, assim, o Blockchain acaba trazendo oportunidades para
aqueles que trabalham com soluções computacionais como Big Data,
ciências de dados e inteligência artificial.

Esse banco de dados, Blockchain, tem característica de


escalabilidade e utiliza ambientes de Big Data. Esse tem a capacidade
de liberar o potencial de aplicações altamente importantes em Big Data,
onde contribui para o controle no compartilhado de infraestrutura, trilhas
de auditoria em dados e permitir a troca de dados universal.
48 Big Data e Ciência de Dados

Figura 13: Blockchain

Fonte: Pixabay

Um exemplo do uso de Big Data e Blockchain foi o consórcio de


47 bancos japoneses que se associaram a uma Startup de Blockchain
conhecida como Ripple para facilitar as transferências de dinheiro entre
contas bancárias usando o próprio Blockchain, visto que os Blockchains
oferecem risco minimizados quando comparados com as transações
tradicionais.

Assim, com a utilização de, é permitido detectar padrões nos gastos


do consumidor e identificar transações de risco com maior velocidade, bem
como, reduzir o custo com as transações em tempo real (MATOS, 2020).

Internet das Coisas


Com certeza você sabe ou ja ouviu falar sobre o termo, internet
das coisas que está tão em alta nas discurssões em meios acâdemicas
e comercias. Descrevemos a internet das coisas como a tecnologia
que contém uma taxa enorme de objetos sendo conectada à Internet,
compreendendo o que é denominada hoje como “Internet das Coisas”
(Internet of Things ou IoT) (RATHOREA, 2016).

Esses objetos podem ser sensores, bancos de dados e outros


dispositivos ou software, existindo muitos domínios nos quais IoT ajuda e
facilita a vida das pessoas de modo bastante relevante em tarefas como
a assistência médica, automação, transporte e respostas emergências a
desastres naturais (RATHOREA, 2016).
Big Data e Ciência de Dados 49

Figura 14: Internet das coisas

Fonte: Pixabay

Os vários sensores produzem diferentes tipos de características,


exemplificando as tags que são aplicadas na identificação por
radiofrequência (RFID) e que disponibilizam a localização e tempo; os
GPS’s, responsáveis por identificar a localização e marcapassos que
extraem informações sobre o coração (O’LEARY, 2013).

Nisto, os objetos de IoT tem englobando a si uma interface de rede,


possibilitando que as comunicações entre eles ofereçam vários serviços
para os usuários (NIYATO, 2016).

Contudo, muitas oportunidades são descritas pela capacidade


de analisar e utilizar grandes quantidades de dados de IoT, inclusive
aplicativos em cidades inteligentes, sistemas inteligentes de transporte
e de rede, medidores inteligentes de energia e dispositivos remotos de
monitoramento de saúde do paciente (MARJANI, 2017)

Conforme O’leary (2013), uma grande parte dos dados são originados
de objetos do universo da Internet das Coisas, tendo em visto que, os
mesmos produzem grandes massas de dados.

Outras características é a velocidade dos dados relacionada a IoT


ser mais elevada quando comparada com o processamento tradicional,
pois os sensores podem capturar dados continuamente.
50 Big Data e Ciência de Dados

Esses dados também tem característica de grande variedade, visto que


temos cada vez mais vários tipos de sensores e diferentes fontes de dados.

Por fim, temos que a Veracidade dos dados estão cada dia mais
garantido confiabilidade devido ao modo que a qualidade dos sensores
e outras fontes de dados, tem melhorado com o tempo. Gerando assim
que esses aspectos associados impulsionam a geração de Big Data pela
Internet da Coisas

RESUMINDO:

Estudamos neste capítulo uma visão geral de tendências


e tecnologias que estão surgindo, bem como elas se
relaciona com as aplicações Big Data. Vimos que a
solução computacional Big Data possibilita a inovação
em vários aspectos, como no quesito de contribuir no
desenvolvimento de novas tecnologias, aplicações e na
forma de processos de tomada de decisões nas empresas.
Algumas inovações importantes que o Big Data vem
fornecendo com suas aplicações, é a capacidade de
tornar os processos produtivos mais eficientes, com custos
reduzidos, produtividade e intervalos de paradas não
programadas menores.
No campo da administração o Big Data possibilita um
ganho no campo das fraudes, onde fornece a redução
delas, reduz passivos judiciais e avalia o pagamento de
impostos. Vimos ainda que a grande tendência das redes
sociais atuais estão sendo um campo bastante explorado
por analistas e pesquisadores que buscam extrair ou inferir
informações sobre os dados gerados pelas redes.
Em seguida estudamos o surgimento de uma tecnologia,
o Blockchain, pelo qual, traz inovação no campo de
transações financeiras e se tornou uma oportunidade para
aqueles que trabalham com soluções computacionais
como Big Data, ciências de dados e inteligência artificial.
Por fim, estudamos outro recurso tecnológico alta, a
internet das coisas e vimos como está funciona como uma
grande geradora de fonte de dados para utilizar Big Data e
como elas podem se relacionar.
Big Data e Ciência de Dados 51

REFERÊNCIAS
ABADI, D. J. (2009). Data management in the cloud: Limitations
and opportunities. IEEE Data Eng. Bull., 32:3–12.

ABOUZEID, A., Bajda-Pawlikowski, K., Abadi, D. J., Rasin, A., and


Silberschatz, A. (2009). Hadoopdb: An architectural hybrid of mapreduce
and dbms technologies for analytical workloads. PVLDB, 2(1):922–933.

AGRAWAL, D., Das, S., and El Abbadi, A. (2011). Big Data and cloud
computing: current state and future opportunities. In Proceedings of the
14th International Conference on Extending Database Technology, EDBT/
ICDT ’11, pages 530–533, New York, NY, USA. ACM.

AMARAL, Fernando. Introdução à Ciência de Dados.(2016). Alta


Books. Edição do Kindle.

ALMEIDA, Rodrigo Pinheiro. Proveniência de dados em workflow


de Bioinformática utilizando banco de dados baseado em grafo.
Dissertação (Mestrado) — Universidade de Brasília, Departamento de
Ciência de Computação, 2015. 21, 29.

BOEKEL, Jorrit et al. Multi-omic data analysis using galaxy. Nature


biotechnology, Nature Research, v. 33, n. 2, p. 137–139, 2015. 7

BUYYA, R., Ranjan, R., and Calheiros, R. N. (2009). Modeling and


simulation of scalable cloud computing environments and the
cloudsim toolkit: Challenges and opportunities. CoRR, abs/0907.4878.

BUNEMAN, Peter et al. Why and where: A characterization of data


provenance. In: BUSSCHE, Jan Van den et al. (Ed.). Database Theory —
ICDT 2001: 8th International Conference London, UK, January 4–6, 2001
Proceedings. Berlin, Heidelberg: Springer Berlin Heidelberg, 2001. p. 316–
330. ISBN 978-3-540-44503-6. 1, 21.

BLEIDORN, Christoph. Assembly and data quality. In: Phylogenomics.


[S.l.]: Springer, 2017. p. 81–103. 8.
52 Big Data e Ciência de Dados

BRANTNER, M., Florescu, D., Graf, D., Kossmann, D., and Kraska,
T. (2008). Building a database on s3. In Proceedings of the 2008 ACM
SIGMOD international conference on Management of data - SIGMOD ’08,
page 251, New York. ACM Press.

CHEN, M., MAO, S., LIU,Y. Big Data: a survey. Nova Iorque, 2014.

CURINO, C., Jones, E., Zhang, Y., Wu, E., and Madden, S. (2010).
Relational cloud: The case for a database service. Technical report,
MIT-CSAIL-TR2010-014. Computer Science and Artificial Intelligence
Laboratory, MIT, USA.

DEELMAN, Ewa et al. Workflows and e-Science: An overview of


workflow system features and capabilities. Future Generation Computer
Systems, v. 25, n. 5, p. 528 – 540, 2009. ISSN 0167-739X.

DURBANO VINICIUS. Disponível em:<https://ecoit.com.br/


computacao-em-nuvem/>. Acesso: em 19 de jun. 2020.

EDWARDS, D., STAJICH, J., HASEN, D. Bioinformatics: Tools and


Applications. New York: Springer, 2009. 4.

FILHO, CAMARGO F. et al. Bioinformática: Manual do Usuário.


Biotecnologia Ciência e Desenvolvimento. 2002. Brasília, v. 5, n. 29, p.
12-25.

GANTZ, J., REINSEL, D. THE DIGITAL UNIVERSE IN 2020: Big Data,


Bigger Digital Shadows, and Biggest Grow th in Far East. IDC, dez. 2012.

GOBLE, Carole. Position statement: Musings on provenance,


workflow and (semantic web) annotations for bioinformatics. In:
Workshop on Data Derivation and Provenance, Chicago. [S.l.: s.n.], 2002.
v. 3. 1, 21.

LI, W; HAN, J; PEI, J. Cmar: Accurate and efficient classification


based on multiple class-association rules, 2001.

MATTOS, Amanda et al. Gerência de Workflows Científicos: uma


análise crítica no contexto da bioinformática. [S.l.], 2008. 6, 25.

KALLA, S. What is statistics? Disponível em: <https://explorable.


com/what-isstatistics.>. Acesso em 15 de jun. 2020.
Big Data e Ciência de Dados 53

DAVIDSON, J. What is Statistics? Disponível em: <https://www.


sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html>. Acesso
em: 15 de jun. 2020.

IIT Madras - Mechanical Engineering Department, Optimization


Methods.2000. Disponível em: <http://ijerme.rdmodernresearch.com/
wp-content/uploads/2016/09/119.pdf>. Acesso em: 15 jun. 2020.

HASHEM, I. A. T. et al. The rise of “Big Data” on cloud computing:


Review and open research issues. Information Systems 47: 98-115, jul.
2014.

LORENZONI R. Monte. Bioinformática – parte ii: Fundamentos


e aplicações. (2020). Disponível em: <https://www.laborgene.com.br/
fundamentos-da-bioinformatica/>. Acesso em: 18 de jun. 2020.

MELL, P. and Grance, T. (2009). The nist definition of cloud


computing. NIST, page 50.

MARJANI, M. et al. Big IoT DataAnalytics:Architecture,Opportunities,


and Open Opportunities, and Open, mar. 2017

MARINHO, A. et al. A strategy for provenance gathering in


distributed scientific workflows. In: 2009 Congress on Services - I. [S.l.:
s.n.], 2009. p. 344–347. ISSN 2378-3818. 2, 21, 26

MATOS D. Big Data e as Oportunidades com Blockchain.


(2020). Disponível em: <http://www.cienciaedados.com/big-data-e-as-
oportunidades-com-blockchain/>. Acesso em: 19 de jun. 2020.

MICHALSKI, R. S.; CARBONELL, J. G.; MITCHELL, T. M. Machine


learning: An artificial intelligence approach. [S.l.]: Springer Science and
Business Media, 2013. Citado na página 39.

MOURA C. Aprendizado de Máquina: conceitos e práticas da área


que está movendo o mundo.2017. Disponível em: < https://bit.ly/3zViE27.>.
Acesso em: 17 de jun. 2020.

NETO E. S.(2019).Computação em Nuvem: O que é, Como funciona


e Importância. Disponível em :<https://fia.com.br/blog/computacao-em-
nuvem/>. Acesso em 18 de Junho de 2020.
54 Big Data e Ciência de Dados

NIYATO, D. Market Model and Optimal Pricing Scheme of Big Data


and Internet of Things (IoT). 2016. Disponível em: < https://ieeexplore.
ieee.org/document/7510922>. Acesso em 18 junho 2020.

NOVAS TENDÊNCIAS E INOVAÇÃO. Disponível em: <https://


pixabay.com/pt/photos/inova%C3%A7%C3%A3o-neg%C3%B3cios-
informa%C3%A7%C3%B5es-561388/>. Acesso em: 18 de jun. 2020.

O’LEARY, D. E., ‘Big Data’, The ‘Internet Of Things’ And The ‘Internet
of Signs’. Intell. Sys. Acc. Fin. Mgmt. 20, 53–65, 2013.

PAI, V. Big Data New Challenges, Tools And Techniques.


Department of Information Technology, Srinivas Institute of Management
Studies, Mangalore, Karnataka, 2016.

PAREDES A.Tendências Big Data 2019 para que o futuro não te pegue
de surpresa .2019. Disponível em:<https://www.iebschool.com/pt-br/blog/
software-de-gestao/big-data/tendencias-big-data-2019-para-que-o-futuro-
nao-te-pegue-de-surpresa/>. Acesso em: 19 de jun. de 2020.

PEDROSO C. 2014. Big Data e Cloud Computing. Disponível em:


<https://canaltech.com.br/computacao-na-nuvem/Big-Data-e-Cloud-
Computing/>. Acesso em: 18 de jun. 2020.

PTI, Redação. Bioinformática: descubra o que é e como essa


ciência vem crescendo a cada dia. Profissionais TI, 2019. Disponível
em:<https://www.profissionaisti.com.br/2019/05/bioinformatica-
descubra-o-que-e-e-como-essa-ciencia-vem-crescendo-a-cada-dia/>.
Acesso em: 19 de jun. 2020.

RATHOREA, M. M. U., AHMAD, A., PAUL, A. Urban planning and


building smart cities based on the Internet of Things using Big Data
analytics. Computer Networks, mar. 2016.

RÄTSCH, G. A brief introduction into machine learning. In: 21st


Chaos Communication Congress. [S.l.: s.n.], 2004. Citado na página 16.

REINSEL, D., GANTZ, J., RYDNING, E. The Digitization of the World:


From Edge to Core. Seagate, 2018.
Big Data e Ciência de Dados 55

RUSSELL, S.; NORVIG, P. Artificial intelligence – a modern approach.


Prentice Hall, v. 2, n. 1, 2003. Citado 2 vezes nas páginas 42 e 43.

ROZA, F. S. da. Aprendizagem de máquina para apoio à


tomada de decisão em vendas do varejo utilizando registros de
vendas. 2016. Acessado em: 09 Dez. 2018. Disponível em: <https://
www.institutodeengenharia.org.br/site/2018/08/24/big-data-e-o-
aprendizado-de-maquina/>. (Acesso em: 17 de junho de 2020).

SALDANHA, Hugo V. Bionimbus: uma arquitetura de federação


de nuvens computacionais híbrida para a execução de workflows
de bioinformática. Dissertação (Mestrado) — Universidade de Brasília,
Departamento de Ciência de Computação, 2012.

SILVA, T. L. C., Araújo, A. C. N., Sousa, F. R. C., Macêdo, J. A. F.,


Machado, J. C. (2013), Análise em Big Data e um Estudo de Caso
utilizando Ambientes de Computação em Nuvem. Minicurso do XXVII
Simpósio Brasileiro de Banco de Dados.

SOUSA F. R. C, Moreira L. O. e Machado Javam C..Computação


em Nuvem: Conceitos, Tecnologias, Aplicações e Desafios .2009.
Disponível em: <https://www.researchgate.net/profile/Javam_Machado/
p u b l i c a t i o n /2 37 6 4 47 2 9 _ C o m p u t a c a o _ e m _ N u ve m _ C o n c e i to s _
Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.
pdf>. Acesso em: 17 de jun. 2020.

SOUSA, F. R. C., Moreira, L. O., Macêdo, J. A. F., and Machado, J. C. (2010).

Gerenciamento de dados em nuvem: Conceitos, sistemas e


desafios. In SBBD, pages 101–130.

SOARES, E. Profissão do futuro: bioinformata vive entre bits


e células. [S.I.]: Portal IDGNow, 2006. Acesso em: 05 set. 2011, 17:30. 13.
THOMPSON, J.D., HIGGINS, D.G.,

TAURION, Cezar.2013. Big Data . BRASPORT. Edição do Kindle.

TAN, P.-N., Steinbach, M., and Kumar, V. (2005). Introduction to Data


Mining, (First Edition). Addison-Wesley Longman Publishing Co., Inc.,
Boston, MA, USA.
56 Big Data e Ciência de Dados

TAN, W., Blake, M. B., Saleh, I., Dustdar, S. (2013), Social-Network-


Sourced Big Data Analytics. Internet Computing. IEEE Computer Society,
v. 17, n. 5, p. 62-69.

TECMUNDO. Como usufruir do seu Big Data com a computação em


nuvem. Disponível em:<https://www.tecmundo.com.br/mercado/139695-
usufruir-big-data-computacao-nuvem.htm>. Acesso em: 18 de jun. 2020.

VERLI H. et. AL. Bioinformática da Biologia à flexibilidade


molecular / organização de Hugo Verli. - 1. ed. - São Paulo : SBBq, 2014.
282 p. : il. WEI, Z., Pierre, G., and Chi, C.-H. (2009). Scalable transactions
for web applications in the cloud. In Euro-Par, pages 442–453.

Oliveira, J., Santos, R. P. (2013), Análise e Aplicações de Redes


Sociais em Ecossistema de Software, Minicurso do IX Simpósio Brasileiro
de Sistema de Informação.

ZHOUA, L. et al. Machine learning on Big Data: Opportunities and


challenges. Neurocomputing 237: 350–361, 2017.

ZERBINO, Daniel R et al. Velvet: algorithms for de novo short


read assembly using de bruijn graphs. Genome research, Cold Spring
Harbor Lab, v. 18, n. 5, p. 821–829, 2008.

Você também pode gostar