Você está na página 1de 55

Big Data e

Ciência de Dados
Unidade 4
Big Data, Ia e Cloud Computing
Diretor Executivo
DAVID LIRA STEPHEN BARROS
Gerente Editorial
CRISTIANE SILVEIRA CESAR DE OLIVEIRA
Projeto Gráfico
TIAGO DA ROCHA
Autoria
JÉSSICA LAISA DIAS DA SILVA
ALAN DE OLIVEIRA SANTANA
AUTORIA
Jéssica Laisa Dias da Silva
Olá. Sou graduada em Sistemas da Informação pela Universidade de
Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação
pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente,
sou doutoranda em Sistema e Computação pela UFRN e professora
conteudista na elaboração de cadernos.

Alan de Oliveira Santana


Olá. Sou graduado em Ciência da Computação pela Universidade
do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da
Computação pela Universidade Federal do Rio Grande do Norte (UFRN).
Atualmente, sou professor conteudista, elaborador de cadernos de
questões e doutorando em Ciências da Computação. Como cientista,
atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de
sistemas com ênfase na educação.

Desse modo, fomos convidados pela Editora Telesapiens a integrar


seu elenco de autores independentes. Estamos muito satisfeitos com o
convite e a possibilidade de auxiliar em seu desenvolvimento intelectual
e profissional. Bons estudos!
ICONOGRÁFICOS
Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez
que:

OBJETIVO: DEFINIÇÃO:
para o início do houver necessidade
desenvolvimento de se apresentar um
de uma nova novo conceito;
competência;
NOTA: IMPORTANTE:
quando necessária as observações
observações ou escritas tiveram que
complementações ser priorizadas para
para o seu você;
conhecimento;
EXPLICANDO VOCÊ SABIA?
MELHOR: curiosidades e
algo precisa ser indagações lúdicas
melhor explicado ou sobre o tema em
detalhado; estudo, se forem
necessárias;
SAIBA MAIS: REFLITA:
textos, referências se houver a
bibliográficas necessidade de
e links para chamar a atenção
aprofundamento do sobre algo a ser
seu conhecimento; refletido ou discutido
sobre;
ACESSE: RESUMINDO:
se for preciso acessar quando for preciso
um ou mais sites se fazer um resumo
para fazer download, acumulativo das
assistir vídeos, ler últimas abordagens;
textos, ouvir podcast;
ATIVIDADES: TESTANDO:
quando alguma quando uma
atividade de competência for
autoaprendizagem concluída e questões
for aplicada; forem explicadas;
SUMÁRIO
Técnicas de Aprendizado de Máquina.................................................... 12

Abordagem de técnicas gerais de Big Data................................................12

Entendendo o Aprendizado de Máquina ...................................................................... 15

Aprendizagem supervisionada........................................................................... 17

Aprendizagem não supervisionada................................................................ 17

Técnicas de aprendizado usadas em Big Data ......................................................... 17

Análise preditiva ........................................................................................................... 19

Previsão de demanda ............................................................................................... 19

Sistemas de recomendação................................................................................ 20

Agrupamento .................................................................................................................. 21

Gerência de Dados e Computação na Nuvem....................................22

Computação na Nuvem.............................................................................................................. 22

Modelo de implementação ..................................................................................24

Modelos de serviço.....................................................................................................25

Computação em Nuvem e Big Data .................................................................................26

Gerenciamento de dados de Computação em Nuvem......................................29

Bioinformática.....................................................................................................32

Histórico da Bioinformática .....................................................................................................32

Workflow de Bioinformática....................................................................................35

Proveniência de dados em Bioinformática............................................... 36


Aplicações da Bioinformática................................................................................................. 39

Bioinformata........................................................................................................................................ 40

Inovação Tecnológica e Novas Tendências......................................................... 42

Inovação tecnológica ...................................................................................................................43

Big Social Data................................................................................................................44

Tecnologia Blockchain......................................................................46

Internet das Coisas......................................................................................................47


Big Data e Ciência de Dados 9

04
UNIDADE
10 Big Data e Ciência de Dados

INTRODUÇÃO
Nesta unidade, vamos abordar sobre o aprendizado de máquina e
suas técnicas, bem como estas podem contribuir no processo de análise
de dados e tomada de decisão.

As organizações usam várias técnicas e tecnologias para realizar a


manipulação, análise e visualização de Big Data. Estas técnicas surgiram
com contribuições dos campos da estatística, ciência da Computação,
matemática e economia, com algumas idealizadas para lidar
especificamente com Big Data e outras foram ajustadas para trabalhar
nesse contexto.

Estudaremos ainda sobre gerência de dados por meio da


Computação na Nuvem e como esse modelo possibilita acesso por
demanda a um agrupamento de elementos computacionais que
podem ser configuráveis, como CPU, armazenamento e memória. Serão
abordados os modelos de implantações e modelos de serviço em Nuvem.

Ao longo do capítulo, abordaremos sobre Bioinformática,


juntamente com seus conceitos, características, histórico e aplicações.
Também abordaremos exemplos de tecnologias que trabalham com esse
tipo de solução e ainda veremos como esta se relaciona com a ciência
dos dados e Big Data.

Por fim, será estudado nessa unidade sobre inovações e tendências


tecnológicas no campo de ciência de dados e Big Data, como também,
abordaremos os desafios futuros neste campo. Vamos lá!
Big Data e Ciência de Dados 11

OBJETIVOS
Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no
desenvolvimento das seguintes objetivos de aprendizagem até o término
desta etapa de estudos:

1. Compreender as técnicas de aprendizado de máquina.

2. Entender a gerência de dados e Computação na Nuvem.

3. Assimilar o conceito de Bioinformática.

4. Adquirir noções de inovação tecnológica e novas tendências.

Então? Preparado para adquirir conhecimento sobre um assunto


fascinante e inovador como esse? Vamos lá!
12 Big Data e Ciência de Dados

Técnicas de Aprendizado de Máquina

OBJETIVO:

Neste capítulo, conceituaremos sobre o aprendizado


de máquina e suas técnicas, bem como estas podem
contribuir no processo de análise de dados e tomada
decisão. Vamos lá!

Abordagem de técnicas gerais de Big Data


Conforme Pai (2016), as organizações utilizam algumas técnicas
e tecnologias para realizar a manipulação, análise e visualização de
Big Data. Estas técnicas surgiram com contribuições dos campos da
estatística, ciência da Computação, matemática e economia, com
algumas idealizadas para lidar especificamente com Big Data e outras
foram ajustadas para trabalhar nesse contexto.

Neste sentido, a contribuição das áreas citadas para a análise em Big


Data, precisa de técnicas multidisciplinares para processar com qualidade
o grande volume de dados no momento da execução (PAI, 2016). A seguir
será exposto a contribuição de cada área previamente citada:

• Matemática: utiliza técnicas e fórmulas matemáticas tradicionais


com o intuito de resolver problemas relacionados à correlação de
dados.

• Estatística: conjunto de técnicas matemáticas que contribuem


com a análise e apresentação de dados. A análise estatística e
suas decisões são fundamentadas no entendimento de como o
acaso implica certos eventos ou resultados (KALLA, 2018).

• Métodos otimizados: referem-se a reduzir custos ou aumentar a


eficiência da produção. Um algoritmo de otimização é um método
que é executado interativamente fazendo um comparativo com
diversas soluções até que se encontre uma ótima ou pelo menos,
uma satisfatória (IIT Madras). Estes algoritmos são aplicados para
Big Data e Ciência de Dados 13

resolver problemas quantitativos em muitas áreas, como física,


biologia, engenharia e economia (PAI, 2016).

• Data Mining: como já estudamos anteriormente em outra unidade,


a mineração de dados está inserida como parte do processo
de Descoberta de Conhecimento em Banco de Dado (KDD –
Knowledge Discovery in Databases), o qual tem por objetivo a
seleção dos métodos a serem usados por busca de padrões nos
dados, seguido da busca por padrões de interesse num modo
particular de representação, juntamente com o objetivo pelo
melhor ajuste dos parâmetros do algoritmo para atividades que se
deseja aplicar (TAN et al., 2005).

• Machine Learning: conjunto de procedimentos que podem


identificar de modo automático, padrões em dados e, em
consequência, utilizar os padrões descobertos para prever dados
futuros ou executar outros tipos de tomadas de decisão (LI et al.,
2001).

• Redes neurais: trata-se de um paradigma de programação de


inspiração biológica que permite um computador aprender a partir
de dados observacionais.

• Processamento de sinal: tem por objetivo de operar, analisar e


deduzir de um sinal, dados que possam ser extraídos de forma útil.

• Métodos de visualização: são técnicas utilizadas para elaborar


tabelas, imagens, diagramas e outras formas de disponibilização
de modo intuitivo para entender os dados.

REFLITA:

Você deve recordar das outras unidades algumas das


técnicas acima, porém nesta fazemos uma reflexão delas
alinhadas ao Big Data. É muito importante que o profissional
de TI trabalhe com técnicas como: data mining, redes
neurais, aprendizado de máquina, principalmente os
profissionais de ciência de dados, devem estar atentos a
essas habilidades.
14 Big Data e Ciência de Dados

Assim, você pode observar no contexto geral, temos essas técnicas


sendo utilizadas para as mais diversas aplicações, como já estudamos
no contexto de Big Data, destacadas na Figura 1 abaixo, como a área da
Computação Social relacionada com as interações em mídias sociais na
Internet, Bioinformática, Finanças e na Astronomia, alguns exemplos são
apresentados a seguir.
Figura 1 – Ferramentas, técnicas e aplicação
Ferramentas Matemáticas

Matemática Métodos
Estáticas
Fundamental otimizados

Técnicas de Análises de dados

Data Minig

Aprendizado
Redes Neurais
de Maquina

Processamento Método de
de sinal Visualização

Aplicações Big Data

Computação
Binformática Astronomia Financeira
social

Fonte: Zhoua et al. (2017).


Big Data e Ciência de Dados 15

Dessa forma, abordaremos nas próximas sessões sobre técnicas de


Aprendizado de Máquina e como elas podem contribuir no contexto de
Big Data.

SAIBA MAIS:

No artigo Big Data e o aprendizado de máquina, realiza-


se uma abordagem geral sobre como o aprendizado
de máquina pode ser utilizado e como traz valor para as
aplicações de Big Data. Acesse clicando aqui.

Na próxima seção, será explanado melhor o que é o Aprendizado


de Máquina e as técnicas mais usadas no contexto de Big Data.

Entendendo o Aprendizado de Máquina


Conforme Zhou et al. (2017), as técnicas de Machine Learning
(Aprendizado de Máquina) promovem grandes impactos em uma
variedade de aplicações na Computação, tais como: processamento,
compreensão de linguagem natural, neurociência e Internet das Coisas.

Vale ressaltar que o surgimento e o avançar da era Big Data


estimulou amplos interesses no aprendizado de máquina. Dessa forma,
temos o Big Data produzindo informações importantes e utilizando
algoritmos de aprendizado de máquina, em que podemos extrair padrões
e criar modelos preditivos.

Nesse contexto, temos por outro lado os algoritmos de aprendizado


de máquina clássicos que passaram por impactos críticos para atender
às necessidades, gerando a necessidade de escalabilidade para o
aprendizado de máquina poder crescer e trazer aperfeiçoamento nas
técnicas para trabalhar com os grandes volumes de dados (GANTZ, 2012).

As técnicas de aprendizado de máquina possibilitam aos usuários


a realização de previsões por meio de grandes volumes de dados. Esses,
por sua vez, ajudam o desenvolver por meio de algoritmos eficientes, os
quais são responsáveis por fornecer um grande potencial e ser uma parte
essencial da análise de Big Data (GANTZ, 2012).
16 Big Data e Ciência de Dados

Conforme com Michalski et al. (2013), a área de aprendizado de


máquina (AM) fornece o desenvolvimento de técnicas computacionais
que modificam os aspectos de seu comportamento na forma em que a
experiência é adquirida.
Figura 2 – Aprendizado de máquina

Fonte: Freepik

O aprendizado indutivo pode ser dividido em três tipos: aprendizado


supervisionado, aprendizado não supervisionado e aprendizado semi-
supervisionado. Desta forma, a classificação está relacionada com os
métodos adotados no processo de generalização do conhecimento
(MONARD; BARANAUSKAS, 2003).

IMPORTANTE:

É importante destacar que existem quatro métodos: apren-


dizado supervisionado, aprendizado não supervisionado,
aprendizado semissupervisionado e aprendizado por re-
forço, porém, destacamos apenas os três mais usados, o
aprendizado supervisionado e o aprendizado não supervi-
sionado (MOURA, 2017).
Big Data e Ciência de Dados 17

Aprendizagem supervisionada
A aprendizagem supervisionada é direcionada quando se é aplicada
técnicas em que algoritmos indutores podem realizar inferências por meio
de exemplos rotulados, ou seja, cada exemplo observado é descrito por
um conjunto de atributos e pelo valor da classe, também chamado de
atributo meta, a qual o exemplo pertence (RUSSELL; NORVIG, 2003).

Dessa forma, o objetivo do algoritmo é obter um modelo capaz de


classificar exemplos não rotulados recebidos como entrada. Um exemplo
seria um caso de aprendizagem no qual se consegue prever se uma
transação do cartão de crédito de certo indivíduo é falsa ou não..

Aprendizagem não supervisionada


Aprendizagem não supervisionada se refere ao algoritmo indutor
não possuir a informação sobre a classe à qual pertence. O intuito na
aprendizagem não supervisionada é buscar similaridades ou diferenças
no conjunto de valores dos atributos dos exemplos que possibilitam a
elaboração de agrupamentos ou clusters.

Desta forma, exemplos agrupados podem ser atribuídos a uma


mesma classe, enquanto exemplos dispersos estão mais propensos a
pertencer a classes distintas (RUSSELL; NORVIG, 2003).

O algoritmo k-médias e o algoritmo de agrupamento hierárquico são


exemplos de técnicas de aprendizado não supervisionado. Um exemplo
deste tipo pode ser a classificação de indivíduo que tenha predisposição
em adquirir diabetes por meio da avaliação de sua alimentação e rotina.
Entretanto, não é informado quais pessoas realmente têm ou não diabetes.

Técnicas de aprendizado usadas em Big Data


É importante frisar que depois que se tem um conjunto de dados
estruturados, o passo seguinte no processo de aprendizado é a aplicação
de um método de aprendizagem.
18 Big Data e Ciência de Dados

As técnicas de aprendizado de máquina utilizam algoritmos que,


por sua vez, realizam o trabalho computacional e todo o processamento
dos dados (MOURA, 2017).

Conforme Moura (2017) descreve, algumas técnicas de aprendizado


de máquina são:

• Redes neurais: existem vários tipos de redes neurais, mas em


suma, elas consistem em um conjunto de nós, também chamados
de neurônios, disponíveis em várias camadas com interconexões
ponderadas entre eles, de modo que o neurônio trata um conjunto
de valores de entrada para gerar um valor de saída que por sua
vez, é passado para outros neurônios nas camadas seguintes.

• Árvore de decisão: essa técnica usa algoritmos em formato de


árvore, ou seja, uma raiz com galhos que levam até folhas. Cada
árvore contém nós, ramos, folhas e ligações entre eles, de forma
que um ramo é um conjunto de nós que testam cada atributo
da classificação e cada ramo referente ao valor do atributo. Já
as folhas fazem a classificação para os ramos. A classificação é o
resultado final que se quer encontrar ou prever com o algoritmo.

• Regressão: é uma técnica usada quando se deseja prever valores


de algo futuro, fundamentando-se em comportamento de
variáveis passadas. A análise da regressão pode ser usada como
um procedimento descritivo da análise de dados com diversos
objetivos, como: descrever a relação entre variáveis para entender
um método, prever o valor de uma variável por meio do valor
das outras variáveis, substituir a medição de uma variável pela
observação dos valores de outras variáveis e controlar os valores
de uma variável em uma faixa de interesse (ROZA, 2016). Um
exemplo seria prever o valor de mercado de um imóvel utilizando
um algoritmo de regressão linear.
Big Data e Ciência de Dados 19

Figura 3 – Big Data e Aprendizado de Máquina

Fonte: Freepik

Análise preditiva
Essa é uma das técnicas mais usadas nas aplicações de Big Data
para realizar previsão, uma vez que essa análise consiste no uso de dados
e técnicas de aprendizado de máquina para determinar a probabilidade
de futuros resultados com base nas informações adquiridas no passado.

Um exemplo muito conhecido de Big Data e aprendizado de


máquina trabalhando em conjunto foi o caso da Target, segunda maior
rede de varejo dos EUA.

A empresa conseguiu identificar um padrão de itens que suas


clientes consumiam quando estavam grávidas, desde hidratantes, até
suplementos, a marca ainda detectou as consumidoras que seriam mães,
oferecendo produtos específicos e até desconto.

Previsão de demanda
Uma boa previsão de demanda ajuda qualquer empresa a vender
mais nas épocas de pico, assim como a evitar prejuízos e desperdícios em
períodos de baixa.
20 Big Data e Ciência de Dados

Porém, nem sempre é fácil fazer uma projeção da procura pelos


produtos da marca. Para que essas previsões sejam corretas, é necessário
contar com um grande volume de dados e com o aprendizado a partir do
histórico da própria empresa e do mercado.

Justamente por isso, a combinação de Big Data e Machine Learning


é extremamente útil para trazer confiança e clareza às decisões de
negócios.

Com base no processamento de dados, uma companhia pode


realizar antecipações de demandas considerando diversos fatores
financeiros, econômicos e mercadológicos.

Um exemplo de marca que apostou nessa estratégia foi a Nestlé,


maior empresa de alimentos e bebidas do mundo, ao utilizar as tecnologias
em questão, a companhia conseguiu melhorar em 9% a acuracidade da
sua previsão de demanda (SONDA, 2020).

Sistemas de recomendação
Essa técnica trabalha do seguinte modo: após ter os dados coletados
e analisados por meio da combinação das técnicas de aprendizado de
máquina e Big Data, é possível realizar recomendações a partir de um
conjunto de dados coletados.

REFLITA:

Você pode perceber no seu cotidiano que sites como


Amazon e a plataforma da Netflix utilizam isso para
recomendar seus recursos personalizados aos usuários,
de forma que os sistemas fazem sugestões ao usuário,
aperfeiçoando a experiência e melhorando o engajamento.

Conforme Taurion (2013) destaca, a utilização de interfaces de voz


com o usuário perguntando e o computador respondendo em viva voz,
é um exemplo de sucesso, com o muito conhecido Siri da Apple, é um
aplicativo que usa o processamento de linguagem natural para responder
perguntas, fazer recomendações e executar várias ações.
Big Data e Ciência de Dados 21

Agrupamento
Outra técnica que pode podemos destacar é o Clustergram, utilizada
para visualizar análises de clusters (cluster analysis) ou agrupamentos, as
quais se combina as técnicas de aprendizado de máquina e Big Data para
realizar a análise de agrupamentos que fazem a classificação de objetos
em diversos grupos, cada um contendo os objetos semelhantes segundo
alguma função de distância estatística.

Esta classificação deve ser feita de modo automática, sem


intervenção do usuário, sem características dos grupos e sem a utilização
de grupos de teste previamente conhecidos para direcionar a classificação
(TAURION, 2013)

RESUMINDO:

Chegamos ao final da unidade, pela qual estudamos como


a análise do Big Data precisa de técnicas multidisciplinares
para processar com qualidade o grande volume de dados no
momento da execução. Descrevemos como o surgimento e
o avanço das aplicações de Big Data estimularam o amplo
interesse no aprendizado de máquina, o que acarretou
no fato de Big Data produzir informações importantes e
utilizar algoritmos de aprendizado de máquina, em que
se podem extrair padrões e criar modelos preditivos.
Estudamos ainda como o aprendizado de máquina fornece
o desenvolvimento de técnicas computacionais que
modificam os aspectos de seu comportamento na forma
em que a experiência é adquirida. Destacamos dois tipos
mais utilizados e o descrevemos, especialmente, ligando-
os ao aprendizado supervisionado e não supervisionado.
Por fim, foi descrito algumas técnicas e alguns exemplos de
como combinar as técnicas de aprendizado de máquinas e
Big Data, pode contribuir em aplicações, como empresas
como Netflix, Amazon, e varejista de mercado, ganharam
muitas vantagens devido a associarem esses recursos.
22 Big Data e Ciência de Dados

Gerência de Dados e Computação na Nuvem

OBJETIVO:

Como já é do nosso cotidiano utilizarmos os recursos de


Computação em Nuvem para “guardar” nossas aplicações,
arquivos e trabalhos que ficam disponíveis nela. Agora,
neste capítulo, vamos nos deter a estudar mais afinco este
recurso tecnológico.
Neste capítulo, estudaremos sobre a gerência de dados por
meio da Computação na Nuvem e como ela se relaciona
com as aplicações em Big Data. Prontos? Vamos lá!

Computação na Nuvem
A Computação em Nuvem pode ser conceituada como um modelo
que possibilita acesso por demanda a um agrupamento de elementos
computacionais que podem ser configuráveis, como CPU, armazenamento
e memória. Estes, por sua vez, podem ser disponibilizados de modo rápido
com o mínimo esforço de gerenciamento ou assistência do provedor da
Nuvem (MELL; GRANCE, 2009).
Figura 4 – Computação em Nuvem

Fonte: Pixabay
Big Data e Ciência de Dados 23

Podemos destacar a importância que a Computação em Nuvem


traz para as empresas abaixo, como exposto por Savarese Neto (2019):

• Redução de custos: tem um custo minimizado com aquisição


de hardware e com mão de obra para instalar e dar suporte a
softwares, sistemas e servidores, como também, o ganho de custo
reduzido com relação à economia de energia com os dispositivos
funcionando e de espaço físico nas empresas.

• Flexibilidade: um ganho nesse aspecto relaciona-se ao fato


de explorar novos meios de organizar a equipe, permitindo, por
exemplo, o home office.

• Escalabilidade: neste quesito há um ganho relacionado aos


gestores de TI, pois não necessitam decidir o que será preciso
para contratar os serviços e evita o risco de não utilizar recursos
desnecessários ou necessitar obter um aumento da estrutura em
curto espaço de tempo. Com a Computação em Nuvem, existe a
possibilidade de adquirir maior capacidade de armazenamento e
de processo de modo automático.

• Desempenho: com relação ao desempenho, obtém-se uma


vantagem com relação aos data centers que contêm as principais
soluções da Computação em Nuvem, pois sempre estão sendo
atualizados, permitindo assim a garantia de utilizar a melhor
tecnologia para a experiência dos usuários.

Assim, podemos entender que a Computação em Nuvem está


sendo um recurso muito importante para a indústria, principalmente para
as de tecnologias.

A Nuvem é uma metáfora para a Internet ou infraestrutura de


comunicação entre os elementos arquiteturais, fundamentado em uma
abstração que esconde a complexidade de infraestrutura (BUYYA et al. 2009).

Desta maneira, parte dessa infraestrutura é tida como um serviço e


estes são geralmente alocados em centros de dados, usando hardwares
compartilhados para Computação e armazenamento (BUYYA et al. 2009).
24 Big Data e Ciência de Dados

IMPORTANTE:

É importante destacar que existem algumas propriedades


básicas que diferem a Computação em Nuvem dos
sistemas distribuídos tradicionais (e.g. sistemas em grade,
clusters, P2P etc.) e estão relacionadas ao seu caráter
atrativo: autosserviço sob demanda, elasticidade rápida,
pagamento conforme o serviço usado (Pay-as-you-go),
nível de qualidade de serviço (SLA), agrupamento ou
Pooling de recursos.

Na próxima seção, serão apresentados os modelos de


implementação da Computação em Nuvem.

Modelo de implementação
É importante descrever que o acesso e disponibilidade aos
ambientes de Computação em Nuvem, apresentam diferentes tipos de
modelos de implementação. Algumas exceções ou aberturas de acesso
dependem do tipo de informação e do nível de visão.

Essas particularidades e outras se dão porque as empresas requerem


permissões diferentes aos seus usuários para que possam acessar e
utilizar determinados recursos em seus ambientes de Computação em
Nuvem.

Assim, temos os seguintes modelos de implementação da


Computação em Nuvem, podendo estes serem divididos em Nuvem
pública, privada, comunidade e híbrida (MELL; GRANCE, 2009).

Segue a descrição de cada um conforme Machado et al. (2009):

• Nuvem privada

Nesse modelo de implementação de Nuvem privada, a infraestrutura


de Nuvem é usada de forma particular na organização, de modo
que, a Nuvem local ou remota, pode ser administrada pela própria
empresa ou por terceiros. Este modelo trata a implementação
de determinadas políticas de acesso aos serviços. As técnicas
Big Data e Ciência de Dados 25

usadas por fornecer tais características podem ser em nível de


gerenciamento de redes, configurações dos provedores de serviços
e usada em tecnologias de autenticação e autorização.

• Nuvem pública

Nesse modelo de implementação de Nuvem pública, a infraestrutura


de nuvens é disponível para o público em geral, podendo ser
acessada por qualquer usuário que conheça a localização do
serviço, assim, entendemos este modelo de implementação como
não existindo restrições de acesso quanto ao gerenciamento
de redes, e menos ainda, usando técnicas para autenticação e
autorização.

• Nuvem comunidade

Nesse modelo de implementação de Nuvem comunidade, acontece


o compartilhamento por várias empresas de uma Nuvem, sendo
esta mantida por uma comunidade específica que compartilha
seus interesses, bem como, os requisitos de segurança, política e
requisitos sobre flexibilidade. Vale ressaltar que este tipo de modelo
de implementação pode existir localmente ou remotamente e,
geralmente, é administrado por alguma empresa da comunidade
ou por terceiros.

• Nuvem híbrida

Nesse modelo de implementação de Nuvem híbrida, há como


componente duas ou mais nuvens que podem ser privadas,
comunidade ou pública, permanecendo como entidades únicas
e ligadas por uma tecnologia padronizada ou proprietária que
possibilita a portabilidade de dados e aplicações.

Na próxima seção, estudaremos sobre os modelos de serviços


oferecidos pela Computação em Nuvem.

Modelos de serviço
Outro aspecto importante para destacar na Computação em
Nuvem, são os modelos de serviços que ajudam a atender às demandas
26 Big Data e Ciência de Dados

de serviços conforme os padrões e características, assim, criou-se uma


série de modelos de serviço de Cloud. Os principais modelos segundo
Pedroso (2014) são:

• SaaS (Software como Serviço): esse modelo trata da capacidade


de disponibilizar aplicações ao usuário final. A principal contribuição
é a abstração de tudo que está por trás da execução da aplicação
para usuário, assim o custo é minimizado e não existe a necessidade
de saber e interagir com a tecnologia e infraestrutura. Como
exemplos que utilizam os serviços do modelo, temos a Customer
Relationship Management (CRM) da Salesforce e o Google Docs.

• PaaS (Plataforma como Serviço): esse modelo trata a camada


que possibilita usar recursos da Nuvem com pouca necessidade
de intervenção na infraestrutura de TI. A ênfase está no
desenvolvimento de aplicações importantes ao negócio, sem
necessidade em dar suporte a toda infraestrutura do ambiente.
Exemplos desse modelo são o Google App Engine e Microsoft
Azure.

• IaaS (Infraestrutura como Serviço): esse modelo trata de prover


os recursos computacionais básicos, como o hardware para
processamento e armazenamento e deixando os detalhes de
responsabilidade do contratante a administração do ambiente de
software. Exemplos desse modelo são o Amazon Elastic Cloud
Computing (EC2) e o Eucalyptus.

Computação em Nuvem e Big Data


No contexto para melhorar o gerenciamento e minimizar os custos,
as aplicações de Big Data têm usado ambientes de Cloud Computing ou
Computação em Nuvem (AGRAWAL et al., 2011).

Estes ambientes possibilitam que as empresas e pessoas


aluguem capacidade de Computação e armazenamento sob demanda
e com pagamento com base na utilização, em vez de fazerem grandes
investimentos de capital necessários para a construção e instalação de
equipamentos de Computação em larga escala (SOUSA et al., 2010).
Big Data e Ciência de Dados 27

Além do que, a Computação em Nuvem disponibiliza ambientes


com ampla capacidade de armazenamento, escalabilidade, elásticos,
com alto desempenho e elevada disponibilidade.

Dessa forma, a Nuvem permite ser uma opção mais viável para
a idealização de aplicações de gestão e análise de grandes massas de
dados (AGRAWAL et al., 2011)

A cada dia as empresas e os consumidores estão buscando na


Nuvem um meio mais prático para gerenciar seus dados, uma vez que ela
possibilita o acesso rápido e sempre disponível aos dados, mesmo com
proporção de que um maior número de dispositivos com amplos níveis de
inteligência esteja conectado a diversas redes DURBANO (2020).

Desse modo, o consumidor deixa de se importar com a capacidade


de armazenamento dos dispositivos e acabam utilizando mais da
Computação em Nuvem (REINSEL, 2018).
Figura 6 – Computação em Nuvem e Big Data

Fonte: Pixabay

Conforme Hashem (2013), a Computação em Nuvem e Big Data


estão correlacionadas. O Big Data oferece aos usuários a capacidade
de utilizar Computação para processar e analisar uma massa de dados
em tempo rápido, já a infraestrutura de Computação em Nuvem,
pode contribuir como uma plataforma eficiente para trabalhar com o
armazenamento de dados precisos por fazer análise de Big Data.
28 Big Data e Ciência de Dados

Por conseguinte, o desenvolvimento da Computação em Nuvem


oferece soluções para o armazenamento e processamento de Big Data,
no qual o surgimento de Big Data também foi responsável por acelerar o
desenvolvimento da Computação em Nuvem (CHEN, 2016).

Entretanto, conforme Taurion (2013) afirma, os custos da Computação


em Nuvem são minimizados devido a utilização de servidores virtuais,
contudo estes podem gerar um aumento de custo com relação a grande
massa de dados por redes de comunicação e para o provedor da Nuvem.

SAIBA MAIS:

Leia sobre a Computação em Nuvem usada nas aplicações


de Big Data no artigo Como usufruir do seu Big Data com a
Computação em Nuvem. Acesse clicando aqui.

Podemos ainda destacar um exemplo interessante de uso de


Big Data em Nuvem, o Etsy, um site de e-commerce especializado em
produtos de artesanato e artigos de época que contém mais de onze
milhões de usuários, resultando em 25 milhões de visitantes únicos e 1,1
bilhões de page views por mês.

Atualmente, o Etsy captura mais de 5GB de dados por dia, dessa


forma, a grande massa de dados é analisada em uma Nuvem pública para
gerar uma análise melhor do comportamento dos seus clientes e realizar
análises preditivas (TAURION, 2013).

Dessa forma, o Etsy tem conseguido definir quais os produtos que


melhor se adequam e as preferências de um determinado cliente. Assim,
não é necessário instalar grandes servidores para realizar esta análise,
uma vez que a Etsy utiliza a Nuvem e paga apenas pelo tempo utilizado
para realizar a tarefa (TAURION, 2013).

Ainda temos empresas como Amazon, Microsoft, Google, entre


outras tantas que fazem uso desses recursos de Computação e Nuvem
e Big Data.
Big Data e Ciência de Dados 29

Gerenciamento de dados de Computação


em Nuvem
Temos que destacar o fator do gerenciamento de dados ser
considerado um ponto crítico no aspecto de Computação em Nuvem
devido os SGBDs relacionais não possuírem escalabilidade quando
milhares de sítios são considerados (WEI et al., 2009).

Dessa forma, elementos de armazenamento de dados, processamento


de consultas e gerência transacional têm se tornado mais flexíveis para
algumas abordagens, de modo a garantir a escalabilidade, porém ainda não
há soluções que juntem estes elementos de modo a melhorar o desempenho
sem implicar a consistência dos dados (ABADI, 2009).

Nesse contexto, diversas abordagens surgem para gerenciar dados


em nuvens, dentre as quais podemos citar o Microsoft Azure e HBase
(BRANTNER et al., 2008).

Um ponto importante é o trade-off entre as funções e os custos


operacionais enfrentados pelos provedores de serviços, nos quais
destacam-se os serviços em Nuvem para dados que disponibilizam
APIs que contêm mais restrições do que os SGBD relacionais, com
uma linguagem minimalista de consulta e promovendo a garantia de
consistência limitada (ABOUZEID et al., 2009).

Por conseguinte, temos a exigência e a necessidade de maior


esforço de programação dos desenvolvedores, todavia, possibilita aos
provedores idealizarem serviços mais previsíveis.

Segundo Armbrust et al. (2009), a construção de um sistema de


armazenamento que junta os vários recursos de Computação em Nuvem
de modo a ampliar a escalabilidade, a disponibilidade e consistência dos
dados, é um problema de campo aberto para estudos e pesquisa.

Assim, temos os SGBDs em Nuvem que surgiram para serem


usados como atrativo para chamar clientes de vários setores do mercado,
desde pequenas empresas com o intuito de minimizar o custo total, por
meio da utilização de infraestrutura e sistemas de terceiros, como até
grandes empresas que sempre buscam soluções para gerenciar suas
30 Big Data e Ciência de Dados

grandes quantidades de máquinas e possibilitar o atendimento de um


aumento inesperado de tráfego (ABADI, 2009).
Figura 7 – Banco de dados e infraestrutura

Fonte: Pixabay

A infraestrutura de SGBDs em Nuvem possui várias vantagens para


os usuários. A seguir, temos algumas dessas vantagens conforme Curino
et al. (2010):

• Previsibilidade e custos reduzidos proporcionais à qualidade do


serviço (QoS) e cargas de trabalho em tempo real.

• Complexidade técnica minimizada devido às interfaces de acesso


unificadas e a delegação de tuning, bem como a administração de
SGBDs.

• Elasticidade e escalabilidade, permitindo a percepção de recursos


quase infinitos, como ainda, o provedor tem que possibilitar a
garantia da ilusão de recursos infinitos por meio de cargas de
trabalho dinâmicas e reduzir os custos operacionais relacionados
a cada usuário.

Contudo, existem vários sistemas e arquiteturas que estão sendo


implementados para atender às novas demandas de aplicações com variados
requisitos de processamento e armazenamento (ABOUZEID et al., 2009).
Big Data e Ciência de Dados 31

Estes novos sistemas tentam fornecer uma visão de armazenamento


e escalabilidade infinitos, mas devem tratar o problema de provisionar
recursos.

Esse problema, que em SGBDs tradicionais contêm em definir quais


recursos são alocados para um único banco de dados, no contexto de
ambiente em Nuvem, torna-se um problema de otimização quando se
tem uma grande quantidade de usuários, múltiplos SGBDs em Nuvem e
grandes centros de dados (ABOUZEID et al., 2009).

Dessa forma, os SGBDs em Nuvem oferecem uma oportunidade


para explorar a economia em escala, gerando balanceamento dinâmico de
carga e gerenciamento da economia em escala (ABOUZEID et al., 2009).

RESUMINDO:

Neste capítulo, para entender o gerenciamento de


Computação em Nuvem, abordamos primeiro um pouco
mais sobre o entendimento deste recurso, tendo em vista
que a Computação em Nuvem é muito importante para
a indústria, principalmente para as áreas de tecnologia.
O termo Nuvem é uma metáfora para a Internet ou
infraestrutura de comunicação entre os elementos
arquiteturais, fundamentado em uma abstração que
esconde a complexidade de infraestrutura. Estudamos
sobre como descrever o acesso e disponibilidade aos
ambientes de Computação em Nuvem, apresentando
os diferentes tipos de modelos de implementação, que
são: Nuvem pública, privada, comunidade e híbrida. Logo
após, estudamos sobre os modelos de serviços e, assim,
a partir do entendimento desses conceitos, podemos
compreender melhor sobre o gerenciamento de dados em
Nuvem, os pontos críticos dessa infraestrutura. Vimos ainda
o surgimento dos SGBDs em Nuvem que são usados como
atrativo para clientes de vários setores do mercado, desde a
pequenas e grandes empresas com o intuito de minimizar o
custo. Por fim, apresentamos o uso combinado de Big Data
e Computação em Nuvem trazendo a importância destes
para as diversas aplicações existentes e para as empresas.
32 Big Data e Ciência de Dados

Bioinformática

OBJETIVO:

Neste capítulo, estudaremos sobre a bioinformática


juntamente com seus conceitos, características, histórico
e aplicações. Também, abordaremos exemplos de
tecnologias que trabalham com esse tipo de solução e
ainda veremos como elas se relacionam com a Ciência dos
Dados e Big Data. Vamos lá!

Histórico da Bioinformática
Ao longo do tempo, a biologia molecular cresceu exponencialmente.
Isso se deve pelo fato do aperfeiçoamento da automação na produção
de dados de sequências de genótipos para fenótipos, tornando-se muito
mais uma ciência de informação.

Contudo, conforme Medeiros Filho et al. (2002), esse aumento


no volume de sequências genéticas a serem armazenadas, passou a
precisar de algoritmos computacionais eficientes que fornecessem o
compartilhamento, análise e armazenamento desses dados.
Figura 8 – Os avanços na Biologia

Fonte: Pixabay
Big Data e Ciência de Dados 33

De acordo com Edwards et al. (2009), o mais interessante para


os cientistas enfatizarem é o quesito da análise desses dados estarem
associados a qualidade das sequências e suas anotações suportadas nos
bancos de dados públicos.

Deste modo, surgiu a Bioinformática como um novo campo de


estudos e trabalho que oferece um meio de conexão entre os dados
biológicos e as hipóteses científicas indagadas nas pesquisas ligadas, por
exemplo, ao fluxo da informação gênica.

Temos a Bioinformática sendo uma área multidisciplinar envolvendo


as áreas de engenharia de softwares, matemática, estatística, ciência
da Computação e a biologia molecular, em que necessita de sistemas
computacionais robustos, bem como profissionais qualificados e
especializados (MEDEIROS FILHO et al., 2002).

Lorenzoni (2019) descreve algumas funções da Bioinformática,


apresentadas a seguir:

• A implementação de novos algoritmos e estatísticas.

• Análise e interpretação de diversos tipos de dados biológicos.

• Desenvolvimento e idealização de ferramentas que possibilitem o


acesso e gerenciamento eficazes de variados tipos de informações.

Essas funções da Bioinformática, tem como intuito, de modo


sucinto, a realização de trabalhos nos seguintes campos, de acordo com
Lorenzoni (2019):

• Análise de sequência incluindo o alinhamento de sequência,


pesquisa em banco de dados, a busca de motivos e padrões,
descoberta de genes e promotores, reconstruir as relações
evolutivas e montagem e comparação de genoma.

• Análises estruturais incluindo comparação, classificação, previsão


de proteínas e estruturas de ácidos nucleicos.

• Análise funcional que incluem o perfil de expressão gênica,


previsão de interação proteína-proteína, prever a localização
subcelular, reconstruir e simular as vias metabólicas.
34 Big Data e Ciência de Dados

Na Figura 9, há a representação da visão geral com os objetos de


estudo relacionados à Bioinformática.
Figura 9 – Representação de algumas das principais áreas da Bioinformática

Alinhamento
de sequência

Dinâmica Biologia de
molecular sistemas

Abordagem
computacional
Atrocamento Modelagem
para os
molecular comparativa
sistemas
biólogicos

Modelagem ab
FIlogênia
inito

Predição
de função
génetica

Fonte: Adaptada de Verli (2014).

De modo geral, podemos destacar, por meio da representação


anterior que os objetos de estudo relacionados à Bioinformática são
vários e sequências de biomoléculas, nos quais incluem: comparações
entre sequências (alinhamento); identificação de padrões em sequências
(assinaturas); caracterização de relações evolutivas (filogenia); construção
e anotação de genomas; construção de redes (biologia de sistemas);
obtenção de modelos 3D para proteínas e outras biomoléculas (por
exemplo, modelagem comparativa); identificação do modo de interação
Big Data e Ciência de Dados 35

de moléculas (atracamento); seleção de compostos com maior potencial


de inibição (atracamento); caracterização da flexibilidade molecular
(dinâmica molecular); avaliação do efeito de mudanças na estrutura e
ambiente molecular na dinâmica e função de biomoléculas (dinâmica
molecular) (LORENZONI, 2019).

SAIBA MAIS:

Para saber mais sobre o assunto, faça a leitura do


artigoBioinformática: descubra o que é e como essa ciência
vem crescendo a cada dia. Acesse clicando aqui.

Este artigo traz algumas aplicações que usam Bioinformática, como:


armazenamento, processamento de sequências biológicas, manipulação
e organização de bases de dados biológicas; modelação de processos
metabólicos e regulatórios de tecidos de celulares de organismos e ao
nível celular modelação e simulação de processos biológicos.

Nessa próxima seção, serão apresentadas outras características de


Bioinformática como workflow.

Workflow de Bioinformática
Um workflow científico pode ser conceituado como uma
especificação formal de um processo científico que representa as etapas
a serem executadas em algum experimento (DEELMAN et al., 2009).

Essas etapas ou atividades podem ser programas ou sistemas


que concebem a automatização a um processo, otimizando o modo de
trabalho.

Várias áreas da biologia molecular usam workflows em seus


experimentos científicos (BOEKEL et al., 2015), nos quais, usualmente
são processados dados originados de projetos ligados ao genoma,
transcriptoma, metaboloma, entre outros, de modo que, cada execução
de um workflow científico de Bioinformática pode produzir um grande
massa de dados, que devem ser armazenados para execuções novas
análises ou confirmações de resultados.
36 Big Data e Ciência de Dados

Podemos destacar que um dos problemas ao qual a Bioinformática é


focada, é a montagem de fragmentos de DNA, de modo que os fragmentos
de DNA são originados do sequenciamento de alto desempenho e são
chamados reads.

Entende-se as reads como strings de um alfabeto que representa


o DNA ou o RNA. Por meio dos alinhamentos das reads, a montagem
consegue sequências contíguas (contigs) que representam o DNA original
da amostra (ZERBINO, 2008).

Por conseguinte, a montagem de fragmentos pode utilizar um


genoma de referência, neste caso, as reads são alinhadas contra um
genoma de organismo filogeneticamente próximo ao organismo do qual
provêm as reads.

Por outro lado, a montagem sem um genoma de referência é


chamada de montagem de novo (BLEIDORN, 2017).

IMPORTANTE:

Vale ressaltar que os experimentos científicos da


Bioinformática geralmente são representados como
workflows científicos que são usados especialmente em
projetos do genoma e transcriptoma em experimentos que
englobam análise de sequenciamento de DNA e/ou RNA,
como a montagem de fragmentos.

Segundo Saldanha (2012), as análises são precisas, pois os


fragmentos criados pelos sequenciadores automáticos devem fazer a
verificação da sua qualidade, verificando se estão juntos, se os fragmentos
forem muito pequenos ou ter identificadas suas funções biológicas, entre
outras. Essas análises podem ser feitas em várias etapas e em diferentes
ferramentas que compõem os workflows.

Proveniência de dados em Bioinformática


Já vimos que a Bioinformática é multidisciplinar e que contém
a utilização intensa de ferramentas computacionais. Conforme Mattos
Big Data e Ciência de Dados 37

et al. (2008), esta ciência tem como intuito a coleta, organização,


armazenamento, recuperação e a análise de dados biológicos,
promovendo assim a inferência ou busca de informações sobre a biologia
e/ou evolução dos organismos.

Vale destacar que a Bioinformática e seus experimentos podem


ser efetuados por várias fases, sendo executados em programas com
configurações específicas e parâmetros por equipes variadas e que
processam uma grande massa de dados.

Segundo Paula (2012), oferecer a proveniência de dados em projetos


de Bioinformática, exige uma solução que possibilite armazenar a ligação
entre os dados processados, combinando-os com as informações das
execuções de cada processo e de seus resultados.

A definição tratada por Buneman et al. (2001) apresenta o termo


proveniência como “linhagem” ou “pedigree” que se refere o histórico
de como aquele dado foi criado ou derivado. Isto implica relatar que o
significado de proveniência é a origem ou procedência.

De acordo com Almeida (2015), a proveniência de dados torna-


se cada vez mais presente no ambiente científico, tanto para oferecer
a garantia da origem dos dados, como para realizar avaliação e a sua
acurácia.
Figura 10 – Dados biológicos

Fonte: Pixabay
38 Big Data e Ciência de Dados

Segundo de Paula (2012), a proveniência possibilita que os cientistas


estudem com mais detalhes seus experimentos e, sempre que necessário,
possam refazê-los de um modo mais estruturado e controlado.

A utilidade da proveniência de dados vai além da reprodução de


experimentos, pois a procedência tem uma grande utilidade ao fornecer
aos cientistas uma variedade de aplicações de análise de dados,
possibilitando, por exemplo, a verificação e a qualidade dos dados oriundas
por meio da análise de suas referências ancestrais e determinando a
confiabilidade dos estudos (MARINHO et al., 2009).

Conforme Goble (2002) relata, algumas funcionalidades da


proveniência de dados, são:

• Qualidade dos dados: por meio do histórico de todo processo de


elaborar dados ou execução do experimento de quem o originou,
que base de dados veio, em que o dado foi armazenado, entre
outros, fazendo a estimativa do grau de qualidade e confiabilidade
pelo qual o dado foi utilizado.

• Controle de replicação: a proveniência detalhada possibilita


que um dado ou experimento possa ser replicado por meio dos
mesmos métodos, mesmas ferramentas e parâmetros.

• Propriedade e segurança: é contido um controle rigoroso sobre


o dono do experimento e todos seus dados, tanto para fins de
direitos autorais e citações, como também para responsabilidades
caso os dados possam estar errados.

• Informacional: informações relevantes para a pesquisa são


extraídas na proveniência, como: o autor, membros da equipe,
local, etc., pelo qual, oferecem uma certa importância para a
interpretação dos dados.

Na próxima seção, estudaremos sobre as aplicações da


Bioinformática.
Big Data e Ciência de Dados 39

Aplicações da Bioinformática
Assim, podemos destacar no campo da Bioinformática algumas
aplicações e suas contribuições, descritas conforme Lorenzoni (2019):

• Aplicada na área agrícola: a Bioinformática é adotada em


pesquisas agrícolas por conta do seu grande volume de dados
inerentes às diferentes culturas. Essa técnica possibilita uma análise
mais completa dos dados, contribuindo com o entendimento dos
pesquisadores.

Ao associar os recursos genéticos vegetais com a Bioinformática,


é possível obter ganhos nos mais diversos programas de melhoramento,
obtendo cultivos mais resistentes a estresses bióticos e abióticos,
melhorando a qualidade nutricional e gerando novas formas de energia
renováveis.

Exemplos de uso da Bioinformática:

• Genética comparativa: a genética comparativa consiste em


avaliar planta modelo e planta não modelo. As espécies podem
revelar uma organização de seus genes, uma em relação à outra,
que é usada para transferir informações dos sistemas de plantas
modelo para outras culturas alimentares.

• Fontes de energias renováveis: é sabido que um dos melhores


meios para obter energia é a biomassa vegetal, como exemplos
temos o milho, cana, entre outras.

Por meio das ferramentas de Bioinformática, é possível detectar


variações nas sequências associadas a fenotipagem e que possam
identificar genótipos superiores para maximizar a produção de biomassa.

Assim, combinando o uso da interação das ômicas com a


Bioinformática, é possível aumentar a capacidade de desenvolvimento de
culturas para serem usadas como matéria-prima de biocombustível.

• Melhoramento de plantas: ajuda a compreender a base genética


e molecular de todos os processos biológicos nas plantas. Isso é
importante, pois possibilita a exploração eficaz de plantas como
40 Big Data e Ciência de Dados

recursos biológicos no desenvolvimento de novas culturas com


melhor qualidade e custos econômicos em ambientais reduzidos.

Assim, isso pode acontecer devido aos dados serem acessados e


analisados por meio de ferramentas de Bioinformática.

• Melhoramento para qualidade nutricional: um dos exemplos


mais clássicos de alimentos biofortificados é o arroz dourado,
o qual foi enriquecido com betacaroteno que no organismo é
facilmente convertido para vitamina A.

• Fitopatologia: a Bioinformática possibilitou mapear todo o


genoma de muitos organismos, contribuindo, dessa forma, com
o entendimento da arquitetura genética de microrganismos e
patógenos para verificar como esses afetam a planta hospedeira,
usando a abordagem metagenômica e transcriptômica.

Destaca-se que a Bioinformática tem muitas aplicações práticas no


gerenciamento atual de doenças de plantas no que diz respeito ao estudo
das interações do hospedeiro-patógeno.

Bioinformata
Neste contexto da Bioinformática e seus objetos de estudos, surge
outro tipo de profissional: o bioinformata. Esse deve ter a habilidade e
competência de identificar os problemas biológicos e solucioná-los por
meio do uso de ferramentas computacionais (SOARES, 2006).

Esse profissional de Bioinformática deve ter habilidades não


somente de aptidão em conhecimentos técnicos computacionais,
como também, dominar a ciência de dados e Big Data, saber lidar com
o desenvolvimento de sistemas, entender ainda sistemas já existentes
e deve ter conhecimentos específicos de Ciências Biológicas, como a
Biologia Molecular, destacando-se que a linguagem de programação
mais adotada nessa área é o Python.
Big Data e Ciência de Dados 41

Figura 11 – Bioinformata

Fonte: Pixabay

Esse profissional, bioinformata, tem que utilizar ferramentas robustas


e de grande poder computacional para solucionar problemas biológicos.
Em particular, deve lidar com problemas que envolvem grandes volumes
de dados.

Atualmente, estamos inseridos na era do Big Data, em que é


gerado a cada dia um conjunto gigantesco de dados, assim, é preciso
mais recursos para analisá-los.

RESUMINDO:

Estudamos, neste capítulo, um pouco mais sobre a


tecnologia da Bioinformática e como se relaciona com a
Computação e soluções como Big Data, tendo em vista
que este campo de pesquisa traz grandes contribuições
para a biologia e que, por meio dos seus recursos, geram
grande quantidade de dados que podem ser analisados
trazendo importantes contribuições acadêmicas.
42 Big Data e Ciência de Dados

Inovação Tecnológica e Novas Tendências

OBJETIVO:

Neste capítulo, vamos abordar as novas tendências e


inovações tecnológicas no campo de ciência de dados e
Big Data, como também, abordaremos os desafios futuros
neste campo. Vamos lá!

Com a grande produção de dados e novas tecnologias sendo


desenvolvidas, as técnicas de Big Data e Ciência de Dados acabam
crescendo e contribuindo para estes avanços.

Muitos especialistas relatam que o Big Data pode trazer grandes


mudanças de contexto econômico e social. Podemos citar algumas
tendências tecnológicas relatas por Paredes (2019):

• Os sistemas de armazenamento distribuído NoSQL são tendências


de crescimento devido a serem tão importantes para grandes
necessidades de dados e infraestrutura, como para empresas
como Google, Amazon e Facebook.

• Os sistemas distribuídos para promover o processamento e


análise de sinais e eventos de Internet das Coisas em tempo real
que possibilitam analisar uma grande massa de dados de modo
imediato.

• Os bancos de dados com processamento com base em Unidades


de Processamento Gráfico (GPUs) que estimulam o cálculo
de informações em massa e ajudam a minimizar os tempos de
treinamento de modelos e projetos de aprendizado de máquina.

• Os chatbots que possibilitam responder a consultas e executar


ações práticas e de modo automático e por meio de uma
linguagem natural.

Após esses exemplos de algumas tendências tecnológicas, na


próxima seção, será estudado sobre exemplos de inovação tecnológica.
Big Data e Ciência de Dados 43

Inovação tecnológica
O Big Data traz inovações em vários aspectos, como: contribui
no desenvolvimento de novas tecnologias, aplicações e na forma de
processos de tomada de decisões nas empresas.

Já estudamos também que há grandes inovações nas empresas


trazendo vantagens competitivas.

Segundo Amaral (2016), algumas inovações importantes que o Big


Data fornece nas suas aplicações é a capacidade de tornar os processos
produtivos mais eficientes, com custos reduzidos, produtividade e
intervalos de paradas não programadas menores.

No campo da Administração, o Big Data possibilita um ganho


no campo de fraudes, em que fornece a redução delas ao diminuir os
passivos judiciais e a verificação do pagamento de impostos.

Promove ainda inovação no campo do relacionamento com os


clientes, melhorando a fidelização, maior qualidade de seus produtos e
serviços.

O Big Data também gera modificação no relacionamento das


empresas com seus fornecedores e parceiros comerciais (AMARAL, 2016).

Conforme Taurion (2013), uma inovação é a capacidade do Big Data


impactar nos processos da empresa, dessa forma, acontecer o necessário
para que os próprios processos sejam revisados e incorporados os
resultados nas análises das fases de suas tarefas.

Exemplificando ofertas personalizadas para os clientes, usualmente


são realizadas quando planejadas e com antecedência de dias, tendo
uma campanha, realizam o filtro de clientes selecionados e enviam para
eles os e-mails com as ofertas, ou seja, dessa forma o Big Data se torna
uma oportunidade para identificar e enviar ofertas em tempo real.
44 Big Data e Ciência de Dados

Figura 12 – Inovação

Fonte: Pixabay

Nas próximas sessões, serão destacadas tecnologias que surgiram


trazendo inovação ligadas à como a Big Data.

Big Social Data


Uma das grandes tendências atuais de explorar Big Data é nas
redes sociais, como Facebook, YouTube e Twitter, por meio da conexão,
as pessoas estão produzindo exabytes de dados em suas interações (TAN
et al. 2013).

O volume, a velocidade e a capacidade de processar os dados de


diversas fontes, criam grandes desafios, dispersos ou combinados, a serem
superados ligados ao armazenamento, processamento, visualização e
análise dos dados.

NOTA:

Existe uma grande tendência de indivíduos se juntarem e


formarem grupos, algo que é uma característica de qualquer
sociedade (CASTELLS, 2000). Esse comportamento pode
ser replicado nos dias atuais por meio do avanço das mídias
sociais e grupos on-line que destacam o poder de unir
usuários ao redor de todo mundo.
Big Data e Ciência de Dados 45

Já vimos, ao longo dos nossos estudos, que a quantidade de dados


gerada na rede só aumenta a cada instante e novas unidades de medida
surgem para classificar as grandes massas de dados.

Esse grande volume de dados de diferentes tipos está sendo produzido


por diferentes fontes independentes, distribuídas e descentralizadas que
geram de modo rápido, dados com relações complexas e em evolução,
sendo chamados de Big Data (SILVA et al., 2013).
Figura 13 – Redes sociais e Big Data

Fonte: Pixabay

Podemos destacar que o Big Data representa inovação no aspecto


da tecnologia, pois por trabalhar com bancos de dados NoSQL, realizar
processamento massivo paralelo, conter funções capazes de coletar,
tratar e analisar dados não estruturados como comentários postados no
Facebook, tem ganhado grande destaque global (TAURION, 2013).

Com isto, percebemos como ele traz contribuições devido ao


grande uso das redes sociais que acabam se tornando uma grande fonte
de dados para aplicar Big Data, trazendo informações importantes para
diversos segmentos de empresas.
46 Big Data e Ciência de Dados

IMPORTANTE:

É importante destacar que toda esta produção massiva e


diária das redes sociais, traz um problema muito conhecido
que são as tão faladas fake news, fato de espalhar notícias
falsas pela web. Percebemos, com a análise adequada dos
dados, um fator crítico e que traz um grande impacto, bem
como necessidade de poder possibilitar a verificação e
veracidade de tantas notícias geradas ao mesmo tempo.

Dessa forma, com a diversidade e quantidade de usuários usando


as redes sociais, torna este campo bastante explorado por analistas
e pesquisadores que buscam extrair ou inferir informações, podendo
estar relacionadas a outros campos como: predição de comportamento,
marketing, comércio eletrônico, entre outras interações (TAN et al., 2013).

Isso implica afirmar que essas análises devem ser eficientes, como
efetuadas quase em tempo real e com a capacidade de prover trabalhos
com vários grafos.

Tecnologia Blockchain
Temos atualmente o surgimento de uma nova tecnologia, o banco
de dados de blockchain. O BigchainDB trata de combinar as vantagens de
bancos de dados distribuídos, por sua vez, o blockchain refere-se a trilhas
descentralizadas e imutáveis de auditoria e troca de ativos.

Este tipo de tecnologia traz inovação no campo de transações


financeiras, assim, o blockchain traz oportunidades para aqueles que
trabalham com soluções computacionais como Big Data, ciências de
dados e inteligência artificial.

Esse banco de dados, blockchain, tem característica de


escalabilidade e utiliza ambientes de Big Data. Esse tem a capacidade
de liberar o potencial de aplicações altamente importantes em Big Data,
contribuindo para o controle compartilhado de infraestrutura, trilhas de
auditoria em dados e permitir a troca de dados universal.
Big Data e Ciência de Dados 47

Figura 14 – Blockchain

Fonte: Pixabay

Um exemplo do uso de Big Data e Blockchain foi o consórcio de


47 bancos japoneses que se associaram a uma startup de blockchain
conhecida como Ripple para facilitar as transferências de dinheiro entre
contas bancárias usando o próprio blockchain, visto que os blockchains
oferecem risco minimizados quando comparados com as transações
tradicionais.

Assim, com a utilização, é permitido detectar padrões nos gastos do


consumidor e identificar transações de risco com maior velocidade, bem
como, reduzir o custo com as transações em tempo real (MATOS, 2020).

Internet das Coisas


Com certeza você sabe ou já ouviu falar sobre o termo Internet
das Coisas, que está tão em alta nas discussões em meios acadêmicos
e comerciais. Descrevemos a Internet das Coisas como a tecnologia
que contém uma taxa enorme de objetos sendo conectada à Internet,
compreendendo o que é denominada hoje como Internet das coisas
(Internet of Things ou IoT) (RATHOREA, 2016).

Esses objetos podem ser sensores, bancos de dados e outros


dispositivos ou software, existindo muitos domínios nos quais IoT ajuda e
facilita a vida das pessoas de modo bastante relevante em tarefas como
a assistência médica, automação, transporte e respostas emergências a
desastres naturais (RATHOREA, 2016).
48 Big Data e Ciência de Dados

Figura 15 – Internet das Coisas

Fonte: Pixabay

Os vários sensores produzem diferentes tipos de características,


exemplificando as tags que são aplicadas na identificação por
radiofrequência (RFID) e que disponibilizam a localização e tempo; os
GPSs, responsáveis por identificar a localização e marca-passos que
extraem informações sobre o coração (O’LEARY, 2013).

Nisto, os objetos de IoT tem englobando a si uma interface de rede,


possibilitando que as comunicações entre eles ofereçam vários serviços
para os usuários (NIYATO, 2016).

Contudo, muitas oportunidades são descritas pela capacidade


de analisar e utilizar grandes quantidades de dados de IoT, inclusive
aplicativos em cidades inteligentes, sistemas inteligentes de transporte
e de rede, medidores inteligentes de energia e dispositivos remotos de
monitoramento de saúde do paciente (MARJANI, 2017)

Conforme O’leary (2013), uma grande parte dos dados são


originados de objetos do universo da Internet das Coisas, tendo em vista
que produzem grandes massas de dados.

Outra característica é a velocidade dos dados, relacionada à IoT, ser


mais elevada quando comparada com o processamento tradicional, pois
os sensores podem capturar dados continuamente.

Esses dados também têm característica de grande variedade, visto que


temos cada vez mais vários tipos de sensores e diferentes fontes de dados.
Big Data e Ciência de Dados 49

Por fim, temos que a veracidade dos dados estão mais garantindo
confiabilidade devido ao modo que a qualidade dos sensores e outras
fontes de dados, tem melhorado com o tempo. Gerando, assim, que esses
aspectos associados impulsionam a geração de Big Data pela Internet
das Coisas.

RESUMINDO:

Estudamos, neste capítulo, uma visão geral de tendências


e tecnologias que estão surgindo, bem como elas se
relacionam com as aplicações Big Data. Vimos que a solução
computacional Big Data possibilita a inovação em vários
aspectos, no quesito de contribuir no desenvolvimento de
novas tecnologias, aplicações e na forma de processos de
tomada de decisões nas empresas. Algumas inovações
importantes que o Big Data fornece com suas aplicações
é a capacidade de tornar os processos produtivos mais
eficientes, com custos reduzidos, produtividade e intervalos
de paradas não programadas menores.
No campo da administração, o Big Data possibilita um
ganho no campo das fraudes, em que fornece a redução
delas, reduz passivos judiciais e avalia o pagamento de
impostos. Vimos ainda que a grande tendência das redes
sociais atuais está sendo um campo bastante explorado
por analistas e pesquisadores que buscam extrair ou inferir
informações sobre os dados gerados pelas redes.
Em seguida, estudamos o surgimento de uma tecnologia,
o Blockchain, que traz inovação no campo de transações
financeiras e se tornou uma oportunidade para aqueles
que trabalham com soluções computacionais como Big
Data, ciência de dados e inteligência artificial. Por fim,
estudamos outro recurso tecnológico, a Internet das Coisas
e vimos como funciona como uma grande geradora de
fonte de dados para utilizar Big Data e como elas podem
se relacionar.
50 Big Data e Ciência de Dados

REFERÊNCIAS
ABADI, J. Data management in the cloud: Limitations and
opportunities. IEEE Data Eng. Bull, v. 32, p. 3-12. 2009.

ABOUZEID, A. et al. Hadoopdb: an architectural hybrid of mapreduce


and dbms technologies for analytical workloads. PVLDB, p. 922-933. 2009.

AGRAWAL, D.; DAS, S.; El Abbadi, A. Big Data and cloud computing:
current state and future opportunities. In: INTERNATIONAL CONFERENCE
ON EXTENDING DATABASE TECHNOLOGY, 14., 2009, New York.
Proceedings […] New York: EDBT/ICDT, 2009. p. 530-533.

ALMEIDA, R. Proveniência de dados em workflow de Bioinformática


utilizando banco de dados baseado em grafo. Dissertação (Mestrado) –
Departamento de Ciência de Computação. UNB. Brasília. 2015.

AMARAL, F. Introdução à Ciência de Dados. São Paulo: Alta Books,


2016.

BIOINFORMÁTICA: descubra o que é e como essa ciência vem


crescendo a cada dia. Profissionais IT, 2019. Disponível em:https://www.
profissionaisti.com.br/2019/05/bioinformatica-descubra-o-que-e-e-
como-essa-ciencia-vem-crescendo-a-cada-dia/. Acesso em: 19 jun.
2020.

BLEIDORN, C. Assembly and data quality. [S. l.]: Springer, 2017.

BOEKEL, J. et al. Multi-omic data analysis using galaxy. Nature


Research, v. 33, n. 2, p. 137-139. 2015.

BRANTNER, M. et al. Building a database on s3. In: ACM SIGMOD


INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 8., 2008,
New York. Proceedings […] New York: ACM Press, 2008. p. 251.

BUNEMAN, P. et al. Why and where: a characterization of data


provenance. In: BUSSCHE, J. V. den et al. Database Theory. Berlin: Springer
Berlin Heidelberg, 2001.
Big Data e Ciência de Dados 51

CHEN, M.; MAO, S.; LIU, Y. Big Data: a survey. New York: [s. n.], 2014.

DAVIDSON, J. What is Statistics? SSCC, [s. d.]. Disponível em: https://


www.sscc.edu/home/jdavidso/mathadvising/AboutStatistics.html.
Acesso em: 15 jun. 2020.

COMO usufruir do seu Big Data com a Computação em Nuvem.


Tech Mundo, [s. d.]. Disponível em: https://www.tecmundo.com.br/
mercado/139695-usufruir-big-data-computacao-Nuvem.htm. Acesso
em: 18 jun. 2020.

DEELMAN, Ewa et al. Workflows and e-Science: An overview of


workflow system features and capabilities. Future Generation Computer
Systems, v. 25, n. 5, p. 528-540. 2009.

DURBANO, V. Computação em Nuvem. Ecoit, [s. d.]. Disponível em:


https://ecoit.com.br/computacao-em-Nuvem/. Acesso em: 19 jun. 2020.

EDWARDS, D.; STAJICH, J.; HASEN, D. Bioinformatics: tools and


applications. New York: Springer, 2009.

GOBLE, C. Position statement: Musings on provenance, workflow


and (semantic web) annotations for bioinformatics. In: WORKSHOP ON
DATA DERIVATION AND PROVENANCE, Chicago. [S.l.: s.n.], 2002.

HASHEM, T. et al. The rise of “Big Data” on cloud computing: Review


and open research issues. Information Systems, v. 47, p. 98-115. 2014.

KALLA, S. What is statistics? Explorable, [s. d.]. Disponível em:


https://explorable.com/what-isstatistics. Acesso em: 15 jun. 2020.

LI, W; HAN, J; PEI, J. Cmar: Accurate and efficient classification


based on multiple class-association rules. In: IEEE INTERNATIONAL
CONFERENCE ON DATA MINING, 1., 2001, San Jose. Proceedings […] San
Jose: ICDM, 2001. p. 369-376.

LORENZONI, R. Bioinformática – parte II: Fundamentos e aplicações.


Laborgene, 2020. Disponível em: https://www.laborgene.com.br/
fundamentos-da-bioinformatica/. Acesso em: 18 jun. 2020.
52 Big Data e Ciência de Dados

MARINHO, A. et al. A strategy for provenance gathering in


distributed scientific workflows. In: CONGRESS ON SERVICES, 1., 2009, [S.
l.]. Proceedings […] [S.l.: s. n.], 2009. p. 344-347.

MATOS, D. Big Data e as Oportunidades com Blockchain. Ciência de


Dados, 2020. Disponível em: http://www.cienciaedados.com/big-data-e-
as-oportunidades-com-blockchain/. Acesso em: 19 jun. 2020.

MATTOS, A. et al. Gerência de Workflows Científicos: uma análise


crítica no contexto da Bioinformática. São Paulo: [s. n.], 2008.

MEDEIROS FILHO, F. C. et al. Bioinformática: Manual do Usuário.


Biotecnologia Ciência e Desenvolvimento, Brasília, v. 5, n. 29, p. 12-25.
2002.

MICHALSKI, R. S.; CARBONELL, J. G.; MITCHELL, T. M. Machine


learning: An artificial intelligence approach. [S. l.]: Springer Science and
Business Media, 2013.

MOURA C. Aprendizado de Máquina: conceitos e práticas da área


que está movendo o mundo. Profissionais IT, 2017. Disponível em: https://
bit.ly/3zViE27. Acesso em: 17 jun. 2020.

NIYATO, D. Market Model and Optimal Pricing Scheme of Big Data


and Internet of Things (IoT). IEEEXPLORE, [s. d.]. Disponível em: https://
ieeexplore.ieee.org/document/7510922. Acesso em: 18 jun. 2020.

O’LEARY, E. ‘Big Data’, The ‘Internet Of Things’ And The ‘Internet of


Signs’. Intell. Sys. Acc. Fin. Mgmt., v. 20, p. 53-65. 2013.

PAI, V. Big Data new challenges, tools and techniques. IJERME, v. 1,


n. 1, p. 1-8. 2016.

PAREDES, A. Tendências Big Data 2019 para que o futuro não te


pegue de surpresa. IEB School, 2019. Disponível em: https://www.
iebschool.com/pt-br/blog/software-de-gestao/big-data/tendencias-
big-data-2019-para-que-o-futuro-nao-te-pegue-de-surpresa/. Acesso
em: 19 jun. 2020.
Big Data e Ciência de Dados 53

PEDROSO C. Big Data e Cloud Computing. Canal Tech, [s. d.].


Disponível em: https://canaltech.com.br/computacao-na-Nuvem/Big-
Data-e-Cloud-Computing/. Acesso em: 18 jun. 2020.

RATHOREA, U.; AHMAD, A.; PAUL, A. Urban planning and building


smart cities based on the Internet of Things using Big Data analytics.
Computer Networks, 2016.

REINSEL, D.; GANTZ, J.; RYDNING, E. The Digitization of the World:


From Edge to Core. Seagate. Seagate, 2018. Disponível em: https://www.
seagate.com/files/www-content/ourstory/trends/files/idc-. Acesso em:
19 jun. 2020.

ROZA, S. Aprendizagem de máquina para apoio à tomada de


decisão em vendas do varejo utilizando registros de vendas. Instituto de
Engenharia, 2018. Disponível em: https://www.institutodeengenharia.org.
br/site/2018/08/24/big-data-e-o-aprendizado-de-maquina/. Acesso
em: 17 jun. 2020.

RUSSELL, S.; NORVIG, P. Artificial intelligence – a modern approach.


Prentice Hall, v. 2, n. 1, 2003.

SALDANHA, V. Bionimbus: uma arquitetura de federação de nuvens


computacionais híbrida para a execução de workflows de Bioinformática.
Dissertação (Mestrado em Ciência da Computação). UNB. Brasília. 2012.

SAVARESE NETO, E. Computação em Nuvem: o que é, como


funciona e importância. Disponível em: https://fia.com.br/blog/
computacao-em-Nuvem/. Acesso em: 18 jun. 2020.

SOARES, E. Profissão do futuro: bioinformata vive entre bits e


células. [S. l.]: Portal IDGNow, 2006.

SOUSA, C.; MOREIRA, O. Computação em Nuvem: conceitos,


tecnologias, aplicações e desafios. ResearchGate, [s. d.]. Disponível
e m : h t t p s : // w w w. re s e a rc h g a t e . n e t /p ro f i l e /J a v a m _ M a c h a d o /
p u b l i c a t i o n /2 37 6 4 47 2 9 _ C o m p u t a c a o _ e m _ N u ve m _ C o n c e i to s _
Tecnologias_Aplicacoes_e_Desafios/links/56044f4308aea25fce3121f3.
pdf. Acesso em: 17 jun. 2020.
54 Big Data e Ciência de Dados

TAN, N.; STEINBACH, M.; KUMAR, V. Introduction to Data Mining,


(First Edition). Boston: Addison-Wesley Longman Publishing Co., Inc.,
2005.

TAN, W. et al. Social-Network-Sourced Big Data Analytics. Internet


Computing. IEEE Computer Society, v. 17, n. 5, p. 62-69, 2013.

TAURION, C. Big Data. São Paulo: BRASPORT, 2013.

THOMPSON, D.; HIGGINS, G. Machine learning e Big Data. Sonda,


[s. d.]. Disponível em: https://blog.sonda.com/machine-learning-e-big-
data/. Acesso em: 17 jun. 2020.

VERLI, H. et al. Bioinformática da Biologia à flexibilidade molecular.


GrandAdm, [s. d.]. Disponível em: http://www.gradadm.ifsc.usp.br/
dados/20171/7600011-3/Bioinformatica_1.1.pdf. Acesso em: 18 jun. 2020.

ZERBINO, D. et al. Velvet: algorithms for de novo short read assembly


using de bruijn graphs. Genome research, Cold Spring Harbor Lab, v. 18,
n. 5, p. 821-829. 2008.

ZHOUA, L. et al. Machine learning on Big Data: Opportunities and


challenges. Neurocomputing, p. 350-361. 2017.

Você também pode gostar