Você está na página 1de 259

Fundamentos de Big Data

Prof.a Barbieri Gonçalves


Prof. Glauber Rogério
Prof.a Izabelly Soares de Morais

Indaial – 2019
1a Edição
2019

Elaboração:
Prof. Barbieri Gonçalves
a

Prof. Glauber Rogério


Prof.a Izabelly Soares de Morais

Revisão, Diagramação e Produção:


Centro Universitário Leonardo da Vinci – UNIASSELVI

Conteúdo produzido
Copyright © Sagah Educação S.A.

Impresso por:
Apresentação
Prezado acadêmico!

Seja bem-vindo à disciplina de Fundamentos de Big Data.

Este Caderno de Estudos foi elaborado com o intuito de contribuir e


aprimorar o seu conhecimento acerca destas três unidades principais: Unida-
de 1: Conceitos de Big Data; Unidade 2: Infraestruturas para Processamento
de Big Data, Armazenamento, Suporte a Tempo Real e Desafios na Gerência
de Big Data; Unidade 3: Análise de dados, Integração e Recursos Humanos
para Big Data .

Big data e sua análise estão no centro da ciência moderna e negócios.


Esses dados são gerados a partir de transações on-line, e-mails, vídeos, áu-
dios, imagens, streams de cliques, registros, postagens, consultas de pesqui-
sa, registros de saúde, interações de redes sociais, dados científicos, sensores
e telefones celulares e seus aplicativos. Eles são armazenados em bancos de
dados que crescem de forma massiva e se tornam difíceis de capturar, for-
mar, armazenar, gerenciar, compartilhar, analisar e visualizar por meio de
ferramentas típicas de software de banco de dados.

Big Data é a tendência nos negócios porque através das técnicas e


métodos envolvidos é possível a geração de informação estratégica para as
organizações. Para os profissionais trata-se de mais um nicho para o mercado
que precisa de mão de obra qualificada e por isso, esta disciplina se torna tão
importante. Os conceitos aqui apresentados representam o amadurecimento
das técnicas, métodos, ferramentas e atividades utilizadas ao longo dos anos.

Aproveitamos esse momento para destacar que os exercícios NÃO


SÃO OPCIONAIS. O objetivo de cada exercício deste caderno é a fixação de
determinado conceito, bem como o aprimoramento dos seus saberes. É aí
que reside a importância de você estar realizando todas as atividades pro-
postas. Sugerimos fortemente que, em caso de dúvida, em algum exercício
você entre em contato com seu tutor externo ou com a tutoria da UNIAS-
SELVI e que não passe para o exercício seguinte enquanto o atual não estiver
completamente compreendido.

Por fim, ressalto que mesmo sendo uma área muito ampla, o Caderno
de Estudos lhe oferece um início sólido e consistente sobre o tema. Desejo a
você uma excelente experiência nos estudos dos conteúdos dessa disciplina!

III
NOTA

Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para
você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há
novidades em nosso material.

Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é


o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um
formato mais prático, que cabe na bolsa e facilita a leitura.

O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova
diagramação no texto, aproveitando ao máximo o espaço da página, o que também
contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo.

Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente,


apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade
de estudá-lo com versatilidade nas telas do celular, tablet ou computador.

Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para
apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto
em questão.

Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas
institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa
continuar seus estudos com um material de qualidade.

Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de


Desempenho de Estudantes – ENADE.

Bons estudos!

IV
V
LEMBRETE

Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela


um novo conhecimento.

Com o objetivo de enriquecer teu conhecimento, construímos, além do livro


que está em tuas mãos, uma rica trilha de aprendizagem, por meio dela terás
contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complementares,
entre outros, todos pensados e construídos na intenção de auxiliar teu crescimento.

Acesse o QR Code, que te levará ao AVA, e veja as novidades que preparamos para teu estudo.

Conte conosco, estaremos juntos nessa caminhada!

VI
Sumário
UNIDADE 1 - FUNDAMENTOS DE BIG DATA.................................................................................1

TÓPICO 1 - INTRODUÇÃO À CIÊNCIA DE DADOS......................................................................3


1 INTRODUÇÃO........................................................................................................................................3
2 CIÊNCIA DE DADOS............................................................................................................................3
3 INFLUÊNCIA DA CIÊNCIA DE DADOS NA TOMADA DE DECISÕES.................................5
4 CARACTERÍSTICAS DE UM CIENTISTA DE DADOS................................................................8
RESUMO DO TÓPICO 1........................................................................................................................10
AUTOATIVIDADE..................................................................................................................................12

TÓPICO 2 - CIÊNCIA DE DADOS E BIG DATA..............................................................................15


1 INTRODUÇÃO......................................................................................................................................15
2 DADOS E DATASETS...........................................................................................................................15
3 O USO DA CIÊNCIA DE DADOS E BIG DATA.............................................................................17
4 APLICAÇÕES PRÁTICAS DA CIÊNCIA DE DADOS E BIG DATA..........................................19
RESUMO DO TÓPICO 2........................................................................................................................21
AUTOATIVIDADE..................................................................................................................................23

TÓPICO 3 - DESCOBERTA DE CONHECIMENTO COM BIG DATA........................................25


1 INTRODUÇÃO......................................................................................................................................25
2 PROCESSO DE DESCOBERTA DE CONHECIMENTO..............................................................25
3 APLICAÇÃO DO PROCESSO DE DESCOBERTA DO CONHECIMENTO............................27
3.1 DEFINIÇÃO DOS OBJETIVOS.......................................................................................................27
3.2 SELEÇÃO...........................................................................................................................................27
3.3 PRÉ-PROCESSAMENTO.................................................................................................................28
3.4 TRANSFORMAÇÃO........................................................................................................................28
3.5 MINERAÇÃO DE DADOS..............................................................................................................29
3.6 INTERPRETAÇÃO E AVALIAÇÃO...............................................................................................29
4 BIG DATA NA ÁREA DA SAÚDE.....................................................................................................30
5 BIG DATA NA ADMINISTRAÇÃO PÚBLICA...............................................................................31
RESUMO DO TÓPICO 3........................................................................................................................32
AUTOATIVIDADE..................................................................................................................................33

TÓPICO 4 - APLICAÇÕES DA CIÊNCIA DE DADOS...................................................................35


1 INTRODUÇÃO......................................................................................................................................35
2 APLICAÇÃO DA CIÊNCIA DE DADOS.........................................................................................35
3 EXEMPLOS DE APLICAÇÃO DA CIÊNCIA DE DADOS...........................................................37
4 BUSINESS INTELLIGENCE (BI) E CIÊNCIA DE DADOS............................................................39
RESUMO DO TÓPICO 4........................................................................................................................41
AUTOATIVIDADE..................................................................................................................................43

TÓPICO 5 - INTELIGÊNCIA ARTIFICIAL.........................................................................................45


1 INTRODUÇÃO......................................................................................................................................45
2 O QUE É INTELIGÊNCIA ARTIFICIAL (IA)?.................................................................................45
3 HISTÓRICO............................................................................................................................................47
4 APLICAÇÕES.........................................................................................................................................50
RESUMO DO TÓPICO 5........................................................................................................................53
AUTOATIVIDADE..................................................................................................................................55

VII
UNIDADE 2 - INFRAESTRUTURAS PARA PROCESSAMENTO
DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO
REAL E DESAFIOS NA GERÊNCIA DE BIG DATA.............................................57

TÓPICO 1 - INFRAESTRUTURA DE DADOS E DE REDES II......................................................59


1 INTRODUÇÃO......................................................................................................................................59
2 GESTÃO DE CONTEÚDO EMPRESARIAL...................................................................................59
3 DATA WAREHOUSE..............................................................................................................................61
3.1 PROCESSAMENTO E MODELAGEM DE DADOS....................................................................63
3.2 PROCESSAMENTO OLAP.............................................................................................................64
3.3 MODELAGEM DE DADOS............................................................................................................65
3.4 MODELAGEM DIMENSIONAL....................................................................................................65
3.5 DATA MARTS...................................................................................................................................69
3.6 DATA CENTER.................................................................................................................................70
RESUMO DO TÓPICO 1........................................................................................................................72
AUTOATIVIDADE..................................................................................................................................73

TÓPICO 2 - INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II.....................................77


1 INTRODUÇÃO......................................................................................................................................77
2 INFRAESTRUTURA TRADICIONAL DE TI..................................................................................77
3 INFRAESTRUTURA EM NUVEM.....................................................................................................78
3.1 GERENCIAMENTO DE DADOS EM NUVEM...........................................................................82
3.2 BANCO DE DADOS COMO UM SERVIÇO................................................................................84
3.3 CARACTERÍSTICAS DO GERENCIAMENTO DE DADOS EM NUVEM.............................85
3.4 AVALIAÇÃO DE SERVIÇOS DE DADOS EM NUVEM............................................................86
3.5 CINCO TENDÊNCIAS EM SEGURANÇA DE DADOS............................................................87
RESUMO DO TÓPICO 2........................................................................................................................89
AUTOATIVIDADE..................................................................................................................................90

TÓPICO 3 - COMPUTAÇÃO NA NUVEM.........................................................................................93


1 INTRODUÇÃO......................................................................................................................................93
2 DATA CENTER........................................................................................................................................93
2.1 FUNÇÃO............................................................................................................................................94
2.2 ESTRUTURA.....................................................................................................................................94
3 TIPOLOGIA DA COMPUTAÇÃO EM NUVEM............................................................................95
3.1 PRINCIPAIS FORNECEDORES.....................................................................................................96
4 VANTAGENS E DESVANTAGENS DO MODELO PARA TOMADA DE DECISÕES..........96
RESUMO DO TÓPICO 3........................................................................................................................98
AUTOATIVIDADE................................................................................................................................100

TÓPICO 4 - ANALISAR E COMPREENDER A UTILIZAÇÃO


DO BANCO DE DADOS NOSQL................................................................................103
1 INTRODUÇÃO....................................................................................................................................103
2 BANCOS DE DADOS .......................................................................................................................103
3 MODELOS DE DADOS ....................................................................................................................104
3.1 MODELO HIERÁRQUICO...........................................................................................................104
3.2 MODELO EM REDE......................................................................................................................104
3.3 MODELO RELACIONAL.............................................................................................................105
3.4 MODELO ORIENTADO A OBJETOS..........................................................................................105
4 SGBD .....................................................................................................................................................105
5 BIG DATA ............................................................................................................................................105
6 NOSQL...................................................................................................................................................106
6.1 PRINCIPAIS CARACTERÍSTICAS DOS BANCOS DE DADOS NOSQL..............................108
6.2 TIPOS DE BANCOS DE DADOS NOSQL..................................................................................110
RESUMO DO TÓPICO 4......................................................................................................................112
AUTOATIVIDADE................................................................................................................................114

VIII
TÓPICO 5 - INOVAÇÃO E DESIGN THINKING.............................................................................117
1 INTRODUÇÃO....................................................................................................................................117
2 INOVAÇÃO E DESIGN THINKING................................................................................................117
3 INOVAÇÃO COMO PROCESSO CENTRAL NOS NEGÓCIOS..............................................120
4 INOVANDO COM DESIGN THINKING........................................................................................122
5 DESIGN THINKING............................................................................................................................124
6 O QUE É DESIGN THINKING?.........................................................................................................124
7 FASES DO DESIGN THINKING.......................................................................................................127
7.1 EMPATIA.........................................................................................................................................129
7.2 DEFINIÇÃO.....................................................................................................................................129
7.3 IDEAÇÃO........................................................................................................................................129
7.4 PROTOTIPAÇÃO...........................................................................................................................130
7.5 TESTE................................................................................................................................................130
8 ONDE ESTÁ O DESIGN THINKING?.............................................................................................131
9 DESIGN THINKING: IDEAÇÃO......................................................................................................134
10 DESIGN THINKING: O QUE É IDEAÇÃO.................................................................................135
11 A IDEAÇÃO NO REFINO DO PROBLEMA EM UM PROCESSO
DE DESIGN THINKING...................................................................................................................137
12 DESIGN THINKING: INTERAÇÕES ENTRE A IDEAÇÃO
E A SOLUÇÃO DO PROBLEMA....................................................................................................139
13 DESIGN THINKING: COMPREENSÃO DO PROBLEMA........................................................141
14 DESIGN THINKING: COMO COMPREENDER O PROBLEMA.............................................141
15 EMPATIA NO PROCESSO DE DESIGN THINKING.................................................................142
16 DESIGN THINKING: FERRAMENTAS DA ETAPA DE IMERSÃO........................................145
17 DESIGN THINKING: PROTOTIPAGEM E TESTAGEM...........................................................148
18 PROTOTIPAGEM NO DESIGN THINKING...............................................................................148
19 O PROTÓTIPO NOS PROJETOS DE INOVAÇÃO...................................................................150
20 A VALIDAÇÃO NA PROTOTIPAGEM E NA TESTAGEM.....................................................152
RESUMO DO TÓPICO 5......................................................................................................................155
AUTOATIVIDADE................................................................................................................................157

UNIDADE 3 - ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS


HUMANOS PARA BIG DATA.................................................................................159
TÓPICO 1 - MINERAÇÃO DE DADOS............................................................................................161
1 INTRODUÇÃO....................................................................................................................................161
2 AS PRINCIPAIS ETAPAS DO PROCESSO DE MINERAÇÃO DE DADOS..........................161
3 O PROCESSO DE DESCOBERTA DE CONHECIMENTO (KDD)...........................................163
4 CONCEITO E A APLICAÇÃO DE BIG DATA..............................................................................165
RESUMO DO TÓPICO 1......................................................................................................................166
AUTOATIVIDADE................................................................................................................................167

TÓPICO 2 - APLICAR METODOLOGIAS DE DATA MINING


(MINERAÇÃO DE DADOS).........................................................................................169
1 INTRODUÇÃO....................................................................................................................................169
2 O QUE É DATA MINING?..................................................................................................................169
3 AS PRINCIPAIS TÉCNICAS DE DATA MINING.........................................................................170
3.1 MINERAÇÃO POR GRUPO DE ASSOCIAÇÃO.......................................................................170
3.2 MINERAÇÃO DE ITENS FREQUENTES...................................................................................170
3.3 MINERAÇÃO POR CLUSTERING..............................................................................................171
3.4 MINERAÇÃO POR ÁRVORES DE DECISÃO...........................................................................172
3.5 MINERAÇÃO POR CLASSIFICAÇÃO BAYESIANA...............................................................172
3.6 MINERAÇÃO POR REDES NEURAIS........................................................................................173
4 UTILIZAÇÃO DAS METODOLOGIAS DE MINERAÇÃO.......................................................174
RESUMO DO TÓPICO 2......................................................................................................................176
AUTOATIVIDADE................................................................................................................................177

IX
TÓPICO 3 - UTILIZAR TÉCNICAS DE DATA MINING................................................................179
1 INTRODUÇÃO....................................................................................................................................179
2 IDENTIFICAÇÃO DAS TÉCNICAS DE DATA MINING............................................................179
2.1 MINERAÇÃO POR GRUPO DE ASSOCIAÇÃO.......................................................................180
2.2 MINERAÇÃO POR CLASSIFICAÇÃO.......................................................................................180
2.3 MINERAÇÃO POR CLUSTERING..............................................................................................181
2.3 MINERAÇÃO POR ÁRVORES DE DECISÃO...........................................................................181
2.4 MINERAÇÃO POR PADRÕES SEQUENCIAIS........................................................................182
3 A LÓGICA PARA A MINERAÇÃO DE DADOS..........................................................................182
4 APLICAÇÃO E SINTAXE DE CONSULTAS DE MINERAÇÃO...............................................183
RESUMO DO TÓPICO 3......................................................................................................................186
AUTOATIVIDADE................................................................................................................................187

TÓPICO 4 - MINERAÇÃO DE TEXTOS (TEXT MINING)............................................................189


1 INTRODUÇÃO....................................................................................................................................189
2 O CONCEITO DE TEXT MINING....................................................................................................189
2.1 MINERAÇÃO DE TEXTO POR CLASSIFICAÇÃO..................................................................191
2.2 MINERAÇÃO DE TEXTO POR CLUSTERING..........................................................................191
2.3 MINERAÇÃO TEXTO POR OTIMIZAÇÃO..............................................................................191
3 PROCESSO DE DESCOBERTA DE CONHECIMENTO EM TEXTOS....................................192
4 EXEMPLOS DE FERRAMENTAS DE MINERAÇÃO DE TEXTOS..........................................195
RESUMO DO TÓPICO 4......................................................................................................................197
AUTOATIVIDADE................................................................................................................................199

TÓPICO 5 - APRENDIZADO DE MÁQUINA (MACHINE LEARNING)..................................201


1 INTRODUÇÃO....................................................................................................................................201
2 CONCEITOS SOBRE APRENDIZADO DE MÁQUINA............................................................201
3 ALGORITMOS DE APRENDIZADO DE MÁQUINA................................................................204
4 APLICAÇÕES DO APRENDIZADO DE MÁQUINA..................................................................209
RESUMO DO TÓPICO 5......................................................................................................................211
AUTOATIVIDADE................................................................................................................................213

TÓPICO 6 - INTRODUÇÃO AO HADOOP......................................................................................215


1 INTRODUÇÃO....................................................................................................................................215
2 HADOOP...............................................................................................................................................215
3 COMPONENTES DO HADOOP......................................................................................................219
4 EXECUÇÃO DO HADOOP................................................................................................................220
4.1 HDFS.................................................................................................................................................221
4.2 COMANDOS HDFS.......................................................................................................................222
4.3 DIVISÃO EM BLOCOS..................................................................................................................224
4.4 ARQUITETURA..............................................................................................................................224
4.5 REPLICAÇÃO DE DADOS...........................................................................................................225
5 HADOOP MAPREDUCE....................................................................................................................226
5.1 GOOGLE MAPREDUCE...............................................................................................................227
RESUMO DO TÓPICO 6......................................................................................................................230
AUTOATIVIDADE................................................................................................................................232

TÓPICO 7 - INTEGRANDO BIG DATA E IOT................................................................................235


1 INTRODUÇÃO....................................................................................................................................235
2 CONCEITOS DE BIG DATA E INTERNET DAS COISAS (IOT).............................................235
3 INTEGRAÇÃO ENTRE BIG DATA E IOT.....................................................................................237
4 CENÁRIOS DE USO DE BIG DATA E IOT...................................................................................241
RESUMO DO TÓPICO 7......................................................................................................................244
AUTOATIVIDADE................................................................................................................................246

REFERÊNCIAS........................................................................................................................................249

X
UNIDADE 1

FUNDAMENTOS DE BIG DATA

OBJETIVOS DE APRENDIZAGEM
A partir do estudo desta unidade, você deverá ser capaz de:

• definir o conceito de ciência de dados;

• discutir dados e tomada de decisão;

• definir características do cientista de dados.

PLANO DE ESTUDOS
Esta unidade está dividida em cinco tópicos. No decorrer da unidade
você encontrará autoatividades com o objetivo de reforçar o conteúdo
apresentado.

TÓPICO 1 – INTRODUÇÃO À CIÊNCIA DE DADOS

TÓPICO 2 – CIÊNCIA DE DADOS E BIG DATA

TÓPICO 3 – DESCOBERTA DE CONHECIMENTO COM BIG DATA

TÓPICO 4 – APLICAÇÕES DA CIÊNCIA DE DADOS

TÓPICO 5 – INTELIGÊNCIA ​​​​​​​ARTIFICIAL

CHAMADA

Preparado para ampliar teus conhecimentos? Respire e vamos em


frente! Procure um ambiente que facilite a concentração, assim absorverás
melhor as informações.

1
2
UNIDADE 1
TÓPICO 1

INTRODUÇÃO À CIÊNCIA DE DADOS

1 INTRODUÇÃO
Você sabia que, ao acessarmos praticamente qualquer dispositivo
eletrônico, estamos, de certa forma, inserindo nossos dados e, com o tempo, os
dispositivos acabam guardando esses dados, gerando diversas informações sobre
nós? Estamos vivendo na era da informação.

Neste tópico, você compreenderá o que é a ciência de dados, como ela


pode influenciar na tomada de decisões, e até mesmo no relacionamento entre os
seres humanos e suas atividades frequentes, quando há o uso intermediário de
algum recurso tecnológico. Além disso, conhecerá as características que definem
os cientistas de dados, profissionais responsáveis por exercer essa função tão
inovadora e desafiante.

2 CIÊNCIA DE DADOS
Uma das necessidades explícitas da sociedade atual é aprender a lidar
com a tecnologia. Apesar de isso transparecer como algo natural, na verdade, não
o é, tendo em vista que, com o passar dos tempos, a própria tecnologia foi sendo
moldada para atender à alta demanda social.

Antes, os primeiros recursos tecnológicos que envolviam uso de


eletricidade tinham pouquíssimas funcionalidades — isso quando não se
limitavam a apenas uma. Se voltarmos um pouco no tempo, quando os primeiros
recursos computacionais começaram a ser desenvolvidos, vemos que o maior
objetivo era justamente o de aprender a lidar com os dados. Os registros eram
poucos e não demandavam componentes físicos tão sofisticados como os que
temos hoje, porém, a sociedade foi se interessando cada vez mais por esses
artefatos que auxiliam, de certa forma, em suas atividades cotidianas.

Mas o que são esses dados? Antes de tudo, é importante destacar que um
dado sem uma informação não tem sentido. Dados podem ser exemplificados
como números em uma planilha: quando adicionamos um contexto a eles,
estamos gerando informações (como colocar, ao lado dos números, nomes de
produtos ou legendas, como datas, valores, dentre outros).

3
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

Por falar nisso, você já parou para prestar atenção na quantidade de dados
que você mesmo gera na rede? Comece olhando sua caixa de e-mail: são muitas
informações! Você também já fez alguma pesquisa sobre algo, um produto, uma
dúvida ou serviço e, quando acessou suas redes sociais ou e-mail, deparou-se com
promoções e dicas sobre o assunto de sua busca? Então, as empresas, em conjunto
com as ferramentas tecnológicas, possuem diversos meios de obter informações
de você, mesmo que de forma “discreta”.

DICAS

Para entender o que é um dado e o que é uma informação, podemos pen-


sar no número 25. Que lembrança esse número traz para você? Bem, caso não seja seu
aniversário ou alguma data especial para você, pode ser visto apenas como um número
qualquer. No entanto, se adicionarmos o contexto de 25 de dezembro, podemos associá-
-lo às festividades natalinas. É dessa forma que uma informação é tida, na junção do dado
bruto com um contexto.

A ciência de dados surgiu com a necessidade de lidarmos com a enorme


quantidade de dados e informações geradas por nossas ações em conjunto
com algum artefato — neste caso, tecnológico. Ela atende a uma demanda
interdisciplinar, na qual estão inseridas outras tecnologias voltadas aos dados,
como Big Data. O termo foi mencionado inicialmente em meados de 2010, mas,
antes, seus conceitos eram compreendidos por outros termos, como OLAP (Online
Analytical Processing) e BI (Business Intelligence). Podemos notar que, apesar de
conseguirmos visualizar claramente a quantidade de dados que temos ao nosso
redor, variantes do termo já vêm sendo utilizadas há algum tempo.

A partir da Figura 1, podemos perceber que a ciência de dados é


interdisciplinar, tendo em vista que pode estar associada à ciência da computação,
já que armazena, obtém e trata os dados; com a estatística e a matemática,
porque realiza análises estatísticas de mineração e filtragem de dados; e,
consequentemente, com design gráfico e especialização científica, uma vez que
dados são visualizados, refinados e, principalmente, questionados.

4
TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS

FIGURA 1 – CIÊNCIA DE DADOS: INTERDISCIPLINAR

Ciência da Aprendizado Matemática


computação de máquina e estatística

Ciência
de dados

Software Pesquisa
tradicional tradicional

Especialização
científica

FONTE: Provost e Fawcett (2016)

3 INFLUÊNCIA DA CIÊNCIA DE DADOS NA TOMADA DE


DECISÕES
O mundo contemporâneo está sujeito a lidar com acentuadas transições,
não só tecnológicas, mas também políticas, sociais e até mesmo econômicas.
A cada dia que passa, novas descobertas em todos os setores afetam todos os
ciclos nos quais elas estão imersas. Com isso, surgem, também, novos padrões
e mudanças potenciais, as quais trazem uma maior dificuldade no processo de
tomada de decisões.

Quando você vai realizar uma compra, geralmente, você se questiona


sobre como irá realizar o pagamento daquele produto, e as lojas, para não perder
os clientes, oferecem várias opções de pagamentos. Você, como cliente, tem que
decidir se vai dividir em mais vezes, com juros, ou em menos vezes, apesar de
o valor das parcelas, logicamente, ser maior nesse último caso. Para tomar essa
decisão, você estabelece suas próprias possibilidades diante de todo um contexto,
por exemplo, se irá sobrar crédito ou dinheiro para as demais compras ou contas
do mês. Você pode associar uma situação do seu cotidiano como essa, que,
por acontecer diretamente com você, tem uma pequena dimensão, às mesmas
decisões sendo tomadas por uma empresa, que lida com negócios enormes e com
diversos processos simultâneos.

5
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

De acordo com Provost e Fawcett (2016) (Figura 2), a ciência de dados (ou data
science) se insere no contexto de diversos outros processos intimamente associados
e relacionados com dados na organização e se distingue de outros aspectos do
processamento de dados que estão ganhando cada vez mais atenção nos negócios.

FIGURA 2 – DATA SCIENCE (CIÊNCIA DE DADOS) NO CONTEXTO DOS


DIVERSOS PROCESSOS RELACIONADOS A DADOS NA ORGANIZAÇÃO

Tomada de decisão
orientada por dados
(na empresa)

DOD automatizada

Data science

Engenharia e processamento
de dados
(incluindo tecnologias "Big Data")

Outros efeitos positivos do processamento


de dados (por exemplo, processamento
mais rápido de transações)

FONTE: Provost e Fawcett (2016, p. 5)

Ainda sob o ponto de vista dos autores, a tomada de decisão orientada


por dados (DOD) refere-se à prática de basear as decisões na análise dos dados,
em vez de apenas na intuição. Por exemplo, um negociante poderá selecionar
anúncios baseado puramente em sua longa experiência na área e em sua intuição
sobre o que funcionará; além disso, pode basear sua escolha na análise dos dados
sobre a forma como os consumidores reagem a diferentes anúncios ou utilizar
uma combinação dessas abordagens.

6
TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS

Você notou que os autores confirmaram justamente o que conversamos


anteriormente, sobre surgirem diversas propagandas de produtos em e-mails e
redes sociais de coisas para as quais você fez alguma busca? Essas abordagens se
tornaram cada vez mais comuns no mundo dos negócios. A partir do momento
em que essas grandes corporações reconhecem a importância da análise de
dados, esses recursos passam a ser aplicados em grandes operações de mineração
de dados, gerando marketing direto, ou seja, direcionado ao perfil dos usuários,
publicidades on-line, avaliações de crédito, para que não sejam ofertados produtos
e serviços incoerentes com os perfis dos clientes, gestão central de atendimento,
recomendações de produtos, dentre outros.

Uma empresa investe no gerenciamento e na análise de dados com o intuito


de obter oportunidades para geração de receitas e para redução de custos em seus
processos visando o lucro financeiro. Durante a década de 1990, a tomada de
decisão automatizada trouxe diversas mudanças a vários setores, principalmente
os bancários e de empresas de telecomunicações. Na época, o foco era controlar
a quantidade de fraudes, por isso, passaram a implantar o gerenciamento de
decisões de controle de fraudes orientadas em dados. Hoje, sabemos que toda
empresa que visa crescer no mundo dos negócios implanta de alguma forma a
análise de seus dados, nem que seja por meio de percepções cotidianas.

A tomada de decisão identifica as principais etapas no processo decisório


para estabelecer pontos cruciais que apoiem planos de ação com o intuito de
desenvolver uma melhoria geral de todos os indicadores do negócio.

Nesse processo, a ciência de dados contribuirá com o levantamento de


informações relevantes para dar suporte às decisões. Esses fatores são essenciais
para que haja uma análise e, consequentemente, identificação e resolução de
problemas nos processos empresariais do negócio. A ciência de dados levanta,
também, questionamentos como: quais são os pontos que devem ser previstos, o
que deve ser feito com todos os dados, quais podem ser as consequências, como
os dados serão expostos e quais são os mais relevantes, como as questões de
privacidade serão resolvidas, como devemos verificar se existe alguma anomalia
ou padrões nos dados, qual modelo será mais adequado, como ele será validado,
qual foi o aprendizado obtido com a análise dos dados.

DICAS

Quando falamos de dados, podemos deparar-nos com outros termos, como:

• Big Data: está associado ao grande volume de dados que é processado por ferramen-
tas específicas, já que ferramentas tradicionais, como planilhas e anotações vagas, não
possuem suporte suficiente e eficaz para processá-las. Podemos associar esse concei-
to a volume, velocidade de atualização e variedade dos formatos.

7
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

• Data warehouse: é um tipo especializado de banco de dados que reúne dados de um


banco de dados de transações, de modo que eles possam ser analisados (TURBAN;
VOLONINO, 2013, p. 59).
• Business Intelligence (BI): implica adquirir dados e informações (e, talvez, conhecimento)
de uma grande variedade de fontes, organizá -los em um data warehouse e usá -los na
tomada de decisões (TURBAN; VOLONINO, 2013, p. 104).

4 CARACTERÍSTICAS DE UM CIENTISTA DE DADOS


Com o surgimento de diversos termos relacionados aos dados, a
necessidade de profissionais que fossem capacitados para lidar com as mais
variadas tecnologias e contextos ficou mais evidente. Após Big Data se tornar
evidente, o profissional para lidar com tudo isso precisava, na maioria das vezes,
lidar com estatística, NoSQL, Cloud Computing, mineração de dados, dentre
outros.

ATENCAO

Conforme Godoi (2018), podemos destacar algumas atividades que são


destinadas a alguns cargos específicos dentro das empresas.

• Data scientist: participa da formulação do problema, hipóteses de resolução e análise


de resultados.
• Business analyst: analisa os dados gerados em relação ao negócio ou empresa avaliada.
• Data analyst: analisa os dados disponibilizados em busca de solução para os problemas
enfrentados.

Outro questionamento também passou a ter relevância: onde iriam


encontrar um profissional com tantas qualificações? Essa lista de qualificações
chegou a ser comparada às habilidades que apenas o supercomputador Watson
(da IBM) possuía e possui até hoje.

O mercado almeja um profissional que tenha habilidades não só


com tecnologias, mas também com matemática, estatística e conhecimentos
em negócios, ou seja, na área administrativa, como podemos perceber pelo
levantamento realizado por Amaral (2016), em que temos uma visão de um
profissional de mercado, ou seja, o que realmente é possível de encontrar no
mercado, e um profissional que demanda características quase que impossíveis,
como o fato de haver uma única pessoa que seja especialista em todas as áreas.

8
TÓPICO 1 | INTRODUÇÃO À CIÊNCIA DE DADOS

QUADRO 3 – QUALIFICAÇÕES DO CIENTISTA DE DADOS

Profissional de mercado Profissional idealizado

Conhecimento multidisciplinar Especialista em todas as áres

Gerência de projetos Foco em conhecimento técnico

Liderança Trabalha sozinho

Equipe de especialistas Especialista em todas as áreas

FONTE: O autor

O nome data scientist ou cientista de dados foi utilizado pela primeira vez
em 2008 e pode ser definido como um profissional de alto nível de formação, com
curiosidade de fazer descobertas no mundo de Big Data: “[...] um cientista de
dados é alguém que é curioso, que analisa os dados para detectar tendências”,
disse, recentemente, Anuul Bhambhri, vice-presidente de produtos Big Data da
IBM. “É quase como um indivíduo renascentista, que realmente quer aprender e
trazer a mudança para uma organização” (TAURION, 2013).

UNI

Acesse o link a seguir para obter mais informações sobre o cientista de dados.

https://goo.gl/2PHZqk

NTE
INTERESSA

Exemplos de ferramentas utilizadas para apresentação de dados: IBM Watson


Analytics, Tableau, TIBCO Spotfire, Rapid Miner, Sisense, dentre outras.

9
RESUMO DO TÓPICO 1
Nesse tópico você aprendeu:

• A definição do conceito de ciência de dados.

• A Discutir dados e tomada de decisão.

• As características do cientista de dados.

• Que a expressão data science se refere tanto à tecnologia em si quanto à


aplicação de ferramentas tecnológicas aos processos empresariais. Essas
ferramentas têm diversas utilidades, sendo uma das principais contribuir na
tomada de decisões.

• Que a ciência de dados pode ser utilizada em diversas áreas

• A ciência de dados está presentes em áreas como as apresentadas no infográfico.

10
11
AUTOATIVIDADE

1 Atualmente, as grandes empresas lidam com grandes volumes de dados


que podem ser aplicados nas estratégias de negócios, tanto para aumentar
a lucratividade financeira quanto para lançamento e melhoria de produtos e
serviços ofertados.

A TechAnalysis, considerada a maior empresa do ramo de telecomunicações


do Brasil, contratou você como analista de dados. Ela está preocupada com o
seguinte cenário:

Sabendo disso, responda:

a) Como a ciência de dados pode ajudar na tomada de decisões da empresa?

b) Quais informações presentes nos bancos de dados podem ajudar na


construção de uma estratégia de retenção de clientes?

2 Uma tomada de decisão é estabelecida de acordo com diversas variáveis do


contexto em que está inserida. Assinale a alternativa correta, referente aos
dados e às tomadas de decisão.​​​​​​

a) ( ) O ciclo da tomada de decisões faz uso dos dados apenas no processo


de análise. Posteriormente, as tomadas de decisões são acionadas
conforme experiências anteriores.
b) ( ) Geralmente o ciclo se inicia com o processamento de dados, que traz
consigo o refinamento dos dados, para que posteriormente sejam
analisados de forma automatizada e, assim, possam auxiliar na tomada
de decisão das empresas.

12
c) ( ) Geralmente o ciclo se inicia com o refinamento dos dados, do qual o
processamento de dados é parte integrante, para que posteriormente
possam ser analisados de forma manual e auxiliar na tomada de
decisão das empresas.
d) ( ) A ciência dos dados é empregada no tratamento dos dados gerados
após a tomada de decisão, dando-lhes forma e empregabilidade
necessária para uso.
e) ( ) A tomada de decisão orientada a dados tem início com o uso de
tecnologias big data, para que posteriormente a ciência dos dados
determine todas as tomadas de decisões.

3 A multidisciplinaridade envolvida na ciência dos dados traz conceitos, de


pesquisa, aprendizado de máquina e até mesmo de especialidades científicas.
Assinale a alternativa que traz uma associação correta de uma virtude dessa
área com as demais áreas as quais está associada.​​​​​​​

a) ( ) A ciência dos dados, juntamente com a ciência da computação


e a matemática, auxilia na inserção dos dados em um recurso
computacional.
b) ( ) A ciência dos dados, juntamente com a especialização científica, auxilia
no armazenamento de dados.
c) ( ) A ciência dos dados, juntamente com o design gráfico, proporciona a
visualização e o refinamento dos dados.
d) ( ) A ciência dos dados, juntamente com a matemática e a estatística,
auxilia na contabilidade de dados.
e) ( ) A ciência dos dados juntamente com a ciência da computação
proporciona o perfil de questionamentos.

4 Com o surgimento de diversos termos relacionados aos dados, a necessidade


de profissionais capacitados a lidar com as mais variadas tecnologias e
contextos ficou mais evidente. Qual é a responsabilidade de um profissional
ligado à ciência dos dados?

a) ( ) É um profissional que exerce sua função de forma individualizada e


compartilha com a equipe apenas as tomadas de decisões necessárias.
b) ( ) Analisa os dados gerados em relação ao negócio ou à empresa avaliada.
c) ( ) Analisa todas as áreas da empresa, tendo em vista suas especializações
que abrangem as áreas de negócios e tecnologias.
d) ( ) Participa da formulação do problema, hipóteses de resolução e análise
de resultados.
e) ( ) Analisa os dados disponibilizados em busca de solução para os
problemas enfrentados.

5 As tecnologias surgem com o intuito de suprir alguma demanda social.


Dessa forma, acabam também trazendo mudanças para os processos e
comportamentos, já que, com o tempo, acabam sendo suporte para realização
de diversas atividades. Assinale a alternativa correta sobre a relevância da
ciência dos dados dentro dos negócios.
13
a) ( ) A ciência dos dados tem como objetivo principal suprir a necessidade
de ferramentas que organizem em planilhas os dados da empresa.
b) ( ) A ciência dos dados tem como objetivo gerar grande volume de dados
nos negócios.
c) ( ) A ciência dos dados surgiu com a necessidade de lidarmos com a
enorme quantidade de dados e informações geradas.
d) ( ) A ciência dos dados tem como objetivo principal trazer automatização
de processos nas atividades de uma empresa.
e) ( ) A ciência dos dados se desenvolveu em razão da falta de profissionais
qualificados para tomada de decisões.

6 Atualmente, há a demanda por novas metodologias que sejam capazes de


analisar grandes quantidades de dados e associá-las de forma interdisciplinar.
Assinale a alternativa que traz a definição correta de "ciência dos dados".

a) ( ) A ciência dos dados é o estudo disciplinado de dados e informações.


b) ( ) A ciência dos dados é a geração de volume e variedade de novos dados.
c) ( ) A ciência dos dados é um tipo de banco de dados.
d) ( ) A ciência dos dados é o ato de organizar dados em uma data warehouse.
e) ( ) A ciência dos dados é o setor de TI da empresa.

14
UNIDADE 1
TÓPICO 2

CIÊNCIA DE DADOS E BIG DATA

1 INTRODUÇÃO
As informações e os dados nunca foram tão acessíveis quanto o são hoje
em dia. Por meio da internet, conseguimos saber basicamente de tudo que ocorre
na nossa localidade e no mundo. A cada ação nossa, provavelmente, muitos dados
estão sendo gerados para as empresas responsáveis pelos artefatos e serviços
tecnológicos de que fazemos uso.

Neste tópico, você vai compreender melhor sobre os conceitos de dados e


datasets, assim como vai conseguir visualizar a ação conjunta que pode haver entre
a ciência de dados e as tecnologias Big Data, tanto por meio de contextualizações
quanto de práticas.

2 DADOS E DATASETS
Você já parou para pensar na quantidade de observações que estamos
sempre fazendo em tudo que está ao nosso redor? O ser humano, devido a sua
racionalidade, consegue lidar com interpretar e associar diversos acontecimentos
quase que simultaneamente. E essa não é uma característica desenvolvida apenas
quando somos adultos. Se você entrar em uma loja de brinquedos com uma
criança, você compreenderá melhor o que estamos falando, já que as primeiras
reações quase sempre serão as de as escolhas serem realizadas com base em alguns
padrões já preestabelecidos pela criança. Mas você pode estar se questionando
sobre o que isso tem a ver com dados e datasets, não é?

Basicamente tudo, pois, quando fazemos observações sobre algo, no


decorrer do tempo, vamos formando padrões, até mesmo definindo preferências,
e agimos dessa forma durante toda a nossa vida. Além disso, geralmente, nossas
escolhas são baseadas nessas experiências. Se fizermos uma analogia com essa
situação comum do cotidiano com o mundo dos negócios, em que decisões
são tomadas a todo instante, não seria muito diferente, tendo em vista que
todo negócio constrói um conhecimento sobre si mesmo e sobre seus clientes e
produtos no decorrer do tempo.

Hoje, ao acompanharmos pesquisas e noticiários, deparamo-nos com um


protagonista que já existe há muito tempo, mas que só dos últimos tempos para
cá virou o foco de todos: os dados. Mas como podemos defini-los?

15
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

A definição mais básica de um dado é sabermos que, se estiver só, ele não
faz sentido, de modo que deve haver informações sobre ele, ou seja, complementos
informacionais e até mesmo contextos, para que ele tenha sentido e possa gerar
algum conhecimento.

Ao analisarmos a fundamentação do conceito de dados, vemos claramente


que ele é um ativo importante dentro de um negócio, e podemos afirmar que
nas nossas atividades cotidianas também! Você conseguiu perceber como somos
geradores de dados e informações constantes?

Mas e dataset, o que seria? Em sua tradução livre, o termo significa conjunto
de dados. Mencionamos que as informações são um coleção de dados e, dentro
desse contexto, é relevante notar que o contexto científico exige que visualizemos
níveis mais profundos dos processos dedutivos e intuitivos de observação para
que possamos registrá-los com precisão. Uma maneira de fazer isso é construir
um conjunto de dados, os quais são apresentados de várias formas. Em sua grande
maioria, os dados são representados por meio de planilhas, podendo conter
diversas linhas ou colunas, e não necessariamente precisam assumir aquela ideia
que temos de planilhas desenvolvidas em alguns softwares específicos.

Um conjunto de dados possui algumas características relevantes, como


a estruturação dos dados, já que, como citado anteriormente, lidar com dados é
um trabalho extremamente minucioso, tendo em vista que o dado é o recurso-
chave de todo processo. Deve haver, também, a possibilidade de recuperação,
acesso e identificação dos dados diante de todo o conjunto, ação que geralmente
ocorre por meio de comandos ou disponibilização de links de acesso, além de
certa frequência nas atualizações dos dados.

Do ponto de vista de Ramakrishnan e Gehrke (2013, p. 784), existem


muitos motivos para que os dados sejam semiestruturados. A estrutura dos dados
pode ser implícita, oculta, desconhecida ou o usuário pode optar por ignorá -
la. Além disso, ao se integrar dados de várias fontes heterogêneas, a troca e a
transformação de dados são problemas importantes. Dessa forma, é necessário
que haja um modelo de dados altamente flexível para integrar dados de todos os
tipos de fontes, incluindo arquivos simples e sistemas legados.

ATENCAO

Juntamente aos conceitos de dados, é importante compreendermos,


também, os conceitos de informação e conhecimento.

• Informação: fornece significado para o dado, pois pode ser definida como um dado
contextualizado.

16
TÓPICO 2 | CIÊNCIA DE DADOS E BIG DATA

• Conhecimento: pode receber diversas definições diferentes, mas, dentro desse contexto,
o conhecimento pode ser definido como uma experiência ou até mesmo aprendizado
obtido devido à organização e à contextualização dos dados e das informações.

3 O USO DA CIÊNCIA DE DADOS E BIG DATA


Vivemos no século XXI e, no contexto dos negócios, as previsões acabam
sendo o ponto forte das empresas. Mas não estamos falando de previsões de sorte,
com cartomantes ou videntes; falamos de tecnologias que usam seus poderosos
algoritmos para fazer previsões de negócios.

Quando falamos sobre essas estimativas, estamos ressaltando ainda mais


a importância do dado, já que todo seu ciclo de vida complementa o investimento
em tecnologias tanto inseridas em ferramentas quanto em metodologias no
mundo corporativo.

A concepção de um dado pode ser oriunda das mais diversificadas fontes:


no nosso caso, produzimos dados em praticamente toda ação que desempenhamos
por meio de algum recurso tecnológico, pois, quando nos conectamos à rede,
nossas informações começam a ser obtidas imediatamente, seja por um login em
algum site ou até mesmo pelas permissões que damos ao fazermos download e
instalarmos algum aplicativo. No entanto, algumas fontes de dados não podem
estar suscetíveis a variações ou sofrer outros danos, ou seja, deve haver certa
estrutura para receber os dados. Não podemos esquecer que existem regras
empresariais que acompanham (ou pelo menos tentam acompanhar) todo esse
processo. Por isso, por exemplo, existem tipos de dados que ficam armazenados
por muito mais tempo que outros, e essa decisão cabe à empresa. Perceba que,
quando falamos em armazenamento, estamos falando também de investimento
em segurança computacional, e até mesmo em hardware e espaço na nuvem
(cloud computing) capaz de armazenar tantas informações.

FIGURA 3 – CICLO DE VIDA DOS DADOS PARA CIÊNCIA DA INFORMAÇÃO (CVD–CI)

FONTE: Sant’ana (2016)

17
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

Dessa forma, podemos concluir que a concepção, o armazenamento,


o tratamento e outros processos relacionados aos dados irão variar conforme
sua finalidade. Inclusive, pode haver até mesmo o descarte dos dados, como
mostra a Figura 3.

A importância no conhecimento destes processos se dá, segundo Turban


e Volonino (2013, p. 67), devido a três princípios:

• Princípio da redução do valor de dados. Uma análise dos dados em seu ciclo
de vida mantém a atenção em como o valor dos dados pode diminuir de acordo
com o seu envelhecimento. Assim, o dado tem mais valor quanto mais recente
for. A maioria das organizações não pode operar no má imo de seu desempenho
tendo pontos cegos, isto é, falta de dados disponíveis, de 30 dias ou mais.
• Princípio do uso de dados 90/90. Uma atuação em tempo real ou quase em
tempo real sobre dados operacionais pode trazer vantagens importantes. De
acordo com esse princípio, a maioria dos dados armazenados raramente é
acessada após 90 dias (exceto para fins de auditoria). Ou seja, os dados perdem
grande parte de seu valor após três meses.
• Princípio de dados em contexto. Para capturar, processar, formatar e distribuir
dados rapidamente e quase em tempo real, é necessário um grande investimento
em infraestrutura de gerenciamento de dados para fazer a ligação remota dos
sistemas presentes nos pontos de venda (PDVs) para armazenamento de dados,
sistemas de análise de dados e aplicativos que geram relatórios. Esse investimento
se justifica de acordo com o princípio de que dados devem estar integrados, ser
processados, analisados e formatados em “informação acessível”. Os usuários
finais precisam visualizar os dados em um formato significativo e em contextos,
já que eles irão guiar suas decisões e seus planejamentos.

A ciência de dados transforma os dados utilizando conceitos matemáticos


e estatísticos por meio de processos de mineração e filtragem dos dados. As
ferramentas computacionais se tornam necessárias para, em conjunto com os
softwares, realizar o armazenamento, a obtenção e o tratamento dos dados.

Mas e como tudo isso acontece? Para isso, são utilizadas tecnologias, como
mencionamos anteriormente, e uma delas que podemos destacar aqui é Big Data.
Como o próprio termo já sugere, isso significa lidar com uma grande quantidade
de dados diversos (estruturados ou não estruturados).

ATENCAO

Os dados não estruturados são aqueles dados cujo contexto total nem sempre
a tecnologia consegue visualizar, por exemplo, em arquivos textuais.
Já os dados estruturados conseguem ser totalmente classificados e identificados com o
uso das tecnologias.

18
TÓPICO 2 | CIÊNCIA DE DADOS E BIG DATA

O que não podemos deixar de comentar é que existem vários profissionais


que lidam com os dados e que, muitas vezes, com a ajuda da tecnologia, nem sempre
estão totalmente ligados ao setor de tecnologia da empresa, já que, na maioria das
vezes, as tomadas de decisões são realizadas por profissionais administrativos.

4 APLICAÇÕES PRÁTICAS DA CIÊNCIA DE DADOS E BIG DATA


Várias metodologias estão sendo utilizadas pelas empresas para a coleta
de dados. No entanto, quando falamos em Big Data, estamos assumindo que,
além de termos grande volume de dados, devido às grandes proporções, eles não
podem ser tratados com métodos tradicionais. Para isso, devem ser executados
alguns passos, tais como obtenção, armazenamento, sistematização e análise dos
dados. O termo Big Data é, muitas vezes, caracterizado por três vertentes que,
inclusive, são conhecidas como os três Vs: volume, variedade e veracidade.

É comum nos depararmos com outros 2 Vs que também contemplam de


forma coerente os conceitos sobre essa tecnologia: o valor e a velocidade. A obtenção
dos dados pode ocorrer oriundas de diversas fontes, tanto internas quanto externas
aos negócios da empresa. Já o armazenamento, provavelmente, ocorrerá por meio
de sistemas e servidores. Isso ocorre para garantir que seja feito o armazenamento
automático e para que possam ser realizados backups posteriormente.

As próximas etapas consistem na organização e na análise dos dados,


nas quais deve haver um agrupamento que tenha como base algum padrão dos
dados, gerando, com isso, uma estrutura capaz de facilitar o acesso e a análise
das informações, que é basicamente o último passo a ser executado. Com a
organização, isso fica mais fácil, já que é na extração que podemos obter a
visualização dos dados úteis para as tomadas de decisão.

Ainda sobre a etapa de análise, podemos afirmar que, antes, acontecia


apenas de forma descritiva, com o objetivo de trazer por meio, muitas vezes, de
gráficos, planilhas e relatórios, alguns conjuntos de dados que caracterizavam as
ações já executadas pela empresa. Com a ciência de dados, essa etapa evoluiu,
não só devido ao uso das tecnologias, mas também com relação a seus objetivos.
Hoje, por exemplo, as análises não ocorrem apenas com olhares para o passado,
mas também com perspectivas futuras, que são chamadas de análises preditivas
e diagnósticas, já que é por meio desse processo que falhas ou pontos de
melhoramentos são observados.

Existem diversas maneiras de as empresas coletarem dados, tais como:


endereço de e-mail e IP, informações dos dispositivos, browsers, cliques em anúncios,
seja pela rede social ou por e-mails, histórico de buscas, dentre outros. Para isso,
elas utilizam alguns métodos para monitorar seus usuários, como ferramentas para
identificação de dispositivos, perfis dos usuários, cookies, dentre outros.

19
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

Os dados obtidos das mais variadas fontes podem ser utilizados de


diversas formas. As grandes empresas, por exemplo, utilizam para as integrações
de contas, em que todas suas informações, muitas vezes, podem estar associadas
ao seu e-mail, a conteúdos personalizados, e as empresas podem aumentar o
leque de opções de produtos e serviços conforme cada perfil de cliente.

A associação desses recursos pode ser visualizada e utilizada em diversos


contextos, como no esporte, em que diversos times de basquete, futebol, entre
outros, passaram a utilizar a análise de dados para prever possíveis melhorias de
seus times, tanto em resultados gerais quanto de desempenho dos atletas durante
a prática de suas atividades.

Aqui no Brasil, até os órgãos governamentais utilizam data warehouse para


registros. Nesse sentido, um setor atuante é o Ministério da Justiça, com o intuito
de identificar ações de lavagem de dinheiro, dentre outros golpes. Empresas
como Google, Facebook e as de tecnologia também utilizam fortemente a análise
de dados, e podemos até afirmar que eles atuam por meio de todas as formas
possíveis para isso, já que seus lucros são oriundos desse tipo de ação.

Grandes redes varejistas do setor alimentício também utilizam a ciência


de dados e tecnologias Big Data para gerir seus negócios e, como mencionamos
anteriormente, para ampliar a gama de negócios, produtos e serviços que podem
ser disponibilizados aos clientes. Conforme Taurion (2013), Big Data é um conjunto
de tecnologias, processos e práticas que permitem às empresas analisarem dados
que antes não tinham acesso e tomar decisões ou mesmo gerenciar atividades de
forma muito mais eficiente. Para o autor, diversos dados podem ressaltar o início
da curva de aprendizado sobre o que é o Big Data e seu respectivo impacto social.
Como exemplo, ele cita o uso de Big Data pelas empresas Amazon e Netflix, que
utilizam sofisticados e avançados sistemas de recomendação.

Portanto, as aplicações práticas que possuem ciência de dados e Big


Data trazem maior transparência, já que os dados ficam disponíveis em locais
específicos, e alguns deles até passam a ser de domínio público, como é o caso
de dados governamentais. Ocorre, também, a amplificação das informações,
tendo em vista que a conexão de diversas informações sobre algo específico
ocorre de forma mais fácil.

DICAS

A análise de dados pode ser realizada com o uso de algumas tecnologias,


como NoSQL, Hadoop, Sisence, TIBCO Spotfire, dentre outras.

20
RESUMO DO TÓPICO 2
Nesse tópico você aprendeu:

• A Descrever dados e datasets.

• A Discutir ciência de dados e Big Data.

• Listar práticas de ciência de dados e Big Data.

• Que a compreensão de como os dados são gerados, armazenados e analisados é


primordial para entender a atividade desempenhada por este ativo tão valioso
para as empresas.

• Veja alguns passos correspondentes a este ciclo, tanto na tomada de decisões


quanto nas demais ações dentro de um negócio, no Infográfico.

21
22
AUTOATIVIDADE

1 As grandes companhias utilizam as ferramentas computacionais para


atender a alta demanda dos negócios, já que atualmente o comportamento
social demonstra claramente as transições que o mundo dos negócios está
sempre percorrendo. Assinale a alternativa que traz formas de como as
empresas fazem uso dos dados de seus usuários para obter sucesso em seus
negócios.​​​​​​​

a) ( ) Para realizar compras em seus cadastros.


b) ( ) Para aplicar recurso de reconhecimento facial.
c) ( ) Para obter dados aleatórios que circulam na rede.
d) ( ) Fornecimento de serviços personalizados.
e) ( ) Para manter a preferência do cliente.

2 As grandes empresas corporativas investem em tecnologias para que


possam obter destes investimentos lucros financeiros. Assinale a alternativa
que contém formas de como as empresas obtêm os dados de seus clientes
para uso da ciência de dados e Big Data.​​​​​​​

a) ( ) Por meio de ligações realizadas pelos call centers das empresas para
seus clientes.
b) ( ) Por meio de correspondências.
c) ( ) Por meio de preenchimento de formulários em planilhas.
d) ( ) Por meio de abordagens pessoais em centros comerciais.
e) ( ) Por meio de aplicações de terceiros, identificação de dispositivo, perfil
do usuário.

3 A ciência de dados traz a multidisciplinaridade para o mundo dos dados, e,


agindo em conjunto com tecnologias e ferramentas Big Data, pode contribuir
para a geração e diversificação de novos negócios. Assinale a alternativa que
traz algum princípio relacionado ao uso destes recursos em relação ao uso dos
dados.​​​​​​​

a) ( ) As tomadas de decisão dentro de uma empresa podem ser baseadas


em análises primitivas dos dados com planilhas.
b) ( ) O Big Data permite que dados sejam armazenados e utilizados após
muitos anos, sem perder o valor.
c) ( ) Ferramentas e tecnologias Big Data são gratuitas e geram redução de
custos para empresa.
d) ( ) A ciência dos dados aplica conceitos estatísticos nos dados em conjunto
com tecnologias Big Data.
e) ( ) Permite o armazenamento dos dados antigos como critério para
aprovação de investimentos em novas ferramentas.

23
4 A obtenção dos dados ocorre por meio de diversas fontes: e-mails, redes
sociais, smartphones, tablets, entre outros. Dessa forma, com o passar do
tempo, recursos computacionais se tornaram necessários para que tudo
isso possa ser aproveitado pelo mundo corporativo. Assinale a alternativa
que apresenta os passos percorridos pelo dado durante seu uso na tomada
de decisões corporativas.

a) ( ) Tratamento, armazenamento, análise.


b) ( ) Tratamento, análise e coleta.
c) ( ) Análise, tratamento e armazenamento.
d) ( ) Coleta dos dados, armazenamento, tratamento e análise.
e) ( ) Armazenamento, análise, coleta e tratamento.

5 Os dados podem ser considerados recursos ativos gerados automaticamente


em toda atividade exercida; se tratados e analisados têm grande valor para
o mercado. Assinale a alternativa que contempla a definição correta sobre o
dado.​​​​​​​

a) ( ) É uma quantidade de fatos não analisados.


b) ( ) Fornece significado contextualizado.
c) ( ) Pode ser definido como uma experiência.
d) ( ) São ativos tecnológicos padronizadores.
e) ( ) O seu sentido é estabelecido quando apresentado só.

24
UNIDADE 1
TÓPICO 3

DESCOBERTA DE CONHECIMENTO COM BIG DATA

1 INTRODUÇÃO
Os grandes conjuntos de dados (Big Data) gerados pelas pessoas e empresas
diariamente possuem um potencial de melhorias em diversos segmentos de negócios.
Entretanto, a evolução das técnicas de análise é o gargalo que impede tomadas de
decisões mais eficazes para os negócios. O processo de descoberta do conhecimento
é uma abordagem que sistematiza em etapas a realização dessas análises.

Neste tópico, você estudará sobre o processo de descoberta de


conhecimento aplicado ao Big Data e conhecerá exemplos nos quais esse processo
teve êxito em suas aplicações.

2 PROCESSO DE DESCOBERTA DE CONHECIMENTO


Em 1989, foi instituído o termo descoberta de conhecimento em banco
de dados em alusão ao processo de transformação de volumes de dados em
conhecimento. Esse termo tem origem no inglês Knowledge Discovery in Databases e
é comumente utilizado pela sigla KDD. O objetivo do KDD é a extração de relações
implícitas e desconhecidas nas bases de dados para geração de conhecimento útil.

O KDD pode ser considerado uma atividade multidisciplinar, tendo


em vista que envolve diversos conceitos relacionados à inteligência artificial
e a disciplinas matemáticas. O conhecimento extraído deve ser confiável,
compreensível e útil, ou seja, a descoberta de conhecimento consiste na extração
de informações que podem colaborar na tomada de decisões, em grandes bases de
dados e sem nenhuma hipótese previamente estabelecida (FAYYAD et al., 1996).

A partir desse conceito, surgiu o processo de KDD, que propõe, a partir de


etapas iterativas e interativas, um padrão metodológico para transformação dos
grandes volumes de dados em conhecimento. Esse processo é realizado por meio
de métodos de mineração de dados (algoritmos) para extrair (identificar) o que é
considerado conhecimento, de acordo com as especificações de medidas e limites,
usando um banco de dados junto a qualquer pré-processamento, subamostragem e
transformações necessárias desse banco de dados. Com base nesse conceito, pode-se
dizer que o processo KDD é baseado na cooperação entre humanos e computadores,
no qual os humanos são os responsáveis por projetar arquiteturas de sistema,
definição dos problemas e identificação dos objetivos, enquanto os computadores
realizam o processamento dos dados em busca de padrões que satisfaçam os objetivos
definidos. A etapas do processo de KDD podem ser visualizadas na Figura 4.

25
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

FIGURA 4 – ETAPAS DO PROCESSO DE DESCOBERTA DO CONHECIMENTO

FONTE: Schneider (2003, p. 13)

Na primeira etapa, o processo de KDD desenvolve uma compreensão do


domínio da aplicação, além da definição dos objetivos a serem alcançados, ou seja,
nessa etapa, define-se que problema deve ser resolvido com o conhecimento a ser
adquirido. Após essa etapa, inicia-se a etapa de seleção, que consiste em selecionar
os dados-alvo, que podem ser segmentados em subconjuntos de dados.

A etapa de pré-processamento é na qual se realiza uma limpeza nos dados


com o objetivo de adequá-los para a mineração de dados. Normalmente, as bases
de dados com um grande volume não estão preparadas para a mineração. Após
a etapa de pré-processamento, inicia-se a etapa de transformação, que consiste
em fazer com que os dados pré-processados passem por uma transformação que
garanta o seu armazenamento adequado. Nessa etapa, o objetivo é fazer com que
os atributos representem todas as características desses dados.

Na etapa de mineração, é realizada a busca por padrões nos dados da base já


transformada. A mineração de dados é considerada o núcleo do processo de KDD.
A etapa final consiste em identificar, entre os padrões extraídos, quais satisfazem os
critérios definidos. No final dessa avaliação, é possível retornar ao início do processo
novamente ou implantar e incorporar o conhecimento extraído ao sistema de forma
que os métodos sejam documentados para a apresentação do conhecimento.

ATENCAO

O KDD se refere ao processo geral de descoberta de conhecimento útil a partir


de grandes volumes de dados. Envolve a avaliação e, possivelmente, a interpretação dos
padrões para tomar a decisão do que será qualificado como conhecimento. Também inclui
a escolha de esquemas de codificação, pré-processamento, amostragem e projeções dos
dados antes da etapa de mineração de dados. Já a mineração de dados refere-se à aplicação
de algoritmos para extrair padrões de dados sem as etapas adicionais do processo de KDD.

26
TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA

Na etapa de mineração de dados, podem ser utilizadas técnicas como:

• Redes neurais artificiais: consistem em modelos preditivos não lineares que


aprendem por meio do treinamento e se assemelham às redes neurais biológicas
(das quais vem o seu nome).
• Algoritmos genéticos: técnicas de otimização baseadas em combinação genética
e seleção natural.
• Método do vizinho mais próximo: é a técnica que classifica cada registro em
um conjunto de dados combinando os registros mais semelhantes.
• Indução de regras: consiste na extração baseada em regras condicionais a partir
da significância estatística.
• Visualização de dados: a partir de ferramentas que utilizam gráficos, é possível
realizar interpretações visuais de relações complexas.

3 APLICAÇÃO DO PROCESSO DE DESCOBERTA DO


CONHECIMENTO
Para exemplificar o processo de KDD, vamos basear-nos no trabalho
realizado por Schneider (2003), que utilizou como cenário para aplicação o Poder
Judiciário do estado do Rio Grande do Sul. O KDD foi aplicado nas bases de dados
de julgamento de processos à procura de descobertas baseadas na classificação
inicial dos processos com relação à incidência de processos, tempo de tramitação
e tipos de sentenças proferidas.

3.1 DEFINIÇÃO DOS OBJETIVOS


Devido à carência de informações estatísticas, foi definido um KDD que
pudesse auxiliar na busca por padrões de comportamento que relacionassem
a classificação processual com o padrão de sentenças proferidas, tempo de
tramitação e incidência de processos.

3.2 SELEÇÃO
Nesse caso, foram selecionadas as bases de dados que fornecem dados de
1ª instância, que possuem como característica principal a descentralização dos
dados em bancos de dados divididos por comarca, totalizando 80 bases de dados.
Os dados dessas comarcas foram replicados on-line e centralizados em uma única
base de dados. A Figura a seguir apresenta o modelo lógico de dados utilizados
para compreensão do domínio explorado.

27
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

FIGURA 5 – MODELO LÓGICO DE DADOS

FONTE: Schneider (2003, p. 33)

3.3 PRÉ-PROCESSAMENTO
Na etapa de pré-processamento, foi realizada uma limpeza na base de dados
com o objetivo de trabalhar apenas com dados consistentes. Processos que estavam
considerados como baixados, mas que estavam sem data de baixa, e processos nos
quais foram identificados erros de digitação nas datas foram encaminhados para os
responsáveis para correção e posterior reinserção na base de dados.

3.4 TRANSFORMAÇÃO
Para encaminhar a próxima etapa do KDD, que é a mineração, foram
construídos alguns campos na base de dados. Entre eles, podemos citar o campo
que realiza o cálculo do tempo de tramitação de cada processo (diferença entre
a data da baixa e a data de abertura) e a idade do réu, calculada a partir da sua
idade. Além disso, foram realizadas algumas adequações nos formatos dos dados
de alguns campos, a fim de fornecer os dados num padrão de entrada adequado
para a mineração dos dados na etapa seguinte.

28
TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA

3.5 MINERAÇÃO DE DADOS


Nesta etapa, inicialmente, foram defi nidas as técnicas de segmentação e
regras de associação para aplicação. Foram aplicados, inicialmente, dois filtros
nos atributos: 1) seção x classe x especialização; e 2) comarca x seção x classe
x especialização. Foi utilizado o algoritmo “K-means” para a configuração os
parâmetros quantidade de clusters (8), número randômico para escolha dos
centroides iniciais (10) e modo de cluster (use training set).

3.6 INTERPRETAÇÃO E AVALIAÇÃO


Para a avaliação dos resultados, foram considerados mais expressivos os
resultados realizados com 8 clusters, tendo em vista que os testes com 12 clusters
geraram resultados inexpressivos e com 4 clusters ocultavam informações relevantes.

UNI

Acesse o link a seguir com o trabalho de Schneider (2003), na página 42,


e veja o gráfico em formato de pizza com a distribuição do cruzamento de seção x
classe x especialização.

https://goo.gl/CGCnt9

Na interpretação dos dados, constatou-se que:

• 26% dos casos estão agrupados na seção cível, na classe processo de


conhecimento e com a especialização definida como família;
• 20% dos casos estão agrupados na seção cível, na classe processo de execução
fiscal e com a especialização definida como fazenda pública;
• 15% dos casos estão agrupados na seção cível, na classe processos de execução
e com a especialização definida como cível;
• 12% dos casos estão agrupados na seção juizado especial, na classe
associadas e especialização (no juizado especial a classe e a especialização
têm a mesma nomenclatura);
• 10% dos casos estão agrupados na seção crime, na classe procedimento
ordinário-reclusão e com a especialização definida como crime;
• 9% dos casos estão agrupados na seção juizado especial cível, na classe
precatórias criminais e com a especialização definida como associadas;
• 8% dos casos estão agrupados na seção crime, na classe precatórios criminais e
com a especialização definida como precatória crime.

29
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

Analisando esses resultados, pode-se constatar uma alta incidência de


processos cíveis que tramitam na justiça comum, com especialização de família
(26%) e fazenda pública (20%). Isso pode ser um motivo para sugerir a nomeação
de juízes específicos para julgar esses casos.

4 BIG DATA NA ÁREA DA SAÚDE


A área da saúde é uma das áreas que já possuem soluções implementadas
a partir dos conceitos que permeiam Big Data devido ao fato de essa área envolver
múltiplas relações com volumes de dados de pacientes, profissionais da área,
hospitais, laboratórios farmacêuticos, seguradoras, administração pública, entre
outros. Com a integração dessas bases de dados, surge um potencial de análises de
dados que poderiam influenciar políticas públicas em prol de melhorias na saúde,
por exemplo. Pacientes utilizando sensores de monitoramento com informações
disponibilizadas em uma plataforma acessível cruzadas com informações
providas de redes sociais dos próprios pacientes poderiam permitir aos médicos
a elaborações de diagnósticos mais precisos e realistas. Assim, seria possível agir
de maneira preventiva em muitos casos por meio de análises preditivas baseadas
nesses grandes volumes de dados.

Do ponto de vista da indústria farmacêutica, com análises mais


profundas em grandes volumes de dados, seria possível melhorar a eficácia
dos medicamentos, possibilitando melhores tratamentos aos doentes. Os
diversos hospitais e clínicas possuem essas informações, mas elas nem sempre
são aproveitadas. A possibilidade de correlacionar os registros médicos com os
tratamentos e os resultados dos tratamentos poderia ajudar muito nesse sentido.
Além disso, com um volume significativo de dados médicos e algoritmos
aprimorados de predição, seria possível modelar de forma mais eficiente em
quais vale a pena investir em pesquisas.

UNI

No link a seguir, você pode encontrar experiências de pacientes relacionadas


a seus tratamentos médicos que geram uma grande base de dados para análises.

https://goo.gl/o5fG

Acesse, no link a seguir, o site da rede Sermo, em que os médicos podem trocar
experiências do seu dia a dia — nesse caso, compartilhando casos reais de tratamentos
aplicados aos seus pacientes.

https://goo.gl/KFbJm

30
TÓPICO 3 | DESCOBERTA DE CONHECIMENTO COM BIG DATA

Outro uso potencial de Big Data é no controle de doenças, descobrindo


em que áreas elas foram detectadas e, de modo preditivo, alertando e preparando
os hospitais e centros de emergência regionais para um possível surto epidêmico.
Pesquisas demonstram que isso é possível e já existem casos com esse contexto
nos quais tendências são identificadas em um grande volume de dados padrões
de conexões e interdependências que não eram possíveis de serem observadas
em amostragens menores. Um caso é o Flu Trends da Google, que é um projeto
para identificar tendências de gripe antes de as epidemias se estabelecerem e que
se baseia nas informações obtidas no buscador.

5 BIG DATA NA ADMINISTRAÇÃO PÚBLICA


Para que seja possível implementar soluções que impactem na qualidade
de vida, muitas cidades estão desenvolvendo legislações para a transparência
de dados públicos, possibilitando, assim, a criação de soluções baseadas
nesses grandes conjuntos de dados. Com a utilização de Big Data associados a
algoritmos mais elaborados, pode-se criar soluções baseadas no rastreamento
de dados oriundos de diversas fontes. Realizando associações e cruzamento de
dados, é possível detectar fraudes, por exemplo, funcionários públicos que foram
contratados para trabalhar sob o regime de dedicação exclusiva e acumulam cargos
em outras empresas. O Big Data pode atuar como um aliado na transparência da
administração pública e garantir, assim, que a sociedade confie mais na qualidade
da administração pública.

No caso da administração pública, a tecnologia é apenas uma ferramenta


que possibilita melhorias, mas a grande mudança deve ser na dimensão cultural.
A transparência deve ser encarada como uma aliada da administração pública
contra corrupção e gastos inadequados de dinheiro público. Além disso, há a
possibilidade de o governo agilizar seus processos e tomar decisões importantes
com embasamento. A cidade de Nova York possui um portal intitulado NYC
Digital, no qual é possível que os cidadãos tenham acesso a diversas informações
relacionadas à administração da cidade, além da possibilidade de interagir em
algumas questões que se referem à gestão da cidade.

31
RESUMO DO TÓPICO 3
Nesse tópico você aprendeu:
• Descrever o processo de descoberta de conhecimento em Big Data.
• Aplicar o processo de descoberta de conhecimento em Big Data.
• Listar exemplos bem-sucedidos com Big Data.
• Que O processo KDD é constituído de várias etapas, que são executadas de
forma interativa e iterativa. São interativas porque envolvem a cooperação da
pessoa responsável pela análise de dados, cujo conhecimento sobre o domínio
orientará a execução do processo.
• Por sua vez, a iteração deve-se ao fato de que, com frequência, esse processo não
é executado de forma sequencial, mas envolve repetidas seleções de parâmetros
e conjuntos de dados, aplicações das técnicas de Data Mining e posterior análise
dos resultados obtidos, a fim de refinar os conhecimentos extraídos.
• O que traz o Infográfico, que apresenta e descreve as etapas do processo de
descoberta do conhecimento.

32
AUTOATIVIDADE

1 A etapa de transformação dos dados no processo KDD é de extrema


importância para a etapa de mineração, pois garante o seu armazenamento
adequado. Qual das situações abaixo representa a etapa de transformação
de dados?

a) ( ) Construção de campos que realizam alguns cálculos que podem


facilitar na mineração de dados.
b) ( ) Definir quais bases de dados serão utilizadas para aplicação do
processo KDD.
c) ( ) Aplicação de técnicas de segmentação e regras de associação na base
de dados.
d) ( ) Apresentação dos padrões de conhecimento extraídos da base de
dados.
e) ( ) Realização de uma limpeza na base de dados, mantendo apenas os
dados consistentes.

2 No processo KDD, a qualidade dos dados é crucial para obtenção de êxito,


pois pode determinar a eficiência dos algoritmos de mineração de dados.
Qual das etapas do processo KDD é responsável por garantir a qualidade
dos dados a serem processados?

a) ( ) Etapa de apresentação do conhecimento extraído.


b) ( ) Etapa de seleção dos dados.
c) ( ) Etapa de mineração dos dados.
d) ( ) Etapa de transformação dos dados.
e) ( ) Etapa de pré-processamento e limpeza.

3 Atualmente as informações de bases de dados atingem grandes quantidades


de forma muito fácil. A filtragem desses dados, seguida de estudos para
transformá-los em conhecimento que permita embasar gestores nas suas
tomadas de decisão, é de extrema importância. O processo KDD tem como
objetivo transformar em conhecimento esses grandes volumes de dados de
maneira sistemática. Analisando a figura abaixo, qual a sequência correta
das etapas que compõem o processo KDD?

a) ( ) 1- Pré-processamento; 2 - Seleção; 3 - Mineração de dados; 4 -


Interpretação e avaliação; e 5 -Transformação.
b) ( ) 1- Transformação; 2- Pré-processamento; 3- Seleção; 4-Mineração de
dados; e 5- Interpretação e avaliação.
c) ( ) 1- Interpretação e Avaliação; 2- Pré-processamento; 3- Transformação;
4-Mineração de dados; e 5- Seleção.
d) ( ) 1- Mineração de dados; 2- Pré-processamento; 3- Transformação;
4-Seleção; e 5- Interpretação e avaliação.

33
e) ( ) 1- Seleção; 2- Pré-processamento; 3- Transformação; 4-Mineração de
dados; e 5- Interpretação e avaliação.

4 Na etapa de interpretação e avaliação do processo KDD, o conhecimento


adquirido é interpretado e avaliado para verificar se o objetivo final foi
alcançado. O que ocorre caso o objetivo final não tenha sido alcançado?

a) ( ) Como o KDD é iterativo, o processo pode retornar a uma das etapas


anteriores.
b) ( ) O processo é encerrado e outros analistas de Big Data devem recomeçar
o processo com outros objetivos.
c) ( ) O processo deve ser redesenhado sem a etapa de mineração de dados.
d) ( ) O processo entra em looping e não se encerra nunca.
e) ( ) O processo é encerrado sem sucesso.

5 A mineração de dados é uma etapa do KDD que consiste na aplicação de


técnicas estatísticas e inteligência artificial em bases de dados volumosas
com o objetivo de reconhecer padrões e relações robustas entre os dados.
Como deve ser realizada a escolha da técnica mais adequada para a etapa
de mineração de dados?

a) ( ) A escolha deve ser por meio de um algoritmo de escolha de técnicas.


b) ( ) A escolha deve ser com base no tipo de problema a ser solucionado.
c) ( ) A escolha pode ser aleatória.
d) ( ) A escolha da técnica deve ser sempre por modelos preditivos.
e) ( ) A escolha deve ser realizada com base na definição dos usuários.

34
UNIDADE 1
TÓPICO 4

APLICAÇÕES DA CIÊNCIA DE DADOS

1 INTRODUÇÃO
A era tecnológica possui como característica forte os dados, que são gerados
pelos diversos contextos sociais. Esse movimento trouxe diversas possibilidades
na descoberta de novos valores tanto aos produtos quanto aos serviços oferecidos
pelas grandes corporações. É nesse ponto que a ciência de dados se relaciona com
outras tecnologias, como a Business Intelligence (BI).

Neste tópico, você conhecerá algumas aplicações da ciência de dados e


vai ver como a Business Intelligence pode agir com essa ciência, colaborando na
geração de uma melhor compreensão desses valores, que, antes, não eram tão
explícitos e, hoje, atrelam valores financeiros ao mundo dos negócios.

2 APLICAÇÃO DA CIÊNCIA DE DADOS


A ciência de dados é utilizada com o intuito de aplicar, nos dados, conceitos
multidisciplinares, que, na maioria das vezes, estão inseridos no contexto de uma
grande quantidade de dados. O termo “ciência” é utilizado quando aplicamos
um cunho investigativo sobre algo; aqui, ele está atrelado aos dados, já que, a
partir do uso de métodos científicos, de busca, questionamentos e pesquisas, visa
explorar os dados e, com isso, formular possíveis hipóteses por meio da aplicação
de técnicas e de ferramentas estatísticas.

Um olhar mais atento aos dados traz a aplicação de processos e técnicas


apropriadas para categorizá-los. É importante ressaltar que essas metodologias
podem ser aplicadas a diversos contextos e com objetivos diferentes. Muitas
vezes, quando mencionamos coleta de dados, temos a sensação de que são dados
oriundos apenas do mundo externo do negócio. No entanto, a ciência de dados se
aplica tanto ao conjunto de dados internos da empresa quanto aos externos. Em
função da grande diversidade de situações, dos tipos de dados e das necessidades
das empresas, podemos dizer que essa ciência consegue lidar com os dados
independentemente da maneira como eles estejam sendo apresentados devido à
sua multidisciplinaridade.

A sua aplicação é trabalhada com tecnologias e ferramentas apropriadas,


como uso de técnicas estatísticas, aprendizado de máquina, análise de dados
utilizando as linguagens Python e R, plataformas fundamentadas na nuvem,
entre outros.

35
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

A Figura 6 contextualiza bem ações presentes no cotidiano das


corporações ao longo dos anos. Devido à globalização, os consumidores passaram
a demonstrar maior necessidade diante das funcionalidades que os recursos
tecnológicos vinham, e vem, disponibilizando. Com a alta demanda, novas leis
regulamentárias também passaram a fazer parte desse contexto.

FIGURA 6 – MODELO DE PRESSÕES — REAÇÕES — SUPORTE DE NEGÓCIOS


Decisões
e suporte
Reações da
organização
Fatores do Análise,
ambiente decisões,
de negócios Estratégia, previsões
colaboração dos
Globalização,
Pressões parceiros, reação
demandas do
em tempo real, Suporte
consumidor,
regulamentações agilidade, maior computadorizado
governamentais, Oportunidades produtividade, à decisão
mercados e novos fornecedores, integrado
competição etc. novos modelos de
negócios etc.
Business
intelligence

FONTE: Turban et al. (2012, p. 21).

Toda novidade surge diante da demonstração de sua necessidade;


atualmente, estamos sempre sendo pressionados pela possibilidade de que haja
oportunidades em diversas vertentes do negócio. Com a competitividade, toda
nova metodologia ou ideia passa a ser considerada válida quando o objetivo é
trazer sucesso ao negócio e, consequentemente, aos seus processos.

A aplicação da ciência de dados deve ocorrer de forma conveniente aos


negócios, já que o principal objetivo é o de prever os próximos passos que podem
ser tomados. Por esse motivo, os dados se fazem tão presentes na tomada de
decisões atualmente dentro de uma empresa.

ATENCAO

Enquanto as análises realizadas por tecnologias Big Data, ou seja, que lidam
com grandes volumes de dados, norteiam as empresas diante de novos desafios por meio
da estruturação dos dados, a Business Intelligence traz a interpretação dessas informações
presentes nos processos empresariais, contribuindo para a formulação de novos cenários.

36
TÓPICO 4 | APLICAÇÕES DA CIÊNCIA DE DADOS

3 EXEMPLOS DE APLICAÇÃO DA CIÊNCIA DE DADOS


Junto às tecnologias e ferramentas existentes, a ciência de dados tem
diversos exemplos de aplicações. Dentre eles, podemos citar algumas aplicações
abstratas mais específicas, como a busca pela fidelização do cliente ao negócio, por
meio de análise de suas necessidades específicas, e programas voltados a atendê-
las. Na prática, isso ocorre quando, por exemplo, o supermercado onde você
realiza compras e que, na maioria das vezes, faz parte de uma grande rede, oferece
descontos em produtos específi cos, seja por meio de um aplicativo, os quais
possuem como objetivos obter uma maior quantidade de dados dos clientes (como
geolocalização, gostos pessoais, dentre outros) ou até mesmo por outras formas.

As facilidades tecnológicas trazem, também, uma maior frequência de


tentativas de burlar o sistema, ou seja, por meio de diferentes tipos de análises
aplicadas dentro de uma empresa, a detecção de fraudes se torna mais eficiente,
evitando, assim, a minimização dos déficits que podem ser causados.

A ciência de dados tem muito a ver com as possibilidades de análises


que podem ser aplicadas; a escolha de qual aplicar ocorre após um tempo de
amadurecimento não só dos processos do negócio, mas, também, de toda equipe
envolvida, ou seja, exige um trabalho em conjunto tanto dos recursos tecnológicos
quanto dos humanos.

Existem diversos exemplos que podem ser citados, porém, é interessante que
você compreenda como a ciência de dados pode ser aplicada em alguns contextos
corporativos diversos. Por exemplo, o contexto do e-commerce tem grande atuação
na busca pela fidelização dos clientes; dessa forma, por meio da disponibilização
de serviços personalizados e de recomendação, as empresas conseguem atender
e atingir as particularidades dos clientes. Um exemplo prático disso é quando
realizamos alguma busca: você já notou que, posteriormente, o produto ou algo
relacionado ao que pesquisamos começa a surgir em nossas redes sociais, sites,
e-mails? Então, por meio de metadados e outros recursos contidos nos sites que
acessamos, as empresas acabam tendo uma fonte de dados para atuar com essa
forma de abordagem. Desse modo, conseguem aplicar ações de marketing digital.

As redes sociais são campos ricos de dados: nelas, as empresas, por meio
das autorizações que nós mesmos acabamos dando, criam perfis de usuários,
particularmente e por grupos, para contribuir com a atuação mais presente na
detecção de padrões, comportamento e até mesmo análises de sentimentos do
usuário. Hoje, podemos acessar nossos computadores, tablets ou smarthphones
por meio de reconhecimento facial, biometria, dentre outros.

37
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

Muitas vezes, não conseguimos visualizar tão claramente como essas


grandes empresas lucram com nossos dados, mas, por trás, o mercado financeiro
tem possibilidade de detectar fraudes, já que praticamente tudo o que fazemos
está conectado a uma rede, a análises de crédito, gerenciamento de risco, dentre
outros. Uma outra atuação que tem se mostrado bastante eficiente na ciência de
dados é quando ela é aplicada a alguns setores de prestação de serviços, como
para economia de energia e detecção de melhorias dessa rede, na personalização
de serviços hospitalares, em que pode haver a possibilidade de detecção
antecipada de diagnósticos por meio de análises genéticas, personalização nos
atendimentos médicos, dentre outros.

Como exemplo, podemos citar um case das varejistas do ramos de


medicamentos dos EUA, mencionado por Machado (2018), que tem de mais de 6
mil lojas. Podemos notar que, atualmente, as farmácias não vendem mais apenas
remédios, como antigamente. Hoje, e não poderia ser diferente nas lojas dessas
redes, os produtos são bastante variados e vão desde medicamentos a produtos
em geral. Outro ponto comum dessa rede e das demais é a aquisição de cadeias
menores, que, com o tempo, trouxe observações importantes, como a expansão
geográfica não representava mais um caminho para seu crescimento e que seus
estoques haviam atingido mais de 1 bilhão de dólares.

A empresa tinha como objetivo trazer uma maior eficácia de capital de


giro e reduzir os valores atribuídos ao estoque, aplicando melhorias nos níveis de
serviço. Esse objetivo, em números, seria a redução de 10% do estoque no período
de 1 ano, o que, em dinheiro, seria o equivalente a 1 bilhão de dólares.

Tudo isso gerou mais de 7 terabytes de informações de inventário e de


diversas transações oriundas de fontes variadas. Após a análise, a equipe chegou
a algumas conclusões:

• os processos de entrega de produtos dos fornecedores para as lojas deveriam


ser revistos com o intuito de privilegiar a centralização de diversos itens nos
centros de distribuição da companhia;
• necessidade do processamento dos dados com o objetivo de ajustar as transições
dos produtos entre as lojas, ou seja, identificar estoque extra de itens em algumas
das suas 6 mil lojas e falta ou baixo estoque em outras para redistribuí-los,
transportando o produto certo para o lugar certo e no momento certo.

Para colocar tudo isso em prática, a empresa teve que se certificar de que
todos os dados eram reais para que, posteriormente, aplicasse o cruzamento dos
dados de predição de vendas, que só ocorreu devido a técnicas específicas de
análise. Com isso, todos os históricos de transações e identificação de tendências
de vendas de produtos foram detectados, conforme suas respectivas regiões, ou
seja, trouxeram as características particulares para cada loja, tendo como resultado
uma previsão de venda de cada item.

38
TÓPICO 4 | APLICAÇÕES DA CIÊNCIA DE DADOS

Como resultado final, a empresa reduziu em mais de 100 milhões de


dólares o estoque em excesso na primeira redistribuição realizada, atingindo 10%
do objetivo geral de ajuste de estoque. A redução final em 1 ano foi de 1,5 bilhão
de dólares. As outras soluções encontradas e executadas pela empresa foram:

• otimização dos níveis de serviço para diferentes categorias de produto;


• melhor definição de processos, limitando o estoque de produtos em promoção;
• criação de um novo processo de gerenciamento e acompanhamento dos
pedidos junto aos fornecedores;
• monitoramento ainda mais específico dos pedidos em categorias de alto risco.

A ciência de dados, junto a outras tecnologias, como Big Data e Business


Intelligence, busca trazer atuações eficazes no tratamento e nos objetivos do uso do
dado em um negócio. Hoje, as grandes corporações estão utilizando esses recursos
para se mostrarem presentes diante da concorrência no mundo dos negócios.

4 BUSINESS INTELLIGENCE (BI) E CIÊNCIA DE DADOS


Em um ambiente corporativo, o objetivo do uso e da aplicação da ciência
de dados se assemelha ao do Business Intelligence (BI), tendo em vista que ambos
buscam utilizar a conversão de dados — caracterizados como brutos, já que, de
início, não passaram por nenhuma filtragem — em conhecimento para que os
profi ssionais responsáveis pela gestão do negócio possam tomar decisões.

Podemos afirmar, com base em Turban et al. (2012, p. 27), que o termo
Business Intelligence significa uma expressão livre de conteúdo e, portanto,
representa coisas diferentes para pessoas diferentes. Parte da confusão relacionada
ao BI é causada pela enxurrada de acrônimos e palavras da moda associadas a ele
e suas ferramentas (como Business Performance Management — BPM). Ainda sob
o ponto de vista dos autores, os principais objetivos do BI são permitir o acesso
interativo aos dados (às vezes, em tempo real), proporcionar a manipulação desses
dados e fornecer aos gerentes e analistas de negócios a capacidade de realizar a
análise adequada. Ao analisarem dados, situações e desempenhos históricos e
atuais, os tomadores de decisão conseguem valiosos insights que podem servir
como base para decisões melhores e mais informadas.

O BI trabalha, primeiramente, com a transformação dos dados — que, quando


vistos de forma individualizada, não trazem nenhum sentido — em informações,
de modo que já podemos compreender melhor do que se tratam. Depois, essas
informações são utilizadas em decisões e, posteriormente, são postas em ação. Muitas
vezes, o uso dessas tecnologias está associado tanto ao modo como elas operam quanto
a se fornecem alguma informação relevante a ser aplicada no contexto presente.
Quando falamos de BI e ciência de dados, podemos mencionar que, enquanto o BI
analisa descritivamente ou até mesmo de forma retórica o que houve no decorrer do
tempo nos processos do negócio, a ciência de dados questiona o que irá ocorrer, ou
seja: o BI traz mais um conceito do que ocorreu, enquanto a ciência de dados tenta
prever os próximos passos a serem tomados, como mostra a figura a seguir.
39
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

FIGURA 7 – BUSINESS INTELLIGENCE VERSUS CIÊNCIA DE DADOS

Ciência de dados
Alto
Análise preditiva
Análise prescritiva
Por quê? O que irá...?
O que eu devo fazer?
Valor do
Ciência
negócio
de dados
Business intelligence
Análise descritiva
Business Relatório padrão
intelligence O que aconteceu?
Baixo
Passado Tempo Futuro
FONTE: Schmarzo (2016).

Podemos notar que, enquanto a ciência de dados traz um olhar para o futuro,
por meio de análises preditivas e prescritivas, e se baseia em questionamentos
como por quê, o que devo fazer e o que irá ocorrer, a inteligência de negócios,
ou seja, o BI, traz análises descritivas, relatórios padrão e questionamentos sobre
o que já aconteceu. No entanto, não podemos deixar de mencionar que ambas
ainda conseguem trabalhar em conjunto e com outras tecnologias.

Conforme Turban et al. (2012, p. 35), a equipe de BI lidará com as seguintes


questões:

• criar categorias de projetos (estratégicos, obrigatórios, de investimento, de


oportunidades de negócios etc.);
• definir critérios de seleção de projetos;
• determinar e estabelecer uma estrutura para gerenciar o risco do projeto;
• gerenciar e fazer uso das interdependências do projeto;
• monitorar e ajustar continuamente a composição do portfólio.

DICAS

Eckerson (2003) traz resultados de uma pesquisa feita entre 510 corporações
que indica os benefícios do BI conforme a visão dos participantes. São eles:

• economia de tempo (61%);


• versão única da verdade (59%);
• melhores estratégias e planos (57%);
• melhores decisões táticas (56%);
• processos mais eficientes (55%);
• economia de custos (37%).

40
RESUMO DO TÓPICO 4
Nesse tópico você aprendeu:
• Discutir onde aplicar ciência de dados.
• Descrever exemplos de aplicação da ciência de dados.
• Relacionar business intelligence (BI) e ciência de dados.
• Que ter a chance de prever possibilidades para o futuro é uma vantagem,
principalmente para as empresas. Por isso, a aplicação e o uso da ciência dos
dados podem ser visualizados por meio de um fluxo de passos que podem ser
utilizados para a obtenção do sucesso nos negócios.
• Acompanhe, no Infográfico, quais são esses passos.

41
42
AUTOATIVIDADE

1 Atualmente, as empresas encontram-se em um contexto altamente


competitivo. Assim, pretendem obter a maior quantidade de dados
possíveis sobre seus clientes por meio do uso de tecnologias, com o intuito
de obter suporte para suas decisões. Como a inteligência de negócio e a
ciência dos dados podem ser incorporadas aos processos das empresas para
que possam ser gerados lucros e progressos nos negócios?​​​​​​​

a) ( ) Permitindo que as empresas façam uso de tipos de dados específicos e


descartando os demais.
b) ( ) Com ferramentas e arquiteturas de análise e interpretação das
informações disponibilizadas sobre o negócio, além de análises de
aplicações futuras.
c) ( ) Monitorando as ações e os processos das empresas desde o seu
surgimento até o presente momento, buscando a causa dos problemas.
d) ( ) Diversificando as formas de armazenamento das empresas, por meio
de diversos bancos de dados distintos.
e) ( ) Por meio de uso de dados antigos e planilhas desenvolvidas pelos
funcionários de diversos setores da empresa.

2 Os dados são, atualmente, os recursos mais valiosos das grandes corporações.


Neles, é possível encontrar diversas informações sobre o negócio e sobre
os consumidores dos serviços e produtos disponibilizados pela empresa.
Aponte a alternativa que apresenta o momento em que a ciência dos dados
é aplicada.​​​​​​​

a) ( ) É utilizada em análises diagnósticas e prescritivas, diante de fatos que


já ocorreram.
b) ( ) É utilizada apenas com dados presentes e as informações são analisadas
e descartadas posteriormente, não gerando nenhuma informação
futura.
c) ( ) É utilizada em análises prescritivas, questionando sobre ações que já
ocorreram.
d) ( ) É utilizada com dados antigos, gerando relatórios retroativos.
e) ( ) É utilizada em análises preditivas, com o intuito de prever os próximos
passos que o negócio deve tomar.

3 Em um único negócio, pode-se deparar com muitos terabytes de dados,


os quais são compostos por dados oriundos de ações executadas
constantemente. Diante das dificuldades de grandes redes em lidar com a
quantidade e diversidade de informações geradas, além da alta concorrência,
da prosperidade de negócios eletrônicos na internet, dentre outros, assinale
a alternativa que apresenta uma possível contribuição aos negócios e que
pode ser trazida pela ciência dos dados e pela business intelligence.​​​​​​​

43
a) ( ) Crescente taxa de sobrecarga de informações.
b) ( ) Podem ser aplicadas por meio de planilhas eletrônicas e tabelas com
dados inseridos manualmente.
c) ( ) Trazem a automatização de processos decisórios, principalmente os
que têm os clientes como foco.
d) ( ) Para executar a filtragem das informações, deve haver obrigatoriamente
outra tecnologia.
e) ( ) São tecnologias que podem ser aplicadas em qualquer máquina, já que
não exigem configurações específicas.

4 Os ambientes corporativos atuais realizam operações cada vez mais


complexas, já que as pressões externas aos negócios acabam demandando
grandes mudanças e adoção de tecnologias cada vez mais modernas.
Aponte a alternativa que condiz com o conceito correto de ciência dos
dados.​​​​​​​

a) ( ) A ciência dos dados atua trazendo conceitos multidisciplinares para a


análise de dados, contribuindo para nortear o negócio em suas ações
futuras.
b) ( ) A ciência dos dados gera maior concorrência entre as empresas, por
indicar quais serviços e produtos devem ser criados.
c) ( ) A ciência dos dados é o primeiro conceito aplicado na análise de
dados. Depois disso, eles são armazenados e analisados por outras
ferramentas.
d) ( ) A ciência dos dados é utilizada para definição de cargos executivos
dentro da empresa.
e) ( ) A ciência dos dados contribui por meio de relatórios e planilha de
dados.

5 Com o avanço tecnológico, é possível se deparar com diversos recursos


voltados a várias vertentes de negócios e aplicações. Já há algum tempo,
os dados representam os principais ativos das empresas, gerando lucro.
Existem várias tecnologias e metodologias voltadas a sua análise e ao
seu processamento. Assim, assinale a alternativa que melhor descreve a
inteligência de negócios (business intelligence - BI).

a) ( ) Possibilita a transformação de dados brutos em informações úteis para


o negócio.
b) ( ) Disponibilização de tecnologia com foco na armazenagem de dados
oriundos de diversas fontes.
c) ( ) Significa, no mundo dos negócios, um grande volume de dados.
d) ( ) Traz o agrupamento de dados relacionados entre si.
e) ( ) Aplica conceitos estatísticos na análise de dados futuros do negócio.

44
UNIDADE 1
TÓPICO 5

INTELIGÊNCIA ARTIFICIAL

1 INTRODUÇÃO
A inteligência artificial (IA) possibilita que as máquinas aprendam com
a experiência, ajustem-se a novas entradas e realizem tarefas semelhantes às
humanas. A maioria dos exemplos de IA sobre os quais você ouve falar hoje
— de computadores que jogam xadrez a carros autônomos — depende muito
do aprendizado profundo e do processamento de linguagem natural. Usando
essas tecnologias, os computadores podem ser treinados para realizar tarefas
específicas, processando grandes quantidades de dados e reconhecendo padrões.

Neste tópico, você irá conhecer os principais conceitos de inteligência


artificial, vendo seu histórico e suas principais áreas de aplicações.

2 O QUE É INTELIGÊNCIA ARTIFICIAL (IA)?


Inteligência artificial (IA), às vezes chamada de inteligência de máquina,
é a inteligência demonstrada por máquinas, em contraste com a inteligência
natural exibida por humanos e outros animais. Na ciência da computação, a
pesquisa em IA é definida como o estudo de “agentes inteligentes”: qualquer
dispositivo que perceba seu ambiente e realize ações que maximizem sua
chance de atingir seus objetivos com sucesso. Coloquialmente, o termo
inteligência artificial é aplicado quando uma máquina imita funções cognitivas
que os humanos associam a outras mentes humanas, como “aprendizado” e
“resolução de problemas” (WARWICK, 2011).

O escopo da IA é contestado: à medida que as máquinas se tornam


cada vez mais capazes, tarefas consideradas como exigindo “inteligência”
são frequentemente removidas da definição, um fenômeno conhecido como o
efeito IA. Por exemplo, o reconhecimento óptico de caracteres é frequentemente
excluído da inteligência artificial, tendo se tornado uma tecnologia de rotina. As
capacidades de máquinas modernas geralmente classificadas como IA incluem
o entendimento humano com sucesso, competindo no mais alto nível em
sistemas de jogos estratégicos (como xadrez e Go), carros de operação autônoma
e roteamento inteligente em redes de distribuição de conteúdo e simulações
militares (WARWICK, 2011).

45
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

Existem muitas outras definições para inteligência artificial, mas algumas


das mais comuns são as seguintes:

• a capacidade de um computador digital ou robô controlado por computador


executar tarefas comumente associadas a seres inteligentes;
• uma máquina completando as tarefas que envolvem um certo grau de inteligência
que anteriormente era considerado apenas para ser feito por humanos;
• a simulação de processos de inteligência humana por máquinas, especialmente
sistemas de computador. Esses processos incluem aprendizado, raciocínio e
autocorreção;
• a capacidade de uma máquina para imitar o comportamento humano
inteligente;

Todas as definições acima estão corretas, mas o que realmente se resume


é “quão perto ou quão bem um computador pode imitar ou ir além quando
comparado ao ser humano”.

Dentro da inteligência artificial, podemos definir quatro técnicas que são


os pilares principais que permitem seus principais avanços (ERTEL, 2017).

• Categorização: a inteligência artificial requer muitos dados relevantes para


o problema que está sendo resolvido. O primeiro passo para construir uma
solução de inteligência artificial é criar a “métrica de intenção de projeto”,
que é usada para categorizar o problema. Independentemente de os usuários
estarem tentando construir um sistema que possa, por exemplo, ajudar
um médico a diagnosticar o câncer ou ajudar um administrador de TI a
diagnosticar problemas de redes sem fio, os usuários precisam definir métricas
que permitam que o problema seja dividido em partes menores. Em redes sem
fio, por exemplo, as principais métricas são tempo de conexão do usuário, taxa
de transferência, cobertura e roaming. No diagnóstico de câncer, as principais
medidas são contagem de células brancas, etnia e exames de raios X.
• Classificação: depois que os usuários tiverem o problema categorizado em
áreas diferentes, o próximo passo é ter classificadores para cada categoria
que apontarão os usuários na direção de uma conclusão significativa. Por
exemplo, ao treinar um sistema de inteligência artificial para jogar o Jeopardy,
os usuários devem, primeiro, classificar uma questão como sendo de natureza
literal ou um jogo de palavras e, então, classificar por tempo, pessoa, coisa
ou lugar. Em redes sem fio, uma vez que os usuários saibam a categoria de
um problema (por exemplo, um problema pré ou pós-conexão), os usuários
precisam começar a classificar o que está causando o problema: associação,
autenticação, DHCP ou outras, com fio e fatores de dispositivo.
• Aprendizado de máquina: agora que o problema é dividido em partes de
metadados específicas do domínio, os usuários estão prontos para fornecer
essas informações ao mundo mágico e poderoso do aprendizado de máquina.
Existem muitos algoritmos e técnicas de aprendizado de máquina, com
aprendizado de máquina supervisionado usando redes neurais (ou seja,
aprendizado profundo), tornando-se uma das abordagens mais populares.

46
TÓPICO 5 | INTELIGÊNCIA ARTIFICIAL

O conceito de redes neurais existe desde 1949, mas, com os mais recentes
aumentos nos recursos de computação e armazenamento, as redes neurais estão
sendo treinadas para resolver uma variedade de problemas do mundo real,
desde o reconhecimento de imagens e processamento de linguagem natural
até a previsão do desempenho da rede. Outras aplicações incluem descoberta
de características de anomalias, detecção de anomalias de séries temporais e
correlação de eventos para análise de causa raiz.
• Filtragem colaborativa: a maioria das pessoas experimentam filtragem
colaborativa quando escolhem um filme no Netflix ou compram algo da
Amazon e recebem recomendações para outros filmes ou itens de que possam
gostar. Além dos recomendadores, a filtragem colaborativa também é usada
para classificar grandes conjuntos de dados e colocar uma face em uma solução
de IA. É onde toda a coleta e análise de dados é transformada em insight ou
ação significativa. Seja usada em um game show, seja por um médico ou por um
administrador de rede, a filtragem colaborativa é o meio de fornecer respostas
com alto grau de confiança. É como um assistente virtual que ajuda a resolver
problemas complexos.

A inteligência artificial ainda é um espaço emergente, mas seu impacto


é profundo e será sentido ainda mais intensamente à medida que se tornar
uma parte cada vez maior de nossas vidas diárias. Ao escolher uma solução de
inteligência artificial, como ao comprar um carro, precisamos entender o que está
sob o controle para garantir que estamos comprando o melhor produto para as
nossas necessidades.

3 HISTÓRICO
Na primeira metade do século XX, a ficção científica familiarizou o mundo
com o conceito de robôs artificialmente inteligentes. Começou com o homem de
coração “sem coração” de o “Mágico de Oz” e continuou com o robô humanoide
que se fazia passar por Maria em “Metrópolis”. Na década de 1950, tínhamos
uma geração de cientistas, matemáticos e filósofos com o conceito de inteligência
artificial (ou IA) culturalmente assimilado em suas mentes. Uma dessas pessoas
foi Alan Turing, um jovem polímata britânico que explorou a possibilidade
matemática da inteligência artificial. Turing sugeriu que os humanos usam
informações disponíveis, bem como a razão, para resolver problemas e tomar
decisões — então por que as máquinas não podem fazer a mesma coisa? Essa foi a
estrutura lógica de seu artigo de 1950, “Computing Machinery and Intelligence”,
no qual ele discutiu como construir máquinas inteligentes e como testar sua
inteligência (WARWICK, 2011).

No entanto, algo impediu Turing de começar a trabalhar ali mesmo.


Primeiro, os computadores precisavam mudar fundamentalmente. Antes de 1949,
os computadores não tinham um pré-requisito-chave para a inteligência: eles não
conseguiam armazenar comandos, apenas executá-los. Em outras palavras, os
computadores poderiam saber o que fazer, mas não conseguiam lembrar o que eles

47
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

faziam. Em segundo lugar, a computação era extremamente cara. No início dos anos
1950, o custo de alugar um computador chegava a US$ 200 mil por mês. Somente
as universidades de prestígio e as grandes empresas de tecnologia poderiam dar-
se ao luxo de se distrair nessas águas inexploradas. Uma prova de conceito, bem
como a defesa de pessoas de alto perfil, foi necessária para persuadir as fontes de
financiamento de que valeria a pena investigar a inteligência das máquinas.

Cinco anos depois, a prova de conceito foi iniciada por Allen Newell, Cliff
Shaw e Logic Theorist, de Herbert Simon. O Logic Theorist era um programa
projetado para imitar as habilidades de resolução de problemas de um ser humano
e foi financiado pela Corporação de Pesquisa e Desenvolvimento (RAND). É
considerado por muitos como o primeiro programa de inteligência artificial e foi
apresentado no Dartmouth Summer Research Project em Inteligência Artificial
(DSRPAI) por John McCarthy e Marvin Minsky em 1956. Nessa conferência
histórica, McCarthy, imaginando um grande esforço colaborativo, trouxe os
principais pesquisadores de vários campos de uma discussão aberta sobre
inteligência artificial, termo que ele cunhou no próprio evento. Infelizmente, a
conferência ficou aquém das expectativas de McCarthy; as pessoas iam e vinham
como bem entendiam, e não havia acordo sobre métodos padronizados para
o campo. Apesar disso, todos se alinharam com o sentimento de que a IA era
alcançável. O significado desse evento não pode ser minado, pois catalisou os
próximos vinte anos de pesquisa em IA (WARWICK, 2011; ERTEL, 2017).

De 1957 a 1974, a IA floresceu. Os computadores poderiam armazenar


mais informações e se tornariam mais rápidos, mais baratos e mais acessíveis.
Algoritmos de aprendizado de máquina também melhoraram e as pessoas
aprenderam a saber qual algoritmo aplicar ao seu problema. Demonstrações
anteriores, como a de Solucionador de Problemas Geral, de Newell, e Simon e
ELIZA, de Joseph Weizenbaum, mostraram-se promissoras com relação aos
objetivos de resolução de problemas e à interpretação da linguagem falada,
respectivamente. Esses sucessos, assim como a defesa dos principais pesquisadores
(a saber, os participantes do DSRPAI), convenceram agências governamentais,
como a Agência de Projetos de Pesquisa Avançada de Defesa (DARPA), a
financiar pesquisa de IA em várias instituições. O governo estava particularmente
interessado em uma máquina que pudesse transcrever e traduzir a linguagem
falada, bem como fizesse processamento de dados de alto rendimento. O
otimismo foi alto e as expectativas foram ainda maiores. Em 1970, Marvin Minsky
disse à revista Life que, em dentro de três a oito anos, teriam uma máquina com
a inteligência geral de um ser humano médio. Entretanto, embora a prova básica
de princípio estivesse presente, ainda havia um longo caminho a percorrer: os
objetivos finais do processamento da linguagem natural, o pensamento abstrato
e o autorreconhecimento poderiam ser alcançados (WARWICK, 2011).

48
TÓPICO 5 | INTELIGÊNCIA ARTIFICIAL

Romper o nevoeiro inicial da IA revelou uma montanha de obstáculos.


A maior delas era a falta de poder computacional para fazer algo substancial: os
computadores simplesmente não conseguiam armazenar informações suficientes
ou processá-las com rapidez suficiente. Para se comunicar, por exemplo, é
preciso conhecer o significado de muitas palavras e compreendê-las em muitas
combinações. Hans Moravec, um estudante de doutorado de McCarthy na época,
afirmou que “os computadores ainda eram milhões de vezes fracos demais para
exibir inteligência”. Como a paciência diminuiu, o mesmo aconteceu com o
financiamento, e a pesquisa chegou a um ritmo lento durante dez anos.

Nos anos 1980, a IA foi reacendida por duas fontes: uma expansão do conjunto
de ferramentas algorítmicas e um aumento de fundos. John Hopfield e David
Rumelhart popularizaram técnicas de “aprendizado profundo” que permitiram
que os computadores aprendessem usando a experiência. Por outro lado, Edward
Feigenbaum introduziu sistemas especialistas que imitavam o processo de tomada
de decisão de um especialista humano. O programa perguntaria a um especialista
em um campo como responder em uma determinada situação, e, uma vez que isso
fosse aprendido para praticamente todas as situações, os não especialistas poderiam
receber conselhos desse programa. Sistemas especialistas foram amplamente
utilizados nas indústrias. O governo japonês financiou sistemas especialistas
e outros esforços relacionados à IA como parte do Projeto de Computação da
Quinta Geração (FGCP). De 1982 a 1990, eles investiram 400 milhões de dólares
com os objetivos de revolucionar o processamento de computadores, implementar
programação lógica e melhorar a inteligência artificial. Infelizmente, a maioria dos
objetivos ambiciosos não foi atingida. No entanto, pode-se argumentar que os efeitos
indiretos do FGCP inspiraram uma geração jovem e talentosa de engenheiros e
cientistas. Independentemente disso, o financiamento do FGCP cessou, e a IA caiu
fora dos holofotes (WARWICK, 2011).

Mesmo na ausência de financiamento do governo e propaganda pública,


a IA prosperou. Durante as décadas de 1990 e 2000, muitas das metas marcantes
da inteligência artificial foram alcançadas. Em 1997, o atual campeão mundial
de xadrez e grande mestre Gary Kasparov foi derrotado pelo Deep Blue da IBM,
um programa de computador que joga xadrez. Essa partida altamente divulgada
foi a primeira vez que a perda de um campeão mundial de xadrez foi para um
computador e serviu como um grande passo para um programa de tomada de
decisões artificialmente inteligente. No mesmo ano, o software de reconhecimento
de fala, desenvolvido pela Dragon Systems, foi implementado no Windows. Esse
foi outro grande passo, mas na direção do esforço de interpretação da linguagem
falada. Parecia que não havia problema com o qual as máquinas não conseguiam
lidar. Até mesmo a emoção humana era um jogo justo, como evidenciado por
Kismet, um robô desenvolvido por Cynthia Breazeal que podia reconhecer e
exibir emoções (WARWICK, 2011; ERTEL, 2017).

49
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

Ocorreu que o limite fundamental do armazenamento de computadores


que estava nos mantendo há 30 anos não era mais um problema. A lei de Moore,
que estima que a memória e a velocidade dos computadores dobram a cada
ano, mostrou que, finalmente, alcançou e, em muitos casos, superou nossas
necessidades. Foi precisamente assim que o Deep Blue conseguiu derrotar Gary
Kasparov, em 1997, e como o Alpha Go, da Google, conseguiu derrotar o campeão
do Chinese Go, Kie Je. Assim, saturamos as capacidades da IA a o nível do nosso
atual poder computacional (armazenamento de computadores e velocidade de
processamento) e, então, esperamos que a lei de Moore se atualize novamente.

Vivemos agora na era de Big Data, uma época em que temos a capacidade
de coletar enormes somas de informações, que são muito complicadas para
uma pessoa processar. A aplicação da inteligência artificial a esse respeito já foi
bastante proveitosa em diversos setores, como tecnologia, bancos, marketing
e entretenimento. Vimos que, mesmo que os algoritmos não melhorem muito,
o Big Data e a computação maciça simplesmente permitem que a inteligência
artificial aprenda por meio da força bruta. Pode haver evidências de que a lei de
Moore está diminuindo um pouco, mas o aumento nos dados certamente não
perdeu nenhum impulso. Avanços na ciência da computação, matemática ou
neurociência servem como saídas potenciais para o limite imposto pela lei de
Moore (IAFRATE, 2018).

4 APLICAÇÕES
O uso de inteligência artificial já é amplo em diversas áreas. A seguir,
você conhecerá algumas das diversas aplicações da inteligência artificial em áreas
comuns na vida das pessoas.

• Educação: os avanços no processamento de linguagem natural, combinados


com o aprendizado de máquina, também permitiram a classificação automática
de tarefas, bem como a compreensão orientada por dados das necessidades
individuais de aprendizado dos alunos. Isso levou a uma explosão na
popularidade dos MOOCs, ou Massive Open Online Courses, que permitem
que estudantes de todo o mundo façam aulas on-line. Os conjuntos de dados
coletados desses sistemas de aprendizagem on-line em grande escala também
permitiram a análise de aprendizado, que será usada para melhorar a qualidade
da aprendizagem em escala. Exemplos de como a análise de aprendizado pode
ser usada para melhorar a qualidade da aprendizagem incluem prever quais
alunos estão em risco de falha e analisar o engajamento dos alunos.
• Finanças: o comércio algorítmico envolve o uso de sistemas complexos de
inteligência artificial para tomar decisões comerciais a velocidades de várias
ordens de grandeza maiores do que qualquer humano é capaz de fazer, muitas
vezes, fazendo milhões de negociações em um dia sem qualquer intervenção
humana. Essa negociação é chamada de negociação de alta frequência e
representa um dos setores que mais crescem no comércio financeiro. Muitos
bancos, fundos e empresas proprietárias de trading agora têm portfólios

50
TÓPICO 5 | INTELIGÊNCIA ARTIFICIAL

inteiros que são administrados apenas por sistemas de IA. Os sistemas de


negociação automatizados são normalmente usados por grandes investidores
institucionais, mas, nos últimos anos, também houve um influxo de empresas
proprietárias menores negociando com seus próprios sistemas de IA.
• Busca de emprego: o mercado de trabalho tem visto uma mudança notável
devido à implementação de inteligência artificial, simplificando o processo para
recrutadores e candidatos a emprego (ou seja, o Google for Jobs e a inscrição on-
line). De acordo com Raj Mukherjee, da Indeed.com, 65% das pessoas iniciam
uma busca de emprego novamente dentro de 91 dias após a contratação. O motor
com IA simplifica a complexidade da procura de emprego, operando informações
sobre habilidades profissionais, salários e tendências do usuário, combinando
as pessoas com as posições mais relevantes. A inteligência de máquina calcula
quais salários seriam apropriados para um trabalho específico, puxa e destaca
informações de currículo para recrutadores que usam processamento de
linguagem natural, que extrai palavras e frases relevantes do texto usando um
software especializado. Outra aplicação é um construtor de currículo IA, que
requer 5 minutos para compilar um CV, em oposição a passar horas fazendo
o mesmo trabalho. Na IA, os chatbots de idade auxiliam os visitantes do site
e resolvem os fluxos de trabalho diários. As ferramentas revolucionárias de
inteligência artificial complementam as habilidades das pessoas e permitem que
os gerentes de RH se concentrem nas tarefas de maior prioridade. No entanto,
o impacto da inteligência artificial na pesquisa de empregos sugere que, até
2030, agentes inteligentes e robôs podem eliminar 30% do trabalho humano no
mundo. Além disso, a pesquisa prova que a automação deslocará entre 400 e
800 milhões de funcionários. O relatório de pesquisa da Glassdoor afirma que o
recrutamento e o RH devem ter uma adoção mais ampla da IA no mercado de
trabalho em 2018 e além (STERNE, 2017).
• Indústria: os robôs se tornaram comuns em muitas indústrias e recebem
empregos que são considerados perigosos para os seres humanos. Os robôs
têm se mostrado eficazes em trabalhos que são muito repetitivos, o que pode
levar a erros ou acidentes devido a um lapso de concentração e outros trabalhos
que os humanos podem achar degradantes (STERNE, 2017).
• Hospitais e medicina: as redes neurais artificiais são usadas como sistemas
de apoio à decisão clínica para diagnóstico médico, como na tecnologia de
processamento de conceito no software de EMR. Outras tarefas na medicina
que podem potencialmente ser realizadas por inteligência artificial e estão
começando a ser desenvolvidas incluem:
• interpretação assistida por computador de imagens médicas;
• robôs para cuidado de idosos;
• auxiliar em trabalhos repetitivos, incluindo gerenciamento de medicação;
• fornecer consultas;
• criação de novas drogas;
• simulações;
• prever a probabilidade de morte por procedimentos cirúrgicos;
• prever a progressão do doenças como o HIV.

51
UNIDADE 1 | FUNDAMENTOS DE BIG DATA

• Mídia e comércio eletrônico: alguns aplicativos de IA são voltados para a


análise de conteúdo de mídia audiovisual, como filmes, programas de TV,
vídeos de propaganda ou conteúdo gerado pelo usuário. As soluções envolvem
frequentemente a visão por computador, que é uma área de aplicação importante
da IA. Os cenários típicos de casos de uso incluem a análise de imagens usando
técnicas de reconhecimento de objetos ou reconhecimento de faces ou a análise
de vídeos para reconhecer cenas, objetos ou faces relevantes. A motivação
para usar análise de mídia baseada em IA pode ser — entre outras coisas —
facilitação da pesquisa de mídia, criação de um conjunto de palavras-chave
descritivas para um item de mídia, monitoramento de política de conteúdo de
mídia (como verificar a adequação do conteúdo para um determinado tempo
de visualização de TV), fala para texto para arquivamento ou outros fins e a
detecção de logotipos, produtos ou rostos de celebridades para a colocação de
anúncios relevantes (STERNE, 2017).
• Brinquedos e jogos: a década de 1990 testemunhou algumas das primeiras
tentativas de produzir em massa tipos de inteligência artificial básica para fins
de educação ou lazer. Isso prosperou muito com a Revolução Digital e ajudou
a introduzir pessoas, especialmente crianças, em uma vida de lidar com vários
tipos de inteligência artificial, especificamente na forma de Tamagotchis e Giga
Pets, iPod Touch, a internet e o primeiro robô amplamente divulgado, Furby.
Um ano depois, um tipo aperfeiçoado de robô doméstico foi lançado na forma
de Aibo, um cão robótico com características inteligentes e autonomia.
• Transporte: os carros de hoje contam com recursos de assistência ao motorista
baseados em IA, como estacionamento sem manobrista e controles de cruzeiro
avançados. A IA tem sido usada para otimizar aplicações de gerenciamento
de tráfego, o que, por sua vez, reduz o tempo de espera, o consumo de
energia e as emissões em até 25%. No futuro, carros totalmente autônomos
serão desenvolvidos. Espera-se que a IA no transporte forneça transporte
seguro, eficiente e confiável, minimizando o impacto no meio ambiente e nas
comunidades. O maior desafio para o desenvolvimento dessa IA é o fato de que
os sistemas de transporte são sistemas inerentemente complexos, envolvendo
um grande número de componentes e diferentes partes, cada um com objetivos
diferentes e muitas vezes conflitantes.

52
RESUMO DO TÓPICO 5
Nesse tópico você aprendeu:
• Descrever o conceito de inteligência artificial (IA).
• Discutir o histórico da IA.
• Reconhecer as áreas de aplicação da IA.
• Que A inteligência artificial (IA) pode desempenhar papel fundamental em
setores como saúde, agricultura, cuidados pessoais, automação residencial,
serviços bancários e transporte. Em todas essas áreas, são aplicados diferentes
ramos da IA.
• Conheça alguns desses ramos no Infográfico a seguir.

53
54
AUTOATIVIDADE

1 Quando se fala de inteligência artificial, sabe-se que muitas pessoas foram


responsáveis pelos avanços que temos hoje. Na década de 1950, tínhamos
uma geração de cientistas, matemáticos e filósofos com o conceito de
inteligência artificial culturalmente assimilado em suas mentes e que
trabalharam muito para a concretização desse conceito. É possível afirmar
que um dos primeiros cientistas a explorar essas possibilidades foi:​​​​​​​

a) ( ) Herbert Simon.
b) ( ) Cliff Shaw.
c) ( ) Allen Newell.
d) ( ) Alan Turing.
e) ( ) Albert Einstein.

2 Processamento de linguagem natural é uma subárea da ciência da


computação, inteligência artificial e linguística que estuda os problemas da
geração e compreensão automática de línguas humanas naturais. É possível
afirmar​​​​​​:

a) ( ) Sistemas de geração de linguagem natural convertem informações em


linguagem compreensível ao ser humano.
b) ( ) Sistemas de geração de linguagem natural convertem informações em
linguagem compreensível para outros sistemas.
c) ( ) Sistemas de geração de linguagem natural convertem informações em
linguagem compreensível ao computador.
d) ( ) Sistemas de geração de linguagem natural convertem informações em
programas.
e) ( ) Sistemas de geração de linguagem natural convertem informações em
linguagem de programação.

3 A inteligência artificial pode desempenhar papel fundamental em setores


como saúde, agricultura, cuidados pessoais, automação residencial, serviços
bancários e transporte. É possível afirmar que a expressão "inteligência
artificial" é aplicada:​​

a) ( ) quando uma máquina imita funções "associativas" de outras máquinas.


b) ( ) quando uma máquina imita funções "cognitivas" de outros sistemas.
c) ( ) quando uma máquina gera novos conhecimentos a partir de livros.
d) ( ) quando uma máquina imita funções "cognitivas" dos seres humanos.
e) ( ) quando uma máquina gera novos conhecimentos a partir de dados.

55
4 Alan Turing foi um dos primeiros cientistas que procuraram esclarecer
matematicamente a inteligência artificial. No entanto, seu progresso ficou
limitado pelo alto custo computacional da época. Qual foi o outro principal
motivo que impediu o avanço da inteligência artificial na década de 40,
quando Alan Turing iniciou sua exploração matemática sobre o conceito?

a) ( ) Os computadores da época não conseguiam armazenar comandos,


apenas executá-los.
b) ( ) Os computadores da época tinham alto poder de armazenamento,
gerando maior custo energético.
c) ( ) Os computadores da época não contavam com boas placas de vídeo.
d) ( ) Os computadores da época não estavam disponíveis para pesquisa,
apenas para uso em grandes indústrias.
e) ( ) Os computadores da época exibiam imagens em resoluções muito
baixas, impedindo o reconhecimento de imagens

5 Nos últimos anos, notou-se o aumento exponencial de aplicações utilizando


técnicas de aprendizado de máquina no nosso dia a dia. É possível que nos
próximos anos tais técnicas sejam aperfeiçoadas e mudem muito a rotina
das pessoas. ​​​​​​​​​​​​​​Qual é o objetivo do aprendizado de máquina?

a) ( ) Entender uma estrutura de dados e adequar esses dados a modelos


que possam ser compreendidos e utilizados para resolver problemas.
b) ( ) Entender uma estrutura de dados e adequá-los a modelos que possam
gerar novos dados.
c) ( ) Fazer o mapeamento de informações obtidas com inteligência artificial
e criar novos modelos que possam ser analisados em dashboards.
d) ( ) Entender uma estrutura de arquivos e modificar modelos existentes
para uso na educação, como forma de permitir maior aprendizado
dos alunos.
d) ( ) Entender uma estrutura de arquivos e modificar modelos existentes
para uso na educação.

56
UNIDADE 2
INFRAESTRUTURAS PARA
PROCESSAMENTO DE BIG DATA,
ARMAZENAMENTO, SUPORTE A
TEMPO REAL E DESAFIOS NA
GERÊNCIA DE BIG DATA
OBJETIVOS DE APRENDIZAGEM
A partir do estudo desta unidade, você deverá ser capaz de:

• identificar os benefícios da utilização das tecnologias de data warehouse,


data marts e data centers;

• reconhecer situações propícias para o uso dessas tecnologias nas


organizações;

• expressar como a gestão de conteúdo e a gestão de registros eletrônicos


suportam as operações de negócios das organizações.

PLANO DE ESTUDOS
Esta unidade está dividida em cinco tópicos. No decorrer da unidade,
você encontrará autoatividades com o objetivo de reforçar o conteúdo
apresentado.

TÓPICO 1 – INFRAESTRUTURA DE DADOS E DE REDES II

TÓPICO 2 – INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II

TÓPICO 3 – COMPUTAÇÃO DA NUVEM

TÓPICO 4 – ANALISAR E COMPREENDER A UTILIZAÇÃO DO BANCO


DE DADOS NOSQL

TÓPICO 5 – INOVAÇÃO E Design thinking

CHAMADA

Preparado para ampliar seus conhecimentos? Respire e vamos


em frente! Procure um ambiente que facilite a concentração, assim absorverá
melhor as informações.

57
58
UNIDADE 2
TÓPICO 1

INFRAESTRUTURA DE DADOS E DE REDES II

1 INTRODUÇÃO
Atualmente, sabe-se que a informação é um fator chave para as organizações
que, quanto maior for o número de informações, maior será a possibilidade de
melhoria dos processos e consequente melhoria da performance dos resultados.
O que era, no passado, uma preocupação com a falta de informações, hoje,
se traduz em armazenar corretamente essas informações, para que, quando
solicitadas, auxiliem na tomada de decisão. O mercado tem ofertado às empresas
novas tecnologias na área de hardware, com custos menores e que possibilitam o
armazenamento de um grande volume de dados. O grande desafio é, portanto,
utilizar esses dados de uma forma correta, gerando o conhecimento empresarial
capaz de superar os desafios crescentes que as organizações são submetidas
diariamente por intermédio desses sistemas de apoio a decisão.

Neste texto, entenderemos os motivos e as formas utilizados pela gestão de


conteúdo empresarial para organizar, arquivar e usar os conteúdos relacionados
com seus processos de negócios. Não se esqueça de que, independentemente do
tamanho da organização, hoje, ela tem que se valer dessas tecnologias para sua
permanência no mercado, podendo traçar novos rumos para cada novo cenário
que venha a se apresentar a ela.

2 GESTÃO DE CONTEÚDO EMPRESARIAL


A gestão de conteúdo empresarial é também chamada de Enterprise
Content Management (ECM), e caracteriza-se pela forma como as empresas
organizam e arquivam os dados (documentos) ligados aos processos empresariais.
Nesse cenário, tem-se as fases de captura ou criação, armazenamento, gestão,
limpeza, distribuição, publicação, pesquisa e arquivamento, relacionando os
conteúdos com processos do negócio.

59
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

FIGURA 1 – GESTÃO DE CONTEÚDO EMPRESARIAL

Gestão de
Conteúdo

Entrega de
Conteúdo

Captura de
Conteúdo

Retenção de
Conteúdo

FONTE: SoftExpert (c2017)

As organizações têm grande preocupação com a gestão da informação,


partindo do princípio de que essas informações geram conhecimento, que, por sua
vez, é base para as ações de planejamento. Dessa forma, as ECM são ferramentas e
estratégias que permitem a gestão da informação não estruturada de uma organização,
onde quer que a informação esteja, atendendo, por exemplo, em conformidade com
os dados a serem apresentados para atender a legislação vigente.

Com a gestão de conteúdos, as organizações podem melhorar seus


processos atuais e planejar melhor as ações futuras, como a criação de novos
produtos ou processos. Por isso, a gestão de conteúdo é conhecida e aceita como
um dos principais mecanismos de melhoria do desempenho organizacional.

As ECM vão muito além de simples soluções de digitalização,


armazenamento e recuperação, elas englobam todas as funcionalidades para
que as organizações possam atingir bons resultados. Veremos, a seguir as seis
funcionalidades que das ECM encontradas dentro das empresas:

• Captura: responsável por capturar qualquer tipo de arquivo em qualquer lugar


e classifica-los automaticamente.
• Gestão: responsável pela otimização, focando na melhor eficiência do tempo
utilizado para processamento.
• Acesso: responsável pela garantia de fácil acesso e disponibilidade para todos
os que necessitam da informação para os processos.
• Integração: responsável pela integração do conteúdo empresarial com os
demais sistemas, como por exemplo, os Enterprise Resource Planning (ERP).
• Análise: responsável pelo monitoramento e análise das informações e
tarefas, automaticamente, sem envolver as tecnologias da informação (TI) ou
administradores de banco de dados.
• Armazenamento: responsável pela redundância de dados a um baixo custo,
executando políticas de retenção automáticas.

60
TÓPICO 1 | INFRAESTRUTURA DE DADOS E DE REDES II

Imagine que você não tem em mãos informações necessárias para


correções em linhas de produção, precisando parar uma linha de produção por
falta de informação, ou então precisando adiar a entrega a um cliente porque não
tinha a informação de que o fornecedor iria atrasar a entrega de matéria-prima
para a confecção do produto. Um bom gerenciamento de informações minimiza
em muito fatos como esses, e as falhas em processo.

Contudo, não se depende somente das soluções de ECM, elas são


ferramentas, as soluções precisam ser combinadas com todas as diferentes
tecnologias que ficam à disposição da gestão. Há sempre o fator humano que
tem, e deve, interagir com essas soluções para a procura de melhores condições
para as organizações.

Os ECM apresentam os seguintes tipos de conteúdo (WIKIPÉDIA, 2017):

• Conteúdo transacional: relacionado à comprovação de transações, como


documentos que comprovam uma compra de celular, pagamento de uma nota
fiscal, registram um sinistro. Usualmente, documentos previsíveis e associados
diretamente aos processos de negócios.
• Conteúdo de negócio: indicam documentos necessários ao andamento
dos negócios em geral, mas não constituem documentos previsíveis, como
documentos de obras, de negociação, de um contrato e seus complementos.
• Conteúdos persuasivos: são aqueles voltados a convencer um público,
usualmente conteúdo web e em especial de sites.
• Conteúdo social: está relacionado às tecnologias sociais, redes sociais etc.
• Conteúdo de Internet das coisas: são as informações geradas por dispositivos
e equipamentos integrados à web.
• Big Data: refere-se a um conjunto de dados de tamanho tão desproporcional e de
fontes tão distintas que se torna impossível gerenciar pelos meios transacionais
convencionais em tempo hábil de uso da informação desejada.

Quando precisamos da organização na forma de dados estruturados,


precisamos de uma organização em bancos de dados, a seguir veremos as
definições de Data Warehouse, Data Marts e Data Centers.

3 DATA WAREHOUSE
Os Data Warehouse (DW), como você pode observar na Figura 2, são
cópias de dados de transações, estruturadas especificamente para consultas e
análises. Para as empresas, servem de fonte de consultas fornecendo uma base de
dados analítica que vai auxiliar na tomada de decisão.

61
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

FIGURA 2 – ESTRUTURA DE DATA WAREHOUSE

FONTE: Walker (2015)

Os DW funcionam como um banco de dados analíticos que serão suportes


para os Sistemas de Apoio a Decisão (SAD). Atualmente, esses dados precisam ser
rapidamente transformados em informações e conhecimento, os gestores devem
ter em suas mãos o maior número de informações possíveis (com o máximo de
rapidez) para gerenciarem melhor seus processos, sejam eles quais forem. Uma
das diferenças dos DW em relação aos bancos de dados, é que, em um banco de
dados, a volatilidade causada pelo processamento de transações faz com que a
análise dos dados seja difícil, o que pode ser minimizado com os DW.

Os DW serão aglutinadores de diversas fontes de dados para, assim,


condensarem os diversos dados organizando-os. Basicamente, os DW fornecem a
condições necessárias para a transformação de uma base de dados de transações
(OLTP, on-line transation processing), para uma base maior que terá os históricos
de todos os dados com interesses dentro da organização (OLAP, on-line analytical
processing), conhecido então como DW. Os dados que abastecem os DW
dependem da atualização dos sistemas alimentadores. No Quadro 4, veremos as
principais características dos DW.

62
TÓPICO 1 | INFRAESTRUTURA DE DADOS E DE REDES II

QUADRO 4 – PRINCIPAIS CARACTERÍSTICAS DE UM DATA WAREHOUSE

Os DW são orientados pelos principais


assuntos ou áreas de negócios da empresa,
Organização por exemplo, em empresas comerciais
em assuntos podem ter assuntos sobre clientes, produtos
e fornecedores. Ficando, assim, em grandes
blocos para armazenagem e consulta.
Há nesse sistema uma necessária passagem de
Integração
dados, dos sistemas de aplicação para o DW,
de assuntos
compondo, dessa forma, o data.
Após a extração dos dados, eles são
transformados e transportados para o DW,
Não volátil
assim não mais sofrem alterações, somente
ficam disponíveis para consulta.
Os dados existentes no DW são uma série
de coletas em um espaço de tempo, essas
coletas vão sendo classificadas conforme suas
séries históricas, e são feitas alterações de
Variação
detalhes corrente para detalhes mais antigos, à
do tempo
medida que o tempo vai passando, para que a
informação seja sempre atualizada e confiável
quando for necessária consulta para a tomada
de decisão.
Chamam-se metadados os dados que
descrevem e caracterizam um conjunto de
dados. Os metadados facilitam o entendimento
Metadados dos relacionamentos e a utilidade das
informações dos dados, por exemplo, os dados
referentes a uma música, como autor, nome
da música e álbum que foi editada.
Trata-se do nível de detalhes dentro do DW, é
inversamente proporcional ao nível de detalhe,
funcionando assim: quanto mais detalhes,
menor o nível de granularidade. O volume de
dados contidos no DW é balanceado de
Granularidade acordo com o nível de detalhe da consulta, por
exemplo, em uma indústria, as quantidades
produzidas não registradas diariamente com
um grande volume de bytes gastos, se fossem
registradas mensalmente, o volume de bytes
cairia significativamente.

FONTE: O autor

3.1 PROCESSAMENTO E MODELAGEM DE DADOS


Percebemos que, nos DW, os dados armazenados precisam de
processamento a cada vez que forem solicitados, e esse processamento deve ser
modelado de forma a apresentar uma estrutura padronizada, rápida, de fácil
acesso e que contenha as informações requisitadas para a tomada de decisão
sobre um problema ou uma possível melhoria de processos. Tudo isso inclusive
sendo analisado por partes individuais para análise, por exemplo, pesquisas de
comercialização de produtos por região, tipo ou grupo de vendas.

63
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Agora, conheceremos os principais conceitos referentes ao processamento


analítico e a modelagem necessária para o suporte desse sistema.

3.2 PROCESSAMENTO OLAP


É o que entendemos por todas as atividades gerais de consulta e apresentação
de dados numéricos e textos provenientes do DW. As empresas necessitam cada
vez mais de rapidez na formulação de estratégias para permanecerem no mercado
e, para isso, precisam de informações confiáveis e de rápida consulta. O OLAP
fornece para as empresas uma metodologia de acesso, visualização e análise dos
dados coorporativos com uma grande flexibilidade e desempenho, garantindo,
assim, o atendimento as demandas da empresa para a melhoria em seus processos.
A grande vantagem do OLAP é proporcionar aos usuários rapidez na análise de
inúmeros cenários, geração de relatórios sob demanda, entre outras atividades
para a tomada de decisão. Essa tecnologia veio para acabar com as dificuldades
de pesquisas de dados, aproximando a informaçãode quem necessita e realizando,
assim, a interface dos dados ofertados pelas bases operacionais, sistemas de ERP e
DW. O Quadro 2 representa o OLAP três abordagens.

QUADRO 5 – ABORDAGENS DO OLAP

Utiliza a tecnologia de banco de dados


relacionais para armazenar seus dados. Suas
consultas são também processadas pelo
Relational On-line
gerenciador do banco de dados relacional. São
Analytical Processing
criadas tabelas de sumários, sendo que nenhum
(ROLAP)
dado é movido para o OLAP servidor, quando
necessárias às tabelas são totalmente deriváveis
e seus índices criados automaticamente.
São ferramentas que disparam suas requisições
diretamente ao servidor de banco de dados
Multidimensional multidimensional. Após o envio da requisição
On-line Analytical o usuário continua manipulando os dados
Processing (MOLAP) diretamente no servidor, tendo um ganho no
desempenho.

É a combinação entre ROLAP e MOLAP,


pegando o melhor de ambas as categorias a
escalabilidade de ROLAP e o alto desempenho
do MOLAP. Os dados ficam retidos no sistema
Hybrid On-line Analytical
de gerenciamento banco de dados (SGBD),
Processing (HOLAP)
enquanto as agregações ficam no MOLAP,
apresenta uma pequena desvantagem, ele fica
mais lento que o modelo MOLAP, em casos de
consultas sobre dados básicos.

FONTE: O autor

64
TÓPICO 1 | INFRAESTRUTURA DE DADOS E DE REDES II

3.3 MODELAGEM DE DADOS


Apresenta-se em duas variantes, ela é o que chamamos de criação de
um modelo físico que explique a lógica por traz do sistema, as características
de funcionamento e o comportamento de um software, sendo a base de criação
do banco de dados. As variantes são a modelagem tradicional e a modelagem
multidimensional. As modelagens tradicionais apresentam entidades fixas, como
clientes, produtos, fornecedores, pontos de venda ou transações realizadas por
elas, como pedidos de compra, emissão de notas fiscais, havendo uma relação
direta entre elas por meio dos atributos chave. Na modelagem multidimensional,
as entidades são dimensões que fazem a representação de resultados obtidos em
um tempo específico, apresentando relacionamentos implícitos e indiretos, sendo
que as operações ficam direcionadas a dados analíticos, concomitantemente com
dados históricos estáveis.

Dentro da modelagem de dados há também um tipo específico, chamado


de modelagem dimensional que veremos a seguir.

3.4 MODELAGEM DIMENSIONAL


Os usuários precisam de formatos de consulta fácil e intuitiva, para isso,
os sistemas OLAP devem possuir o que chamamos de visão multidimensional,
pois, assim, os usuários terão suas consultas baseadas em diferentes perspectivas.
Com isso, tornou-se necessária uma modelagem dimensional, que é uma técnica
de projeto lógico, utilizada pelos DW que contrastam com a modelagem entidade-
relacionamento. Sua ideia central é apresentar os tipos de dados de um negócio
em uma estrutura do tipo cubo de dados. Veja o exemplo, dentro de um processo
de produção, da Figura 3.

FIGURA 3 – ESTRUTURA MULTIDIMENSIONAL

FONTE: Casa do Cubo (2017)

65
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Na parte superior do cubo teríamos a variável tempo (em dias, semanas


ou em meses); na parte lateral teríamos as células de manufatura (unidades de
produção de um determinado produto); e na parte frontal teríamos a quantidade
de produto produzido.

De acordo com o apresentado na Figura 3, o gestor do processo poderia


verificar a performance do setor, analisando a quantidade de produtos feitos
em cada célula de manufatura, em um determinado período de tempo. Para sua
medição, o ponto de interseção das três dimensões dentro do cubo equivale a um
ponto de medição para esse processo. Assim, facilitando a tomada de decisão
para corrigir ou melhorar o processo.

Nesse formato de banco analítico, que tem as informações baseadas em


multidimensões, encontramos duas formas de esquemas:

• Modelo estrela (star schema): todas as dimensões relacionam-se com o fato


diretamente, conforme demonstrado na Figura 4.

FIGURA 4 – MODELO ESTRELA


Modelagem: Star Schema
DIM Canal de Venda
DIM Região
Código do Vendedor
CEP
Nome do Vendedor Fato Vendas Cidade
Código da Loja
Código do Vendedor UF
Nome da Loja
Código do Produto País
Local da Loja
Canal de Distribuição CEP
DIM Tempo
Data
DIM Produto Data
Quantidade
Valor Dia
Código do Produto Mês
Nome do Produto Ano
Categoria Semestre
Tipo do Produto Descrição do Mês
Sub-tipo do Prod.

FONTE: NeoGrid (c2017)

Esse esquema utiliza-se dos mesmos componentes do diagrama entidade-


-relacionamento, como entidades, atributos, relacionamentos e chaves primárias,
e ficam resumidos a dois tipos de tabelas (entidades), denominadas “fato”
e “dimensão”, na Figura 4 poderemos ver o fato “vendas” de uma empresa
comercial sendo correlacionado às dimensões escolhidas para análise (canal de
vendas utilizado, região de análise, produto foco do estudo e tempo escolhido para
analisar). A tabela fato armazena, assim, instâncias da realizada, representando
as medidas do processo que podem ser mensuradas quantitativamente em um
intervalo de tempo.

66
TÓPICO 1 | INFRAESTRUTURA DE DADOS E DE REDES II

• Modelo floco de neve (snow flake): esse modelo visa à normatização do banco,
contando com dimensões auxiliares, veja a Figura 5.

FIGURA 5 – MODELO FLOCO DE NEVE


Dimensão Promoção

Dimensão Loja

Fatos Vendas
Meio

Marca

Dimensão Tempo Dimensão Produto


Departamento

Categoria

Ano Mês Dia

FONTE: Brito (2015)

Neste modelo, chamado de floco de neve, as tabelas dimensionais


relacionam-se com a tabela de fatos, como no esquema estrela, a diferença é que
algumas dessas tabelas dimensionais relacionam-se apenas entre elas e não com
a tabela fato, isso ocorre para fins de normalização das tabelas dimensionais,
para que o espaço ocupado seja o mínimo necessário. Na Figura 5, você pode
perceber que na dimensão tempo existem mais três tabelas correlacionadas,
sendo elas: ano, mês e dia. Já na dimensão produto existem também três tabelas
correlacionadas, sendo elas: categoria, departamento e marca. Chamamos essas
dimensões de dimensões auxiliares.

Com esse formato, a base de dados passa a utilizar mais tabelas para
representar as mesmas dimensões, com a vantagem de ocupar um menor
espaço no DW.

Quanto à utilização, cada um dos modelos apresenta vantagens e


desvantagens, conforme você pode analisar no Quadro 3.

67
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

QUADRO 6 – MODELO ESTRELO × MODELO FLOCO DE NEVE

Indicador Floco de neve Estrela

Satisfatório, atende a
Tempo de resposta Bom quanto à performance
demanda

Utilização da RAM Bom quanto à performance Bom quanto à performance

Tempo de execução do Script Bom quanto à performance Excelente

Flexibilidade Deixa a desejar Excelente

Complexidade do Script Deixa a desejar Excelente

FONTE: Braga (2015)

Sendo assim, as considerações são que o modelo floco de neve acaba


por reduzir o espaço de armazenamento dos dados dimensionais, apesar de
utilizar mais tabelas para análises, ficando mais complexo e de difícil navegação,
tornando-se também mais lento do que o modelo estrela.

Já o modelo estrela é mais simples e fácil de navegar, a consideração


negativa é que desperdiça espaço, pois repete as mesas descrições ao longo de
toda a tabela. Vários estudos apontam que, mesmo com essa questão, a diferença
de espaço usado por esse modelo a mais, não justifica sua troca, pois esse quesito
é insignificante perante todos os outros fatores que ele agrega em desempenho.

A recomendação dos estudos em bancos sugere que o modelo a ser


aplicado seja o estrela, pela facilidade de acesso, rapidez e navegação amigável.
Utilizando-se das tabelas auxiliares para dimensões somente em casos
estritamente necessários a alguma análise gerencial, previamente demandada
pelo planejamento da empresa.

Nas aplicações de análise de dados, o fator tempo é um dos mais críticos,


esse tempo de resposta ao usuário deve ser breve, afinal, atualmente, a quantidade
de dados cresce em potência geométrica, como sabemos, não adianta ter inúmeros
dados, se quando forem consultar o processamento demora muito.

68
TÓPICO 1 | INFRAESTRUTURA DE DADOS E DE REDES II

DICAS

Casos de sucesso de DW e inteligência empresarial

O propósito de um DW é consolidar e organizar os dados coletados de forma que possam


ser analisados e utilizados para suportar decisões de negócio. Saiba como diferentes
empresas utilizam o Structured Query Language (SQL) Server como solução de DW. Para
informações mais recentes sobre os casos de sucesso no Brasil, acesse o site Casos de
Sucesso (MICROSOFT, c2017).

3.5 DATA MARTS


Os Data Marts (repositório de dados) são subconjuntos de dados do
DW que permitem o acesso descentralizado e, hoje, servem de fonte para os
dados que irão compor os bancos de dados individuais (veja a representação na
Figura 6). Para sua atuação, eles são direcionados a um setor ou departamento da
empresa, por exemplo, podem compor os dados do setor comercial, ou do setor
de produção de uma organização. Sua modelagem segue o modelo estrela para
atender as demandas dos usuários, focando no retorno rápido das demandas dos
usuários para a tomada de decisão.

FIGURA 6 – ESTRUTURA DO DATA MARTS


Data Mart

Data Warehouse

Data Mart

DB Objects

Data Mart

FONTE: Craig (c2017)

O formato dos Data Marts é muito semelhantes ao do DW, tendo mínimas


variações. A principal diferença é que eles são voltados para uma determinada
área e os DW para a organização toda. A decisão de utilizar esse formato vai
ser identificada no planejamento de cada empresa, uma das vantagens seriam os
custos do investimento e o tempo final para resposta desse investimento, que nos
Data Mart são menores.

69
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

A crescente popularidade dos Data Marts em cima da popularidade dos


grandes sistemas de DW corporativos é baseada em bons motivos (OFICINA DE
SISTEMAS, c1990):

• Os Data Marts têm diminuído de forma considerável o custo de implementação


e manutenção de sistemas de apoio às decisões, colocando-os posto ao alcance
de um número muito maior de corporações.
• Eles podem ser prototipados muito mais rapidamente, com alguns pilotos
sendo construídos entre 30 e 120 dias, e sistemas completos sendo construídos
entre três e seis meses etc.
• Os Data Marts têm o escopo mais limitado e são mais identificados com grupos
de necessidades dos usuários, o que se traduz em esforço/ equipe concentrados.

3.6 DATA CENTER


Um Data Center, hoje também conhecido como “centro de processamento
de dados”, é uma modalidade de serviços, considerada pela direção da empresa
como de alto valor ou um fator crítico a ser incluso no planejamento da empresa,
pois oferta recursos de processamento e armazenamento de dados em larga escala
para suportar as tomadas de decisão dentro da organização.

Basicamente, esses centros tem um ambiente projetado para concentrar


servidores, equipamentos de processamento e armazenamento de dados, além de
sistemas de ativos de rede, como switches, roteadores e outros.

Em geral, os equipamentos são montados em racks ou armários metálicos.


Possuem proteção contra incêndios, além de sistemas de resfriamento dos racks,
para manter uma temperatura estável e com acesso restrito.

Os Data Centers devem conter alguns componentes básicos para um bom


funcionamento. Veja quais são eles:

• Infraestrutura de rede: o Data Center é um componente importante para


qualquer departamento de TI. É, portanto, indispensável que seja concebido
para oferecer os serviços de maneira flexível e dinâmica, acompanhando as
tendências tecnológicas.
• Gerais: eles dependem de um bom fornecimento de energia elétrica, ar-
condicionado, rede de comunicação de dados, armazenamento, servidores e
virtualização.
• Segurança física: devem ser protegidos conforme as melhores práticas de
infraestrutura física (engenharia) estrutural.

70
TÓPICO 1 | INFRAESTRUTURA DE DADOS E DE REDES II

E
IMPORTANT

Data Mining é um processo analítico projetado para explorar grandes


quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas
científicas), na busca de padrões consistentes e/ou relacionamentos sistemáticos entre
variáveis para, então, validá-los aplicando os padrões detectados a novos subconjuntos
de dados. O processo consiste basicamente em três etapas: exploração, construção de
modelo ou definição do padrão e validação/verificação (REIS, 2010).

71
RESUMO DO TÓPICO 1
Nesse tópico você aprendeu:

• Identificar os benefícios da utilização das tecnologias de data warehouse, data


marts e data centers.

• Reconhecer situações propícias para o uso dessas tecnologias nas organizações.

• Expressar como a gestão de conteúdo e a gestão de registros eletrônicos su-


portam as operações de negócios das organizações. As diferenças básicas entre
data mart e data warehouse.

72
AUTOATIVIDADE

1 Os altos custos relacionados com a implantação e utilização de data warehouses


podem torná-los caros demais para as empresas. Como alternativa, foi
desenvolvida uma tecnologia de armazenamento e extração de dados
baseada no data warehouse, porém com dimensões menores, chamada de
data mart. Marque a alternativa que apresenta a MELHOR caracterização
de um data mart.

a) ( ) Consiste no armazenamento de uma porção resumida e descentralizada


dos dados organizacionais, destinada a uma área específica de negócio.
b) ( ) Seu principal objetivo é armazenar os dados operacionais das
transações correntes da organização.
c) ( ) Data marts também são responsáveis pela integração das redes e
sistemas da organização.
d) ( ) Data marts são utilizados para armazenar apenas dados correntes da
organização.
e) ( ) Consiste na produção de relatórios operacionais, tais como notas
fiscais e comprovantes de pedidos.

2 Diversos estudos já foram realizados com o objetivo de identificar os


benefícios e vantagens trazidos pela implantação de um data warehouse,
sendo que eles normalmente estão relacionados tanto com os negócios da
organização quanto com a Tecnologia da Informação (TI). Do ponto de
vista do negócio, as empresas podem tomar decisões mais adequadas, pois
possuem acesso a melhores informações. Do ponto de vista da TI, os data
warehouses entregam informações de forma mais eficiente e eficaz. Nesse
contexto, identifique a situação na qual a implantação de um data warehouse
resolveria o problema organizacional e traria os benefícios esperados pelos
usuários:

a) ( ) Utilização de um data warehouse para prover dados rotineiros da


situação financeira da organização, seja por unidades, setores ou
grupos de contas.
b) ( ) Processamento pelo data warehouse dos dados rotineiros gerados pelas
transações de negócios da organização.
c) ( ) Utilização de um data warehouse para impressão de campanhas
de marketing e dados sobre a atuação dos recursos humanos da
organização.
d) ( ) O data warehouse pode prestar assistência na elaboração de estudos
sobre os reais valores a serem obtidos pela empresa com a venda de
determinados produtos.

73
e) ( ) Disponibilização de dados pelo data warehouse sobre o desempenho
de vendas da organização, podendo ser analisados de acordo com a
geografia, com o tipo de produto, grupo de vendas ou individualmente.

3 O gerenciamento de conteúdo da empresa é uma importante tecnologia


de gerenciamento de dados, principalmente para organizações de médio e
grande porte, pois incluem gerenciamento de documentos eletrônicos, de
conteúdo web, de ativos digitais e de registros eletrônicos diversos. Existem
quatro fatores essenciais que fazem com que as empresas adotem uma
abordagem estratégica para planejar e implantar Sistemas de Gerenciamento
de Conteúdo (SGC). Marque, entre as alternativas apresentadas, aquela que
representa um desses fatores:

a) ( ) Necessidade de manter o controle sobre o conteúdo para garantir a


sua conformidade com a legislação vigente.
b) ( ) Forte desejo dos usuários por conteúdos diferentes dos trabalhados
no seu dia a dia.
c) ( ) Demanda dos funcionários das empresas por ferramentas para
gerenciamento de seus arquivos pessoais.
d) ( ) Constante diminuição de conteúdo gerado pelas organizações.
e) ( ) Necessidade de particionamento do conteúdo aos processos de negócio.

4 O mundo dos negócios está passando por uma crescente tendência de


armazenamento e análise de dados em tempo real. As organizações cada
vez mais usam informações no momento da interação com seus clientes,
dando suporte em tempo real. Nesse contexto, as empresas com um data
warehouse ativo serão capazes de interagir de maneira apropriada com o
cliente, e oferecer-lhe um serviço de qualidade aumentaria sua possibilidade
de lucros. Em relação às principais características dos data warehouses, é
possível afirmar que:

a) ( ) Os dados são organizados de forma genérica.


b) ( ) Os dados são mantidos por um curto período de tempo.
c) ( ) Os dados armazenados são padronizados para promover a
consistência.
d) ( ) Os dados proveem, normalmente, de apenas uma fonte de dados.
e) ( ) Os dados em um data warehouse não são atualizados.

5 Um data warehouse e os bancos de dados comuns consistem em tabelas de


dados (arquivos), chaves primárias e outras chaves e recursos de consulta.
A grande diferença é que um banco de dados é desenhado e otimizado para
armazenar dados, enquanto os data warehouses são desenhados e otimizados
para responder a questões de análise essenciais ao negócio. Considerando
as diferenças entre bancos de dados e data warehouses, marque a alternativa
CORRETA:

74
a) ( ) Em um banco de dados, a volatilidade causada pelo processamento
de transações faz com que a análise dos dados seja muito difícil.
b) ( ) Assim como os bancos de dados, os data warehouses também são
voláteis, pois seus dados sofrem frequentes atualizações.
c) ( ) Assim como os bancos de dados, os data warehouses são projetados
como sistemas de processamento analítico on-line.
d) ( ) Os bancos de dados são considerados como não voláteis, pois dados
são adicionados frequentemente, editados ou atualizados.
e) ( ) Os bancos de dados são sistemas que processam transações offline,
nos quais toda transação precisa ser registrada rapidamente.

75
76
UNIDADE 2 TÓPICO 2

INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II

1 INTRODUÇÃO
Uma boa infraestrutura no setor de transportes, por exemplo, significa
que os veículos vão trafegar em vias de boa qualidade, seguras e adequadas
às necessidades desse modal. Trazendo para o mundo corporativo, uma boa
infraestrutura de TI deve ofertar aos serviços a condição de que os dados
trafeguem seguros e cumpram seu papel de gerar as informações tão necessárias
ao gerenciamento empresarial.

Quanto melhores forem às condições de infraestrutura, melhor será a


performance empresarial, portanto, você deve ficar atento às novidades nesse
setor e sempre verificar os novos rumos tomados para bem dimensionar a
infraestrutura correta para cada organização.

Há uma tendência chamada de computação em nuvem, e esse assunto


sugere a necessidade de construção de infraestruturas complexas de TI, exigindo
dos usuários instalações, configurações e atualização de sistemas de software. Neste
tópico, estudaremos as principais características de uma infraestrutura tradicional de
TI e das infraestruturas baseadas em serviços e na computação em nuvem.

2 INFRAESTRUTURA TRADICIONAL DE TI
O que chamamos de infraestrutura tradicional de TI são os componentes
que ofertam suporte de todos os sistemas de informação na empresa. Em geral,
são compostos por hardware; software; tecnologia de gestão de dados; tecnologia
de rede e de telecomunicações e os serviços de tecnologia.

Atualmente, os computadores são apresentados das mais diversas


formas, como estações de trabalho, smartphones, netbooks, leitores de e-books e
computadores de médio e grande porte, como os servidores.

A infraestrutura é a base da capacidade de TI que a empresa idealiza para


o bom andamento do negócio, de maneira que suas decisões sejam amparadas
por serviços rápidos e seguros.

Cada empresa deve estabelecer uma infraestrutura que comporte a


demanda dos negócios atuais, e que possa ser rapidamente alterada em função
de futuros negócios, com isso, não devem ter recursos escassos, mas sim recursos
adequados a essas demandas.
77
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

A infraestrutura interna da empresa, muitas vezes, necessita de conexão


com outras infraestruturas, como a pública de telecomunicações, ou mesmo a
rede mundial de computadores.

Você deve saber também que os serviços de infraestrutura incluem


serviços de rede, provisão de computação, gerenciamento de banco de dados,
expertise em P&D (pesquisa e desenvolvimento) etc. Esses serviços podem ser
prestados internamente ou providos por provedores de serviços externos.

Atualmente, as aplicações de infraestruturas apresentam-se compartilhadas


e padronizadas, como é o caso de ERP (Enterprise Resource Planning), CRM
(Customer Relationship Management), entre outros. Uma infraestrutura de
TI combina toda a capacidade compartilhada de TI de uma empresa em uma
plataforma para negócios realizados eletronicamente. Ela comporta os clusters,
conforme veremos a seguir:

• Administração da TI;
• Canais eletrônicos integrados;
• Comunicações;
• Administração de dados;
• Gestão das instalações;
• Segurança e risco;
• Aplicações de infraestrutura;
• Administração das facilidades de TI;
• Arquitetura e padrões de TI;
• P&D de TI;
• Educação e treinamento em TI.

Por isso, uma boa infraestrutura de TI deve andar lado a lado com o
planejamento da empresa, assim, deixando mais fácil a tomada de decisão, que
levará a empresa a alcançar seus objetivos e metas. Para as escolhas, devem,
então, ser considerados a acessibilidade, a adaptabilidade, a dependência e a
gerenciabilidade de todo o conjunto.

3 INFRAESTRUTURA EM NUVEM
Antes de falarmos na infraestrutura baseada na computação em nuvem,
vale a pena versar um pouco sobre o tema cloud computing (computação em
nuvem) que se trata da capacidade de computação infinitamente disponível e
flexível. A nuvem é tudo aquilo que fica por detrás da conexão. As preocupações
com a largura de banda, espaço de armazenamento, poder de processamento,
confiabilidade e segurança, são postas de parte.

78
TÓPICO 2 | INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II

Basta uma ligação à nuvem e as necessidades, em termos de tecnologias


de informação, são satisfeitas, portanto, a nuvem é o local onde você pode acessar
seus aplicativos e serviços contando com o armazenamento de seus dados de uma
forma segura. Com isso, podemos acessar de qualquer lugar um espaço quase
que infinito em tamanho, o termo surgiu na década de 1960, mas tomou forma
nos anos de 1990 com o advento da necessidade empresarial de mais rapidez e
robustez no processamento de seus dados.

A infraestrutura baseada na computação em nuvem está se tornando


uma prática bastante habitual para as organizações, a “nuvem” é uma metáfora
para a Internet ou infraestrutura de comunicação entre os componentes
arquiteturais, isso tudo baseado em uma abstração que oculta a complexidade
da própria infraestrutura.

A Figura 7 mostra as interligações da computação em nuvem, composta


por alguma centena de milhares de máquinas físicas ou nós físicos de baixo custo
por meio de uma rede.

FIGURA 7 – INTERLIGAÇÃO DA COMPUTAÇÃO EM NUVEM

Máquina Física

Máquina
Virtual

Armazenamento Armazenamento Armazenamento Armazenamento

Rede

FONTE: Sousa et al. (2010)

As máquinas físicas podem variar de capacidade, mas têm as mesmas


configurações de software, e dentro delas existe um número variável de máquinas
virtuais (VM) ou nós virtuais em execução. Esse tipo de computação é uma
evolução dos serviços e produtos de TI por demanda.

Segundo o National Institute of Standards and Technology (NIST), a


computação em nuvem é composta por cinco características essenciais:

79
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

• Self-service sob demanda: essa característica diz que o usuário pode adquirir
unilateralmente recursos computacionais, como tempo de processamento no
servidor ou armazenamento na rede, conforme sua demanda, sem precisar de
interação humana com os provedores de cada serviço.
• Amplo acesso: os recursos solicitados podem ser encontrados nas
disponibilidades da rede e acessados por meio de qualquer mecanismo
padronizado que permita o uso por plataformas do tipo thin, como celulares,
laptops e PDAs (personal digital assistants).
• Pooling de recursos: os usuários não precisam ter conhecimento da localização
física dos recursos computacionais, eles podem estar em qualquer lugar, basta
saber que esses recursos estão organizados em um pool para servir múltiplos
usuários, usando um modelo multi-tenant ou multi-inquilino, com diferentes
recursos físicos e virtuais, dinamicamente atribuídos e ajustados.
• Elasticidade rápida: essa característica aparece para o usuário como sendo uma
busca e utilização ilimitada, pois pode ser adquirida em qualquer quantidade
e a qualquer momento, tudo isso devido ao fato de que os recursos veem de
forma rápida e elástica, quase que automaticamente.
• Serviço medido: esses acessos são controlados automaticamente pelos
sistemas em nuvem, otimizando, assim, a utilização dos recursos por meio de
uma capacidade de medição, afinal, esse uso pode ser monitorado e controlado
possibilitando transparência para o provedor do serviço e para os usuários que
o utilizaram para satisfazer suas demandas. Em geral, são considerados o tipo
de serviço para armazenamento, o processamento, a largura de banda e as
contas de usuários ativas.

O NIST prevê três modelos de serviço que você verá no Quadro 4, esses
modelos são de grande importância, pois definem um padrão arquitetural para
soluções da computação em nuvem.

QUADRO 4 – MODELOS DE SERVIÇO

PaaS é o termo indicado quando o fornecedor


entrega uma plataforma de desenvolvimento
de software que pode ser usada em diferentes
ambientes, ou mesmo em um único fornecedor.
Para utilizar PaaS, um software deve ser
desenvolvido utilizando as bibliotecas de uma
Plataforma determinada plataforma. Isso normalmente
com um permite a escalabilidade do software, com
Serviço PaaS recursos como rodar em múltiplos servidores
em grid, alta disponibilidade e resiliência a
falhas. Alguns exemplos de fornecedores de
PaaS são: VMware, vFabric, SpringSource e
Node.js. Amazon Elastic e Microsoft Azure
também podem ser classificados como PaaS, se
considerarmos toda a oferta disponível.

80
TÓPICO 2 | INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II

IaaS é o termo aplicado quando o fornecedor


entrega recursos computacionais de
infraestrutura, como servidores, espaço de
armazenamento e capacidade de rede, sob
uma taxa mensal de utilização. O modelo mais
básico seria o aluguel de um servidor físico em
um datacenter, em que o cliente não precisa se
preocupar com garantia e disponibilidade do
servidor, contratação de links e disponibilidade
de energia elétrica. Hoje em dia, normalmente
é vendido como virtualização de servidores
Infraestrutura sobre um hypervisor, e os clientes não tem
como um que se preocupar com a camada de drivers,
Serviço IaaS basta contratar uma máquina virtual, indicar
o sistema operacional desejado, que o receberá
instalado, com toda a parte de rede, IP e
roteamento configurados e utilizando recursos
compartilhados com outros usuários. Alguns
exemplos de fornecedores de infraestrutura
são: Amazon S3 e Microsoft Azure, e diversos
datacenters pelo mundo. Quando se utiliza
virtualização de servidores dentro da empresa,
utilizando algum software de gerência
avançado como o vCloud Suite, também pode
ser considerado como IaaS.
É considerada SaaS a aplicação para um
fim específico que é vendida sob a forma de
serviços. Ao contrário da venda de aplicativos
como licença de software, que permite o uso
do software por tempo ilimitado, a partir da
aquisição da licença por um único pagamento.
A venda como serviço normalmente é feita
como um pagamento mensal, para que o
serviço fique disponível no fornecedor, que
providencia infraestrutura de servidores e
conexões necessárias para a prestação do
serviço. Em geral é vista com bons olhos
Software
pelos fornecedores e clientes. Os fornecedores
como um
porque garantem uma renda fixa mensal
Serviço SaaS
independentemente de novas vendas, e os
clientes porque pagam apenas pela utilização,
normalmente medida em quantidade de
usuários ou recursos computacionais alocados
para ele, dividindo os custos de uma estrutura
maior entre múltiplos clientes que se beneficiam.
O principal exemplo de fornecedor de software
é a Salesforce, líder mundial em sistema CRM,
mas existem diversos serviços mais populares
que podem ser classificados como SaaS, como
Google Docs, GMail, Office365 e inclusive sites
populares como Facebook e Dropbox.

FONTE: Profissionais TI (2017)

81
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Para a implantação de um sistema em nuvem, o NIST sugere quatro


modelos, os quais veremos detalhadamente a seguir:

• Nuvem privada: é o modelo no qual a infraestrutura de nuvem é utilizada


exclusivamente por uma organização, sendo física na empresa ou remota, não
deixando de ser administrada pela própria organização.
• Nuvem pública: nele a infraestrutura é disponibilizada para o grande público,
sendo acessada por qualquer usuário que conheça a localização do serviço.
• Nuvem comunidade: agrupa uma comunidade que tenha afinidade ou
interesses em comum.
• Nuvem híbrida: fornece uma infraestrutura composta de uma ou mais nuvens,
que podem ser do tipo privada, pública ou comunidade e que continuam a
ser entidades únicas, porém conectadas por meio e tecnologia própria ou
padronizada que permite o acesso de dados e aplicações.

NOTA

Você sabe o que é multi-inquilino? É um dos principais conceitos


relacionados a SaaS, dentro desse sistema é a denominação do usuário que o utiliza.
Ele refere-se ao uso do mesmo software e instâncias por vários usuários e empresas de
forma simultânea, tendo como objetivo disponibilizar os mesmos recursos de software
para um maior número de usuários.

3.1 GERENCIAMENTO DE DADOS EM NUVEM


Os Sistemas de Gerenciamento de Banco de Dados (SGBD) – do inglês,
Data Base Management System (DBMS) – em nuvem já são utilizados e têm ainda
muito potencial para atrair clientes de diversos setores da economia, não mais se
limitando a grandes corporações. Afinal, toda e qualquer organização tem como
meta maximizar resultados e essa maximização passa por um grande controle
de custos, essa metodologia de armazenamento vem para auxiliar na redução de
custos, pois proporciona essa redução por meio da utilização de infraestrutura e
sistemas de terceiros.

Entre as vantagens para os usuários, os SGBD em nuvem proporcionam,


segundo Curino et al. (2010):

82
TÓPICO 2 | INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II

• Previsibilidade e custos mais baixos, proporcionais à qualidade do serviço


(QoS) e cargas de trabalho reais.
• Baixa complexidade técnica, devido às interfaces de acesso unificado e à
delegação de tuning e administração dos SGBD.
• Elasticidade e escalabilidade, proporcionando a percepção de recursos quase
que infinitos, com a ressalva que os provedores têm que serem capazes de
garantir essa capacidade.
• A alusão de recursos infinitos, sob cargas de trabalho dinâmicas.
• Custos operacionais mais baixos associados a cada usuário.

Conforme o mundo empresarial vai mudando e exigindo mais dos


sistemas, esses sistemas e suas arquiteturas também vão evoluindo, para tentar
fornecer uma visão de armazenamento e escalabilidade infinitos. Com isso, a
uma enorme oportunidade para que essa área seja ainda mais explorada.

Esse gerenciamento requer alguns requisitos básicos, Curino et al. (2010)


apresentam esses requisitos da perspectiva do usuário, do provedor e dos
requisitos adicionais, conforme você pode ver no Quadro 5.

QUADRO 5 – REQUISITOS BÁSICOS DE GERENCIAMENTO

Requisitos do usuário

U1 – API* simples com poucas configurações e administração (ex. sem tuning)

U2 – Alto desempenho, com vazão e escalabilidade

U3 – Alta disponibilidade e confiança, sem falhas


U4 – Acesso fácil às características avançadas, ou seja,
uma fácil procura (mineração de dados)
Requisitos do provedor
P1 – Atender o ANS ou SLA* do usuário, por exemplo,
em uma demanda alta de trabalho
P2 – Limitar hardware e custo de energia (ex. multiplexação intensiva)

P3 – Limitar o custo com administração (ex. curso com mão de obra)

Requisitos extras de nuvem pública

P1 – Esquema de preços: barato, previsível e proporcional ao uso (elasticidade)


P2 – Garantias de segurança e privacidade para que
o usuário tenha confiança no serviço
P3 – Baixa latência (relevante para OLPT* e aplicações WEB)
*API, Application Programming Interface; ANS, Acordo de Nível de
Serviço; SLA, Service Level Agreement; OLPT, Online Transaction
Processing (ou processamento de transações em tempo real).

FONTE: Adaptado de Curino et al. (2010)

83
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Percebe-se, então, que os usuários querem uma interface simples,


rápida e que esteja ao seu alcance para a tomada de decisão, já o provedor
busca o atendimento aos acordos de nível de serviço e atender a demanda de
busca de dados.

E
IMPORTANT

A elasticidade é o tamanho do impacto que a alteração em uma variável


(ex. preço) exerce sobre outra variável (ex. demanda). Em sentido genérico, é a alteração
percentual de uma variável, dada a alteração percentual em outra, ceteris paribus (GOMES
JUNIOR, 2009). Na TI, a elasticidade pode ser definida como a capacidade de um sistema
de modificar dinamicamente os recursos computacionais utilizados por uma aplicação.

3.2 BANCO DE DADOS COMO UM SERVIÇO


Com o advento dessa nova forma de gestão de dados, o usuário agora
pode utilizar o serviço de dados por meio de diversas funcionalidades, como a
configuração das bases de dados, os esquemas, as interfaces padronizadas de
interação com a base e a carga de dados no serviço.

Assim as despesas e as atividades de gerenciamento dos aplicativos de


banco de dados são transferidas dos usuários para o provedor de serviços DaaS.
Funciona assim: os usuários (inquilinos) contratam o serviço fornecido por um
provedor e esse provedor mantém um conjunto de banco de dados hospedados,
em geral, em um centro de dados. A função do provedor nesse momento é
garantir a disponibilidade, o desempenho e a qualidade dos serviços para atender
a demanda dos usuários em seu nível de exigência.

As organizações que venham a utilizar essa formatação terão consigo um


ambiente altamente escalável, disponível e rápido, ou seja, terão a qualidade de
serviço (do inglês, Quality of Service – QoS) requerida cumprida. Além de terem
reduzidos seus custos físicos de hardware e software, garantindo uma boa base
de dados para a tomada de decisão.

Os sistemas multi-inquilino são flexíveis, pois atendem dois aspectos


fundamentais: a base de suporte para múltiplas versões do aplicativo, por
exemplo, em várias regiões geográficas; o poder de evoluir o esquema base e
suas extensões de forma dinâmica, enquanto o banco de dados está em execução.

Como vimos anteriormente, há três principais modelos de fornecimento


de serviços, software, infraestrutura e plataforma. Há também o modelo como
um serviço, que engloba os serviços de infraestrutura, plataforma, software,
desenvolvimento e suporte, assim gerando um ambiente integrado.

84
TÓPICO 2 | INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II

E
IMPORTANT

As tecnologias de QoS permitem atender aos requisitos de serviço de


uma carga de trabalho ou um aplicativo, medindo a largura de banda da rede, detectar
alteração de condições da rede (como congestionamento ou disponibilidade de largura
de banda) e priorizar, ou limitar, o tráfego de rede. Por exemplo, você pode usar a QoS
para priorizar o tráfego de aplicativos que reconhecem latência (como voz ou streaming
de vídeo), e para controlar o impacto do tráfego que não reconhece latência (como
transferências de dados em massa).

As tecnologias de QoS permitem atender aos requisitos de serviço de uma


carga de trabalho ou um A QoS fornece os recursos a seguir (MICROSOFT, c2017).

• Gerenciamento de largura de banda.


• Classificação e marcação.
• Controle de fluxo baseado em prioridade.
• QoS baseada em políticas e QoS do Hyper-V.

3.3 CARACTERÍSTICAS DO GERENCIAMENTO DE DADOS


EM NUVEM
Há duas classes de sistemas que organizam o gerenciamento de dados
em nuvem, a primeira diz que o gerenciamento serve para apoiar aplicações com
muitas atualizações, e a segunda afirma que o gerenciamento permite análise dos
dados e suporte a decisão.

Quando nos referimos ao apoio de aplicações, subdividimos essa função,


em que uma delas afirma que o objetivo do sistema é apoiar uma única aplicação,
com uma grande quantidade de dados, e a outra que diz que o objetivo do sistema
é apoiar um grande número de aplicações, cada uma delas com um número menor
de dados. Ambas as situações são válidas e diversos teóricos versaram sobre
elas, porém todos enfatizam que o essencial, como característica do ambiente em
nuvem, é o gerenciamento autônomo.

Além dessa característica essencial, o gerenciamento em nuvem ainda


conta como características a distribuição, que conta com poucos centros de dados;
um ambiente composto por recursos homogêneos em centro de dados; operações
para acesso aos dados simples (API), Structured Query Language (SQL) ou
variações; tem atualizações frequentes, transações ACID ou variações; replicação
com garantia de QoS e transparência; uma granulosidade da replicação fina;
controle global, central ou distribuído; e alterações dinâmicas, com escalabilidade
e suporte para cargas de trabalho inesperadas.

85
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Assim sendo, esse sistema se diferencia em muito do tradicional, pois conta


com menos interferência humana, alta alternância na carga de trabalho e uma
variedade de infraestruturas compartilhadas. Em muitas dessas estruturas não
haverá administradores de SGBD, ou de sistemas para ajudar os desenvolvedores
que acessam um banco de dados, fazendo com que a busca pela solução seja
automatizada ao máximo.

A virtualização pode aumentar a agilidade, a flexibilidade e o


dimensionamento da TI e, ao mesmo tempo, permitir uma economia
significativa. A implantação de cargas de trabalho é mais rápida, o desempenho e
a disponibilidade são maiores e as operações se tornam automatizadas. Tudo isso
resulta em uma TI mais simples de gerenciar e mais barata para se ter e operar.
Os benefícios adicionais incluem (VMWARE, c2017):

• Reduzir despesas operacionais e de capital.


• Minimizar ou eliminar o tempo de inatividade.
• Aumentar a produtividade, a eficiência, a agilidade e a capacidade de
resposta da TI.
• Aprovisionar aplicativos e recursos mais rápidos.
• Ativar a continuidade de negócios e a recuperação de desastres.
• Simplificar o gerenciamento de data centers.
• Criar um data center real definido por software.

Alguns tipos de virtualização são a virtualização de armazenamento, que


é o compartilhamento de armazenamento físico de dispositivos em várias redes; e
a virtualização de hardware, que é a mais realizada pelas empresas, cujo principal
objetivo é compartilhar os recursos de hardware, em vez de dedicar servidores
para as aplicações.

3.4 AVALIAÇÃO DE SERVIÇOS DE DADOS EM NUVEM


Quanto às avaliações, os sistemas de dados em nuvens apresentam
diferenças significativas em relação à infraestrutura tradicional. Como você sabe, os
sistemas tradicionais pressupõem a existência de configurações fixas de recursos,
essas configurações tratam exclusivamente da otimização de desempenho, e seus
objetivos ficam baseados na busca dos dados com uma máxima rapidez possível.
Para isso, o investimento normalmente é alto.

Já no ambiente em nuvem esses custos são minimizados, pois eles são


compartilhados e, portanto, acabam por serem mais atualizados e tem seu
investimento focado apenas na quantidade utilizada.

É claro que o sistema pode apresentar falhas, por isso deve trabalhar duro
para garantir a disponibilidade com consistência. Esse ponto é fundamental,
afinal uma consistência fraca representa alto custo operacional.

86
TÓPICO 2 | INFRAESTRUTURA DE TI E SISTEMAS DE SUPORTE II

Os serviços de computação em nuvem contam com segurança, e essas


questões são fundamentais para sua avaliação, pois os usuários têm que
confiar e saber que os provedores dos serviços ofertam responsabilidade e
privacidade nos dados.

A infraestrutura em nuvem tem, ainda, um longo caminho a ser percorrido,


tanto para as organizações que já utilizam como para as que vão ainda entrar no
sistema. Os gerenciamentos de dados estão evoluindo muito, e os usuários já contam
com opções para uma melhor escolha de acordo com sua demanda. Vale ressaltar
que, na escolha da melhor forma de utilização, você deve considerar a segurança, a
qualidade do serviço de dados, a escalabilidade e o valor de investimento disponível
na organização, para que a área de TI possa entregar os objetivos e metas propostas
pelo planejamento, garantindo, assim, o sucesso empresarial.

3.5 CINCO TENDÊNCIAS EM SEGURANÇA DE DADOS


Veja a seguir a lista das tendências de segurança de dados (PIZZOLATO,
2015):

1- Uso da inteligência artificial para combater ataques: a sugestão de utilização


do Big Data tem alta capacidade de tratar e interpretar grandes volumes de
bytes trafegados na web.
2- Contratação de serviços externos de especialistas em segurança de dados: a
maioria das multinacionais utilizam empresas com expertise em segurança
de dados para monitorarem remotamente seus sistemas e protegê-los de
vulnerabilidades, ataques criminosos, perda ou violação na integridade de
dados corporativos. Atualmente, a terceirização da segurança da informação
promete chegar também às pequenas e médias empresas em expansão, que
perceberão o ótimo custo × benefício do outsourcing nesse segmento. Isso
porque, por meio dessa estratégia, é possível garantir gerenciamento de dados
com as melhores tecnologias do mercado, além de assegurar liberdade para
que sua equipe de TI se dedique apenas ao core business da organização.
3- Maior uso da autenticação de dois fatores em sistemas empresariais: seria o
acréscimo de uma camada adicional de segurança no processo de login de
acesso a um sistema corporativo – promete ser uma tendência sem volta na
área de segurança de dados. Muito usada por instituições bancárias, essa nova
metodologia minimiza consideravelmente o risco de uma senha ser roubada e
usada para acessar indevidamente os dados da empresa.
4- Novos sistemas de segurança aplicacional em nuvens: a migração do
armazenamento de dados em discos rígidos para sua alocação em serviços
de computação em nuvem exige o desenvolvimento de novos recursos de
proteção, como sistemas de backups periódicos, hierarquizações de acesso e
desenvolvimento de sistemas de detecção especializados em nuvem, os quais
deverão ser comercializados por sistema pay-per-use, software as a service (SaaS)
ou, nesse caso específico, Segurança como Serviço.

87
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

5- Segurança do endpoint: o fato de alguns tradicionais sistemas de proteção de


redes já não serem mais tão eficientes quanto eram há alguns anos, tem feito
ressurgir o interesse das empresas na segurança do endpoint. Os profissionais
da área de TI deverão direcionar seus olhos para os equipamentos (tablets,
smartphones, PCs ou Mac), em busca da implementação de tecnologias
que permitam respostas mais simples e “cirúrgicas” aos incidentes, como o
AdmFirewall, uma referência nacional em proteção.

88
RESUMO DO TÓPICO 2
Nesse tópico você aprendeu:

• Reconhecer as características básicas de uma infraestrutura de TI.

• Comparar a infraestrutura tradicional com a infraestrutura baseada em servi-


ços e na computação em nuvem.

• Relacionar os riscos e benefícios proporcionados por uma infraestrutura de


computação em nuvem.

• As infraestruturas baseadas na computação em nuvem.

89
AUTOATIVIDADE

1 A computação em nuvem torna mais fácil o uso de serviços que, no passado,


teriam sido classificados como software e seria necessária sua compra,
instalação e manutenção em diversas máquinas individuais. Considerando
os diversos modelos de fornecimento dos serviços na nuvem, marque a
alternativa que apresenta a conceituação CORRETA:

a) ( ) Infraestrutura como um serviço: neste modelo o fornecedor do software


é o responsável pela estrutura necessária para a disponibilização do
sistema aos usuários.
b) ( ) Software como um serviço: neste modelo toda a infraestrutura é
fornecida como um serviço, não apenas determinado software como
um conjunto de aplicativos.
c) ( ) Tudo como um serviço: neste modelo a ideia é utilizar tudo como
um serviço, englobando infraestrutura, plataforma, software,
desenvolvimento e suporte.
d) ( ) Telecomunicações como um serviço: neste modelo as ferramentas
de desenvolvimento são disponibilizadas e compartilhadas em um
ambiente na nuvem.
e) ( ) Comunicação como um serviço: neste modelo toda a comunicação da
empresa é realizada automaticamente por dispositivos inteligentes
localizados na nuvem.

2 A ideia da computação em nuvem é armazenar aplicativos e informações


nos centros de dados dos provedores e não nos servidores locais da
empresa. Quando uma grande empresa ou uma agência governamental
com diversas localizações estabelecem suas próprias nuvens, entende-se
que foi estruturada uma nuvem:

a) ( ) comunitária.
b) ( ) Híbrida
c) ( ) Privada
d) ( ) pública.
e) ( ) Proprietária

3 Uma infraestrutura de TI bem estruturada apresenta quatro características


fundamentais que devem ser analisadas pelos gestores no momento
da tomada de decisão sobre como adquirir hardware, software, redes
(dispositivos de comunicação) e banco de dados para a organização. Posto
isto, marque a alternativa que apresenta CORRETAMENTE essas quatro
características:

90
a) ( ) Acessibilidade, adaptabilidade, dependência e gerenciabilidade.
b) ( ) Adaptabilidade, assessoramento, dependência e gerenciabilidade.
c) ( ) Acessibilidade, dependência, maleabilidade e manutenibilidade.
d) ( ) Adaptabilidade, dependência, gerenciabilidade e recuperação.
e) ( ) Acessibilidade, adaptabilidade, dependência e manutenibilidade.

4 A computação em nuvem é uma inovação que efetivamente auxilia as


empresas em termos de infraestrutura de TI. Entretanto, ela apresenta
diversos riscos que devem ser considerados pelos gestores no momento da
análise da viabilidade de sua adoção. Assim sendo, marque a alternativa que
apresenta um risco vinculado diretamente com a computação em nuvem:

a) ( ) Pagamento de recursos na nuvem não utilizados pela empresa.


b) ( ) Indisponibilidade do servidor.
c) ( ) Vazamento de informações empresariais.
d) ( ) Danificação física do equipamento.
e) ( ) Queima de equipamentos da organização.

5 A computação em nuvem evoluiu a partir da virtualização - uma abordagem


que permitiu infraestruturas de TI mais flexíveis e de custos mais baixos.
Em relação à virtualização, marque a alternativa CORRETA:

a) ( ) A virtualização de rede reduz os recursos disponíveis em uma rede


através do aumento de carga da rede em partes que possam ser
gerenciadas.
b) ( ) A virtualização de hardware é a que consome mais recursos financeiros,
pois a organização necessita duplicar seu parque de equipamentos
tecnológicos.
c) ( ) A virtualização de armazenamento é o compartilhamento de
armazenamento físico de dispositivos em várias redes.
d) ( ) A virtualização, especialmente a de software, implica em corte de
gastos, pois permite o aumento na flexibilidade dos ativos de TI da
empresa.
e) ( ) A virtualização de telecomunicações pode ser considerada como o
principal tipo de virtualização realizada atualmente pelas empresas.

91
92
UNIDADE 2 TÓPICO 3

COMPUTAÇÃO NA NUVEM

1 INTRODUÇÃO
Quando se pensa em computação em nuvem, imagina-se grandes
servidores em Data Centers de última tecnologia provendo os mais variados
serviços, como e-mail, armazenamento de arquivos e soluções em gerais. Contudo,
objetivamente, a base da computação em nuvem é o fato de existir algum serviço
disponível na internet, por meio de um computador interligado a outros pela
internet. Portanto, um computador pessoal, por exemplo, pode servir como um
ponto de acesso a outros computadores para um ou vários tipos de serviços.

Conceitualmente, os serviços disponibilizados por computadores


interligados na internet devem funcionar diretamente nesses computadores,
podendo ser acessados sem a necessidade de instalação de nenhum sistema,
estando disponíveis a qualquer hora, de qualquer lugar e para qualquer
dispositivo. Como esse acesso é feito de maneira remota, pela internet, criou-se a
alusão à nuvem, por isso o nome computação em nuvem.

Neste tópico, entenderemos o conceito de computação em nuvem e a


estrutura de um Data Center, poderá, também, identificar as principais topologias
existentes na computação em nuvem e compreender as vantagens e desvantagens
de cada uma para tomadas de decisões.

2 DATA CENTER
Um Data Center ou Central de Processamento de Dados (CPD) é o
local destinado ao armazenamento e funcionamento de equipamentos para o
processamento de dados a serviço de uma ou mais empresas. Dependendo do
tamanho do Data Center, é possível acolher milhares de servidores, além de
inúmeros componentes como storage, roteadores, switches e no-breaks, como
você pode observar na Figura 8.

93
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

FIGURA 8 – ILUSTRAÇÃO DA PARTE INTERNA DE UM DATA CENTER

FONTE: DatacenterDynamics (2016)

2.1 FUNÇÃO
Os equipamentos instalados em um Data Center possuem o objetivo
de processar de maneira adequada um grande número de dados de forma
ininterrupta e segura. Para manter tudo funcionando com a máxima segurança,
é comum os Data Centers possuírem geradores, sistemas anti-incêndios, pisos
elevados contra inundações, além do acesso restrito aos seus aposentos.

2.2 ESTRUTURA
Para permitir o acesso aos dados processados no Data Center, ele deve
possuir uma infraestrutura de rede para conexão à internet adequada e possuir
um rigoroso projeto estrutural para responder a algumas questões, como quantos
servidores devem ser configurados, quais conexões devem ser utilizadas, quais
switches, roteadores, no-breaks deverão ser instalados, implementação de sistemas
de backup para prevenção de perda de dados etc.

Toda a estrutura do Data Center é pensada e implementada por profissionais


de tecnologia pertencente ao departamento de tecnologia da informação (TI),
contratados exclusivamente para essa finalidade dentro do Data Center.

Além da infraestrutura lógica, é necessário adotar medidas contra


desastres. Algumas medidas de prevenção são:

• instalação de geradores de energia;


• controle de acessos internos;
• instalação de câmeras;
• uso de crachás;
• cadastro de visitantes;
• dispositivos contra incêndio, como extintores e mangueiras;

94
TÓPICO 3 | COMPUTAÇÃO NA NUVEM

• sistema automatizado de refrigeração;


• elevação do piso contra inundação etc.

DICAS

Data Centers são classificados de diversas formas, a principal delas, tida


como padrão, é a classificação em Tiers (do inglês, camadas). Existem quatro camadas
diferentes, e você pode acessar mais informações sobre elas no link ou código a seguir.

https://goo.gl/N7jEdB

3 TIPOLOGIA DA COMPUTAÇÃO EM NUVEM


Atualmente, a computação em nuvem é dividida em três principais tipos:

• Infrastructure as a service (IaaS) ou infraestrutura como serviço: é quando


se utiliza uma porcentagem dos recursos do servidor para a necessidade
específica de determinada aplicação (p. ex.: Softlayer).
• Plataform as a service (PaaS) ou plataforma como serviço: é quando se utiliza
apenas os recursos de um banco de dados, um WebService ou uma API (p. ex.:
IBM Bluemix, Windows Azure, Jelastic API do TransmiteNota).
• Software as a service (SaaS) ou software como serviço: é quando se utiliza
uma aplicação diretamente pela internet (p. ex.: Google Docs, TransmiteNota).

A Figura 9 apresenta uma ilustração dos tipos de computação em nuvem.

FIGURA 9 – MODELO DE FUNCIONAMENTO DA COMPUTAÇÃO EM NUVEM

FONTE: Galdino (2012)

95
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

3.1 PRINCIPAIS FORNECEDORES


Uma nuvem pode ser pública ou privada. Uma nuvem privada
normalmente é configurada em um Data Center privado, ela é criada para uso
exclusivo de um único usuário. Já a nuvem pública é formada por serviços
disponíveis abertamente na internet para qualquer usuário acessar.

Segundo um estudo realizado pelo instituto Gartner, 19% das empresas


no mundo utilizam computação em nuvem privada e outros 20% utilizam
serviços públicos de armazenamento na nuvem. A seguir, listamos os principais
fornecedores de computação em nuvem:

• Amazon Web Services


• Google Cloud Storage
• HP
• IBM
• Internap
• Microsoft
• Nirvanix
• Softlayer

4 VANTAGENS E DESVANTAGENS DO MODELO PARA


TOMADA DE DECISÕES
A computação em nuvem surgiu para facilitar o acesso de forma universal
aos mais variados tipos de aplicações e serviços. Embora ela tenha trazido inúmeros
benefícios, nem só de vantagens vive a computação em nuvem, veja, a seguir o
comparativo de algumas vantagens e desvantagens da computação em nuvem.

As vantagens da computação em nuvem são:

• permitir o acesso a aplicações na web sem a necessidade da instalação de


nenhum programa localmente;
• realizar todas as atualizações e upgrades da aplicação de forma rápida e
automática, sem a necessidade do usuário baixar pacotes de atualizações;
• facilitar o trabalho corporativo por meio do compartilhamento de arquivos e
dados pela nuvem.
• não existir necessidade da manutenção de servidores internos de alto custo.

As desvantagens da computação em nuvem são:

• todos os serviços dependem da internet para funcionar, caso ela caia o acesso
aos serviços ficarão comprometidos;
• caso seja necessário o envio de arquivos grandes ou um uso massivo de tráfego
de dados, esse processamento dependerá da banda de internet contratada pelo
usuário, podendo prejudicar o uso dos serviços;

96
TÓPICO 3 | COMPUTAÇÃO NA NUVEM

• diferentemente de disponibilizar uma aplicação em seu próprio computador,


quando ela é disponibilizada na nuvem, é necessário contratar e pagar por
este serviço.
• caso haja uma indisponibilidade no servidor, todos os acessos são interrompidos,
diferente de aplicações locais.

Na hora de contratar um serviço de computação em nuvem, é preciso


analisar com muito cuidado os recursos necessários para a sua aplicação,
pois, devido à importância da disponibilidade dos dados, um erro na escolha
do fornecedor, na tipologia ou no serviço pode acarretar sérios problemas de
acessibilidade e impedir que o objetivo da aplicação seja alcançado.

Um serviço muito utilizado para a disponibilização de aplicações on-line


é o de Virtual Private Server (VPS), ou servidor virtual privado, que pode ser
definido como um espaço “isolado” (servidor virtual) dentro de um servidor
físico. Observe a ilustração de um VPS na Figura 10.

FIGURA 10 – DEMONSTRAÇÃO GRÁFICA DE COMO FUNCIONA UM VPS

FONTE: HostNeverDie (2014)

E
IMPORTANT

Alguns serviços oferecidos para contratação da computação em nuvem são:


Servidor Cloud, Hospedagem de Sites, Load Balancer e E-mail.

97
RESUMO DO TÓPICO 3
Nesse tópico você aprendeu:

• Relacionar o conceito de Computação na Nuvem com a estrutura de um Data


Center.

• Identificar os principais fornecedores de serviços na nuvem e os modelos de


contratação (IaaS, PaaS e SaaS).

• Avaliar vantagens e desvantagens do modelo para tomadas de decisões quanto


à contratação.

• Que a máquina virtual (MV), do original, em inglês, virtual machine (VM),


emula um computador físico comum, onde as requisições de CPU, memória
disco, rede e outros hardwares são gerenciados pela camada de virtualização,
a qual traduz essas requisições para o hardware orignal.

• No Infográfico a seguir, você poderá observar uma ilustração de como funcio-


na todo este processo.​​​​​​​​​​

98
99
AUTOATIVIDADE

1 Sobre conceitos de tipos de comercialização de serviços Cloud, assinale a


alternativa correta.

a) ( ) Após contratar um tipo de nuvem, os fornecedores não permitem a


troca de modalidade.
b) ( ) A nuvem privada pode se tornar pública, e vice-versa, conforme a
necessidade do usuário.
c) ( ) A nuvem pública é formada por serviços disponíveis na Internet para
usuários selecionados.
d) ( ) No modelo nuvem híbrida, parte das aplicações são acessadas pela
nuvem pública e outra parte pela nuvem privada.
e) ( ) Uma nuvem pode ser pública ou privada. Uma nuvem privada,
normalmente é configurada em um Data Center privado e é criada
para uso público de vários usuários.

2 Marque a alternativa correta quanto às vantagens de contratar os Serviços


de Computação na Nuvem:

a) ( ) Com os serviços de nuvem, é possível, de acordo com a necessidade


da empresa, exigir armazenamento adicional, sendo que em alguns
casos o armazenamento adicional necessário estará disponível em
poucos minutos.
b) ( ) Nenhum dos serviços depende da Internet para funcionar. Caso ela
caia, o acesso aos serviços não ficará comprometidos.
c) ( ) Retira totalmente a responsabilidade interna da empresa de realizar
auditorias e revisões periódicas para assegurar se o cumprimento de
políticas de backup e atualizações estão sendo atendidas pelo serviço
de Data Center.
d) ( ) Quando uma aplicação é disponibilizada na nuvem, não é necessário
contratar e pagar por esse serviço.
e) ( ) Caso seja necessário o envio de arquivos grandes ou uso massivo
de tráfego de dados, esse processamento dependerá inteiramente
da banda de Internet contratada pelo usuário no Data Center, não
prejudicando o uso dos serviços.

3 Segundo o Open Cloud Manifesto, é uma barreira de adoção de computação


na Nuvem:

I) Segurança.
II) Interoperabilidade de dados e aplicações.
III) Portabilidade de dados e aplicações.
IV) Medição e monitoramento.
V) Escalabilidade.

100
Qual alternativa abaixo está correta?

a) ( ) Apenas as afirmativas I, III e V estão corretas.


b) ( ) Todas as afirmativas estão corretas.
c) ( ) Apenas as afirmativas I, II, IV e V estão corretas.
d) ( ) Apenas as afirmativas I e V estão corretas.
e) ( ) Apenas a afirmativa I está correta.

4 Com base em conceitos de Computação na Nuvem (CN), assinale a


alternativa correta.

a) ( ) A computação em Nuvem está acessível somente para grandes


organizações.
b) ( ) Escalabilidade é a propriedade de ser acessível em qualquer tipo de
rede de acesso.
c) ( ) Hoje em dia, é possível contratar serviços em cloud de modo muito
fácil, embora seja possível a contratação como pessoa jurídica somente
fora do país.
d) ( ) Um dos principais obstáculos a ser vencido por uma empresa ao
adotar a computação em Nuvem para os seus serviços é a instalação
de programas localmente.
e) ( ) Há mais de um tipo de modelo de implantação de Cloud comercializada
no mercado: a nuvem pública, a nuvem privada e a híbrida.

5 A definição da propriedade da Computação da Nuvem que possibilita,


por demanda temporária, a configuração automática de crescimento
ou redução de recursos de poder computacional graças à tecnologia de
compartilhamento virtual de hardware chama-se:

a) ( ) Interoperabilidade.
b) ( ) Elasticidade.
c) ( ) Política de segurança
d) ( ) Malware.
e) ( ) Firewall.

101
102
UNIDADE 2
TÓPICO 4

ANALISAR E COMPREENDER A UTILIZAÇÃO


DO BANCO DE DADOS NOSQL

1 INTRODUÇÃO
O volume de dados está aumentando em proporções exponenciais no
mundo. Os Estados Unidos é o país em que mais circulam dados, ficando a Chi-
na em segundo lugar. Também merece destaque em tráfego de dados a América
Latina, o Oriente Médio e a África.

E como lidar com tanta informação? Os bancos de dados de modelos rela-


cionais estão preparados?

Neste tópico, estudaremos um novo conceito de banco de dados para tra-


balhar com grandes volumes de dados, o NoSQL.

2 BANCOS DE DADOS
Antes de falarmos em bancos de dados, devemos conhecer alguns
conceitos importantes. O que são dados, informação e conhecimento?

Podemos conceituar dados como sendo a forma bruta da informação, ou


a parte indivisível da informação. Vejamos um exemplo: abra um bloco de notas
e insira seu nome, "Jorge". Nesse instante, fazemos uma pergunta: o que significa
"Jorge"? A resposta é simples, é apenas um dado, não tem significado. Perfeito!
É realmente isso, o dado sozinho não tem significado. Portanto, podemos dizer
que dado é uma parte da informação, ou seja, a forma mais bruta, sem qualquer
semântica. Entretanto, temos a necessidade de entender o conceito de informação,
com isso, faremos mais uma atividade: com seu bloco de notas aberto, após a
palavra "Jorge": digite "aluno". Agora, temos um significado: sabemos que Jorge
é um aluno. Portanto, podemos afirmar que informações são significados que
buscamos e isso acontece pelo processamento de dados (Figura 11), em que o
conjunto deles gera a informação.

103
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

FIGURA 11 — PROCESSAMENTO DOS DADOS

Jorge + aluno = Jorge é aluno

FONTE: O autor

Outro conceito importante é o conhecimento. O conhecimento é obtido


com a extração, organização e cruzamento de informações, ou seja, o conjunto de
informações organizadas gera conhecimentos.

Um dos maiores ativos das empresas é o que chamamos de ativo


intangível. Podemos colocar nesse grupo o conhecimento na fabricação de seus
produtos e execução de serviços; e, em uma visão analítica, o conhecimento em
todos os processos que levam a empresa a alcançar seus objetivos. Traçando uma
linha cronológica decrescente (Figura 12), temos que o conhecimento vem de
informações, ao passo que informações são extraídas do processamento de dados.

FIGURA 12 — LINHA DO TEMPO, CONHECIMENTO, INFORMAÇÃO E DADO

Conhecimento < informação < Dados

FONTE: O autor

Agora podemos entender por que desde os primeiros computadores, uma


das grandes preocupações é quanto ao armazenamento e manipulação de dados.
Com o passar dos anos, o volume de dados foi aumentando e surgindo modelos
para organizar e manipular esses dados. A seguir, veremos uma breve descrição
sobre os modelos de dados trabalhados no decorrer dos anos.

3 MODELOS DE DADOS

3.1 MODELO HIERÁRQUICO


O modelo hierárquico é um tipo de gerenciador de banco de dados que
conecta os registros em forma de árvore e cada tipo de registro tem apenas uma raiz.

3.2 MODELO EM REDE


O modelo em rede é uma extensão do modelo hierárquico. A representação
dos dados é feita por meio de uma coleção de registros. Os relacionamentos são
feitos por links.

104
TÓPICO 4 | ANALISAR E COMPREENDER A UTILIZAÇÃO

3.3 MODELO RELACIONAL


O modelo relacional é o modelo mais aceito pelas empresas nos dias atuais.
Sua característica é a organização dos dados em tabelas. As tabelas se relacionam
entre si por meio de chaves primárias e estrangeiras.

3.4 MODELO ORIENTADO A OBJETOS


Neste modelo, os dados são armazenados na forma de objetos, por meio
de estruturas chamadas classes. Os campos são instâncias dessas classes.

4 SGBD
Sistema Gerenciador de Banco de Dados ou SGBD é um conjunto de
ferramentas baseados em uma linguagem, usadas para gerir a criação da estrutura,
exclusão e alteração de bases de dados, tabelas e manipulação de dados.

5 BIG DATA
A cada dia é gerada uma grande quantidade e variedade de dados.
Podemos citar como algumas das empresas que convivem diariamente com esse
dilúvio de informações as companhias aéreas, operadoras de telefonia, redes
sociais, busca on-line e redes varejistas. No entanto, não basta ter as informações
armazenadas, é necessário gerar conhecimento para nortear processos e tomadas
de decisões, ou seja, saber fazer o melhor uso dos dados. Com isso, entramos no
conceito de Big Data.

De acordo com Alecrim (2013), inicialmente podemos definir o conceito


de Big Data como sendo conjuntos de dados extremamente amplos e que, por
este motivo, necessitam de ferramentas especialmente preparadas para lidar com
grandes volumes, de modo que toda e qualquer informação nestes meios possa
ser encontrada, analisada e aproveitada em tempo hábil. Simplificando, a análise
de grandes quantidades de dados para a geração de resultados importantes que,
em volumes menores, dificilmente seriam alcançados.

Diariamente são feitas milhões de transações bancárias; milhões de


e-mails são enviados ao redor do mundo; redes sociais com um volume cada vez
maior de publicações. Portanto, podemos assumir que Big Data é um problema
de um imenso volume e variedade de dados. Os bancos de dados relacionais, por
características são normalizados, suas consultas possuem muitos joins pelo grande
número de tabelas relacionadas, influenciando diretamente na performance da
aplicação. Não estamos apresentando o fim dos bancos de dados relacionais,
apenas estamos relacionando ao problema Big Data. Muitas empresas usam e
continuarão usando suas bases relacionais. Buscamos, aqui, uma alternativa
melhor para o trabalho com grandes volumes de dados. Os bancos de dados

105
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

tradicionais, principalmente os relacionais, não possuem soluções adequadas a


este problema. Ainda, segundo Alecrim (2013), isso acontece porque bancos de
dados relacionais normalmente se baseiam em quatro propriedades que tornam a
sua adoção segura e eficiente, razão pela qual soluções do tipo são tão populares:
atomicidade, consistência, isolamento e durabilidade. Essa combinação é
conhecida como ACID (do inglês, Atomicity, Consistency, Isolation e Durability).
Neste ponto, entra em cena o conceito de NoSQL.

6 NOSQL
NoSQL (não somente SQL) não faz referência a movimentos contra SQL,
refere-se à solução de banco de dados que possibilita o armazenamento de várias
formas não se limitando ao modelo relacional. Embora não seja um conceito
novo, surgiu em 1998, ainda não se tornou bem conhecido dos profissionais de TI.

De acordo com Oliveira (2013):

As análises em grandes massas de dados podem trazer respostas que


antes não seriam possíveis de ser obtidas, por isso é grande o potencial
de mercado do Big Data, bem como o desejo das empresas de adotá-lo.
Para tratar uma imensa quantidade de dados e aproveitá-los da melhor
maneira possível, estão sendo criadas tecnologias que sustentam o Big
Data como o NoSQL para infraestrutura de banco de dados, Stream
Computing como novo paradigma e Hadoop e MapReduce voltado
para análise de dados.
NoSQL (Not only Structured Query Language) é um termo genérico para
uma classe definida de bancos de dados não-relacionais, que tem uma
propriedade chamada BASE (Basically Available, Soft state, Eventual
consistency), que distribui os dados em diferentes repositórios tornando-
os sempre disponíveis, não se preocupa com a consistência de uma
transação, delegando essa função para a aplicação, porém sempre garante
a consistência dos dados em algum momento futuro à transação:

NoSQL é uma forma de organizar os dados diferente do modelo relacional.


Até pouco tempo atrás só existiam bancos de dados relacionais; se você tivesse
qualquer problema teria que buscar uma solução relacional.

Existe uma nova onda de aplicações de bancos de dados, a qual você


não olha mais para o passado, você olha para o presente, ou seja, os dados estão
chegando, estão sendo armazenados, processados, extraídos os conhecimentos
para que possamos recomendar ao cliente.

Veja, no quadro a seguir, o comparativo entre bancos de dados SQL e


NoSQL.

106
TÓPICO 4 | ANALISAR E COMPREENDER A UTILIZAÇÃO

TABELA 93 — COMPARATIVO ENTRE BANCOS DE DADOS SQL E NOSQL

Banco de dados SQL Bancos de dados NoSQL

Bancos de dados não


O modelo relacional
relacionais (NoSQL)
normaliza dados em
normalmente não aplicam
estruturas tabulares
um schema. Geralmente,
conhecidas como tabelas,
uma chave de partição é
que consistem em linhas e
Modelo de dados usada para recuperar valores,
colunas. Um schema define
conjuntos de colunas ou
estritamente as tabelas,
documentos semiestruturados
colunas, índices, relações
JSON, XML ou outros que
entre tabelas e outros
contenham atributos de itens
elementos do banco de dados.
relacionados.
Sistemas de gerenciamento de
bancos de dados relacionais
(RDBMS) tradicionais são
Bancos de dados NoSQL
compatíveis com um conjunto
normalmente trocam algumas
de propriedades definido pela
propriedades ACID de
sigla ACID: Atomicidade,
sistemas de gerenciamento de
Constância, Isolamento e
bancos de dados relacionais
Durabilidade. Atomicidade
(RDBMS) por um modelo
significa "tudo ou nada",
de dados mais flexível que
ou seja, uma transação é
escala horizontalmente. Essas
concluída integralmente ou
características fazem dos
não. Constância significa
Propriedades ACID bancos de dados NoSQL uma
que quando uma transação
excelente opção em situações
é realizada, os dados devem
em que os RDBMS deparam
estar em conformidade com
com desafios de arquitetura
o schema do banco de dados.
e precisam solucionar uma
Isolamento exige que as
combinação de gargalos de
transações simultâneas sejam
desempenho, escalabilidade,
executadas separadas uma
complexidade operacional
da outra. Durabilidade é a
e custos crescentes de
capacidade de se recuperar de
administração e suporte.
uma falha do sistema ou falta
de energia inesperada para o
último estado conhecido.
O desempenho normalmente
Desempenho geralmente
depende do subsistema
é uma função do tamanho
do disco. A otimização de
do cluster do hardware
Desempenho consultas, índices e estrutura
subjacente, da latência de
de tabela é necessária
rede e da aplicação que faz a
para alcançar máximo
chamada.
desempenho.
Mais fácil de aumentar a
Projetado para aumentar
escala "verticalmente" com
a escala "horizontalmente"
hardware mais rápido. Outros
usando clusters distribuídos
Escala investimentos são necessários
de hardware de baixo custo
para tabelas relacionais
para aumentar a transferência
para abranger um sistema
sem aumentar a latência.
distribuído.

107
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

As solicitações para
armazenar e recuperar dados
são comunicadas usando APIs baseadas em
consultas compatíveis com objetos permitem que
structured query language desenvolvedores de aplicações
(SQL). Essas consultas são armazenem e restaurem
analisadas e executadas por facilmente estruturas de
sistemas de gerenciamento de dados na memória. As chaves
APIs bancos de dados relacionais de partição permitem que os
(RDBMS). aplicativos procurem pares
Os bancos de dados SQL de chave-valor, conjuntos
normalmente oferecem de colunas ou documentos
um rico conjunto de semiestruturados contendo
ferramentas para simplificar objetos e atributos de
o desenvolvimento de aplicativos serializados.
aplicações orientadas ao
banco de dados.
Os bancos de dados SQL
normalmente oferecem Oferecem ferramentas
um rico conjunto de para gerenciar clusters e
Ferramentas ferramentas para simplificar escalabilidade. As aplicações
o desenvolvimento de são a interface principal com
aplicações orientadas ao os dados subjacentes.
banco de dados.

FONTE: <httpslaws.amazon.com/pt/nosql/>. Acesso em: 2 dez. 2019.

6.1 PRINCIPAIS CARACTERÍSTICAS DOS BANCOS DE DADOS


NOSQL
Os bancos de dados NoSQL possuem características importantes que os
diferenciam dos bancos de dados relacionais. De acordo com Cavalcante (2012),
as características dos bancos de dados relacionais são:
• Escalabilidade Horizontal: na medida em que o volume de dados
cresce, aumenta-se a necessidade de escalabilidade e melhoria do
desempenho. Dentre todas as possibilidades para esta solução,
a escalabilidade horizontal se torna a mais viável, porém requer
diversas threads ou que processos de um tarefa sejam criadas e
distribuídas. Dessa forma, o uso de um banco de dados relacional
poderia ser muito complexo. Não queremos dizer que os bancos de
dados relacionais não escalam, a verdade é que eles não escalam
facilmente. Isto porque, no momento em que diversos processos se
conectam simultaneamente, em um mesmo conjunto de dados há
uma geração de uma alta concorrência aumentando assim o tempo
de acesso às tabelas. Nesse contexto, uma grande vantagem dos
bancos NoSQL é justamente a ausência de bloqueios, o que permite a
escalabilidade horizontal com uma maior facilidade e eficiência (ele
não é afetado pelo aumento da concorrência). Uma alternativa muito
utilizada para alcançar a escalabilidade horizontal é o Sharding,
que divide os dados em múltiplas tabelas a serem armazenadas ao
longo de diversos nós na rede. O que esta técnica faz, na realidade,
é romper a cadeia de relacionamentos, que é uma forte característica
nos bancos relacionais. É possível realizar o Sharding em banco

108
TÓPICO 4 | ANALISAR E COMPREENDER A UTILIZAÇÃO

de dados relacionais de forma manual. Entretanto, esta não é uma


tarefa simples e demonstra complexidade de implementação para a
equipe que está desenvolvendo.
• Ausência de esquema (Schema-free) ou esquema flexível: Outra
característica notável em bancos de dados NoSQL é a ausência
parcial ou total de esquema que define a estrutura de dados.
É justamente essa ausência de esquema que facilita uma alta
escalabilidade e alta disponibilidade, mas em contrapartida não há
a garantia de integridade dos dados, fato este que não ocorre no
Modelo Relacional.
• Suporte nativo a replicação: Esta é outra forma de prover a
escalabilidade, pois, no momento em que permitimos a replicação de
forma nativa o tempo gasto para recuperar informações é reduzido.
• API simples para acessar o banco de dados: Em banco de dados
NoSQL, o foco não está no armazenamento dos dados e sim
como recuperar estes dados de forma eficiente. Pensando nisso, é
fundamental APIs desenvolvidas para facilitar o acesso às devidas
informações para que se possa usar o banco de dados de forma
rápida e eficiente.
• Consistência eventual: Outra característica particular de bancos
NoSQL é que nem sempre a consistência dos dados é mantida. Esta
característica tem embasamento no teorema CAP (Consistency,
Availability e Partition tolerance) que afirma que em um dado
momento só é possível garantir duas destas três propriedades, que
seriam consistência, disponibilidade e tolerância à partição. No
mundo real, normalmente estas duas últimas são privilegiadas.
Como consequência disto, as propriedades do ACID não são
respeitadas simultaneamente, ao contrário disto, temos outro
conjunto de projetos denominado BASE (Basicamente disponível,
estado leve e consistente em momento indeterminado). Ou seja,
é necessário haver um planejamento para que o sistema possa
tolerar inconsistências temporárias com o objetivo de priorizar a
disponibilidade.
Agora que falamos brevemente sobre as principais características
nos bancos de dados NoSQL, é importante ressaltar algumas
técnicas utilizadas para a implementação de suas funcionalidades.
Entre elas estão:
• Map/reduce: permite a manipulação de enormes volumes de dados
ao longo de nós em uma rede. Funciona da seguinte forma: na fase
map, os problemas são particionados em pequenos problemas que
são distribuídos em outros nós na rede. Quando chegam à fase
reduce, esses pequenos problemas são resolvidos em cada nó filho e
o resultado é pas-sado para o pai, que sendo ele consequentemente
filho, repassaria para o seu, até chegar à raiz do problema.
• Consistent hashing: suporta mecanismos de armazenamento e
recuperação, onde a quantidade de sites está em constante mudança.
É interessante usar essa técnica, pois ela evita que haja uma grande
migração de dados entre estes sites, que podem ser alocados ou
desalocados para a distribuição dos dados.
• MVCC (Multiversion concurrency control): Oferece suporte a
transações paralelas em banco de dados. Por não fazer uso de locks
para controle de concorrência, faz com que transações de escrita e
leitura sejam feitas simultaneamente.
• Vector clocks: Ordenam eventos que ocorreram em um sistema.
Como existe a possibilidade de várias operações estarem acontecendo
simultaneamente, o uso de um log de operações informando suas
datas se faz importante para informar qual versão de um dado é a
mais atual.

109
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

6.2 TIPOS DE BANCOS DE DADOS NOSQL


• Sistemas baseados em armazenamento chave valor
• Sistemas baseados em grafos
• Sistemas orientados a documentos
• Sistemas orientados a colunas

A seguir, mostramos a descrição dos tipos de bancos de dados NoSQL.

QUADRO 7 — COMPARATIVO ENTRE BANCOS DE DADOS SQL E NOSQL

Tipos de bancos de dados NoQSL

Os bancos de dados colunares são


otimizados para colunas de leitura e
gravação, ao contrário das linhas de dados.
O armazenamento orientado a colunas
para tabelas do banco de dados é um fator
Bancos de dados colunares
importante no desempenho de consulta
analítica, pois ele reduz drasticamente
os requisitos gerais de EIS e diminui a
quantidade de dados que você precisa
carregar do disco.
Os bancos de dados de documentos são
projetados para armazenar dados como
documentos, geralmente em formato JSON
ou XML. Diferentemente dos bancos de dados
relacionais tradicionais, o esquema de cada
Bancos de dados de documentos
documento não relacional (NoSQL) pode
variar, dando a você mais flexibilidade ao
organizar e armazenar dados do aplicativo
e ao reduzir o armazenamento exigido para
valores opcionais.
Os bancos de dados de gráficos armazenam
vértices e links direcionados chamados de
bordas. Gráficos podem ser construídos em
Bancos de dados de gráficos
bancos de dados relacionais (SQL) e não
relacionais (NoSQL). Vértices e bordas podem
ter propriedades associadas a eles.
As solicitações para armazenar e recuperar
dados são comunicadas usando Os armazéns
em memória de chave-valor são bancos de
dados NoSQL otimizados Armazéns em para
cargas de trabalho de aplicativos de leitura
pesada (como redes sociais, memória de jogos,
Armazéns em memória de chave-valor compartilhamento de mídia, e portais de P e
R) ou cargas de trabalho chave-valor com uso
intenso da computação (como um mecanismo de
recomendação). O armazenamento em cache na
memória melhora o desempenho do aplicativo
ao armazenar pedaços críticos de dados na
memória para acesso de baixa latência.

FONTE: <httpslaws.amazon.com/pt/nosql/>. Acesso em: 2 dez. 2019.

110
TÓPICO 4 | ANALISAR E COMPREENDER A UTILIZAÇÃO

NoSQL database exemplos:

• Google bigtable
• Amazon Dynamo
• Facebook Cassandra
• Apache HBASE
• Linkedin Valdemort

111
RESUMO DO TÓPICO 4
Nesse tópico você aprendeu:

• Descrever o que são bancos de dados NoSQL.

• Listar os principais tipos e características dos bancos de dados NoSQL.

• Diferenciar o modelo relacional (SQL) e o NoSQL.

• Que um esquema que representa os tipos de bancos de dados NoSQL e um


exemplo de banco de dados para cada modelo.

• Para aplicar a metodologia do design thinking em um novo produto ou serviço,


é preciso que você conheça as etapas existentes nesse processo. A metodologia
é aplicada com o objetivo de inovar na oferta de novos serviços dentro de uma
empresa, por exemplo. Essas etapas são uma sequência importante, para que
ao final você consiga ter subsídios e obter êxito para desenvolver um produto,
um processo ou um serviço com foco nas necessidades reais do usuário.

• No Infográfico a seguir, você visualizará quais são as etapas do design thinking e


o que está contido em cada uma delas.

112
113
AUTOATIVIDADE

1 De acordo com as características dos bancos de dados NoSQL, pode-se


afirmar que:

a) ( ) A característica ausência de esquema (Schema-fre ou esquema flexível


é outra forma de prover a escalabilidade em bancos de dados NoSQL.
b) ( ) Vector clocks cria um vetor para o armazenamento de dados.
c) ( ) Ausência de esquema garante a integridade dos dados.
d) ( ) Na consistência eventual, o foco não está no armazenamento dos
dados e sim como recuperar estes dados de forma eficiente.
e) ( ) Map/reduce suporta mecanismos de armazenamento e recuperação,
onde a quantidade de sites está em constante mudança.

2 Referente aos tipos de bancos de dados NoSQL. Marque a afirmativa correta.

a) ( ) Bancos de dados orientado a grafos podem ser construídos em ambos


os modelos de bancos de dados, relacionais e NoSQL.
b) ( ) Chave/Valor são projetados para armazenar dados como documentos.
c) ( ) Banco de dados orientado a documentos armazenam vértices e links
direcionados chamados de bordas.
d) ( ) Bancos de dados colunares são projetados para armazenar dados
como documentos.
e) ( ) O banco de dados orientado a documentos armazena pedaços críticos
de dados na memória para acesso de baixa latência.

3 Existem muitos bancos de dados para se trabalhar com NoSQL, cada banco
está associado a um determinado tipo do NoSQL. Marque a alternativa em
que todos os bancos de dados estão associados ao seu respectivo tipo.

a) ( ) Baseado em chave-valor: MongoDB, CouchDB, BigCouch, RavenDB.


b) ( ) Baseado em coluna: Amazon SimpleDB, Cloudata, Cloudera,SciDB,
HPCC e Stratosphere.
c) ( ) Baseado em grafos: cassandra e hypertable.
d) ( ) Baseado em documentos: Dynamo, Azure Table Storagee e Couchbase
Server.
e) ( ) Baseado em chave-valor: Neo4J e Infinite Graph.

4 Com relação a bancos de dados NoSQL, marque a afirmativa correta.

114
a) ( ) As empresas que optam pelo uso de NoSQL devem eliminar o trabalho
com outros modelos de bancos de dados.
b) ( ) O Modelo NoSQL é um tipo de gerenciador de banco de dados que
conecta os registros em forma de árvore e cada tipo de registro tem
apenas uma raiz.
c) ( ) NoSQL (não somente SQL), refere-se à solução de banco de dados
que possibilita o armazenamento de uma grande variedade de dados
existentes, não se limitando apenas a modelos relacionais.
d) ( ) Os banco de dados NoSQL têm como característica a organização dos
dados em tabelas.
e) ( ) Veio para substituir os bancos de dados relacionais.

5 Marque a alternativa correta referente a bancos de dados NoSQL.

a) ( ) O modelo NoSQL normaliza dados em estruturas tabulares.


b) ( ) Sistemas de gerenciamento de bancos de dados NoSQL são compatíveis
com um conjunto de propriedades definido pela sigla ACID.
c) ( ) Bancos de dados NoSQL são mais fáceis de aumentar a escala
"verticalmente" com hardware mais rápido.
d) ( ) Bancos de dados não relacionais (NoSQL) normalmente não aplicam
um schema.
e) ( ) Em bancos de dados NoSQL as solicitações para armazenar e recuperar
dados são comunicadas usando consultas compatíveis com structured
query language (SQL).

115
116
UNIDADE 2
TÓPICO 5

INOVAÇÃO E DESIGN THINKING

1 INTRODUÇÃO
O processo Design Thinking é interativo, flexível e focado na colaboração
entre designers e usuários, com ênfase em trazer ideias para a vida com base em
como os usuários reais pensam, sentem e se comportam. O Design Thinking aborda
problemas complexos ao compreender as necessidades humanas envolvidas,
definindo o problema de formas centradas no ser humano, criando muitas ideias
na sessão de ideação, adotando uma abordagem prática de prototipagem e
desenvolvendo um protótipo/solução para o problema.

Neste tópico, conheceremos a definição de inovação e Design Thinking,


reconheceremos a inovação como o processo central de negócios e também
entenderemos como o Design thinking pode ser utilizado para inovar.

2 INOVAÇÃO E DESIGN THINKING


A inovação é um processo de melhoria de um serviço de produto a partir
do seu estado atual. Já a partir dessa definição, podemos ver que a inovação não
está limitada ao tamanho do negócio ou ao empreendimento comercial com o
qual se está lidando, mas está aberta para todos os negócios. A inovação agrega
valor aos serviços ou bens que uma empresa fornece e, portanto, você deve
procurar ser inovador em seus negócios. Veremos, a seguir, alguns motivos que
demonstram como a inovação é importante (GARZIA, 2013).

• Resolvendo problemas: a maioria das ideias é derivada de tentativas de


resolver problemas existentes. Assim, quando você incentiva a inovação, está
abrindo portas para soluções para problemas dentro e fora de sua empresa.
• Adaptação à mudança: isso é especialmente evidente no mundo tecnológico,
no qual há mudanças rápidas na definição do negócio. A mudança é inevitável
e a inovação é o método para não apenas manter seu negócio funcionando,
mas, também, para garantir que ele permaneça relevante e lucrativo.
• Maximizando a globalização: com os mercados em todo o mundo tornando-
se mais interligados, maiores oportunidades estão surgindo nesses novos
mercados e, com isso, novas necessidades e desafios.
• Enfrentando a concorrência: o mundo corporativo é sempre muito competitivo,
e, com muitas novas empresas surgindo, a posição de topo na indústria não
é mais uma reserva de poucos. Para manter ou estabelecer a ponta da sua
empresa, você pode competir estrategicamente por ter um negócio dinâmico
que é capaz de fazer movimentos estratégicos e inovadores.
117
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

• Evolução da dinâmica do local de trabalho: os dados demográficos no local


de trabalho estão em constante mudança. Com a nova geração que entrou no
mercado, novas tendências também estão surgindo. A inovação é, portanto,
fundamental para garantir o bom funcionamento da empresa.
• Os gostos e preferências dos clientes em constante mudança: o cliente atual tem
uma grande variedade de produtos e serviços disponíveis para ele e está mais bem
informado sobre suas escolhas que antes. A empresa deve, portanto, manter-se a
par desses gostos em evolução e criar novas formas de satisfazer o cliente.

Podemos dividir um processo de inovação nas seguintes cinco etapas:

• Etapa 1 — geração de ideia: esse é o primeiro passo em um processo de


inovação. É a partir dele que você decide o conceito que quer desenvolver e
apresenta razões pelas quais deseja melhorar a ideia. É importante que você
envolva seus funcionários e clientes, já que o envolvimento de muitas pessoas
capacitadas permitirá que você compreenda melhor o mercado.
• Etapa 2 — triagem: nem todas as ideias geradas merecem ser implementadas;
por esse motivo, você deve filtrar todas as ideias apresentadas. Ao fazer o
rastreamento, assegure-se de medir os benefícios e riscos de cada ideia para
determinar sua viabilidade.
• Etapa 3 — experimentação: nessa fase, a ideia é testada a partir de um teste
piloto, que ocorre dentro de um mercado-alvo. Ao testar seu produto, lembre-
se de que você quer saber se os clientes o aceitarão, se o preço é aceitável e se
gostam da inovação. O objetivo é testar se a ideia é ideal e adequada para a
empresa em um determinado momento.
• Etapa 4 — comercialização: quando chegar a esse estágio, saiba que o produto
está pronto para o mercado. O principal trabalho nesse estágio é persuadir seu
público-alvo de que a inovação é boa para eles.
• Etapa 5 — difusão e implementação: difusão é quando a empresa aceita a
inovação; implementação configura tudo o que é necessário para desenvolver
e utilizar ou produzir a ideia inovadora.

Atualmente, não podemos falar em inovação sem também destacar


uma metodologia chamada Design Thinking, que é uma metodologia de design
que fornece uma abordagem baseada em solução para resolver problemas. É
extremamente útil para lidar com problemas complexos que são mal definidos
ou desconhecidos, compreendendo as necessidades humanas envolvidas,
reenquadrando o problema de formas centradas no ser humano, criando muitas
ideias em sessões de brainstorming e adotando uma abordagem prática com
prototipagem e testes. Entender os cinco estágios do Design Thinking capacitará
qualquer pessoa a aplicar os métodos dessa metodologia para resolver problemas
complexos que ocorrem ao nosso redor — em nossas empresas, em nossos países
e até mesmo na escala de nosso planeta (CUREDALE, 2018).

Vamos nos concentrar no modelo de Design Thinking de cinco estágios


proposto pelo Instituto Hasso-Plattner de Design em Stanford (d.school), que são
os seguintes:

118
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

1- empatia;
2- definição;
3- idealização;
4- protótipos;
5- testes.

A primeira etapa do processo de Design Thinking é obter uma compreensão


empática do problema que se está tentando resolver. Isso envolve a consulta de
especialistas para descobrir mais sobre a área de interesse por meio de observação,
engajamento e empatia com as pessoas para entender suas experiências e
motivações, além de mergulhar no ambiente físico para ter uma compreensão
pessoal mais profunda das questões envolvidas. A empatia é crucial para um
processo de design centrado no ser humano, como o Design Thinking, e permite
que os pensadores de design deixem de lado suas próprias suposições sobre o
mundo a fim de obter insights sobre os usuários e suas necessidades.

Dependendo das restrições de tempo, uma quantidade substancial de


informações é reunida nesse estágio para uso durante a próxima etapa e para
desenvolver a melhor compreensão possível dos usuários, suas necessidades e os
problemas subjacentes ao desenvolvimento desse produto em particular.

Durante o estágio de definição, são reunidas as informações que foram


criadas e reunidas no estágio de empatia. As observações são analisadas e
sintetizadas para a definição dos principais problemas que foram identificados
até o momento. É preciso procurar definir o problema como uma declaração de
problema de uma maneira centrada no ser humano (CUREDALE, 2018).

Para ilustrar, em vez de definir o problema como seu próprio desejo


ou uma necessidade da empresa, como “precisamos aumentar em 5% nossa
participação no mercado de alimentos entre jovens adolescentes”, uma maneira
muito melhor de definir o problema pode ser: “adolescentes precisam comer
alimentos nutritivos para prosperar, ser saudáveis e crescer”.

O estágio de definição ajudará os designers em sua equipe a reunirem


grandes ideias para estabelecer recursos, funções e quaisquer outros elementos
que lhes permitam resolver os problemas ou, no mínimo, que permitam que os
usuários resolvam os problemas com o mínimo de dificuldade. No estágio de
definição, você começará a progredir para o terceiro estágio, idealizar, fazendo
perguntas que podem ajudá-lo a procurar ideias para soluções, perguntando:
“Como podemos… incentivar as adolescentes a realizar uma ação que as beneficie
e que também envolva sua produto alimentício ou serviço da empresa?”.

Durante o terceiro estágio do processo de Design Thinking, os designers


estão prontos para começar a gerar ideias. Depos de entender os usuários e suas
necessidades no estágio empatia e analisar e sintetizar as observações no estágio
definição, o resultado é uma declaração de problema centrada no ser humano. Com
esse histórico sólido, é possível começar a “pensar fora da caixa” para identificar

119
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

novas soluções para a declaração de problema criado e começar a procurar formas


alternativas de visualizá-lo. Para isso, existem centenas de técnicas de ideação,
como Brainstorm, Brainwrite, Worst Possible Idea e SCAMPER. Brainstorm e Worst
Possible Idea são tipicamente usados para estimular o pensamento livre e expandir
o espaço do problema. É importante ter tantas ideias ou soluções de problemas
quanto possível no início da fase de ideação.

Deve-se escolher outras técnicas de ideação até o final dessa fase que ajudem
a investigar e testar as ideias, de modo que se possa encontrar a melhor maneira de
resolver um problema ou fornecer os elementos necessários para contorná-lo.

A equipe de projeto, então, produzirá várias versões de baixo custo


e reduzidas do produto ou recursos específicos encontrados no mesmo para
que possa investigar as soluções de problemas geradas no estágio anterior. Os
protótipos podem ser compartilhados e testados dentro da própria equipe, em
outros departamentos ou em um pequeno grupo de pessoas fora da equipe de
design. Essa é uma fase experimental, e o objetivo é identificar a melhor solução
possível para cada um dos problemas identificados durante os três primeiros
estágios. As soluções são implementadas nos protótipos e, uma a uma, são
investigadas e aceitas, melhoradas e reexaminadas ou rejeitadas com base nas
experiências dos usuários. No final dessa etapa, a equipe de design terá uma
ideia melhor das restrições inerentes ao produto e dos problemas presentes e terá
uma visão mais clara de como os usuários reais se comportariam, pensariam e
sentiriam ao interagir com o produto (CUREDALE, 2018).

Designers ou avaliadores testam com rigor o produto completo usando as


melhores soluções identificadas durante a fase de prototipagem. Esse é o estágio
final do modelo de cinco estágios, mas, em um processo iterativo, os resultados
gerados durante a fase de testes são frequentemente usados para redefinir um
ou mais problemas e informar a compreensão dos usuários, as condições de
uso, como as pessoas pensam, comportam-se, sentem e têm empatia. Mesmo
durante essa fase, alterações e refinamentos são feitos a fim de descartar soluções
problemáticas e obter uma compreensão mais profunda do produto e de seus
usuários quanto possível.

3 INOVAÇÃO COMO PROCESSO CENTRAL NOS NEGÓCIOS


A inovação pode ser simplesmente definida como uma nova ideia,
pensamentos criativos, novas imaginações em forma de dispositivo ou método.
No entanto, muitas vezes, a inovação também é vista como a aplicação de
melhores soluções que atendem a novos requisitos, necessidades não articuladas
ou necessidades de mercado existentes. Essa inovação ocorre por meio do
fornecimento de produtos, processos, serviços, tecnologias ou modelos de
negócios mais eficazes que são disponibilizados aos mercados, governos e
sociedade (GOULD, 2018).

120
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

O termo “inovação” pode ser definido como algo original e mais efetivo e,
consequentemente, novo, que “invade” o mercado ou a sociedade. As inovações
tendem a ser produzidas por pessoas de fora e por fundadores em startups, em
vez de organizações existentes. A inovação está relacionada, mas não é o mesmo
que invenção, já que a inovação está mais apta a envolver a implementação
prática de uma invenção para causar um impacto significativo no mercado ou na
sociedade, e nem todas as inovações requerem uma invenção. A inovação, muitas
vezes, manifesta-se por meio do processo de engenharia, quando o problema a
ser resolvido é de natureza técnica ou científica (BROWN, 2018).

A inovação nos negócios se dá quando uma organização introduz


novos processos, serviços ou produtos para afetar mudanças positivas em seus
negócios. Isso pode incluir melhorar métodos ou práticas existentes ou começar
do zero. Em última análise, o objetivo é revigorar um negócio, criando novo valor
e impulsionando o crescimento e/ou a produtividade.

A inovação nos negócios é importante por um motivo simples: o valor.


Para que seu negócio prospere, é crucial inovar e melhorar continuamente. Uma
inovação de negócios bem-sucedida significa encontrar novas oportunidades de
receita, otimizar os canais existentes e, em última análise, gerar lucros maiores.
Deve, também, dar às empresas uma vantagem sobre seus concorrentes.

Há mais de uma maneira de inovar. Organizações de diferentes idades e


tamanhos terão diferentes razões para embarcar em um processo de inovação nos
negócios. Para alguns, pode ser um caso de reavaliar as maneiras pelas quais o
negócio gera receita, para outros, pode ser necessário mudar completamente para
um setor diferente — ou mesmo criar um novo! Antes de embarcar em qualquer
ciclo de inovação, é importante que as organizações compreendam os diferentes
modelos de inovação de negócios disponíveis.

• Inovação do modelo de receita: se o aumento dos lucros é o principal


impulsionador da inovação nos negócios, muitas organizações podem optar
por alterar seu modelo de receita como um primeiro porto de escala. Isso pode
envolver reavaliar os produtos ou serviços oferecidos ou analisar novamente a
estratégia de preços da empresa. A inovação não precisa ser radical: às vezes,
mudar apenas um pequeno elemento pode produzir resultados significativos.
• Inovação do modelo de negócios: esse modelo de inovação nos negócios
exige que as organizações identifiquem quais de seus processos, produtos ou
serviços poderiam ser aprimorados para aumentar a lucratividade da empresa.
Nesse caso, a inovação poderia referir-se a formar novas parcerias, terceirizar
tarefas específicas ou implementar novas tecnologias.
• Inovação do modelo industrial: indiscutivelmente, é o modelo mais radical
de inovação empresarial; organizações ambiciosas podem optar por mudar
completamente a indústria para fins de inovação ou mesmo criar uma indústria
totalmente nova para si.

121
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Independentemente do modelo adotado, o importante é que ele produza


valor ao negócio final, podendo agregar melhorias em produtos ou serviços nos
quais o maior beneficiado é o cliente e o negócio em si.

4 INOVANDO COM DESIGN THINKING


Design Thinking pode ser aplicado aos negócios para resolver problemas
que ocorrem no mundo corporativo ou criar novas soluções aos clientes. Embora o
Design Thinking tenha suas etapas bem definidas, é importante notar que os cinco
estágios não são sempre sequenciais — eles não precisam seguir nenhuma ordem
específica e podem ocorrer paralelamente e ser repetidos iterativamente. Como
tal, os estágios devem ser entendidos como modos diferentes que contribuem
para um projeto, em vez de etapas sequenciais. No entanto, a coisa surpreendente
sobre o modelo de Design Thinking de cinco estágios é que ele sistematiza e
identifica os cinco estágios/modos que se esperaria realizar em um projeto de
design — e em qualquer projeto inovador de solução de problemas. Todo projeto
envolverá atividades específicas para o produto em desenvolvimento, mas a ideia
central por trás de cada estágio permanece a mesma (GOULD, 2018).

O Design Thinking não deve ser visto como uma abordagem concreta e
inflexível ao design; os estágios dos componentes identificados servem como um
guia para as atividades que se executaria normalmente. A fim de obter os insights
mais puros e mais informativos para um projeto em particular, esses estágios
podem ser alternados, conduzidos simultaneamente e repetidos várias vezes para
expandir o espaço da solução e se concentrar nas melhores soluções possíveis.

Um dos principais benefícios do modelo de cinco estágios é a maneira


pela qual o conhecimento adquirido nos estágios posteriores pode retornar aos
estágios anteriores. As informações são usadas continuamente para informar
a compreensão do problema e dos espaços de solução e para redefinir o(s)
problema(s). Isso cria um ciclo perpétuo, no qual os projetistas continuam a obter
novos insights, desenvolver novas formas de visualizar o produto e seus possíveis
usos e desenvolver uma compreensão muito mais profunda dos usuários e dos
problemas que enfrentam.

Todas as empresas têm uma lista interminável de objetivos, como o


lançamento constante de novos produtos que aumentam as vendas, ressonando
com os clientes e proporcionando melhor suporte ao cliente.

Quando uma empresa decide sobre um novo produto, uma máquina


grande e cara entra em alta velocidade, especialmente em grandes corporações —
os custos são enormes. A aplicação do Design Thinking pode ajudar a economizar
imensas quantias de dinheiro imediatamente, pois direciona a atenção para
as soluções específicas de que as pessoas precisam — economias de custo
imediatas são percebidas como parte do ROI (Return On Investment, ou retorno
do investimento) do Design Thinking.

122
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

Um dos principais problemas de grandes organizações é o alto custo


de projetos e as falhas de muitos desses projetos. Dentre as principais razões
pelas quais os projetos falham, três estão relacionadas a falhas de projeto
centradas no usuário:

• requisitos mal definidos;


• má comunicação entre clientes e desenvolvedores;
• política das partes interessadas.

O Design Thinking fornece uma maneira simples de descobrir exatamente


quais são os problemas — muitas vezes, descobrindo uma maneira diferente
de pensar sobre eles — ao mesmo tempo que fornece insights e dados que são
essenciais para criar soluções apropriadas que geram dinheiro para os negócios.
Embora cada empresa seja diferente, o primeiro passo para entender como
o Design Thinking pode ajudar uma empresa é considerar os desafios que ela
enfrenta atualmente.

Para isso, podemos fazer alguns questionamentos sobre os problemas nas


empresas:

• Quais são os problemas e existem soluções já disponíveis que correspondem às


necessidades e ao orçamento de uma empresa?
• Se não, por quê?
• Quais são as coisas que proíbem essas soluções e de onde vêm esses
bloqueadores?

O Design Thinking divide questões complexas em tangíveis, que podem


ser analisadas e resolvidas. Por esse motivo, é um grande aliado do mundo
corporativo. Uma das primeiras perguntas que as pessoas fazem quando ouvem
falar de Design Thinking é: “O que é o Design Thinking mais bem usado?” O Design
Thinking é adequado para lidar com uma ampla gama de desafios e é melhor
usado para trazer inovação dentro dos seguintes contextos (MOOTEE, 2013):

• redefinindo valor;
• inovação centrada no homem;
• qualidade de vida;
• problemas que afetam diversos grupos de pessoas;
• múltiplos sistemas;
• mudança de mercados e comportamentos;
• lidando com mudanças sociais ou de mercado rápidas;
• questões relacionadas à cultura corporativa;
• questões relacionadas à nova tecnologia;
• reinventando modelos de negócios;
• abordando mudanças rápidas na sociedade;
• desafios societários complexos não resolvidos;
• cenários envolvendo equipes multidisciplinares;
• iniciativas empreendedoras;
• avanços educacionais;

123
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

• avanços médicos;
• a inspiração é necessária;
• problemas que os dados não podem resolver.

Os desafios que organizações e países enfrentam hoje são muito mais


complexos e complicados do que os que enfrentamos algumas décadas atrás. Parte
da razão para tal é a globalização, que reuniu diferentes agentes em todo o mundo
em uma rede interconectada de sistemas que afetam uns aos outros. Para resolver
esses problemas novos e complexos, o Design Thinking entra em cena com uma
abordagem centrada no ser humano, não linear, ousada e recém-sistematizada.

O Design Thinking nos permite adotar uma perspectiva centrada no ser


humano na criação de soluções inovadoras, ao mesmo tempo que integra lógica
e pesquisa. Para abraçar o Design Thinking e a inovação, precisamos garantir que
temos as mentalidades certas, equipes de colaboração e ambientes favoráveis.
Quando alinhamos nossas mentalidades, habilidades e ambientes, somos capazes
de criar inovações que nos permitem sobreviver às interrupções que poderemos
enfrentar no futuro próximo. Tenha em mente um profundo desejo de criar uma
situação melhor para o mundo ao nosso redor (BROWN, 2018).

5 DESIGN THINKING
O termo Design Thinking é utilizado nos mais diferentes cenários, desde
áreas de gestão da saúde até setores de desenvolvimento de novos produtos nas
indústrias. No entanto, o conceito ainda é muito questionado, principalmente em
relação a como ele pode ser aplicado aos modelos de negócios, auxiliando nos
processos de inovação das empresas e instituições.

Atualmente, com a grande oferta de produtos e serviços no mercado, é preciso


que as empresas inovem no que apresentam ao consumidor, seja por meio de um
novo produto ou facilitando a usabilidade de um existente. Com isso, as empresas
precisam pensar em soluções, focando na melhoria da experiência do usuário.

Neste tópico, aprenderemos sobre os conceitos de Design Thinking, as etapas


e ferramentas dessa metodologia e os exemplos de onde é possível aplicá-la.

6 O QUE É DESIGN THINKING?


Você já deve ter observado que as empresas atualmente buscam cada
vez mais satisfazer o seu cliente, apresentando novos produtos e serviços que
mantenham esse usuário fi delizado à sua marca. Existe uma preocupação por
parte das marcas em oferecer uma experiência positiva para o usuário com o seu
produto e, assim, manter o consumidor.

124
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

Com a evolução nos canais de comunicação das marcas com o usuário,


essa experiência de utilizar um produto ou serviço é cada vez mais valorizada
e apresentada pelo consumidor (como postar vídeos em redes sociais) para
outros possíveis consumidores. Por essa razão, existe uma demanda das marcas
pelo desenvolvimento de produtos e serviços que propiciem experiências de
usabilidade positivas aos usuários.

Para que isso aconteça, é necessário que essas empresas busquem


metodologias que estudem e entendam as necessidades reais do usuário. Além
disso, a análise dessas necessidades deve possibilitar o desenvolvimento criativo
de produtos e serviços.

Nesse ponto, de acordo com Tim Brown (2008), o design thinking se


apresenta como uma maneira de pensar baseada nos conceitos do design,
juntamente com uma metodologia centrada no usuário para resolver problemas
complexos. Neste tópico, tomaremos como definição a ideia de Tim Brown et al.
(2017) de que o design thinking é um método com o objetivo de gerar novas ideias,
buscando resolver as necessidades reais do usuário.

Conceitualmente, o pensamento do design que se baseava em analisar


as necessidades do usuário, para a partir dessa demanda desenvolver um novo
produto ou serviço, já era trabalhado em 1919, na escola alemã Bauhaus. Nessa
escola, estudava-se a questão ligada à forma (estética) e à função dos produtos
que eram desenvolvidos.

E
IMPORTANT

A escola Bauhaus foi fundada em 1919, por Walter Gropius, na Alemanha. Uma
das grandes contribuições para o desenvolvimento do design no século XX está nesta
máxima: a forma segue a função.

Contudo, após o período entre as Guerras Mundiais (1918–1945), a escola


foi fechada. A principal consequência desse fechamento foi a interrupção desse
pensamento no meio acadêmico. Ainda que não se falasse em design thinking,
naquele momento a metodologia já se desenvolvia.

Somente em 1992, o termo "design thinking" voltou a ser debatido em


grande escala, com a publicação de um artigo intitulado “Wicked Problems in
Design Thinking”, escrito por Richard Buchanan (1992), publicado pelo MIT
(Instituto de Tecnologia de Massachusetts). Esse artigo é considerado uma das
bases teóricas para o pensamento do design thinking no meio acadêmico, em

125
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

função de ser o pioneiro. O artigo aborda como o design está inserido em todas as
áreas da sociedade, bem como a questão de observar a interação do usuário com
os produtos, para identificar as demandas existentes e onde é possível inovar.

O autor trabalha com a perspectiva de que o design é uma ferramenta


capaz de ser trabalhada em diversas áreas do conhecimento. Logo, o indivíduo
não precisa ser um designer para utilizar essa metodologia, pois ela é baseada em
algo inato a qualquer ser humano: a necessidade de resolver problemas.

Por essa razão, costuma-se dizer que o design thinking é uma metodologia
que vem do design, uma vez que ela utiliza o pensamento dessa área para a solução
de problemas. Contudo, o termo design thinking começou a ser popularizado no
mundo — e principalmente na área de desenvolvimento de produtos e serviços —
por David Kelley, um professor da Universidade de Stanford (Estados Unidos), e
o seu colega Tim Brown.

Eles fundaram, em 1991, uma empresa chamada IDEO, que utilizava


o pensamento do design thinking para resolver projetos. Essa empresa realizou
consultoria para grandes marcas, como a Apple, e é considerada responsável por
explicar e popularizar o conceito não apenas como mais uma ferramenta, mas como
uma metodologia capaz de agregar propósito ao desenvolvimento de serviços e
produtos. Atualmente, a IDEO trabalha com projetos de design voltados para o
usuário, com equipes multidisciplinares compostas por designers, empresários,
engenheiros, professores, pesquisadores, entre outros.

DICAS

Você pode conhecer um pouco mais sobre a história da IDEO no site da


empresa, disponível no link a seguir.

https://goo.gl/isWAln

A metodologia do design thinking tem como característica ser colaborativa,


experimental, centrada nas pessoas e apresentar soluções de maneira criativa. O
pensamento do design thinking está baseado na busca por solucionar problemas
de diversas ordens de complexidade. Contudo, você deve lembrar que o design
thinking não busca desenvolver novos produtos ou serviços, mas sim resolver
os problemas com foco nas demandas das pessoas, isto é, nas necessidades do
usuário. Em função disso, o design thinking se propõe a criar soluções juntamente
ao usuário. Isso significa que, nas etapas de desenvolvimento, esse usuário estará
presente como um sujeito ativo.

126
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

As equipes formadas para solucionar essas demandas devem priorizar a


diversidade de profissionais. A partir dessa diversidade de áreas do conhecimento,
busca-se estudar como aplicar essa metodologia em situações práticas. Ela pode
ser aplicada em áreas como administração, saúde, marketing e engenharia, que
desejam resolver problemas de maneira criativa, seja melhorando um processo
interno (fluxo de tarefa) ou até mesmo criando um produto que atenda às
necessidades do usuário em determinado contexto.

O design thinking traz também a perspectiva estratégica dos negócios para


efetivar as ideias. Assim, o sucesso e a adesão a essa metodologia ocorrem, entre
outros fatores, por se tratar de uma junção entre o pensamento corporativo e o
pensamento criativo, gerando uma proposta de valor para o que será desenvolvido.
O pensamento corporativo se refere a analisar oportunidades em mercados e
pensar na proposta de valor do produto e no seu potencial mercadológico para
inovar. O pensamento criativo, por sua vez, aproxima-se mais de questões ligadas
à observação da relação do usuário com o produto, ou seja, como melhorar e
inovar a experiência desse usuário.

O resultado da soma desses pensamentos é justamente uma maneira


de solucionar problemas complexos centrando-se nas necessidades do
usuário. Os problemas se apresentam em diferentes níveis e exigem respostas
inovadoras das empresas. Essas respostas são desenvolvidas enquanto se
realizam as etapas da metodologia.

Precisamos enfatizar que, para que o design thinking ocorra de maneira


eficaz dentro de uma empresa, deve haver um pensamento coletivo e colaborativo
para inovar nos processos de todos os envolvidos. Logo, para que se obtenha
êxito, é preciso que se estimule cada vez mais a empresa ou instituição a tomar
medidas que propiciem a inovação e a criatividade no ambiente laboral. Além
disso, as partes envolvidas, como colaboradores e gerentes do projeto, também
devem estar dispostas a implementar um pensamento criativo durante as etapas.
Para isso, são utilizadas diversas ferramentas, que auxiliarão no pensamento
criativo para o desenvolvimento das etapas.

7 FASES DO DESIGN THINKING


Agora que você já estudou sobre o conceito de design thinking, vai
aprender sobre as fases que compõem essa metodologia. As fases ou etapas do
design thinking servem para estruturar de maneira organizada a sequência lógica
de como será aplicada a metodologia.

Imagine que essas etapas são como uma receita de bolo: você precisa seguir
os passos que estão na sua receita, para que no fim você tenha o seu bolo. Cada
uma das etapas se refere a um momento da sua pesquisa e, consequentemente,
exige diferentes habilidades de quem está aplicando a metodologia. As etapas
estão organizadas sequencialmente e estão relacionadas entre elas. Contudo,
para iniciar uma nova etapa, é fundamental que você tenha finalizado a anterior.
127
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Vale ressaltar que o número de etapas poderá variar, de acordo com


o autor utilizado como base, porque alguns autores aglutinam algumas
etapas de acordo com a sua demanda. Neste tópico, usamos como referência
a organização feita por Tim Brown et al. (2017), que divide a metodologia em
cinco etapas, como na Figura 13.

FIGURA 13 – ORGANIZAÇÃO SEQUENCIAL DAS ETAPAS DO DESIGN THINKING

FONTE: Adaptada de Brown et al. (2017)

As etapas servem como marcadores das atividades realizadas e permitem


visualizar o que ainda está pendente. Se você estiver trabalhando em um grande
projeto, essas fases podem ajudar, por exemplo, a localizar e comunicar aos
colaboradores da equipe os avanços do projeto.

E
IMPORTANT

O design thinking é uma metodologia utilizada por muitas áreas, e alguns


autores podem apresentar três etapas, em vez de cinco. Isso não significa que o modelo
está incorreto ou incompleto, mas que as informações estão aglutinadas em uma mesma
etapa, de forma que esse processo seja apresentado da maneira mais clara possível para
todos os envolvidos.

É importante que você saiba que, apesar de esse processo apresentar uma
estrutura sequencial, isso não significa que você e a sua equipe não poderão voltar
a uma etapa anterior para revisá-la sempre que for necessário.

A informação tende a diminuir ao longo do processo, já que a ideia é ir


diminuindo e selecionando as melhores ideias para a solução final, que contemple
as necessidades dos usuários. As fases e as suas características são descritas a seguir.

128
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

7.1 EMPATIA
É quando inicia o processo, isto é, a etapa de levantamento de dados. Nesse
momento, você deve buscar reunir o maior número de informações sobre o produto
ou serviço que está desenvolvendo. Buscar os usuários do produto ou serviço é
fundamental, assim como questionar os pontos fracos do produto e analisar como
esse usuário interage com ele. Por exemplo, se for uma embalagem de sabão para
roupas, você pode verificar desde como esse produto está apresentado no seu local
de venda (expositores) até a maneira como o consumidor o condiciona em sua
residência (se guarda dentro de armários ou deixa exposto, por exemplo).

Toda essa parte observacional servirá para que você tenha subsídios
para gerar novas ideias. Essa é a fase na qual você vai perceber o que falta no
produto ou serviço analisado, por meio das necessidades do usuário — que nem
sempre são ditas por ele. Ferramentas interessantes para a fase de empatia são
questionários sobre a usabilidade do produto ou mapas de atores (consiste em
organizar graficamente as relações existentes entre os usuários de um serviço).
Dependendo do público com o qual você está trabalhando, o storytelling serve
como uma opção para que as pessoas consigam construir narrativas de problemas
por meio do discurso.

7.2 DEFINIÇÃO
Após ter realizado o levantamento de dados, é preciso trabalhar com
esses dados, ou seja, interpretá-los com o objetivo de definir o problema que
será solucionado ao final. É importante delimitar esse problema, de forma a não
desenvolver um projeto que não atenda às questões levantadas na fase anterior.
Algumas ferramentas que podem ser utilizadas para definir o problema de pesquisa
são os mapas conceituais, com o objetivo de apresentar aos envolvidos uma visão
geral da problemática. Para essa ferramenta, é interessante realizar um trabalho
coletivo, no qual todos os colaboradores possam expressar a sua visão. Ao final,
todos conseguem enxergar o problema a partir de uma perspectiva coletiva.

7.3 IDEAÇÃO
Depois de definida a problemática a ser solucionada, é o momento de
começar a buscar soluções. A etapa de ideação — ou de idear — é o momento
em que a equipe se reúne para, de maneira coletiva, apresentar ideias. Nesse
momento, todos da equipe devem gerar muitas ideias com o objetivo de solucionar
o problema. Quanto maior for a quantidade de ideias apresentadas, maiores as
possibilidades de inovação no que está sendo desenvolvido.

129
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

No entanto, essa etapa costuma apresentar algumas dificuldades, pois


algumas pessoas da equipe se sentem desconfortáveis e inseguras ao apresentar
as suas ideias, com receio de que não sejam boas. É preciso desmistificar isso
para os colaboradores e explicar que não existem ideias ruins em um processo
criativo. A solução para um problema geralmente é o produto de várias ideias
trabalhadas, que geram o resultado da problemática.

Uma ferramenta útil nessa fase é o brainstorming (ou tempestade de ideias).


A equipe pode organizar, por exemplo, um quadro com post-its para que sejam
colocadas as ideias. É importante que sejam respostas curtas, e que essa atividade
ocorra de forma dinâmica. Após apresentar a problemática, é interessante pedir para
que cada membro apresente um mínimo de dez ideias para resolver esse problema.

Outra ferramenta válida para auxiliar o processo criativo é a thinkpak.


Trata-se de uma ferramenta para realizar o brainstorming apresentada por
Michalko (2006): cartas propõem questões para os colaboradores da equipe, com
o objetivo de que pensem de maneira diferente daquela a que estão habituados.
Durante a etapa de ideação, essas ferramentas são aliadas a fim de melhorar o
processo criativo da equipe e gerar as ideias.

7.4 PROTOTIPAÇÃO
Essa é a etapa em que se começa a dar forma à solução esperada. Após
analisar as ideias apresentadas na etapa anterior, inicia-se o processo de selecionar
as ideias que são viáveis de serem aplicadas a essa problemática.

Aqui consideram-se fatores tecnológicos, econômicos, entre outros que


podem inviabilizar o desenvolvimento da ideia. A equipe pode ter pensado como
solução um tecido tecnológico que mantenha a pele resfriada, por exemplo, mas
se a empresa não dispõe de recursos ou não tem interesse em investir nesse tipo
de tecnologia, a solução torna-se inviável.

A prototipação é o momento de materializar as ideias. No caso do


desenvolvimento de novos produtos, é interessante fazer maquetes e protótipos
3D — tudo vai depender da disponibilidade da empresa para investir em
maquetes. Essas maquetes podem ser desde simulações feitas pelo computador
até protótipos ou modelos funcionais em escala 1:1. É importante considerar que,
quanto mais próximo da realidade o protótipo, maiores são as chances de ajustar
possíveis problemas antes de iniciar a produção.

7.5 TESTE
Essa é a última etapa, mas ela não deve ser esquecida ou diminuída pela
equipe. Após ter desenvolvido o protótipo do produto, o teste é o momento no qual
é verificada a usabilidade desse produto. É nessa etapa que é possível observar a
relação do usuário com esse produto — se a solução encontrada resolve de fato a
problemática inicial do processo.
130
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

Nesse momento, apesar de constituir a validação da solução, também


ocorrem ajustes, se necessário, antes de apresentar o resultado. É interessante
nessa etapa ter como ferramenta questionários que identifiquem as problemáticas
apresentadas no início do projeto. Outras ferramentas interessantes de serem
aplicadas são as utilizadas na administração e no marketing, como a matriz FOFA
(forças, oportunidades, fraquezas e ameaças) ou ainda um estudo de tendências.
No caso de um novo produto ou serviço que foi desenvolvido, essas ferramentas
ajudam a validar esse produto em relação ao mercado.

Essas etapas representam a construção da solução dentro do design


thinking. É importante que você lembre que o usuário está presente durante essas
cinco etapas, a fim de garantir que as suas demandas foram atendidas.

Outro ponto é o processo criativo empregado nessa metodologia. Para


realizar um projeto desse modo em uma empresa, é necessário trabalhar o
mindset (mentalidade) dos envolvidos. É preciso que haja um envolvimento por
parte de todos os envolvidos para o êxito de projetos que tenham como foco as
necessidades do design.

8 ONDE ESTÁ O DESIGN THINKING?


Como você viu ao longo deste tópico, por meio da sua metodologia, o
design thinking pode desenvolver produtos e serviços com o diferencial de atender
às necessidades reais do usuário. Isso é relevante porque muitas empresas ainda
elaboram os seus produtos sem realizar essa reflexão. Sem conversar com o
usuário, deixam de buscar compreender o que ele precisa ou busca. Atualmente,
essa mentalidade já está defasada, pois os nichos de mercado estão cada vez mais
estruturados e exigem produtos e serviços personalizados as suas demandas.

Contudo, com a evolução dos mercados e o acesso à tecnologia e a canais


de compra, cada vez mais o usuário tem opções que de fato atendam às suas
necessidades. Isso pressiona as empresas a buscar desenvolver produtos e
serviços que entendam o que o consumidor está buscando. Em mercados que
têm uma maior oferta de produtos e serviços, a competitividade se torna maior.
Por isso, a metodologia do design thinking tem se tornado tão importante dentro
das empresas que buscam inovar.

A partir dessa competitividade, uma perspectiva da gestão apresentada


por Best (2012) apresenta, na gestão do design, que é necessário as empresas
compreenderem não apenas os mercados, mas também os usuários, com o
objetivo construir e gerenciar as relações entre usuário e empresa. Esse fator tem
se tornado fundamental para inovar dentro das empresas.

131
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

No Brasil, empresas tradicionais têm utilizado o design thinking para


melhorar o alcance de sua marca em níveis mundiais. Um exemplo bem-sucedido
dessa ascensão é a marca Natura, uma empresa de cosméticos: antes de utilizar
o design thinking, a venda era, como as outras marcas do mesmo segmento, via
catálogo. De acordo com Mathias (2018), a Natura resolveu inovar no seu processo,
ampliando as relações com o público jovem a partir da implementação do design
thinking. Com o auxílio de uma equipe multidisciplinar, a empresa optou por
focar na experiência do usuário e buscou desenvolver a parte conceitual dos seus
produtos de modo que se aproximasse da identidade brasileira e valorizasse isso
tanto para o público no Brasil quanto para o público internacional.

Contudo, as mudanças na Natura também ocorrem nos processos internos,


como o trabalho de sustentabilidade realizado com os produtores das matérias-
primas utilizadas na fabricação de cosméticos. Como resultado da aplicação do
design thinking, a Natura tem uma projeção internacional por vender produtos
com a identidade brasileira.

DICAS

A Natura tem um site que apresenta algumas das suas práticas inovadoras.
Acesse-o por meio do link a seguir ou do código ao lado.

https://goo.gl/56G11A

Outro exemplo de empresas que utilizam o design thinking são aquelas


de telefonia móvel. Elas são responsáveis por oferecer uma série de serviços. No
entanto, quando esse serviço não é satisfatório para o cliente, ele precisa contatar
a empresa para cobrar soluções. Atualmente, esse contato é realizado via telefone
ou e-mail, evitando o deslocamento desse usuário até a empresa. Isso também
diminui os custos para a empresa, uma vez que ela não precisa ter uma sede fixa.

Contudo, há uma necessidade de realizar um atendimento via telefone que


cumpra com as demandas do usuário. Agora imagine duas situações hipotéticas:
uma empresa A percebeu o aumento no número de reclamações do atendimento
ao cliente e, com isso, os usuários estavam cancelando e trocando de operadora
de serviços; com a empresa B, passou a ocorrer a mesma situação, com clientes
insatisfeitos com o serviço e, como consequência, cancelando os serviços.

A partir desse cenário, ambas as empresas se preocuparam com o declínio


nos números de venda. No entanto, tomaram decisões diferentes em relação à
melhoria do serviço. A empresa A entendeu que o problema acontecia por não existir
uma loja física à qual as pessoas pudessem ir para realizar as suas reclamações. Por
entender que era esse o problema, optou por investir em abrir um espaço físico
para que os clientes pudessem se comunicar pessoalmente com atendentes.

132
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

Já a empresa B optou por investigar quais eram as necessidades junto aos


seus clientes e, assim, descobrir as dificuldades existentes no atendimento via
telefone. Para isso, utilizou a metodologia do design thinking com o objetivo de
conhecer as demandas dos clientes em relação a esse tipo de serviço. A empresa
percebeu que o problema não era realizar um atendimento remoto ao usuário,
mas sim a maneira como as informações eram repassadas para esse usuário.

Após se reunir com uma equipe multidisciplinar de engenheiros,


vendedores, atendentes de marketing, publicitários e usuários que tiveram
experiências positivas e negativas com esse tipo de atendimento, a empresa B
desenvolveu como solução para a demanda um aplicativo, apresentado no formato
de tutorial, que informava de maneira visual e auditiva quais eram as ações que o
cliente poderia realizar quando houvesse um problema no seu serviço de telefonia.
Como resultado, a empresa voltou a ter crescimento na sua cartela de clientes.

A partir dessas duas experiências hipotéticas, percebemos como a tomada


de decisões pode gerar o êxito ou não da empresa em relação ao desenvolvimento
de um serviço. O processo adotado pela primeira empresa de ter um espaço físico
em um primeiro momento parece o mais adequado; no entanto, no longo prazo
ele se tornará mais custoso para ser mantido.

E
IMPORTANT

A empresa Telefônica utiliza o design thinking como uma referência para


melhorar a experiência do usuário com o seu serviço: a partir da usabilidade com o serviço,
são desenvolvidas as melhorias.

Esses exemplos nos permitem pensar que é uma necessidade latente


das empresas investirem em pesquisa e desenvolvimento nas demandas
que as instituições possuem. Ao investir no processo de design thinking, a
empresa poderá apresentar um maior retorno financeiro no longo prazo, já
que a tendência é que, ao conhecer as demandas reais do usuário, as empresas
fidelizem e absorvam novos usuários.

Ao longo deste tópico, você pôde aprender sobre os conceitos do design


thinking e como isso vem sendo aplicado no âmbito das empresas. Você pode
utilizar essa metodologia tanto para inovar em um novo produto, serviço ou até
mesmo em um processo interno da empresa que precise de melhorias como para
melhorar o fluxo de comunicação entre diferentes setores de uma fábrica.

133
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Outro segmento que utiliza o design thinking são as instituições de ensino.


Essa atenção por parte dessas instituições acontece em função das dificuldades
que o ensino tem em gerar envolvimento do estudante com o processo de ensino
na atualidade. Logo, o design thinking pode ser utilizado com o objetivo de reunir
as equipes dentro das escolas para gerar novas soluções para a maneira como é
trabalhado o processo de ensino e aprendizagem.

Ainda dentro da educação, o design thinking pode servir como uma


ferramenta para identificar a proposta de valor da instituição atuando diretamente
na gestão. Para a instituição, isso é importante para que ela entenda o seu
diferencial mercadológico em relação às outras, por exemplo.

A partir desses exemplos, você pode concluir como essa metodologia está
modificando a estrutura das grandes e pequenas marcas. O design thinking é uma
metodologia inovadora porque trata de entender o que o usuário precisa, ou seja, foca
na experiência e na usabilidade do produto. Esse é o grande diferencial, comparado
com outras metodologias que desenvolvem produtos sem esse olhar criativo.

NTE
INTERESSA

A marca Havaianas, que já é conhecida em nível mundial pelas suas sandálias,


resolveu investir em outros tipos de produtos, como toalhas, acessórios de praia e bolsas.
Para isso, utilizou o design thinking para criar a sua estratégia no mercado internacional.
O desafio da Havaianas era descobrir o que seria a identidade do Brasil. Após realizar
entrevistas com usuários brasileiros e não brasileiros, a fim de ter coerência com o que
o mercado internacional considera como identidade brasileira, a marca desenvolveu um
protótipo, que foi apresentado no São Paulo Fashion Week.

9 DESIGN THINKING: IDEAÇÃO


Você já pensou como ocorre a geração de uma ideia? A representação
gráfica disso é, em geral, uma lâmpada acesa. Será que o processo de ideação
é tão banal como acender uma lâmpada? As pessoas costumam dizer “tive um
insight!”, o que, traduzindo, não significa que ela teve uma ideia do nada, como
normalmente se pensa, mas que ela teve um discernimento.

Neste tópico, você aprenderá o que é ideação na abordagem do design


thinking, entender como a ideação pode refinar o problema em um processo de
design thinking e reconhecerá como a ideação contribui para projetar soluções em
um processo de design thinking.

134
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

10 DESIGN THINKING: O QUE É IDEAÇÃO


O design thinking pode ser identificado como um duplo diamante, pois
parte do que se chama de fase de análise, ou de divergência, para a fase de síntese,
ou de convergência.

Observe o duplo diamante na figura a seguir. O primeiro diamante


retrata a fase das pesquisas iniciais, em que a equipe de designers focará na
compreensão do problema, entender o usuário, até estar apta para começar o
processo de geração de ideias. O segundo diamante representa a fase em que
se desenvolve a solução, por meio de protótipos, fazendo testes e as correções
de rota (PINHEIRO; ALT, 2012). Pinheiro e Alt (2012) lembram que o diamante
duplo, na verdade, apresenta quatro fases:

1- descobrir;
2- definir;
3- desenvolver;
4- deliverar (entregar).

FIGURA 14 - DUPLO DIAMANTE

FONTE: Pinheiro e Alt (2012, p. 128)

FIGURA 15 – ANÁLISE E SÍNTESE OU DIVERGIR/CONVERGIR

FONTE: Adaptada de Brown (2010)

135
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Tanto a Figura 14 quanto a Figura 15 mostram as fases iniciais que


representam a busca pelo conhecimento, por isso a conotação divergente. Já as
fases posteriores são convergentes, pois nelas refinamos o problema, adaptamos,
criamos soluções e fazemos escolhas. Pinheiro e Alt (2012) alertam para o fato de
que na primeira fase não estamos aptos e devidamente embrenhados no processo
a ponto de não fazer certos julgamentos.

Brown (2010) argumenta que a equipe deve passar por momentos de


inspiração, em que ocorre a coleta de insights, utilizando todas as possibilidades
de fontes e recursos. Esses momentos devem se sobrepor à fase de idealização,
em que os insights se transformam em ideias e as ideias são refinadas. Por fim, há
o momento de implementação, fase de experimentar as melhores ideias.

O processo de ideação é complexo, pois, mesmo partindo de elementos


soltos e sem aparente conexão, dá entrada para as outras etapas do processo e,
constantemente, pode ser solicitado novamente.

Osterwalder e Pigneur (2011, p. 136) afirmam que:

Para gerar novas e melhores opções, você precisa sonhar com suas
ideias antes de estreitá-las em uma lista de opções concebíveis. Assim, a
ideação possui duas fases principais: geração de ideias, onde quantidade
é o que importa, e a síntese, na qual as ideias são discutidas, combinadas
e reduzidas a um pequeno número de opções viáveis.

Cada fase tem a sua importância no processo e, conforme Brown (2010),


são peculiares na sensação que provocam, sendo necessário, portanto, o uso de
ferramentas distintas para tratá-las.

DICAS

O processo de geração de ideias é feito sob um grande emaranhado de


conexões já realizadas. No processo de design thinking, ele faz parte da fase de divergência,
pois está justamente descobrindo os pontos relevantes para conectar.

O vídeo De onde vêm as boas ideias foi lançado para promover o livro de mesmo
nome, escrito por Steve Johnson, e traz um apanhado histórico sobre essas perspectivas
da origem das ideias. Ele foi feito utilizando a técnica do visual thinking, que facilita o
aprendizado. Acesse o link a seguir para ver o vídeo.

https://qrgo.page.link/FJ1ph

136
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

11 A IDEAÇÃO NO REFINO DO PROBLEMA EM UM


PROCESSO DE DESIGN THINKING
O design thinking não é um processo linear, pois ele permite que você
retorne algumas etapas para refinar o problema. No entanto, existe uma lógica de
etapas a seguir. A figura 16 apresenta essas fases, descrevendo o que é feito em
cada uma delas.

A fase de descoberta é aquela em que se define o problema e se realiza


algumas pesquisas. Nessa fase inicial, pode-se avaliar o usuário em uma imersão
empática para compreender seus desejos e necessidades acerca do problema.

A fase de interpretação é aquela em que se deve iniciar um processo de


busca do significado — ou seja, compreender o que aprendemos até agora e o que
isso significa em relação ao problema.

Já a fase de ideação, que é o cerne deste tópico, é o momento de gerar e


refinar ideias. Pode-se, então, utilizar como metodologia o brainstorming, para
trazer várias ideias sobre o desafio entregue. Depois disso, passa-se a categorizá-
las, organizá-las, em uma ordem de similaridade.

Após a ideação, já estamos aptos para a etapa de experimentação, em que


você vai construir protótipos e testá-los para ganhar feedbacks e corrigir o que
for necessário.

Por fim, a fase de evolução é o momento de avaliar as lições aprendidas.


Para isso, pergunta-se: quais foram os resultados até aqui? (PINHEIRO; ALT,
2012; BROWN, 2010).

FIGURA 16 – ETAPAS DO DESIGN THINKING

FONTE: Grando (2012, s.p.)

137
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Podemos perceber que a ideação não tem nada de inesperado. É a fase de


conexões feitas, durante uma parte do processo e até fora dele, que podem dar a
ideia de “EURECA!”. No entanto, a geração de ideias (Figura 17) é um processo
construído de forma gradual e enfática. Essa fase exige que a equipe converse,
reflita, interprete o que já foi coletado.

FIGURA 17 – REPRESENTAÇÃO DAS DISCUSSÕES EM TORNO DA ETAPA DE IDEAÇÃO

FONTE: <REDPIXEL.PL/Shutterstock.com>. Acesso em: 2 dez. 2019.

Vamos analisar agora um caso do canal de televisão HBO, relatado por


Brown (2010). Segundo o autor, após realizar a fase inicial de pesquisas a partir
do problema de renovação dos produtos oferecidos pela empresa, a equipe de
design thinking partiu para a etapa de ideação. A ideia que pareceu mais provável
foi a de distribuir conteúdo em novas plataformas, principalmente em plataforma
mobile. Essa ideia suscitou muitas reflexões, pois significaria uma mudança de
posicionamento da empresa, que era mais voltada à TV a cabo.

Compreender isso só foi possível pois na fase anterior foram identificados


os interesses atuais e o comportamento dos usuários da empresa. Era necessário
gerar ideias condizentes com o que os clientes queriam no mercado naquele
momento em relação a conteúdo distribuído e onde eles preferiam acessá-los
(BROWN, 2010).

Como resultado desse projeto de Designer Thinking a HBO traçou uma


aliança com a Cingular (empresa provedora de serviços mobile) para, em conjunto
oferecer conteúdo premium de televisão em plataforma móvel.

138
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

DICAS

Você pode constatar aqui que o brainstorming é uma técnica aliada no


processo de ideação, pois fomenta a geração de ideias. Neste link do Sebrae, você
encontra mais dicas de como preparar e utilizar a técnica do brainstorming.

https://qrgo.page.link/7dUQ8

12 DESIGN THINKING: INTERAÇÕES ENTRE A IDEAÇÃO E A


SOLUÇÃO DO PROBLEMA
O processo de ideação contribui muito para compreender o problema e
ajudar a compor soluções possíveis. Umas das formas de promover a geração
de ideias é utilizando o brainstorming, comumente chamado de tempestade
de ideias. Essa técnica foi idealizada por Osborn (1957) após observar que sua
agência de publicidade carecia de ideias criativas. O autor idealizou uma forma
de estimular o pensamento criativo através de técnicas que estimulam as pessoas
a trazer o máximo de ideias possíveis em um tempo determinado, lançando um
desafio. Segundo Osborn (1957), brainstorming é uma técnica criativa que estimula
a obtenção de ideias, sem a obrigação de que estejam certas, pois tudo é válido.
Uma boa quantidade de ideias deve ser reunida, para que possam ser debatidas
entre os participantes do grupo que necessitam resolver determinado problema
(OSTERWALDER; PIGNEUR, 2011).

FIGURA 18 – BRAINSTORMING

FONTE: Ambrose e Harris (2011, p. 68)

No design thinking, o brainstorming é, em geral, realizado com o uso de post-


it, conforme a Figura 18. Esse recurso simples pode ser um grande aliado na fase
convergente. Após a fase divergente, composta do brainstorming e do pensamento
visual, o papel adesivo, inovado pela 3M, pode ajudar na organização das ideias
(BROWN, 2010). Isso porque a grande vantagem de usar o post-it é poder trocá-lo
de lugar e continuar, desta maneira, refletindo sobre o problema.

139
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

É necessário, então, fazer associações e categorizar, a parte do design


thinking em que as ideias são selecionadas. Todas as ideias reunidas no brainstor-
ming, sem preocupação com a qualidade, passam a ser refinadas na organização
dos papéis adesivos.

Você pode utilizar outras formas de organizar as ideias geradas, mas


alguns autores, como Brown (2010), defendem que nada ainda substitui a
simplicidade de lidar com esses papéis coloridos.

FIGURA 19 – CATEGORIZAÇÃO DAS IDEIAS NO PROCESSO DE DESIGN THINKING

FONTE: Dam e Siang (2019, s.p.)

Segundo a Interaction Design Foundation, o método das quatro categorias


(Figura 19) é uma forma de organizar as ideias dividindo-as conforme o nível de
abstração. Dessa forma: da mais racional (most rational), na figura representada
pelo cérebro, passando pela que promove o deleite (most delightful), a carinha feliz,
passando pela queridinha (darling), a do coração, até a do tiro longo, a do foguete
(long shot). Com essa técnica, a equipe pode sugerir algumas ideias para cada uma
das categorias, garantindo que todo o problema seja mapeado na organização.
Verificando esses aspectos, avaliam quais ideias teriam potencial inovador.

No entanto, você pode simplesmente selecionar as ideias por ordem semântica


ou por proximidade de elementos e, até mesmo, definir outra forma criativa de
organização. O importante aqui é que a equipe, ao organizar as ideias geradas,
continue discutindo e refletindo, para refinar as possíveis soluções do problema.

DICAS

O processo de ideação no design thinking pode se valer de várias técnicas


e ferramentas. Para saber mais sobre como aplicar o processo de ideação no design
thinking, você pode conferir o livro Isto é design thinking de Serviços, de Marc Stickdorn
e Jakob Schneider, de 2014.

140
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

13 DESIGN THINKING: COMPREENSÃO DO PROBLEMA


Design thinking é uma abordagem do design originalmente utilizada como
um termo comum dentro do próprio meio de projeto. Os designers se referiam
a sua maneira peculiar de pensar. Em 1982, Nigel Cross escreveu um artigo
intitulado Designerly ways of knowing, em que descrevia uma forma de trabalho
diferente, que, quando aplicada, representava o pensamento criativo que o design
reproduzia. Mais tarde, esse artigo virou um livro. Em 2009, Tim Brown, CEO da
empresa de design IDEO, escreveu o livro que popularizou o design thinking no
mercado, intitulado Design thinking: uma metodologia poderosa para decretar o
fim das velhas ideias, que no original tinha o título Change by design, algo como
“mudança pelo design”.

O design thinking busca soluções inovadoras para problemas complexos,


utilizando ferramentas que exploram os pilares da empatia, da colaboração e da
experimentação (PINHEIRO; ALT, 2011). Na compreensão de um problema, não se
deve limitar a solução, pois todas as partes do problema estão interligadas. O design
thinking, então, ajuda a ligar as pontas e oferece pontes para o que está fragmentado.

Neste tópico, você vai aprender a compreender o problema no design thinking,


entender a importância da empatia no processo de design thinking e descobrir quais
são as ferramentas utilizadas para facilitar a compreensão do problema.

14 DESIGN THINKING: COMO COMPREENDER O PROBLEMA


Kelley e Kelley (2014, p. 33) conceituam design thinking como […] uma
maneira de identificar necessidades humanas e criar novas soluções utilizando
as ferramentas e os modos de pensar dos designers. Com isso, os autores
querem reforçar que, além dos dados analíticos e da forma racional de pensar,
é importante não desprezar intuições e reconhecimentos de padrões, pois as
pessoas conseguem ter um fluxo de ideias também pela inspiração e, talvez, elas
mesmas possam trazer uma solução criativa e inovadora para o problema.

Para que o design thinking possa compreender o problema lançado, é necessário


que se apoie em três pilares básicos: empatia, colaboração e experimentação. A empatia,
a capacidade humana de se colocar no lugar do outro, é crucial nesta abordagem, pois
a solução é projetada para alguém que vai usá-la, então você deve conhecer o usuário
(PINHEIRO; ALT, 2012). Já a colaboração é efetivada em processos multidisciplinares
de cocriação, pois é importante que todas as pessoas envolvidas no processo possam
trazer seu olhar específico sobre o problema. Já a experimentação age sobre a forma
de tangibilizar a solução, ou seja, de construir protótipos que possam tirar as ideias
da cabeça e do papel (BROWN, 2010).

141
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

O design thinking opera sob três dimensões do projeto: viabilidade,


praticabilidade e desejabilidade. Isso significa que você precisa conferir se o projeto
é sustentável economicamente (viabilidade), se há possibilidade tecnológica para
desenvolvê-lo (praticabilidade) e se as pessoas desejam a solução apresentada
(desejabilidade).

Fica claro, portanto, que a compreensão do problema deve ocorrer no


formato de exploração. Isto é, investigar várias possibilidades de se chegar ao
cerne da questão, utilizando ferramentas que possam conduzir os pilares do
design thinking e que reúnam as dimensões do projeto. Você trabalha o problema o
tempo todo e, até a finalização do projeto, ainda está compreendendo o problema,
pois todos os instrumentos utilizados refinam a questão para que a solução esteja
mais próxima ao que o mercado e as pessoas querem.

DICAS

No link a seguir você pode compreender rapidamente como acontece o


processo de design thinking, da concepção do problema à solução.

https://qrgo.page.link/rn9L8

15 EMPATIA NO PROCESSO DE DESIGN THINKING


Empatia é uma competência e, como tal, você não precisa nascer
sabendo como utilizá-la, porque competências são aprendidas. A empatia é
importante no processo de design thinking, pois faz com que o designer se
coloque no lugar do usuário para pensar como ele e, assim, verificar seus
desejos, comportamentos e necessidades.

O design passou por evoluções, principalmente no pós-guerra,


considerando a concepção de artefatos que não só abordassem forma e função,
mas também, e principalmente, que estivessem preocupados com as pessoas. A
empatia é necessária para que, ao se colocar no lugar do usuário, compreenda-se
quais são seus desejos e suas necessidades, projetando-se, assim, para atender as
demandas (PINHEIRO; ALT, 2012).

O processo de design thinking funciona de forma não linear, atendendo


aspectos envolvidos em cada etapa, como você pode observar na figura a seguir.
A empatia define a forma como se abordam as pessoas que lidarão com a solução.
Portanto, mesmo que você comece o processo com as ferramentas, a empatia
circunda todo o circuito do design thinking, pois sempre que você avançar nas
etapas, estará olhando para o usuário.

142
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

FIGURA 20 – PROCESSO DE DESIGN THINKING

FONTE: <Cienpies Design/Shutterstock.com>. Acesso em: 2 dez. 2019.

Na Figura 20, a empatia inicia o processo por meio de ferramentas que


mostram como se colocar no lugar do usuário. Um exemplo é o mapa de empatia,
que foi idealizado pela empresa XPLANE e permite que se dialogue com o cliente
de forma mais conveniente para desenvolver uma proposta de valor adequada
a ele. Essa proposta de valor é elaborada com o mapeamento do segmento de
usuários em questão (OSTERWALDER; PIGNEUR, 2011). A empresa XPLANE é
um exemplo de consultoria que atende seus clientes utilizando técnicas de design
com pensamento visual, cocriação e design centrado nas pessoas para ajudar os
líderes empresariais a serem mais criativos.

Outra forma de conhecer o usuário é por meio de pesquisas contextuais,


ou pesquisas de mercado. Nesse tipo de pesquisa, são utilizados questionários
quantitativos ou roteiros de entrevistas qualitativos. As questões, direcionadas
a usuários reais, devem esclarecer o envolvimento deles com aquilo que você
quer projetar. Com isso, você definirá o foco das necessidades e desejos dessas
pessoas. A partir daí, pode desenvolver um brainstroming para gerar ideias mais
próximas ao que os usuários desejam (OSBORN, 1979).

Por fim, você entra na fase final de prototipação, que é o pilar da


colaboração. Nela, tornamos a ideia tangível e nos voltamos novamente para
o usuário, para verificar se ele avalia a solução de forma positiva. Nesta etapa,
você pode convidar pessoas que seriam potenciais consumidores da solução para
validá-la (OSTERWALDER; PIGNEUR, 2011).

143
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

FIGURA 21 – REPRESENTAÇÃO GRÁFICA DO DESIGN THINKING

FONTE: Design... ([20--?], s.p.).

A Figura 21 representa graficamente todo o processo de design thinking. O


início do processo é o momento das incertezas. Nesse começo, você precisará fazer
muitas pesquisas para compreender o usuário, gerar ideias e descobrir padrões.
No momento em que entra na fronteira dos conceitos, as dúvidas e a confusão
inicial vão dar a oportunidade de você apresentar e prototipar um conceito para
criar a inovação. Nessa última fase, o foco já estará mais claro.

É importante lembrar que a empatia, apesar de haver ferramentas


próprias para acessá-la, está presente durante todo o processo de design thinking.
Isso ocorre porque o design é centrado no humano, é feito por e para as pessoas
(PINHEIRO; ALT, 2012).

DICAS

O post-it está presente no processo de design thinking. Você conhece a


origem desse papel adesivo? No site da própria empresa que criou o post-it, febre entre os
criativos, você pode conferir a história em vídeo. Acesse no link a seguir.

https://qrgo.page.link/2c5yN

144
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

16 DESIGN THINKING: FERRAMENTAS DA ETAPA DE IMERSÃO


O design thinking se vale de diversas ferramentas que o habilitam durante
o processo. Você pode partir de um problema já definido, iniciar o desenvolvi-
mento pelo briefing que o descreve e utilizar o brainstorming para potencializar a
geração de ideias. Além disso, já que o processo não é linear, você pode começar
conhecendo seu usuário, para definir quais são as prioridades dele com relação a
necessidades, desejos e comportamentos.

Se decidir iniciar pelo processo empático, você deve usar as ferramentas


adequadas, como o mapa de empatia (OSTERWALDER; PIGNEUR, 2011), citado
anteriormente e descrito com mais detalhes na Figura 22. O mapa de empatia co-
loca a equipe de trabalho no lugar dos clientes e permite que se reflita sobre o que
o cliente diz, faz, vê, pensa, sente e ouve, para ajudar na definição do problema.

FIGURA 22 – MAPA DE EMPATIA

FONTE: Osterwalder e Pineur (2011, p. 130)

Esse tipo de ferramenta acessa o que se chama de pesquisa não contextual,


pois favorece a cocriação dos designers em relação ao segmento de clientes. Os
designers, então, investigam por si próprios as expectativas do cliente com relação
ao seu entorno (OSTERWALDER; PIGNEUR, 2011). Como mostra a Figura 22,
nesse trabalho, você utiliza um quadro composto de seis blocos. Cada um desses
blocos representa o que deve ser observado sobre esse segmento de clientes:

• pensa e faz;
• vê;
• ouve;
• fala e faz;
• fraquezas;
• desejos.

145
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA
Design thinking: compreensão do problema 7

Cada bloco possui perguntas norteadoras que ajudam na investigação e


podem ser propostas pela própria equipe de cocriação. Esse mapeamento é feito
com papeis de post-it écomo
O uso adesivos, uma prática comum
o post-it, queentre
são os designers
colados nosno processo de criação.
blocos.
Isso porque facilita as mudanças que surgem no momento da revisão do preen-
O usodadeplataforma.
chimento post-it é uma prática comum
Por exemplo, os papeisentre os designers
adesivos oferecemno processo de
mobilidade:
criação. Isso porque facilita as mudanças que surgem no momento da revisão
podem ser mudados de posição, corrigidos e trocados por novos, sem prejudicar
do preenchimento da plataforma. Por exemplo, os papéis adesivos oferecem
o Canvas,podem
mobilidade: nem o andamento
ser mudadosdo processo (OSTERWALDER;
de posição, PIGNEUR,
corrigidos e trocados 2011).sem
por novos,
No Quadro
prejudicar 1, a seguir,
o Canvas, nemsão sugeridas questões
o andamento para o(OSTERWALDER;
do processo mapa de empatia. PIGNEUR,
2011). No quadro 8, a seguir, são sugeridas questões para o mapa de empatia.

Quadro 1. Sugestão
QUADRO 8 –de perguntas DE
SUGESTÃO paraPERGUNTAS
o mapa de empatia
PARA O MAPA DE EMPATIA

 Como é seu entorno?


 Quem são os seus amigos?
O que ele vê?
 Qual é a oferta que recebe?
 Que tipo de problemas ele encontra?

 Quais áreas influenciam no seu entorno?


 O que seus amigos e seu parceiro ou sua parceira dizem?
O que ele escuta?
 Quem realmente o influencia e como?
 Quais canais de mídia o influenciam?

 Identifique o que ele considera realmente importante.


 Imagine as emoções do usuário.
O que ele
 O que o move?
pensa e sente?
 Conheça suas expectativas, sonhos e aspirações.
 Antecipe suas emoções.

 Qual é seu comportamento e reação em público?


O que ele  O que comenta sobre seu entorno?
fala e faz?  Identifique algum fator diferencial entre o que ele diz e o
que realmente pensa ou sente.

Quais são  Como ele mede o sucesso?


seus ganhos  Que estratégia utiliza para conseguir seus objetivos?
ou fortalezas?

 Que desafios ele enfrenta?


Quais são  Quais são suas maiores frustrações?
suas fraquezas?  Que obstáculos enfrenta para conseguir seus objetivos?
 Que riscos teme assumir?

Fonte: Adaptado deFONTE: Adaptado


Osterwalder e Pigneurde Osterwalder e Pigneur (2011)
(2011).

Após o mapeamento do grupo de usuários, utiliza-se a ferramenta de de-


senvolvimento de uma persona, que é a representação de uma pessoa fictícia
contendo as informações extraídas pelo segmento de usuários (OSTERWAL-
146
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

Após o mapeamento do grupo de usuários, utiliza-se a ferramenta de


desenvolvimento de uma persona, que é a representação de uma pessoa fictícia
contendo as informações extraídas pelo segmento de usuários (OSTERWAL-
DER; PIGNEUR, 2011). Esse personagem tem uma vida a partir do que foi
mapeado. Trazer essa história para o contexto do projeto é importante para que
você compreenda o que quer o usuário. Uma possível representação gráfica
dessa persona pode ser observada na Figura 23. Ela tem nome, idade, dados
demográficos, estilo de vida, história biográfica, objetivos e frustrações. A persona
passa a ser então o seu próprio usuário, para quem você vai projetar o conceito,
concebido por meio do design thinking (BROWN, 2010).

Você pode ainda se valer de pesquisas contextuais e, depois de estar mais


familiarizado com esse perfil traçado pelo mapa de empatia, elaborar questionários
ou roteiros de entrevistas para realizar com pessoas reais. Cruzando os dados e as
informações obtidas com os dois tipos de pesquisa, você estará mais afinado com
as pessoas que circundam o projeto (PINHEIRO; ALT, 2012).

FIGURA 23 – MAPA DE EMPATIA — PERSONAS

FONTE: <QuickSmartCreative/Shutterstock.com>. Acesso em: 2 dez. 2019

Essas são as ferramentas ligadas à empatia. Elas dão luz às pessoas e


alimentam o projeto, pois operam sob o que de fato o usuário almeja. Lembre-se
sempre de que o design thinking é uma abordagem do design centrada no humano,
e isso faz toda a diferença na solução gerada ao final.

147
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

17 DESIGN THINKING: PROTOTIPAGEM E TESTAGEM


É muito comum você ter ideias. Você pode estar caminhando, tomando
banho ou conversando com alguém e, de repente, ter uma ideia. Mas você já
pensou em materializar o imaterial?

Pode parecer estranho, mas no design thinking o pilar experimentação


se refere a justamente isto: materializar as ideias. Como afirma Brown (2010),
prototipar é ver com as mãos. Isso quer dizer que é necessário tirar a ideia da
cabeça e ver como ela se adaptaria realmente na prática, por isso a importância do
protótipo. Você não fará design thinking sem construir protótipos.

Neste tópico, você saberá o que significa prototipagem, o quanto ela é


importante para a inovação e por que se deve testar e avaliar os protótipos.

18 PROTOTIPAGEM NO DESIGN THINKING


O design thinking tem três etapas bem definidas; elas podem estar
subdivididas, mas representam os pilares da abordagem. As etapas são imersão,
ideação e prototipagem. A prototipagem dá luz ao pilar experimentação. A
empatia e a colaboração também atuam em todas as etapas de forma mais ou
menos incisiva, dependendo da ênfase que se quer dar (PINHEIRO; ALT, 2012).

Segundo Vianna et al. (2012, p. 123), “um protótipo pode ser desde uma
representação conceitual ou análoga da solução (baixa fidelidade), passando por
aspectos da ideia, até a construção de algo o mais próximo possível da solução
final (alta fidelidade)”. Até o momento da prototipagem, o design thinking esteve
trabalhando as ideias. A etapa seguinte, então, precisa tangibilizar essas ideias.
Brown (2010) alerta para o fato de que você pode cair na armadilha de pensar
que fazer um protótipo pode ser perda de tempo. No entanto, essa etapa traz
resultados poderosos para o refino da solução. O autor ainda lembra que a
geração de ideias é um processo complexo; não se tem a ideia perfeita para a
solução de uma hora para outra, então o período entre as fases do projeto podem
ser equivalentes.

Nessa concepção, há várias formas de se tangibilizar as ideias como fonte


de prototipagem. Um protótipo de produto pode ser construído para dar vida a
ele, para que se possa fazer testes e validações e aperfeiçoar a solução. É possível,
por exemplo, trazer um protótipo inicial feito de croqui (desenho superficial de
baixa fidelidade), chamado de conceito 2D, passar para um protótipo funcional
em 3D, até se chegar a um protótipo de teste de mercado (de alta fidelidade), com
peças e dimensões originais (LIEDTKA; OGILVIE, 2015).

148
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

FIGURA 24 – EXEMPLOS DE PROTÓTIPOS: (A) CROQUI (2D); (B) PROTÓTIPO FUNCIONAL (3D);
(C) PROTÓTIPO DE TESTE DE MERCADO

FONTE: (a) <Chaosamran_Studio/Shutterstock.com>; (b) <Gorodenkoff/Shutterstock.com>; (c)


<Rudiecast/Shutterstock.com>. Acesso em: 2 dez. 2019

Já um protótipo de serviços pode parecer um pouco mais complicado,


pois, como o serviço possui características bem peculiares, fica mais difícil
concretizá-lo. Entretanto, basta ter em mente o ambiente de serviços, os cenários,
e poder visualizar a experiência do usuário nessas intersecções. Observe algumas
opções de técnicas de prototipagem no quadroDesign
a seguir.
thinking: prototipagem e testagem 3

QUADRO 9 – ALGUMAS TÉCNICAS


Quadro 1. Algumas DE
técnicas de APLICAÇÃO
aplicação PARA
para prototipagem PROTOTIPAGEM DE SERVIÇOS
de serviços

Semelhante a uma história em quadrinhos,


pode auxiliar na implementação de um
Storyboard protótipo, visto que apresenta desenhos ou
imagens que representam as experiências
dos usuários no projeto de design thinking.

Representa o que acontece no ambiente de serviço.


É importante para que se compreenda os pontos
Maquete de mesa
de contato do serviço com o usuário, cenários que
ajudam no desenvolvimento dos protótipos.

Podem vir no formato de uma dramatização


Protótipo de serviço ou em cenários de tamanho natural para
vivenciar a experiência do usuário.

Uma encenação parecida com um teatro, que


envolve a equipe do projeto, funcionários
Encenação do serviço
da empresa e os próprios clientes. Deve-se
criar, para isso, um ambiente lúdico.

Metodologia iterativa que aperfeiçoa e/ou altera


o projeto ao longo do tempo. É construída, neste
Desenvolvimento ágil período, pelas pesquisas e necessidades dos
usuários. Tem origem na engenharia de software,
enfatiza os indivíduos e suas interações.

Utiliza os stakeholders envolvidos no


Cocriação projeto, de funcionários a clientes, e
examina as experiências com o serviço.

A contação de histórias que envolvem


o projeto é importante para dar vida às
Storytelling experiências. Essas narrativas podem, por
exemplo, valer-se de personas para construir
uma história de vida do usuário.

Especifica cada detalhe do serviço, individualmente,


como um raio X de todo o processo. Em
Blueprints de serviços
geral, são esquemas visuais que apresentam
todos os pontos de contato do serviço.

Mapa de ciclo de Envolve a construção das jornadas do usuário


vida do usuário do início ao fim do contato com o serviço.

FONTE: Adaptado de Stickdorn e Schneider (2014)


Fonte: Adaptado de Stickdorn e Schneider (2014).

149
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

A fase de experimentação, portanto, é crucial para enxergar a ideia de


forma prática e tangível, testá-la entre as pessoas que a usariam e corrigir possíveis
rotas e erros ainda na parte final do projeto.

DICAS

No link a seguir, você terá acesso a um exemplo de workshop de design


thinking feito pela empresa Livework. Os processos de experimentação e criação de
protótipos estão bem descritos, e pode-se compreender melhor o quanto são importantes.

https://qrgo.page.link/d5uDi

19 O PROTÓTIPO NOS PROJETOS DE INOVAÇÃO


O protótipo nos projetos de inovação não é diferente do que se falou sobre
a prototipagem no design thinking, visto que design thinking é uma abordagem para
trazer inovação por meio da resolução de problemas. Além disso, a palavra design
quer dizer projeto. A questão maior talvez seja dimensionar o valor do protótipo
nesses projetos. Isso porque o próprio significado de inovação tem a ver com
singularidade, relevância e abrangência, com trazer algo novo ou melhorado que
gere valor econômico, de mercado (OSTERWALDER; PIGNEUR, 2011).

Trott (2012) avalia que o projeto de inovação de produto, como qualquer


projeto, deve avaliar o quanto a empresa pode aspirar, em detrimento do tempo
que possui para isso. Portanto, o setor de Pesquisa e Desenvolvimento (P&D) é
essencial. Nesse sentido, o autor afirma que o plano do produto deve identificar
essas potencialidades. O desenvolvimento do produto inovador pode se dar em
uma destas quatro etapas (TROTT, 2012).

1- Nova plataforma de produtos: se dá por meio de uma nova


tecnologia existente e cria condições para o desenvolvimento de
novos produtos.
Exemplo: a empresa Kodak, de equipamentos fotográficos, cujo
fundador inventou o filme fotográfico, mudou seus produtos
visando se adequar à fotografia digital.
2- Derivativos de plataforma existente: possibilidade de atualizar
produtos já existentes desenvolvendo as plataformas também já
existentes.
Exemplo: a Honda aproveitou sua plataforma de motores pequenos
para compor outros produtos, como motosserras e motores
náuticos.
3- Melhorias incrementais em produtos existentes: adiciona ou
melhora produtos já existentes — embalagem, diminuição de custo,
pequenas modificações no design. Exemplo: a Walkers, empresa
britânica que produz salgadinhos, trocou o papel celofane por
papel alumínio e teve grande impacto nas vendas.

150
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

4- Produtos fundamentalmente novos (descontínuos): produtos ou


tecnologias radicalmente novas podem ajudar a explorar novos
mercados.
Exemplo: a W.L.Gore & Associates, empresa de produtos
originalmente da área médica, criou o tecido que respira, o Gore
Tex, e entrou no mercado têxtil.

Veja que, para acessar qualquer uma dessas possibilidades de inovar,


é preciso passar pelas etapas de projeto. A prototipagem, então, fornece um
material investigativo importante para analisar a ideia gerada já em condições de
ser materializada.

Imagine criar o Gore Tex sem ter um protótipo para confirmar se


realmente ele auxiliaria na transpiração humana. Com certeza, a equipe desse
projeto deve ter feito testes com versões diferentes do produto até ter certeza de
que ele realmente funcionaria. Seria impossível confirmar a eficácia do produto
somente com a ideia na cabeça.

Brown (2010, p. 85) relata que:

[…] David Kelley chama a prototipagem de “pensar com as mãos” e a


compara com o pensamento abstrato orientado por especificações e
planejamento.Ambos têm seu valor e cada qual tem sua melhor aplicação,
mas um deles é mais eficaz para criar novas ideias e leva-las adiante.

Pinheiro e Alt (2012, p. 46) complementam: “o resultado da prototipagem


é o aprendizado do que se deve ou não fazer, a descoberta de melhores formas de
fazer e a antecipação de barreiras que poderiam prejudicar os níveis de adoção da
nova estratégia”. Segundo Vianna et al. (2012, p. 125):

O desenvolvimento de protótipos permite:


• selecionar e refinar de forma assertiva as ideias;
• tangibilizar e avaliar interativamente ideias;
• validar as soluções junto a uma amostra do público;
• antecipar eventuais gargalos e problemas, reduzindo riscos e
otimizando gastos.

Dessa forma, são evidentes a necessidade e a importância dos protótiposa


nível de valor para a inovação.

151
a nível de valor para a inovação.
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

E
IMPORTANT

Uma das formas mais simples de prototipar uma ideia pode ser feita com papel, com
Uma das formas mais simples de prototipar uma ideia pode ser feita com papel,
um desenho, ou mais elaborada, com uma maquete. Entretanto, a matéria-prima é a
com um desenho, ou mais elaborada, com uma maquete. Entretanto, a matéria-prima é a
mesma.Veja,
mesma. Veja,no
noquadro
quadroa aseguir,
seguir, como
como fazer
fazer umum protótipo
protótipo de papel.
de papel.

É a representação de interfaces gráficas com diferentes


níveis de fidelidade. Por exemplo, um wireframe
desenhado à mão em pequenos pedaços de papel,
para representar esquematicamente as telas de um
O que é?
aplicativo de celular, ou uma embalagem de sabonete
com detalhes finais de texto e cores. Um protótipo em
papel pode começar simples e ficar mais elaborado ao
longo das iterações com o usuário ou com a equipe.

Quando é necessário avaliar o fluxo de informações e a


navegação de um sistema, para explorar possibilidades
de comunicação de um produto ou apenas tangibilizar
a apresentação de uma ideia a usuários, empresa ou a
Quando usar?
própria equipe de projeto. Esses testes podem acontecer
em contextos variados, desde ambientes controlados,
como num laboratório de usabilidade, até sessões com
grupos de usuários finais e potenciais consumidores.

Como o próprio nome já diz, o resultado final do


protótipo será em papel. Pode ser executado a mão,
Como aplicar? apenas como um rascunho de uma solução, ou com
auxílio de um computador, a fim de avaliar detalhes
de uma interface ou produto e comunicar serviços.
Fonte: Adaptado de Vianna et al. (2012).
FONTE: Adaptado de Vianna et al. (2012)

A validação
20 na NA
A VALIDAÇÃO prototipagem e na
PROTOTIPAGEM testagem
E NA TESTAGEM
A prototipagem não consiste apenas em desenvolver a ideia por meio
de um modelo físico,
A prototipagem mas também
não consiste apenasem emfazer testes e validações.
desenvolver a ideia por Não
meioadianta
de um
elaborar o modelo sem o colocar à teste e ver se realmente funciona, se atende às
modelo físico, mas também em fazer testes e validações. Não adianta elabo-
necessidades do usuário.
rar o modelo sem o colocar à teste e ver se realmente funciona, se atende as
necessidades
Viannado usuário.
et al. (2012) alertam que o protótipo precisa servir para um grande
aprendizado, precisa refinar a ideia a ponto de validar a solução, como mostra a
figura a seguir.

152
TÓPICO 5 | INOVAÇÃO E DESIGN THINKING

FIGURA 25 – A PROTOTIPAGEM COMO APRENDIZADO

FONTE: Vianna et al. (2012, p. 122).

Assim, tanto a equipe de projeto quanto o usuário fornecem feedbacks


para que se aprenda com o protótipo e seja possível melhorá-lo.

Na Figura 26, você pode observar que a prototipagem também tem um


processo com fases definidas e que compõem uma base para concluir e chegar
à solução de inovação. O primeiro passo é trazer alguns questionamentos sobre a
solução. Quando se entra na fase de criação dos protótipos, são feitos modelos físicos
representando as ideias concebidas, que são analisados na fase de testes e avaliações.
As setas na Figura 26 indicam a composição cíclica dessas fases, pois, se os testes
e avaliações exigirem revisões, será necessário voltar aos protótipos e redefini-los
ou, até mesmo, fazê-los do zero. Pode acontecer, inclusive, de ter que se retornar às
questões anteriormente formuladas. A fase final de conclusão só ocorrerá quando
o processo estiver totalmente dissecado e o feedback for positivo, considerando
também o tempo e o investimento planejados para isso (VIANNA et al., 2012).

FIGURA 26 – FASES DA PROTOTIPAGEM

FONTE: Vianna et al. (2012, p. 124)

153
UNIDADE 2 | INFRAESTRUTURAS PARA PROCESSAMENTO DE BIG DATA, ARMAZENAMENTO, SUPORTE A TEMPO REAL E
DESAFIOS NA GERÊNCIA DE BIG DATA

Segundo Pinheiro e Alt (2012), a fase da experimentação é aquela em que


ainda se pode falhar e aprender lições antes do lançamento da solução no mercado.
Isso ocorre porque os testes permitem que a solução seja refinada. Além disso,
Pinheiro e Alt (2012) observam que a diferença entre empresas que já abraçaram
a cultura da experimentação e outras que ainda a consideram desnecessária é a
geração de valor que imprime.

No design thinking, testar tem a ver com compreender a experiência do


usuário. Por isso, muitas vezes a palavra iterar tem mais significado. Se você
procurar essa palavra no dicionário, verá a definição: fazer ou dizer novamente,
reiterar, repetir. Analogamente, no design thinking, isso tem muito a ver com
receber feedbacks sobre o protótipo. Nesse sentido, o teste tem mais poder em
validar o problema do que a solução, o que é muito benéfico, pois é possível
reduzir as incertezas, voltar atrás, corrigir erros, refinar.

Portanto, essa é a fase em que você precisa estar maduro e aberto para ouvir
os avaliadores. Aproveite muito a fase de teste, faça perguntas aos participantes,
esmiúce essa etapa para que a solução, quando estiver pronta, realmente atinja o
objetivo do usuário.

DICAS

No vídeo da empresa Puma disponível no link a seguir, você conhecerá o caso


da Clever Little Bag, a pequena sacola inteligente. Esse produto altamente conceitual envolve
logística reversa e uma economia de 8.500 papéis, 20 milhões de megajoule de eletricidade, 1
milhão de litros de agua, além de reduzir o nível de consumo de carbono e outros benefícios.
Para concebê-lo, foram necessários 21 meses, 2 mil ideias e mais de 40 protótipos.

https://qrgo.page.link/GnQKe

CHAMADA

Ficou alguma dúvida? Construímos uma trilha de aprendizagem


pensando em facilitar tua compreensão. Acesse o QR Code, que te levará ao
AVA, e veja as novidades que preparamos para teu estudo.

154
RESUMO DO TÓPICO 5
Nesse tópico você aprendeu:
• A inovação pode ser simplesmente definida como uma nova ideia, pensamen-
tos criativos, novas imaginações em forma de dispositivo ou método. No en-
tanto, muitas vezes, a inovação também é vista como a aplicação de melhores
soluções que atendem a novos requisitos, necessidades não articuladas ou ne-
cessidades de mercados existentes.
• Neste Infográfico, você vai conhecer o processo de inovação, assim como as
suas principais etapas.

155
156
AUTOATIVIDADE

1 O Design Thinking tem 5 etapas bem definidas: empatia, definição,


idealização, protótipos e testes. Entender esses cinco estágios permite que
qualquer pessoa possa aplicar os métodos do Design Thinking para resolver
problemas complexos que ocorrem ao nosso redor. Quais das seguintes
afirmações sobre as etapas de Design Thinking está correta?

a) ( ) As etapas do Design Thinking devem ser realizadas apenas uma vez


durante o processo.
b) ( ) Não é necessário seguir a ordem das etapas do Design Thinking.
c) ( ) As etapas não podem ser adaptadas de acordo com o problema.
d) ( ) As etapas do Design Thinking devem ser executadas na sequência
definida.
e) ( ) Todas as etapas do Design Thinking são obrigatórias para a solução de
problemas.

2 Uma das etapas do Design Thinking é consultar especialistas para descobrir


mais sobre a área de interesse, por meio da observação e engajamento com
as pessoas para entender suas experiências e motivações, além de mergulhar
no ambiente físico para que você possa ter uma compreensão pessoal mais
profunda das questões envolvidas. Qual é o nome dessa etapa?​​​​​

a) ( ) Testes
b) ( ) Definição
c) ( ) Empatia.
d) ( ) Protótipos.
e) ( ) Idealização

3 Os desafios que organizações e países enfrentam hoje são muito mais


complexos e complicados que os que enfrentamos algumas décadas atrás.
Parte da razão é a globalização, a qual reuniu diferentes agentes em todo o
mundo em uma rede interconectada de sistemas que afetam um ao outro.
Neste contexto, é correto afirmar que o Design Thinking:

a) ( ) permite que novas empresas sejam criadas com foco em desenvolver


abordagens tradicionais.
b) ( ) permite a inovação com utilização de ferramentas e métodos
tradicionais.
c) ( ) permite adotar uma perspectiva centrada no uso de sistemas
computacionais.
d) ( ) permite adotar uma perspectiva centrada no ser humano na criação de
soluções inovadoras
e) ( ) permite a criação de mais problemas para os negócios, mas de forma
sistematizada.

157
4 Geralmente em grandes corporações, quando um novo produto é criado,
existe a aplicação de enormes quantias em dinheiro. A aplicação do Design
Thinking pode ajudar a economizar essa quantia de dinheiro imediatamente,
pois direciona a atenção para as soluções específicas que as pessoas precisam​.
Nos modelos em que não se usa Design Thinking, qual desses é um problema
frequente?​​​​​​

a) ( ) Muita comunicação entre clientes e desenvolvedores.


b) ( ) Especificação detalhada de requisitos.
c) ( ) Requisitos mal ​​​​​​​definidos.
d) ( ) Conhecimento da forma do cliente pensar.
e) ( ) Conhecimento do mercado de atuação.

5 Um dos principais benefícios do modelo de 5 estágios do Design Thinking é a


maneira pela qual o conhecimento adquirido nos estágios posteriores pode
retornar aos estágios anteriores. As informações são usadas continuamente
para informar a compreensão do problema e dos espaços de solução e para
redefinir o(s) problema(s).​​​​​​​É correto afirmar que:

a) ( Design thinking não ajuda na solução de problemas.


)
b) ( Design Thinking é um modelo que não se adapta em diferentes cenários.
)
c) ( Design Thinking gera custos altos, pois não tem fim.
)
d) ( Design Thinking permite um contínuo aprimoramento da solução ou
)
negócio.
e) ( ) Design Thinking impede que o produto final ou resultado
seja atingido em pouco tempo.

158
UNIDADE 3

ANÁLISE DE DADOS, INTEGRAÇÃO E


RECURSOS HUMANOS PARA BIG DATA
OBJETIVOS DE APRENDIZAGEM
A partir do estudo desta unidade, você deverá ser capaz de:

• identificar as principais etapas do processo de mineração de dados;

• descrever o processo de descoberta de conhecimento;

• definir o conceito e a aplicação de Big Data.

PLANO DE ESTUDOS
Esta unidade está dividida em sete tópicos. No decorrer da unidade você en-
contrará autoatividades com o objetivo de reforçar o conteúdo apresentado.

TÓPICO 1 – MINERAÇÃO DE DADOS

TÓPICO 2 –APLICAR METODOLOGIAS DE DATA MINING


(MINERAÇÃO DE DADOS)

TÓPICO 3 – UTILIZAR TÉCNICAS DE DATA MINING

TÓPICO 4 – MINERAÇÃO DE TEXTOS (TEXT MINING)

TÓPICO 5 –APRENDIZADO DE MÁQUINA (MACHINE LEARNING)

TÓPICO 6 – INTRODUÇÃO AO HADOOP

TÓPICO 7 – INTEGRANDO BIG DATA E IOT

CHAMADA

Preparado para ampliar teus conhecimentos? Respire e vamos em


frente! Procure um ambiente que facilite a concentração, assim absorverás
melhor as informações.

159
160
UNIDADE 3
TÓPICO 1

MINERAÇÃO DE DADOS

1 INTRODUÇÃO
O número de dados produzidos pela sociedade, tanto por usuários
(pessoas) quanto pelas organizações (empresas), tem aumentado cada dia mais.
Nesse contexto, insere-se a área de mineração de dados, que se dedica a explorá-
los e analisá-los, e surgiu o termo Big Data, utilizado para descrever grandes
volumes de dados.

Neste tópico, você estudará as principais etapas do processo de mineração


de dados, vai aprender a descrever o processo de descoberta do conhecimento e
o conceito e a aplicação de Big Data.

2 AS PRINCIPAIS ETAPAS DO PROCESSO DE MINERAÇÃO


DE DADOS
A análise de dados exploratória é uma subárea da estatística à qual a
mineração de dados (em inglês, Data Mining) está relacionada. A mineração de
dados emergiu da intersecção de três áreas: estatística clássica, inteligência artifi
cial e aprendizado de máquina.

A mineração de dados está relacionada, também, às áreas da inteligência


artificial que são chamadas de descoberta de conhecimento e aprendizagem de
máquina. O termo mineração de dados foi criado para os estágios de descoberta
do processo de KDD (Knowledge Discovery in Databases), de modo que a
mineração de dados faz parte desse processo, como mostra a figura a seguir.

FIGURA 1 – RELAÇÃO EXISTENTE ENTRE KDD E DATA MINING (MINERAÇÃO DE DADOS)

KDD Data Mining

FONTE: Caroline (2014, s.p.)

161
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

Dentre as características mais importantes da mineração de dados, está


o grande volume de dados e a capacidade de mudança de escala com relação ao
tamanho dos dados. Algoritmos têm a capacidade de mudança de escala, mas a
mineração é muito mais do que aplicar algoritmos, pois, geralmente, os dados
contêm ruído ou estão incompletos, sendo provável que padrões sejam perdidos,
de modo que a confiabilidade será baixa. Logo, o analista precisa tomar a decisão
sobre quais tipos de algoritmos de mineração serão necessários, aplicando-os
em um conjunto de amostra de dados específico, sintetizando os resultados,
aplicando ferramentas de apoio à decisão e mineração, iterando o processo.

Assim, as principais etapas do processo de mineração podem ser


resumidas como:

• tomada de decisão do analista sobre quais algoritmos serão necessários;


• aplicação dos algoritmos em um conjunto de amostra de dados e variáveis
específicos;
• síntese dos resultados;
• aplicação de mais ferramentas de apoio à decisão de mineração;
• iteração do processo.

A Figura a seguir, representa a multidisciplinaridade da mineração de


dados.

FIGURA 2 – MULTIDISCIPLINARIDADE DA MINERAÇÃO DE DADOS

Estatística

Visualização Matemática

Mineração
de dados
Sistemas de
Engenharia
informação

Banco de Inteligência
dados artificial

FONTE: Castro e Ferrari (2016)

162
TÓPICO 1 | MINERAÇÃO DE DADOS

ATENCAO

Pode-se pensar nas diferentes tarefas de mineração de dados como consultas


complexas, com especificação em alto nível, com parâmetros definidos pelo usuário e os
algoritmos especializados que serão implementados a elas.

3 O PROCESSO DE DESCOBERTA DE CONHECIMENTO (KDD)


A mineração de dados utiliza, como base para seus trabalhos, experimentos
de estatística, inteligência artificial, máquina de estado e banco de dados para
construir seu modelo.

Segundo Fayyada, Piatetsky-Shapiro e Smyth (1996 apud BRITO, 2012,


s.p.), “KDD é um processo, de várias etapas, não trivial, interativo e iterativo,
para identificação de padrões compreensíveis, válidos, novos e potencialmente
úteis a partir de grandes conjuntos de dados”. A característica “não trivial” diz
respeito à complexidade existente na execução e manutenção dos processos de
KDD; “interativo” representa a relevância de possuir um elemento que controle
o processo; “iterativo” indica a possibilidade de repetições em qualquer uma
das etapas do processo; e “conhecimento útil” aponta para a indicação de que o
objetivo foi alcançado.

A fase mais importante do processo de KDD é a mineração de dados aplicada,


pois é nela que se utilizam algoritmos e determinada técnica que tem como objetivo
elaborar um modelo para representar um conjunto de dados. Essa fase baseia-se
em técnicas de estatística, inteligência artificial, computação paralela e máquina
de estado, construindo um histórico de pesquisas relacionadas a essas áreas. Busca
padrões, relacionamentos entre dados, anomalias e regras, tendo como objetivo
encontrar informações ocultas que sejam relevantes para tomadas de decisões.

O processo de descoberta de conhecimento útil de dados e mineração


de dados (aplicação de algoritmos para extrair modelos de dados) pode ser
distribuído em quatro etapas (Figura 3) (RAMAKRISHNAN; GEHRKE, 2013):

• Seleção dos dados: subconjunto objetivado dos dados; os atributos de interesse


são identificados, examinando-se o conjunto de dados bruto inteiro.
• Pré-processamento: nessa etapa, o ruído e as exceções são removidos, os
valores de campo são transformados em unidades comuns e alguns campos
são criados pela combinação de campos existentes, o que facilita a análise.
Geralmente, dados são dispostos em um formato relacional e tabelas podem
ser combinadas em uma etapa de desnormalização. Nessa etapa, ocorrem
as decisões de estratégias nos casos de campos omissos nos dados e são
consideradas sequências temporais nos dados.

163
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

• Transformação: é a etapa em que ocorre o armazenamento dos dados de


forma a facilitar a utilização das técnicas de mineração de dados. Procuram-se
atributos úteis nos dados, considerando os objetivos a serem alcançados. São
utilizados métodos de transformação, tendo em vista a redução do número
efetivo de variáveis, e procuram-se representações invariantes para os dados.
• Mineração de dados: nessa etapa, são aplicados os algoritmos de mineração de
dados para extrair padrões com os seguintes objetivos:
◦ Regressão: aprendizagem de uma função que faça o mapeamento de dados
em uma variável de previsão.
◦ Clusterização ou segmentação: identifica um conjunto finito de categorias
ou clusters para descrição de dados.
◦ Sumarização: são utilizados métodos para procurar uma descrição compacta
para um subconjunto de dados.
◦ Modelagem de dependências ou associações: busca por um modelo que
descreva de forma assertiva as dependências significativas entre variáveis.
◦ Detecção de alterações e divergências: descoberta das alterações
significativas nos dados a partir dos valores que foram medidos.
• Interpretação e avaliação: os padrões são apresentados para os usuários finais
de forma inteligível por meio de visualização. Nessa etapa, ocorre a consolidação
do conhecimento descoberto, a incorporação do mesmo no sistema ou uma
elaboração de relatórios para as partes interessadas. Também ocorre a verificação
e a resolução de conflitos com conhecimento previamente extraído.

FIGURA 3 - ETAPAS DO KDD

Interpretação

Data Mining a) Ação 1


b) Ação 2
Transformação

Conhecimento
Pré-
processamento
Padrões
Seleção
Dados
transformados
Dados
Dados Dados relevantes pré-processados

FONTE: Fayyad, Piatetsky-Shapiro e Smyth (1996 apud BRITO, 2012, s.p.)

DICAS

Para saber mais a respeito das etapas do processo de descoberta do


conhecimento, acesse o link a seguir.

https://goo.gl/uuVd1A

164
TÓPICO 1 | MINERAÇÃO DE DADOS

4 CONCEITO E A APLICAÇÃO DE BIG DATA


O termo Big Data refere-se a um conjunto de dados gerados e armazenados
muito grande e no qual os aplicativos de processamento desses dados tradicionais
ainda não conseguem atuar em um tempo aceitável. O aumento exponencial
da quantidade de dados gerados a cada minuto no mundo está relacionado ao
surgimento do termo Big Data, o que representa uma nova era na sociedade,
na qual os dados transformam-se em informações valiosas, mudando a forma
como agimos, atuando sobre as tomadas de decisões e impactando, inclusive, na
economia e na ciência.

No mundo atual, o Big Data passou a ser essencial para as relações


econômicas e sociais, representando evolução nos sistemas de negócio e na
ciência e tecnologia.

Ferramentas de Big Data são de extrema importância na definição de


estratégias de marketing, para o aumento de produtividade, na redução de custos
e na tomada de decisões mais inteligentes, gerando valor para os negócios.

A definição de Big Data está relacionada aos seguintes conceitos:

• Volume: grande quantidade de dados gerados.


• Variedade: fontes de dados variadas, aumentando a complexidade.
• Velocidade: com o enorme volume e variedade de dados, o processamento
deve ser ágil, para gerar as informações necessárias.
• Veracidade: ligada diretamente a quanto a informação é verdadeira e fidedigna.
• Valor: valor obtido a partir desses dados, informação útil.

As instituições estão investindo cada vez mais em Big Data por notarem
que as consequências podem significar futuro próspero para os negócios,
melhorando a prestação de informações aos gestores e auxiliando, dessa forma,
na tomada de decisões com dados reais e precisos.

Pode-se citar um exemplo de utilização de Big Data em um terremoto


ocorrido no Haiti, em que pesquisadores americanos fizeram uso de
geolocalização de aproximadamente 2 milhões de chips SIM para auxiliar nas
missões humanitárias. Outros exemplos também são bastante pertinentes para
a aplicação de Big Data, como a questão da pandemia de influenza, que ocorreu
em 2009, e para a qual a empresa Google desenvolveu um aplicativo para a
previsão de possíveis locais onde poderia ocorrer epidemia, ou a importância
de Big Data para o descobrimento do pré-sal, no qual, dada a sua velocidade de
análise, agilizou os processamentos de dados sísmicos captados pelas sondas que
procuravam petróleo no fundo do mar.

A aplicação de Big Data vai além da experiência de clientes, sendo possível


utilizá-la para aumentar a segurança de infraestrutura de TI, otimizar processos
e até prever mercados antes da concorrência.

165
RESUMO DO TÓPICO 1

Nesse tópico você aprendeu:


• Que em alguns casos você pode criar vários modelos e, depois, perceber que
os modelos não respondem adequadamente ao problema definido e que você
deverá redefinir o problema.
• Que talvez seja necessário atualizar os modelos depois de eles serem implanta-
dos, pois haverá mais dados disponíveis. Cada etapa do processo pode preci-
sar ser repetida muitas vezes para criar um bom modelo.
• Observe agora alguns detalhes que veremos nesta Unidade de Aprendizagem.
Confira!

166
AUTOATIVIDADE

1 O processo de descoberta de conhecimento ou Knowledge Discovery and


Data Mining, também definido pela siga KDD, pode ser segmentado em
quatro etapas ou processos. A partir deste exposto, qual das opções a seguir
aponta todas as etapas que fazem parte do processo de KDD?

a) ( ) Seleção dos dados- Limpeza dos dados- Mineração dos dados- Avaliação
b) ( ) Seleção dos dados- Limpeza dos dados- Agrupamento dos dados-
Avaliação
c) ( ) Seleção dos dados- Separação dos dados- Mineração dos dados- Avaliação
d) ( ) Seleção dos dados- Limpeza dos dados- Mineração dos dados-
Alteração dos dados
e) ( ) Inserção dos dados- Limpeza dos dados- Mineração dos dados- Avaliação

2 A mineração de dados costuma ser executada com alguns objetivos finais


ou aplicações. De um modo geral, esses objetivos são resumidos em quatro
itens. A partir deste exposto, qual das opções a seguir aponta os quatro
objetivos da mineração de dados e da descoberta do conhecimento?

a) ( ) Mensuração- Identificação- Classificação- Otimização


b) ( ) Previsão- Identificação- Classificação- Otimização
c) ( ) Previsão- Avaliação- Classificação- Otimização
d) ( ) Previsão- Identificação- Avaliação- Otimização
e) ( ) Previsão- Identificação- Classificação- Aprovação

3 No contexto da Mineração de dados como parte do processo de descoberta


do conhecimento nos banco de dados, consiste de vários e complexos
processos e somente depois do pré-processamento é que as técnicas de
mineração propriamente ditas são usadas para extrair diferentes regras e
padrões. A partir deste exposto, aponte qual das opções a seguir destaca os
três principais tipos de informação resultantes da mineração.

a) ( ) Algoritmos de otimização- Padrões sequenciais- Árvores de classificação


b) ( ) Regras de associação- Bases de conhecimento- Árvores de classificação
c) ( ) Regras de associação- Padrões sequenciais- Árvores de classificação
d) ( ) Regras de associação- Padrões sequenciais- Modelos de confiança
e) ( ) Algoritmos de amostragem- Padrões sequenciais- Árvores de
classificação

4 Big Data é um termo utilizado para descrever grandes volumes de dados


e que ganha cada vez mais relevância à medida que a sociedade se depara
com um aumento sem precedentes no volume de dados gerados a cada
dia, tanto pelos usuários (pessoas) quanto pelas organizações (empresas).
A partir deste contexto, aponte qual das opções a seguir apresenta os três
principais desafios atribuídos ao complexo termo técnico Big Data.

167
a) ( ) Produzir- Analisar- Utilizar
b) ( ) Armazenar- Alterar- Utilizar
c) ( ) Armazenar- Analisar- Apagar
d) ( ) Armazenar- Analisar- Utilizar
e) ( ) Armazenar- Analisar- Transferir

5 Em relação ao Big Data e todos os assuntos conexos que cercam este


atual termo técnico ligado à área de tecnologia da informação, existem
pelo menos três questões técnicas centrais que devem ser suportadas por
sistemas (software) e equipamentos (hardware) e que são objetivos e desejos
dos usuários e organizações em relação às grandes e crescentes massas de
dados. A partir deste contexto, aponte qual das opções a seguir apresenta as
três principais questões técnicas ligadas diretamente ao Big Data.

a) ( ) Segurança- Variedade- Velocidade


b) ( ) Volume- Otimização- Velocidade
c) ( ) Volume- Variedade- Disponibilidade
d) ( ) Segmentação- Variedade- Velocidade
e) ( ) Volume- Variedade- Velocidade

168
UNIDADE 3
TÓPICO 2

APLICAR METODOLOGIAS DE DATA MINING


(MINERAÇÃO DE DADOS)

1 INTRODUÇÃO
O processo em que grandes quantidades de dados são explorados
com o objetivo de identificar padrões, relacionamentos, conhecimentos é
denominado Data Mining (em português, mineração de dados) e tem cada vez
mais importância para o mercado, para os negócios e mesmo para pesquisas
científicas, que têm interesse e necessidade de analisar e organizar a quantidade
enorme de dados que produzem.

Por isso, neste tópico, você aprenderá a reconhecer o conceito de Data


Mining, verá como identificar as principais técnicas e utilizar as metodologias
de Data Mining.

2 O QUE É DATA MINING?


Com Data Mining (em português, mineração de dados), é possível
descobrir informações de grande valor, principalmente para ajudar nas tomadas
de decisões. A mineração de dados utiliza como base para seus trabalhos
experimentos de áreas como estatística, inteligência artificial, máquina de estado
e banco de dados para construir seu modelo.

A mineração de dados está relacionada, também, às áreas da inteligência


artificial que são chamadas de descoberta de conhecimento e aprendizagem de
máquina. O termo “mineração de dados” está relacionado aos estágios de descoberta
do processo de KDD (Knowledge Discovery in Databases), que “é um processo,
de várias etapas, não trivial, interativo e iterativo, para identificação de padrões
compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos
de dados” (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). O termo “não trivial”
diz respeito à complexidade existente na execução e manutenção dos processos de
KDD; o termo “interativo” representa a relevância de ter um elemento que controle
o processo; o termo “iterativo” indica a possibilidade de repetições em qualquer uma
das etapas do processo; e o “conhecimento útil” é a há indicação de que o objetivo
foi alcançado. A fase mais importante do processo de KDD é a mineração de dados
aplicada, pois é nela que são utilizados algoritmos e determinada técnica que tem como
objetivo elaborar um modelo para representar um conjunto de dados. Essa fase baseia-
se em técnicas de estatística, inteligência artificial, computação paralela e máquina de
estado, construindo um histórico de pesquisas relacionadas a essas áreas. Além disso,
busca padrões, relacionamentos entre dados, anomalias e regras, tendo como objetivo
encontrar informações ocultas que sejam relevantes para tomadas de decisões.

169
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

Dentre as características mais importantes da mineração de dados, está


o grande volume de dados e a capacidade de mudança de escala com relação ao
tamanho dos dados. Algoritmos têm a capacidade de mudança de escala, mas a
mineração é muito mais do que aplicar algoritmos, pois, geralmente, os dados
contém ruído ou estão incompletos, sendo provável que padrões sejam perdidos
e a confiabilidade, baixa. Logo, o analista precisa tomar a decisão sobre quais tipos
de algoritmos de mineração serão necessários, aplicando-os em um conjunto de
amostra de dados específico, sintetizando os resultados, aplicando ferramentas
de apoio à decisão e mineração, iterando o processo.

3 AS PRINCIPAIS TÉCNICAS DE DATA MINING


Dentre os tipos de dados que podem ser minerados, utilizam-se técnicas
diferentes de mineração. Esse processo de definição e criação do modelo que será
utilizado é a maior parte do processo, na qual deverão ser incluídas as perguntas
sobre os dados e deverá constar um modelo de respostas para as perguntas feitas;
a partir disso, será implantado o modelo propriamente dito.

Vários algoritmos e técnicas podem ser utilizados nesse processo. Podemos


citar os seguintes algoritmos: associação, itens frequentes, clustering, árvores de
decisão, classificação bayesiana, mineração por redes neurais.

3.1 MINERAÇÃO POR GRUPO DE ASSOCIAÇÃO


A técnica de mineração por associação tem por objetivo identificar o
relacionamento de itens que, em um específico conjunto de dados, sejam mais
frequentes. Normalmente, o volume de dados que envolvem esse tipo de
mineração é extenso e, diante dessa premissa, torna-se necessária a utilização de
algoritmos que sejam mais rápidos e eficientes.

A seguir, veja um exemplo de mineração de dados por associação:

Regra 1: SE idade > 25 AND graduação completa = sim ENTÃO fazer


mestrado = sim
Regra 2: SE idade <= 25 AND graduação completa = não ENTÃO fazer
mestrado = não

3.2 MINERAÇÃO DE ITENS FREQUENTES


Essa técnica, geralmente, é visualizada em duas etapas: na primeira delas,
um conjunto de itens frequentes é desenvolvido e há um valor mínimo de frequência
a ser respeitado. Após essa etapa, regras de associação devem ser geradas pela
mineração desse conjunto de itens. A fi m de que os resultados sejam válidos, para
cada regra produzida, deverão ser utilizados conceitos de confiança e suporte.

170
TÓPICO 2 | APLICAR METODOLOGIAS DE DATA MINING (MINERAÇÃO DE DADOS)

Os conceitos referentes a suporte são referentes ao percentual de registros que se


enquadram na regra, e os conceitos de confiança medem o percentual de registros
de uma forma específi ca para a regra.O algoritmo mais utilizado para a estratégia
da mineração de itens frequentes é o Apriori, no qual são envolvidas técnicas de
hash, particionamento, redução de transações e segmentação.

3.3 MINERAÇÃO POR CLUSTERING


A técnica de clustering tem como objetivo identificar e aproximar dados
semelhantes. Trata-se de uma coleção de registros semelhantes entre si, mas
diferentes de registros em demais agrupamentos. Essa técnica não pretende
classificar, estimar ou predizer o valor de qualquer variável, apenas pretende
identificar grupos de dados similares. Existem algumas tarefas para as quais essa
técnica é bastante utilizada: pesquisa mercadológica, reconhecimento de padrões,
processamento de imagens, análise de dados, taxonomia de plantas e também de
animais, segmentação mercadológica, pesquisas geográficas, detecção de fraudes,
classificar documentos presentes na web etc.

A Figura a seguir representa a mineração de dados por clustering.

FIGURA 4 – MINERAÇÃO DE DADOS POR CLUSTERING

FONTE: Salvador, Cunha e Corrêa (2009, p. 452)

171
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

3.4 MINERAÇÃO POR ÁRVORES DE DECISÃO


A técnica de mineração por árvores de decisão faz muito sucesso devido
ao fato de não necessitar de parâmetros de configuração (o que a torna bastante
simples) e por ter um alto grau de assertividade. Geralmente, é utilizada em
categorizações ou previsões de dados. Árvores de decisão são formadas a partir
de um conjunto de regras de classificação, em que cada caminho da raiz até uma
folha representa uma dessas regras. Mesmo sendo uma técnica muito poderosa,
faz-se necessário uma análise detalhada dos dados que deverão ser utilizados,
garantindo, assim, os melhores resultados. Geralmente, a árvore de decisão é
definida a fim de que, para cada observação referente à base de dados, haja um e
somente um caminho da raiz até a folha (Figura 5).

FIGURA 5 – MINERAÇÃO DE DADOS POR ÁRVORE DE DECISÃO

FONTE: Gonçalves (2007, s.p.)

3.5 MINERAÇÃO POR CLASSIFICAÇÃO BAYESIANA


A técnica de mineração por classificação bayesiana é tida como uma
técnica estatística e baseia-se no teorema de Thomas Bayes, segundo o qual é
possível encontrar a probabilidade de um determinado evento ocorrer diante da
probabilidade de outro evento já ter ocorrido:

Probabilidade (Y dado X) = Probabilidade (X e Y) / Probabilidade (X)

Esse tipo de algoritmo, Naive Bayes, obtém resultados compatíveis com


os resultados das árvores de decisões e, por ser simples e ter um alto poder de
prever, é um dos tipos mais utilizados. Esse algoritmo parte do princípio de que
não haja relação de dependência entre os atributos, mas nem sempre isso ocorre.

172
TÓPICO 2 | APLICAR METODOLOGIAS DE DATA MINING (MINERAÇÃO DE DADOS)

3.6 MINERAÇÃO POR REDES NEURAIS


A técnica de mineração por redes neurais tem sua origem na psicologia e
na neurobiologia e consiste em simular o comportamento dos neurônios. Pode ser
vista como um conjunto de entradas e saídas (assim como ocorre nos neurônios)
que são conectadas por camadas intermediárias e na qual cada ligação tem um
valor associado. É uma técnica que precisa de um grande período de treinamento,
ajustes de parâmetros. É difícil de interpretar e também não é possível identificar
de forma clara e precisa a relação entre a entrada e a saída. Porém, essas redes
neurais conseguem trabalhar de maneira que não tenham problemas de valores
errados e podem identificar padrões para os quais nunca foram treinadas.

Na figura a seguir temos um exemplo do algoritmo backpropagation, que é


um dos mais conhecidos nas redes neurais e aprende a partir da correção de erros.

FIGURA 6 – EXEMPLO DE ALGORITMO BACKPROPAGATION

FONTE: Lanhellas (2013, s.p.)

ATENCAO

Uma árvore de decisão é uma representação de uma coleção de regras


de classificação. Cada nó interno da árvore é rotulado com um atributo previsor, que
frequentemente é chamado de atributo de divisão. É com base nas condições desse
atributo que os dados são divididos (RAMAKRISHNAN; GEHRKE, 2013).

173
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

4 UTILIZAÇÃO DAS METODOLOGIAS DE MINERAÇÃO


Todos os dias, empresas trabalham com uma enorme quantidade de
dados, seja com informações cadastrais, preferências de consumidores, interações
em redes sociais e transações com clientes. Quando esses dados são organizados
e analisados por metodologias de Data Mining, podem garantir o sucesso
das empresas, principalmente na tomada de decisões. Com a utilização das
metodologias de mineração, é possível fazer correlações, desvendar tendências e
verificar a existência de padrões; dessa forma, consegue-se abstrair o conhecimento
necessário para alavancar os negócios e tomar as decisões corretas.

Dentre as metodologias, pode-se citar CRISP-DM (Cross Industry


Standard Process for Data Mining), que se trata de uma metodologia elaborada
especificamente para processos de mineração de dados. O método CRISP-DM é
dividido em seis partes:

• Entendimento do negócio: o profissional deve procurar compreender o


problema a ser solucionado, buscando entender como o problema afeta a
empresa e quais são os objetivos a serem alcançados.
• Compreensão de dados: tem por objetivo verificar, descrever e organizar os
dados.
• Preparação dos dados: após sua definição, organização e verificação, os dados
deverão ser conduzidos pelo profissional de forma técnica, definindo, inclusive,
o formato necessário para analisá-los.
• Modelagem: as técnicas de mineração são selecionadas e aplicadas de acordo
com os objetivos a serem alcançados.
• Avaliação: etapa na qual ocorre o acompanhamento dos resultados e a avaliação
da aplicabilidade dos conhecimentos adquiridos.
• Desenvolvimento: todo o conhecimento obtido pela mineração será aplicado
de uma forma mais prática, apresentando uma entrega aplicável ao cliente, em
que o mesmo possa facilmente verificar os resultados concretos obtidos a partir
da análise de dados.

Na figura a seguir, são apresentadas as seis etapas da metodologia CRISP-


DM.

174
TÓPICO 2 | APLICAR METODOLOGIAS DE DATA MINING (MINERAÇÃO DE DADOS)

FIGURA 7 – ETAPAS DA METODOLOGIA CRISP-DM

FONTE: Hekima (2016, s.p.)

Existem, também, outras aplicações de mineração de dados. Pode-se citar:

• Basket analysis: é realizada uma análise de afinidade e pode ser aplicada a vários
objetos, identificando combinações de itens com foco no padrão de compras de
consumidores. Metodologia muito aplicada em e-commerce.
• Análises preditivas: a metodologia ajuda a prever quando os clientes irão
realizar novas compras, para que as empresas possam realizar campanhas de
marketing, organizar estoques e traçar cenários.
• Monitoramento de redes sociais: são verificados dados por meio da interação
com conteúdos que instiguem o consumidor a “dizer”, por meio de curtidas,
comentários e compartilhamentos, o que pensam sobre determinados produtos,
marcas e até mesmo tipo de atendimentos.
• Mineração de dados e OLAP (On-Line Analytical Processing): conceito
que engloba análises rápidas de dados multidimensionais compartilhados,
complementando a mineração de dados. Os sistemas de OLAP são ideais para
alocação de custos, análises de séries temporais, indexação de dados e análises
“what-if”. Trata-se de uma forma de analisar negócios e empresas naturalmente.

DICAS

Acesse o site a seguir e saiba mais a respeito das consultas das aplicações de
Big Data.

https://goo.gl/RD3Tis

175
RESUMO DO TÓPICO 2

Nesse tópico você aprendeu:


• As características do método de Árvore de decisão. Note que cada percurso na
árvore, corresponde a uma regra de classificação.

• A Reconhecer o conceito de Data Mining.


• A Identificar as principais técnicas de Data Mining.
• A Utilizar as metodologias de Mineração.

176
AUTOATIVIDADE

1 O que significa KDD?

a) ( ) Árvore de decisão.
b) ( ) Processo de exportação de dados.
c) ( ) Progresso de agrupamento de dados.
d) ( ) Processo de descoberta de conhecimento.
e) ( ) Dados em rotina assíncrona.

2 São técnicas de Data Mining:

a) ( ) Extração, transformação e carga.


b) ( ) CRISP-DM, SEMMA e Árvore de decisão.
c) ( ) Raiz, nós e OLAP.
d) ( ) Árvore, Cluster e ELP.
e) ( ) SCHEMMA, modular e agrupamento.

3 Quando a mineração dos dados é relacionada a um determinado período, o


ideal é utilizar o método:

a) ( ) Análises atemporais.
b) ( ) Árvore de decisão.
c) ( ) Análise de Cluster.
d) ( ) File seek.
e) ( ) Análise de séries temporais.

4 Regras de associação servem para:

a) ( ) Calcular tempo.
b) ( ) Limitar períodos.
c) ( ) Definir quais dados estão relacionados.
d) ( ) Definir condições.
e) ( ) Calcular valores dos dados.

5 Arroz, toalha de banho, vinho e saco de lixo são produtos distintos, mas
podem ser considerados de um mesmo grupo. Qual método é utilizado
para fazer esse agrupamento?

a) ( ) Desambiguação.
b) ( ) Análise de vendas.
c) ( ) Análise de Cluster.
d) ( ) Data OLAMP.
e) ( ) Árvore de decisão.

177
178
UNIDADE 3
TÓPICO 3

UTILIZAR TÉCNICAS DE DATA MINING

1 INTRODUÇÃO
O processo de Data Mining — mineração de dados — assume cada vez
mais relevância nos mais diversos contextos, já que, com cada vez mais frequência,
lidamos com uma quantidade imensa de dados que precisam ser explorados,
analisados e organizados. Por isso, existem diversas técnicas que auxiliam os
profissionais nesse processo, fornecendo informações sobre os dados, e há um
interesse crescente pelo desenvolvimento de novos métodos.

Neste tópico, você estudará as principais técnicas de mineração de dados,


verá como reconhecer a lógica para Data Mining e aprenderá a aplicar a sintaxe
de consultas de mineração.

2 IDENTIFICAÇÃO DAS TÉCNICAS DE DATA MINING


Variados tipos de dados podem ser minerados e, para tal, podem ser
utilizadas técnicas diferentes. O processo para a criação de um modelo de
mineração representa uma parte de um processo maior, que inclui perguntas
sobre dados e no qual consta, inclusive, um modelo de respostas para as perguntas
feitas e a implantação do modelo propriamente dito.

Os métodos ou técnicas de mineração de dados podem ser divididos


em supervisionado (preditivo) e não supervisionado (descritivo), por esforço e
semissupervisionado. A diferença entre o supervisionado e o não supervisionado se
dá pelo fato de que os não supervisionados não necessitam de pré-categorização para
registros, de modo que não se faz necessário ter um atributo-alvo — necessitamos
de menos informações sobre os objetos, segundo Daniil Korbut (2017).

Dentre os algoritmos que podem ser utilizados nesse processo, pode-


se citar: associação, classificação, clustering, árvores de decisão e padrões
sequenciais.

179
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

2.1 MINERAÇÃO POR GRUPO DE ASSOCIAÇÃO


O método de mineração por grupo de associação tem como propósito
identificar elementos que tenham a presença de outros elementos em uma mesma
operação, encontrando relacionamentos ou padrões entre o conjunto de dados
— a transação mostra os itens que foram consultados em uma determinada
operação. Essas regras de associação representam padrões em transações
armazenadas e, por meio do conhecimento desses dados, organizações podem
direcionar processos de marketing e promover estratégias que tragam vantagens.
Geralmente, as bases de dados envolvidas nesses tipos de processos são muito
grandes e, para elas, é necessária a utilização de algoritmos rápidos e eficientes.

A seguir, veja um exemplo de mineração de dados por associação:

Regra 1: SE idade = jovem AND trabalha = não ENTÃO compra


notebook = não
Regra 2: SE idade = jovem AND trabalha = sim ENTÃO compra
notebook = sim
Regra 3: SE idade = adulto AND crédito = sim ENTÃO compra carro = sim
Regra 4: SE idade = adulto AND crédito = não ENTÃO compra carro = não

2.2 MINERAÇÃO POR CLASSIFICAÇÃO


Nesta técnica, vários atributos podem ser utilizados para a identificação
de uma classe específica de itens. São atribuídos itens às categorias ou classes de
destino pela classificação, de forma que possa ser previsto com uma maior precisão
o que poderá ocorrer dentro das classes. Essa é uma técnica que, geralmente, é
utilizada dentro do marketing para classificar o público para suas campanhas.

A figura a seguir, representa a mineração de dados por classificação,


relacionando idade e classe social.

FIGURA 8 – MINERAÇÃO DE DADOS POR CLASSIFICAÇÃO

FONTE: Camilo e Silva (2009, p. 13)

180
TÓPICO 3 | UTILIZAR TÉCNICAS DE DATA MINING

2.3 MINERAÇÃO POR CLUSTERING


A técnica de clustering agrupa registros semelhantes, ou seja, grupos
de elementos que possuem as mesmas propriedades a fim de que o usuário
final possa, entre outras coisas, saber o que está ocorrendo no banco de dados.
Essa técnica é bastante utilizada pelo marketing para saber quais objetos
podem ajudar na segmentação, como, por exemplo, segmentando o mercado
em subconjuntos de clientes, em que cada um desses subconjuntos poderá
ser direcionado para uma estratégia de marketing diferente, com padrões
diferentes para diferentes tipos de clientes.

A figura a seguir representa a mineração de dados por clustering.

FIGURA 9 – MINERAÇÃO DE DADOS POR CLUSTERING

FONTE: Analytics Vidhya (2018, s.p.)

2.3 MINERAÇÃO POR ÁRVORES DE DECISÃO


A técnica de mineração por árvores de decisão é utilizada para categorização
ou previsão de dados. Geralmente, inicia com uma pergunta (caracterizada por
um conjunto de dados de entrada) que tenha duas ou mais respostas (dados de
saídas); cada uma dessas respostas direciona para uma questão que será utilizada
para classificar ou identificar dados que serão categorizados ou, ainda, poderá
ser feita uma previsão baseada em cada resposta. Ou seja, uma árvore de decisão
é formada a partir de um conjunto de regras de classificação, e cada caminho
da raiz até uma folha representa uma dessas regras. Normalmente, a árvore de
decisão é definida de forma que, para cada observação pertencente à base de
dados, haja um e somente um caminho da raiz até a folha.

A Figura a seguir representa uma árvore de decisão para comprar, ou não,


algo, com base em preço e nível de importância de consumo.

181
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

FIGURA 10 – MINERAÇÃO DE DADOS POR ÁRVORE DE DECISÃO

FONTE: Devmedia (2014, s.p.)

2.4 MINERAÇÃO POR PADRÕES SEQUENCIAIS


Padrões, geralmente, identificam tendências ou a ocorrência de eventos
parecidos. Essa técnica de mineração de dados costuma ser utilizada para entender
comportamentos de usuários em relação às compras, em que os donos de lojas, a
partir da análise dos dados, tomam decisões sobre quais produtos apresentarão
para os clientes. Um exemplo em que pode ser utilizada essa técnica é em “carrinhos
de compras” de lojas on-line, pois, a partir de um histórico de compras do cliente, o
empreendedor pode sugerir que algo mais seja adicionado às compras.

ATENCAO

Pode-se pensar nas diferentes tarefas de mineração de dados como consultas


complexas, com especificação em alto nível, com parâmetros definidos pelo usuário e os
algoritmos especializados que serão implementados a elas.

3 A LÓGICA PARA A MINERAÇÃO DE DADOS


Por meio da mineração de dados, é possível descobrir informações
de grande valor, principalmente para ajudar nas tomadas de decisões. Para a
realização da mineração de dados, são aplicados algoritmos específicos, nos quais
são especificadas regras e aplicadas lógicas para que as informações obtidas sejam
as desejadas pelo usuário. Após a aplicação dos algoritmos em um conjunto de
dados, os resultados são sintetizados e são aplicadas ferramentas que apoiarão a
decisão de mineração.

182
TÓPICO 3 | UTILIZAR TÉCNICAS DE DATA MINING

Algoritmos de mineração de dados são conjuntos de heurística e cálculos


que criam modelos com base nos dados. Para que ocorra a criação do modelo,
o algoritmo realiza a análise de dados que são fornecidos a ele e, a partir disso,
ocorre a busca por tipos de padrões ou tendências específicas. Dessa forma, o
algoritmo utiliza resultados dessa análise em diversas iterações, definindo
parâmetros ideais para a criação do modelo de mineração. Esses parâmetros
deverão ser aplicados pelo conjunto de dados para extrair padrões acionáveis e
estatísticas com mais riqueza de detalhes.

O modelo de mineração criado pelo algoritmo pode assumir vários


formatos, como um conjunto de clusters, uma árvore de decisão, modelos
matemáticos ou um conjunto de regras que descreverá como serão agrupados
produtos em uma transação e as probabilidades de que os produtos sejam
comprados juntos. Dentre os métodos mais populares e bem conhecidos para
derivar padrões de dados, estão (AYODELE, 2010):

• Classificação (supervisionada) — prevê que cada registro faça parte de outro


conjunto de dados e pertença a uma determinada classe.
• Regressão (supervisionada) — prevê que cada registro faça parte de outro
conjunto de dados e tenha um determinado valor.
• Estimação (supervisionada) — envolve a geração de pontuação para cada
registro.
• Clusterização (não supervisionada) — identifica grupos que poderão ser
utilizados como ponto inicial de exploração de relação, procurando semelhanças
e diferenças em conjunto de dados e agrupando registros semelhantes em
segmentos ou clusters.
• Associação (não supervisionada) — gera modelos descritivos que proporcionam
o descobrimento de regras.
• Análise de sequenciação (não supervisionada) — interessa a ordem em que
aparecem nas transações e o espaço de tempo entre elas.
• Visualização — apresentação gráfica dos dados.

4 APLICAÇÃO E SINTAXE DE CONSULTAS DE MINERAÇÃO


Consulta de conteúdo é uma maneira de extrair informações sobre as
estatísticas internas e a estrutura do modelo de mineração. Uma consulta de
conteúdo pode fornecer detalhes que estarão disponíveis de maneira acessível no
visualizador, e os resultados podem ser utilizados para extrair informações para
outras utilizações. Essas consultas podem retornar padrões, fórmulas, lista de
atributos e todas as informações que forem julgadas como pertinentes ao negócio.
Consultas sobre estrutura e dados armazenados em cache são, geralmente,
utilizados para criar estruturas de mineração e modelos.

183
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

Diante da intensificação de pesquisas na área de desenvolvimento


de algoritmos, pode-se contar com uma grande oferta de ferramentas para a
mineração de dados, tanto gratuitas quanto pagas. Entre elas, pode-se citar
Weka, Mahout, Orange Data Mining, Rapid Miner, Tanagra, Keel. Com relação
às alternativas de ferramentas pagas, pode-se citar Oracle, Microsoft, SAS entre
outras. E, mesmo diante dessa gama de ferramentas, um dos principais desafios
consiste em saber identificar qual estratégia melhor se aplica ao contexto, questão
e problema que buscam ser solucionados. Dentre as linguagens de programação
mais utilizadas para mineração de dados, pode-se citar Python, principalmente
pela simplicidade, clareza e reusabilidade. Trata-se de uma linguagem de sintaxe
simples e objetiva que permite aos programadores manter o foco no problema a
ser resolvido sem que haja preocupações com implementações. R também é uma
linguagem de programação poderosa quando o tema é data science (ciência de
dados), pois tem facilidade para analisar dados, processar instruções estatísticas
e modelos gráficos.

A tabela a seguir apresenta as ferramentas e linguagens de programação


mais utilizadas na mineração de dados com base em uma pesquisa realizada em
2016, na 17ª edição anual do KDnuggets Software Poll.

TABELA 1 – FERRAMENTAS E LINGUAGENS DE PROGRAMAÇÃO MAIS UTILIZADAS EM DATA


MINING COM BASE EM PESQUISA EM 2016

FONTE: Piatetsky (2016, s.p.)

184
TÓPICO 3 | UTILIZAR TÉCNICAS DE DATA MINING

Para obter todos os dados incluídos na estrutura, assim como as colunas


que não foram adicionadas a um modelo de mineração específico, você deverá ter
permissões de detalhamento no modelo, assim como na estrutura, para recuperar
dados da estrutura de mineração.

A partir da consulta de conteúdo modelo, é possível:

• extrair fórmulas ou probabilidades para fazer seus próprios cálculos;


• em um modelo de associação, recuperar as regras que são usadas para gerar
uma previsão;
• recuperar as descrições de regras específicas para usá-las em um aplicativo
personalizado;
• apresentar as médias móveis detectadas por um modelo de série temporal;
• obter a fórmula de regressão para algum segmento da linha de tendência;
• recuperar informações acionáveis sobre clientes identificados como fazendo
parte de um cluster específico.

185
RESUMO DO TÓPICO 3

Nesse tópico você aprendeu:


• As técnicas de Data Mining: mineração por grupo de associação, mineração
iceberg e por similaridade, e seus resultados.

• A Identificar as técnicas de Data Mining.


• A Reconhecer a lógica para mineração de dados.
• A Aplicar a sintaxe de consultas de mineração.

186
AUTOATIVIDADE

1 O que caracteriza uma consulta do tipo ICEBERG?

a) ( ) Uma consulta "fria", ou seja, sem credibilidade.


b) ( ) Que apresenta somente resultados ocultos.
c) ( ) Que apresenta um resultado limitado e pré-estabelecido.
d) ( ) Uma consulta bruta, que precisa ser lapidada depois.
e) ( ) Uma consulta com dados negativos apenas.

2 Qual a cláusula presente em consultas ICEBERG?

a) ( ) GROUP BY.
b) ( ) CUBE.
c) ( ) RANGE.
d) ( ) WINDOW AS.
e) ( ) HAVING.

3 Quais são os 2 componentes de uma associação?

a) ( ) First Side ==> Second Side.


b) ( ) Left Hand Side ==> Right Hand Side.
c) ( ) Right Valour ==> Lift Valour.
d) ( ) Right ==> Wrong.
e) ( ) Data Previous ==> Data Following.

4 São componentes de uma Árvore de decisão:

a) ( ) Nó, ramo e folha.


b) ( ) Nó, galho e ramo.
c) ( ) Tronco, ramo e fruto.
d) ( ) Raiz, nó e fruto.
e) ( ) Bifurcação, galho e tronco.

5 A que se refere a Inteligência Artificial para descoberta do conhecimento no


Data Mining?

a) ( )
Um super computador orgânico.
b) ( )
Cruzamento de bases de dados independentes que se filtram sozinhas.
c) ( )
O SGBD aprende conforme a experiência de cada usuário.
d) ( )
Algoritmos programados para detectar padrões, tendências, grupos e
exclusões.
e) ( ) Centenas de processadores em Cluster que podem tomar decisões
sozinhos.

187
188
UNIDADE 3
TÓPICO 4

MINERAÇÃO DE TEXTOS (TEXT MINING)

1 INTRODUÇÃO
O processo de extração de conhecimento e informação a partir de dados de
bases textuais é denominado Text Mining — mineração de textos em português
— e pode ser realizado a partir de diversas técnicas, cada vez mais desenvolvidas.

Neste tópico, você aprenderá a reconhecer o conceito de Text Mining,


saberá descrever o processo de descoberta de conhecimento em textos e conhecerá
as principais ferramentas de mineração de textos.

2 O CONCEITO DE TEXT MINING


A mineração de texto é um campo interdisciplinar que combina técnicas
de linguística, ciência da computação e estatística para construir ferramentas que
possam recuperar e extrair informações de forma efi ciente do texto digital.

Objetivamente, a mineração de texto refere-se à forma de conseguir


informações importantes a partir de um texto. Essas informações, geralmente,
são obtidas a partir da construção de padrões e tendências, como, por exemplo,
padrão estatístico de aprendizagem. Normalmente, a mineração de texto circunda
o processo de estruturação do texto de entrada, de derivação de padrões dentro
de uma estrutura de dados e de avaliação e interpretação do resultado. Essas
informações importantes em mineração de texto são relativas a combinações de
relevância, originalidade e interesse.

Dentre as tarefas de mineração de texto, pode-se incluir a categorização e o


agrupamento de texto, a extração de conceito/entidade, a produção de taxonomias
granulares, a análise de sentimentos, resumo de documentos e a modelagem de
relações entre entidades.

A mineração de texto envolve informações de recuperação, análise lexical


utilizada para estudar a frequência de distribuição de palavras, o reconhecimento
de padrões, a identificação/anotação, a extração de informações, as técnicas
de mineração de dados, em que se pode incluir link e associação de análises, a
visualização e a analítica preditiva. Seu objetivo é transformar o texto em dados
para análise por meio da aplicação do processamento de linguagem natural (PLN)
e de métodos analíticos.

189
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

O campo de maturação da mineração de textos tem como objetivo resolver


problemas relacionados à recuperação, extração e análise de informações não
estruturadas em texto digital e revolucionar a forma como os cientistas acessam
e interpretam dados que, de outra forma, poderiam permanecer enterrados na
literatura.

Segundo Aranha e Passos (2006), dentre as técnicas utilizadas, pode-se


citar:

• Indexação: utilizada para fazer uma busca rápida de documentos a partir de


palavras-chave. Nessa técnica, um aumento de desempenho é proporcionado
por uma estrutura de dados de armazenamento, recuperam-se dados textuais,
sendo possível, inclusive, realizar cálculos com múltiplas palavras-chave a
partir da ordenação segundo a avaliação para cada documento.
• PLN (processamento de linguagem natural): técnica que utiliza conhecimentos
da linguística, permitindo o máximo aproveitamento do conteúdo do texto,
extraindo as entidades e relacionamentos, corrigindo palavras, verificando
sinônimos.
• Mineração de dados: essa técnica é muito pertinente para atuação sobre banco
de dados, tornando possível a identificação de conhecimentos relevantes da
base de dados. Na mineração de dados, aplicam-se classificação, clusterização
e otimização.

Na figura a seguir você pode ver um exemplo de tarefas de mineração por


clusterização.

FIGURA 11 – TEXT MINING TASKS — EXEMPLO DE CLUSTERIZAÇÃO

FONTE: Bruley (2014, s.p.)

Dentre as técnicas de mineração de dados aplicadas à mineração de textos,


estão a mineração por classificação, clusterização e otimização. Nos próximos
parágrafos, você aprenderá um pouco mais sobre cada uma dessas técnicas.

190
TÓPICO 4 | MINERAÇÃO DE TEXTOS (TEXT MINING)

2.1 MINERAÇÃO DE TEXTO POR CLASSIFICAÇÃO


Nesta funcionalidade, vários atributos podem ser utilizados para
identificar uma classe específica de itens. São atribuídos itens às categorias ou
classes de destino pela classificação, de forma que possa ser previsto com uma
maior precisão o que poderá ocorrer dentro das classes. É uma técnica que, por
exemplo, geralmente, é utilizada dentro do marketing para classificar o público
para suas campanhas.

2.2 MINERAÇÃO DE TEXTO POR CLUSTERING


A funcionalidade de clustering agrupa registros semelhantes, ou seja,
em grupos de elementos que possuem as mesmas propriedades a fim de que o
usuário final possa, entre outras coisas, saber o que está ocorrendo no banco de
dados. Essa técnica é bastante utilizada pelo marketing para saber quais objetos
podem ajudar na segmentação, como, por exemplo, segmentando o mercado em
subconjuntos de clientes, e cada um desses subconjuntos poderá ser direcionado
para uma estratégia de marketing diferente, com padrões diferentes para
diferentes tipos de clientes.

2.3 MINERAÇÃO TEXTO POR OTIMIZAÇÃO


Essa funcionalidade tem como premissa otimizar os recursos limitados,
como, por exemplo: tempo, espaço, dinheiro, matéria-prima, recursos humanos,
entre outros. Dessa forma, pretende alcançar maiores resultados em variáveis,
como, por exemplo, aumento de vendas, lucros, distribuição, economia,
entre outras. Aproxima-se da área de pesquisa operacional, objetivando tratar
problemas de otimização que tenham restrições. Na figura a seguir apresentada a
seguir, temos um exemplo da mineração de texto por otimização.

FIGURA 12 – EXEMPLO DE EXTRAÇÃO DE ENTIDADES

FONTE: Aranha e Passos (2006, p. 6)

191
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

A figura a seguir representa as funcionalidades em mineração de dados,


mostrando que diferentes funcionalidades são utilizadas para tipos diferentes de
análise; neste caso, estão representadas as funcionalidades para análise preditivas
e de prognóstico.

FIGURA 13 – FUNCIONALIDADES EM MINERAÇÃO DE DADOS

FONTE: Côrtes, Porcaro e Lifschitz (2002, s.p.).

3 PROCESSO DE DESCOBERTA DE CONHECIMENTO


EM TEXTOS
Atualmente, um grande número de dados são gerados a cada instante por
sistemas que dão respaldo às atividades das organizações e que dificultam a tarefa
de análise dos gestores. A partir disso, criaram-se os Sistemas de Apoio à Decisão
(SADs) para apoiar, contribuir e influenciar em tomadas de decisões. Diante dos
dados das transações das empresas, é possível, com base nesses sistemas, gerar
informações que facilitem o processo de gestão.

Dessa forma, passa a ser fundamental a utilização da técnica de


mineração de texto (Knowledge Discovery in Texts, KDT) a fim de identificar
os padrões e conhecimentos necessários para auxiliar em tomadas de decisões.
O conhecimento construído pode determinar se é, ou não, de relevância para
o usuário/cliente, avaliando o desempenho do processo de mineração de textos
para gerar conhecimentos. Para essas avaliações, são utilizadas métricas, de forma
que as principais são relacionadas a desempenho, precisão, cobertura e exatidão.

192
TÓPICO 4 | MINERAÇÃO DE TEXTOS (TEXT MINING)

O processo de mineração de textos é divido em quatro etapas:

• Seleção: os documentos importantes devem ser escolhidos e serão processados.


• Pré-processamento: ocorre a conversão de documentos em estrutura que tenha
compatibilidade com o minerador, assim como um tratamento especial do
texto. Essa etapa pode ser dividida em subetapas, que são:
◦ tokenização;
◦ remoção de StopWords;
◦ redução do léxico;
◦ frequência de documentos;
◦ naive Bayes;
◦ conflação;
◦ normalização de sinônimos;
◦ indexação.
• Mineração: o minerador detectará padrões embasado no algoritmo definido.
• Assimilação: os usuários/clientes utilizarão conhecimento gerado para apoiar
decisões que devam ser tomadas.
Na figura a seguir temos o infográfico referente às quatro etapas que
fazem parte do processo de mineração de textos.

FIGURA 14 – PROCESSO DE MINERAÇÃO DE TEXTO

FONTE: Devmedia (2016, s.p.).

Dentro do pré-processamento, também temos a tokenização, a primeira


etapa, que tem como objetivo seccionar o documento de texto em unidades mínimas,
que apresentem a mesma semântica do texto. O termo token é utilizado para designar
essas unidades, porque, às vezes, elas não podem ser consideradas palavras ou ainda
apresentam mais de uma palavra, como, por exemplo, “guarda-chuva”.

Na Figura 14, é apresentada a metodologia proposta em Kondchady


(2006 apud SOARES, 2008), na qual, a partir da utilização de dicionários de dados
e regras de formação de palavras, mantém-se o mesmo nível semântico que é
apresentado pelos tokens de um texto antes de ocorrer o processo de tokenização.

193
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

FIGURA 15 – METODOLOGIA DE IDENTIFICAÇÃO DE TOKENS

FONTE: Soares (2008, p. 45)

A próxima etapa é a de StopWords, na qual é realizada a identificação do que


poderá ser retirado do processamento de dados; trata-se de uma forma de retirar
aquilo que não produzirá conhecimento nos textos. Geralmente, são palavras
como conjunções, preposições, pronomes e artigos, porque são consideradas de
menor relevância. Por meio de uma stoplist bem feita, é possível eliminar termos
irrelevantes, fazendo com que o resultado obtido seja mais eficiente.

Para a realização da mineração de texto, também é aplicada a técnica de


redução do léxico, que tem por objetivo obter somente tokens importantes, que
traduzem a essência do texto. A partir disso, ocorre a seleção de características,
em que se define o subconjunto mais discriminante das características, fazendo
com que, dessa forma, o espaço inicial seja menor, trazendo o aumento de
desempenho das tarefas de mineração e a diminuição do tempo de execução dos
algoritmos utilizados.

194
TÓPICO 4 | MINERAÇÃO DE TEXTOS (TEXT MINING)

A frequência de documentos utiliza como critério computar o número de


documentos em que um termo específico aparece e remove aqueles que tenham
uma frequência abaixo da espera e predefinida.

Dentre os algoritmos utilizados na mineração de textos, pode-se citar


o naive Bayes, que projeta um classificador com base nas probabilidades
incondicionais de um atributo que venha a partir do conjunto de treinamento. Esse
classificador se baseia na suposição de que vários atributos são independentes
condicionalmente de acordo com o valor final da função de saída. Dessa forma,
a probabilidade da ocorrência de uma conjunção de atributos em um referido
exemplo é igual ao produto da probabilidade da ocorrência de cada atributo de
forma isolada.

A conflação ocorre quando um grupo de palavras diferentes pode


compartilhar um mesmo radical; a mineração, nesse caso, deverá identificar esses
grupos de palavras, que são pequenas variações sintáticas umas das outras, de
modo que se torna possível armazenar apenas o radical.

Nas subetapas normalização e indexação, o objetivo é tornar mais fácil


a identificação da similaridade de significado entre as palavras a partir das
variações de ordem morfológicas e problemas de sinonímia. Tem como resultado
a geração de índice que é construído por meio do processo de indexação. Esse
processo identifica as características do documento e coloca-as em uma disposição
chamada índice.

4 EXEMPLOS DE FERRAMENTAS DE MINERAÇÃO DE TEXTOS


Para realizar a mineração de dados, existem algumas ferramentas
auxiliando no processo. Dentre elas, pode-se citar:

• TextAlyser: ferramenta gratuita on-line para analisar textos destacando grupos de


palavras. Permite ao usuário descobrir de forma rápida o assunto principal do
texto que está sendo analisado, verificando as palavras e expressões utilizadas.
• Wordcounter: ferramenta criada por Steven Morgan Friedman, também on-
line e gratuita, que apresenta uma relação de palavras mais utilizadas em um
texto, ou seja, mostra as palavras redundantes em uma lista, e tem por objetivo
encontrar estatísticas de uso de palavras e termos no texto.
• TagCrowd: trata-se de uma ferramenta on-line, criada por Dainel Steinbock,
que permite a criação de nuvens de marcadores de qualquer texto em diversos
idiomas. Apresenta os textos de uma forma mais visual do que as anteriores,
dando ênfase aos termos e palavras mais frequentes.
• Sobek: ferramenta criada por uma equipe multidisciplinar da Universidade
Federal do Rio Grande do Sul que pode ser executada em computadores
com sistemas operacionais, como, por exemplo, Windows, Linux ou Mac
OS, e permite utilização sem restrições. Essa ferramenta pode minerar textos
em diferentes formatos de uma forma rápida e se diferencia das demais
por apresentar principais conceitos no texto e o relacionamento entre eles,
utilizando grafos, mas não está disponível on-line.
195
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

A seguir, na figura a seguir veja um exemplo referente à mineração de


texto.
FIGURA 16 – EXEMPLO DE MINERAÇÃO DE TEXTO

FONTE: Hokanson (2013, s.p.)

196
RESUMO DO TÓPICO 4

Nesse tópico você aprendeu:

• Reconhecer o conceito de Text mining.

• Descrever o processo de descoberta de conhecimento em textos.

• Enumerar as principais ferramentas de Text Mining.

• Que O processo de mineração de texto é divido em quatro etapas, sendo uma de


suas etapas dividida em quatro subetapas. São elas: seleção, pré-processamento,
mineração e assimilação. A etapa de pré-processamento é dividida em subeta-
pas: remoção de StopWords, conflação, normalização de sinônimos e indexação.

• Neste Infográfico, você vai conhecer mais sobre cada uma das etapas e subetapas.

197
198
AUTOATIVIDADE

1 A mineração de texto é realizada para obter informações importantes de um


texto por meio da elaboração de padrões e tendências por meio de padrões
estatísticos. Quais são os benefícios da mineração de texto?

a) ( ) Busca de informações implícitas em documentos, análise gradativa de


grandes volumes de textos e uma melhor compreensão dos conteúdos
que estão indisponíveis em documentos textuais.
b) ( ) Busca de informações específicas em documentos, análise qualitativa e
quantitativa de grandes volumes de textos e uma melhor compreensão
dos conteúdos disponíveis em documentos textuais.
c) ( ) Busca de informações explícitas em documentos, análise qualitativa
de textos e compreensão de conteúdos que estão disponíveis em
documentos na web.
d) ( ) Busca de informações específicas em documentos, análise gradual de
grandes volumes de textos e uma melhor compreensão dos conteúdos
disponíveis em documentos textuais.
e) ( ) Busca de informações explícitas em documentos, análise qualitativa
e quantitativa de pequenos textos e uma baixa compreensão dos
conteúdos disponíveis em documentos textuais.

2 Recuperação de informação, KDT e mineração de textos têm alto grau de


dependência no que diz respeito ao processamento de linguagem natural,
especialmente utilizando processos de linguística computacional. Assinale
a alternativa que corresponde ao processamento de linguagem natural.

a) ( ) Faz uso de computador para interpretar e manipular palavras como


parte da linguagem.
b) ( ) Realizar uma combinação das palavras que são variantes morfológicas
em várias formas de representação.
c) ( ) Idealiza um tratamento no texto, impedindo a definição de uma
estrutura compatível com as entradas dos algoritmos de mineração.
d) ( ) Impede que documentos relevantes sejam escolhidos e processados.
e) ( ) Transforma o texto em documentos para análise, sem um
processamento de linguagem natural e de métodos analíticos.

3 Qual o é objetivo principal da indexação e normalização dos textos?

a) ( ) Facilitar a identificação de similaridade de significado entre suas palavras,


considerando as variações morfológicas e problemas de sinonímia.
b) ( ) Facilitar a identificação de diferentes significados entre suas palavras,
considerando as variações morfológicas e problemas de processamento.
c) ( ) Facilitar, selecionar e identificar diferentes significados entre suas
palavras, sem considerar as variações morfológicas e problemas de
processamento.

199
d) ( ) Minerar, selecionar e identificar semelhantes significados entre suas
palavras, sem considerar as variações morfológicas e problemas de
processamento.
e) ( ) Minerar, selecionar e assimilar semelhantes significados entre suas
palavras, sem considerar as variações morfológicas e problemas de
processamento

4 Qual é a finalidade da utilização da técnica de mineração de texto


(Knowledge Discovery in Texts — KDT)?

a) ( ) Identificar os padrões e conhecimentos necessários para auxiliar em


tomadas de decisões.
b) ( ) Identifica o processo de descoberta de conhecimento, potencialmente
inútil e previamente conhecido, em bases de dados desestruturadas.
c) ( ) Gerar conhecimento irrelevante para a área de negócios, o que facilita
a tomada de decisões
d) ( ) Padronizar conhecimentos não tão explícitos e menos relevantes em
bases de dados estruturadas.
e) ( ) Potencializar padrões e conhecimentos, dificultando a tomada de
decisões.

5 Assinale a alternativa que representa corretamente uma das principais


ferramentas de mineração de texto.

a) ( ) TagCrowd, pode ser executada em computadores com sistemas


operacionais como, por exemplo: Windows, Linux ou Mac OS. Se
diferencia das demais por apresentar os principais conceitos no texto e o
relacionamento entre eles, utilizando grafos; porém, não está disponível
on-line.
b) ( ) TextAlyser, pode ser executada em computadores com sistemas
operacionais como, por exemplo: Windows, Linux ou Mac OS. Se
diferencia das demais por apresentar os principais conceitos no texto
e o relacionamento entre eles, utilizando grafos; on-line e gratuita.
c) ( ) WordCounter, uma ferramenta gratuita on-line para analisar textos
destacando grupos de palavras, permitindo que o usuário descubra,
de forma rápida, o assunto principal do texto que está sendo analisado,
verificando as palavras e expressões utilizadas.
d) ( ) Sobek, ferramenta criada por Steven Morgan Friedman, também on-
line e gratuita, que apresenta uma relação de palavras mais utilizadas
em um texto, ou seja, mostra as palavras redundantes em uma lista e,
tem por objetivo encontrar estatísticas de uso de palavras e termos no
texto.
e) ( ) TextAlyser, uma ferramenta gratuita on-line que destaca grupos
de palavras, permitindo ao usuário que descubra de forma ágil
o principal assunto do texto que está em análise, verificando as
palavras e expressões utilizadas.

200
UNIDADE 3 TÓPICO 5

APRENDIZADO DE MÁQUINA (MACHINE LEARNING)

1 INTRODUÇÃO
No aprendizado de máquina, temos uma junção entre recursos
computacionais, inteligência artificial, dados, dentre outros elementos. Esses
sistemas devem estar aptos não só a memorizar dados, mas também a observá-
los e explorá-los para que suas habilidades evoluam por meio da prática e,
consequentemente, da construção do conhecimento.

Neste tópico, você aprenderá conceitos fundamentais sobre o aprendizado


de máquina, assim como seus poderosos algoritmos e, por fim, conhecerá algumas
aplicações do aprendizado de máquina.

2 CONCEITOS SOBRE APRENDIZADO DE MÁQUINA


O termo aprendizado engloba alguma experiência ou prática sobre
algum assunto. Neste caso, especificamente, o aprendizado de máquina remete
à inserção desse conceito em máquinas computacionais. Porém, sempre há um
propósito e, aqui, veremos a relação do aprendizado de máquina com os dados.

Antigamente, adquiríamos conhecimento por meio de livros, pesquisas,


entrevistas, entre outros meios, e esses conhecimentos eram aplicados ao
desenvolvimento de métricas voltadas ao uso dos recursos computacionais.
Com o tempo, além dos recursos, as tecnologias foram sendo aplicadas a outras
vertentes, e uma delas é a inteligência artificial.

Nós, seres humanos, temos a capacidade de raciocinar, ao contrário de


uma máquina. Apesar de atualmente podermos contar com esses artefatos para
quase tudo, eles ainda desempenham apenas funcionalidades pré-programadas.
É aí que entra a inteligência artificial, a qual, como o nome já diz, proporciona o
conhecimento a esses mecanismos por meio de dados.

Conforme Amaral (2016), aprendizado de máquina computacional


(AM) é a aplicação de técnicas computacionais com o objetivo de encontrar
padrões ocultos em dados. Segundo o autor, esses padrões ocultos são aquelas
características que não podem ser observadas tão claramente nos dados. Assim,
ainda sob a ótica de Amaral (2016), além de estar relacionado à inteligência
artificial, o aprendizado de máquina está interligado, também, com a estatística
e, consequentemente, com a mineração de dados. Por esse motivo, o autor ainda

201
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

ressalta a diferença entre ambos os termos e suas respectivas aplicações: enquanto


o aprendizado de máquina trata de algoritmos que buscam reconhecer padrões
em dados, a mineração de dados é a aplicação desses algoritmos em grandes
conjuntos de dados em busca de informação e conhecimento.

Em torno desse tema, ainda podemos mencionar Big Data, a qual lida com
grande quantidade de dados — se não fosse por esses conceitos, o aprendizado de
máquina não teria ativo suficiente. Para Coppin (2010), na maioria dos problemas
de aprendizado, a tarefa é aprender a classificar entradas de acordo com um
conjunto finito (ou, às vezes, infinito) de classificações. Tipicamente, um sistema
de aprendizado é dotado de um conjunto de dados de treinamento que foram
classificados manualmente. O sistema, então, tenta aprender, a partir desses dados
de treinamento, a como classificar esses mesmos dados (geralmente, uma tarefa
relativamente fácil) e também a como classificar novos dados ainda não observados.

De acordo com Carvalho et al. (2011, p. 113), os algoritmos de treinamento


Aprendizado
são formados por um conjunto de regras bem definidas de máquina (Machine
que especificam quando Learning)
e como deve ser alterado o valor de cada peso. É interessante ressaltar alguns
conceitos, os quais são trazidos a seguir.

Quadro 1. Conceitos do aprendizado de máquina


QUADRO 1 – CONCEITOS DO APRENDIZADO DE MÁQUINA

Treinamento O treinamento faz parte do aprendizado de máquina,


já que é devido ao uso de algoritmos e à inserção de
dados que a máquina adquire os conhecimentos ne-
cessários para desempenhar as funções para as quais foi
designada.

Indução O processo de indução traz a procura de uma melhor


hipótese, ou seja, de uma melhor resposta ou solução
para determinada situação.

Regras Limitam as possibilidades do algoritmo de aprendizado


de máquina.

Hipóteses São possíveis conclusões, ou seja, possíveis respostas


predeterminadas e que são provadas, ou não, ao final.
FONTE: O autor

Deve haver a caracterização dos dados, em que esses são analisados


para definir tipo, que determina se os atributos do objeto são quantitativos
ou números, ou qualidade, de acordo com a qual podem ser chamados
de qualitativos, simbólicos (que são facilmente compreendidos por nós,
humanos) ou categóricos (quando os202 atributos possuem valores em um
conjunto finito).
TÓPICO 5 | APRENDIZADO DE MÁQUINA (MACHINE LEARNING)

Deve haver a caracterização dos dados, em que esses são analisados para
definir tipo, que determina se os atributos do objeto são quantitativos ou números,
ou qualidade, de acordo com a qual podem ser chamados de qualitativos,
simbólicos (que são facilmente compreendidos por nós, humanos) ou categóricos
(quando os atributos possuem valores em um conjunto finito).

Além do tipo, escalas são definidas e caracterizam quais operações podem


ser realizadas com os valores de cada atributo.

As escalas podem ser:

• Nominais (quando os valores apresentados possuem nomes diferentes e não


trazem muitas informações), como, por exemplo, RG, CPF.
• Ordinais, que estão relacionados à ordem das categorias, como, por exemplo,
temperatura, se está frio ou quente.
• Intervalares, que são números que podem variar dentro de um intervalo, como,
por exemplo, a temperatura variar entre 10 a 15 graus em dias de inverno em
uma mesma região.
• Racionais, que trazem mais informações sobre o atributo, como, por exemplo,
a quantidade de vezes que um aluno cursou tal disciplina.

E
IMPORTANT

Um exemplo de tipo de dado qualitativo é o indicativo de se ele é grande,


pequeno ou médio. Além disso, eles ainda podem ser contínuos, quando seu número de
valor é indefinido, e discretos, quando os valores são definidos.

A exploração dos dados pode contribuir na definição de métricas


coerentes e com o aprendizado de máquina. Um dos conceitos mais utilizados
para isso é a estatística descritiva, cujo objetivo é resumir de maneira quantitativa
as características mais relevantes de um conjunto de dados.

Ainda sobre a exploração dos dados, temos os dados univariados, com os


quais, em um conjunto de dados, o mesmo valor de um atributo pode surgir mais
de uma vez, ou seja, podem repetir-se, por exemplo, caso haja dados de cadastro
de pessoas, e, em algum momento, o nome da mesma pessoa pode surgir mais de
uma vez, com os mesmos dados de peso ou idade. Eles podem ser de: medidas
de localidade (pontos de referências, que podem ser numéricos ou simbólicos),
medidas de espalhamento (permitem a observação em relação à concentração de
um conjunto de valores em um só valor — as medidas mais comuns são intervalo,
variância, desvio padrão, dentre outras), medidas de distribuição, que são definidas
por meio da média de um conjunto de valores. Os dados também podem ser
multivariados, que são os dados que possuem mais de um atributo de entrada.

203
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

Outro fator primordial é o pré-processamento de dados, que é importante


tendo em vista que os dados podem surgir das mais variadas fontes e qualquer
anomalia (como ruídos, imperfeições, dados incorretos, duplicados, dentre
outros) pode afetar todo o conjunto de dados. Para evitar esse tipo de situação,
existem algumas técnicas de processamento. Dentre as mais variadas técnicas,
podemos mencionar:

• Eliminação manual de atributos: pode ocorrer quando alguns valores de


atributos passam a ser irrelevantes para o contexto.
• Integração de dados: traz a necessidade da identificação dos objetos e de seus
respectivos conjuntos. Cada conjunto de dados pode representar diferentes
atributos de um mesmo grupo de objetos.
• Amostragem de dados: a amostragem pode ocorrer por meio de uma
representação dos dados originais.
• Dados desbalanceados: é um fator observado quando o conjunto de dados
apresenta valores irregulares. Para isso, pode-se utilizar artifícios para
balancear os dados, como redefinição de conjunto de dados, classificadores
para diferentes classes, dentre outros.
• Limpeza dos dados: ocorre para evitar dados incompletos, inconsistentes,
redundantes e com ruídos.
• Transformação dos dados: ocorrem conversões simbólico-numéricas,
numérico-simbólicas e transformações de atributos numéricos.
• Redução de dimensionalidade: podem ocorrer devido a agregação, seleção de
atributos, técnicas de ordenação e de seleção de subconjuntos.

No geral, podemos afirmar que existem alguns tipos de aprendizado de


máquina, dentre os quais podemos citar:

• Supervisionado: traz um objetivo estabelecido e pode ser dividido entre


problemas de regressão e de classificação.
• Não supervisionado: quando o objetivo não está bem definido e temos o intuito
de compreender melhor os dados para realizar o agrupamento.
• Por reforço: quando as saídas não estão bem definidas e as respostas só podem
ser aferidas após algumas execuções.

No próximo tópico, você verá como isso tudo pode ser desempenhado
por uma máquina.

3 ALGORITMOS DE APRENDIZADO DE MÁQUINA


O aprendizado pode ocorrer de diversas formas, já que tudo dependerá
do algoritmo que será utilizado. Mas o que seria algoritmo? Algoritmo nada mais
é do que o passo a passo da resolução de um problema; neste caso, resolvemos
por meio das linguagens de programação, já que temos que nos comunicar com
os componentes computacionais. Essas linguagens traduzem para o computador
o que nós, humanos, queremos que ele desempenhe.

204
TÓPICO 5 | APRENDIZADO DE MÁQUINA (MACHINE LEARNING)

Para isso, precisamos seguir alguns passos primordiais, até porque a


máquina irá adquirir o conhecimento conforme os dados e as métricas que foram
programadas anteriormente. A diversidade entre os problemas que são tratados
com o uso de recursos computacionais faz com que haja a geração de um grande
volume de dados oriundos de diferentes setores. Consequentemente, as máquinas
acabam tendo que acompanhar a demanda social. Na inteligência artificial e no
aprendizado de máquina, deve ocorrer o desenvolvimento de métricas, a partir das
quais as máquinas devem ser capazes de criar hipóteses e, assim, resolvê-las.

Conforme Carvalho et al. (2011, p. 2), um exemplo simples é a descoberta de


uma hipótese na forma de uma regra ou conjunto de regras para definir que clientes
de um supermercado devem receber material de propaganda de um novo produto,
utilizando, para isso, dados de compras passados dos clientes cadastrados na base
de dados do supermercado. A esse processo de indução de uma hipótese (ou
aproximação de função) a partir da experiência passada, dá-se o nome aprendizado
de máquina (AM). Ainda sob o ponto de vista dos autores, os algoritmos de AM
aprendem a induzir uma função ou hipótese capaz de resolver um problema a
partir de dados que representam instâncias do problema a ser resolvido. Esses
dados formam um conjunto, simplesmente denominado conjunto de dados.

Uma hipótese pode ser compreendida como uma ideia inicial, uma suposição
de algo, ou seja, você sugere algo, mas, posteriormente, terá que comprovar se sua
ideia está, ou não, correta. Métricas, nesse contexto, representam metodologias,
que serão seguidas para comprovar ou até mesmo desenvolver novas hipóteses.

Sobre a hipótese, dizemos que há uma indução. Como exemplo, podemos


imaginar um conjunto de dados de estudantes de uma escola, em que cada aluno,
ou seja, cada objeto, possuirá seus atributos. Nesse contexto, os atributos, que
representam as características de um objeto, podem ser chamados também de
variáveis. Como atributos, podemos citar nome, idade, sexo, ano escolar, dentre
outros.

Um algoritmo de aprendizado de máquina aprende por meio dos


dados, que são denominados conjunto de treinamento, ou seja, é um modelo
ou hipótese que relaciona os valores dos atributos de entrada e o conjunto de
treinamento ao valor de saída. Nem sempre os dados obtidos são regulares, ou
seja, são livres de anomalias. Por isso, o objetivo do algoritmo é o de ser capaz
de indicar uma hipótese, ou seja, uma possível solução correta diante de dados
diversos, mas que podem ter algo em comum e que, claro, sejam relevantes para
se atingir o objetivo esperado.

Os algoritmos podem utilizar formas de representações diversas para cada


hipótese. Podemos destacar, aqui, alguns tipos, como redes neurais, árvores de
decisão ou até mesmo vieses.

205
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

FIGURA 17 – DIFERENTES VIESES DE REPRESENTAÇÃO

FONTE: Carvalho et al. (2011, p. 5)

O viés é responsável pela restrição das hipóteses a serem visitadas no


espaço de busca, ou seja, essa busca retrata a maneira com que o algoritmo
procura pela melhor hipótese conforme seus dados de treinamento. Além do viés
de busca, podemos citar, também, o viés de representação. O aprendizado requer
algumas tarefas de aprendizado, as quais são: preditivas, que buscam antecipar,
e descritivas, que buscam descrever um conjunto de dados.

A Figura a seguir mostra a hierarquia existente no aprendizado indutivo.

FIGURA 18 – HIERARQUIA DE APRENDIZADO

FONTE: Carvalho et al. (2011, p. 6)

No topo da Figura 2, vemos o aprendizado indutivo, processo pelo qual


são realizadas as generalizações a partir dos dados. Tem-se, em seguida, os tipos
de aprendizado supervisionado (preditivo) e não supervisionado (descritivo).

206
TÓPICO 5 | APRENDIZADO DE MÁQUINA (MACHINE LEARNING)

No aprendizado supervisionado ou preditivo, os métodos recebem como


entrada dados rotulados e usam esses dados e seus atributos para determinar um
novo conjunto de dados desconhecidos (CARVALHO et al., 2011; DIAS; PASCUTTI;
SILVA, 2016). Os algoritmos do aprendizado supervisionado passam por uma etapa
denominada treinamento, na qual o classificador vai aprender um determinado
padrão de acordo com os dados utilizados para treinar o sistema (FERREIRA
JUNIOR, 2015). O aprendizado supervisionado resolve problemas de:

• Regressão: mapeiam um exemplo em um valor real. Um exemplo de regressão


é prever o tempo de internação de um paciente em um hospital.
• Classificação: associa a descrição de um objeto a uma classe. Um exemplo de
classificação é determinar a doença de um paciente pelos seus sintomas.

No aprendizado não supervisionado ou descritivo, agrupam-se objetos de


acordo com suas características (FERREIRA JÚNIOR, 2015). Essa aprendizagem
recebe dados do tipo {x1, x2.. xn} e encontra associações entre esses dados (DIAS;
PASCUTTI; SILVA, 2016). O aprendizado não supervisionado resolve problemas
de (CARVALHO et al., 2011, p. 6).

• Agrupamento: os dados são agrupados de acordo com sua similaridade.


• Sumarização: busca encontrar uma descrição simples e compacta para um
conjunto de dados.
• Associação: consiste em encontrar padrões frequentes de associações entre os
atributos de um conjunto de dados

Além dos aprendizados supervisionados e não supervisionados, existe


o aprendizado semissupervisionado, que é utilizado quando os problemas
possuem uma pequena quantidade de dados rotulados e os dados não rotulados
são utilizados para constituir o conjunto de treinamento (DIAS; PASCUTTI;
SILVA, 2016).

Vários algoritmos foram desenvolvidos para implementar os aprendizados


supervisionado e não supervisionado. O quadro a seguir, apresenta alguns desses
algoritmos (FERREIRA JÚNIOR, 2015; SILVA, 2016; DIAS; PASCUTTI; SILVA,
2016; CARVALHO et al., 2011).

207
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

Quadro
QUADRO 2 –2.ALGORITMOS
Algoritmos para aprendizado
PARA supervisionado
APRENDIZADO e não supervisionado
SUPERVISIONADO E NÃO SUPERVISIONADO

Modelo Tipo Algoritmo Características

Supervisio- Regressão Regressão Recebe valores de determinadas


nado linear variáveis e, por meio de equações,
traz estimativas, as quais passam a ser
aplicadas por outras variáveis.

Classificação Naïve Bayes Busca calcular a probabilidade de


algo após as variáveis terem sido
caracterizadas anteriormente.

Algoritmo Constrói um modelo indicando


máquina vetor onde o objeto se enquadra, utili-
de suporte zando um classificador e um analisa-
dor por regressão (linear binário não
probabilístico).

Regressão Possibilita a definição de caracterís-


logística ticas semelhantes a determinados
grupos de variáveis.

Árvores de Realizam uma procura top-down nos


decisão dados calculando todas as árvores
possíveis. Quando a árvore é muito
complexa, seu tamanho é reduzido
para que ela seja o mais generalista
possível. Para classificar um elemento,
a árvore é percorrida e, quando uma
instância encontra a folha, a sua classe
é a classe da folha correspondente.

Redes neurais É baseado no sistema de aprendiza-


artificiais gem biológico, formado pela inter-
ligação dos neurônios. Assim como
nos neurônios, o sistema conecta
várias unidades simples, que recebem
a informação de outros elementos
(entradas) e enviam as informações
processadas para outros elementos.
Esses algoritmos aprendem exemplos
e generalizam conceitos.

K-Vizinhos A classificação de um item é reali-


mais próximos zada comparando as similaridades
do item a ser classificado com os
dados de treinamento.

(Continua)
208
Quadro 2. Algoritmos para aprendizado supervisionado e não supervisionado

TÓPICO 5 | APRENDIZADO DE MÁQUINA (MACHINE LEARNING)


Modelo Tipo Algoritmo Características

Não super- Agrupamento K-Means É um algoritmo particional, que divide


visionado os dados em grupos (clusters) não
interseccionados, em que um objeto
faz parte apenas de um grupo. O
algoritmo encontra a melhor divisão
de X dados em K grupos, agrupando
os dados semelhantes. Cada grupo é
representado pelo seu centro e cada
dado é incluído no grupo que está
mais próximo.

Hierárquicos A sequência de partições aninha-


das são geradas baseadas em uma
matriz de proximidade. O resultado
desses algoritmos depende da
ordem de entrada dos dados.

Grafos Algoritmos realizam o agrupamento


utilizando grafos de proximidade.

FONTE:
Fonte: Adaptado Adaptado
de Ferreira de(2015),
Junior Ferreira
SilvaJunior
(2016), (2015), Silva e(2016),
Dias, Pascutti Dias,
Silva (2016) Pascuttiet al. (2011).
e Carvalho
e Silva (2016) e Carvalho et al. (2011)

4 APLICAÇÕES DO APRENDIZADO DE MÁQUINA


Aplicações do aprendizado de máquina
Assim como a diversidade dos algoritmos, existem diversos exemplos de
aplicações do aprendizado de máquina, e um bem interessante é mencionado
Assim
no Guiacomo a diversidade
do Google (GOOGLE dosCLOUD,
algoritmos, existem
2017), diversos
que relata que oexemplos
objetivo de
da
inteligência artificial (IA) vai além da simples automatização de tarefas
aplicações do aprendizado de máquina, e um bem interessante é mencionado que antes
eram manuais.
no Guia do Google (GOOGLE CLOUD, 2017), que relata que o objetivo da
inteligência artificial (IA) vai além
No contexto do da simples
varejo automatização
on-line, por exemplo, osde algoritmos
tarefas que de
aprendizado de máquina são capazes de processar e analisar volumes
antes eram manuais. imensos de dados de consumidores conforme os compradores em
potencial navegam na loja on-line ou no aplicativo para dispositivos
móveis
No contexto de um varejista.
do varejo Quanto
on-line, por mais dados
exemplo, o modelode
os algoritmos processar, mais
aprendizado
ele se aproxima de compreender quando e por que um comprador
de máquina são capazes
específico de processar
decidirá fazer uma e analisar volumes
determinada imensosEm
compra. de dados
algum
de consumidores
momento,conforme os compradores
esse aprendizado se tornaempreditivo,
potencialpermitindo
navegam naquelojao
varejista
on-line ou selecione
no aplicativo o dispositivos
para produto certomóveis
para uma
de umdeterminada pessoa
varejista. Quanto
no momento certo. Este nível de personalização, antes atingido por
mais dados o modelo processar, mais ele se aproxima de compreender quando
pequenos comerciantes de cidadezinhas que sabiam os nomes e idades
e por quedos
umfilhos
comprador específico
da cliente, agora sedecidirá fazerpossível
tornou algo uma determinada com-
em grande escala
pra. Em algum
(GOOGLE momento,
CLOUD, esse aprendizado
2017, s.p.). se torna preditivo, permitindo
que o varejista selecione o produto certo para uma determinada pessoa no

209
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

No entanto, esses conceitos não são aplicados apenas no mercado de


negócios financeiros, mas também na área da agricultura, da saúde, dentre
outras. A demanda social exige cada vez mais recursos naturais e, com o tempo,
as companhias de energia buscam novas fontes e melhorias em seus processos,
de modo que o aprendizado de máquina pode ser nesse contexto. Conforme
Carvalho et al. (2011, p. 326), algoritmos de aprendizado de máquina têm sido
utilizados em diversas aplicações, relacionados tanto a aspectos operacionais,
como distribuição, exploração, geração de recursos energéticos, quanto a aspectos
relacionados a planejamento e comercialização de energia. Nessas aplicações, os
algoritmos têm sido utilizados principalmente em ferramentas de otimização
e de suporte à tomada de decisão. Dentre as principais aplicações, podem ser
listadas: previsão de carga, de preço; planejamento reativo, de expansão de
sistemas de distribuição, de redistribuição de alimentadores, de agendamento de
geradores, de minimização de perdas; controle da operação; proteção de sistemas
de energia; composição de fontes energéticas; previsão de rompimento de dutos,
dentre outros.

Na área da saúde esses algoritmos estão sendo utilizados para mapear


características comuns a diversos contextos, como epidemias, por exemplo. Na
prática, ocorre o armazenamento dos dados e algoritmos desempenham suas
funções sob eles, determinando os dados relevantes para o processo, como
idade, sexo, quantas vezes o paciente contraiu aquela doença, dentre outras
informações. Ainda nesse universo, as ferramentas computacionais dão agilidade
ao armazenamento de informações sobre os pacientes, sejam dados presentes
ou antigos, que trazem um histórico e, às vezes, contribuem para a formação de
alguns diagnósticos.

Outros exemplos são citados por Cortez e Morais (2007 apud CARVALHO
et al., 2011, p. 324), que mostram como algoritmos de AM podem ser utilizados
para a prevenção de incêndios florestais. Nesse trabalho, cinco algoritmos
de AM tiveram sua acurácia preditiva comparada: algoritmo de indução de
árvores de decisão, florestas aleatórias, máquinas de vetores de suporte, modelo
de regressão múltipla e redes neurais. Os dados originais tinham atributos
relacionados a coordenadas da área de incêndio, mês do ano, dia da semana,
condições atmosféricas, temperatura, umidade relativa do ar, velocidade do vento
e precipitação atmosférica. Técnicas de transformação converteram atributos
qualitativos em quantitativos, e técnicas de seleção foram utilizadas para
selecionar os atributos mais relevantes. Os melhores resultados foram obtidos
por máquinas de vetores de suporte com quatro atributos, dados meteorológicos
relacionados a temperatura, umidade relativa do ar, precipitação pluviométricas
e velocidade do vento.

Cada algoritmo agirá diante das necessidades apresentadas por cada


situação. Dessa forma, eles podem ser desenvolvidos com o intuito de solucionar
problemas demonstrados pelos negócios das empresas.

210
RESUMO DO TÓPICO 5

Nesse tópico você aprendeu:

• Que a aprendizagem de máquina tem o intuito de automatizar a análise de


dados, com o uso de recursos de inteligência artificial e estatística. Seu princi-
pal ativo é o dado. Essa forma, todos os processos são oriundos dele e de sua
veracidade.

• Que A limpeza dos dados é um passo primordial para todos os restantes, ten-
do em vista que o resultado final será com base nos dados inseridos. Nesse
sentido, as ferramentas utilizadas na coleta podem acarretar problemas, assim
como a transmissão e o armazenamento dos dados.

• No Infográfico a seguir, aproveite para conhecer alguns aspectos que podem


afetar a qualidade dos dados.

211
• Que a aprendizagem de máquina remete à inserção de conceitos tecnológicos
em conjunto a outros contextos, como o da estatística, da matemática e até mes-
mo da inteligência artificial, em recursos computacionais.

• Definir aprendizado de máquina.

• Descrever algoritmos de aprendizagem de máquina.

• Listar aplicações de aprendizagem de máquina.

212
AUTOATIVIDADE

1 O conhecimento sobre algo é oriundo dos dados e informações adquiridas


por diversas fontes. A aprendizagem de máquina ocorre por meio desses
artefatos e seu objetivo é sempre o de trazer soluções computacionais
para situações cotidianas no mundo dos negócios. Sobre os conceitos de
aprendizado de máquina e de mineração dos dados, está correto dizer que:

a) ( ) o aprendizado de máquina tem como foco a predição, com base em


características já conhecidas, enquanto a mineração de dados extrai
informação dos conjuntos de dados.
b) ( ) o aprendizado de máquina é um processo automático, com base em
grande quantidade de dados. Já a mineração de dados, trabalha com
quantidades limitadas de dados.
c) ( ) a mineração de dados pode ser do tipo de reforço, e o aprendizado
de máquina trabalha com regras de associação com grandes bases de
dados.
d) ( ) enquanto o aprendizado de máquina lida com previsão e classificação,
a mineração de dados lida com automação de controle e predição.
e) ( ) o aprendizado de máquina pode ser de padrões sequenciais e de
agrupamento, já a mineração de dados pode ser supervisionada e não
supervisionada.

2 A caracterização dos dados pode definir padrões para determinadas


situações. O aprendizado de máquina precisa disso para construir o
conhecimento sobre os dados e as informações. Quando ocorre o pré-
processamento de dados, por meio da identificação dos objetos e seus
respectivos conjuntos, qual técnica está sendo mencionada?​​​​​​​

a) ( ) Eliminação manual de atributos.


b) ( ) Amostragem de dados.
c) ( ) Integração de dados.
d) ( ) Dados desbalanceados.
e) ( ) Limpeza de dados.

3 Os dados são primordiais e passam por diversos processos antes de serem


utilizados na aprendizagem de máquina. Essa exploração define métricas
e uso de conceitos de diversas áreas, desde estatística até inteligência
artificial. Diante das perspectivas de exploração, assinale a alternativa que
contextualiza os dados corretamente.

a) ( ) A exploração de dados pode ocorrer por meio de medidas de


localidade, em que as medidas mais comuns podem ser de desvio
padrão.

213
b) ( ) A exploração de dados pode ocorrer por meio de medidas de
distribuição, em que a média de um conjunto de valores é obtida.
c) ( ) A exploração de dados pode ocorrer por meio do uso de dados
multivariados que possuem o mesmo valor de um atributo que pode
ser detectado mais de uma vez.
d) ( ) A exploração de dados pode ocorrer por meio de dados univariados
em que os dados são compostos por mais de um atributo de entrada.
e) ( ) O intervalo e a variância estão contidos nas medidas de exploração de
dados multivariados.

4 A caracterização dos dados analisa-os para definir se os atributos do objeto


são quantitativos ou números, com o objetivo de trazer um tipo para o dado.
Além disso, os dados podem possuir escalas, que definem quais operações
os valores dos atributos podem realizar. Sobre a caracterização dos dados,
está correto inferir que:

a) ( ) as escalas definidas na caracterização dos dados podem ser ordinais,


já que não trazem muitas informações, como o CEP.
b) ( ) as escalas racionais relacionam a ordem das categorias, como o RG.
c) ( ) as escalas intervalares permitem variações entre um intervalo, como
exemplo pode-se citar a previsão da temperatura.
d) ( ) as escalas nominais e ordinais não trazem relação de ordem para seus
valores.
e) ( ) as escalas determinam se os atributos podem ou não ser associados a
categorias.

5 Um algoritmo é responsável por determinar quais são os passos e como eles


devem ser seguidos para resolver algum problema, por meio de um recurso
computacional. No aprendizado de máquina, esses algoritmos aprendem
por meio dos dados ou de conjunto de treinamento. Pode-se afirmar que
uma aplicação prática do aprendizado de máquina é:

a) ( ) a definição de locais para construção de redes de água.


b) ( ) a indicação automática de remédios a pacientes hospitalares.
c) ( ) o controle de recursos pessoais e físicos.
d) ( ) o uso de planilhas e dados manuscritos para tomada de decisões.
e) ( ) a localização de falhas em linhas de transmissão de energia.

214
UNIDADE 3 TÓPICO 6

INTRODUÇÃO AO HADOOP

1 INTRODUÇÃO
As pessoas ao redor do mundo geram, diariamente, grandes volumes
de dados, alguns estruturados e outros não. Esses dados são uma valiosa
fonte de informações, mas analisá-los eficientemente ainda é um desafio, pois
os mecanismos tradicionais de gerenciamento de dados não disponibilizam o
suporte adequado para a realização dessa tarefa.

O Apache Hadoop é um framework para o armazenamento e processamento


de Big Data. Ele possui ferramentas para armazenar e recuperar grandes volumes
de dados distribuídos e para realizar o processamento distribuído, garantindo
escalabilidade e disponibilidade e possibilitando a extração de conhecimento útil
a partir de análises e cruzamentos desses dados.

Grandes corporações já utilizam o Hadoop e o consideram uma ferramenta


eficaz e que traz bons resultados. Portanto, é um recurso que precisa ser conhecido
pelos profissionais da área de computação.

Neste tópico você conhecerá os fundamentos do Apache Hadoop,


identificando seus componentes, características, vantagens e aplicações. Além
disso, você verá como o MapReduce, que é responsável pelo processamento
distribuído, é utilizado com o Hadoop.

2 HADOOP
Armazenar, manipular e analisar dados são tarefas convencionais para
sistemas computacionais, mas tomam outra dimensão quando o volume de
dados alcança a dimensão de petabytes diários. Esses dados são gerados por
sistemas corporativos, serviços, sistemas web, mídias sociais, comércio eletrônico
etc. Todos são potencialmente valiosos e há muito interesse em extrações de
informações que podem ser obtidas a partir de análises e cruzamentos desses
dados. Boa parte deles não está armazenada de forma estruturada e têm os mais
diversos formatos e estruturas, que, muitas vezes, não são compatíveis.

215
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

E
IMPORTANT

O alto valor agregado da empresa Google não se deve apenas ao seu potente
algoritmo de busca na web ou a suas inúmeras ferramentas, mas, também, à enorme
quantidade de informações que mantém sobre seus usuários e buscas realizadas na web.
A análise desses dados permite identificar padrões de comportamentos e correlações entre
perfis de usuários, e isso é extremamente útil. Portanto, essas informações não são valiosas
apenas para a Google, já que também podem ser comercializadas.

O termo Big Data não se refere apenas ao volume de dados, mas, também,
a sua diversidade de formatos (estruturados ou não), à variedade de fontes e à
velocidade para processá-lo. Já as aplicações Big Data são soluções computacionais
que possibilitam a análise de grandes bases de dados, processando algoritmos
que permitam identificar correlações entre os dados para mapear padrões e
comportamentos, conhecidos ou inéditos. A partir disso, torna-se possível criar
estratégias ou disponibilizar produtos e serviços.

Essas aplicações têm seu poder de processamento limitado pelo poder


computacional das máquinas atuais, pois podem utilizar horas ou muitos dias
para obter os resultados desejados. Mesmo a evolução contínua dos recursos
computacionais é insuficiente para atender ao crescimento da complexidade
desse tipo de aplicação. Como alternativa ao processamento convencional, tem-
se a computação paralela e distribuída, que pode ser realizada por meio de
clusters (grades) de computadores a um custo relativamente baixo. A ideia básica
é dividir cada tarefa em subtarefas, que serão executadas paralelamente em
diversos computadores. Porém, essa tarefa não é trivial, pois exige o adequado
dimensionamento das subtarefas, além de ser necessário tratar questões como o
balanceamento de carga e escalonamento das tarefas, visando maximizar a utilização
dos recursos computacionais e garantindo alternativas de recuperação em situações
de falha de computadores que estão alocados para realizar o processamento.

Para atender a esse tipo de demanda é que foi projetado o Apache Hadoop,
um framework que promove um processamento muito mais rápido que outras
tecnologias e que simplifica o trabalho com sistemas distribuídos, tornando
transparentes diversas funções, tais como a disponibilidade dos nós do cluster,
escalabilidade da aplicação, integridade dos dados e recuperação em caso de falhas.
Além disso, ele possui um sistema de licenciamento flexível, que torna possíveis
modificações e redistribuição do programa-fonte. Isso permitiu o surgimento
de inúmeras implementações derivadas dele com novas funcionalidades ou que
se especializam em algum nicho de mercado, além de agregar serviços aos que
desejam utilizar seus recursos.

216
TÓPICO 6 | INTRODUÇÃO AO HADOOP

E
IMPORTANT

Amazon Web Service, Cloudera, Hortonworks, KarmaSphere, Pentaho e Tresada


são exemplos de empresas que customizaram o Apache Hadoop e oferecem serviços de
implantação, suporte e treinamento.

Quando se precisa de alto desempenho em processamento de grande


volume de dados, o Apache Hadoop é indicado como uma das melhores ferramentas.

Veja, a seguir, alguns benefícios que a sua utilização apresenta:

• Código aberto: o projeto Apache Hadoop possui uma comunidade composta


por desenvolvedores independentes e empresas engajadas no desenvolvimento
de suas funcionalidades, melhorias contínuas, além de cuidarem de sua
documentação. É uma comunidade ágil, que rapidamente resolve falhas que
são encontradas e que disponibiliza continuamente novos recursos.
• Baixo custo: ao optar pela utilização do Hadoop, você já economiza por não ser
necessário adquirir licenças (software livre). Além disso, pela sua forma de
processamento, é possível utilizar computadores e redes convencionais para
realizar o processamento dos dados, não sendo necessário fazer investimento
em hardwares específicos. Por fim, tem-se a possibilidade de alugar os serviços
em nuvem, como a Amazon Elastic MapReduce (EMR), em que se pode alugar
um conjunto de máquinas virtuais ou pagar pelo tempo de processamento.
• Robustez: o Hadoop oferece estratégias automáticas para garantir o
processamento em caso de falhas em computadores alocados para o
processamento, garantindo sua continuidade. Para isso, ele realiza replicação
de dados, armazenamento de metadados e de informações de processamento.
• Escalabilidade: para o Hadoop, é relativamente simples aumentar a quantidade
de máquinas a serem utilizadas no processamento. Isso é feito com pequenas
alterações em um arquivo de configuração e não exige a reescrita do código-
fonte. Os ajustes ficam limitados ao espaço em disco e à capacidade de
processamento dos computadores alocados.
• Simplicidade: ao usar o Hadoop, as operações são especificadas por funções
de mapeamento (Map) e de junção (Reduce). Assim, é possível manter o
foco na abstração do problema e sua resolução pelo modelo de programação
MapReduce. Dessa forma, não é necessário se preocupar com a computação
paralela (balanceamento de carga, tolerância a falhas e escalonamento).

217
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

E
IMPORTANT

Um software que possui código aberto deve garantir quatro liberdades aos
seus usuários:

• liberdade de execução: o programa pode ser executado com qualquer propósito;


• liberdade de análise: o programa pode ser livremente estudado, para que seja entendido
o seu funcionamento e projetadas adaptações;
• liberdade de redistribuição: o programa pode ser copiado e redistribuído, tanto em sua
versão original quanto na adaptada;
• liberdade de modificação: o programa pode ser modificado e as modificações podem
ser distribuídas, de modo que toda a comunidade tenha acesso e possa se beneficiar.

O Apache Hadoop é um framework que ainda está amadurecendo e está


em constante evolução, de modo que ainda existem características que podem
ser melhoradas. Uma fragilidade dele é o uso de um único nó mestre, pois essa
centralidade pode limitar a escalabilidade ou tornar-se crítica em caso de falha. Outra
questão frágil é a dificuldade em gerenciar os dados resultantes do processamento
paralelo, pois sua depuração é morosa e complexa em algumas situações.

Há situações em que o Hadoop não é a alternativa adequada, como as


apresentadasa seguir:

• Problemas não paralelizáveis ou com grande dependência entre os dados: para


que se possa obter um bom resultado com o Hadoop, deve ser possível distribuir
os dados e paralelizar seu processamento, mas há situações em que isso não é
possível.
• Processamento de arquivos pequenos: o Hadoop foi desenvolvimento para
trabalhar com grandes volumes de dados, e o processamento adicional
que realiza é pequeno nessas situações. Porém, se os dados são poucos,
o custo adicionado pela divisão e junção de tarefas, comunicação, rotinas e
processamento pode ser proporcionalmente grande.
• Problemas com muito processamento em poucos dados: o foco do Hadoop é
trabalhar com simplicidade, de modo que o ideal é trabalhar com funções que
possam ter sua complexidade reduzida e subtarefas cada vez mais simples. Porém,
isso nem sempre é possível, então problemas que possuam regras complexas e/ou
com fluxo de execução extenso não são adequados ao uso do Hadoop.

218
TÓPICO 6 | INTRODUÇÃO AO HADOOP

3 COMPONENTES DO HADOOP
O trabalho do Hadoop utiliza cinco processos: NameNode, DataNode,
SecondaryNameNode, JobTracker e TaskTracker. NameNode, DataNode,
SecondaryNameNode são integrantes do modelo de programação MapReduce.
Já JobTracker e TaskTracker fazem parte do sistema de arquivo HDFS. Os
componentes Name-Node, JobTracker e SecondaryNameNode são únicos para
toda a aplicação; por outro lado, DataNode e JobTracker são instanciados para
cada computador alocado.

• NameNode: localiza-se no nó mestre, juntamente ao JobTracker, e é responsável


pelo gerenciamento dos arquivos utilizados pelo HDFS (Hadoop Distributed File
System). Ele mantém seus dados em memória, por questões de performance,
pois frequentemente precisa mapear a localização de arquivos, dividi-los em
blocos, encaminhando-os aos nós escravos, além de gerenciar os metadados e
réplicas dos arquivos.
• DataNode: localiza-se nos nós; são os dados que são distribuídos e replicados.
Cada DataNode reporta-se ao NameNode, indicando quais blocos guarda e as
atualizações realizadas neles.
• JobTracker: controla o plano de execução das tarefas do MapReduce, designa
quais nós serão utilizados no processamento e os monitora.
• TaskTracker: executa uma tarefa Map ou uma tarefa Reduce que lhe for
designada. Cada TaskTracker executa em uma máquina virtual e pode-se ter
várias máquinas virtuais em um único computador físico, utilizando melhor os
seus recursos.
• SecondaryNameNode: auxilia o NameNode e é a alternativa para recuperação
em caso de falha. Ele verifica os pontos de checagem (checkpointing) para
garantir a sua recuperação.

Na figura a seguir você pode ver os processos da arquitetura Hadoop e


suas ligações. O primeiro é a aplicação, que contém o NameNode, o JobTracker
e, possivelmente, o SecondaryNameNode. Já o segundo representa cada
instância, ou seja, cada nó, e contém TaskTracker e um DataNode, vinculados,
respectivamente, ao JobTracker e ao NameNode do nó mestre.

A aplicação se conecta ao nó mestre e inicia a sua execução. A partir disso,


o JobTracker gera o plano de execução e determina a quantidade e quais nós
escravos processarão os dados. Em paralelo, o NameNode armazena e gerencia as
informações dos arquivos. Nos nós (escravos), o TaskTracker executa as tarefas a
ele atribuídas, Map ou Reduce, e o DataNode gerencia os blocos de arquivos. Eles
também se comunicam com o nó mestre. Em paralelo, o SecondaryNameNode
registra checkpoints do log do NameNode.

219
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

FIGURA 19 – COMPONENTES DO HADOOP

FONTE: Adaptada de Dean e Ghemawat (2004)

4 EXECUÇÃO DO HADOOP
O Hadoop foi construído para trabalhar com um conjunto de máquinas, mas
permite outras formas de execução: modo local (standalone mode), modo pseudo-
distribuído (pseudo-distributed mode) e modo completamente distribuído (fully
distributed mode). A especificação do modo de execução é definida na configuração
dos arquivos: core-site.xml, hdfs-site.xml e mapred-site.xml.

• Modo local: é o modo padrão; assim, os parâmetros dos arquivos de


configuração já estarão prontos. É recomendado utilizar esse modo nas fases
iniciais do desenvolvimento, quando se tem mais erros e são necessários muitos
testes. Nesse modo, todo o processamento da aplicação é executado apenas na
máquina local.
• Modo pseudo-distribuído: nesse modo, a aplicação é processada em modo local,
que será um cluster de uma máquina só. Esse modo permite a sua simulação,
pois utiliza todos os processos de uma execução paralela efetiva. Além dessas
configurações, é necessário indicar a localização do SecondaryNameNode
e dos nós escravos. Essa localização é dada pelo endereço de rede ou pelo
apelido desses recursos nos respectivos arquivos masters e slaves. No modo
pseudo-distribuído, é simulada uma execução distribuída; dessa forma, para
esse modo, esses locais serão sempre os mesmos.

220
TÓPICO 6 | INTRODUÇÃO AO HADOOP

FIGURA 20 – CONFIGURAÇÃO DO ARQUIVO CORE-SITE.XML NO MODO PSEUDO-DISTRIBUÍDO

FONTE: O autor

FIGURA 21 – CONFIGURAÇÃO DO ARQUIVO HDFS-SITE.XML NO MODO PSEUDO-DISTRIBUÍDO

FONTE: O autor

• Modo completamente distribuído: utiliza um cluster de computador real.


Nessa opção, é necessário definir os parâmetros específicos e a localização
do SecondaryNameNode e dos nós escravos. Também é necessário indicar
quais máquinas irão efetivamente executar cada componente, indicando o seu
endereço IP.

4.1 HDFS
O Hadoop Distributed File System é o sistema de arquivos distribuídos do
Hadoop que possui um conjunto de funções como: armazenamento, organização,
nomeação, recuperação, compartilhamento, proteção e permissão de acesso aos
arquivos. Além de prover funções tradicionais de gerenciamento de arquivos,
precisa prover a distribuição dos dados de forma transparente, garantindo
eficiência e escalabilidade. Tudo isso deve ser transparente e não exigir
conhecimento adicional para operá-lo. Um sistema de arquivos distribuído deve
garantir:

221
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

• Segurança: garantir o acesso às informações, cuidando do controle de


privacidade e gerenciando as permissões de acesso.
• Tolerância a falhas: garantir a disponibilidade do sistema em casos de falhas.
• Integridade: controlar as modificações realizadas conforme permissões.
• Consistência: garantir que o dado visto seja o mesmo para todos.
• Desempenho: o desempenho do sistema de arquivos distribuído deve ser alto.

E
IMPORTANT

Existem muitas implementações de sistemas de arquivos distribuídos, algumas


comerciais e outras de software livre, tais como: GNU Cluster File System (GlusterFS), da
empresa Red Hat; Moose File System (MooseFS), desenvolvido pela Gemius SA; Lustre,
originário da Carnegie Mellon University, atualmente é mantido pela Sun Microsystems;
CODA, também desenvolvido na Carnegie Mellon University; General Parallel File System
(GPFS) e OpenAFS, da IBM, esse último derivado do Andrew File System (AFS), que também
foi desenvolvido na Carnegie Mellon University; e os mais conhecidos, Network File System
(NFS) e Google File System (GFS).

O HDFS é integrado ao framework do Hadoop, teve forte inspiração no GFS


da Google, mas se diferencia por ser de código aberto e implementado na linguagem
Java. O HDFS também oferece suporte ao armazenamento e ao processamento de
grandes volumes de dados em agrupamentos de computadores heterogêneos.
O número de máquinas utilizadas em um HDFS é uma grandeza diretamente
proporcional à probabilidade de uma dessas máquinas vir a falhar, ou seja, quanto
mais máquinas, maior a chance de acontecer algum erro em uma delas.

4.2 COMANDOS HDFS


Para iniciar os trabalhos em um aglomerado Hadoop, é necessário formatar
o HDFS no intuito de prepará-lo para receber os dados de sua aplicação. Essa ação
pode ser realizada por meio do comando hadoop namenode -format, executado na
máquina em que se encontra o NameNode. Embora possa ser manipulada por
diversas interfaces, uma das formas comumente utilizada para manipular o HDFS
é por linha de comando. Nessa interface, é possível realizar várias operações, como
leitura, escrita, exclusão, listagem, criação de diretório etc., com comandos similares
aos do Linux, mas iniciados pelo prefi xo “hadoop fs”. A sintaxe dos comandos
segue a seguinte estrutura: hadoop fs -comando [argumentos].

A listagem, a explicação e os argumentos válidos para todos os comandos do


HDFS podem ser consultados executando o seguinte comando: hadoop fs -help.|

222
TÓPICO 6 | INTRODUÇÃO AO HADOOP

Antes de iniciar uma aplicação Hadoop no modo pseudo-distribuído


ou completamente distribuído, é necessário que os dados que serão utilizados
já estejam armazenados no HDFS. Dessa forma, o usuário precisa copiar os
arquivos de dados da sua máquina local para o HDFS. No exemplo a seguir, está
explicitado o comando para carregar no HDFS o arquivo meuarquivo.txt.

hadoop fs -put meuarquivo.txt /user/hadoop_user

Nesse exemplo, foi utilizado o comando -put e informados como parâmetros


o nome do arquivo e o diretório user/hadoop_user, para o qual ele será adicionado.
Por padrão, o HDFS possui um diretório com o nome do usuário dentro do diretório
/user. Nesse exemplo, o usuário é o hadoop_user. Se o usuário desejar criar outros
diretórios, o comando que realiza essa ação é o mkdir, conforme exemplo a seguir,
em que será criado o diretório arquivos_hadoop.

hadoop fs –mkdir arquivos_hadoop

Nesse caso, não foi mencionado o caminho completo do local no qual o


diretório deverá ser criado; assim, quando essa informação for omitida, o arquivo
será armazenado no diretório padrão user/hadoop_user. Portanto, o caminho
completo para acesso dos arquivos inseridos no diretório arquivos_hadoop será
user/hadoop_user/arquivos_hadoop.

Para listar todos os arquivos e diretórios contidos no diretório raiz, que,


no caso, é /user/hadoop_user, executamos o seguinte comando:

hadoop fs –ls

Para listar arquivos, diretórios e os subdiretórios, deve-se acrescentar o


comando de recursividade, como no exemplo a seguir:

hadoop fs -lsr

A partir do momento em que os arquivos estão armazenados no HDFS, já


são passíveis de serem submetidos ao processamento de uma aplicação Hadoop.
Se, após a execução, for necessário copiar novamente os arquivos ao sistema local,
isso poderá ser feito pelo comando -get, conforme o seguinte exemplo:

hadoop fs -get meuarquivo.txt localfile

Nesse exemplo, após o comando, como primeiro argumento, deve ser


passado o nome do arquivo que se deseja copiar do HDFS, com o seu respectivo
caminho. O segundo parâmetro é o diretório local no qual se deseja colocar o
arquivo copiado.

223
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

Como é possível ver, a interface de linha de comando pode ser utilizada


sem muita dificuldade, principalmente para os conhecedores de Linux.
Entretanto, caso essa interface não seja adequada, o usuário pode optar por
outras alternativas providas pelo HDFS, podendo até mesmo usar a API Java
para realizar essa manipulação. Perceba que em nenhum momento falamos de
comandos específicos para um sistema de arquivos distribuídos, como para tratar
tolerância a falhas, balanceamento de carga e disponibilidade, pois são todas
ações tratadas pelo próprio arcabouço.

4.3 DIVISÃO EM BLOCOS


Grandes arquivos não podem ser armazenados em um único disco e, por
isso, precisam ser divididos e distribuídos em um cluster de computadores. Essa
questão estrutural relativa à distribuição dos arquivos é feita de forma implícita,
devendo apenas o desenvolvedor apontar corretamente os parâmetros de
configuração. O HDFS adota a estratégia de que, antes de armazenar os arquivos,
esses sejam submetidos a um procedimento de divisão em uma sequência de
blocos de tamanho fixo. O tamanho padrão definido no framework é 64 Mb,
mas ele pode ser alterado. Somente depois de dividido é que esses arquivos são
distribuídos para os diversos nós escravos.

4.4 ARQUITETURA
O HDFS possui uma arquitetura mestre/escravo: no lado mestre, tem
uma instância do NameNode e, em cada escravo, uma instância do DataNode.
É possível ter centenas ou milhares de máquinas escravas. O NameNode é
o componente central do HDFS; assim, é recomendável ser implantado em
um nó exclusivo, e, preferencialmente, o nó com melhor desempenho. Para
desempenhar seu papel de gerenciar todos os blocos de arquivos, o NameNode
possui duas estruturas de dados importantes: o FsImage e o EditLog. O primeiro
arquivo é o responsável por armazenar informações estruturais dos blocos,
como o mapeamento e namespaces dos diretórios e arquivos, e a localização das
réplicas desses arquivos. O segundo, EditLog, é um arquivo de log responsável
por armazenar todas as alterações ocorridas nos metadados dos arquivos.

Ao iniciar uma instância do NameNode, suas tarefas iniciais são: realizar a


leitura do último FsImage e aplicar as alterações contidas no EditLog. Terminada
essa operação, o estado do HDFS é atualizado e o arquivo de log é esvaziado para
manter apenas as novas alterações. Esse procedimento ocorre somente quando o
NameNode é iniciado, e, por tal motivo, passado muito tempo de sua execução,
o EditLog tende a ficar muito extenso e pode afetar o desempenho do sistema ou,
ainda, acarretar muitas operações na próxima inicialização do NameNode. Para
que isso não ocorra, existe um componente assistente ao NameNode chamado
SecondaryNameNode.

224
TÓPICO 6 | INTRODUÇÃO AO HADOOP

Mesmo não sendo exatamente um backup do NameNode, no caso de que


esse venha a ser interrompido, uma solução é tornar o SecondaryNameNode o
NameNode primário, como uma forma de prevenção de interrupção do sistema.
O SecondaryNameNode tem como principal função realizar a junção entre o
FsImage e EditLog, criando pontos de checagem, de modo a limpar o arquivo de
log. Essa operação é feita em intervalos de tempo definidos na configuração do
sistema. Dessa forma, como o SecondaryNameNode não é atualizado em tempo
real, esse atraso poderia ocasionar a perda de dados.

Enquanto o nó mestre é o responsável por armazenar os metadados dos


arquivos, os nós escravos são os responsáveis pelo armazenamento físico dos
dados. São nesses escravos que temos os DataNodes. Em uma aplicação Hadoop,
cada nó escravo contém um DataNode, que trabalha com um TaskTracker — o
primeiro é para armazenamento e o segundo, para processamento dos dados.

A primeira comunicação entre o mestre e o escravo ocorre quando


o DataNode é registrado no NameNode, que pode ocorrer no momento da
inicialização ou quando esse for reinicializado. Todo esse procedimento de
registro é armazenado no arquivo FsImage do NameNode. Após essa interação,
o DataNode precisa, ainda, periodicamente, comunicar-se com o NameNode,
enviando informações estatísticas dos blocos que está armazenando, bem como
informações de suas alterações locais. São nesses momentos de interação que se
torna possível ao NameNode definir quais nós deverão armazenar quais blocos.
Se o NameNode não conseguir receber informações do DataNode, é solicitado
que esse DataNode seja novamente registrado.

4.5 REPLICAÇÃO DE DADOS


Além de dividir os arquivos em blocos, o HDFS ainda replica esses blocos
na tentativa de aumentar a segurança. Por padrão, um bloco do HDFS possui
três réplicas alocadas em diferentes nós, e essa quantidade pode ser configurada.
Ainda existe uma recomendação, por questão de confiabilidade e desempenho,
de alocar duas réplicas no mesmo armário, mas em nós distintos, e a outra réplica
em um armário diferente. Como tipicamente a velocidade de comunicação entre
máquinas de um mesmo rack é maior que em racks diferentes, por questão de
desempenho, no momento de selecionar uma réplica para ser substituída em um
processo, o HDFS dá preferência à réplica pertencente ao mesmo rack. O maior
benefício com a replicação é a obtenção de maior tolerância a falhas e confiabilidade
dos dados, pois, no caso de um nó escravo vir a falhar, o processamento passará
a ser feito por outra máquina que contenha a réplica desse bloco, sem haver a
necessidade de transferência de dados e a interrupção da execução da aplicação.
Tudo isso é feito de forma transparente, pois o Hadoop oferece mecanismos para
reiniciar o processamento sem que os demais nós percebam a falha ocorrida. No
contexto de uma falha, ocorrerá uma diminuição da quantidade de réplicas de
um bloco. Então, para retomar a sua margem de confiabilidade, o NameNode
consulta os metadados sobre os DataNodes falhos e reinicia o processo de
replicação em outros DataNodes para garantir o seu fator mínimo.
225
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

5 HADOOP MAPREDUCE
O paradigma de programação MapReduce implementado pelo Hadoop se
inspira em duas funções simples (Map e Reduce) presentes em diversas linguagens
de programação funcionais. Uma das primeiras linguagens a implementar os
conceitos dessas funções foi LISP. Essas funções podem ser facilmente explicadas
de acordo com suas implementações originais, conforme mostram os exemplos a
seguir, em que serão usados pseudocódigos para ilustrar tais funções.

A função Map recebe uma lista como entrada e, aplicando uma função
dada, gera uma nova lista como saída. Um exemplo simples é aplicar um fator
multiplicador a uma lista, por exemplo, dobrando o valor de cada elemento:

map({1,2,3,4}, (x2)) > {2,4,6,8}

Nesse exemplo, para a lista de entrada {1,2,3,4}, foi aplicado o fator


multiplicador 2, gerando a lista {2,4,6,8}. Veja que a função é aplicada a todos os
elementos da lista de entrada. Logo, cada iteração na lista de entrada vai gerar um
elemento da lista de saída. A função de mapeamento no exemplo dado poderia
chamar-se “dobro”. A chamada com a função dobro pode ser expressa como:

map({1,2,3,4}, dobro) > {2,4,6,8}

A função Reduce, similarmente à função Map, receberá como entrada


uma lista e, em geral, aplicará uma função para que a entrada seja reduzida a
um único valor na saída. Algumas funções do tipo Reduce mais comuns seriam
“mínimo”, “máximo” e “média”. Aplicando essas funções ao exemplo, temos as
seguintes saídas:

reduce({2,4,6,8}, mínimo) > 2 reduce({2,4,6,8}, máximo) > 8


reduce({2,4,6,8}, média) > 5

No paradigma MapReduce, as funções Map e Reduce são utilizadas em


conjunto e, normalmente, as saídas produzidas pela execução das funções Map
são utilizadas como entrada para as funções Reduce. Associando as funções
dos exemplos apresentados, pode-se expressar o seguinte conjunto de funções
aninhadas:

reduce(map({1,2,3,4}, dobro), mínimo) > 2


reduce(map({1,2,3,4}, dobro), máximo) > 8
reduce(map({1,2,3,4}, dobro), média) > 5

226
TÓPICO 6 | INTRODUÇÃO AO HADOOP

5.1 GOOGLE MAPREDUCE


O paradigma de programação MapReduce demonstrou ser adequado
para trabalhar com problemas que podem ser particionados ou fragmentados
em subproblemas. Isso porque se pode aplicar separadamente as funções Map e
Reduce a um conjunto de dados. Se os dados forem suficientemente grandes, po-
dem ainda ser particionados para a execução de diversas funções Map ao mesmo
tempo, em paralelo. Essas características despertaram a atenção ao paradigma,
que entrou em evidência novamente quando foi implementado pela Google, uti-
lizando os conceitos de programação paralela e distribuída:

• As funções Map e Reduce deixaram de ser restritas ao paradigma de programa-


ção funcional, sendo disponibilizadas em bibliotecas Java, C++ e Python.
• O MapReduce foi introduzido na computação paralela e distribuída. Isso foi
feito pela explícita retroalimentação dos resultados da função Map como en-
trada para a função Reduce, conforme os exemplos anteriores. A abordagem
permite que os dados distribuídos ao longo dos nós de um aglomerado sejam
utilizados nas funções Map e Reduce quando necessário.

No Google MapReduce, é aplicada uma função Map em um conjunto de


valores e utilizada a sua saída para aplicar a função Reduce, gerando a saída final.
Essa abordagem adota o princípio de abstrair toda a complexidade da paraleliza-
ção por meio das funções Map e Reduce. A ideia simples dessas funções é eficaz
para a resolução de problemas para programação paralela, uma vez que tanto
Map quanto Reduce são funções sem estado associado e, portanto, facilmente
paralelizáveis.

FIGURA 22 – MODELO MAPREDUCE IMPLEMENTADO PELA GOOGLE

FONTE: Adaptada de Dean e Ghemawat (2004)

227
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

O Hadoop MapReduce pode ser visto como um paradigma de


programação que expressa computação distribuída como uma sequência de
operações distribuídas em conjuntos de dados. Para tal, a base de uma aplicação
MapReduce consiste em dividir e processar esses dados com o uso das funções
Map e Reduce. As funções Map utilizam os blocos dos arquivos armazenados com
entrada. Os blocos podem ser processados em paralelo em diversas máquinas
do aglomerado. Como saída, as funções Map produzem, normalmente, pares
chave/valor. As funções Reduce são responsáveis por fornecer o resultado final
da execução de uma aplicação, juntando os resultados produzidos por funções
Map. Essa composição denota claramente como o Apache Hadoop tomou proveito
das melhores características do Google MapReduce.

Quando aplicado ao ambiente distribuído, como em um cluster de


computadores, o Hadoop MapReduce executa um conjunto de funções Map
e Reduce definidas pelo usuário. Essas funções são denominadas tarefa pelo
Hadoop. A computação é distribuída e controlada pelo arcabouço, que utiliza
o seu sistema de arquivos (HDFS) e os protocolos de comunicação e troca de
mensagens para executar uma aplicação MapReduce. O processamento tem três
fases: uma fase inicial de mapeamento, em que são executadas diversas tarefas
Map; uma fase intermediária, na qual os dados são recolhidos das funções Map,
agrupados e disponibilizados para as tarefas de Reduce; e uma fase de redução,
em que são executadas diversas tarefas Reduce para agrupar os valores comuns
e gerar a saída da aplicação.

Os dados utilizados na fase de mapeamento, em geral, devem estar


armazenados no HDFS. Dessa forma, os arquivos contendo os dados serão
divididos em um número de blocos e armazenados no sistema de arquivos. Cada
um desses blocos é atribuído a uma tarefa Map. A distribuição das tarefas Map é
feita por um escalonador, que escolhe quais máquinas executarão as tarefas. Isso
permite que o Hadoop consiga utilizar praticamente todos os nós do aglomerado
para realizar o processamento. Ao criar uma função Map, o usuário deve declarar
quais dados contidos nas entradas serão utilizados como chaves e valores. Ao ser
executada, cada tarefa Map processa pares de chave/valor. Após o processamento,
a tarefa produz um conjunto intermediário de pares chave/valor. De maneira
mais genérica, para cada par de chave/valor (k1, v1), a tarefa Map invoca um
processamento definido pelo usuário, que transforma a entrada em um par
chave/valor diferente (k2, v2). Após a execução das tarefas Map, os conjuntos
que possuem a mesma chave poderão ser agrupados em uma lista. A geração
dessa lista ocorre com a execução de uma função de combinação, opcional, que
agrupa os elementos para que a fase intermediária seja realizada de maneira mais
eficiente. De maneira genérica, temos:

map(k1,v1) →→ list(k2,v2) (I)

228
TÓPICO 6 | INTRODUÇÃO AO HADOOP

Após o término das execuções das tarefas de Map, o arcabouço executa


uma fase intermediária denominada Shuffle, que agrupa os dados intermediários
pela chave e produz um conjunto de tuplas (k2, list(v2)). Assim, todos os valores
associados a uma determinada chave serão agrupados em uma lista. Após
essa fase intermediária, o arcabouço também se encarrega de dividir e replicar
os conjuntos de tuplas para as tarefas Reduce que serão executadas. A fase de
Shuffle é a que mais realiza troca de dados (E/S), pois os dados de diversos nós
são transferidos entre si para a realização das tarefas de Reduce.

Na fase de redução, cada tarefa consome o conjunto de tuplas (k2, lista(v2))


atribuído a ele. Para cada tupla, uma função definida pelo usuário é chamada e
transformada em uma saída formada por uma lista de pares chave/valor (k3, v3).

Novamente, o arcabouço se encarrega de distribuir as tarefas e fragmentos


pelos nós do aglomerado. Esse conjunto de ações também pode ser expresso da
seguinte forma:

reduce(k2,list(v2)) →→ list(k3,v3) (II)

229
RESUMO DO TÓPICO 6

Nesse tópico você aprendeu:

• Que o paradigma de programação MapReduce é adequado para problemas


que podem ser divididos em subproblemas. Assim, é possível aplicar as fun-
ções map e reduce a um conjunto de dados separados. Se os dados forem su-
ficientemente grandes, podem ser particionados para a execução de diversas
funções map, em paralelo. De forma simplificada, a função map realiza trans-
formações nos dados e a função reduce, nos agrupamentos.

• Veja, no Infográfico a seguir, as etapas do processo de map e reduce:

230
• Que grandes volumes de dados diariamente e eles são uma importante fonte
de informações, porém, seu processamento não é eficiente quando são usados
mecanismos convencionais de armazenamento e processamento de dados.

• Descrever o Hadoop e sua utilização.

• Resumir as características do Hadoop.

• Analisar o MapReduce.

231
AUTOATIVIDADE

1 O paradigma de programação MapReduce demonstrou ser adequado para


trabalhar com problemas que podem ser particionados ou fragmentados em
subproblemas. Isso porque se pode aplicar separadamente as funções map
e reduce a um conjunto de dados.

Sobre essas funções, analise as afirmativas a seguir e assinale a correta:

a) ( ) A entrada da função Map é sempre um dado único, ao qual se aplica


um conjunto de funções, mapeando-o para uma lista.
b) ( ) A função map é executada no nó mestre, gerenciada pelo JobTracker,
que envia a lista resultante do mapeamento para os nós escravos.
c) ( ) A função reduce recebe uma lista como entrada e realiza um processo
de ajuste de dados, gerando uma lista modificada na saída.
d) ( ) A função reduce é executada no nó mestre para reduzir o volume dos
dados que serão tratados pelos nós escravos.
e) ( ) As funções map e reduce são normalmente utilizadas juntas,
especificando que a saída da função map será a entrada da função reduce.

2 O Apache Hadoop é um framework que simplifica o trabalho com sistemas


distribuídos, tornando transparentes diversas funções. Assinale a alternativa
que apresenta uma característica do Hadoop:

a) ( ) O Hadoop possui licenciamento proprietário, o que torna modificações


e a redistribuição do programa-fonte mais difíceis.
b) ( ) O Hadoop possui regras rígidas que restringem a escalabilidade da
aplicação e limita o aumento da quantidade de máquinas a serem
utilizadas no processamento.
c) ( ) O Hadoop oferece estratégias automáticas para garantir o processamento
em caso de falhas em computadores alocados para o processamento,
garantindo continuidade.
d) ( ) No Hadoop, as operações são complexas e ele exige especialistas
focados na paralelização e na distribuição dos algoritmos e dados,
respectivamente.
e) ( ) O Hadoop possui código proprietário, que facilita a realização de
adaptações.

3 Para realizar sua função, o Hadoop possui um conjunto de componentes e


cada um possui responsabilidades bem definidas. Analise as afirmativas a
seguir e selecione aquela que apresenta corretamente um dos componentes
do Hadoop.

232
a) ( ) O NameNode localiza-se nos nós e é responsável pelo gerenciamento
de arquivos utilizados pelo HDFS.
b) ( ) O DataNode localiza-se no nó mestre, identificando os dados que são
distribuídos e replicados.
c) ( ) O JobTracker é o responsável pelo trabalho de execução das tarefas do
MapReduce, que são realizadas nos nós.
d) ( ) O TaskTracker possui a tarefa de controlar o plano de execução do
MapReduce, designando os nós que serão utilizados.
e) ( ) O SecondaryNameNode é responsável pela verificação
dos checkpoints necessários para garantir a recuperação em caso de
falha.

4 O Hadoop possui alguns modos de execução e cada um deles possui


configurações e formas de execução específicas. Analise as alternativas a
seguir e selecione aquela que descreve corretamente um dos modos de
execução do Hadoop:

a) ( ) No fully distributed mode, o Hadoop determina automaticamente as


máquinas que serão utilizadas no processamento.
b) ( ) No pseudo-distributed mode, o Hadoop simula o processamento paralelo
em uma única máquina.
c) ( ) No standalone mode, o Hadoop realiza o seu trabalho
padrão, processamento paralelo e distribuído com o conjunto de
máquinas definidas nos arquivos de configuração.
d) ( ) No blank mode, o Hadoop utiliza estruturas padronizadas para realizar
o processamento paralelo e distribuído da aplicação.
e) ( ) No single distributed mode, o Hadoop utiliza um nó mestre e uma
máquina escrava para realizar o processamento paralelo e distribuído.

5 O Hadoop Distributed File System (HDFS) é o sistema de arquivos


distribuídos do Hadoop. Ele deve garantir:

a) ( ) Tolerância a falhas para que, em caso de falha de algum nó, os dados


não sejam perdidos e o processamento não pare.
b) ( ) Liberdade para todos usuários realizarem qualquer operação.
c) ( ) Isolamento dos dados, garantindo que cada usuário somente veja os
seus dados.
d) ( ) Desempenho inversamente proporcional ao volume de dados.
e) ( ) Que os dados não sejam alterados, mantendo-se sempre inalterados.

233
234
UNIDADE 3 TÓPICO 7

INTEGRANDO BIG DATA E IOT

1 INTRODUÇÃO
Há pouco tempo, utilizávamos a internet apenas para acessar os raros
sites que existiam; hoje, a conexão com a rede transcende diversos âmbitos e,
além disso, proporciona uma relação de dependência entre diversos recursos.
Assim, é muito comum notarmos que um dispositivo necessita de outro para
desempenhar alguma funcionalidade básica, e esse recurso é quase sempre a
conexão com a internet.

Neste tópico, você aprenderá sobre Big Data, conceito aplicado à análise
de grande volume de dados existentes na rede, e sobre a Internet das Coisas (In-
ternet of Things — IoT), que traz justamente a possibilidade de, por meio do uso
da conexão, alinhamento entre as funcionalidades de um dispositivo. A partir
disso, você verá o impacto de ambos, a relação entre eles e as suas possibilidades
de aplicações.

2 CONCEITOS DE BIG DATA E INTERNET DAS COISAS (IOT)


É bem comum lermos em materiais didáticos ou até mesmo em notícias
cotidianas que estamos vivenciando a era tecnológica. Isso é verdade, mas, com
toda essa tecnologia ao nosso redor, podemos afirmar que, além de tecnológica,
esta é a era da análise, da informação e dos dados.

Seguindo essa linha de raciocínio, com a qual conseguimos visualizar


claramente o que caracteriza nosso momento atual e, consequentemente, nosso
futuro, é notório que toda essa evolução ocorre devido às necessidades que
demonstramos no dia a dia, ou seja, temos tecnologia para quase tudo, de modo
que é bastante comum utilizarmos recursos tecnológicos que nos auxiliem em
nossas atividades.

Ao contrário do que muitos pensam, esses artefatos não surgem apenas


para gerar lucros financeiros às empresas: todos eles devem atender a propósitos
que justifiquem sua existência. Atualmente, os bens mais valiosos para uma
empresa são as informações e os dados gerados pelos usuários — nesse caso, na
rede tecnológica, seja por meio do uso de um simples e-mail ou de um cadastro
em uma rede social.

235
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

Dessa forma, várias empresas desenvolveram, ao longo dos anos,


ferramentas e metodologias para lidar com essa enxurrada de informações a que
temos acesso, as quais apresentam, também, uma diversidade de tipos, assuntos,
proporções, perfis, dentre outros. O próprio termo Big Data é, muitas vezes,
associado à noção de grande quantidade de informações, já que sua tradução
literal para o português é “grandes dados” — apesar disso, é bem incomum
vermos esse termo sendo contextualizado a partir de sua tradução, ou seja, é mais
comum ele ser mencionado em inglês mesmo. Mas, então, a que se refere, na
prática, o termo Big Data?

Muitas vezes, sua definição é questionada, tendo em vista, que, como foi
mencionado anteriormente, com o tempo, existiram outros termos, ferramentas
e metodologias voltados ao grande número de dados. Porém, segundo Taurion
(2013), o termo pode ter significados diferentes, conforme o perfil de quem
procura pelo seu significado. O autor ainda cita que, conforme o McKinsey Global
Institute, Big Data é a intensa utilização de redes sociais on-line, de dispositivos
móveis para conexão a internet, transações e conteúdos digitais; além disso, o
crescente uso de computação em nuvem tem gerado quantidades incalculáveis
de dados. O termo Big Data refere-se a esse conjunto de dados cujo crescimento é
exponencial e cuja dimensão está além da habilidade das ferramentas típicas de
capturar, gerenciar e analisar dados.

Se pararmos para analisar, há algum tempo, o uso da conexão com a


internet era realizado apenas para acesso a sites ou para a realização de pesquisas
simples. O avanço tecnológico é tão grande que, às vezes, passa despercebido,
e o uso de recursos acaba tornando-se comum. O termo Internet das Coisas, em
inglês, Internet of Things (daí vem o uso constante da sigla IoT para nos referirmos
ao assunto), ressalta uma situação bastante comum no nosso cotidiano, o uso da
internet, mas com uma diferença: o uso da internet por dispositivos que, com o
tempo, também se sofisticaram, como relógios, automóveis, smarthphones.

A IoT abre oportunidades para criar-se novos tipos de serviços e até


aplicações de mercado em massa, como as cidades inteligentes, nas quais
diversos elementos urbanos são interligados por sistemas, visando eliminar
congestionamentos, reduzir filas, melhorar o transporte, gerenciar melhor a
geração e distribuição de energia, atendimentos à saúde, policiamento e outras
coisas mais (FACELI et al., 2011). Para Taurion (2013), a IoT implica uma relação
simbiótica entre o mundo físico e o mundo digital, com entidades físicas tendo,
também, sua única entidade digital, podendo comunicar-se com essa e interagir
com outras entidades do mundo virtual, sejam essas outros objetos ou pessoas.

236
TÓPICO 7 | INTEGRANDO BIG DATA E IOT

E
IMPORTANT

O termo Internet das Coisas foi utilizado pela primeira vez em 1999 pelo
pesquisador britânico Kevin Ashton, do Massachusetts Institute of Technology (MIT).

3 INTEGRAÇÃO ENTRE BIG DATA E IOT


Conforme pesquisas realizadas por Magrani (2018), nas últimas décadas,
bilhões de pessoas se conectaram ao mundo digital. Dados recentes da União
Internacional de Telecomunicações (UIT) mostram que 95% da população global
já vive em áreas cobertas com rede celular (2G ou mais) e 84% tem acesso à ban-
da larga móvel. Soma-se a isso o rápido crescimento das redes 4G, tecnologia já
acessível para 4 bilhões de pessoas. O site Convergência Digital (2016) destacou
uma pesquisa realizada pela Cisco em que se apresentou uma estimativa de que,
em 2020, existirão mais de 5,5 bilhões de usuários.

Esses dados são relevantes, tendo em vista que estamos falando sobre o uso
da tecnologia em contextos que, antes, não eram tidos como foco, como, por exem-
plo, os negócios. Dessa forma, é por meio desse tipo de pesquisa que as empresas
começaram a investir em diversos aspectos que têm como alvo o público.

O desafio lançado por esse salto tecnológico e paradigmático não é banal:


ele passa por considerar a fragmentação e a multiplicação das fontes de dados
(incluindo dados pessoais) pela concessão de variados graus de autonomia a ele-
mentos dispostos pela rede e até pela crescente dificuldade de separar a internet
do próprio cotidiano, visto que a internet não estará “presente” apenas em obje-
tos que possamos reconhecer, como “computadores”, podendo estar mesmo em
apetrechos que, a princípio, pareçam insuspeitos de qualquer sofisticação tecno-
lógica (MAGRANI, 2018).

Para Marjani et al. (2017), a aplicação de tecnologias de Big Data na IoT


acelera os avanços da pesquisa e os modelos de negócios da IoT. A relação entre
IoT e Big Data pode ser dividida em três etapas para permitir o gerenciamento de
dados da IoT:

237
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

• A primeira etapa consiste em gerenciar as fontes de dados da IoT nas quais


dispositivos de sensores conectados usam aplicativos para interagir uns com
os outros. Por exemplo, a interação de dispositivos como câmeras de CFTV,
semáforos inteligentes e dispositivos domésticos inteligentes gera grandes
quantidades de fontes de dados com diferentes formatos. Esses dados podem
ser armazenados em armazenamento de commodities de baixo custo na nuvem.
• Na segunda etapa, os dados gerados são chamados de Big Data, que são
baseados em seu volume, velocidade e variedade. Essas enormes quantidades
de dados são armazenadas em arquivos de Big Data em bancos de dados
compartilhados tolerantes a falhas distribuídas.
• A última etapa aplica ferramentas de análise, como MapReduce, Spark,
Splunk e Skytree, que podem analisar os grandes conjuntos de dados de IoT
armazenados. Os quatro níveis de análise começam com dados de treinamento.

FIGURA 23 – RELAÇÃO ENTRE IOT E ANÁLISE DE BIG DATA

FONTE: Marjani et al. (2017)

Para Taurion (2013),

A Internet das Coisas cria uma rede de centenas de bilhões de


objetos identificáveis e que poderão interoperar uns com os outros
e com os data centers e suas nuvens computacionais. A internet das
coisas aglutina o mundo digital com o mundo físico, permitindo que
os objetos façam parte dos sistemas de informação. Com a Internet
das Coisas podemos adicionar inteligência à infraestrutura física
que molda nossa sociedade. A Internet das Coisas, com seus objetos
gerando dados a todo instante, é um impulsionador poderoso para
Big Data. Uma turbina de um moderno a visão comercial a jato gera
cerca de um terabytes de dados por dia, que devem ser analisados
para mantê-la o maior tempo possível em operação.

As tecnologias de Big Data permitem que a informação seja trabalhada


antes de ser otimizada, racionalizada ou relacionada. Isso, com análise avançada,
permite fazer e responder algumas perguntas de ciclo muito curtos (TAURION,
2013). O uso de Big Data é aplicado com o objetivo de detectar padrões nos
dados e informações obtidas e, com isso, possibilitar que as empresas consigam
desenvolver produtos e serviços atendendo aos perfis de seu público-alvo. Com
a ascensão no uso de tecnologias, as empresas estão cada vez mais adotando

238
TÓPICO 7 | INTEGRANDO BIG DATA E IOT

modelos de negócio baseados na monetização de dados pessoais dos seus clientes.


Como mostra a figura a seguir, podemos notar que a tendência é o aumento de
equipamentos conectados ao longo dos anos.

FIGURA 24 – ESTIMATIVA, PROJEÇÃO E CRESCIMENTO

FONTE: Santos (2018, p. 30)

Como impactos causados pelo uso do Big Data, podemos citar: maior
transparência e disponibilização de dados, que antes eram inacessíveis; acesso
a dados específicos de usuários específicos, ou seja, as informações passam a
ser individualizadas e os usuários deixam de ser agregados a grupos de perfis
específicos; maior possibilidade de realização de análises preditivas; uso de
algoritmos para tomada de decisões com base em dados e informações obtidos e
analisados anteriormente.

Essa alta demanda acabou modificando o comportamento de diversas


tecnologias, de forma que, como mostra a figura a seguir podemos observar como
a arquitetura da IoT e Big Data se relacionam.

239
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

FIGURA 25 – ARQUITETURA DE IOT E ANÁLISE DE BIG DATA

FONTE: Marjani et al. (2017)

A camada do sensor contém todos os dispositivos do sensor e os objetos,


que são conectados por meio de uma rede sem fio. Essa comunicação de rede sem
fio pode ser RFID, Wi-Fi, banda ultralarga, ZigBee e Bluetooth. O gateway IoT
permite a comunicação da internet e várias redes. A camada superior diz respeito
à análise de Big Data, em que uma grande quantidade de dados recebidos de
sensores é armazenada na nuvem e acessada por meio de aplicativos de análise
de Big Data. Esses aplicativos contêm gerenciamento de API e um painel para
ajudar na interação com o mecanismo de processamento (MARJANI et al., 2017).

DICAS

De acordo com Kwon e Sim (2013), o termo Big Data é frequentemente


associado a 3Vs:

• volume, relacionado a um grande conjunto de dados;


• velocidade, relacionado a necessidade de processo rápido dos dados; e
• variedade, por provir de fontes diversas de dados.

240
TÓPICO 7 | INTEGRANDO BIG DATA E IOT

4 CENÁRIOS DE USO DE BIG DATA E IOT


É bem difícil selecionar algum contexto específico no qual esses conceitos
podem ser aplicados, porque, como vimos anteriormente, quando atuam juntos,
Big Data e Internet das Coisas podem gerar diversas possibilidades de negócios e de
aplicações, já que Big Data se encarrega de realizar análise de dados e informações
e a Internet das Coisas aproveita essas informações para atribuir funcionalidades
específicas aos objetos físicos, como casas, relógios, carros e qualquer outro tipo de
artefato que possibilite a adaptação ou o uso da rede de internet.

Segundo Santos (2018), a IoT abre uma infinidade de novas oportunidades


de negócios para todos que tendem a se enquadrar em três categorias estratégicas
amplas, cada uma refletindo um tipo diferente de empresa:

• 1. “Enablers”, empresas orientadas para a tecnologia, como Cisco, Google, HP,


IBM e Intel, que desenvolvem e implementam a tecnologia subjacente.
• 2. “Engagers”, que projetam, criam, integram e fornecem serviços de IoT (como
Nest Learning Thermostar, Apple HomeKit, Hue, Tagg, Moj. io e Sentity) para
clientes.
• 3. “Melhoradores”, que criam seus próprios serviços de valor agregado, além
dos serviços fornecidos pelos Engagers, que são exclusivos da IoT (como o
OnGarm e o Instantâneo, da Progressive).

Conforme Taurion (2013), em 2011, a Walmart adquiriu uma startup


chamada Kosmix. Essa aquisição possibilitou que a tecnologia desenvolvida pela
startup fosse aplicada na detecção de clientes presentes na loja por meio de um
localizador de celulares. Com isso, os estoques das unidades que demonstraram
vendas abaixo do esperado acabaram sendo enviados para as lojas que possuíam
maior número de vendas.

Ainda sob a ótica dos dados fornecidos por Taurion (2013), podemos citar
a startup brasileira IDXP, que traz soluções relacionadas à análise em tempo
real do comportamento do cliente dentro da loja. De acordo com as informações
postadas no próprio site da startup, atualmente, ela se define como:

[...] uma plataforma colaborativa que trabalha mediando a parceria


entre a indústria e o varejo e apresenta insights poderosos para os dois
lados, possibilitando um cenário favorável todos. Nossa plataforma de
Big Data usa algoritmos próprios que entregam insights conclusivos,
direcionados para melhorar a execução das ações no PDV(ponto de
venda), além de calcular o ROI (Retorno Sobre Investimento)destas
ações promocionais.

241
UNIDADE 3 | ANÁLISE DE DADOS, INTEGRAÇÃO E RECURSOS HUMANOS PARA BIG DATA

E
IMPORTANT

Mais informações sobre a startup IDXP podem ser obtidas pelo acesso ao seu
website no link a seguir.

https://goo.gl/NCRxvB

Em contrapartida, não precisamos focar apenas na aplicação dessas


tecnologias em grandes redes, e, sim, em nosso cotidiano. Diversas marcas,
principalmente esportivas, lançaram relógios “inteligentes”, capazes de trazer
todas as informações pessoais do usuário quando o mesmo está praticando alguma
atividade física, como batimentos cardíacos e até mesmo quantidades de passos
dados. Com o tempo, esses relógios foram utilizando cada vez mais o conceito de
Internet das Coisas, já que, além de trazer as informações relacionadas às atividades
físicas, realizam até ligações telefônicas, pois passaram a contar com softwares que
permitem a conexão direta do relógio com as funcionalidades do smartphone.

Atualmente, quase todos os automóveis possuem algum recurso tecnológico


conectado à rede, seja um computador de bordo ou um simples GPS. Dessa forma,
estamos mais envolvidos com essas tecnologias do que imaginamos. A figura a
seguir traz uma estimativa simples de como esses recursos estão sendo utilizados
no nosso cotidiano. As mais populares aplicações de Internet das Coisas são: casas
inteligentes, tecnologias vestíveis (como os relógios), cidades inteligentes, em
indústrias, automóveis, saúde, varejo, cadeia de suprimentos e na agricultura.

FIGURA 26 – ESTIMATIVA POR ÁREA DE NEGÓCIO

FONTE: Santos (2018, p. 33)

242
TÓPICO 7 | INTEGRANDO BIG DATA E IOT

Um fator importante que não devemos esquecer é o de que as informações


e os dados são os bens mais valiosos para as empresas e para nós, consumidores/
usuários! Imagine se seus dados pessoais caem na rede, como senhas de cartões
de crédito, e-mail, dentre outros. Por esse e outros motivos, o uso da IoT é bastante
questionável pelo meio científico. Para seu uso efetivo, deve garantir privacidade
e segurança, usabilidade na medida certa, ou seja, não deve ser utilizada a ponto
de interferir no cotidiano das pessoas, assim como deve ser compatível com
diversos dispositivos e contextos. Apesar disso, ultimamente, tem-se tornado
mais usual vermos notícias relatando vazamento de dados em redes sociais e
ataques a empresas de tecnologia.

O segredo é como o velho ditado “tudo demais é veneno”, recado que


vale para tudo e não exclui a tecnologia, cujo uso é excelente, ajuda-nos, e muito,
em nossas atividades, mas deve ter um limite.

CHAMADA

Ficou alguma dúvida? Construímos uma trilha de aprendizagem


pensando em facilitar tua compreensão. Acesse o QR Code, que te levará ao
AVA, e veja as novidades que preparamos para teu estudo.

243
RESUMO DO TÓPICO 7

Nesse tópico você aprendeu:

• Reconhecer os impactos do uso de Big Data e IoT.

• Analisar a integração entre Big Data e IoT.

• Discutir as possibilidades de aplicação entre Big Data e IoT.

• Que Na era tecnológica, há muitos conceitos, porém, é importante saber o que real-
mente cada um significa, de forma a ficar mais simples compreender todo o contexto
que envolve esses termos, tanto no ramo tecnológico quanto no cotidiano.

• Veja neste Infográfico os conceitos básicos do Big Data e da Internet das Coisas.

244
245
AUTOATIVIDADE

1 O Big Data é aplicado com o objetivo de detectar padrões nos dados e


informações obtidas e, com isso, possibilitar que as empresas consigam
desenvolver produtos e serviços atendendo aos perfis de seu público-alvo.
Assinale a alternativa que traz um impacto causado por essa tecnologia.

a) ( ) Aumento da contratação de serviços de Internet.


b) ( ) Aumento nas vendas de smartphones.
c) ( ) Elevação nas vendas de tablets.
d) ( ) Criação de novos modelos de negócios.
e) ( ) Variação no lançamento de novos produtos tecnológicos.

2 A criação e o desenvolvimento de novos modelos de negócios baseados


no valor das informações armazenadas e analisadas e a possibilidade de
adicionar funcionalidades a dispositivos por meio do uso da conexão com a
rede são características que fundamentam respectivamente os conceitos de
Big Data e IoT. Qual seria a primeira etapa no processo de integração entre
as tecnologias?

a) ( ) Gerar o armazenamento de dados.


b) ( ) Gerenciar as fontes de dados e relacioná-los aos dispositivos.
c) ( ) Na primeira etapa, apenas as tecnologias de IoT agem para inicializar
o processo.
d) ( ) As ferramentas de Big Data operam nos processos iniciais da integração.
e) ( ) O armazenamento em nuvem dos dados ocorre em toda integração,
não havendo uso de outra tecnologia.

3 O Big Data permite que, por meio de suas análises, as empresas possam
evitar desperdícios, trazendo assim mais lucros financeiros, já que
um grande volume de dados é gerado e, por meio dessa tecnologia,
são analisados e estabelecidos padrões, trazendo valor às informações
geradas. O termo Internet das Coisas está integrado ao uso da Internet
na possibilidade de trazer novas funcionalidades a artefatos físicos, como
carros e casas, dentre outros.

A arquitetura da integração entre as tecnologias tem uma camada em que


as tecnologias Big Data realizam suas análises. Assinale a alternativa em que
consta essa camada.

a) ( ) A camada superior diz respeito à análise de Big Data: uma grande


quantidade de dados recebidos de sensores é armazenada na nuvem
e acessada por meio de aplicativos de análise de Big Data.

246
b) ( ) A camada superior diz respeito aos dispositivos de rede responsáveis
pelas conexões entre os dados, por meio de tecnologias como, por
exemplo, Wi-Fi e Bluetooth, entre outras.
c) ( ) A camada superior traz dispositivos conectados em rede e que
utilizam tecnologias ligadas a conceitos de IoT.
d) ( ) A camada superior representa os sensores e os objetos que são
conectados por meio de uma rede sem fio.
e) ( ) A camada superior traz um gerenciamento de aplicativos e mecanismos
de processamentos ligados primeiramente a tecnologias de IoT.

4 As tecnologias Big Data estão relacionadas a um grande conjunto de dados,


além de contar com velocidade e processamento rápido dos dados. Ao serem
associadas a dispositivos IoT, devem lidar com uma variedade de dados
oriundos de fontes diversas, os quais devem ser analisados e detalhados com
o intuito de gerar padrões para as empresas implantarem em seus planos de
negócios.

Quais são as etapas de análise aplicadas na última fase de integração entre IoT
e Big Data?

a) ( ) Variedade, velocidade, volume e consulta.


b) ( ) Dados salvos em nuvem, complexidade dos dados, análises e dados
para treinamento.
c) ( ) Relatórios, consulta, ferramentas de análise e dados para treinamento.
d) ( ) Gerência de fonte de dados, volume, velocidade e variedade.
e) ( ) Velocidade, complexidade dos dados, análises e consulta.

5 Quando se menciona a existência de empresas orientadas a tecnologias,


como Google, e empresas que projetam, criam e integram seus serviços
com conexões à rede, está-se referindo, especificamente, a quais categorias
da IoT?

a) ( ) Enablers e engagers.
b) ( ) Melhoradores e enablers.
c) ( ) Engagers e melhoradores.
d) ( ) Enablers e melhoradores.
e) ( ) Big Data e engagers.

247
248
REFERÊNCIAS
ARANHA, C.; PASSOS, E. A Tecnologia de Mineração de Textos. RESI -
Revista Eletrônica de Sistemas de Informação, v. 5, n. 2, p. 1-8, 2006. Disponível
em: <http://www.spell.org.br/documentos/ver/26518/a-tecnologia-de-mineracao-
de-textos>. Acesso em: 4 jan. 2019.

BRULEY, M. Big Data & Text Mining. 16 jan. 2014. Disponível em: <https://
www.slideshare.net/MichelBruley/1-text-mining-v0a>. Acesso em: 4 jan. 2019.

CONVERGÊNCIA DIGITAL. Cisco vai às compras para se consolidar em


Internet das Coisas. 04 fev. 2016. Disponível em: <http://convergenciadigital.
uol.com.br/cgi/cgilua.exe/sys/start.htm?UserActiveTemplate=site&from_info_
index=11&infoid=41635&sid=17#.XB_5JDBKjDc>. Acesso em: 23 dez. 2018.

CÔRTES, S.; PORCARO, R.; LIFSCHITZ, S. Mineração de Dados:


funcionalidades, técnicas e abordagens. Rio de Janeiro: Puc-Rio, 2002.
Disponível em: <ftp://obaluae.inf.puc-rio. br/pub/docs/techreports/02_10_cortes.
pdf>. Acesso em: 4 jan. 2019.

DEVMEDIA. Mineração de texto: análise comparativa de algoritmos -


Revista SQL Magazine 138. 2016. Disponível em: <https://www.devmedia.
com.br/mineracao-de-texto-analise--comparativa-de-algoritmos-revista-sql-
magazine-138/34013>. Acesso em: 4 jan. 2019.

FACELI, K. et al. Inteligência artificial: uma abordagem de aprendizagem de


máquina. Rio de Janeiro: LTC, 2011.

HOKANSON, B. Going Large: Notes on Increasing Class Scale in an eLearning


Context. 2013. Disponível em: <https://uminntilt.com/2013/05/28/going-large-
notes-on-increasing-class-scale-in-an-elearning-context/>. Acesso em: 4 jan. 2019.

SANTOS, S. Introdução à IoT: desvendando a internet das coisas. Scotts Valley:


CreateSpace, 2018.

SOARES, F. A. Mineração de Textos na Coleta Inteligente de Dados


na Web. 2008. 120 f. Dissertação (Mestrado em Engenharia Elétrica) –
Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2008.
Disponível em: <https://www.maxwell.vrac.puc--rio.br/Busca_etds.
php?strSecao=resultado&nrSeq=13212@1>. Acesso em: 4 jan. 2019.

249

Você também pode gostar