Você está na página 1de 32

03/06/2020 Ead.

br

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 1/32
03/06/2020 Ead.br

FUNDAMENTOS DE
BIG DATA

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 2/32
03/06/2020 Ead.br

BIG DATA

Es p . Má rc i o d o s Sa nt o s

INICIAR

introdução
Introdução

Nesta unidade, apresentaremos alguns conceitos básicos para, posteriormente,


aprendermos o conteúdo sobre a área de Big Data. Nesse sen do,
apresentaremos o perfil do profissional de Big Data.

Em seguida, conheceremos os conceitos e os componentes da tecnologia Big


Data, com explicações sobre o processo de Big Data e/ou Data Science.

i d d b d d d d

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 3/32
03/06/2020 Ead.br

Ainda, aprenderemos sobre o armazenamento de dados e a representação dos


diferentes pos de dados: texto, valor numérico, imagem e som.

Finalmente, conheceremos os conceitos sobre arquitetura e organização de


computadores.

Motivação e Per l do
Pro ssional de Big Data

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 4/32
03/06/2020 Ead.br

Iniciaremos este conteúdo destacando que os dados são gerados desde o horário
em que uma pessoa sai de casa em direção ao trabalho até o número de passos
que dá até uma loja, o que consumiu e em quanto tempo.

Contudo, é necessária uma análise adequada para que esses dados, um


aglomerado de números, transformem-se em informação que possa ser u lizada
no planejamento de organização. Note que, com base na localização, nas
preferências do consumidor, na ro na e em outras informações disponíveis, uma
empresa pode es mar tendências e fazer previsões que, efe vamente,
determinam um melhor rumo nos negócios dessa empresa.

Além disso, na área da saúde, sintomas parecidos em pacientes de uma mesma


região podem servir como um alerta para que médicos iden fiquem uma
epidemia ou um surto que se aproxima. Sugestões de filmes e séries em serviços
de streaming também usam a tecnologia, analisando dados de perfil e histórico
de buscas para indicar o que o usuário gostaria de assis r dentre os tulos
disponíveis.

No dia a dia de trabalho, as mudanças têm sido visíveis. Por isso, refle r sobre a
quan dade de registros que é gerada sobre o que produzimos, pensamos,
sen mos ou até mesmo desejamos é muito importante.

Por conta de tudo isso, técnicas têm sido desenvolvidas para possibilitar o
processamento de dados com alto desempenho e disponibilidade. Nesse sen do,
o Big Data visa simplificar a coleta, o processamento e a visualização de
informações, oferecendo uma padronização eficaz. Assim, as empresas
conseguem detectar e compreender tendências em tempo real e, por
consequência, refinar os seus produtos e torná-los mais lucra vos.

É importante ressaltar que as soluções de Big Data trabalham os dados “brutos”


até que estes sejam transformados em ideias (em inglês, insights) valiosas para
uma sabedoria que permi rá uma tomada de decisão efe va e eficiente. A figura
a seguir procura demonstrar a complexidade dessa transformação:

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 5/32
03/06/2020 Ead.br

Figura 1.1 - Do dado à sabedoria


Fonte: Adaptada de Evolução… (2018, on-line).

Na Figura 1.1, podemos notar que os dados brutos cons tuem a matéria-prima
da informação, ou seja, é a informação não tratada de uma organização. A
informação é o conjunto de dados que foram processados, seja por meio
eletrônico, mecânico ou manual, e que produziu um resultado com significado. As
informações são valiosas, mas o conhecimento cons tui o saber, pois produz
ideias e experiências que as informações não são capazes de representar. Se
informação é dado trabalhado, então o conhecimento é a informação trabalhada.

Já o conhecimento transforma-se em sabedoria quando se torna necessária uma


tomada de decisão asser va no contexto de negócio da organização.

A Ciência de Dados (ou Data Science, em inglês) surge para sanar a necessidade
por novas aplicações, permi ndo que novas indústrias u lizem, de forma
criteriosa, grandes quan dades de dados. Exemplos de aplicações incluem
reconhecimento de fala, reconhecimento de objetos em visão computacional,
robôs e carros autônomos, bioinformá ca, neurociência, a descoberta de
exoplanetas e uma compreensão das origens do universo e até mesmo a
montagem de mes de beisebol baratos, mas vencedores. Em cada um dos casos
citados anteriormente, deve-se combinar o conhecimento da área de aplicação
com o conhecimento esta s co e implementar tal combinação, buscando u lizar
as úl mas novidades da ciência da computação, conforme apresentado na Figura
1.2.

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 6/32
03/06/2020 Ead.br

Figura 1.2 - Gerenciamento de negócios e dados, serviço analí co e ciência de


dados
Fonte: Maxim Evseev / 123RF.

O cien sta de dados deve ter a habilidade de trabalhar de forma adequada com
os dados, gerando informações per nentes e iden ficando padrões de
comportamento. Portanto, algumas competências e habilidades são necessárias:

habilidade de programação de forma a extrair, dos dados, as respostas


para perguntas que ainda não foram feitas;
pensamento lógico, para que se possa fazer análises adequadas sobre as
informações ob das;
habilidade com números, pois algoritmos de Machine Learning são
baseados em conceitos matemá cos, e a esta s ca (parte fundamental
da Ciência de Dados) requer habilidade com números;
conhecimento das tecnologias atuais de armazenamento de dados.

Nesse sen do, podemos notar que todas as competências citadas, associadas à
Inteligência Ar ficial e baseadas na premissa de que sistemas podem aprender
com dados, iden ficam padrões e tomam decisões com cada vez menos
intervenção humana. Portanto, os profissionais da Ciência de Dados devem
entender tanto de ferramentas quanto dos processos disponíveis.

Além disso todo cien sta de dados deve procurar compreender a área de

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 7/32
03/06/2020 Ead.br

Além disso, todo cien sta de dados deve procurar compreender a área de
negócio na qual irá atuar. Cada área de negócio tem as suas par cularidades, e
deve haver uma compreensão ampla dessa área. Para permi r um trabalho que
gere valor, o cien sta de dados deve ques onar a organização:

Quais são os principais indicadores?


De onde vêm os dados?
Quais problemas a organização precisa resolver?
Quais pos de dados devem ser analisados e correlacionados?
Como técnicas de Machine Learning podem ser empregadas para
melhorar o faturamento da organização?
Como a análise de dados permite oferecer um serviço melhor aos
clientes da organização? Etc.

O cien sta de dados vai u lizar o Big Data como matéria-prima, aplicando
diversas técnicas e colhendo insights. Mas a responsabilidade por coletar e
armazenar os dados, normalmente, é do engenheiro de dados. Esse profissional
u liza conhecimento em ciência da computação para criar sistemas e resolver
problemas de processamento de dados em tempo real, manipulando quan dades
imensas de dados para o Big Data.
Mais especificamente, o engenheiro de dados é responsável pela criação do
pipeline, que transforma os dados brutos que estão nos mais variados formatos,
desde bancos de dados transacionais até arquivos de texto, em um formato que
permita ao cien sta de dados começar seu trabalho. O engenheiro de dados
deve, portanto, ter habilidades e competências para arquitetar sistemas
distribuídos, além de criar pipelines confiáveis, combinar fontes de dados, criar a
arquitetura de soluções e, obviamente, colaborar com a equipe de Ciência de
Dados para construir as soluções certas para essa equipe.

reflita
Re ita

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 8/32
03/06/2020 Ead.br

O trabalho do engenheiro de dados é tão importante quanto o trabalho do cien sta de


dados, mas aqueles costumam ter menor visibilidade, uma vez que estes estão mais
distantes do produto final que resulta do processo de análise, o que é produzido pelo
cien sta de dados.

Outro profissional importante é o arquiteto de dados.

atividade
Atividade
A qualidade de uma imagem depende, basicamente:

a) da quan dade de frames por polegadas.


b) da sua compressão.
c) de sua resolução (pixels por polegada).
d) de seu tamanho.
e) de sua compactação e de seu formato

Feedback: A alterna va correta é a letra C, pois quanto maior a


quan dade de pixels por polegadas, maior a qualidade da imagem.

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 9/32
03/06/2020 Ead.br

Imagens de alta resolução possuem mais pixels por cada polegada.

Conceitos, Componentes e
Processo do Big Data

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 10/32
03/06/2020 Ead.br

O ponto de par da para a compreensão dos próximos conceitos é ter em mente


que o Big Data trata-se do processamento de um grande volume de dados, dados
esses que, via de regra, não poderiam ser processados via mecanismos habituais,
como por meio de um Sistema Gerenciador de Banco de Dados (SGBD).

Esse processamento inicia-se a par r da captação de dados de fontes diversas,


sejam elas internas (da própria organização que está estruturando o
processamento) ou externa. Não raro, os dados captados para início do
processamento estão em sua forma bruta, ou seja, não estão estruturados e
precisam ainda passar por etapas de tratamento para que sejam u lizados.

Processo de Big Data e/ou Data Science


Os dados citados anteriormente podem ser divididos em algumas categorias:

Dados Estruturados: são aqueles dados cuja estrutura está definida e,


geralmente, são ob dos de um banco de dados próprio ou cedido.
Dados Semiestruturados: são aqueles que não seguem propriamente
uma estrutura definida (e em geral são ob dos tanto interna quanto
externamente à organização que está realizando o processo de Big
Data).
Dados Não Estruturados: são dados gerais, incluindo imagens, vídeos,
PDFs e outros arquivos diversos.

Para o tratamento, o gerenciamento, o tráfego e a manipulação de uma grande


massa de dados, é necessário, ao engenheiro de Big Data, pensar
conceitualmente na estrutura que irá suportar tal quan dade de recursos,
atentando-se sempre à disponibilidade do conteúdo e ao consumo de hardware e
escalabilidade dessa estrutura.

Quanto aos critérios de disponibilidade, podemos usar como exemplo o uso de

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 11/32
03/06/2020 Ead.br

containers para a var serviços em poucos minutos.

Nesse contexto, containers são imagens de um sistema completo (incluindo, às


vezes, até mesmo um Sistema Operacional). Essas imagens contêm todas as
informações e configurações de um sistema, de forma que, em caso de pane em
algum servidor que hospede uma determinada aplicação, o container com a
imagem cópia é iniciado, e o serviço retorna à a vidade em questão de minutos.

Vejamos a definição de containers, de acordo com o site oficial da distribuição


Linux:

Um container Linux® é um conjunto de um ou mais processos


organizados isoladamente do sistema. Todos os arquivos necessários à
execução de tais processos são fornecidos por uma imagem dis nta.
Na prá ca, os containers Linux são portáteis e consistentes durante
toda a migração entre os ambientes de desenvolvimento, teste e
produção. Essas caracterís cas os tornam uma opção muito mais
rápida do que os pipelines de desenvolvimento, que dependem da
replicação dos ambientes de teste tradicionais (O QUE É…, 2019, on-
line).

A Computação em Nuvem (ou Cloud Compu ng) também é um elemento


amplamente u lizado quando tratamos do tema Big Data. Ao contrário do que,
erroneamente, se pensa, a computação em nuvem tem uma estrutura sica para
armazenamento de arquivos. Os arquivos não ficam propriamente “em nuvem”,
uma vez que eles estão fisicamente em algum local. O que caracteriza o termo
“nuvem” é a possibilidade de executar aplicações sem que estas estejam
instaladas no computador do usuário que as requer.

São exemplos de serviço de nuvem o Google Drive (Google) e o OneDrive


(Microso ). Tais exemplos citados apresentam uma gama de aplicações (editor de
textos, planilha eletrônica, ferramenta para criação de gráficos e vetores)
totalmente on-line, dispensando a instalação de so ware em seu computador.

Esse mesmo conceito é u lizado por empresas quanto ao uso de aplicações


desktop. O uso da computação em nuvem provê baixo consumo de hardware
(considerando que as aplicações não rodam localmente no requerente) e alta

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 12/32
03/06/2020 Ead.br

(considerando que as aplicações não rodam localmente no requerente) e alta


disponibilidade, devido ao fato de estarem na nuvem , possibilitando o acesso a
par r de qualquer máquina previamente conectada à internet. Ressalta-se,
portanto, a necessidade de disponibilidade do conteúdo, por meio de uma
estrutura escalável e pensada quanto à disponibilidade.

Geralmente, sistemas de computação em nuvem estão diretamente atrelados a


um alto processamento, seja este um processamento paralelo ou distribuído.
Este po de processamento possibilita que uma mesma carga de tarefas em uma
máquina (podemos considerar um servidor para nossos exemplos de Big Data)
seja distribuída entre vários outros servidores de maneira inteligente e escalonar;
assim, quanto maior for o tráfego, maior será a divisão dos processos por
máquina.

É intui vo pensar que, com esses critérios, uma estrutura de redes de alta
performance é requerida, para suportar o alto tráfego de informação sem
apresentar oscilações. Toda essa gama de recursos, geralmente, é u lizada em
conjunto, para prover ambientes de Big Data eficientes. Afinal, vivemos na era da
informação, e as informações crescem em um ritmo frené co nos dias atuais.

Com o advento das Inteligências Ar ficiais, da Internet das Coisas (IoT) e de


outros aparatos tecnológicos conectados à grande rede, o crescimento do
volume de informações torna-se exponencial.

Ao tratarmos de Big Data, destacamos diretamente alguns critérios:

Volume de dados: como já foi citado, os dados crescem de maneira


exponencial, e apenas sistemas de Big Data possuem estrutura ideal de
tratamento.
Variedade de dados: além do crescimento desenfreado, os pos de
dados gerados são diversos.
Velocidade de geração de dados: diariamente, a quan dade de dados
gerada na web é gigantesca.
Veracidade dos dados: nem todos os dados gerados são fac veis;
então, uma interação com sistemas de Inteligência Ar ficial é bastante
ú l para mensurar o que é fato ou não

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 13/32
03/06/2020 Ead.br

ú l para mensurar o que é fato ou não.


Valor dos dados: Por fim, nem todos os dados captados são úteis para
um propósito específico, ou seja, são dados considerados sem valor
para um determinado fim.

saiba mais
Saiba mais
O que é Big Data? O site da Oracle apresenta com mais detalhe a definição de Big
Data, explicando sobre os 5 Vs (volume, velocidade, variedade, valor e veracidade),
sinte zando a história do Big Data e apresentando Casos de Uso.

ACESSAR

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 14/32
03/06/2020 Ead.br

atividade
Atividade
Sistemas de Big Data diferenciam-se de sistemas de Business Intelligence (BI):

a) porque o Big Data u liza dados internos de uma organização, enquanto que o
BI u liza dados externos.
b) porque o Big Data está diretamente atrelado a um Data Warehouse, enquanto
que o BI está atrelado a Data Marts.
c) porque o BI u liza dados internos de uma organização, enquanto que o Big
Data u liza dados externos.
d) porque o BI pode ser lido, interpretado e adaptado por sistemas de ETL,
enquanto que o Big Data não pode.

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 15/32
03/06/2020 Ead.br

e) porque o Big Data só pode manipular grandes volumes de dados estruturados,


enquanto que o BI suporta dados semiestruturados.

Feedback: A alterna va correta é a letra C, pois o Big Data é focado em


captação de grandes massas de dados externos a uma organização. O BI,
em contrapar da, é u lizado internamente, em uma organização, para
tomada de decisão. Com o Big Data, o processo de ETL é u lizado para
extrair, “limpar” e carregar os dados em categorias (Data Marts).

Armazenamento de Dados

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 16/32
03/06/2020 Ead.br

É bastante comum, ao ingressarmos no ambiente Big Data, confundir seus


recursos e até aplicabilidades com sistemas de Business Intelligence (BI). Sistemas
de BI, geralmente, armazenam informação de Data Warehouse, que podem ser
considerados grandes armazéns de dados u lizados por empresas para gerar
tomada de decisões baseada em cenários internos, ou seja, da própria empresa.

De contrapar da, sistemas de Big Data u lizam dados gerais, muitas vezes
externos à empresa, como já citado anteriormente. É bastante comum, inclusive,
que empresas de grande porte u lizem sistemas de Big Data para gerarem dados
a serem armazenados em seu Data Warehouse próprio, para fins de u lizar tais
dados, posteriormente, em estruturas de BI da organização.

ETL (Extract, Transform, Load)


O armazenamento de dados ob dos por Big Data passa por um processo de
tratamento conhecido por ETL (Extract, Transform, Load). Vejamos, a seguir, mais
detalhes:

Extract
Esse processo consiste em obter os dados das mais diversas fontes (dados
estruturados, semiestruturados e não estruturados). Para a obtenção desses
dados, realiza-se o processo de extração, que capta, sem dis nção, os dados mais
diversos, conforme alguns critérios pré-selecionados.

Transform
O processo de transformação é responsável por tratar, previamente, os dados,
adequando-os ao perfil que a organização deseja u lizar. Um dos itens mais
importantes nessa etapa é a categorização dos dados por meio de categorias de
dados, chamadas também de Data Marts, que organizam os dados, deixando-os
prontos para a próxima etapa.

Load

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 17/32
03/06/2020 Ead.br

oad
A etapa de carregamento u liza os Data Marts para popular uma estrutura ou
algum sistema que processe os dados, transformando-os em informação.
Geralmente, u liza-se um banco de dados (relacional ou não relacional) ou
sistemas de inteligência ar ficial que tomam decisões imediatas, mediante
recepção dos dados.

Todo esse processo é bastante trabalhoso, porém grande parte desse trabalho
pode ser ex nguida com o uso de so ware ou framework de processamento de
Big Data. Um dos frameworks mais conhecidos dessa categoria é o Hadoop.

O Hadoop é um framework de código aberto que permite que qualquer pessoa


modifique e implemente novas funcionalidades, e é desenvolvido e man do pela
Apache So ware Founda on. O Hadoop u liza arquitetura clusterizada, ou seja,
um conjunto de computadores que trabalham em conjunto, como se fossem
apenas um.

Medidas de Armazenamento
Da mesma forma que existem unidades de medidas para representar distâncias
(quilômetros, milhas, cen metros, metros), peso (quilos, toneladas, gramas)
tempo (minutos, segundos, dias, horas), existem também as unidades de medida
computacionais, que servem para mensurar pesos de dados, arquivos e qualquer
informação que tenha cunho digital.

A menor unidade de armazenamento é o bit (Binary Digit), que pode assumir


apenas dois valores: 0 (zero) ou 1 (um); por isso o nome binário. A base binária
vem da área da eletrônica, em que o dígito zero representa um circuito desligado,
enquanto que o dígito um representa um circuito ligado. Na computação, esses
conceitos têm as representações apresentadas no Quadro 1.1, a seguir:

0 1

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 18/32
03/06/2020 Ead.br

Desligado Ligado

Não Sim

Falso Verdadeiro

False True

Quadro 1.1 - Equivalências dos dígitos binários


Fonte: Elaborado pela autora.

O conjunto de 8 bits é responsável por formar 1 byte. O cálculo das unidades de


medida computacionais é feito da seguinte forma: dígitos binários elevados a
cada 10 potências, tomando-se como par da a potência zero. Por haver uma
representação de apenas duas opções, é comum chamarmos essa representação
de “base 2”, pois a base do expoente é sempre o número dois. Vejamos o Quadro
1.2, a seguir:

Elevação de potência Resultado em sigla Unidade de Medida

20 1B Byte

210 1024 Kb Kilobytes

220 1024 MB Megabytes

230 1024 GB Gigabytes

240 1024 TB Terabytes

250 1024 PB Petabytes

260 1024 HB Hexabytes

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 19/32
03/06/2020 Ead.br

2 1024 HB Hexabytes

270 1024 ZB Zetabytes

280 124 YB Yotabytes

Quadro 1.2 - Unidades de medidas computacionais


Fonte: Elaborado pela autora.

Representação de Tipos de Dados como


Padrões de Bits
Como já verificado, as unidades de medidas têm o bit como menor elemento na
computação.

Uma sequência de bits é composta apenas de números 0 e números 1. Isso


significa que qualquer dado, seja ele um texto, uma imagem, um vídeo, um
cálculo ou mesmo um programa de computador, é lido e interpretado como uma

sequência lógica de “zeros” e “ums”. Essa conversão é feita de maneira


automá ca pela arquitetura lógica dos computadores, quando estes recebem
algum po de dado.

A conversão de números decimais para binários, por exemplo, dá-se com a


seguinte lógica:

divide-se o número decimal por dois;


preserva-se o resto da operação;
divide-se o próximo número por dois;
preserva-se o resto da operação;
[...].

Repete-se esse procedimento quantas vezes forem necessárias, até que o


quociente seja o número um. Veja a Figura 1.3, a seguir, para facilitar a sua
compreensão:

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 20/32
03/06/2020 Ead.br

Figura 1.3 - Convertendo decimais em binários


Fonte: Elaborada pela autora.

Podemos observar na Figura 1.3 que o processo de divisão foi repe do


sequencialmente, até que o número 1 surgisse como quociente. A leitura do
binário resultante dessa operação é: 1001. A leitura correta de qualquer binário
gerado por esse método deve ser feita de baixo para cima. O número 9,
especificamente, gera o mesmo resultado lendo-o de baixo para cima ou de cima
para baixo, mas isso não ocorre com qualquer número. Veja na Figura 1.4, a
seguir:

Figura 1.4 - Convertendo decimais em binários: conversão do número 8


Fonte: Elaborada pela autora.

Conforme mostrado na Figura 4, o decimal 8 conver do em binários resulta em


1000 (bem diferente do resultado 0001, se fosse lido de cima para baixo).

reflita
https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 21/32
03/06/2020 Ead.br

reflita
Re ita
Existem outros pos de conversão, como textos, imagens e vídeos para binários. Essa
estrutura de conversões é um pouco mais complexa e requer certa prá ca para ser
executada. Conhecimentos sobre base 16 também serão bem-vindos. A base 16 tem
como caracterís ca trabalhar com números de 0 a 15. Os numerais de 0 a 9 são
representados pelos respec vos números; já os numerais de 10 a 15 são representados
por letras de A a F.

Texto, Valores Numéricos, Imagem


(pixel) e Som (sinal)
Independentemente do po de dado, tudo é conver do em binários, para que
seja possível a leitura correta por um computador. Isso não significa que, em sua

estrutura digital, os dados possuam as mesmas caracterís cas. Muito pelo


contrário!

Uma imagem, por exemplo, terá uma representação binária, diferente das
representações binárias de arquivos de vídeo, áudio, números ou texto.

Entretanto, essas representações não são as únicas diferenças entre os diferentes


pos de arquivos/dados. A própria estrutura de medição dos arquivos é dis nta
para cada categoria citada.

Imagens, por exemplo, têm as dimensões medidas em pixels. As medidas de cada


pixel dependem, basicamente, da resolução trabalhada em uma imagem. Quanto
maior a resolução, maior a quan dade de pixels, pois isso significa que para cada
polegada existe um número maior de pixels, o que torna a imagem de alta
qualidade. Dessa maneira, quando o termo “imagem de alta resolução” é
expresso, significa o mesmo que dizer que uma determinada imagem tem mais

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 22/32
03/06/2020 Ead.br

pixels por polegada.

Um bom exemplo é comparar esses pixels como grãos de areia. Se os grãos


es verem dispersos, distanciados uns dos outros sobre um piso frio, será possível
enxergar partes do piso sob eles. Todavia, se os grãos es verem agrupados, o
piso será menos visto e os grãos parecerão cada vez mais ní dos. Quanto mais
próximos es verem, maior será a ni dez e mais compactos parecerão, a ponto de
se assemelharem a um único bloco de areia. Isso ocorre porque existem mais
grãos por cen metro; ou, em uma alusão ao tema atual, existem mais pixels por
polegada.

A mesma ideia se aplica a arquivos de áudio e vídeo; porém, quanto à qualidade


de compressão e à quan dade de frames por segundo.

Outro exemplo que podemos apresentar é o de um elás co com algumas


pedrinhas presas a ele (similar àqueles usados como bijouteria). As pedrinhas
estão tão próximas umas às outras que parecem cobrir o elás co por completo;
porém, se o elás co for es cado, pequenos vãos começarão a surgir entre uma
pedrinha e outra, revelando partes do elás cos sob elas.

Essa mesma lógica ocorre com arquivos de áudio, que podem ter maior ou menor
compressão. Os arquivos com maior compressão simbolizam o elás co es cado,
ou seja, possuem pedaços visíveis do elás co entre as pedrinhas, resultando em
uma baixa qualidade de áudio. Já os arquivos com menor compressão simbolizam
o elás co es cado , que tem toda a sua estrutura coberta por pedrinhas, o que
simboliza arquivos de maior qualidade de áudio.

Já quanto aos arquivos de vídeo, o fator determinante (além dos pixels por
polegada) é a quan dade de frames (quadros) exibidos por segundo. Por padrão,
um arquivo de vídeo possui 24 frames por segundo (FPS). Quanto mais frames
por segundo, maior a qualidade ob da no vídeo.

Podemos imaginar o movimento de uma bola quicando sobre o chão. O vídeo


armazena uma sequência de vários quadros que, ao serem executados
rapidamente, simulam movimento. O espaçamento entre um quadro e outro,
embora seja rela vamente curto pode tornar a qualidade do vídeo baixa

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 23/32
03/06/2020 Ead.br

embora seja rela vamente curto, pode tornar a qualidade do vídeo baixa.
Quando a quan dade de quadros por segundo aumenta, diminui-se o
espaçamento entre os quadros, dando a impressão de aumento na qualidade da
imagem do vídeo.

Todos esses critérios de peso, qualidade e compressão devem ser analisados


pelos sistemas de Big Data, pois, como uma grande gama de dados é lida,
processada e armazenada simultaneamente, é necessário ter bom senso para que
a plataforma de armazenamento não “infle” por estar com pouco material de alta
qualidade, quando, na verdade, esperava-se ter muitos dados de qualidade
mediana, por exemplo.

atividade
Atividade
Os dados u lizados no Big Data podem ser de três pos:

a) Estruturados, não estruturados e semiestruturados.


b) Estruturados, orientados e extraídos.
c) Transformados, semiestruturados e orientados.
d) Orientados, extraídos, e não estruturados.
e) Orientados, carregados e transformados.

Feedback: A alterna va correta é a letra A , pois os dados ob dos por Big


Data podem ser não estruturados (dados diversos), semiestruturados

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 24/32
03/06/2020 Ead.br

(dados pré-formatados e com fácil adaptação para uso) e estruturados


(aqueles vindos de bancos de dados relacionais / não relacionais que em
geral já estão prontos para uso.

Arquitetura e Organização de
Computadores

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 25/32
03/06/2020 Ead.br

Visão Geral de Arquitetura e


Organização de Computadores
Podemos relacionar a arquitetura de computadores como um mapa para se
caminhar do ponto A ao ponto B. Exis rão diversas vias que poderão ser
escolhidas. Da mesma maneira, existem várias formas de se realizar o
deslocamento (a pé, de bicicleta, de carro, de ônibus etc., e isso irá depender do
caminhos escolhidos e da localização dos pontos A e B).

Já na arquitetura e na organização de computadores, a lógica é a mesma: existe


uma estrutura feita para realizar as tarefas da melhor forma possível; em
contrapar da, existem os critérios de organização, que irão atuar sobre a
arquitetura u lizando os recursos computacionais com total eficiência.

Estrutura e Função de Componentes de


Computadores
De acordo com Stallings (2002 , p. 6), a estrutura e a função dos componentes de
um computador podem ser definidas como: “Estrutura: a forma como os
componentes estão inter-relacionados. Função: a operação de cada componente
individual como parte de uma estrutura.

Além dos disposi vos convencionais e amplamente conhecidos, como os


hardwares (placa-mãe, placa de som, placa de vídeo, placa de rede, placa de
memória etc.) divididos nas categorias “disposi vos de entrada” e “disposi vos
de saída”, trataremos de um componente que é considerado o cérebro do
computador: a CPU.

A sigla CPU significa Central Processing Unit (Unidade Central de Processamento).


Ela é responsável por realizar todas as operações lógicas do computador e é

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 26/32
03/06/2020 Ead.br

Ela é responsável por realizar todas as operações lógicas do computador, e é


formada pelos seguintes componentes:

Unidade de Controle (UC): fornece e controla as instruções para a ULA,


ditando a forma como eles serão processados dentro da CPU.
Unidade Lógico-Aritmé ca (ULA): nessa divisão da CPU, são realizados
os cálculos matemá cos e as comparações lógicas para a realização do
processamento de dados.
Registradores: são micromemórias nas quais os dados ficam
armazenados. Os dados processados pela ULA (que foram fornecidos
pela UC) são armazenados nos registradores

atividade
Atividade
O Hadoop é um framework desenvolvido e man do pela Apache So ware Founda on.
Sobre sua aplicação, é correto afirmar que:

a) É focada na extração de dados para Big Data.


b) É focada na transformação de dados para Big Data.
c) É focada em todo o processo de Big Data.
d) É focada no carregamento de Data Marts em bancos relacionais.
e) É focada na geração de Data Marts.

Feedback: A alterna va correta é a letra C, pois o Hadoop é um


“ ”

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 27/32
03/06/2020 Ead.br

framework completo que realiza o trabalho “ponta a ponta” na gestão de


sistemas de Big Data.

in dica ções
Material Complementar

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 28/32
03/06/2020 Ead.br

LIVRO

Programação em Baixo Nível


Igor Zhirkov

Editora: Novatec

ISBN: 978-85-7522-667-4

Comentário: O livro é desenvolvido com assuntos mais


detalhados sobre a arquitetura de computadores e o
funcionamento dos sistemas de processamento interno,
como alocação de memória de priorização de tarefas, e
aborda a linguagem Assembly em plataforma com
arquitetura Intel 64.

FILME

Hackers: anjos e criminosos


Ano: 2002

Comentário: O filme apresenta a história dos hackers mais


famosos do mundo, bem como dos primeiros hackers da
história. É um documentário que explora o mundo
tecnológico a par r de seus bas dores.

TRAILER

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 29/32
03/06/2020 Ead.br

con clusã o
Conclusão

Nesta unidade estudamos os princípios básicos que envolvem a tecnologia Big


Data e, além disso, conhecemos um pouco de suas caracterís cas, sua
aplicabilidade e sua estrutura. Nesse sen do, é importante nos aprofundarmos
mais em todos os tópicos abordados.

Com isso, destacamos que o tema Big Data é extremamente amplo.


Recomendamos que você tenha como princípio de estudos algum framework de
código aberto, como o Hadoop, apresentando nesta unidade.

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 30/32
03/06/2020 Ead.br

referên cias
Referências Bibliográ cas

EVOLUÇÃO no processo de dados. Deviante, fev. 2018. Disponível em:


<h p://www.deviante.com.br/wp-content/uploads/2018/02/data-driven-
01.jpg>. Acesso em: 17 abr. 2019.

O QUE É um container Linux? Redhat, 2019. Disponível em:


<h ps://www.redhat.com/pt-br/topics/containers/whats-a-linux-container>.
Acesso em: 30 mar. 2019.

STALLINGS, W. Arquitetura e Organização de Computadores: projeto para o


desempenho. 8. ed. São Paulo: Pearson Prac ce Hall, 2010.

IMPRIMIR

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 31/32
03/06/2020 Ead.br

https://unp.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 32/32

Você também pode gostar