Você está na página 1de 31
10131121, 8:15 PM Fedor FUNDAMENTOS DE BIG DATA |ntps:funriter blackboard. comiwebappsiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE ID=_7352741... 1/91 10731121, 8:15 Pat Eadbr Introdu¢ao Nesta unidade, apresentaremos alguns conceitos basicos para, posteriormente, aprendermos o contetido sobre a Area de Big Data. Nesse sentido, apresentaremos 0 perfil do profissional de Big Data. Em seguida, conheceremos os conceitos e os componentes da tecnologia Big Data, com explicagdes sobre o processo de Big Data e/ou Data Science. Ainda, aprenderemos sobre o armazenamento de dados e a representacéo dos diferentes tipos de dados: texto, valor numérico, imagem e som. Finalmente, conheceremos os conceitos sobre arquitetura e organizacado de computadores. ntps:ituniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274 1... 2/84 10131121, 8:15 PM Fedor Motivagao e Perfil do Profissional de Big Data Iniciaremos este contetido destacando que os dados sao gerados desde o horario em que uma pessoa sai de casa em dire¢ao ao trabalho até o numero de passos que da até uma loja, o que consumiu e em quanto tempo. Contudo, é necessaria uma andlise adequada para que esses dados, um aglomerado de numeros, transformem-se em informacao que possa ser utilizada no planejamento de organizac¢do. Note que, com base na localiza¢ao, nas preferéncias do consumidor, na rotina e em outras informacées disponiveis, uma empresa pode estimar tendéncias e fazer previs6es que, efetivamente, determinam um melhor rumo nos negécios dessa empresa. Além disso, na drea da satide, sintomas parecidos em pacientes de uma mesma regido podem servir como um alerta para que médicos identifiquem uma epidemia ou um surto que se aproxima. Sugest6es de filmes e séries em servicos de streaming também usam a tecnologia, analisando dados de perfil e historico de buscas para indicar o que o usuario gostaria de assistir dentre os titulos disponiveis. |ntps:funriter blackboard. comiwebappsiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE ID=_7352741... 3/91 10731121, 8:15 Pat Eadbr No dia a dia de trabalho, as mudangas tém sido visiveis. Por isso, refletir sobre a quantidade de registros que é gerada sobre o que produzimos, pensamos, sentimos ou até mesmo desejamos é muito importante. Por conta de tudo isso, técnicas tém sido desenvolvidas para possibilitar 0 processamento de dados com alto desempenho e disponibilidade. Nesse sentido, o Big Data visa simplificar a coleta, o processamento e a visualizagao de informacées, oferecendo uma padronizagao eficaz. Assim, as empresas conseguem detectar e compreender tendéncias em tempo real e, por consequéncia, refinar os seus produtos e torna-los mais lucrativos. E importante ressaltar que as solucdes de Big Data trabalham os dados “prutos" até que estes sejam transformados em ideias (em inglés, insights) valiosas para uma sabedoria que permitira uma tomada de decisdo efetiva e eficiente. A figura a seguir procura demonstrar a complexidade dessa transformacao: ncot——nlermarto Concerto aight Figura 1.1 - Do dado a sabedoria Fonte: Adaptada de Evolucdo... (2018, on-line). Na Figura 1.1, podemos notar que os dados brutos constituem a matéria- prima da informagao, ou seja, é a informacao nao tratada de uma organizacao. A informacao é o conjunto de dados que foram processados, seja por meio eletrénico, mecdnico ou manual, e que produziu um resultado com significado. As informagdes sdo valiosas, mas o conhecimento constitui © saber, pois produz ideias e experiéncias que as informacées nao sao capazes de representar. Se informacdo é dado trabalhado, entao o conhecimento é a informagao trabalhada. J4 o conhecimento transforma-se tps:ituniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_1... 4/91 10731121, 8:15 Pat Eadbr em sabedoria quando se torna necessaria uma tomada de decisdo assertiva no contexto de negécio da organizacao. A Ciéncia de Dados (ou Data Science, em inglés) surge para sanar a necessidade por novas aplicagées, permitindo que novas industria utilizem, de forma criteriosa, grandes quantidades de dados. Exemplos de aplicacées incluem reconhecimento de fala, reconhecimento de objetos em visdo computacional, robés e carros auténomos, bioinformatica, neurociéncia, a descoberta de exoplanetas e uma compreensdo das origens do universo e até mesmo a montagem de times de beisebol baratos, mas vencedores. Em cada um dos casos citados anteriormente, deve-se combinar o conhecimento da 4rea de aplicacdo com 0 conhecimento estatistico e implementar tal combinagao, buscando utilizar as ultimas novidades da ciéncia da computagao, conforme apresentado na Figura 1.2. s we Oo © @ A § © & Figura 1.2 - Gerenciamento de negocios e dados, servico analitico e ciéncia de dados Fonte: Maxim Evseev / 123RF. O cientista de dados deve ter a habilidade de trabalhar de forma adequada com os dados, gerando informacées pertinentes e identificando padroes de comportamento. Portanto, algumas competéncias e habilidades sao necessarias: * habilidade de programacao de forma a extrair, dos dados, as respostas para perguntas que ainda nao foram feitas; ntps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274 1... S191 10731121, 8:15 Pat Eadbr * pensamento ldgico, para que se possa fazer analises adequadas sobre as informacées obtidas; * habilidade com numeros, pois algoritmos de Machine Learning sao baseados em conceitos matematicos, e a estatistica (parte fundamental da Ciéncia de Dados) requer habilidade com numeros; * conhecimento das tecnologias atuais de armazenamento de dados. Nesse sentido, podemos notar que todas as competéncias citadas, associadas a Inteligéncia Artificial e baseadas na premissa de que sistemas podem aprender com dados, identificam padres e tomam decisdes com cada vez menos intervengao humana. Portanto, os profissionais da Ciéncia de Dados devem entender tanto de ferramentas quanto dos processos disponiveis. Além disso, todo cientista de dados deve procurar compreender a area de negécio na qual iré atuar. Cada area de negécio tem as suas particularidades, e deve haver uma compreensao ampla dessa drea. Para permitir um trabalho que gere valor, o cientista de dados deve questionar a organizacao: * Quais sao os principais indicadores? ¢ De onde vém os dados? * Quais problemas a organizacao precisa resolver? * Quais tipos de dados devem ser analisados e correlacionados? * Como técnicas de Machine Learning podem ser empregadas para melhorar o faturamento da organizagao? * Como a analise de dados permite oferecer um servico melhor aos clientes da organizacao? Etc. O cientista de dados vai utilizar o Big Data como matéria-prima, aplicando diversas técnicas e colhendo insights. Mas a responsabilidade por coletar e armazenar os dados, normalmente, é do engenheiro de dados. Esse profissional utiliza conhecimento em ciéncia da computa¢ao para criar sistemas e resolver problemas de processamento de dados em tempo real, manipulando quantidades imensas de dados para o Big Data. Mais especificamente, o engenheiro de dados é responsavel pela criagdo do pipeline, que transforma os dados brutos que esto nos mais variados ntps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274 1... 6191 10731121, 8:15 Pat Eadbr formatos, desde bancos de dados transacionais até arquivos de texto, em um formato que permita ao cientista de dados comecar seu trabalho. O engenheiro de dados deve, portanto, ter habilidades e competéncias para arquitetar sistemas distribuidos, além de criar pipelines confiveis, combinar fontes de dados, criar a arquitetura de solugées e, obviamente, colaborar com a equipe de Ciéncia de Dados para construir as solucées certas para essa equipe. Outro profissional importante é 0 arquiteto de dados. tps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274 1... 7/9 10731121, 8:15 Pat Eadbr Atividade A qualidade de uma imagem depende, basicamente: O a) da quantidade de frames por polegadas. O b) da sua compressdo. © €) de sua resolucao (pixels por polegada). © d) de seu tamanho. O e) de sua compactacao e de seu formato tps:ituniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274 1... 8/91 10131121, 8:15 PM Fedor Conceitos, Componentes e Processo do Big Data O ponto de partida para a compreensao dos préximos conceitos é ter em mente que o Big Data trata-se do processamento de um grande volume de dados, dados esses que, via de regra, nao poderiam ser processados via mecanismos habituais, como por meio de um Sistema Gerenciador de Banco de Dados (SGBD). Esse processamento inicia-se a partir da captagdo de dados de fontes diversas, sejam elas internas (da prépria organizacao que esta estruturando 0 processamento) ou externa. Nao raro, os dados captados para inicio do processamento estado em sua forma bruta, ou seja, nado estao estruturados e precisam ainda passar por etapas de tratamento para que sejam utilizados. Processo de Big Data e/ou Data Science Os dados citados anteriormente podem ser divididos em algumas categorias: * Dados Estruturados: sdo aqueles dados cuja estrutura esta definida e, geralmente, séo obtidos de um banco de dados préprio ou cedido. /ntps:funiniter blackboard. comiwebappsiiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE ID=_7352741... 9/91 10731121, 8:15 Pat Eadbr * Dados Semiestruturados: sao aqueles que nado seguem propriamente uma estrutura definida (e em geral sdo obtidos tanto interna quanto externamente a organizacao que est realizando o processo de Big Data). © Dados Nao Estruturados: sao dados gerais, incluindo imagens, videos, PDFs e outros arquivos diversos. Para 0 tratamento, 0 gerenciamento, 0 trafego e a manipulagao de uma grande massa de dados, é necessdrio, ao engenheiro de Big Data, pensar conceitualmente na estrutura que ira suportar tal quantidade de recursos, atentando-se sempre a disponibilidade do conteUdo e ao consumo de hardware e escalabilidade dessa estrutura. Quanto aos critérios de disponibilidade, podemos usar como exemplo o uso de containers para ativar servicos em poucos minutos. Nesse contexto, containers s3o imagens de um sistema completo (incluindo, as vezes, até mesmo um Sistema Operacional). Essas imagens contém todas as informacées e configuracées de um sistema, de forma que, em caso de pane em algum servidor que hospede uma determinada aplica¢ao, o container com a imagem cépia é iniciado, e 0 servico retorna a atividade em questo de minutos. Vejamos a definicdo de containers, de acordo com o site oficial da distribuicéo Linux: Um container Linux® é um conjunto de um ou mais processos organizados isoladamente do sistema. Todos os arquivos necessdrios a execuc¢Go de tais processos sdo fornecidos por uma imagem distinta. Na pratica, os containers Linux séo portdteis e consistentes durante toda a migra¢do entre os ambientes de desenvolvimento, teste e producdo. Essas caracteristicas os tornam uma op¢déo muito mais rdpida do que os pipelines de desenvolvimento, que dependem da replicagdo dos ambientes de teste tradicionais (O QUE E..., 2019, on-line). itps:ituninterblackboard.comiwebappsiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE | 10181 10731121, 8:15 Pat Eadbr A Computagao em Nuvem (ou Cloud Computing) também é um elemento amplamente utilizado quando tratamos do tema Big Data. Ao contrario do que, erroneamente, se pensa, a computagdo em nuvem tem uma estrutura fisica para armazenamento de arquivos. Os arquivos nao ficam propriamente “em nuvem’, uma vez que eles esto fisicamente em algum local. O que caracteriza o termo “nuvem’ é a possibilidade de executar aplicagées sem que estas estejam instaladas no computador do usuario que as requer. Sdo exemplos de servigo de nuvem o Google Drive (Google) e o OneDrive (Microsoft). Tais exemplos citados apresentam uma gama de aplicacées (editor de textos, planilha eletrénica, ferramenta para criagao de graficos e vetores) totalmente on-line, dispensando a instala¢ao de software em seu computador. Esse mesmo conceito ¢ utilizado por empresas quanto ao uso de aplicacoes desktop. 0 uso da computado em nuvem prové baixo consumo de hardware (considerando que as aplicacdes nao rodam localmente no requerente) e alta disponibilidade, devido ao fato de estarem na nuvem , possibilitando 0 acesso a partir de qualquer maquina previamente conectada a internet. Ressalta-se, portanto, a necessidade de disponibilidade do contetido, por meio de uma estrutura escalavel e pensada quanto a disponibilidade. Geralmente, sistemas de computacdo em nuvem esto diretamente atrelados aum alto processamento, seja este um processamento paralelo ou distribuido. Este tipo de processamento possibilita que uma mesma carga de tarefas em uma maquina (podemos considerar um servidor para nossos exemplos de Big Data) seja distribufda entre varios outros servidores de maneira inteligente e escalonar; assim, quanto maior for o trafego, maior sera a divisdo dos processos por maquina. E intuitivo pensar que, com esses critérios, uma estrutura de redes de alta performance é requerida, para suportar o alto trafego de informagao sem apresentar oscilagdes. Toda essa gama de recursos, geralmente, é utilizada em conjunto, para prover ambientes de Big Data eficientes. Afinal, vivemos na era da informagao, e as informagées crescem em um ritmo frenético nos dias atuais. ntps:ifuniniterblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_.. 11/81 10731121, 8:15 Pat Eadbr Com o advento das Inteligéncias Artificiais, da Internet das Coisas (Jo7) e de outros aparatos tecnolégicos conectados a grande rede, o crescimento do volume de informacées torna-se exponencial. Ao tratarmos de Big Data, destacamos diretamente alguns critérios: * Volume de dados: como ja foi citado, os dados crescem de maneira exponencial, e apenas sistemas de Big Data possuem estrutura ideal de tratamento. * Variedade de dados: além do crescimento desenfreado, os tipos de dados gerados sao diversos. * Velocidade de geragio de dados: diariamente, a quantidade de dados gerada na web é gigantesca. * Veracidade dos dados: nem todos os dados gerados sao factiveis; entao, uma interagdo com sistemas de Inteligéncia Artificial é bastante util para mensurar o que é fato ou nao. © Valor dos dados: Por fim, nem todos os dados captados sao Uteis para um propésito especifico, ou seja, sao dados considerados sem valor para um determinado fim. https:funiriterblackboard.comwebappsiate-course_content_soap-BBLEARNIContoller?ACTION=OPEN_PLAYER&COURSE_ID=_735274_. 12181 10731121, 8:18 PME Eadbr nitpssniiterblackboard.com/webappsilate-course_content_ soap-BBL EARN/Controller?ACTION=OPE! | PLAYERECOURSE_I raszt4_.. 19191 10731121, 8:15 Pat Eadbr Atividade Sistemas de Big Data diferenciam-se de sistemas de Business Intelligence (Bl): O a) porque o Big Data utiliza dados internos de uma organizacéo, enquanto que o Bl utiliza dados externos. O b) porque o Big Data esta diretamente atrelado a um Data Warehouse, enquanto que o Bl esta atrelado a Data Marts. O c) porque o BI utiliza dados internos de uma organizacdo, enquanto que o Big Data utiliza dados externos. O d) porque o BI pode ser lido, interpretado e adaptado por sistemas de ETL, enquanto que o Big Data nao pode. O e) porque o Big Data s6 pode manipular grandes volumes de dados estruturados, enquanto que o BI suporta dados semiestruturados. ntps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_.. 14/91 10131121, 8:15 PM Fedor Armazenamento de Dados E bastante comum, ao ingressarmos no ambiente Big Data, confundir seus recursos e até aplicabilidades com sistemas de Business Intelligence (Bl). Sistemas de BI, geralmente, armazenam informacao de Data Warehouse, que podem ser considerados grandes armazéns de dados utilizados por empresas para gerar tomada de decisdes baseada em cenérios internos, ou seja, da propria empresa. De contrapartida, sistemas de Big Data utilizam dados gerais, muitas vezes externos a empresa, como ja citado anteriormente. E bastante comum, inclusive, que empresas de grande porte utilizem sistemas de Big Data para gerarem dados a serem armazenados em seu Data Warehouse proprio, para fins de utilizar tais dados, posteriormente, em estruturas de BI da organizagao. ETL (Extract, Transform, Load) O armazenamento de dados obtidos por Big Data passa por um processo de tratamento conhecido por ETL (Extract, Transform, Load). Vejamos, a seguir, |ntps:funiritr blackboard. comiwebappsiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE ID=_735274_... 15/91 10731121, 8:15 Pat Eadbr mais detalhes: Extract Esse processo consiste em obter os dados das mais diversas fontes (dados estruturados, semiestruturados e ndo estruturados). Para a obtengdo desses dados, realiza-se 0 processo de extracaio, que capta, sem disting3o, os dados mais diversos, conforme alguns critérios pré-selecionados. Transform O processo de transformagao é responsavel por tratar, previamente, os dados, adequando-os ao perfil que a organizacao deseja utilizar. Um dos itens mais importantes nessa etapa é a categorizacao dos dados por meio de categorias de dados, chamadas também de Data Marts, que organizam os dados, deixando-os prontos para a préxima etapa. Load A etapa de carregamento utiliza os Data Marts para popular uma estrutura ou algum sistema que processe os dados, transformando-os em informacao. Geralmente, utiliza-se um banco de dados (relacional ou nao relacional) ou sistemas de inteligéncia artificial que tomam decisdes imediatas, mediante recepcao dos dados Todo esse processo é bastante trabalhoso, porém grande parte desse trabalho pode ser extinguida com 0 uso de software ou framework de processamento de Big Data, Um dos frameworks mais conhecidos dessa categoria é o Hadoop. © Hadoop é um framework de cdigo aberto que permite que qualquer pessoa modifique e implemente novas funcionalidades, e é desenvolvido e mantido pela Apache Software Foundation. © Hadoop utiliza arquitetura clusterizada, ou seja, um conjunto de computadores que trabalham em conjunto, como se fossem apenas um. ntps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_.. 16181 10731121, 8:15 Pat Eadbr Medidas de Armazenamento Da mesma forma que existem unidades de medidas para representar distancias (quilémetros, milhas, centimetros, metros), peso (quilos, toneladas, gramas) tempo (minutos, segundos, dias, horas), existe também as unidades de medida computacionais, que servem para mensurar pesos de dados, arquivos e qualquer informagao que tenha cunho digital. Amenor unidade de armazenamento é 0 bit (Binary Digit), que pode assumir apenas dois valores: 0 (zero) ou 1 (um); por isso o nome binario. A base bindria vem da area da eletrénica, em que o digito zero representa um circuito desligado, enquanto que o digito um representa um circuito ligado. Na computagao, esses conceitos tém as representagdes apresentadas no Quadro 1.1, a seguir: Quadro 1.1 - Equivaléncias dos digitos bindrios Fonte: Elaborado pela autora. O conjunto de 8 bits é responsavel por formar 1 byte. O cdlculo das unidades de medida computacionais é feito da seguinte forma: digitos binarios elevados a cada 10 poténcias, tomando-se como partida a poténcia zero. Por haver uma representacdo de apenas duas opsées, é comum chamarmos essa representacao de “base 2”, pois a base do expoente é sempre o numero dois. Vejamos 0 Quadro 1.2, a seguir: itps:ituninterblackboard.comiwebappsiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE | 795274. 17184 10731121, 8:15 Pat Eadbr Quadro 1,2 - Unidades de medidas computacionais Fonte: Elaborado pela autora. Representacao de Tipos de Dados como Padroes de Bits Como ja verificado, as unidades de medidas tém o bit como menor elemento na computacao. Uma sequéncia de bits é composta apenas de ntimeros 0 e numeros 1. Isso significa que qualquer dado, seja ele um texto, uma imagem, um video, um cdlculo ou mesmo um programa de computador, é lido e interpretado como ntps:ifunniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_.. 18/91 10731121, 8:15 Pat Eadbr uma sequéncia ldgica de “zeros” e “ums”. Essa conversao é feita de maneira automatica pela arquitetura légica dos computadores, quando estes recebem algum tipo de dado. A conversao de ntimeros decimais para bindrios, por exemplo, dé-se com a seguinte légica: © divide-se o numero decimal por dois; preserva-se o resto da operacao; divide-se o préximo numero por dois; preserva-se o resto da operacao; (1. Repete-se esse procedimento quantas vezes forem necessarias, até que 0 quociente seja o numero um. Veja a Figura 1.3, a seguir, para facilitar a sua compreensao Podemos observar na Figura 1.3 que 0 processo de divisao foi repetido sequencialmente, até que o numero 1 surgisse como quociente, A leitura do binario resultante dessa operacao €: 1001. A leitura correta de qualquer bindrio gerado por esse método deve ser feita de baixo para cima. O numero 9, especificamente, gera 0 mesmo resultado lendo-o de baixo para cima ou de cima para baixo, mas isso no ocorre com qualquer numero. Veja na Figura 1.4, a seguir: ntps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_.. 1918 10731121, 8:15 Pat Eadbr Conforme mostrado na Figura 4, o decimal 8 convertido em binarios resulta em 1000 (bem diferente do resultado 0001, se fosse lido de cima para baixo). er(stica trabalhé ynumeros Texto, Valores Numéricos, Imagem (pixel) e Som (sinal) Independentemente do tipo de dado, tudo é convertide em bindrios, para que seja possivel a leitura correta por um computador. Isso nao significa que, em sua estrutura digital, os dados possuam as mesmas caracteristicas. Muito pelo contrario! itps:ituninterblackboard.comiwebappsiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE | 10731121, 8:15 Pat Eadbr Uma imagem, por exemplo, terd uma representacao bindria, diferente das representacées binarias de arquivos de video, dudio, nimeros ou texto. Entretanto, essas representacdes nao sao as Unicas diferencas entre os diferentes tipos de arquivos/dados. A prépria estrutura de medi¢ao dos arquivos é distinta para cada categoria citada. Imagens, por exemplo, tém as dimensdes medidas em pixels. As medidas de cada pixel dependem, basicamente, da resolucao trabalhada em uma imagem. Quanto maior a resolu¢do, maior a quantidade de pixels, pois isso significa que para cada polegada existe um numero maior de pixels, o que torna a imagem de alta qualidade. Dessa maneira, quando o termo “imagem de alta resolucdo” é expresso, significa o mesmo que dizer que uma determinada imagem tem mais pixels por polegada. Um bom exemplo é comparar esses pixels como graos de areia. Se os graos estiverem dispersos, distanciados uns dos outros sobre um piso frio, sera possivel enxergar partes do piso sob eles. Todavia, se os graos estiverem agrupados, 0 piso sera menos visto e os graos parecerdo cada vez mais nitidos. Quanto mais préximos estiverem, maior sera a nitidez e mais compactos parecerao, a ponto de se assemelharem a um Unico bloco de areia. Isso ocorre porque existem mais graos por centimetro; ou, em uma alusdo ao tema atual, existem mais pixels por polegada. A mesma ideia se aplica a arquivos de audio e video; porém, quanto a qualidade de compressao e a quantidade de frames por segundo. Outro exemplo que podemos apresentar é o de um elastico com algumas pedrinhas presas a ele (similar aqueles usados como bijouteria). As pedrinhas esto tSo préximas umas as outras que parecem cobrir o elastico por completo; porém, se 0 elastico for esticado, pequenos vaos comegarao a surgir entre uma pedrinha e outra, revelando partes do elasticos sob elas. Essa mesma légica ocorre com arquivos de audio, que podem ter maior ou menor compressao. Os arquivos com maior compressao simbolizam o elastico esticado, ou seja, possuem pedacos visiveis do elastico entre as ntps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_.. 21/9 10731121, 8:15 Pat Eadbr pedrinhas, resultando em uma baixa qualidade de audio. Ja os arquivos com menor compressao simbolizam o elastico esticado , que tem toda a sua estrutura coberta por pedrinhas, o que simboliza arquivos de maior qualidade de audio. Jé quanto aos arquivos de video, o fator determinante (além dos pixels por polegada) é a quantidade de frames (quadros) exibidos por segundo. Por padr3o, um arquivo de video possui 24 frames por segundo (FPS). Quanto mais frames por segundo, maior a qualidade obtida no video. Podemos imaginar o movimento de uma bola quicando sobre o chao. O video armazena uma sequéncia de varios quadros que, ao serem executados rapidamente, simulam movimento. O espagamento entre um quadro e outro, embora seja relativamente curto, pode tornar a qualidade do video baixa. Quando a quantidade de quadros por segundo aumenta, diminui-se o espacamento entre os quadros, dando a impressao de aumento na qualidade da imagem do video. Todos esses critérios de peso, qualidade e compressdo devem ser analisados pelos sistemas de Big Data, pois, como uma grande gama de dados é lida, processada e armazenada simultaneamente, é necessdrio ter bom senso para que a plataforma de armazenamento nao “infle” por estar com pouco material de alta qualidade, quando, na verdade, esperava-se ter muitos dados de qualidade mediana, por exemplo. https:funiriterblackboard.comwebappsiate-course_content_soap-BBLEARNIContoller?ACTION=OPEN_PLAYER&COURSE_ID=_735274_. 2231 10731121, 8:15 Pat Eadbr Atividade Os dados utilizados no Big Data podem ser de trés tipos: O a) Estruturados, nao estruturados e semiestruturados. O b) Estruturados, orientados e extraidos. O ¢) Transformados, semiestruturados e orientados. © d) Orientados, extraidos, e ndo estruturados. O e) Orientados, carregados e transformados. itps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_.. 23/3 10131121, 8:15 PM Fedor Arquitetura e Organizacao de Computadores Visao Geral de Arquitetura e Organizacao de Computadores Podemos relacionar a arquitetura de computadores como um mapa para se caminhar do ponto A ao ponto B. Existirdo diversas vias que poderdo ser escolhidas. Da mesma maneira, existem varias formas de se realizar 0 deslocamento (a pé, de bicicleta, de carro, de 6nibus etc., e isso ira depender do caminhos escolhidos e da localizagao dos pontos A e B). JA na arquitetura e na organizacdo de computadores, a légica é a mesma: existe uma estrutura feita para realizar as tarefas da melhor forma possivel; em contrapartida, existem os critérios de organizacao, que irao atuar sobre a arquitetura utilizando os recursos computacionais com total eficiéncia. Estrutura e Funcao de Componentes de Computadores /ntps:funinitr blackboard. comiwebappsiiate-course_content_soap-BBLEARNIContrller?ACTION=OPEN_PLAYER&COURSE ID=_735274_... 24/91 10731121, 8:15 Pat Eadbr De acordo com Stallings (2002 , p. 6), a estrutura e a fun¢do dos componentes de um computador podem ser definidas como: “Estrutura: a forma como os componentes estdo inter-relacionados. Fungo: a operacao de cada componente individual como parte de uma estrutura Além dos dispositivos convencionais e amplamente conhecidos, como os hardwares (placa-mae, placa de som, placa de video, placa de rede, placa de meméria etc.) divididos nas categorias “dispositivos de entrada” e “dispositivos de saida”, trataremos de um componente que é considerado o cérebro do computador: a CPU. Asigla CPU significa Central Processing Unit (Unidade Central de Processamento). Ela é responsavel por realizar todas as operacées légicas do computador, e 6 formada pelos seguintes componentes: © Unidade de Controle (UC): fornece e controla as instrugdes para a ULA, ditando a forma como eles serdo processados dentro da CPU. © Unidade Légico-Aritmética (ULA): nessa divisdo da CPU, sao realizados os cAlculos matematicos e as comparacées légicas para a realizagéo do processamento de dados. * Registradores: séo micromemérias nas quais os dados ficam armazenados. Os dados processados pela ULA (que foram fornecidos pela UC) sdo armazenados nos registradores https:funiriterblackboard.comwebappsiate-course_content_soap-BBLEARNIContoller?ACTION=OPEN_PLAYER&COURSE_ID=_735274_. 25131 10731121, 8:15 Pat Eadbr Atividade O Hadoop é um framework desenvolvido e mantido pela Apache Software Foundation. Sobre sua aplicagao, é correto afirmar que: O a) E focada na extragéio de dados para Big Data. O b) E focada na transformagao de dados para Big Data. O ¢) E focada em todo o processo de Big Data. O d) E focada no carregamento de Data Marts em bancos relacionais. O e) E focada na geracdo de Data Marts. ntps:ifuniniteblackboard.comiwebappsiate-course_content_soap-BBLEARNIContoler?ACTION=OPEN_PLAYERECOURSE_ID=_735274_.. 26/91 10191121, 8:15 PM Fedor Material Complementar LIVRO Programacao em Baixo Nivel Igor Zhirkov Editora: Novatec ISBN: 978-85-7522-667-4 Comentario: O livro é desenvolvido com assuntos mais detalhados sobre a arquitetura de computadores eo funcionamento dos sistemas de processamento interno, como alocacao de meméria de priorizagao de tarefas, e aborda a linguagem Assembly em plataforma com arquitetura Intel 64. |ntps:funritr blackboard. comiwebappsiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE ID=_735274_... 27/91 10731121, 8:15 Pat Eadbr FILME Hackers: anjos e criminosos Ano: 2002 Comentario: O filme apresenta a historia dos hackers mais famosos do mundo, bem como dos primeiros hackers da historia. E um documentario que explora o mundo tecnoldgico a partir de seus bastidores. TRAILER 20031 itps:ituninterblackboard.comiwebappsiate-course_content_soap-BBLEARNIController?ACTION=OPEN_PLAYER&COURSE | 10731121, 8:15 Pat Eadbr Conclusao Nesta unidade estudamos os principios basicos que envolvem a tecnologia Big Data e, além disso, conhecemos um pouco de suas caracteristicas, sua aplicabilidade e sua estrutura. Nesse sentido, é importante nos aprofundarmos mais em todos os topicos abordados. Com isso, destacamos que o tema Big Data é extremamente amplo Recomendamos que vocé tenha como principio de estudos algum framework de cédigo aberto, como 0 Hadoop, apresentando nesta unidade. Referéncias Bibliograficas EVOLUGAO no processo de dados. Deviante, fev. 2018. Disponivel em: . Acesso em: 17 abr. 2019. © QUE E um container Linux? Redhat, 2019. Disponivel em: Acesso em: 30 mar. 2019. https:funriterblackboard comiwebappsiate-course_content_soap-BBLEARNIContoller?ACTION=OPEN_PLAYERACOURSE_ID=_735274_.. 29/31 10731121, 8:15 Pat Eadbr STALLINGS, W. Arquitetura e Organizagao de Computadores: projeto para o desempenho. 8. ed. Sdo Paulo: Pearson Practice Hall, 2010. IMPRIMIR | https:funriter blackboard comiwebappsiate-course_content_soap-BBLEARNIContoller?ACTION=OPEN_PLAYERACOURSE_ID=_735274_.. 30/31 10731121, 8:18 PME Eadbr nitpssniiterblackboard.com/webappsilate-course_content_ soap-BBL EARN/Controller?ACTION=OPE! | PLAYERECOURSE_I 7a5274_.. 31/91

Você também pode gostar