Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução 🚀
Começamos este curso nos indagando… Afinal, o
que é Big Data?
Big Data é qualquer volume de dados que vai além da capacidade dos seus
sistemas de armazenamento e manipulação. Não é um valor fixo de dados onde
ao atingirmos 50 petabyes temos Big Data. É algo em constante mudança igual
como vemos que conforme as empresas geram mais dados e seus clusters já
não dão conta o cenário e as tecnologias vão mudando.
A ciência de dados como uma área da ciência, com foco evoluir a capacidades de armazenamento,
processamento e agregação de valor a uma enorme gama de dados, é cada vez mais necessária para
nos desafogar do dilúvio de dados que vem crescendo nos últimos anos.
Atualmente, no crescente número de empresas que estão investindo em adotar uma cultura data-driven,
os dados nos trazem custo-benefício incríveis com formas inovadoras de gerarem valor aos mesmos
após o processamento correto para retirada de insights. Devido a isso vemos uma nova característica
surgir: o valor.
Ainda nos tempos atuais é comum a ideia coletiva de que a tecnologia é difícil e distante de suas
realidades, mas mal elas sabem que podemos encontrar esse impacto dos dados quando fazem
compras em plataformas online onde passam a sugerir mais produtos com base no que a pessoa mais
consome, recomendação de filmes em suas plataformas de streaming ou uma playlist de músicas
personalizadas com seu gosto musical criadas automaticamente pelo seu app de música 😉
Virtual Personal Assistants
E que tal falar sobre o crescente número de adeptos das Assistentes Virtuais que, através de
ferramentas, aparelhos e até IoT, nos ajudam a realizar tarefas, agendar compromissos e até pedir
comida!
Através da analise de dados históricos gerados por você e captados pelos dispositivos, essas
inteligências artificiais traçam seu perfil e oferecem um serviço cada vez mais personalizado com suas
necessidades.
No vídeo, o narrador comenta sobre uma pesquisa da IBM e da SAID Business School onde
identificaram três fontes principais de Big Data, onde entramos nós seres humanos, máquinas, aparelhos
e objetos inteligentes conectados a rede ou/e internet e as próprias empresas com seus
datawarehouse’s.
Estes dados podem vir estruturados, não estruturados e semiestruturados. Os estruturados são dados
organizados, rotulados e que seguem um modelo definido de estrutura e seguem um modelo de tabela
ou banco de dados relacional. Já os dados não estruturados representam cerca de 80% dos dados no
mundo, como fotos, vídeos, txt, json, xml e muuito mais. E os dados semiestruturados são uma mistura
dos dois.
Integração
É a habilidade de incorporar partes em um todo, como unir tantas fontes em uma estrutura de fonte de
dados principal. Utilizando ferramentas como o Hadoop, conseguimos unir diversas fontes de dados,
como diversos bancos, em uma.
Através do HDFS (Hadoop Distributed File System), que, cruamente falando, se trata de um sistema
centralizados “dorsal” dos braços dos arquivos distribuídos entre diferentes locais/fontes.
Análise
É a habilidade que, através do estudo comportamental e factível, nos permite concluir e sugerir sobre
aquilo que está sendo observado. Por exemplo podemos falar como o Walmart utiliza do Polaris,
ferramenta de mecanismo de busca, para sugerir compras para seus cliente a partir da análise
comportamental dos mesmos.
Visualização e Otimização
Passou-se o tempo onde as tabelas que usávamos podiam sem conferidas por olho hahaha. Atualmente,
os dados que precisamos entender são enormes e quase infinitos. Por isso, é super importante nos
dedicarmos a buscar as melhores formas de visualizar tantas informações para entendê-las, pois é a
partir delas que muitas pessoas tomam grandes decisões
Segurança e Governança
Na ciência de dados, o tamanho “não importa”, mas sim como o profissional realiza o processo de
limpeza, mineração e análise dos dados para obter valor. O foco é o rico resultado que nasce da boa
combinação, análise e modelagem dos dados exploratórios. Como é dito no vídeo: “A ciência de dados é
o processo de destilação de insights a partir dos dados para embasar as decisões”. Isso unindo
conhecimentos estatísticos, de negócios, ciência e informática.
Tem-se todo um cuidado com a determinação do problema de negócio, da coleta dos dados, exploração
e análise dos mesmos, construção, adaptação e validação de modelos, storytelling e tomada de decisão.
Podemos usar big data em uma forma de visualização de mapa climático na hora do jornal para entender
a dinâmica climática no nosso país e região.
Podemos usar big data em grandes metrópoles para prever fluxo de pessoas e veículos em diferentes
locais e horários, oferecendo um tesouro onde os governantes podem direcionar suas medidas de
redução de carbono, planejamento no transporte público e uma infraestrutura de maior qualidade para a
população.
A criação de protocolos e medidas mais eficientes para combater os crimes na tecnologia, terrorismo
cibernético e fraudes através da análise de big data e encontrando padrões que os criminosos deixam ao
tentar fraudar algum recurso.
Agora focaremos mais no campo das tecnologias de dados e falaremos sobre como o processamento de
dados está se adaptando para fornecer soluções que ofereçam a capacidade de visualização com dados
estruturados, semiestruturados e não estruturados. O a riqueza mineirada e refinada da mina de dados
só é valiosa devido a capacidade do time de profissionais de manusear ferramentas que saibam ler os
diversos tipos de dados que contém no território e compreendê-los.
Ferramentas de dados como o Hadoop e o NoSQL, que sabem atuar no meio do grande volume de
dados estruturados e não estruturados, são alguns dos meios para atingirmos os fins já descritos
anteriormente. Podemos citar o Data Science Workbench, da IBM, que é uma ferramenta hospedada em
cloud que oferece funcionalidades open-source para o desenvolvimento de projetos de data science e
machine learning, que providenciam fácil acesso à Spark, Hadoop, além da possibilidade de
programação com python, R e Scala.