Você está na página 1de 128

Ciência de Dados e Aplicações

de Big Data para tomada de decisões

Brasília-DF.
Elaboração

Leandro Cavalcanti de Santana

Produção

Equipe Técnica de Avaliação, Revisão Linguística e Editoração


Sumário

APRESENTAÇÃO.................................................................................................................................. 5

ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA..................................................................... 6

INTRODUÇÃO.................................................................................................................................... 8

UNIDADE I
INTRODUÇÃO À CIÊNCIA DE DADOS...................................................................................................... 9

CAPÍTULO 1
DEFINIÇÃO DE CIÊNCIA DE DADOS.......................................................................................... 9

CAPÍTULO 2
ÁREAS DE CONHECIMENTO.................................................................................................... 13

CAPÍTULO 3
DADOS E TOMADA DE DECISÃO............................................................................................. 23

UNIDADE II
CIÊNCIA DE DADOS E BIG DATA......................................................................................................... 30

CAPÍTULO 1
E O QUE SÃO DADOS?............................................................................................................ 30

CAPÍTULO 2
BIG DATA................................................................................................................................ 36

CAPÍTULO 3
TRATAMENTO DOS DADOS....................................................................................................... 46

UNIDADE III
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS.................................................................... 49

CAPÍTULO 1
TÉCNICAS DE IA...................................................................................................................... 49

CAPÍTULO 2
FERRAMENTAS DE MANIPULAÇÃO DE DADOS.......................................................................... 60

CAPÍTULO 3
AI E BIG DATA....................................................................................................................... 70
UNIDADE IV
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS ......................................................................... 73

CAPÍTULO 1
GESTÃO DE DADOS................................................................................................................ 73

CAPÍTULO 2
CICLO DE VIDA DOS DADOS................................................................................................... 78

CAPÍTULO 3
ONDE ENCONTRAR DADOS.................................................................................................... 93

UNIDADE V
APLICAÇÕES EM BIG DATA................................................................................................................. 102

CAPÍTULO 1
NETFLIX................................................................................................................................. 102

CAPÍTULO 2
AIRBNB................................................................................................................................. 106

CAPÍTULO 3
BI E EDUCAÇÃO .................................................................................................................. 109

UNIDADE VI
CARREIRAS EM CIÊNCIA DE DADOS................................................................................................... 115

CAPÍTULO 1
PROFISSIONAL DE CIÊNCIA DE DADOS.................................................................................. 115

REFERÊNCIAS................................................................................................................................. 126

4
Apresentação

Caro aluno

A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se


entendem necessários para o desenvolvimento do estudo com segurança e qualidade.
Caracteriza-se pela atualidade, dinâmica e pertinência de seu conteúdo, bem como pela
interatividade e modernidade de sua estrutura formal, adequadas à metodologia da
Educação a Distância – EaD.

Pretende-se, com este material, levá-lo à reflexão e à compreensão da pluralidade


dos conhecimentos a serem oferecidos, possibilitando-lhe ampliar conceitos
específicos da área e atuar de forma competente e conscienciosa, como convém
ao profissional que busca a formação continuada para vencer os desafios que a
evolução científico-tecnológica impõe ao mundo contemporâneo.

Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo


a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na
profissional. Utilize-a como instrumento para seu sucesso na carreira.

Conselho Editorial

5
Organização do Caderno
de Estudos e Pesquisa

Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em


capítulos, de forma didática, objetiva e coerente. Eles serão abordados por meio de textos
básicos, com questões para reflexão, entre outros recursos editoriais que visam tornar
sua leitura mais agradável. Ao final, serão indicadas, também, fontes de consulta para
aprofundar seus estudos com leituras e pesquisas complementares.

A seguir, apresentamos uma breve descrição dos ícones utilizados na organização dos
Cadernos de Estudos e Pesquisa.

Provocação

Textos que buscam instigar o aluno a refletir sobre determinado assunto antes
mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor
conteudista.

Para refletir

Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita
sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante
que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As
reflexões são o ponto de partida para a construção de suas conclusões.

Sugestão de estudo complementar

Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo,


discussões em fóruns ou encontros presenciais quando for o caso.

Atenção

Chamadas para alertar detalhes/tópicos importantes que contribuam para a


síntese/conclusão do assunto abordado.

6
Saiba mais

Informações complementares para elucidar a construção das sínteses/conclusões


sobre o assunto abordado.

Sintetizando

Trecho que busca resumir informações relevantes do conteúdo, facilitando o


entendimento pelo aluno sobre trechos mais complexos.

Para (não) finalizar

Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem


ou estimula ponderações complementares sobre o módulo estudado.

7
Introdução

Este é um material de apoio do curso de pós-graduação a distância em Ciência de Dados.


Neste material de apoio, você irá encontrar de forma simples e prática o assunto da
disciplina de Ciência de Dados e Aplicações de Big Data para Tomada de Decisões.

O material divide-se assim: na Unidade 1, é feita uma abordagem dos conceitos de


fundamentos de Ciência de Dados; na Unidade 2, são apresentados os conceitos de
dados e big data; a Unidade 3 é voltada para as técnicas e a manipulação de dados;
na Unidade 4, é destacada a gestão de dados; a Unidade 5 aborda as aplicações em
big data; e, por fim, na Unidade 6, faremos uma revisão da carreira do profissional do
cientista de dados.

Objetivos
»» Apresentar os conceitos e os fundamentos da Ciência de Dados.

»» Conceitos de sados e big data.

»» Analisar as técnicas e as ferramentas de manipulação de dados.

»» Entender como é feita a gestão dos dados.

»» Conhecer as aplicações em big data e suas importâncias na sociedade.

»» Identificar os pontos que fazer um bom profissional na carreira de Ciência


de Dados.

8
INTRODUÇÃO À UNIDADE I
CIÊNCIA DE DADOS

CAPÍTULO 1
Definição de Ciência de Dados

Ciência de dados é um estudo interdisciplinar que visa delinear a análise de dados,


estruturados ou não, o que tende a extrair informações ou ideias para um possível
processo de tomada de decisão, similar à mineração de dados.

Ciência de Dados, juntamente com big data e aprendizagem de máquina (aprendizagem


de máquina), utiliza procedimentos para outros campos interdisciplinares, tais como
Economia, Estatística, Engenharia e outras subáreas da Computação, como banco
de dados e análise de cluster (agrupamentos). Ciência de dados é uma área que teve
início há 30 anos, mas ganhou maior importância nos últimos anos devido a fatores
como o nascimento e a propagação de big data e o desenvolvimento de áreas como a
aprendizagem de máquina.

Com a Ciência de Dados, é possível mudar essa massa de dados brutos em informações
de negócios e, em seguida, ajudar as empresas na tomada de decisões a vislumbrar
melhores resultados.

Recentemente, o volume de dados gerados na internet, como um simples “like” no


Facebook ou atualizar as fotos e fazer upload de novos vídeos no Instagram, é enorme.
A cada 15 minutos, a quantidade de dados gerados em todo o mundo é maior do que a
quantidade de dados gerados desde a Pré-História até 2003. Legal, não é?

Juntamente com essa evolução constante na geração de dados, também verificou-se


um aumento na capacidade de processamento. Desde os anos 1970, a cada dois anos,
nossa capacidade de processamento aumentou quase atingindo duas vezes mais que
o poder de computação. E, com esse aumento na grande massa de dados e poder de
processamento, um novo conceito surgiu: o de big data.

9
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

A necessidade de analisar e tentar extrair informação desse grande volume de dados


de mostra que a ciência de dados também é considerada uma nova versão da Business
Intelligence (BI).

Os conceitos são muito semelhantes, mas as duas ciências têm papéis e abordagens
diferentes. A Business Intelligence usa análise de dados “descritiva” ou “retrospectiva”
para tentar responder à seguinte pergunta: “O que aconteceu?”. Já a Ciência de Dados
faz uso de análise preditiva e descobre “o que vai ser ou poderia acontecer”.

Pesquisar na internet
Os principais motores de busca na internet usando Ciência de Dados na aprendizagem
da ciência e da máquina visam encontrar os resultados mais refinados em frações de
segundo. O desempenho e a flexibilidade dos motores de busca hoje só são possíveis
devido a dados científicos.

Publicidade digital
Praticamente todo o material de marketing digital é selecionado por algoritmos que
usam dados científicos. Com isso, as organizações obtêm um resultado muito melhor
do que o marketing convencional, uma vez que o marketing digital é montado com
base no histórico do usuário. É por essa razão que duas pessoas podem ver anúncios
diferentes na mesma página – trata-se do famoso serviço personalizado!

Sistemas de recomendação
Fazendo uma análise do perfil de usuário com os dados do seu histórico de pesquisa,
torna-se possível obter uma melhor compreensão dos tipos de propostas que melhor
se adequam a cada pessoa, e isso é o que acontece, por exemplo, quando vemos novas
sugestões de amigos no Facebook e no LinkedIn, bem como indicações de séries e filmes
no Netflix, além de dicas e sugestões sobre os produtos no site da Amazon.

Reconhecimento de imagem
Usando algoritmos de reconhecimento de imagem, várias aplicações são prováveis,
como o código de barras que permite capturar uma imagem com o seu smartphone
para ser capaz de usar a versão web do Whatsapp e também o recurso de tags para
marcar conhecidos nas fotos publicadas em redes sociais.

10
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I

Logística
A UPS, uma empresa do ramo de logística, desenvolveu um sistema chamado Orion,
que é responsável por gerenciar as rotas de seus caminhões de entrega nos EUA. Esse
sistema foi desenvolvido, desde 2008, com a informação de sua frota nas rotas, o tempo
parado dos veículos e até mesmo se os motoristas estavam usando cintos de segurança.
A partir daí, desenvolveu um algoritmo complexo para resolver os problemas da rota de
caminhão. Isso gerou uma impressionantes 1.000 páginas com o código que transforma
dados em instruções para otimizar rotas de caminhões. Atualmente, esse sistema é capaz
de otimizar rotas em segundos; rodando em segundo plano, a atualização é sempre a
mesma, a fim de garantir a melhor rota para seus caminhões, fazendo com que a UPS
economize até 50 milhões de dólares ao ano.

Saúde
Walgreens utiliza análises avançadas nas lojas de drogarias para o atendimento ao
paciente, avaliando melhor suas condições e fornecendo recomendações que melhoram
a saúde e prevenem futuras despesas médicas.

E-commerce de viagem
Muitas organizações de comércio eletrônico de viagens, como Booking, Trivago,
Expedia, entre outros, usam a Ciência de Dados para melhorar os resultados em seu
motor de busca, trazendo ao cliente não apenas os resultados de pesquisa sobre hotéis
e voos, mas também sugerem serviços complementares para essas viagens (reservas de
carros, pacotes de destino turísticos, seguro de viagem etc.).

Serviços financeiros
A Ciência de Dados ajuda a analisar e compreender os dados sobre os gastos passados,
concessões de crédito, entre outras variáveis – assim, os bancos podem traçar os perfis
que são capazes de projetar a probabilidade de um cliente se tornar inadimplente ou
não.

11
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

Comparação de preços
Com o imenso volume de dados gerados pela grande quantidade de lojas virtuais, sites
como Buscapé, Trivago, Bondfaro, entre muitos outros utilizam dados científicos para
exibir os preços mais baixos do produto que o cliente está procurando.

Cientista de dados
Os cientistas de dados são profissionais da nova geração com conhecimentos em
Matemática, Estatística e Ciências da Computação, com especialização em análise de
dados e soluções para possíveis problemas decorrentes desses dados complexos.

Mercado de trabalho
O profissional dessa área está entre os melhores profissionais da América, de acordo
com uma lista de local da Glassdoor. O elevado número de vagas (devido ao pequeno
número de profissionais qualificados), boa remuneração e a satisfação no local de
trabalho foram os fatores que colocaram a profissão no topo da lista. De acordo com
uma pesquisa realizada pela IBM, a demanda por esses profissionais deverá aumentar
para 28% até 2020 e, atualmente, 60% da demanda por esses profissionais é do setor
de finanças.

12
CAPÍTULO 2
Áreas de conhecimento

Uma grande área de estudo para os dados da ciência é a mineração de dados. A mineração
de dados é o processo de descoberta de informações úteis em grandes conjuntos de
dados, utilizando a análise matemática para derivar padrões e tendências que existem
nos dados. Normalmente, essas regras não podem ser descobertas por exploração de
dados tradicional, porque as relações são demasiado complexas ou porque há uma
grande quantidade de dados.

Esses padrões e tendências podem ser coletados e definidos como modelo de


mineração. Os modelos de mineração de dados podem ser aplicados a cenários
específicos, tais como:

»» predição: as estimativas de vendas, prevendo as cargas de servidor ou


tempo de inatividade do servidor;

»» risco e probabilidade: escolha dos melhores clientes para embarques,


a determinação do ponto equilibrada de cenários de risco prováveis,
atribuindo probabilidade a diagnósticos ou outros resultados;

»» recomendações: determinar quais os produtos são mais susceptíveis


de serem vendidos em conjunto, gerando recomendações;

»» identificação de sequências: analisar seleções de um cliente em um


carrinho de compras, prevendo o próximo evento provável;

»» agrupamento: separar os clientes ou eventos nos itens relacionados de


cluster, analisando e prevendo afinidades.

A criação de um modelo de mineração de dados é apenas parte de um processo maior,


que inclui aplicações de dados e a criação de um modelo para as respostas às questões
colocadas e um modelo de implantação em um ambiente de trabalho. Esse processo
pode ser definido usando os seis passos básicos abaixo:

1. definição do problema;

2. preparação de dados;

3. exploração de dados;

13
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

4. modelagem;

5. exploração e validação de modelos;

6. implantação e atualização de modelos.

O diagrama a seguir descreve as relações entre cada etapa do processo e tecnologias


Microsoft SQL Server que você pode usar para concluir cada etapa.

Figura 1 – Etapas do processo de integração

Integração Exibição
de da fonte
serviços de dados

Designer de
mineração de
dados

Fonte: autoria própria (2018).

O processo ilustrado no diagrama é cíclico, isto é, criar um modelo de extração de dados


é um processo dinâmico e interativo. Depois de explorar os dados (exibição da fonte
de dados), você pode achar que eles são insuficientes para criar modelos (designer)
de extração adequada e que, então, você vai ter mais dados. Ou você pode criar vários
modelos e, em seguida, perceber que os modelos não respondem adequadamente ao
problema e você tem de redefinir esse problema. Você pode, ainda, precisar atualizar os
modelos depois que eles são distribuídos, porque não há mais dados disponíveis. Cada
etapa do processo pode ter de ser repetida várias vezes para criar um bom modelo.

O Microsoft SQL Server Data Mining fornece um ambiente integrado para a criação e
a manipulação de modelos de mineração de dados. Esse ambiente inclui: o Servidor
de Desenvolvimento Estúdio SQL, que contém algoritmos de mineração de dados e
ferramentas de consulta que facilitam a construção de uma solução completa para uma
variedade de projetos; e o SQL Server Management Studio, que contém ferramentas
para procurar padrões e gerenciar a extração objetos de dados.

Para um exemplo de como as ferramentas do SQL Server podem ser aplicadas a um


cenário de negócios, consulte o Data Mining Tutorial Básico.

14
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I

Definição do problema
O primeiro passo do processo de mineração de dados, como mostrado na figura a
seguir, é definir claramente o problema e considerar métodos para usar os dados para
fornecer-lhe respostas.

Figura 2 – Fase integração de serviços – implantando e atualizando modelos

Integração de serviços
... – implementando e ...
atualizando modelos

Fonte: autoria própria (2018).

Essa fase inclui a análise de requisitos de negócios, para definir o escopo do problema,
que define os parâmetros usados ​​para avaliar o modelo e, finalmente, a definição de
metas específicas para o projeto de mineração. Essas tarefas podem ser traduzidas em
perguntas como:

»» O que você quer? Que tipo de relacionamento está tentando encontrar?

»» O problema que você está tentando resolver se reflete nas políticas e nos
processos de negócios?

»» Você quer fazer previsões com modelo de data mining ou simplesmente


identificar padrões interessantes e associações?

»» Que resultado ou atributo você deseja fornecer?

»» Que tipo de dados que você tem, e que tipo de informação está em cada
coluna? Se houver várias tabelas, como eles estão conectados? Você deve
fazer alguma limpeza, agregação ou de processamento para torná-los
dados utilizáveis?

»» Como os dados são distribuídos? Os dados são sazonais? Os dados


representam com precisão os processos de negócio?

Para responder a essas perguntas, você pode precisar realizar um estudo sobre a
disponibilidade de dados para investigar as necessidades dos usuários de negócios no

15
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

que diz respeito aos dados disponíveis. Se os dados não são suficientes para atender às
necessidades dos usuários, pode ser necessário redefinir o projeto.

Você também precisa considerar como os resultados do modelo podem ser incorporados
em KPIs (Key Performance Indicators) utilizados para avaliar o andamento dos
negócios.

Preparação de dados
A segunda fase do processo de mineração de dados, como se mostra no diagrama a
seguir, é para consolidar dados limpos identificados na etapa de definição do problema.

Figura 3 – Etapa de integração de serviços – preparando dados

Integração de
... serviços – ...
preparando dados

Fonte: autoria própria (2018).

Os dados podem ser espalhados pela empresa e armazenados em diferentes formatos, ou


podem conter inconsistências, tais como entradas em falta ou incorretas. Por exemplo,
os dados podem mostrar que um cliente comprou um produto antes de o produto ser
realmente oferecido para venda no mercado, ou mostrar as lojas de clientes regulares a
uma distância de 3.000 quilômetros de sua casa.

A limpeza de dados envolve não só a remoção de dados incorretos ou a interpolação


de valores em falta, mas também a localização das correlações ocultas nos dados, a
identificação de fontes de dados mais precisos e a determinação de quais colunas são
mais apropriadas para a análise. Por exemplo, você deve usar a data de envio ou a
data de aplicação? A melhor influenciadora de vendas a quantidade, o valor total ou
o preço com desconto? Incompletas entradas incorretas e parecem alheias, mas elas
estão intimamente relacionadas, podendo afetar os resultados do modelo de maneiras
inesperadas.

Portanto, antes de começar a criar modelos de mineração de dados, você precisa


identificar esses problemas e determinar como resolvê-los. Para mineração de dados,
geralmente trabalha-se com um grande conjunto de dados e não se pode examinar

16
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I

a qualidade dos dados para cada transação; assim, você pode precisar usar alguma
forma de criação de perfil de dados e ferramentas de filtragem de dados e de limpeza
automática, tais como as previstas no Integration Services, Microsoft SQL Server 2012
Master Data Services ou o SQL Server Data Quality Services para explorar os dados e
encontrar inconsistências. Para mais informações, consulte estes recursos:

»» Master Data Services Overview;

»» Data Quality Services.

É importante saber que os dados utilizados na mineração não devem ser armazenados
em um cubo OLAP (on-line analytical processing) nem em um banco de dados relacional,
embora ambos podem ser usados ​​como fontes de dados. Você pode fazer mineração
de dados utilizando qualquer fonte de dados definida como uma fonte de dados do
Analysis Services. Isso inclui arquivos de texto, planilhas do Excel e dados de outros
fornecedores externos.

Explorando dados
A terceira fase do processo de mineração de dados, como se mostra no diagrama a
seguir, é a de explorar os dados preparados.

Figura 4 – Etapa de exibição de fonte de dados – explorando dados

Exibição de fonte
... de dados – ...
explorando dados

Fonte: autoria própria (2018).

Você deve compreender os dados para tomar decisões apropriadas para criar modelos
de mineração. As técnicas de exploração incluem o cálculo dos valores mínimos e
máximos, os cálculos de médias e desvios padrão e a análise da distribuição dos dados.
Por exemplo, quando se analisam a máxima, a mínima e a média, você pode determinar
que os dados não são representativos para os seus clientes ou processos de negócios,
e você deve obter dados mais equilibradas ou rever os pressupostos que determinam
suas expectativas. Os desvios padrão e outros valores de distribuição podem fornecer
informações úteis sobre a estabilidade e a precisão dos resultados.

17
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

Um desvio padrão grande indica que incluir mais dados pode ser útil para melhorar o
modelo. Os dados que desviam muito de uma distribuição padrão podem ser distorcidos
ou representar uma imagem precisa do problema real – o que torna difícil, no entanto,
o ajuste de um modelo aos dados.

Explorando os dados, tendo em conta o problema de atividades de conhecimento, você


pode decidir se o conjunto contém os dados imperfeitos. Com isso, você pode criar uma
estratégia para resolver os problemas ou ainda entender comportamentos típicos em
sua empresa.

Você pode usar ferramentas como o Master Data Services para investigar as fontes de
dados disponíveis e determinar a sua disponibilidade para mineração de dados. Você
pode usar ferramentas como o SQL Server Data Quality Services ou criador de perfil no
Integration Services para analisar a distribuição dos dados e resolver problemas como
dados incorretos ou ausentes.

Depois de definir suas origens, devem-se combinar os dados em uma exibição da fonte
de dados usando o designer de exibição da fonte de dados no SQL Server Data Tools.
Esse designer também contém várias ferramentas que você pode usar para explorar os
dados e verificar se eles vão trabalhar para criar um modelo.

Observe que, quando você cria um modelo, o Analysis Services cria automaticamente
resumos estatísticos dos dados do modelo, que estão disponíveis para uso em relatórios
ou para análise detalhada.

Criando modelos
A quarta fase do processo de mineração de dados, como mostra o diagrama a seguir,
é a criação do modelo de mineração. Ele vai usar o conhecimento obtido na etapa de
explorar dados para ajudar a definir e criar os modelos.

Figura 5 – Etapa designer de mineração de dados – criando modelos

Designer de
... mineração de dados ...
– criando modelos

Fonte: autoria própria (2018).

18
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I

Você define as colunas de dados que você deseja usar para criar uma estrutura de
mineração, que é vinculada à fonte de dados, mas não contém dados, na realidade,
até que seja transformada. Ao processar a estrutura de mineração, o Analysis Services
gera agregados e outros dados estatísticos que podem ser usados ​​para a análise. Essa
informação pode ser usada por qualquer modelo de mineração com base na estrutura.
Para mais informações sobre como as estruturas de mineração estão relacionados com
modelos de mineração, consulte Arquitetura Lógica (Analysis Services – mineração
de dados).

Antes da estrutura e do modelo a ser processado, também o modelo de mineração


de dados é apenas um recipiente que especifica as colunas utilizadas para a entrada,
o atributo que prevê, e os parâmetros que indicam o algoritmo de como os dados
devem ser processados. O desenvolvimento de um modelo é muitas vezes chamado
de treinamento. Formação refere-se ao processo de aplicação de um algoritmo
matemático específico para os dados na estrutura para extrair modelos. O modelo
que está em processo de formação depende da seleção dos dados de treinamento, do
algoritmo que você escolher e de como você configurar o algoritmo. O SQL Server 2014
contém muitos algoritmos diferentes, cada um adequado a um tipo diferente de tarefa,
e cada um criando um tipo diferente de modelo. Para obter uma lista dos algoritmos
incluídos no SQL Server 2014, veja dados algoritmos de mineração (Analysis Services
– mineração de dados).

Você também pode usar parâmetros para ajustar cada algoritmo e aplicar filtros para os
dados de treinamento para usar apenas um subconjunto de dados, criando resultados
diferentes. Depois de passar os dados por meio do modelo, o objeto do modelo de
mineração contém resumos e padrões que podem ser consultados ou utilizados para a
predição.

Você pode definir um novo modelo usando as ferramentas ou o assistente de dados SQL
Server Data Mining linguagem DMX (data mining extensions). Para mais informações
sobre como usar o assistente de mineração de dados, consulte assistente de mineração
(Analysis Services – mineração de dados). Para mais informações sobre como usar
DMX, consulte dados de referência mining extensions (DMX).

É importante lembrar que sempre que os dados mudarem, você deve atualizar a
estrutura e o modelo de mineração. Quando você atualizar uma estrutura de mineração
reprocessando-a, o Analysis Services recupera os dados de origem, incluindo quaisquer
novos se os dados de origem são atualizados dinamicamente e repovoarem a estrutura
de mineração. Você pode optar por atualizar os modelos com base na estrutura, o que

19
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

significa que eles vão ser treinados sobre os novos dados – ou você pode, ainda, manter
o modelo como está.

Explorar e validar modelos


A quinta etapa do processo de mineração de dados, como se mostra no diagrama a
seguir, consiste em explorar modelos de mineração criados e testar a sua eficiência.

Figura 6 – Etapa designer de mineração de dados – validando modelos

Designer de
... mineração de dados ...
– validando modelos

Fonte: autoria própria (2018).

Antes de implantar um modelo em um ambiente de produção, você provavelmente vai


tentar avaliar o desempenho. Além disso, ao criar um modelo, você normalmente cria
vários modelos com diferentes configurações e testa para ver qual produz os melhores
resultados para o seu problema e seus dados.

A Analysis Services fornece ferramentas de análise para ajudá-lo a separar os dados em


grupos de treinamento e dados de teste, a fim de avaliar com precisão o desempenho
de todos os modelos com os mesmos dados. Você pode usar os dados de treinamento
para criar um padrão de teste e conjunto de dados para verificar a precisão do modelo
por meio da criação de consultas de previsão. No SQL Server 2014 Analysis Services
(SSAS), esse particionamento pode ser executado automaticamente quando você cria o
modelo de mineração.

Você pode explorar as tendências e os padrões que os algoritmos descobrem usando os


pontos de visualização do designer de mineração de dados do SQL Server Data Tools.
Você também pode criar modelos para testar as previsões usando as ferramentas de
design, tais como gráfico de comparação de precisão e matriz de classificação. Para
testar se o modelo é específico para os dados ou pode ser usado para fazer inferências na
população em geral, você pode usar a técnica estatística chamada validação cruzada
para criar automaticamente subconjuntos de dados e modelos de ensaio em cada seção.

20
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I

Se nenhum dos modelos criados na etapa modelagem tiver um bom desempenho, pode
voltar a um estágio anterior do processo, redefinir o problema e investigar os dados
para o conjunto de dados original.

A distribuição e a atualização de modelos


A última fase do processo de mineração de dados, como se mostra no diagrama a seguir,
consiste em implantar os modelos que têm o desempenho melhor num ambiente de
produção.

Figura 7 – Etapa integração de serviços – implementando e atualizando modelos

Integração de serviços
... – implantando e ...
atualizando modelos

Fonte: autoria própria (2018).

Uma vez que existem os modelos de mineração em um ambiente de produção, você


pode executar várias funções para atender às suas necessidades. A seguir, algumas
ações que você pode executar.

»» Use modelos para criar previsões, que podem ser usados ​​para tomar
decisões comerciais utilizando o SQL Server e a linguagem DMX.. Para
mais informações, consulte referência DMX (extensões DMX).

»» Criar consulta de conteúdo para recuperar estatísticas, regras ou fórmulas


modelo.

»» Incluir a funcionalidade de mineração de dados diretamente para uma


aplicação. Você pode incluir objetos de gerenciamento de análise (AMO),
que contêm um número de objetos que seu aplicativo pode usar para
criar, editar, processar e eliminar estruturas e modelos de mineração.
Alternativamente, você pode enviar mensagens XMLA (XML for Analysis)
diretamente a uma instância do Analysis Services.

»» Use o Integration Services para criar um pacote no qual um modelo de


mineração é usado para separar os dados de entrada, de forma inteligente,

21
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

em várias mesas. Por exemplo, se um banco de dados é atualizado


continuamente com os clientes potenciais, você pode usar um modelo de
mineração, juntamente com o Integration Services, para dividir os dados
recebidos entre os clientes que estão propensos a comprar um produto e
aqueles em risco de não comprar o produto.

»» Criar um relatório que permite aos usuários consultar diretamente um


modelo de mineração existente.

»» Atualizar os modelos após revisão e análise. As atualizações requerem


modelos de reprocessamento.

»» A atualização dinâmica dos modelos, tais como a organização, gera mais


dados e mudanças contínuas para melhorar a eficiência da solução – o
que deve ser parte de sua estratégia de distribuição.

22
CAPÍTULO 3
Dados e tomada de decisão

A cada dia que passa, a tecnologia avança para a resolução de problemas do cotidiano,
e, com todo esse progresso tecnológico, as ferramentas para a tomada de decisões
tornam-se mais precisas.

Já não é novidade que a informação correta é a chave para as estratégias e as decisões


mais assertivas. Tomadores de decisão, hoje, devem reconhecer o papel fundamental
desempenhado pelo grande volume de dados (big data). Os gerentes, por sua vez, estão
cada vez mais analíticos. Dessa forma, experiência na gestão de grandes volumes de
dados, estatísticas e análises, entre outras características, tornam-se indispensáveis ​​no
perfil dos atuais líderes.

No entanto, para exercer a tomada de decisão, é necessário planejar, e essa atividade se


deve ao fato de que não consiste em uma técnica, processo ou ferramenta para ajudá-lo.

Fazer uso de instrumentos que medem os dados gerados pela internet, e até mesmo
consumidores finais de usuários mercados físicos, é essencial para tomar as melhores
decisões.

As formas de capturar dados relevantes tornaram-se melhores – hoje foi muito mais
fácil de controlar o público-alvo em seu perfil, fornecedores e funcionários também.
Mas é importante notar que as velhas formas de obtenção de dados primários ainda
não morreram; pelo contrário, estão em pleno andamento. Para usar as melhores
ferramentas para a tomada de decisão, é preciso lembrar que os módulos de decisão
são parte das atividades diárias.

Tipos de decisões de negócios


Figura 8 – Tipos de decisões de negócios

Fonte: UpLexis (2016).

23
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

As decisões de negócios são divididas em três categorias que se complementam para


atingir um objetivo específico.

O formato dessas decisões passa por todas as fases de funcionamento de uma empresa,
desde a sua gestão de topo (presidente, acionistas e diretores) para o que chamamos
de “chão de fábrica” (aqueles que estão totalmente empenhados em estratégias de
execução).

As decisões estão divididas em três categorias: estratégica, tática (ou gerencial) e


operacional.

Estratégica

As decisões estratégicas são o planejamento delineado pela presidência, por diretores e


acionistas de uma empresa, em que são definidos:
»» visão e missão da empresa;
»» orientação externa;
»» objetivos de longo prazo;
»» objetivos gerais;
»» planos genéricos.

Tática/gerencial

As decisões táticas são tratadas pela gestão e coordenação da empresa cindida das
unidades departamentais. Essas decisões são:

»» visão por unidade de negócio;

»» objetivos de médio prazo;

»» definição das principais ações por departamento.

Operacional

As decisões operacionais servem para enviar planejamento e implementação das


estratégias definidas pelo conselho.

Os líderes de operações são diretamente responsáveis ​​por decisões como:

»» divisão de tarefas rotineiras;

24
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I

»» metas de curto prazo;

»» a definição de objetivos e resultados específicos.

Depois de conhecer os tipos de decisões de uma organização, vamos discutir as melhores


ferramentas que são essenciais para a tomada de decisões.

Melhores ferramentas para tomada de


decisão
Deve-se ter uma variedade de ferramentas de análise, capazes de contribuir eficazmente
para a visão periférica dos processos e das ações definidas pela empresa, desde o
monitoramento das ações internas para a definição do desempenho da empresa externa.

A seguir, veja uma seleção que realizamos com as 10 principais ferramentas que são
essenciais para a tomada de decisões.

Pesquisa

A pesquisa é uma das ferramentas mais poderosas para opiniões de captura, para o
perfil e para obter informações primárias e secundárias. Podemos usar dois tipos de
pesquisa, que podem traçar objetivos comuns, mas em diferentes cenários. Existem
dois tipos de pesquisa:

»» pesquisa interna: o objetivo da investigação interna pode estar relacionado


com o desempenho dos negócios da empresa, a satisfação de seus colaboradores,
etc.;

»» pesquisa externa: o perfil de investigação externa tem como objetivo traçar


o perfil do público, as suas principais características e, além disso, procurar o
conhecimento de todos os fatores de mercado que são essenciais para a empresa.

Matriz SWOT

Figura 9 – Análise SWOT

Ajudar Viradas
Interno (organização) Força Fraqueza
No exterior (ambiente) Oportunidade Ameaças

Fonte: autoria própria (2018).

25
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

Essa é a ferramenta mais eficaz no campo da análise de cenários, seja interna ou externa.

A utilização da matriz SWOT faz parte de qualquer decisão estratégica de conhecer


seus pontos relevantes e irrelevantes e de se preparar para situações adversas.

A matriz SWOT aborda questões como:

»» forças;

»» fraquezas;

»» ameaças;

»» oportunidades.

Teorias como uma ferramenta

Teorias são as origens do administrador clássico, são o ponto de partida para a tomada
de decisão eficiente.

Taylor, Fayol, Weber e outros pensadores da administração têm os seus conceitos de


vida até hoje na forma de organizações que geram.

As 5 principais teorias da administração utilizadas no campo são:

»» gestão científica: racionalização do trabalho de nível operacional;

»» teoria clássica: organização formal, os princípios gerais de administração,


funções de administrador;

»» teoria das relações humanas: organização, motivação, liderança,


comunicação e dinâmica de grupo informais;

»» teoria do comportamento organizacional: estilos de gestão, teoria de


decisão, a integração dos objetivos individuais e organizações;

»» teoria da contingência: análise ambiental e abordagem de sistema aberto.

As teorias também desenvolvem um papel fundamental na tomada de decisões


empresariais, sendo, portanto, classificadas como uma importante ferramenta para a
tomada de decisões.

26
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I

Gráficos

Entendem-se por gráficos os valores numéricos no modelo estatístico visualmente


expresso em diferentes formatos, com o fim de facilitar a compreensão.

Os gráficos podem ser usados por todas as áreas dentro de uma empresa para demonstrar
o desempenho das ações tomadas pelos serviços.

Tipos de gráficos:

»» gráfico de linha;

»» gráfico de barras (vertical e horizontal);

»» gráfico de setores.

Tabelas

As tabelas são projetadas para mostrar todos os dados estatísticos em um formato


detalhado. Diante da visualização da tabela, o gerente faz com que seja fácil de entender
como cada ação tem alcançado resultados.

É uma das ferramentas mais utilizadas em organizações e é a melhor maneira de relatar


todos os processos de negócios. Então, ela é considerada como uma das melhores
ferramentas para a tomada de decisão.

Diagramas

Os diagramas são gráficos de duas dimensões, e seu objetivo é transmitir e simplificar


o conceito de ideias.

Ele pode ser formulado usando conceitos qualitativos e quantitativos, mas sua essência
está totalmente voltada para as estatísticas.

Modelos de diagramas existentes são:

»» por pontos;

»» por linhas;

»» por superfície.

27
UNIDADE I │ INTRODUÇÃO À CIÊNCIA DE DADOS

Controle de qualidade

O controle de qualidade é uma ferramenta utilizada em qualquer tipo de organização.


A finalidade do controle de qualidade é estabelecer normas, procedimentos, políticas e
ações, uniformemente.

Essa ferramenta é projetada para ter em conta o grau de satisfação que as ações da
empresa têm sobre seus clientes, acionistas, funcionários, parceiros e fornecedores.

Ter conhecimento dessas ações é a melhor maneira de avaliar o desempenho dos


esforços da empresa, portanto, quando há algum erro, a identificação é imediata, e sua
correção precisa ser tão rápida quanto possível.

Sistemas de informação

Essa ferramenta é projetada para espalhar os dados que representam informações aos
usuários e clientes.

Sistemas de informação podem ser:

»» automatizados: informações do sistema computadorizadas ou


desenvolvidas por meio de processos aplicados pelas máquinas
(computadores);

»» manuais: ações que cobrem indivíduos organizadas para recolher e


métodos de dados do processo.

Questionários e entrevistas

Sabemos como é grande a importância dos questionários e das entrevistas como


exercício, sendo reconhecidos como ferramentas de coleta de dados, contribuindo para
decisões eficazes.

Figura 10 – Aplicação de survey em um projeto.

Fonte: UpLexis (2016).

28
INTRODUÇÃO À CIÊNCIA DE DADOS │ UNIDADE I

Podemos dizer que esse tipo de ferramenta é um complemento para a pesquisa. O objetivo
da utilização dessa ferramenta é a busca de dados primários que possam efetivamente
contribuir para a melhoria das decisões já tomadas e as decisões estratégicas no novo
design.

O uso da tecnologia aperfeiçoou a maneira como as organizações coletam e processam


dados fundamentais para a tomada de decisão.

O mercado hoje é um software de gestão abrangente que permite que as organizações


monitorem processos internos de suas operações, bem como o seu desempenho e
processos externos, tais como público-alvo e mercado.

Um grande exemplo que eu uso aqui é a plataforma upMiner, um software desenvolvido


pela UpLexis tecnologia, que visa automatizar a coleta e o processamento de dados,
para trazer a melhor informação para os gestores e os tomadores de decisão.

29
CIÊNCIA DE UNIDADE II
DADOS E BIG DATA

CAPÍTULO 1
E o que são dados?

Durante décadas, as organizações recolheram dados, principalmente transacionais e


de pesquisa, mas até recentemente eles não foram coletados em quantidade suficiente
para pelo menos um vislumbre de seu potencial, nem mesmo para ter uma ideia do
que fazer com os dados. Recentemente, no entanto, as organizações começaram a ver
o potencial, e alguns poucos pioneiros começaram a estudar e explorar os insights na
busca de lucros, a produtividade e os lucros. Há uma revolução no horizonte: a revolução
de big data.

A grande tecnologia de dados ainda é muito nova, mas começa a despertar o interesse do
mercado. Seu conceito ainda está em construção e, como é fértil, prolifera-se nas mais
diversas áreas do conhecimento, o que contribui para certa confusão, uma vez que pode
adquirir significados diferentes, dependendo do ângulo a ser visto. As organizações de
TI podem definir grandes dados como um pacote de soluções que pode simplesmente
ser posto em prática por meio da aquisição de seu provedor de tecnologia.

Big data não é apenas um debate sobre a tecnologia, mas sobre como as empresas
podem usar a montanha de dados que está agora disponível para todos.

E de onde veio o termo dado? O termo dado veio da palavra latina datum, que significa
“aquilo que se dá”. Um dado é um documento, uma informação ou testemunho que
permite que você saiba algo ou deduza as consequências legítimas de um fato, e que
suporta as operações.

Dados são como um conjunto de símbolos quantificados e qualitativas. Podemos


ilustrar dizendo que um texto é um dado, e as letras são símbolos quantificados, como
o alfabeto em si é uma base numérica. Também são dados imagens, sons e animações,
como tudo pode ser quantificado a ponto de alguém que entra em contato com eles
ter eventualmente dificuldade de distinguir a sua reprodução, sua representação

30
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

quantificada do original. É muito importante saber e lembrar que cada texto é um fato,
uma sequência de dados, mesmo que seja inelegível para o leitor.

Para Shrivastava e Somasundaram (2009), os dados são um conjunto de valores ou


outros eventos em estado bruto com o qual a informação é obtida a fim de alcançar
benefícios.

Os dados são classificados em: estruturados e não estruturados.

1. Os estruturados são formatados, dispostos em tabelas (linhas e colunas),


facilmente processados e geralmente usam um sistema de gerenciamento
de banco de dados para armazenar. Um exemplo são os dados gerados
por aplicações empresariais.

2. Os dados não estruturados não possuem formatação específica e são


mais difíceis de tratar. Por exemplo, as mensagens de e-mail, imagens,
documentos de texto, mensagens em redes sociais.

Em informática, dados brutos designam os dados ou valores recolhidos e armazenados


tais quais foram adquiridos, sem terem sofrido o menor tratamento. Apresentam-se
como um conjunto de números, caracteres, imagens ou outros dispositivos de saídas
para converter quantidades físicas em símbolos, em um sentido muito extenso.

Os dados na tecnologia da informação são a representação física de um evento no


tempo e no espaço. O que não acrescenta nenhuma razão para quem sente ou recebe
a informação pode não ser entendido ou mesmo percebido por essa pessoa. Tomemos
como exemplo um número: se apenas esse número está disponível para alguém ou no
tempo e no espaço de alguém ou de um evento, você pode não saber o que significa ou
o que é, e pode representar qualquer coisa ou não pode representar nada. No entanto,
quando há um agregado com outros dados, é possível haver potencial de informação.

A informação é o resultado do processo de transformação de um dado. Como exemplo


podemos citar um texto, que pode ser a própria fonte de pesquisa de informações ou
até mesmo um bloco de informação. O valor resultante dessa transformação é que
os dados precisam passar um sentido ao leitor, de modo que fique claro ou não. O
entendimento da informação depende da qualidade e da disponibilidade com que o dado
é apresentado, que pode aumentar ou diminuir a probabilidade da interpretação dada
pelo emissor. Consequentemente, quanto mais valioso for o dado, maior será o valor da
informação que ele representa. Um relatório, uma folha de pagamento, o boletim escola
são exemplos de informação, desde que sejam embutidos de um significado no sentido
de representá-los.

31
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA

E o que seria o conjunto de informações?

Seria o conhecimento! São informações que estão organizadas com uma determinada
forma lógica aplicada e que também são capazes de representar e criar um ambiente de
aplicação para a informação criada.

Os dados também representam uma forma de conjunto de informações, na qual


constituem uma nova informação. A seguir, podemos observar a diferença dos conceitos
na tabela 1.

Tabela 1 – Dados, informações e conhecimento

Dados Informações Conhecimento


Simples observações sobre o Dados dotados de relevância e propósito. Informação valiosa da mente humana, incluindo
estado do mundo. reflexão, síntese e contexto.
Facilmente estruturados. Requerem unidade de análise. De difícil estruturação.
Facilmente obtidos por máquinas. Exigem consenso em relação ao De difícil captura em máquinas.
significado.
Frequentemente quantificados. Frequentemente tácito.
Exigem necessariamente a mediação
Facilmente transferíveis. De difícil transferência.
humana.

Fonte: Rezende, 2003.

No meio científico, dizemos que um dado em sua forma primária não tem um significado,
somente se usado no processo de tomada de decisão ou a execução de cálculos por um
processamento adequado e tendo em conta o seu contexto. Em geral, os dados são uma
representação simbólica, um atributo ou uma entidade.

No campo das humanidades, os dados são considerados como a expressão relativa


mínima para o conteúdo. Todos os dados relacionados uns com os outros constituem a
informação.

Para a informática, os dados são expressões gerais que descrevem as características


das empresas em que atuam algoritmos. Essas expressões devem ser apresentadas de
modo que possam ser operadas por um computador. Nesse caso, os dados isolados
não proporcionam informações, a menos que não seja realizado o processamento
apropriado.

Conhece-se como uma base de dados (ou database, de acordo com o termo em inglês)
todos os dados no mesmo ambiente que são armazenados sistematicamente para que
possam ser utilizados no futuro. Esses bancos de dados podem ser estáticos (quando os
dados armazenados não variam ao longo do tempo) ou dinâmicos (alterações de dados
ao longo do tempo e que, portanto, requerem atualizações periódicas).

32
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

Meio século depois de os computadores entrarem no meio social, os dados passaram


a se acumular a ponto de algo novo começar a acontecer. O mundo não apenas está
mais cheio de informação como também a informação está se acumulando com mais
rapidez. A mudança de escala levou à mudança de estado. A mudança quantitativa gerou
mudança qualitativa. Tanto a ciência como a astronomia e a genômica, que vivenciaram
uma explosão no final da década de 1990, cunharam o termo big data. Hoje, o conceito
está migrando para todos os campos do conhecimento humano.

Desde o século XIX, a empresa depende do uso de amostragem quando se trata de


grandes quantidades. Mas a necessidade dessas amostras no período de escassez
de informação resultou em limites naturais para interagir com informações na
era analógica. Antes do campo da tecnologia digital, de alta performance, nós não
percebemos amostragem como algo artificial, mas algo comum.

Hoje em dia, no entanto, a quantidade de dados e o poder de armazenamento e de


processamento permitem uma análise de muito mais dados. No entanto, apesar de as
mudanças tecnológicas terem sido um fator crítico, algo mais importante e sutil também
mudou a mentalidade de como poderão ser utilizados os dados.

Os dados não eram mais considerados estáticos e banais, cuja utilidade terminava
depois que o objetivo da coleta era alcançado. Em vez disso, os dados se tornaram
matéria-prima dos negócios, um recurso econômico vital usado para criar uma nova
forma de valor econômico.

É importante distinguir big data de lotes de dados ou dados massivos. Em big data,
três componentes são aplicáveis: volume, variedade e velocidade (esses elementos
serão detalhados mais à frente, acrescentando-se valor e veracidade). São o tamanho, a
complexidade e a inquietação dos grandes recursos de dados que explicam os métodos
pelos quais esses recursos são projetados, operados e analisados.

O termo lotes de dados é frequentemente aplicado a enormes coleções de arquivos de


simples formatos, por exemplo, cada pessoa que mora no Brasil e seus números de
telefones. Esse conjunto de dados são listas importantes. Algumas dessas listas são
catálogos cujo propósito é armazenar e recuperar a informação. Algumas coleções
de lotes de dados são planilhas como tabelas de duas dimensões de colunas e linhas,
matematicamente equivalentes a uma imensa matriz.

Para propósitos científicos, às vezes, é necessário analisar todos os dados de uma matriz
de uma única vez. As análises de grandes matrizes são intensivas do ponto de vista
computacional e podem requerer os recursos de um supercomputador.

33
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA

Os recursos de big data não são equivalentes a uma grande planilha, e os dados não são
analisados em sua totalidade. As análises de big data são processos que contemplam
múltiplos passos pelos quais o dado é extraído, filtrado e transformado, com análises,
muitas vezes, de forma fragmentada e, outras vezes, recursiva.

De maneira simples, de acordo com Jim Davis Senior, vice presidente e diretor de
marketing da SAS (empresa americana de software e serviços de business anlytics),
quando se excede a capacidade convencional de um sistema de banco de dados, você
está tratando de big data (LeakBusiness, 2013). Antes de isso acontecer, você tem o
que a SAS define como growing data ou dados em crescimento, que são uma grande
quantidade de dados, mas que ainda não excedem as limitações do banco de dados
convencional.

O termo big data tem recebido, na atualidade, diversas contribuições para sua
conceituação. Parte delas trata o termo como uma referência de mercado ou mesmo
de “moda”; outros já consideram um conceito mal definido e pouco compreendido
(TAURION, 2013), mas que merece ser estudado.

O potencial do big data para criar vantagem competitiva vem influenciando a forma
como os negócios e as organizações são gerenciados. Isso ocorre por meio da análise,
que pode ser um elemento fundamental dos esforços das organizações para melhorar
seu desempenho (MANYIKA et al., 2011).

Entre os grandes difusores deste último conceito, encontra-se a empresa IBM que, por
meio de sua tecnologia voltada para Question Answering (QA), concebeu uma máquina,
dentro de uma iniciativa de marketing, capaz de processar grandes volumes de dados e
competir de igual para igual com especialistas humanos em um programa de TV estilo
pergunta-resposta (IBM, 2011).

O êxito no universo empresarial passa pela compreensão e aplicação de soluções


estratégicas e negociais inovadoras voltadas ao cliente, com a utilização das inteligências
competitiva e estratégica, por meio da produção de informação e conhecimento para
suporte adequado e ágil à decisão e apoio aos negócios.

Para Gandomi et al. (2015), o grande volume de dados, ou big data, está em uma
constante e rápida evolução. Assim, sua definição acaba gerando dúvidas e perguntas
sobre como isso dará certo e/ou se a subárea ganhará mercado. Uma pesquisa
on-line realizada pela empresa Harris Interactive (2012) consolidou as respostas de 154
executivos a respeito de como eles definiriam o termo big data.

34
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

Diante dessa realidade, em constante evolução, é importante enfatizar que a grande


massa (big data) remete à própria possibilidade de datificação da sociedade, que leva
à geração de mais e mais dados (TAURION, 2013). Basicamente, a forma como tudo
o que a humanidade faz no dia a dia irá gerar um novo “rastro digital” que acarretará
uma análise futura. Como observa Bruno (2012, p. 687), “comunicar é deixar rastros”.
Assim, qualquer ação digital, principalmente em espaços da internet, é passível de ser
coletada e analisada.

De acordo com o McKinsey Global Institute, “big data refere-se aos conjuntos de dados
cujo tamanho está além da capacidade de ferramentas típicas de software de banco
de dados para capturar, armazenar, gerenciar e analisar” (BiggData, 2018). Já para o
IDC, big data é apresentado como “(...) uma nova geração de tecnologias e arquiteturas,
projetadas economicamente para extrair valor de volumes muito grandes de uma larga
variedade de dados, permitindo alta velocidade de captura, descoberta e análise”.

Por outro lado, Mayer-Schonberger e Cukier (2013) enfatizam que, mesmo havendo
uma crença implícita entre os tecnólogos, na qual o big data remonta à revolução do
silício, a evolução do big data é a continuação da antiga busca da humanidade por medir,
registrar e analisar o mundo. Para os autores, os sistemas modernos de tecnologia da
informação (TI) possibilitam big data, mas não são os únicos responsáveis pelo seu
surgimento.

Ainda segundo esses autores, “A revolução da Tecnologia da Informação ou ‘TI’ é notória,


mas a clareza e o foco está mais no T, na tecnologia. É hora de voltarmos o olhar para
o I, a informação” (MAYER-SCHONBERGER; CUKIER, 2013, p. 54). Nesse sentido,
os autores abordam que, a fim de captar informações quantificáveis, de datificar, é
preciso saber como medir e registrar essa medição, o que exige um conjunto certo de
instrumentos, além do desejo de quantificar e registrar. Como eles apontam, ambos são
pré-requisitos da datificação, e desenvolvemos os fundamentos dessa prática séculos
antes do nascimento da era digital (ANTONIUTTI, 2015).

Pospiec e Feldens (2012) enfetizam que big data possui como desafio a existência de
um equilíbrio desfavorável entre os dados disponíveis, conceitos atuais e tecnologias
de informação. Como um resultado, não existe qualquer apoio para uma tão grande
quantidade de informações que, de acordo Callebaut (2012), aumenta de tamanho e
está a aumentar a velocidade.

35
CAPÍTULO 2
Big data

No Brasil, várias revistas (VEJA, 2013; CIÊNCIA HOJE, 2013; EXAME, 2012)
publicaram relatórios que têm o conceito de grandes dados como “revolução de dados”
ou como um fenômeno big data, enfatizando suas aplicações, particularmente na área
comercial e de negócios. Jornais nacionais, como O Globo, também exploraram o tema
em 2012. As reportagens procuraram contextualizar o assunto, a fim de esclarecer os
leitores sobre o que se trata de big data.

Para Mayer-Schonberger e Cukier (2013, p. 2), “Big Data é a capacidade de uma


empresa para obter novas formas de informações, a fim de gerar ideias úteis e produtos
e serviços de valor significativo”.

Como vimos, não existe uma definição rigorosa para o termo função data big, pois é um
conceito relativamente novo; porém sua definição é melhorar a consolidação do termo e
a percepção, ao longo do tempo, do seu valor para qualquer tipo de uso. No início, a tese
era de que o volume de informações tinha crescido tanto que a quantidade gerada não
é mais considerada um componente importante da memória do computador, em sua
forma de processamento. Por isso, os engenheiros tiveram de melhorar as ferramentas
utilizadas para análise.

Uma maneira de pensar sobre a questão hoje é: big data refere-se a trabalhar em grande
escala (não podendo ser feito em uma escala menor), para extrair novas ideias e criar
novas formas de valor aos mercados em mudança, as organizações, a relação entre os
cidadãos e os governos etc., mas esse é apenas o começo. A era da big data desafia a
maneira como vivemos e interagimos com o mundo. Mas a coisa mais importante é
que a empresa terá de conter um pouco a obsessão com a causalidade e substituí-la por
correlações simples: sem saber o porquê, apenas o quê.

Em big data, os dados podem revelar aspectos que não se pensou ser possíveis e,
portanto, não foram perseguidos, gerando novos conhecimentos e sem precedentes
para aqueles que têm a vontade e as ferramentas para fazê-lo. O grande desafio é como
usar os dados como um negócio de matéria-prima, criando, assim, uma nova forma de
valor econômico.

Para Mayer-Schonberger e Cukier (2013), big data refere-se à capacidade de uma


informação organizar-se de novas maneiras, a fim de gerar significativos e úteis bens,
serviços e ideias. Em seu livro “Big Data: como extrair o volume, variedade, velocidade

36
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

e do valor da avalanche de informações diárias,” os autores dizem que não existe uma
definição estrita do termo, mesmo se você trouxer uma maneira de definir big data.

Não existe uma definição estrita do termo. [...] Uma maneira de pensar
sobre a questão hoje - nós usamos este livro - é: Big Data refere-se a
trabalhar em grande escala que não pode ser feito em uma escala menor,
para extrair novas ideias e criar novas formas de valor de modo que os
mercados, as organizações em mudança, a relação entre os cidadãos e
os governos, etc. (MAYER-SCHONBERGER; CUKIER, 2013, p. 54).

Os dados de grande termo são utilizados principalmente para descrever grande base de
dados, que, em comparação às bases de dados não estruturados, incluem tradicionais
que necessitam de uma análise em tempo real (CHEN et al., 2014).

Uma definição importante para big data pode ser encontrada no Gartner IT Glossary
(Glossário de Tecnologia da Informação), que define big data como ativos de informação
de grande volume, alta velocidade ou de grande variedade, que requer formas inovadoras
e econômicas de processar informações, permitindo, dessa forma, maior visibilidade,
tomada de decisão e automação de processos.

Mesmo fora da literatura, o conceito não segue uma linha de pensamento única. De
forma geral, o big data fala em tratar grandes volumes de dados com grande velocidade
e a partir de uma variedade de informações (TAURION, 2013; BROWN, 2013). Outras
definições para o termo são apresentadas no quadro 2, porém, sem rigidez conceitual.

Em essência, big data relaciona-se com previsões. Apesar de ser descrito como um ramo
da ciência da computaçãoo chamado inteligência artificial e, mais especificamente,
uma área chamada “aprendizado de máquina”, essa ideia é enganosa. Big data não
tem a ver com tentar ensinar um computador a pensar como ser humano (MAYER-
SCHONBERGER; CUKIER, 2013).

Big data trata-se de aplicar a matemática a enormes quantidades de dados, a fim de


prever probabilidades. Esses sistemas funcionam porque são alimentados por enormes
quantidades de dados, que formam a base das previsões (MAYER-SCHONBERGER;
CUKIER, 2013).

37
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA

Tabela 2 – Grandes definições de data

Autores Definições
Kim, Trimi, e Ji-Hyong Trata-se de um termo geral para a enorme quantidade de dados digitais coletados a partir de todo os tipos de
(2014) fontes.
Mahrt e Scharkow (2013) Denotam um maior conjunto de dados ao longo do tempo, conjunto de dados estes que são grandes demais
para serem manipulados por infraestruturas de armazenamento e processamento regulares.
Davenport (2012) e Dados demasiadamente volumosos ou muito desestruturados para serem gerenciados e analisados através de
Kwon (2014) meios tradicionais.
Di Martino et al. (2014) Refere-se ao conjunto de dados cujo tamanho está além da habilidade de ferramentas típicas de banco de
dados em capturar, gerenciar e analisar.
Rajesh (2013) São conjuntos de dados que são tão grandes que se tornam difíceis de trabalhar com o uso de ferramentas
atualmente disponíveis.
Mahrt e Scharkow (2013) Denotam um maior conjunto de dados ao longo do tempo, conjuntos de dados estes que são grandes demais
para serem manipulados por infraestruturas de armazenamento e processamento regulares.

Fonte: Freitas Júnior et al., 2016.

De acordo com Mayer-Schonberger e Cukier (2013), com a informação, bem como


na física, o tamanho importa. Assim, combinando centenas de bilhões de buscas por
termos, a Google mostrou ser capaz de identificar um surto de gripe quase tão bem como
dados oficiais com base nos pacientes que visitam o médico – gerando uma resposta
em tempo quase real, muito mais rápido do que as fontes oficiais. Da mesma forma,
pode-se prever a volatilidade do preço de uma passagem de avião e, assim, tornar uma
potência econômica significativa para os consumidores. Mas isso só é conseguido por
meio da análise de milhões de dados.

Esses dois exemplos demonstram o valor científico e social de grandes dados, bem como
a medida em que eles podem se tornar uma fonte de valor econômico. Esses exemplos
marcam duas maneiras pelas quais o mundo dos grandes dados vão, de fato, mudando
a economia, a ciência e a saúde, e interferem no governo, na educação, nas ciências
sociais e em todos os outros aspectos da sociedade.

Apesar de estarmos apenas nos primórdios do big data, ele é usado todos os dias. Filtros
de spam são projetados para adaptar automaticamente a mudanças nos tipos de lixo
eletrônico. Sites de namoro são acoplados em termos de como seus vários recursos
correspondem aos dos relatórios anteriores. Auto Broker smartphone analisa nossas
ações e adiciona novas palavras para seus dicionários com base no que está escrito.

Em primeiro lugar, big data é misturado com o volume de dados gerados; no entanto, ele
não é apenas o tamanho do volume, mas também a variedade de dados não estruturados,
dentro e entre organizações, que devem ser validados para obter a verdade e tratados
em uma velocidade adequada para atingir o valor do negócio.

38
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

Para Taurion (2013), o volume é definitivamente uma das fortes características que
definem esse fenômeno de dados grandes, no entanto, para completar a composição,
ele também sugere a existência de duas outras fortes características: variedade e
velocidade. Esses três Vs (volume, variedade e velocidade) formam a estrutura básica
que compõe a maior área de dados.

Ainda segundo Taurion (2013), apenas a companhia Google processa, sozinha, mais
de 24 pentabytes de dados por dia, e o Facebook faz upload de pelo menos 10 milhões
de novas fotos a cada hora. Sendo assim, os dados de hoje vêm em todos os tipos de
formato, sendo gerados milhões de dados por segundo e vindo de diversas fontes,
interferindo nas dimensões velocidade e variedade.

Com a constante evolução da tecnologia, os limites de armazenamento e tratamento


de dados também crescem; hoje, os números são gigantescos, tendendo a expandir
geometricamente. Isso permite às organizações não trabalharem apenas com as
pesquisas tradicionais e com dados transacionais, mas também com dados gerados
pelas pessoas, de forma espontânea, fora das corporações – por exemplo, nas mídias
sociais e em aplicativos. No quadro 3, apresentamos um resumo de outras definições
de big data.

Quadro 3 – Outras definições de big data

Autores Definições
Cavalcanti (2015) Em geral, equivocadamente, a população associa big data apenas ao volume grande de dados digitais
disponíveis nas redes. Porém, a maior significância do big data vem da variedade (maneiras distintas) de
dados. São dados transacionais, das redes sociais, gps… e dos assuntos os mais variados. Costumamos dizer
que big data está associado a 4 “V”s: volume (quantidade), variedade (diversidade), veracidade (são dados
coletados on-line, na hora que estamos fazendo algo; não é uma “pesquisa”, na qual perguntamos coisas às
pessoas) e velocidade (os dados estão imediatamente disponíveis na nuvem).
Brown (2014) Big data é volume, velocidade, variedade. Então significa que você tem uma ou mais dessas três coisas.
Costa (2015) Big data é um ecossistema que se alimenta e retroalimenta de dados o tempo todo, de dados que estão
digitalizados ou não e dos quais se tem a necessidade de tirar valor.
Taurion (2014) Resumindo o que é big data em uma simples fórmula para conceitualizá-lo: big data = volume + variedade +
velocidade + veracidade, tudo agregado + valor.
Moura (2015) Teoricamente é aglutinar diversas informações em diversas fontes em um único depositório. Seria a
manutenção, a orientação e o enriquecimento de um banco de dados de diversas fontes. Na prática, isso
é feito por meio de um depositório em nuvem, ou seja, de um depositório próprio que utiliza todas essas
informações.
Guerreiro (2014) Big data se refere à necessidade de uma organização lidar com dados que, para serem analisados e gerarem
resultados, demandam capacidade muito além daquela de que a empresa dispõe, seja com relação ao volume
(mais comum), velocidade de tratamento ou variedade de formatos.
Lima Júnior Big data é conjunto de dados (dataset) cujo tamanho está além da habilidade de ferramentas típicas de banco
(2014) de dados em capturar, gerenciar e analisar.
Fonte: ANTONIUTTI, 2015.

Originalmente, big data se caracterizava por 3Vs (volume, velocidade e variedade). Os


3Vs foram apontados por Doug Laney, em 2001, em um relatório do Meta Group, grupo

39
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA

que foi adquirido pela Gartner em 2005. Nesse relatório, Laney (2001) identifica três
grandes desafios da gestão de dados: volume, velocidade e variedade, que atualmente
são amplamente utilizados na definição de big data (GANDOMI et al., 2015).

Pouco tempo depois, as características do big data passaram a ser descritas como
os 4Vs: volume, variedade, velocidade e valor. Esses quatro Vs foram amplamente
reconhecidos, já que enfatizam o significado e a necessidade do big data. Essa definição
indica o problema mais crítico do big data, que é como descobrir valor de base de dados
em grande escala, vários tipos e rápida geração (CHEN et al., 2014).

Mais recentemente, a veracidade dos dados passou a ser considerada também tão
importante quanto o volume.

Quadro 4 – 5 Vs do big data

Volume Velocidade Valor Veracidade Variedade


»» Terabytes. »» Lotes. »» Estatístico. »» Confiabilidade. »» Estruturado.
»» Registros. »» Tempo real. »» Eventos. »» Autenticidade. »» Não estruturado.
»» Transações. »» Processos. »» Correlações. »» Origem, »» Múltiplas fontes.
reputação.
»» Tabelas, arquivos. »» Transmissão. »» Hipóteses. »» Probabilidade.
»» Responsabilidade.
Fonte: TELXPERTS (2016), adaptado pelo autor.

»» Volume
Conforme apresentado anteriormente, volume é a dimensão mais
comum nos conceitos de big data, visto que o fenômeno “vem chamando
atenção pela acelerada escala em que volumes cada vez maiores de
dados são criados pela sociedade” (TAURION, 2013). Preimesberger
(2011) simplifica essa dimensão contabilizando-a: “terabytes, petabytes
e eventualmente exabytes” de dados criados por seres humanos e
por máquinas. Além disso, o mesmo autor ressalta a dificuldade de
“armazenar, proteger e tornar acessível”.
Segundo Tankard (2012), é um desafio gerar e armazenar esse grande
volume de dados com as ferramentas tradicionais. Os desafios técnicos
também são levantados por Nielsen (2009), assim como os sociais, visto
que deve haver uma mudança para “um mundo em que grandes volumes
de conjuntos de dados são rotineiramente publicados”.
›› Variáveis envolvidas:
·· volume de informações;
·· acessibilidade de informações;
·· mudança do comportamento em função do volume.

40
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

»» Variedade

Nielsen (2009) refere-se a um cenário com novos formatos de coletar os


dados. Callebaut (2012) ressalva o aumento da complexidade do big data
em benefício da grande massa de fontes e de formas de informações que
são criadas, como, por exemplo, hábitos sociais.

O existir dos dados estruturados e não estruturados é referenciado


em Tabuena (2012) para explicar distintos tipos de dados. Os dados
estruturados são usados comumente nos sistemas das empresas, como
bancos de dados, arquivos sequenciais e com relação de importância; os
dados semiestruturados são heterogêneos, ou seja, ora estão dispostos
em um exemplo, ora estão em outro, dificultando a sua manipulação;
há também os dados não estruturados, que são os conteúdos digitais de
diferentes mídias como vídeos, imagens, áudios, conteúdo de e-mails,
entre outros (CIO, 2012).

Um estudo do IDC (2011) informa que 90% dos dados gerados no


universo digital são considerados dados não estruturados. Diante desse
resultado, é fundamental e importante que as organizações olhem para o
resultado da pesquisa e para esse tipo de dado, tendo em vista que uma
representatividade relevante e considerável.

McAfee e Brynjolfsson (2012) e Preimesberger (2011) apresentam a


variedade de dados por meio de e-mails, registros de cartões de crédito
e de sensores, informações de redes sociais, bem como fotos e arquivos
audiovisuais e gráficos.

›› Variáveis envolvidas:

·· variedade de fontes de informação;

·· variedade de tipos de dados.

»» Velocidade

O perigo de um concorrente obter e estudar os dados de compradores


antes (BARTON; COURT, 2012) junto com a análise de tomada de
decisão em um cenário de mercado ativo, que é mais ágil e dinâmico
(ERNEST; YOUNG, 2012), são fatores que ressalvam a relevância da
dimensão e da velocidade da informação. Mídias sociais e microblogs
ajudam na divulgação mais acelerada de informações, sejam elas da

41
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA

empresa ou dos próprios compradores, sejam positivas ou negativas


(BARTON; COURT, 2012).

McAfee e Brynjolfsson (2012) e Preimesberger (2011) também


estabelecem o argumento de que é fundamental e necessário saber lidar
com a velocidade, pois essa pode ser uma barreira dentro do processo de
análise, chegando ao ponto de inviabilizar um projeto ou uma operação,
caso o desenvolvimento não receba informações em tempo real. Segundo
Taurion (2012), muitas vezes precisamos trabalhar em tempo real,
necessitando de um processamento que acompanhe a velocidade que é
solicitada.

›› Variáveis envolvidas:

·· velocidade da chegada da informação;

·· velocidade da tomada de decisão.

»» Valor

Segundo Taurion (2012), “Big Data é significativo somente se o valor de


análise dos dados compensar o custo da sua recolha, armazenamento
e processamento”. Maniyka et al. (2012) e Webber et al. (2009)
compartilham opiniões semelhantes envolvendo tamanho de valor,
segundo as quais o resultado agregado para a análise dos dados coletados
é equivalente. De acordo com Webber et al. (2009), a qualidade dos dados
requer “relevância, exatidão, consistência e integridade”. Os autores
também enfatizaram a dependência da qualidade percebida pelo usuário
para as suas necessidades.

Pipino et al. (2002) pondera “valor acrescentado” e “interoperabilidade”


como dois atributos de qualidade das dimensões de informação.
As descrições desse tamanho apresentadas pelos autores são,
respectivamente, como o uso de dados beneficia a organização e fornece
uma vantagem competitiva diante de como os dados são apresentados em
conformidade (símbolo, linguagem e unidade), e as definições são claras.

Maniyka et al. (2011) evidencia a confiança e a experiência para extrair


valor de uma análise rigorosa dos dados de big data. Tankard (2012)
mostra a clareza como uma característica importante para atribuir valor
à informação.

42
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

›› Variáveis:

·· resultados agregados de análises de informações;

·· qualidade da informação;

·· valor financeiro de ter dados com qualidade.

»» Veracidade

É importante ressaltar a importância da qualidade dos dados para


a análise adequada do big data, visto que dados de alta qualidade são
pré-requisito para auxiliar as organizações a adequarem-se às mudanças
necessárias (WEBBER et al., 2009).

É necessário “ter certeza que (sic.) os dados fazem sentido e são


autênticos” (TAURION, 2012). Veracidade, conforme o dicionário
Priberam1, é a qualidade daquilo que é verdadeiro e exato. Seguindo o
mesmo significado, Pipino et al. (2002) considera “credibilidade” como
outra dimensão da qualidade da informação.

Informações verdadeiras têm relação com informações exatas, íntegras,


consistentes e relevantes – características da qualidade da informação –,
podendo, então, ser utilizadas pelos gestores ou responsáveis para
responder aos desafios estratégicos e operacionais (WEBBER et al.,
2009).

›› Variáveis envolvidas:

·· qualidade da informação.

Apesar de não haver consenso sobre a definição de big data, o lugar comum
converge para os 3Vs propostos por Laney (2001): volume, velocidade
e variedade. Dadas as definições, grandes mudanças decorreram do
novo poder analítico e foram abordadas e aprofundadas por Mayer-
Schonberger e Cukier em 2013.

1 https://www.priberam.pt/dlpo/

43
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA

O quadro 5 apresenta um resumo da definição dos 5Vs de big data.

Quadro 5 – Definição dos 5Vs

Atributos Definição
Volume Magnitude relacionada à quantidade de dados a serem processados.
Variedade Estrutura heterogênea encontrada em bases de dados.
Velocidade Taxa na qual são gerados os dados, assim como a rapidez com que necessitam ser processados e analisados.
Veracidade Nível de confiança que pode ser atribuído aos dados recebidos diretamente da fonte.
Valor Potencial financeiro que a organização pode conseguir por meio do uso de técnicas de big data.

Fonte: Freitas Junior, et al., 2016.

Mayer-Schonberger e Cukier (2013) apontam três grandes mudanças, que representam


quebras significativas de paradigma: a primeira delas é de que a necessidade de
amostragens se deve à época em que informação era algo escasso; a segunda é de que
a obsessão por dados corretos e a preocupação com a qualidade integral dos dados
se devia ao fato de a disponibilidade de dados ser limitada, sendo assim, era crucial
garantir a qualidade dos pequenos dados disponíveis; a terceira delas é o abandono da
busca pela causalidade e o contentamento com a descoberta do fato em si e não buscar
explicações ou motivos que levaram a ele.

Para a primeira grande mudança, o argumento permeia a definição de big data como
grande em termos relativos, e não absolutos. Os autores remontam a inviabilidade
e altos preços de se estudar um universo em sua integralidade e reforçam o fato de
que, atualmente, alguns segmentos coletam o máximo de dados possível (MAYER-
SCHONBERGER; CUKIER, 2013).

A segunda grande mudança refere-se à obsessão por dados corretos, que complementam
a primeira mudança: a disponibilidade de dados. Antes, tínhamos dados limitados, então
era muito importante assegurar a qualidade integral desses dados, além da própria
limitação tornar possíveis tantos tratamentos. Nas palavras dos autores, “o aumento da
quantidade de dados abre portas para a inexatidão”. Para eles, “big data transforma os
números em algo mais ‘probabilístico’ que exato” (MAYER-SCHONBERGER; CUKIER,
2013, p. 62). Para corroborar essa ideia, Helland (2011) afirma que, “quando se ganha
escala, perde-se precisão”.

Por fim, a terceira e grande mudança na era do big data é que as previsões com base
em correlações estão na sua essência. Isso quer dizer que big data lança análises não
causais, de forma a transformar o modo pelo qual entendemos o mundo. Para os
autores, a mentalidade mudou o modo como os dados poderiam ser utilizados (MAYER-
SCHONBERGER; CUKIER, 2013).

44
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

Para Mayer-Schonberger e Cukier (2013), os sistemas e o avanço das tecnologias tornam


o big data possível, mas, “em essência, o avanço rumo a big data é uma continuação da
antiga busca da humanidade por medir, registrar e analisar o mundo”.

Os principais conceitos para o entendimento do big data abrangem os princípios


modernos da análise quantitativa de dados (a chamada Analítica), definições e
tecnologias do big data, o papel e as habilidades do profissional do momento – o
cientista de dados.

Para explorar e analisar a grande quantidade de dados, um relatório da McKinsey


Global Institute projetou que os Estados Unidos, por exemplo, precisarão de 140 mil a
190 mil trabalhadores com experiência analítica profunda e 1,5 milhão de gerentes mais
alfabetizados em dados, treinados ou contratados (BiggData, 2018).

45
CAPÍTULO 3
Tratamento dos dados

Quando se trata de processar os dados, estamos pensando em extração de dados, ou


seja, oferecer uma visão para os dados. Mineração de dados (ou data mining em inglês)
é definida como “o uso de técnicas automatizadas para explorar grandes quantidades
de dados a fim de descobrir novos padrões e relações que, devido ao volume de dados,
ele não seria facilmente descoberto a olho nu pelo ser humano” (CARVALHO, 2001).

Com o objetivo de extrair a informação da base de dados, com o propósito de gerar


informação inteligente, podemos citar o processo bem conhecido de KDD (knowledge
discovery in databases em inglês), em que a tradução é descoberta de conhecimento em
bases de dados (FAYYAD et al., 1996).

Fayyad et al. (1996) dividem o processo KDD em fases e de uma forma interativa com a
maioria das decisões tomadas pelos membros KDD, como mostrado na figura 11.

Figura 11 – Fases da descoberta de conhecimento

Fonte: FAYYAD et al., 1996.

Etapas do KDD
Para Fayyad, Piatesky-Shapiro e Smyth (1996), mineração de dados é a etapa do
processo KDD de aplicação prática dos algoritmos. Esses algoritmos de descoberta de
conhecimento produzem padrões de conhecimento ou modelos a partir de um conjunto.
Algo que é importante frisar é a não existência de um consenso quanto às definições dos
termos KDD e data mining: para alguns autores, são considerados sinônimos, como
visto em Rezende (2005); para outros, tendo exemplo como Fayyad (1996), o KDD

46
CIÊNCIA DE DADOS E BIG DATA │ UNIDADE II

refere-se sempre a todo o processo realizado na descoberta de conhecimento, enquanto


a mineração de dados é apenas uma dessas etapas.

Seleção

A seleção tem o objetivo de selecionar um conjunto de dados e, por vezes, pode parecer
uma etapa simples, porém é uma fase crítica, pois muitas vezes os dados não estão
no formato desejado, ou acontece uma incompatibilidade entre bancos de dados
(ALMEIDA; DUMONTIER, 1996). A Incompatibilidade pode se dar por meio de fontes
diferentes (data warehouses, planilhas, sistemas legados) e podem possuir diversos
formatos. Após analisar essas situações, o analista de banco de dados deve levar em
consideração esses problemas de incompatibilidade para serem tratados na próxima
etapa, de pré-processamento.

Pré-processamento

A etapa pré-processamento é a atividade pela qual as inconsistências nos dados são


tratadas e podem ser caracterizadas por meio de dados incompletos ou ausentes. Assim,
são estabelecidas estratégias para resolver os problemas dos dados, como exemplo dos
dados incompletos. Esses dados são então pré-processados e armazenados em forma
de tabelas.

Essa etapa de pré-processamento tem uma grande responsabilidade para o resultado


das outras etapas do processo KDD, visto que os resultados ao final do processo podem
sugerir novas tentativas com diferentes configurações. De todo modo, as decisões mais
recomendadas são aquelas que diminuem o risco e a perda de informações.

Nessa fase, também são utilizados métodos de redução e limpeza dos dados, de modo
a diminuir o tamanho da base de dados, ou seja, reduzir a quantidade de variáveis e
evitar redundâncias.

Transformação

Nessa fase, os dados de transformação passam por manipulações para serem


utilizados no próximo processo, de mineração de dados. Como exemplo dessa etapa de
transformação pode-se citar a normalização dos dados – que, como as outras, é uma
fase importante dentro desse processo (KEOGH, 2003). A seguir serão discutidas duas
técnicas de normalização que foram utilizadas nesse trabalho.

47
UNIDADE II │ CIÊNCIA DE DADOS E BIG DATA

»» Normalização min-max: na série de dados, os valores são ajustados


em um intervalo especificado, por exemplo [0,1]. Para obter sucesso nessa
normalização, alguns pré-requisitos devem ser atendidos. Primeiro,
deve-se identificar na série qual o “xmin”, que é o valor mínimo contido
na série, e o “xmax”, o máximo. A normalização min-max sofre com a
presença de outliers com valores muito extremos de mínimo e máximo,
o que acaba influenciando a normalização. O valor normalizado é obtido
por meio da equação 1 a seguir:

x − xmin
xnorm =
xmax − xmin

»» Normalização Z-Score: diferentemente da normalização de mínimo


(xmin) e máximo (xmax), esse método é útil quando há a presença de outliers
no conjunto de dados que prejudicariam a normalização min-max (HAN,
2011). Para calcular a normalização, deve-se utilizar a equação 2, porém,
é necessário o conhecimento do valor médio µ e do desvio padrão σ dos
dados originais.

x −µ
xnorm =
δ

Mineração de dados

Mineração de dados para, Possa et al. (1998), é um conjunto de técnicas que envolvem
métodos matemáticos, algoritmos e heurísticas para descobrir padrões e regularidades
em grandes conjuntos de dados. O cérebro humano, comprovadamente, consegue fazer
até 8 (oito) comparações ao mesmo tempo. A função da mineração de dados é justamente
ampliar essa comparação para “infinito” e tornar isso visível ao olho humano.

Interpretação

É dessa fase que o analista de dados participa; ele tem o papel de verificar os resultados
obtidos e o grau de satisfação e consistência dos resultados, com base no tempo de
processamento e na taxa de erro ou acerto. É aconselhável mais de um especialista no
domínio e todos os profissionais envolvidos no processo. Também é nessa etapa que
os resultados podem alimentar novamente o processo, gerando novas entradas para as
etapas anteriores, a fim de buscar um refinamento dos resultados.

48
TÉCNICAS E
FERRAMENTAS DE UNIDADE III
MANIPULAÇÃO DE
DADOS

CAPÍTULO 1
Técnicas de IA

Tradicionalmente, os métodos de mineração de dados são divididos em aprendizado


supervisionado (preditivo) e não supervisionado (descritivo). Mesmo sendo limitado
para essa divisão ser muito tênue (alguns métodos preditivos podem ser descritivos e
vice-versa), ela ainda é interessante para fins didáticos.

Esses métodos costumam usar alguma medida de semelhança entre os atributos. O que
diferencia os métodos de aprendizado supervisionados e não supervisionados é o fato
de que os métodos não supervisionados não necessitam da pré-categorização para os
registros, ou seja, não é necessário um atributo principal. As tarefas de agrupamento
e associação são consideradas como não supervisionadas. Já no aprendizado
supervisionado, os processos são fornecidos com um conjunto de dados que têm
uma variável principal predefinida, e os registros são categorizados em relação a essa
variável. As tarefas que têm mais destaques e que são consideradas mais comuns de
aprendizado supervisionado são as técnicas de classificação (que também podem ser
não supervisionadas) e a técnica de regressão.

No processo de mineração, mais de uma técnica deve ser validada e combinada com o
propósito de que comparações possam ser realizadas e de que, então, a melhor técnica
(ou combinação de técnicas) seja utilizada.

Os autores evidenciam e distribuem os diversos métodos de formas diferentes. Aqui


usaremos a classificação utilizada por Han e Kamber (2006) para demonstrar os
métodos mais usados. Nessa classificação, os métodos são ordenados e classificados de
acordo com as tarefas que realizam.

»» Associações: sem sombras de dúvidas, é uma das técnicas que é mais


usada e mais conhecida dentro da área de mineração de dados, pelo fato

49
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

do famoso problema da análise da cesta de compras. Esse problema


consiste na identificação da conexão entre os itens mais frequentes em
um determinado conjunto de dados (pode ser visto em uma nota fiscal,
por exemplo) e permite obter resultados do tipo: SE compra leite e pão
TAMBÉM compra manteiga. Essa construção recebe o nome de regra
de associação (association rules). Como exemplo, veja abaixo algumas
regras dessa técnica.

Regra 1: SE idade = jovem AND estudante = não ENTÃO compra computadores = não.

Regra 2: SE idade = jovem AND estudante = sim ENTÃO compra computadores = sim.

Regra 3: SE idade = média ENTÃO compra computadores = sim.

Regra 4: SE idade = adulto AND avaliação de crédito = excelente ENTÃO compra


computadores = sim.

Regra 5: SE idade = adulto AND avaliação de crédito = ruim ENTÃO compra


computadores = não.

Mineração de itens frequentes (frequent


itemset mining)
Introduzida por Agrawal, Imielinski e Swami (1993), essa técnica pode ser considerada
em dois momentos: primeiro, uma série de itens frequentes (frequent itemset) é
desenvolvida, respeitando um valor mínimo de frequência para os itens.; em seguida,
as regras de associação são geradas pela mineração dessa série de itens. Para garantir
produtos válidos, os conceitos de suporte e confiança são utilizados em cada regra
desenvolvida. A medida de suporte indica o percentual de registros (dentre todo o
conjunto de dados) que se encaixam nessa regra. Já a confiança mede o percentual de
registros que atendem especificamente à regra, como, por exemplo, o percentual de
quem compra leite e pão e também compra manteiga.

Para uma regra ser avaliada como forte, ela precisa atender a um determinado grau
mínimo de suporte e confiança. Um dos mais conhecidos códigos e algoritmos de
mineração utilizando a estratégia de itens frequentes é o A priori.

Diferentes tipos desse algoritmo, envolvendo o uso de técnicas de hash, redução de


transações, particionamento e segmentação, estão na internet. Mannila, Toivonen e
Verkamo (1994) expõem uma variação em que as regras não necessárias são excluídas.
Casanova e Labidi (2005) usam a confiança de algoritmo reverso junto com a lógica de

50
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

fuzzy ou lógica nebulosa para criar regras mais precisas. Outros algoritmos também
são encontrados: FP-growth e ECLAT (classe de equivalência e transformação).
Borgelt (2005) mostra uma implementação do FP-growth e faz a comparação dele com
outros três algoritmos, dentre eles o Apriori e o ECLAT. Palancar, em 2008, propôs
o método CBMine (compressed binary mine) que, segundo os testes, apresentou
melhores resultados que os algoritmos tradicionais. Muyeba et al. (2008) propõem
dois frameworks usando lógica nebulosa para a mineração de regras de associação
com pesos Muyeba (2008) e para a mineração de itens compostos, chamado CFARM
(Composite Fuzzy ARM).

Possas et al. (2000) sugerem uma variação do código/algoritmo Apriori a fim de que
um número menor de regras seja gerado. O produto desse desenvolvimento apresentou
até 15% de redução. Vasconcelos (2004) mostra o uso do Apriori para mineração de
dados da web. A abordagem para a mineração de bases em que são geradas muitas
regras (colossais), chamada Pattern-Fusion, é apresentada por Zhu et al. (2007).

»» Classificações: as técnicas de classificação podem ser supervisionadas e


não supervisionadas. Estão para ser aplicadas e usadas no universo de
prever valores de variáveis do tipo categóricas. É possível desenvolver um
modelo que classifica os clientes de um banco como potenciais a serem
clientes especiais ou um cliente de risco. Já um laboratório pode usar sua
base histórica de voluntários e analisar em quais indivíduos uma nova
droga pode ser melhor estudada. Tanto em um banco quanto em um
laboratório, um modelo é criado para classificar a qual categoria um certo
registro pertence – especial ou de risco, voluntários A, B ou C.

Decision trees ou árvores de decisão


É o método de classificação que funciona como um fluxograma em forma de árvore –
nesse caso, cada nó (não folha) indica um teste feito em um valor (por exemplo, a idade
> 20). As ligações entre os nós representam os valores possíveis do teste nó superior, e
as folhas indicam a classe (categoria) à qual a ficha pertence. No final, após a árvore ser
toda criada, você pode fazer a classificação de um novo registro (passar pelas etapas),
bastando seguir o fluxo na estrutura (na evidência de que não temos folhas) a partir do
nó raiz até que ele atinja uma folha. As árvores de decisões, formando estrutura, podem
ser transformadas em regras de classificação.

Diante de uma técnica extremamente simples, é por isso que as árvores de decisão fazem
um grande sucesso, pois não necessita de parâmetros de configuração e geralmente têm
um bom grau de assertividade. Mesmo essa sendo uma técnica extremamente poderosa,

51
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

é preciso que seja feita uma análise detalhada dos dados que serão usados para garantir
bons resultados.

Quinlan (1986) apresenta diversas técnicas para reduzir a complexidade das árvores de
decisão geradas. Em um artigo recente, Yang et al. (2007) apresentam um algoritmo
para extrair regras acionáveis, ou seja, regras que são realmente úteis para a tomada de
decisões. Um exemplo de árvore de decisão pode ser visto na figura 12 a seguir.

Figura 12 – Árvore de decisão

Idade?
Adolescente
Jovem
Adulto

Garantia? Classe C

Alta Baixa

Classe A Classe B

Fonte: autoria própria (2018).

No final de 1970 e no início de 1980, J. Ross Quinlan criou o ID3 (interative dichotomiser),
um algoritmo para geração de árvores de decisão. Anos após, Quinlan criou o C4.5 (uma
versão otimizada do ID3), e que até hoje serve como benchmark para novos métodos
supervisionados. Foi na mesma época que um grupo de estatísticos (L. Breiman, J.
Friedman, R. Olshen e C. Stone), sem conhecer o trabalho de Quinlan, desenvolveram
um algoritmo e publicaram um livro chamado Classification and Regression Trees
(CART).

Esses algoritmos são considerados precursores e várias mutações ou variações. Eles usam
a estratégia de “dividir e conquistar” recursiva aplicada de cima para baixo (top-down).
Com o argumento de que os algoritmos tradicionais de árvore de decisão necessitam
carregar todo o conjunto de dados na memória, os algoritmos novos são capazes de
acessar repositórios persistentes foram desenvolvidos: SLIQ e SPRINT. Milagres (2004)
mostra uma ferramenta que implementa esses dois algoritmos. Gehrke apresenta um
framework para auxiliar na execução de algoritmos de classificação e separá-los de
questões relativas a escalabilidade. O BOAT (Bootstrapped Optimistic Algorithm for
Tree Construction) utiliza-se de uma estratégia chamada de bootstrapping. Chandra

52
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

apresenta uma otimização do BOAT e uma variação usando lógica nebulosa para o
SLIQ.

Bayesian classification ou classificação


bayesiana
É uma técnica estatística (probabilidade condicional) baseada no teorema de Thomas
Bayes. Para o teorema de Bayes, é possível encontrar a probabilidade de um certo
evento ocorrer, dada a probabilidade de um outro evento que já ocorreu: Probabilidade
(B dado A) = Probabilidade (A e B) / Probabilidade (A). Comparativos evidenciam que
os algoritmos bayesianos, chamados de naive Bayes, obtiveram resultados compatíveis
com os métodos de árvore de decisão e redes neurais. Devido à sua simplicidade e ao
alto poder preditivo, é um dos algoritmos mais utilizados. O algoritmo de naive Bayes
parte do princípio de que não exista conexão de dependência entre os atributos. Porém,
nem sempre isso é possível. Nesses casos, uma variação conhecida como bayesian belief
networks, ou bayesian networks, deve ser utilizada. Em 2008, foi feita uma proposta
de uma combinação dos algoritmos de naive Bayes e árvore de decisão para realizar a
classificação. Mazlack expõe uma fragilidade na técnica naive Bayes.

Rule-based classification ou classificação


baseada em regras
A classificação baseada em regras segue a estrutura: SE condição ENTÃO conclusão
(semelhante às regras de associação). Esse tipo de construção geralmente é recuperado
de uma árvore de decisão (em estruturas com muitas variáveis, a interpretação dos
resultados somente pela árvore de decisão é muito complexa). Uma forma atual de
estratégia na obtenção das regras é por meio de algoritmos de cobertura sequencial
(sequential covering algorithm), diretamente aplicados aos conjuntos de dados. AQ,
CN2 e RIPPER são exemplos desses algoritmos. Uma outra forma de aquisição dessas
regras é por meio de algoritmos de regras de associação.

Neural networks ou redes neurais


Surgiram na psicologia! É isso mesmo!! Tiveram seu surgimento na psicologia e na
neurobiologia. Essa teoria consiste basicamente em simular a conduta dos neurônios.
No geral, as RN (redes neurais) podem ser vistas como um conjunto de unidades de
entrada e saída conectadas por camadas intermediárias, e cada ligação possui um peso
associado. Nesse processo de aprendizado, a rede ajusta esses pesos para conseguir

53
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

classificar corretamente um objeto. É uma técnica que necessita de um longo período


de treinamento, ajustes finos dos parâmetros e é de difícil interpretação, não sendo
possível identificar de forma clara a relação entre a entrada e a saída. Por outro lado,
as redes neurais conseguem trabalhar de forma que não sofram com valores errados
e também podem identificar padrões para os quais nunca foram treinados. Um dos
algoritmos mais conhecidos de redes neurais é o backpropagation, popularizado na
década de 80, que realiza o aprendizado pela correção de erros.

Support vector machines (SVM)


Apesar de relatos de 1960 sobre a técnica de SVM, foi apenas no ano de 1992 que um
primeiro artigo foi apresentado sobre o tema – por Vladimir Vapnik, Bernhard Boser
e Isabelle Guyon. Por mais que seja uma técnica nova, tem demonstrado para a área,
na academia científica, uma atenção enorme pelos seus resultados. Está obtendo altos
índices de assertividade e também permite modelar situações não lineares complexas,
gerando modelos de simples interpretação, podendo ser usada para relações lineares
e não lineares, entre outros. É utilizada tanto para tarefas de classificação quanto de
predição. Atualmente um dos problemas da técnica de SVM é o tempo utilizado no
aprendizado – muitas pesquisas têm se concentrado nesse aspecto.

Classification by association rule ou


classificação por regras de associação
Ultimamente, as técnicas de regras de associação estão sendo usadas para a classificação.
A ideia geral é buscar por padrões de associações fortes entre os itens (utilizando-se do
conceito de frequência) e as categorias. Fundamentalmente, consiste em dois passos:
primeiro, os dados de treinamento são avaliados para que se obtenham os itens mais
frequentes. Em seguida, esses itens são usados para a geração das regras. Alguns estudos
demostraram que essa técnica tem apresentado mais assertividade do que algoritmos
tradicionais, como o C4.5. Alguns exemplos de algoritmos de classificação são: CBA
(classification-based association), CMAR (classification based on multiple association
rules) e CPAR.

Lazy learners ou aprendizado tardio


As técnicas de classificação apresentadas até agora usam um conjunto de dados de
treinamento para aprender a classificar um novo registro. Logo, quando são submetidas
a um novo registro, elas já estão prontas, já aprenderam. No entanto, há outra categoria

54
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

de métodos, que somente realiza esse aprendizado quando solicitada para a classificação
de um novo registro. Neste caso, o aprendizado é considerado tardio. Apesar de
necessitar de um tempo menor de treinamento, esses métodos são muito custosos
computacionalmente, pois necessitam de técnicas para armazenar e recuperar os dados
de treinamento. Por outro lado, esses métodos permitem um aprendizado incremental.
O algoritmo conhecido como kNN (k - Nearest Neighbor), descrito na década de 1950,
só se tornou popular na década de 1960, com o aumento da capacidade computacional.
Basicamente, esse algoritmo armazena os dados de treinamento e, quando um novo
objeto é submetido para classificação, o algoritmo procura os k registros mais próximos
(medida de distância) desse novo registro. O novo registro é classificado na classe
mais comum entre todos os k registros mais próximos. No algoritmo chamado de
case-based reasoning (CBR), ao invés de armazenar os dados de treinamento, ele grava
os casos para a solução dos problemas. Para a classificação de um novo objeto, a base
de treinamento é analisada em busca de uma solução. Caso não encontre, o algoritmo
sugere a solução mais próxima. Esse algoritmo tem sido bastante utilizado na área de
suporte aos usuários, médica, de Engenharia e de Direito.

Genetic algorithm ou algoritmo genético


A ideia dos algoritmos genéticos segue a teoria da evolução. É comum, no estágio inicial,
uma população ser definida de forma aleatória. Seguindo a lei do mais forte (evolução),
uma nova população é gerada com base na atual, porém os indivíduos passam por
etapas de troca genética e mutação. Esse processo continua até que populações com
indivíduos mais fortes sejam geradas ou que possam atingir algum critério de parada.

Rought set ou conjuntos aproximados

É uma técnica que consegue realizar a classificação mesmo com dados imprecisos
ou errados e é utilizada para valores discretos. Nesses algoritmos, atua a classe de
equivalência: eles ponderam que os elementos de uma classe são indiscerníveis e
cogitam a ideia de aproximação para a criação das categorias. Por exemplo, uma
estrutura (chamada rought set) é criada para uma classe C. Essa estrutura é cercada
por dois outros conjuntos de aproximação (chamados de baixo e alto). O conjunto
de baixa aproximação de C contém os registros que certamente são dessa classe. O
conjunto de alta aproximação contém os registros que não podem ser definidos como
não pertencentes à classe C. Um novo registro é classificado mediante a aproximação
com um desses conjuntos. Busse faz uma comparação do algoritmo MLEM2 (Modified
Learning from Examples Module, version 2) com duas variações.

55
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

Fuzzy set ou conjuntos nebulosos


A classificação baseada em regras apresenta um problema relacionado às variáveis
contínuas. Elas necessitam de um ponto de corte bem definido, o que, às vezes, é ruim
ou impossível. Por exemplo: SE salario > 4.000 ENTÃO credito = ok. Porém, registros
com salário de 3.999 não serão contemplados. Proposta por Lotfi Zadeh, em 1965,
a ideia dos conjuntos fuzzy é de que, ao invés de realizarem um corte direto, essas
variáveis sejam discretizadas em categorias, e a lógica nebulosa, aplicada para definição
dos limites dessas categorias. Com isso, ao invés de haver categorias com limites de
corte bem definidos, tem-se um certo grau de flexibilidade entre as categorias.

»» Predições numéricas: os métodos de predição tendem a descobrir um


possível valor futuro de uma variável. As predições numéricas visam
prever valores para variáveis contínuas. Para a predição de variáveis
discretas, as técnicas de classificação já apresentadas podem ser
aplicadas. Os métodos mais conhecidos para predição numérica são as
regressões, desenvolvidas por Sir Frances Galton (1822-1911). Alguns
autores do estado da arte do método tratam as predições numéricas e
as regressões como sinônimos, porém, como vimos, alguns métodos de
classificação também fazem predições. As técnicas de regressão modelam
o relacionamento de variáveis independentes (chamadas preditoras) com
uma variável dependente (chamada resposta). As variáveis preditoras
são os atributos dos registros, e a resposta é o que se quer predizer.

Regressão linear: as regressões são chamadas de lineares quando a relação entre as


variáveis preditoras e a resposta segue um comportamento linear. Nesse caso, é possível
criar um modelo no qual o valor de y é uma função linear de x. Exemplo: y = b + wx.
Pode-se utilizar o mesmo princípio para modelos com mais de uma variável preditora.

Regressão não linear nos modelos de regressão não linear: a relação entre as
variáveis preditoras e a resposta não segue um comportamento linear. Por exemplo,
a relação entre as variáveis pode ser modelada como uma função polinomial. Ainda
para esses casos (regressão polinomial), é possível realizar uma conversão para uma
regressão linear. Outros modelos também são encontrados na literatura: logistic
regression, poisson regression e log-linear models.

»» Agrupamento: as técnicas de agrupamento são evidenciadas como


não supervisionadas. Dado um conjunto de registros, são gerados
agrupamentos (ou cluster), contendo os registros mais semelhantes. No
geral, as medidas de similaridade usadas são as medidas de distâncias
tradicionais (euclidiana, Manhattan etc.). Os elementos de um cluster são
56
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

considerados similares aos elementos no mesmo cluster e dissimilares


aos elementos nos outros clusters. Por trabalhar com o conceito de
distância (similaridade) entre os registros, comumente é necessário fazer
a transformação dos diferentes tipos de dados (ordinais, categóricos,
binários, intervalos) para uma escala comum, como, por exemplo, [0.0,
1.0]. Vamos fazer a classificação dos algoritmos de agrupamento nas
categorias a seguir.

Partitioning methods ou métodos de


particionamento
Diante de um conjunto D de dados com n registros e k o número de agrupamentos
desejados, os algoritmos de particionamento fazem a organização dos objetos em
k agrupamentos, tal que k <= n. Os algoritmos mais comuns de agrupamento são:
k-Means e k-Medoids.

›› k-Means: esse algoritmo usa o conceito da centroide. Dado um


conjunto de dados, o algoritmo seleciona de forma aleatória k
registros, cada um representando um agrupamento. Para cada registro
restante, é calculada a similaridade entre o registro analisado e o
centro de cada agrupamento. O objeto é inserido no agrupamento com
a menor distância, ou seja, maior similaridade. O centro do cluster
é recalculado a cada novo elemento inserido. Diferentes variações
surgiram: implementando otimizações para escolha do valor do
k, novas medidas de dissimilaridade e estratégias para o cálculo do
centro do agrupamento. Uma variação bem conhecida do k-Means é
o k-Modes. Nesse caso, ao invés de calcular o centro do agrupamento
pela média de distância dos registros, ele usa a moda.

›› k-Medoids: é uma variação do k-Means. Nesse algoritmo, ao invés


de calcular-se o centro do agrupamento e usá-lo como referência,
trabalha-se com o conceito do objeto mais central do agrupamento.
As variações mais conhecidas são os algoritmos PAM (partitioning
around medoids) e CLARA (Clustering LARge Applications).

Hierarchical methods ou métodos hierárquicos


O enfoque e o raciocínio dos métodos hierárquicos é criar o agrupamento por meio
da aglomeração ou da divisão dos elementos do conjunto. A forma gerada por esses

57
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

métodos é um dendrograma (gráfico em formato de árvore). Dois tipos básicos de


métodos hierárquicos podem ser identificados: aglomerativos e divisivos.

›› Aglomerativos: adotam uma estratégia bottom-up em que,


inicialmente, cada objeto é considerado um agrupamento. A
similaridade é calculada entre um agrupamento específico e os
outros agrupamentos. Os agrupamentos mais similares vão se
unindo e formando novos agrupamentos. O processo continua até
que exista apenas um agrupamento principal. Os algoritmos AGNES
(AGglomerative NESting) e CURE (Clustering Using Representatives)
utilizam essa estratégia.

›› Divisivos: adotam uma estratégia top-down, em que inicialmente


todos os objetos estão no mesmo agrupamento. Os agrupamentos vão
sofrendo divisões até que cada objeto represente um agrupamento. O
algoritmo DIANA (DIvisive ANAlysis) utiliza essa estratégia.

Density-based methods ou métodos baseados


na densidade
Os métodos de particionamento e hierárquicos proporcionam agrupamentos de formato
esférico (a distribuição dos valores dos dados é mais esparsa). Porém, existem situações
em que essa distribuição é mais densa e que tais métodos não apresentam resultados
satisfatórios. Os métodos baseados na densidade conseguem melhores resultados.
Evidenciamos os algoritmos: DBSCAN (a density-based clustering method based on
connected regions with sufficiently high density), OPTICS (ordering points to identify
the clustering structure) e DENCLUE (DENsity-based CLUstEring).

Grid-based methods ou métodos baseados


em grade
Métodos baseados em grades, que usam a estrutura de grades e dividem os registros nas
suas células. Mostram um tempo de processamento bem eficiente em relação ao tempo.
Os principais algoritmos são o STING (STatistical INformation Grid) e o WaveCluster
(Clustering UsingWavelet Transformation).

58
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

Model-based methods ou métodos baseados


em modelos
Os métodos fundamentados em modelos criam um amostra para cada agrupamento
e tentam identificar o melhor modelo para cada objeto. Esse método parte da ideia
de que os dados são criados por uma série de probabilidade de distribuições. Os
algoritmos EM (ExpectationMaximization), uma variação do k-Means, COBWEB e
CLASSIT implementam o método de agrupamento baseado em modelos. Mesmo que
cada método possua suas peculiaridades e apresentem melhor resultado com um certo
tipo de dado, não existe uma classificação única para a escolha e a aplicação desses
métodos.

59
CAPÍTULO 2
Ferramentas de manipulação de dados

As opções de entretenimento são as ferramentas para fazer a manipulação de dados.


Aqui listamos seis instrumentos que podem servir de análise de dados.

WEKA
Lançamento: 1993.
Sistema operacional: multiplataforma.
Idioma: Java.

Figura 13 – Tela da ferramenta WEKA

Fonte: WEKA (2018).

Características

O WEKA utiliza diferentes paradigmas e subtipos de aprendizagem máquina, que é um


subcampo da inteligência artificial para o desenvolvimento de algoritmos e técnicas que
permitem que o computador aprenda, ou seja, permitem que o computador melhore o
desempenho em qualquer tarefa.

O WEKA procede à análise computacional e estatística dos dados fornecidos recorrendo


a técnicas de mineração de dados, tentando, indutivamente, a partir dos padrões
encontrados, gerar hipóteses para soluções.

60
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

Vantagens

Uma das principais vantagens do WEKA é a capacidade de ser um software robusto em


termos de recursos, completo em termos de algoritmos e aplicações; além da capacidade
de ser incorporado como built-in em outras aplicações por meio das bibliotecas Java.

Desvantagens

As principais desvantagens do WEKA são a difícil implementação de novas bibliotecas,


o conhecimento mais avançado necessário para implementar algoritmos em Java,
algumas sérias limitações para geração de gráficos e má conexão/integração com
bancos de dados relacionais.

KEEL (Knowledge Extraction Based on Evolutionary


Learning ou Extração de Conhecimento Baseado
em Aprendizado Evolutivo)
Lançamento: 2004.
Licença: GNU GPL v3.
Plataforma: multiplataforma.
Idioma: Java.

Figura 14 – Tela da ferramenta KEEL

Fonte: KEEL (2018).

61
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

Características

De acordo com Gomes (2014, p. 40), o KEEL é um software desenvolvido na linguagem


de programação Java de código aberto (GPLv3), que pode ser utilizado por um
grande número de diferentes tarefas de descoberta de conhecimento. O KEEL fornece
uma interface gráfica do usuário de um modo simplificado baseando-se em fluxo de
dados e projetando experimentos com diversos conjuntos de dados e algoritmos de
inteligência computacional (com ênfase em algoritmos evolucionários) para avaliar o
comportamento dos algoritmos. Ele contém uma grande variedade de algoritmos de
extração de conhecimento clássica e técnicas de pré-processamento.

Vantagens
»» Gerenciamento de dados: consiste de um conjunto de ferramentas que
podem ser usadas para construir os novos dados, exportação e importação
de dados para outros formatos para formatos de quilha.
»» Edição e visualização de dados, processamento de aplicações e
particionamento de dados etc.
»» Experiências de projeção: construção desejada de experiências em grupos
selecionados de dados (várias suposições: tipo de validação, o tipo de
aprendizagem etc.).
»» Projeção experiência desequilibrada: experiência de construção
necessária aos dados selecionados definidos como desequilibrados ou
não balanceados. Essas experiências são criadas para dados “5cfo” set
(cinco vezes validação cruzada); isso inclui os algoritmos específicos para
algoritmos de classificação desequilibrada em geral.
»» Estudos com mais atributos de algoritmos de aprendizagem.
»» Teste estatístico: o analista fornece um conjunto finalizado de pares
estatísticos ou pares diversos dos procedimentos de comparação.
»» Experiências em educação: diante do modelo desenvolvido, é possível
permitir a projeção de um estudo que pode ser analisado (debug) passo a
passo, a fim de ser usado como um guia para compreender a plataforma
certa para modelar o processo de aprendizagem.

Desvantagens

»» Código limitado.

62
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

KNIME (Konstanz Information Miner)


Lançamento: 2004.
Licença: GNU General Public License.
Plataforma: Linux, OS X, Windows.
Idioma: Java.

Figura 15 – Tela da ferramenta KNIME

Fonte: KNIME (2018).

Características

É uma plataforma líder para análise de dados que ajuda as organizações a ficarem à
frente da mudança. Com um moderno KNIME, é possível permitir o desenvolvimento
de operações e estatísticas sofisticadas de mineração de dados, a fim de fazer a análise
de padrões, tendências, descobertas e prever resultados potenciais nos dados.

Vantagens

De acordo com Gomes (2014, p. 41), a KNIME foi projetada e concebida como um
software proprietário que foi desenvolvido para a indústria farmacêutica, mas estaria
disponível mais tarde em formato de código aberto.

A exigência de processamento e integração de grandes quantidades de dados significa


que os desenvolvedores necessitam da adesão de padrões rígidos de engenharia
de software para criar uma plataforma robusta, modular e altamente escalável que
contemplasse vários modelos de cargas de dados, processamento, análise e exploração

63
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

visual. A primeira versão foi lançada em 2006, e muitas organizações farmacêuticas


começaram a usá-la imediatamente após os fornecedores de software desenvolverem
ferramentas de construção com base nele.

Essa plataforma de código aberto integra vários componentes para aprendizado


de máquina e mineração de dados por meio de um conceito de “pipeline de dados
modular”. A sua interface gráfica de utilizador permite satisfazer vários nós (nodos) para
pré-processamento de dados, análise de dados, modelagem e visualização.

Desvantagens

Erro, medidas limitadas, sem métodos de mensagens publicitárias, parâmetros de


ajuste pobres.

Orange
Lançamento: 2009.
Licença: GNU GPL.
Plataforma: multiplataforma.
Linguagem C ++ e Python.

Figura 16 – Tela da ferramenta Orange

Fonte: Orange (2018).

64
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

Características

A ferramenta Orange (ou laranja) é um software de código aberto para análise de dados
voltado para o mais recente na área e até mesmo para profissionais especialistas. É
um conjunto compreensível de componentes baseados em software para aprendizado
de máquina e mineração de dados, desenvolvido no laboratório de bioinformática
na Faculdade de Ciências e Tecnologia da Universidade de Ljubljana, na Eslovênia,
juntamente com um apoio da comunidade de código livre.

Vantagens

»» Programação visual: desenvolve o processo de análise dos dados por


meio de uma programação visual, recordando as decisões e sugerindo as
conexões de atributos mais usados. Orange é um software que sabiamente
escolhe que tipo de canais de comunicação entre os widgets se deve usar.

»» Visualização: o Orange está abastecido com vários tipos de visualização,


como gráficos de barras, gráficos de dispersão, dendrogramas, árvores,
mapas sensoriais e redes.

»» Interação e análise de dados: ações facilmente se propagam por meio de


programas de análise de dados. A seleção de um subconjunto de dados num
elemento específico pode desencadear automaticamente as alterações na
outra. Pela combinação de vários elementos, pode-se criar um quadro
para a análise dos dados de acordo com as nossas necessidades.

»» Várias ferramentas: contém mais de 100 widgets e continua crescendo


cada vez mais. Abrange todas as atividades de análise de dados críticos, e
ainda é especializada em add-ons como Bioorange, para bioinformática.

»» Interface para scripting: com uma interface com Python scripting, é


simples de programar e desenvolver novos procedimentos de análise
de algoritmos de dados difíceis ou considerados complexos, usando e
reutilizando todo o poder de programação visual.

»» Extensibilidade: você pode desenvolver seus próprios widgets e estender


a interface de scripts ou criar a sua própria caixa de componentes
adicionais, todos integrados com o resto da aplicação, permitindo a
reutilização de código e componentes.

»» Documentação: registre desde o início com relação à programação visual


e também forneça uma apresentação detalhada dos widgets disponíveis

65
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

por meio das guias de scripts – assim você fornece uma documentação
completa.

»» Open source: o Orange é um software de código aberto com uma


comunidade de suporte ativo. Você pode pesquisar e ter acesso ao
código-fonte, aumentar a reutilização e até mesmo participar no seu
desenvolvimento, já que a comunidade fornece o suporte necessário para
o desenvolvimento. Ele foi desenvolvido sob a GNU GPL.

»» Plataforma da independência: o Orange pode ser executado em Windows,


Mac OS X e nas distribuições Linux.

Desvantagens

Instalação pesada e capacidades de relatórios limitadas.

RapidMiner
Lançamento: 2001.
Licença: AGPL 3.0.
Plataforma: multiplataforma.

Figura 17 – Tela da ferramenta RapidMiner

Fonte: RAPIDMINER (2018).

66
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

Características

O RapidMiner é o principal software de análise preditiva, que oferece uma solução


desktop muito fácil de usar na nuvem. Essa ferramenta foi inicialmente desenvolvida
em 2001 sob o nome YALE (Yet Another Learning Environment), por Ralf Klinkenberg,
Ingo Mierswa e Simon Fischer, em Artificial Intelligence Unit da Universidade Técnica de
Dortmund. Em 2006, começou a ser desenvolvido pela Rapid-I, uma empresa fundada
por pesquisadores enunciados. Em 2007, ele mudou seu nome para RapidMiner.

Vantagens

Segundo Gomes (2014, p. 48), atualmente o RapidMiner apoia equipes de colaboradores


a trabalhar em tomadas de decisão inteligentes por meio do uso de inteligência preditiva
e predactions (predictions and actions) – previsões baseadas em ações – para melhorar
as operações de uma organização. Essa tecnologia permite às organizações atingir
decisões inteligentes de negócio, ao usar a inteligência preditiva e ações baseadas em
predições.

O RapidMiner fornece software, soluções e serviços para análises avançadas, incluindo


a análise preditiva, a mineração de dados e a mineração de texto. Trata-se de grandes
quantidades de análise de dados, incluindo bancos de dados e texto. Mais especificamente,
proporciona as operações e os procedimentos de exploração de dados para a aprendizagem
da máquina como o carregamento de dados, o processamento de dados (ETL – Extract,
Transform, Load), o pré-processamento de dados, a visualização, a análise de previsão,
modelos estatísticos, avaliação e distribuição (RAPIDMINER, 2014).

Suas principais vantagens são: exibição, estatísticas, seleção de atributo, detecção de


ruído e otimização de parâmetros.

Desvantagens

Sua principal desvantagem é que ele requer um conhecimento considerável de


manipulação de dados.

67
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

TANAGRA
Lançamento: 2003.
Licença: GNU GPL.
Plataforma: Windows.

Figura 18 – Tela da ferramenta TANAGRA

Fonte: TANAGRA (2018).

Características

De acordo com Gomes (2014, p. 68), TANAGRA é um software de mineração de


dados livre para fins acadêmicos e de pesquisa. Ele oferece vários métodos de análise
exploratória de dados de mineração de dados, aprendizagem estatística, aprendizado
de máquina e banco de dados. Esse projeto é o sucessor do SIPINA, que implementa
vários algoritmos de aprendizado supervisionado.

O TANAGRA é mais poderoso, pois contém aprendizado supervisionado, mas também


outros componentes, como fonte de dados, visualização, estatística descritiva, seleção
dos casos, uma função de seleção, características de concepção, de regressão, análise
fatorial, cluster, aprendizagem meta-spv, avaliação e associação de aprendizagem. Foi
desenvolvido por Ricco Rakotomalala, da Universidade de Lumière em Lyon, França,
que lançou a primeira versão do software em 2003.

68
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

O principal objetivo do TANAGRA é servir a comunidade acadêmica e de pesquisa,


proporcionando-lhes uma ferramenta de mineração de dados fácil de usar. Em seguida,
deseja-se que a arquitetura seja facilmente compreendida pelos pesquisadores, para
que eles possam adicionar seus próprios métodos para cada necessidade.

Vantagens

De acordo com Gomes (2014, p. 52), TANAGRA é semelhante a outras ferramentas


de exploração de dados. O utilizador desenha visualmente um processo de extração
de dados em forma de diagrama, em que cada nódulo representa uma aprendizagem
técnica estatística, ou machine learning, e a conexão entre dois nódulos representa a
transferência de dados. Finalmente, os resultados são representados por um formato
HTML, a fim de serem capazes de exportar a saída para um browser.

Desvantagens

O TANAGRA não inclui contexto técnico (código), o que torna as ferramentas comerciais
mais fortes neste domínio: um conjunto de fontes de dados, acesso direto a data
warehouses e bases de dados, limpeza de dados, utilização de forma fácil e interativa.

69
CAPÍTULO 3
AI e big data

Big data e Inteligência Artificial (AI) são dois dos mais falados conceitos no segmento
de negócios. E não admira, uma vez que eles são promissores (e gratificantes),
revolucionando o mundo dos negócios com seus números, dados e algoritmos, o que
faz qualquer menção deles cheia de expectativas. E qual é a relação entre Inteligência
Artificial e Big Data?

Basicamente, big data é a principal fonte de combustível para a Inteligência Artificial,


também conhecida pela sigla IA (ou AI, em inglês). Embora esses dois conceitos ainda
soem um pouco futuristas para o público em geral, eles já estão entre nós (pesquisadores);
e agora é cada vez maior a interferência desses sistemas de informação. No entanto, ao
invés de vivermos em um mundo repleto de robôs, a inteligência artificial que faz parte
das nossas vidas tende a ser invisível.

O big data reúne a vasta quantidade de dados digitais disponíveis na rede que, uma vez
exposta, permite a criação de modelos que analisem e antecipem o comportamento e
a dinâmica de sistemas complexos e interações. Esses dados são provenientes não só
da navegação de rotina dos indivíduos, mas também do traço digital que as pessoas
deixam, muitas vezes sem perceber, na internet.

Olhando para o mundo on-line, cada pessoa possui bilhões de características diferentes.
O desafio é descobrir quais dessas são relevantes na hora de se analisar e determinar
o comportamento de cada um. Logo, é preciso possuir ferramentas que permitam a
manipulação e o estudo desses bilhões de dados. Entender mais sobre esses elementos,
suas origens e tentar prever suas condições futuras permite planejar melhores tomadas
de decisões.

É aí que entra a inteligência artificial: a automatização dos processos de identificação


e análise de dados não se limita a isso; a IA assume um processo de aprendizagem de
máquina constante – como o nome sugere, é quando a sua máquina tem a capacidade
de aprender. O machine learning, ou aprendizado de máquina, utiliza códigos para
fazer uma varredura em grandes quantidades de dados em busca de padrões. Esses
códigos, quando utilizados de maneira constante em porções de informação cada vez
maiores, conseguem trabalhar com análises muito mais rapidamente do que uma
pessoa conseguiria manualmente.

70
TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS │ UNIDADE III

Essa condição pode parecer básica, mas não é. Aprender é uma capacidade
inerentemente humana, que faz com que, a cada tentativa sem sucesso de atingir
um objetivo, a pessoa empreenda raciocínio lógico e criatividade para criar novas
alternativas para atingir o mesmo fim. O machine learning segue o mesmo princípio,
o que faz com que os resultados se tornem cada vez mais assertivos e específicos.

Para chegar perto das variações e da quantidade de dados que a mente humana é capaz
de processar de forma intuitiva, uma máquina precisa ter acesso a grandes quantidades
de informações, normalmente não estruturadas e contínuas: o big data.

Na prática, a AI já é uma realidade. O momento atual é de amadurecimento e


consolidação no mercado, nos mais variados segmentos. É verdade que, com a
automação dos processos, alguns cargos podem ser suprimidos, mas nem por isso a
inteligência artificial deve ser compreendida como inimiga. Quando os funcionários de
uma empresa não precisarem mais perder tempo executando atividades repetitivas e
de baixo valor agregado, isso significa que eles terão mais liberdade para investir seu
tempo no que realmente importa.

Mas, pensando em retrospecto, tecnologias de inteligência artificial são tão recentes


assim?

Uma timeline organizada por Gil Press – especialista em tecnologia, empreendedorismo


e inovação, que revela que os conceitos de AI – já dá sinais da era data-driven há muito
tempo.

Em 1308, o poeta e teólogo catalão Ramon Llull publica “Ars Generalis Ultima” (The
Ultimate General Art), aperfeiçoando ainda mais seu método de usar meios mecânicos
em papel para gerar novas informações a partir da combinação de dados.

Já em 1666, o matemático e filósofo Gottfried Leibniz publica “Dissertatio de arte


combinatória”, seguindo Ramon Llull, e propõe um alfabeto do pensamento humano.
Leibniz afirmava que todas as ideias não são nada além de combinações de um número
relativamente pequeno de conceitos simples.

Em 1726, Jonathan Swift publica “As Viagens de Gulliver”, que inclui uma descrição
de “O Motor”, uma máquina na Ilha de Laputa (e uma paródia de Ars Magna): “um
projeto para melhorar o conhecimento especulativo por meio de operações práticas
e mecânicas”. Usando essa “força”, a pessoa mais ignorante a uma carga razoável, e
com um pouco de trabalho corporal, pode escrever livros em Filosofia, Poesia, Política,
Direito, Matemática e Teologia, com a menor assistência dos estudos.

71
UNIDADE III │ TÉCNICAS E FERRAMENTAS DE MANIPULAÇÃO DE DADOS

No ano de 1763, Thomas Bayes desenvolve uma estrutura para o raciocínio sobre a
probabilidade de eventos. A inferência bayesiana se tornaria a principal abordagem
técnica na aprendizagem mecânica.

Em 1854, George Boole argumenta que o raciocínio lógico poderia ser realizado
sistematicamente da mesma maneira que se resolvia um sistema de equações.

Desde então vieram muitas e muitas inovações! E uma que eu admiro é aquela que,
em 1950, Claude Shannon publicou sobre o desenvolvimento de um programa de
computador capaz de jogar xadrez. Além disso, Alan Turing publica “Computing
Machinery and Intelligence”, no qual ele propõe “o jogo de imitação”, que mais tarde se
tornará conhecido como o teste de Turing.

E chegamos à era das redes em destaque! Em 2011, uma rede neural convolucional
ganha a competição alemã de reconhecimento de trânsito com 99,46% de precisão
(contra um valor de 99,22% em humanos).

Pesquisadores do IDSIA, na Suíça, relatam uma taxa de erro de 0,27% no reconhecimento


de manuscritos usando redes neurais convolucionais, uma melhora significativa em
relação à taxa de erro de 0,35% e 0,40% em anos anteriores.

Em 2016, o AlphaGO, programa de Inteligência Artificial da Google DeepMind, derrota


o campeão Lee Sedol em uma partida do complexo jogo Go.

72
CICLO DE VIDA
DO PROJETO UNIDADE IV
DE CIÊNCIA DE
DADOS

CAPÍTULO 1
Gestão de Dados

Os dados bem organizados e com documentação garantem a preservação da forma que


foi desenvolvida a fim de compartilhar informações, sendo essenciais para a investigação
científica e para melhorar as oportunidades de aprender e inovar.

Os dados da pesquisa têm uma vida além do projeto que eles criam. Os pesquisadores
devem continuar a trabalhar em cima dos dados após o fechamento do financiamento
e seguindo projetos para que os dados ainda sejam analisados, citados, atualizados ou
passem por qualquer forma de reutilização por outros pesquisadores. Assim, os dados
seguem essa reutilização para criar novos combustíveis de um outro ciclo de pesquisa.

O ciclo de vida de dados de pesquisa tem diferentes representações e compreendem


algumas etapas principais, descritas a seguir (ver figura 19).

Criação de dados

»» Concepção da pesquisa.

»» Plano de gestão de dados  (formato, estocamento, …).

»» Plano para compartilhar os dados.

»» Localização dos dados existentes.

»» Coleta de dados (experimentações, observações, medição, simulação e


modelização).

»» Captura e criação de metadados seguindo os padrões do domínio.

73
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

Tratamento dos dados


»» Transcrição, tradução, entrada e digitalização de dados.
»» Verificação, validação e limpeza de dados.
»» Anonimização dos dados, quando é necessário.
»» Descrição dos dados.
»» Gestão e estocagem dos dados.

Análise dos dados

»» Interpretação dos dados.

»» Derivação dos dados.

»» Produção de resultados.

»» Preparação dos dados para acompanhar as publicações científicas.

»» Preparação dos dados para preservação.

Preservação dos dados

»» Migração dos dados para o formato mais adequado (em geral um formato
open source ou não proprietário).

»» Migração dos dados para o suporte mais adequado.

»» Backup e armazenamento de dados.

»» Criação de metadados e documentação.

»» Arquivamento dos dados.

Acesso aos dados

»» Distribuição dos dados.

»» Compartilhamento dos dados.

»» Controle de acesso.

»» Aspectos jurídicos de reutilização.

»» Promoção dos dados.

Reutilização dos dados

»» Acompanhamento.

74
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

»» Nova pesquisa.

»» Revisão ou síntese sobre pesquisa.

»» Exame dos resultados.

»» Ensinamento e aprendizagem.

Figura 19 – Dados de pesquisa do ciclo Lyfe, da UK Data Archive

Fonte: AVENTURIER (2016).

Outros esquemas são mostrados na figura 20, apresentando um outro ciclo, incluindo
a preparação, a análise e o armazenamento de dados.

Figura 20 – Diagrama Research Data Management Lifecycle

Fonte: AVENTURIER (2016).

75
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

A figura 21, do diagrama JISC, indica que o movimento de dados envolve várias
atividades para as profissões em questão: os primeiros são pesquisadores,
posteriormente é natural que eles vão recorrer ao apoio e a serviços a partir de outros.

Figura 21 – Atividades de dados e os ciclos

Fonte: AVENTURIER (2016).

A figura 22, que representa o curation lifecycle model, mostra o papel de diferentes
profissões, por exemplo de arquivistas ou curadores, nas diferentes partes do ciclo. O
modelo permite curadores para identificar fraquezas nas políticas potenciais, lacunas no
processo de arquivo ou preocupações que poderiam ser incluídas nas práticas além dos
limites dos processos de gestão de dados quando a responsabilidade da instituição termina.

Figura 22 – DCC curadoria para modelar ciclos de vida

Fonte: AVENTURIER (2016).

76
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

Listamos, a seguir, outros componentes importantes do ciclo de vida.

»» A destruição dos dados, porque, em muitos casos, não é possível conservar


todos. Assim, uma estratégia para eliminar os dados é importante.

»» A relação entre o conjunto de dados e a publicação científica – os editores


estão exigindo cada vez mais o armazenamento de dados de pesquisa em
um repositório de dados.

»» A publicação de um artigo descrevendo os conjuntos de dados.

»» Os dados de abertura – o mais importante é a partilha de dados, sempre


que possível, mas deve ser a opção padrão.

77
CAPÍTULO 2
Ciclo de vida dos dados

A ciência da informação pode e deve contribuir para que esse cenário de acesso e uso
intensivo de dados se desenvolva da melhor maneira possível, a fim de identificar e
estudar os fatores e as características que facilitam a expansão do equilíbrio entre os
atores envolvidos no processo, além de propiciar máxima otimização dados intensivos
de dados.

Nessa tarefa, é necessário estruturar essa análise e, portanto, propor o uso de uma
delimitação de fase (momentos em que diferentes necessidades e habilidades são
necessárias) envolvida no acesso e na utilização de dados, mantendo os mesmos dados
de pontos centrais. E assim será o uso de ciclo de vida de dados (CVD), como forma de
destacar os diferentes momentos e fatores envolvidos nesse processo.

Em primeiro lugar, você precisa identificar e obter os dados que podem ser usados ​​para
atender a uma necessidade específica ou uma pergunta à espera de informações em um
contexto particular. Em vista disso, os esforços de tempo, a fim de estabelecer um plano
de ação, são necessários na análise de viabilidade e na implementação de coleta de dados.
Outros temas-chave dessa fase podem ser apontadas: qual é o escopo das informações
de que necessita? Que tipo de resultados você espera? Quais são as características?
Qual é a informação necessária? Onde estão as fontes dessas informações? Como os
dados podem ser recolhidos? Eles são formados? Quais são os tratamentos necessários
para torná-los adequados para o que você precisa? A recolha desses dados não fornece
risco à privacidade de indivíduos ou entidades a que se referem? Elementos que, em
alguns casos, poderiam ser considerados comos secundários para permitir a integração
de vários dados coletados são obtidos? Como avaliar a sua integridade física e lógica e
outros elementos para garantir a sua qualidade? Como identificar a sua origem? Eles
têm direito ou permissão para coletar esses dados? Dados podem ser identificáveis​​
e recuperáveis ​​em um momento posterior são coletados? E outros elementos para
garantir a sua qualidade? Foram coletados os dados que fornecem manutenção e acesso
a eles no futuro? Eles devem ser mantidos?

Assim, podemos ver um estágio em que são necessárias habilidades especiais, embora
não totalmente dependentes de uma compreensão profunda das tecnologias digitais,
mas muito perto de precisar de informações que motivem a coleta. Portanto, nessa
fase, tanto o usuário como aqueles que detêm o conhecimento derivado da ciência da

78
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

informação, tais como TI, são pessoas importantes que, trabalhando juntas, podem
tornar o processo mais eficiente.

Uma vez que os dados são obtidos, podem ser utilizados para o fim imediato e eliminados,
o que, como veremos, pode ser considerado como uma outra fase. No entanto, pode
ser necessário e útil manter essa informação disponível de alguma forma para acesso
futuro.

Com a evolução dos recursos digitais, o custo de aquisição e manutenção de suportes


digitais está se tornando mais acessível e permitindo que a decisão de reter os dados se
torne mais fácil e mais desejada. Nesse ponto, chega-se, então, a uma segunda fase, que é
aquela em que os esforços são para manter o conteúdo de um meio particular. O cálculo
desse processo, chamado de persistência de dados, leva a uma série de preocupações e
problemas que devem ser cuidadosamente planejadas. Trata-se, então, de uma parte de
uma fase cujo objetivo é armazenar esses dados.

Outros temas-chave dessa fase podem ser destacadas: Que dados estão disponíveis?
Quais desses dados serão armazenados? Essa estrutura (física e lógica) será usada
para armazenamento? Como garantir a permanência da coleção de dados adicionais
para o ambiente garantido para alcançar? Esses dados podem representar um risco à
privacidade dos indivíduos ou instituições de sua referência de alguma forma? Como as
partes de sua estrutura lógica serão interligadas e como serão mantidas as interligações
com outros conjuntos de dados? Como garantir que os elementos que sustentam a
sua qualidade sejam mantidos? Tem-se o direito de armazenar esses dados? Todos os
aspectos que podem contribuir para sua encontrabilidade estão sendo armazenados?
Todos os fatores para sua utilização ao longo do tempo estão sendo mantidos?

Assim, nessa fase, percebemos uma série de projetos e ações que exigem um
conhecimento mais profundo da ciência da computação, mas que ainda têm um
forte potencial para a participação na área. O usuário já é um pouco mais distante,
participando mais ativamente somente da validação de modelos estruturais definidos
para os dados.

Após essa etapa, pode chegar um momento em que é decidido que os dados não são
mais necessários ou não devem ser mantidos, o que leva à sua disposição, sempre
com referência à outra fase da discussão. No entanto, o mais comum será buscar
alternativas para o acesso e o uso desses dados. Em seguida, começa uma nova fase
em que preocupações e esforços estão focados nesses dados podem ser encontrados,
acessados e interpretados. Essa é uma fase cujo objetivo torna-se, então, a viabilidade
da recuperação de dados.

79
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

Entre outras questões fundamentais dessa fase, podem-se destacar: quais dos dados
guardados serão disponibilizados? Há um alvo específico, um público-alvo? É uma
necessidade que você quer conhecer, ou pelo menos uma área de que se destina a
fornecer? O acesso será feito diretamente para a base sobre a qual ele está armazenado
ou será necessário trazer a fase de armazenamento de definição de novas instalações
de armazenamento específicos para a recuperação? Quantas vezes os dados serão
atualizados gratuitamente? Quem tem acesso a esses dados? Durante o processo
de recuperação, quais são os riscos para a privacidade das pessoas ou entidades
referenciadas no conteúdo recuperado? Como explicita a integração entre diferentes
estruturas de dados e aqueles com outros conjuntos de dados? Como garante os
elementos que suportam a qualidade dos dados que se tornaram disponíveis? Eles
têm o direito de fornecer essa informação? Como é possível que esses dados sejam
encontrados, cedidos e abertos para interpretação? Os procedimentos e os processos de
recuperação são suficientemente estáveis para permanecer polimorficamente utilizáveis
ao longo do tempo?

Nessa fase é explícita a necessidade de conhecimento derivado de ciência, explorado pela


Ciência da Computação e de preferência com base naqueles que detêm o conhecimento
do público ou do alvo, assim como as necessidades previstas, por mais amplas que
sejam suas definições.

Em alguns lugares, essa fase também tem a capacidade de identificar os dados que não
são mais necessários ou que devem ser excluídos da base, o que leva a uma outra fase,
que é responsável pela limpeza ou simplesmente por desativar os dados. Essa fase é
identificada como fase de descarte; em seguida, há a disposição do bloco de dados, que
pode ocorrer horizontalmente ou verticalmente. Bloco seria a exclusão de subconjuntos
completos de dados identificados como entidades (SANTOS; SANT’ANA, 2013).

No caso de eliminações horizontais, teríamos a eliminação de registros (elementos da


estrutura entidade) por meio de filtros específicos ou de informações relacionadas às
datas a que se relacionam. Verticalmente, seria a eliminação de elementos estruturais
das entidades que definem seus atributos, o que remete à definição de dado como sendo
definido pela tríade <e,a,v> (SANTOS; SANT’ANA, 2013). Por exemplo, a eliminação
de um bloco poderia ser a exclusão de uma entidade que contém os dados do produto
(totalmente desligado). Já para uma eliminação horizontal relativa a essa mesma
entidade, podemos imaginar a eliminação de produtos que tenham sido cadastrados
há mais de x anos; e, para uma eliminação vertical, seria a eliminação de um elemento
estrutural dessa entidade e que, portanto, identificaria um de seus atributos, como, por
exemplo, peso – portanto, sua eliminação apagaria o atributo “peso” de todos os itens
cadastrados nessa entidade.

80
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

Para essa fase, é também necessário um esforço de planejamento e execução, e a ciência


da informação pode desempenhar um papel importante, mais uma vez manipulada
pela ciência da computação e contando com o apoio e o acompanhamento dos usuários
envolvidos.

Entre outras questões fundamentais dessa fase, podem-se destacar: Quais dados já não
são mais necessários? Os dados a serem descartados persistiram? Em quais suportes?
Esses dados estão replicados em outras bases? Como garantir e explicitar que esses dados
foram realmente excluídos e não simplesmente ocultos? A eliminação desses dados não
prejudicará a integridade ou interligação de outros dados? O descarte desses dados não
prejudicará a qualidade do conjunto de dados como um todo? Tem-se o direito de excluir
esse dado? Ao eliminar esses dados, qual o impacto em sua encontrabilidade e acesso?
Para o descarte, foi considerada a necessidade de preservação em seus diversos aspectos?

Aponta-se, assim, para a existência de quatro fases e de fatores que permeiam (ou seja,
que estão presentes) todas elas, que são: privacidade, integração, qualidade, direitos
autorais, disseminação e preservação, conforme descrito na figura 23.

Figura 23 – Ciclo de vida dos dados para Ciência da Informação – (CVD-CI)

Fonte: adaptado de Sant’Ana (2013).

Dessa forma, podemos explicar as fases de coleta, armazenamento, recuperação e


eliminação e os fatores que estão presentes em cada uma destas fases: privacidade,

81
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

integração, qualidade, direitos de autor, disseminação e preservação (SAN’TANA,


2013). Para explicar cada uma dessas etapas e fatores de CVD, analisamos cada um
deles em relação ao contexto de um projeto de data warehouse.

Coleta
Em um primeiro momento, estamos enfrentando a etapa de obtenção de dados, que
pode ser identificada como aquela em que ocorrem: a definição de necessidades de
informação que irá conduzir as escolhas e as definições sobre o que é exigido dos
dados; as estratégias são estabelecidas sobre como identificar e avaliar esses dados;
mecanismos são escolhidos para ser utilizados para a sua produção; as metodologias e
as ferramentas necessárias para atingir esses dados são preparadas.

Nessa fase, chamada de ciclo de vida da fase de coleta de dados, a estruturação de um


repositório de dados deve considerar a difícil tarefa de identificar as fontes de dados
que podem ser úteis para que os usuários tenham cumprido as suas necessidades.

A coleta pode ser caracterizada como um projeto ou como um processo. Há casos em


que a coleta é feita pela fonte de dados, que permite a aquisição constante destes – esses
dados correspondem à informação representando situações dinâmicas que constituem
um processo que pode ser contínuo, com fornecimento dados constante. Nesse contexto,
entre outros aspectos a considerar, surge a questão da cadência da coleta, por meio
da identificação de tempo entre as tomadas das medidas ou obtenção de valores. Um
intervalo menor gera uma maior precisão, gerando, no entanto, um maior volume de
dados recolhidos. Um intervalo mais longo gera volumes menores na granularidade.
Esse tipo de coleta configura um processo que acaba por coexistir com as demais fases.

Nos casos em que a coleção se dá no tempo correto, cada processo de coleta pode
ter suas próprias configurações, e a criação de metadados deve levar em conta as
características de cada coleção, principalmente a partir do tempo de registro em que
isso ocorreu, alterando as características de um projeto com início e fim claramente
definidos. Situações desse tipo podem também indicar a necessidade de análise da nova
coleção de coleta, em uma atualização cíclica do movimento dos dados coletados, que
se aproxima da coleta contínua, mas com características próprias, blocos definidos e
subconjuntos de dados, que se inserem no âmbito dos dados coletados.

Nesse contexto, podem-se analisar os fatores envolvidos nessa fase, começando com a
privacidade que essa área ganha contornos de destaque. Faz-se necessário identificar
as fontes utilizadas, aspectos que poderiam constituir uma violação da privacidade
dos indivíduos ou instituições em relação aos dados a serem coletados, o que poderia

82
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

resultar em um passivo futuro a partir da base de dados obtidos, comprometendo as


fases posteriores do ciclo de vida.

Na coleta também é importante ter pronta a definição dos requisitos, com base em
dados que você deseja alcançar como um todo, e as relações necessárias para essa base
podem ser conectadas a outras bases de dados, proporcionando um resultado que
remete à questão do valor do todo, que tende a ser maior que a soma das partes quando
estas estão devidamente integradas. Assim, a integração deve se preocupar com a etapa
de coleta por meio da identificação e da validação dos atributos que serão responsáveis
pela identificação única de cada registro (chave candidata ou chave primária) e os seus
correspondentes nas outras entidades (chaves estrangeiras) para que a integração
possa ser garantida.

Uma característica essencial de arquivos de dados é a definição e as garantias


necessárias para permitir a percepção da qualidade dos dados coletados; e, em seguida,
elementos como origem, mecanismos de coleta e garantias de integridade física e lógica
representam apenas alguns dos aspectos a considerar. A confiabilidade dos dados é
uma condição sine qua non para um dado útil.

No momento da coleta, deve-se manter em foco a questão da responsabilidade da fonte


de dados que você deseja usar, para que não sejam violados os direitos autorais ligados
aos dados a serem obtidos. Deve-se considerar que sempre existem organizações e
recursos envolvidos para desenvolver soluções para o assunto cujo alvo é a coleta e que,
além do debate ético sobre o direito de acesso (ou não) a determinados recursos de
informação, em última análise, temos de respeitar o arcabouço jurídico que sustenta a
legitimidade de acesso.

Devem-se consultar sempre as informações sobre direito de acesso aos dados desejados
e suas nuances, como a questão de resultados derivados ou de vinculação financeira de
uso futuro de resultados produzidos a partir deles e, ainda, a autorização de alteração
e de obrigatoriedade de citação de fonte. O maior volume possível dessas informações
deve ser corretamente registrado no mesmo repositório, expandindo a sua segurança
jurídica até mesmo para seus responsáveis.

O eventual acesso futuro, e, portanto, a disseminação de tais informações devem ser


considerados já na fase de coleta, para que a vitalidade de uma maior disponibilidade
e acesso se torne possível, solicitando informação (atributos) que, mesmo que não
estejam ligados diretamente à necessidade atual, sejam incluídas no planejamento
da estrutura de obtenção. Isso é feito para que seja possível, por exemplo, identificar
elementos contextuais dos dados que possam favorecer sua localização e interpretação
na fase de recuperação – o que também pode causar um aumento no volume dos dados

83
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

obtidos e a entrada de informação na própria recolha como parte das estruturas a serem
preenchidas com os dados recolhidos.

A preservação dos dados coletados e que, eventualmente, serão armazenados, pode


também exigir dados adicionais a serem incluídos nos requisitos para a coleta, desde
que tais dados possam ser identificados de uma forma mais ampla – incorporando,
inclusive, informações sobre eventuais características de dispositivos que tenham sido
utilizados como fonte dos dados. Isso permite que esses dados sejam não só preservados,
mas também utilizados, mesmo após inevitáveis alterações em suas estruturas e
constituições semânticas advindas de evolução nos dispositivos, tais como aumento
de acurácia e/ou precisão, com eventuais, e muito prováveis, melhorias nos níveis de
granularidade de informações.

Armazenamento
Uma vez que os dados são coletados, o potencial uso futuro dos mesmos é uma realidade,
ou seja, a possibilidade de que esses dados sejam usados ​​em novos processos de análise
direta ou por meio da interação com outras bases de dados, o que leva à necessidade
de metodologias e ações estruturantes. Em informática, essa fase é definida como a
persistência de dados (RUMBAUGH et al., 1994, p. 429) – e a doença cardiovascular,
por exemplo, é definida como a fase de armazenamento.

Essa fase tem uma abordagem mais tecnológica e define aspectos garantindo a
reutilização de tais dados, por meio de especificações físicas e lógicas de como os
dados são gravados em um suporte. Algumas das configurações necessárias nessa fase
encontram-se listadas a seguir.

a. Que conjunto de variáveis ​​que receberá o conteúdo (valores) obtido na


etapa de coleta. Para cada uma dessas variáveis, ​​será necessário definir
quais são as suas especificações, tais como: tipo (se é um conteúdo
composto de um valor numérico para um conjunto de caracteres, um
valor lógico, uma série de bytes que permite outros conteúdos, como
áudio, imagens, vídeo); tamanho; forma; e características também
semântica, como sua unidade de medida, o grau de precisão e tudo o que
pode facilitar a futura interpretação desses dados.

b. Com uma estrutura, isto é, o conjunto de variáveis ​​definidas no ponto


deve ainda ser organizado em subconjuntos definidos de acordo com a
semântica que os liga a um item do mundo real ou conceito. Portanto,
precisamos provar um conjunto de variáveis ​​que podem ser atribuídas

84
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

diretamente a um produto que, consequentemente, tornar-se-ia uma


entidade chamada produto com variáveis, ​​tais como: a descrição, a data,
o peso, o número de identificação e assim por diante. Considerando
essas definições, temos então a estrutura mínima semântica para a
interpretação e o uso de uma determinada: <e, a, v>, ou seja, o atributo
ao qual a entidade (variável) pertence e qual o seu valor (SANTOS;
SANT’ANA, 2013). Portanto, na fase de planejamento de um repositório
de dados, será necessário identificar, para cada um de seus conjuntos
de dados, quais e como estão estruturados em termos de entidades e
atributos, e, também, como seus valores estão registrados, permitindo
que, para cada dado armazenado, seja possível interpretar sua estrutura
básica <e,a,v>.

c. Quem pode acessar os dados armazenados é outra questão fundamental,


especialmente quando se trata de conteúdo com grande possibilidade de ser
identificado como dados sensíveis, e que depois levantam sérias questões
sobre a privacidade de acesso a esses dados. Nesta matéria, a estrutura
básica de um dado nos permite entender algumas das complexidades da
definição de acesso a essas regras de dados, uma vez que estes devem ter
em conta que não são um simples pedaço de informação, mas deve ser
pensada a estrutura como um todo, ou seja, deve-se pensar em termos de
entidades, atributo e valor. As permissões de acesso devem levar em conta
não só as entidades que serão acessíveis, mas também como os atributos
e os valores serão utilizados para o acesso. Tal como para os valores, você
pode usar as permissões para restringir o acesso a um registro com base
no valor de um determinado atributo – por exemplo, limitar o acesso a
dados de produtos para os únicos representantes que estão envolvidos
com marketing ou acompanhamento. Você também pode definir os níveis
de dados anônimos por meio do desenvolvimento de alguns valores de
atributos identificadores, identificadores semicancelamento ou mesmo
de generalização considerados (SAMARATI; SWEENEY, 1998).

d. Você pode acessar, diretamente ou por meio de um sistema de


gerenciamento de banco de dados (SGBD), que interfere em formato físico
a ser adotado para gravar dados. No caso de adoção de um SGBD mais
adequado, deve ser mantido formato proprietário usado pelo sistema, o
que faz com que os dados estejam sob a gestão desse sistema e de acesso
direto ao conteúdo original, o que, por um lado reduz a interação direta e
aumenta a segurança tanto física quanto lógica. No caso de se optar por
um padrão que permite o acesso direto, poderãos ser adotado desde o

85
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

padrão de formatação baseando-se em semântica posicional até formatos


mais constituídos e que incluem a semântica que define as definições
das entidades e dos atributos por meio de metadados incorporados aos
conteúdos – o que pode propiciar a interpretação e o uso desses dados,
inclusive, de forma completa e automatizada.

e. O tamanho padrão, ou definição iv, tem como destino a permissão de


entidades semânticas, e atributos podem ser emitidos juntamente com
o conteúdo. Como exemplos dessa definição, podem ser mencionadas
opções como valores separados por vírgulas ou formato CSV, que é muito
simples e permite um fácil acesso por meio de uma folha de cálculo
simples. O seu formato baseia-se numa folha de cálculo em que cada
linha do ficheiro, delimitada por uma linha de ruptura (carriege, return
and line feed – CRLF), é uma fileira de folha de cálculo, e o conteúdo de
cada coluna é separado por um caractere que, a maior parte do tempo, é
a vírgula, como o nome sugere. Opcionalmente, pode ser adotado como o
primeiro cabeçalho de linha, que permite que você tenha, pelo menos, o
rótulo de cada coluna (IETF, 2005).

f. Em que eles são armazenados é outra definição que está ganhando cada
vez mais importância. Como em um movimento cíclico, vê um retorno
ao modelo de armazenamento utilizado nos primeiros dias de cálculo
digital, pois a dificuldade de armazenamento levou a uma centralização
de armazenamento em grandes dispositivos. Com a disseminação
de dispositivos de baixo custo e aumentando a capacidade de
armazenamento, o conteúdo começou a fragmentar em cada um dos seus
equipamentos necessários, trazendo grandes vantagens de desempenho,
mas acrescentando problemas de interoperabilidade. Hoje, com o advento
da interconectividade em massa, há uma tendência crescente para usar
dispositivos de acesso cada vez mais orientados para a tarefa interface e
abdicar da responsabilidade para a conservação.

Com base nos objetivos e nas definições descritas, passam-se a analisar os fatores
envolvidos nessa fase, e a privacidade está fortemente ligada à entrada “c”, como nessa
definição será identificado quem pode ter acesso a esses dados, não só para consulta,
mas também para incluir, editar e até mesmo apagar a informação.

Em relação ao “d”, uma das grandes vantagens da adoção do SGBD é a sua capacidade
para definir quem pode acessar os dados, e isso pode ser feito por meio das funções
de usuário em configurações que definem não só a identificação de usuários, mas

86
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

esses grupos de usuários eles poderiam ser as atividades que esse grupo desenvolve.
Isso permite que a atribuição de acesso seja definida para um papel particular, e, em
seguida, cada utilizador pode ser identificado por uma ou mais funções que definem o
seu âmbito de acesso ao conteúdo de um banco de dados.

Em “f”, que define “onde”, os dados também são armazenados, sendo capazes de
gerar uma série de questões de privacidade, e uma base armazenada localmente e
desconectada da rede pode ser muito mais segura em relação ao acesso ou ao uso não
autorizado de um banco de dados que é armazenado em um servidor de dados conectado
à internet, muitas vezes sob a responsabilidade de terceiros. Onde esse problema tem
muitos dados confidenciais é fundamental, o que geralmente leva a uma fragmentação
de retenção de dados.

Uma preocupação que vem desses fatores é o caminho para garantir a confidencialidade
no acesso aos dados armazenados em dispositivos intramuros de uma empresa.

A possibilidade de integração dos dados armazenados dependerá, em grande parte,


das configurações descritas nos pontos “d” e “e”. Na definição de como eles vão estar
acessíveis, a escolha com a adoção de um SGBD irá causar uma camada de proteção
e interação. No caso de adoção de um formato aberto que permite o acesso direto,
existe a desvantagem de requerer uma rede semântica de dados fortes, que permite a
identificação e a interpretação de entidades e atributos da base de dados.

Nas definições de “a” e “b”, as entradas também interferem no assunto, porque,


uma vez que atingiram-se esses dados, devem ser interligados por meio de relações
possíveis de ser identificadas por seus próprios algoritmos. Isso leva à necessidade de
um conjunto bem definido – não só o de identificadores de registro em si, mas também
permitindo a sua relação com os outros, todos obtidos por meio das configurações e
feitos de chaves primárias (a identificação de registro) e chaves estrangeiras (chaves
primárias de identificação de outras entidades ou as mesmas relações de entidade
dentro da organização). Quando se trata de dados sensíveis, o problema se agrava: são
feitas alças, e criam-se identificadores semirreboques que podem expandir.

Quanto à qualidade dos dados, as questões do seu armazenamento são fundamentais


para assegurar que esses dados manterão seu estado físico e lógico. Um dos dados
armazenados de tal forma que não requer um SGBD para o acesso será muito mais
passível de ter um problema com relação à sua integridade, tanto por problemas físicos
ou acesso não autorizado, que pode ocorrer por má-fé ou mesmo por erros operacionais.
Para os casos de melhorias significativas na qualidade dos dados em tamanho, mais
uma vez as decisões tomadas por estes podem levar a consequências irreparáveis.

87
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

Ao armazenar dados, a preocupação deve ser com respeito aos direitos de autor ligados
à fonte de onde foram obtidos os dados, tentando registrar essa informação, a fim de
manter a resposta de segurança institucional a partir de dispositivos de armazenamento.
Áreas com forte presença do Estado na sua gestão podem apresentar melhorias no acesso
e no futuro armazenamento de dados, mas eles devem ser considerados a presença
maciça de organizações que procedam a investimentos em pesquisa e desenvolvimento
e, portanto, os resultados financeiros esperados dos seus investimentos e, em seguida,
tentar proteger seus ativos de informação.

Note-se, além disso, que, mesmo quando se fala em tratamento de outro armazenamento
de banco de dados, deve-se levar em conta o problema do trabalho derivado que, embora
não seja uma cópia dos dados originais, o conteúdo armazenado pode ser derivado do
acesso a certas bases e seria possível somente por meio desse acesso, que deve conter
informações sobre os dados que lhes deu origem.

Espera-se que os dados armazenados forneçam acesso futuro, então a propagação é


uma preocupação que está presente na fase de armazenamento também. É necessário
proporcionar meios para que esses dados sejam acessíveis e ainda incorporem
interpretação semântica, de preferência automatizada. Você deve ativar o banco de dados
que contém os elementos que permitem e até mesmo facilitem a sua localização. Quando
se trata de dados sensíveis, surge um problema no que diz respeito a comprometer a
privacidade. E, ao criar maneiras para que esses dados sejam encontrados, devem ser
planejadas alternativas fornecidas na proteção de armazenamento.

Mesmo com a futura abordagem de uso, todas as abordagens e novos conceitos


devem estar focado sempre no armazenamento, forncendo elementos que facilitam o
armazenamento de dados, independentemente do acesso à sua conta ou do dispositivo
original que armazenou o desenvolvimento líder de uma estratégia de implementação
de processos de atualização tecnológica e a verificação física e lógica.

Quando se trata de preservar os dados no contexto de big data, você deve levar em conta
não apenas os aspectos comuns do processo de preservação, mas também fatores como
a ampla gama de tamanhos e variedade de fontes de dados, bem como a diversidade
de dispositivos. Também existe uma constante evolução no agravo do problema de
armazenar informações sobre como obtê-lo.

O armazenamento dos aspectos semânticos da questão não é menos complexo, com


a necessidade de gravar não só o conteúdo, mas também elementos que permitem a
interpretação de vocabulários específicos, regionais. Esse armazenamento deve ser
preservado de alguma forma e relacionado com o conteúdo que se destina a preservar.

88
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

Recuperação
Uma vez que os dados foram coletados, são armazenados em uma posição para fornecer
uma nova fase, que seria aquela que, tomando o comissionamento de dados em foco,
serve para tornar esses dados disponíveis para acesso e uso.

Assim, o período de recuperação para os dados, as estratégias e as ações coletadas


e armazenadas estão agora avaliados do ponto de vista da pessoa responsável pela
manutenção, e não aqueles que acessam esses dados (essa fase é a coleção). Isso não
implica que os recursos que recuperam os dados não sejam considerados; pelo contrário,
esse é o objetivo, mas o foco está agora em quem está fornecendo essa recuperação, uma
vez que está tomando em consideração o comissionamento em foco, o banco de dados.

Esses pontos preocupam-se com meios que aumentam os níveis de utilização de tais
dados, seja aumentando as possibilidades de acesso por cópia ou obtendo ambos os
conjuntos de análise por meio da disponibilização desses recursos de visualização de
dados. Esse é um assunto vasto e foge do escopo deste livro, mas somos capazes de abrir
algumas reflexões sobre os fatores envolvidos nessa fase.

Quanto à privacidade, quando se trata de recuperar meios de dados, é importante


lembrar que o meio deve ser considerado para ser envolvido com o conteúdo que
esteja disponível, identificando as estruturas e os potenciais utilizadores, sempre
lembrando que, mesmo nos casos em que o dados não se mostram sensíveis,
deve-se proporcionar a possibilidade de relacionar esses dados com outros, que podem
fornecer um ataque. Quando se trata de dados sensíveis, a privacidade deve ser um
tema central na disponibilidade de dados para recuperação. O nível de transformação
de forma anônima, nesses casos, deve ser o mais alto possível, mesmo tendo em conta
a deterioração do nível de utilidade de um banco de dados diretamente correlacionado
com o grau de anonimato.

A fim de obter um bom nível de uso, a partir dos dados armazenados, eles devem ter um
grau de integração que fornece uma análise de entidades distintas, mas integrada, para
compor um todo, que poderia ser um valor de uso superior para a soma dos valores de
utilização de sujeitos individuais.

Devido a um possível bom planejamento e a etapas de execução cuidadosa de coleta


e armazenamento, a fase de recuperação desses conjuntos de formatos de dados, na
maioria das vezes, de muitas entidades, terá seu acesso unificado e descrito como
uma entidade única, o que facilita o usuário para alcançar os resultados esperados.
Considerando também a necessidade de manter a privacidade, um grande problema é
que o uso desses dados requer uma forte integração da mesma, como a história de uma

89
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

entidade pode ser de fundamental importância para a realização de um diagnóstico ou


para a definição de análise desses dados definidos na horizontal.

Bem como a recolha e o armazenamento, a qualidade de recuperação também é um


fator chave no ciclo de vida dos dados. Os recursos disponibilizados, no acesso para
baixar o programa para dados de visualização, devem refletir os mesmos aspectos,
no entanto, com ênfase na interação do usuário. Eles devem ser considerados como
aspectos da arquitetura da informação na preparação de recuperação de recursos, bem
como elementos que melhoram a usabilidade e a acessibilidade, evitando possíveis
erros decorrentes da mesma interface.

Quanto ao direito de autor em fase de recuperação, deve-se deixar explícito se é


permitido usar esses dados e como os dados podem ser usados ​​por essa recuperação, o
que torna o uso e a replicação simples e seguros.

Para a disseminação na fase de recuperação, é necessário fornecer os dados coletados


e armazenados com informações que possam ser encontradas por aqueles que irão
usá-las, não só pela simples possibilidade de acesso. Estratégias são necessárias para
permitir a sua posição, não só para o acesso de sua exibição dos detentores de recursos,
mas também mecanismos automáticos que podem encontrar, ainda, o seu acesso aos
processos de cobrança.

Quando se trata de dados sensíveis, os usuários tendem a ter umas fortes permissões
de identificação e acesso, mas, mesmo assim, esses usuários precisam receber as
informações de que esses dados estão disponíveis. Devem estar disponíveis, também,
todas as informações sobre como usá-los, os aspectos semânticos envolvidos e também
o acesso e as limitações, para que tudo isso ainda pode ser identificado no momento da
localização, para facilitar a decisão sobre seu uso.

Preservar a fase de recuperação está diretamente relacionado com as questões de


interpretação, especialmente quanto aos comentários sobre o fator tempo, isto é, uma
interpretação realizada a qualquer momento deve ser autorizada a ser o mesmo lugar
em outro tempo, desde que sejam atendidos os critérios de manutenção e os objetivos
iniciais. Assim, a preparação e a seleção de descarga capacidades de visualização devem
manter um controle rígido sobre os seus algoritmos, e os mecanismos de interação não
geram resultados diferentes de uma base no tempo.

Essa não é uma tarefa fácil, especialmente considerando a pressão constante por
atualização e a modificação que esses recursos sofrem durante a sua existência. Quando
se trata de dados sensíveis, essa questão torna-se bastante preocupante, uma vez que
uma pesquisa realizada em momentos diferentes pode levar a resultados diferentes

90
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

que levam a conclusões sobre causas ou consequências de um determinado objeto de


estudo, o que pode levar a decisões erradas.

Descartar
Depois de concluir as reflexões sobre as fases de coleta, armazenamento e recuperação,
pode-se supor que o ciclo de vida dos dados esteja completo, especialmente quando
o limite para a quantidade de dados parece forte, mas não é o que acontece. A
experiência foi um momento em que as configurações, tais como grandes volumes de
dados, identificam um cenário em que a quantidade de dados que a disposição está
a aumentar, excedendo a capacidade de interpretação e mesmo de armazenamento
eficiente. Essa fase é a eliminação de dados que não são mais necessárias ou que estão
além da capacidade de serem de forma eficiente pelo sistema como um todo.

Quando se trata de questões relacionadas com a fase de eliminação, não é trivial conectar
isso com a questão da privacidade, mas é bastante urgente nessa fase e merece atenção.
Um indivíduo deve ter o direito ou pode precisar ter os dados retirados de uma certa
base e garantir que nós nos identifiquemos com o conceito do direito ao esquecimento.

Mas essa não é uma tarefa fácil, porque o acesso aos dados será sempre mediado de
alguma forma pelos titulares de acesso direto, e limitações podem apresentar cenários
em que dados incompletos são retidos. Pode-se gerar, ainda, a percepção de que um
determinado dado foi eliminado quando foi identificado apenas como acessível para
visualização, permanecendo assim registrado para intramural e fora do alcance prático
da análise de casos de monitoramento e controle.

Outro problema com o direito a ser esquecido em um banco de dados pode estar
relacionado com a presença de cópias de dados que podem ser armazenados em lugares
diferentes, longe da possibilidade de controle ou monitoramento por aqueles que aqui
têm seus dados registrados.

Quanto à integração de dados no momento da venda, o relatório é mais explícito e


levanta uma série de questões. Direcionar um determinado registro excluído de uma
base pode causar a degeneração das relações entre bases diferentes, que levam a uma
degradação da base no complexo.

Vale ressaltar que os dados descartados podem já ter sido utilizados por terceiros ou
por derivados e que o seu conteúdo excluiria todos os afetados.

Quanto à questão da qualidade – que, nessa fase, está ligada muito diretamente ao
fator de integração –, também no momento do descarte, agrava o conceito geral de

91
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

destruição, eventualmente eliminando a possibilidade de análises comparativas ao


longo do tempo ou de diferentes origens – e, pior, podendo levar a conclusões errôneas
de sua análise.

Portanto, os processos de eliminação devem manter as informações registradas em


detalhes, tantos quanto possíveis, sobre o processo de eliminação, e de modo que, em
consultas futuras, possam ter, de alguma forma, em relação aos contextos em questão,
essa informação apresentada para as exclusões.

Questões de direitos autorais em fase de descarte podem ser relacionadas


principalmente para manter as informações sobre o autor, mesmo depois de
descartado. Como esses dados podem ser usados por um terceiro para justificar ou
identificar a origem dos seus dados, após a perder a venda para informações sobre
a autoria e seus registros, você deve manter, de qualquer forma, a informação de
dados que foram disponibilizados e que, de alguma forma, podem ter sido usados
por outros, para não criar insegurança jurídica para quaisquer trabalhos derivados,
mesmo diretamente ou simplesmente por utilização de referência.

Na distribuição e na sua relação com o momento do descarte, vale a pena mencionar


o gasoduto efeito principalmente em motores de busca que permanecem com as
informações sobre o conteúdo de um determinado conjunto de dados, quando na
verdade não estão mais disponíveis esses dados. Outra preocupação para esse fator
na fase disposição refere-se ao risco de perder itens que, embora não relacionados
com o foco do conjunto de dados em questão, podem ser os elementos-chave para a
disponibilidade de montagem.

A conservação tem uma relação direta com o estágio de eliminação relativa para incluir
outros fatores. O armazenamento deve ser procurado, mesmo quando os dados não
parecem ser mais úteis, pois ele pode sempre subir a novas necessidades imprevistas
que podem exigir os dados apagados.

Devido à diminuição dos custos de armazenamento, eles têm a possibilidade de manter


cópias de dados que, por razões de eficiência do sistema, devem ser eliminadas.
Lembre-se de que armazenar uma cópia dos dados apagados, muitas vezes em formatos
e estruturas diferentes do original, define o início de um novo ciclo de vida dos dados,
assim como um novo banco de dados com suas próprias características e objetivos
específicos.

92
CAPÍTULO 3
Onde encontrar dados

Se você disser que os dados poderiam ser, em breve, uma das principais matérias-primas
de transformação social, você é capaz de imaginar o que vai acontecer? Na verdade,
essa é uma mudança que já está acontecendo em algumas ocasiões. Tudo graças ao que
chamamos open data, ou dados abertos.

Big data e open data são questões que se cruzam, embora tenham definições muito
diferentes. Vamos entender a relação entre os dois assuntos e compreender melhor
o mundo dos dados abertos, um dos principais insumos para uma nova cultura
tecnológica.

Big data, big data analytics e open data


O termo big data está diretamente relacionado com o universo infinito e a profundidade
de dados que se constroem todos os dias. De atos simples, como alguém que passa pela
catraca de um ônibus, ou postar uma foto no Facebook, para ações mais elaboradas,
como planilhas de alimentação com informação, fórmulas e números sobre a história
de vendas de uma empresa, tudo isto tem a ver com big data. Todos esses exemplos são
fontes de dados que podem ser usados ​​para a análise do comportamento, tendências,
previsões e outras aplicações.

Além de compreender o que é, de fato, big data, é também importante compreender que
todos esses dados são apenas de valor importante depois de serem analisados. Portanto,
usa-se, para tais situações, o termo big data analytics. Na prática, big data analytics
é um trabalho analítico de grandes volume de dados (sendo estes estruturados ou não),
com o objetivo de encontrar insights que ajudem as organizações a tomar decisões
de negócios inteligentes, ou para responder a quaisquer outras perguntas sobre um
mercado específico.

Por meio de um software de alto desempenho, tais dados podem ser coletados,
armazenados e interpretados de forma rápida e completa. Em suma, é possível cruzar
uma infinidade de dados do ambiente externo e interno, para garantir que todo histórico
use essa análise como uma verdadeira bússola gerencial. Agora que sabemos o que é big
data e big data analytics, trataremos de entender o que é open data.

93
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

Dados abertos ≠ big data


No mundo do big data, que envolve diferentes tipos e fontes de dados, podemos
identificar os dados também como fechados e abertos. É importante notar que o big
data é diferente do open data, mas que esses termos podem ser usados ​​simultaneamente
para definir qualquer situação específica.

Tal como definido pela Open Knowledge Foundation, uma instituição que tem como
objetivo fortalecer a empresa por meio do conhecimento livre, em suma, os dados podem
ser considerados abertos quando qualquer um pode usá-los livremente, reutilizá-los
e redistribuí-los, sendo sujeito à obrigação de, no máximo, creditar a sua origem e
compartilhar da mesma forma.

Toda a questão dos dados abertos normalmente é diretamente relacionada com questões
de governança, já que, atualmente, a maior parte dos órgãos públicos trabalha para
fornecer informações públicas (tais como orçamento e gastos públicos) transparentes
para a sociedade.

Considerando esses fatos, o ativista e o especialista em política pública David Eaves


propôs três leis e oito princípios que ajudam a definir melhor os dados abertos (BigData
Business, 2018).

As três leis
a. Se os dados não podem ser encontrados e indexados na web, não existem.

b. Se não forem abertos e disponíveis em formato legível por máquina, não


podem ser reutilizados.

c. Se qualquer disposição de lei não permite a replicação, não são úteis.

É importante ressaltar que essas leis foram propostas, em primeiro lugar, para os dados
governamentais abertos. No entanto, hoje podemos dizer que se aplicam a abrir os
dados em geral.

Os 8 princípios
Tentando decifrar e explicar o que são, de fato, dados abertos, um grupo de ativistas e
interessados ​​no tema se reuniu na Califórnia (EUA), em 2007. Chegaram a um consenso

94
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

que define os princípios de dados abertos por meio de 8 tipos de necessidades, descritas
a seguir.

Completos

Todos os dados públicos estão disponíveis. São armazenadas eletronicamente


informações, incluindo (mas não limitando) documentos, bancos de dados, transcrições
e gravações de audiovisual. Os dados públicos não estão sujeitos a restrições de
privacidade, controle válido e segurança regulada por estatutos.

Primário

Os dados são publicados como eles foram coletados na fonte, com a granularidade mais
fina possível, e não agregados ou transformados em formulário.

Atual

Os dados estão disponíveis tão rapidamente quanto é necessário para preservar o seu
valor.

Acessível

Os dados estão disponíveis para o maior público possível e para diferentes fins.

Máquina processável

Os dados são razoavelmente estruturados para permitir um tratamento automatizado.

Acesso não discriminatório

Os dados estão disponíveis para todos, sem a necessidade de identificação ou de registo.

Formatos não proprietários

Os dados estão disponíveis em um formato sobre o qual nenhum indivíduo tem controle
exclusivo.

95
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

Sem licença

Os dados não estão sujeitos a regras de direitos autorais, marcas, patentes ou segredos
comerciais. Restrições razoáveis ​​sobre privacidade, segurança e controle de acesso
podem ser permitidas na forma regulada por estatutos.

A equipe de pesquisa também determinou que o cumprimento desses princípios precisa


ser verificado, e que uma pessoa deve ser designada como responsável pelos detalhes
de contato. Da mesma forma que as três leis, essa lógica de classificação para os dados
também passa a ser aplicada quando o contexto não é de dados do governo (com a
possível exceção do primeiro item na lista, já que aborda os dados de um governo).

Como os dados abertos podem melhorar a


sociedade?
Quando uma autoridade pública decide abrir os dados, isso significa que a sociedade
civil assume uma nova forma de emancipação social. Isso indica que as pessoas que
estão familiarizados com o desenvolvimento de aplicativos, sites e outros softwares
podem usar sua experiência que envolve a natureza pública da informação.

Isso também significa que os cidadãos podem desfrutar de seu direito de controle
social, por terem um acesso mais adequado às demonstrações financeiras, às despesas
mensais do prefeito da sua cidade e aos investimentos feitos com fundos públicos de
seu estado, entre outras situações.

Quando os governos entendem que a transparência e a responsabilidade social são os


ingredientes para os esforços positivos e inteligentes, trabalham para abrir os dados.

A seguir, nós entenderemos, na prática, como esses dados abertos funcionam.

Transparência pública e democracia digital


Com a democratização do acesso a dados digitais e com o vencimento em capacidade
de dados, o que vem acontecendo gradualmente é que muitas pessoas percebem que
podem ser confrontadas com graves “revoluções de dados”.

Projetos políticos, cidadania horizontal, capacitação dos cidadãos e sujeitos do tipo


começaram a existir por grupos que costumavam estar diretamente envolvido com a
política. Hackers, ativistas digitais e todo o público vê a internet como uma ferramenta

96
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

poderosa, e começou-se a prestar mais atenção às questões públicas e à transparência


da democracia digital. Tudo isso graças aos dados.

Histórias como a do WikiLeaks, que vazou centenas de dados sensíveis e informações


de elevado interesse público, foram a chave para abrir a discussão sobre o assunto. Os
atores políticos da Casa Branca e outros influenciadores de todo o mundo começaram
a pensar sobre esse problema crítico, ligado a dados abertos e à transparência, a forma
mais madura.

Evidência desse progresso aqui citado foi a criação da Lei de Acesso à Informação
(LAI), que entrou em vigor no Brasil em 2012. Mais adiante, entenderemos mais sobre
a relação entre dados abertos e a LAI.

Lei no 12.527/2011 e os dados abertos


Também conhecida como LAI, a Lei de Acesso à Informação obriga as agências federais,
estaduais e locais do governo (ministérios, estatais, governos estaduais, autoridades
locais, organismos públicos, autoridades locais) a dar informações sobre suas atividades
a qualquer pessoa que solicitar os dados.

Por exemplo: hoje, você pode procurar a ajuda da Câmara Municipal ou de qualquer
outro órgão público, e solicitar acesso aos dados que são públicos e não atingem a
privacidade de ninguém. Outro exemplo: você pode acessar os dados sobre o valor do
salário que recebe qualquer funcionário público, ou mesmo ver uma despesa de um
órgão real sobre os gastos domésticos. Não há limite para a informação a ser obtida.

É importante também fazer algumas ressalvas. A lei não garante explicitamente que
o órgão envie para os cidadãos os dados públicos em formato aberto; para isso, em
alguns casos, você pode receber um arquivo em PDF ou uma imagem no formato JPG
que exibe as informações solicitadas.

Além disso, nem sempre os órgãos têm disponíveis os dados estruturados e organizados;
todavia, ao solicitar o acesso à informação, é possível fazer o pedido para que ela seja
compartilhada em formato aberto (CSV ou RAW, por exemplo).

Transparência ativa
Uma consequência positiva da Lei de Acesso à Informação é o surgimento de inúmeros
portais de transparência.

97
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

Podemos também chamar essas iniciativas de ativos de transparência ou transparência


ativa, uma vez que, nesses casos, as agências governamentais deixaram uma grande
quantidade de dados disponíveis ao público com antecedência.

A lei solicita aos órgãos, ainda, que os dados sejam publicados, inclusive, em formatos
abertos e não proprietários. Essencialmente, demanda a publicação de dados abertos,
embora não utilize esse termo diretamente.

Se você quiser saber esses portais em prática, visite os links a seguir:

»» Portal Brasileiro de Dados Abertos

›› http://dados.gov.br/

»» Portal da Transparência de São Paulo

›› http://www.transparencia.sp.gov.br/

»» Portal da Transparência da Cidade de Belo Horizonte

›› http://portalpbh.pbh.gov.br/pbh/ecp/comunidade.do?app=aces
soinformacao

»» Portal da Transparência da Controladoria Geral da União

›› http://transparencia.gov.br/

Desenvolvimento político e social por meio dos


dados
Big data, open data e democracia são assuntos que estão relacionados, embora não
sejam tão claros para a maioria das pessoas. Sabemos, agora, que é papel dos órgãos
públicos oferecer transparência em suas gestões e oferecer aos cidadãos acesso não só
às informações, mas também ao contexto variado e sempre atualizado de dados (big
data) públicos.

Os governos são personagens particularmente importantes nesse cenário. Em primeiro


lugar, devido à grande quantidade e centralidade de dados, e, em segundo, pelo fato de
que tais dados são públicos – um direito garantido no Artigo 5o da Constituição Federal
Brasileira.

A importância prática disso é que diversos grupos, indivíduos e organizações podem


se beneficiar por meio da disponibilização de dados. A seguir, apresentaremos alguns
casos que deixam explícito o valor dos dados abertos na mão da sociedade.

98
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

Seis tipos de projetos disruptivos feitos com


dados abertos

Detecção de fraudes e controladoria de gastos


públicos popular

A ferramenta “Para onde foi meu dinheiro?”​, do projeto Gastos Abertos, idealizado pela
Open Knowledge Brasil, está sendo desenvolvida para oferecer uma visualização dos
gastos públicos do Governo Federal e de São Paulo.

Ela expõe e torna acessíveis para toda a população o destino de mais de R$1,5 trilhão que
compõe o orçamento anual autorizado pela União e a execução local dos R$50 bilhões
do orçamento da cidade de São Paulo, beneficiando diretamente toda a população
brasileira.

Governos horizontais

O projeto brasileiro  “Vote na Web”​ faz uso dos dados abertos pelo Senado, pela
Assembleia e demais órgãos. Ele apresenta os projetos de lei que estão para entrar em
votação pelos parlamentares e permite que nós mesmos discutamos os textos.

Alguns deputados já fazem uso da plataforma, a fim de descobrirem o desejo popular da


sociedade antes de tomarem decisões.

Jornalismo

Com o objetivo de evitar as narrativas jornalísticas enviesadas, foi fundado


o “Observatório de Favelas”​. O projeto ajuda a construir outras formas de contar as
mesmas histórias sobre as favelas e as periferias urbanas, desenvolver novas ferramentas
e ensinar coletivamente.

Tudo isso acontece usando diversos tipos de dados abertos.

Games

Idealizado por um grupo de mineiros de Belo Horizonte, o “Política Esporte Clube” tem


como proposta “gamificar” o acompanhamento dos políticos por meio da metáfora do
futebol.

O projeto permite às pessoas criarem times de futebol fictícios com deputados e


senadores. Por meio dos dados abertos das Assembleias e do Senado, é possível saber

99
UNIDADE IV │ CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS

qual deputado está ou não indo trabalhar todos os dias, qual parlamentar está propondo
projetos de lei (e quantos por mês), entre outras questões.

Uso de dados abertos por organizações

»» Lima I/O

Um grupo de jovens peruanos ganhou um evento de hackers com uma


ideia que virou negócio: dados climáticos + arduíno = negócio
sustentável​.

Utilizando dados abertos de órgãos públicos, como mapas e gráficos do


estado do meio ambiente, os desenvolvedores criaram um sistema que
coleta dados de algumas cidades para responder perguntas como:
›› “Quantos microclimas a sua cidade tem?”.
›› “Como está a saúde do meio ambiente da região onde vive?”.
›› “Podemos prever alguma tendência de terremoto?”.

»» Data Viva

Esse não é o caso de uma empresa disponibilizando dados abertos, mas é


uma ferramenta ótima para uso de empreendedores. O Data Viva​ é uma
plataforma que foi criada pelo Governo do Estado de Minas Gerais, a fim
de auxiliar a tomada de decisões estratégicas com base em dados.

O projeto, idealizado por pesquisadores do MIT Media Lab​, permite mais


de 100 mil visualizações de dados e facilita o entendimento dos cenários
econômicos por meio de diversos tipos de informações.

Outros exemplos

»» Husetsweb

Criado na Dinamarca, o Husetswebe tem como propósito ajudar a


encontrar formas de melhorar a eficiência energética das residências.
Ele conta com uma ferramenta de planejamento financeiro e um motor
de busca específica por empreiteiros que possam realizar o trabalho
necessário para economizar mais.

100
CICLO DE VIDA DO PROJETO DE CIÊNCIA DE DADOS │ UNIDADE IV

»» Open Food Facts

Um projeto muito interessante de dados abertos, que foge da esfera da


gestão pública, é o Open Food Facts. Trata-se de um banco de dados
abertos à livre colaboração, sobre informações alimentares de todo o
mundo.

Esse é um projeto que pode, por exemplo, ser utilizado por


desenvolvedores, pesquisadores e organizações que buscam tais tipos
de dados.

101
APLICAÇÕES EM UNIDADE V
BIG DATA

CAPÍTULO 1
Netflix
Texto extraído e interpretado do Portal Gestão da Inovação Simplez:

O uso de inteligência do negócio é um dos principais caminhos para alcançar sucesso nas
estratégias empresariais. E não duvide: o principal insumo para análises que fornecem
informações poderosas para a tomada de decisão assertiva é conhecer o cliente.

Uma empresa que já entendeu a força desse tipo de conhecimento é a Netflix, e hoje ela
“nada de braçada” graças à capacidade de oferecer soluções na medida das expectativas
dos seus clientes. Tem coisa melhor, em uma relação de consumo, do que sermos
surpreendidos por uma empresa que se esforça para se antecipar e nos oferecer algo
que casa exatamente com a nossa necessidade?

Exercitar a empatia e se colocar no lugar do cliente é importante para que sensações


como essa, vividas do lado do consumidor, sejam simuladas pela empresa para que ela
saiba exatamente qual direção tomar e ir ao encontro do seu cliente.

A Netflix é um exemplo emblemático dessa capacidade de encantar o cliente por meio


do profundo conhecimento das suas características, dores, vontades e expectativas. Um
resultado disso é a capacidade de disponibilizar sugestões personalizadas toda vez que
a plataforma é acessada.

Figura 24 – Acesso baseado em perfis da Netflix

Fonte: NETFLIX (2018).

102
APLICAÇÕES EM BIG DATA │ UNIDADE V

A cada escolha, o site “aprende” um pouco mais sobre o perfil do usuário e vai
enriquecendo sua base de dados para que uma inteligência de análise de informações
apresente cada vez mais opções acertadas.

Chegar a esse ponto não é fácil, mas, com técnicas e ferramentas de inteligência
competitiva, é possível combinar informações relevantes sobre a experiência do cliente
e transformá-las em motores de transformação das estratégias do negócio. Isso tudo
que estamos falando é a inteligência do negócio!

Saber se alimentar de dados do cliente para direcionar seu foco de atuação é uma
estratégia que precisa, necessariamente, contar com o apoio de tecnologias. Hoje, o que
não falta são opções de ferramentas capazes de coletar, triturar e combinar dados que
geram análises confiáveis de determinado contexto.

Estamos falando das soluções de Business Intelligence (BI), big data, fast data, data
fusion, inteligência artificial e computação cognitiva. Com características e aplicações
específicas, em comum elas têm o fato de terem como insumo dados extraídos de
interações de usuários em diversos ambientes virtuais.

Quando combinadas, essas tecnologias passam a oferecer instrumentos de gestão


incrivelmente eficientes, que permitem ter uma verdadeira fotografia sobre o
comportamento e a propensão de consumo dos clientes.

A inteligência dessas tecnologias é montada sobre algoritmos complexos, construídos


a partir de variáveis como, no caso do Netflix, tags relacionadas ao gênero do filme,
características da obra (época de gravação, personagens, elenco, trilha sonora) e
histórico de últimos acessos do usuário.

Este é o “pulo do gato” da estratégia: todo comportamento do usuário é capturado.


Leu sinopses e desistiu de assistir ao programa completo? Acessou muitas sinopses
de comédia ou de drama? Quantos seriados acompanha? Qual a avaliação dada na
dinâmica de rating de estrelas?

Nenhum clique escapa aos “olhos” da plataforma porque é ele que retroalimenta a
estratégia de oferta assertiva de conteúdo conforme o perfil do cliente. A nova série da
Netflix, Stranger Things, propõe referências a extraterrestres e clássicos que sempre
conquistaram o público. E aí fica uma questão: de onde saem as ideias para produzir
algo tão oneroso e saber que esse tipo de produto irá agradar ao público?

Organizações inovadoras como a Netflix “não dão ponto sem nó” e, com toda a certeza,
utilizam das tecnologias citadas para estruturar temas e roteiros com tendência de
viralizar e se tornar conhecidos e até ovacionados no mundo inteiro.

103
UNIDADE V │ APLICAÇÕES EM BIG DATA

Para construir os roteiros de Stranger Things, por exemplo, o público-alvo foi


minuciosamente mapeado e, com isso, foi possível colocar, no mesmo cesto, diversas
referências que agradam à audiência.

Essa é a fórmula de sucesso de iniciativas de organizações como a Netflix e também


o Facebook — outro exemplo expressivo de como otimizar o negócio a partir do
conhecimento do cliente. Graças a essa capacidade, a rede social se tornou a maior
plataforma colaborativa do mundo.

A chamada timeline (linha do tempo) de cada usuário no Facebook é composta de


publicações (ou posts) que “coincidem” com o interesse do usuário. Na mesma linha
do algoritmo da Netflix, a programação é baseada no comportamento que o próprio
integrante da rede manifesta.

O ato de curtir e seguir perfis, de escolher quais perfis deseja ver primeiro, de determinar
que tipo de postagens mais replica e de elencar palavras-chave que definem seu estilo
de publicação fornece informações preciosas. Tudo (tudo mesmo!) faz parte da rica
combinação de dados sobre o cliente.

Tudo isso que está sendo falado nada mais é do que o rastro digital que todos deixamos
em nossas interações em ambientes virtuais. Essas pegadas são o mapa do tesouro para
as organizações que pretendem ser competitivas e se tornar a primeira na lembrança do
cliente quando perguntado sobre determinado nicho de atuação.

Você já conhece o poder da pegada digital deixada pelo seu cliente?

Em um mercado cada vez mais competitivo, conhecimento do cliente é fundamental.


Ter um mapa de todas as pegadas deixadas por ele na interação com a empresa, com a
concorrência e até em sua vida particular, especialmente nas redes sociais, é condição
para manter a clientela atual, conquistar novos clientes e fidelizar todos.

A tão aclamada inteligência de mercado é uma ferramenta muito eficiente para capturar
tendências de consumo a partir de pistas deixadas pelo cliente em suas trajetórias.
Além disso, ela também combina a visão da concorrência e de outras forças externas ao
negócio. Com ela é possível antecipar movimentos e se preparar para enfrentar ameaças
e desafios que estão por vir.

Aproveitar ao máximo a força do entendimento do perfil do cliente e das nuances do


mercado é uma forma de fornecer às organizações uma base de conhecimentos que
subsidiará as melhores decisões e norteará os melhores direcionamentos para o sucesso
do negócio.

104
APLICAÇÕES EM BIG DATA │ UNIDADE V

Ser proativo e direcionar assertivamente produtos, serviços e também estratégias de


comunicação e marketing são uma vantagem competitiva que só as organizações que
adotam as técnicas de inteligência do negócio podem ter.

Com todos esses adventos, surge um novo CRM (Customer Relationship Menagement,
ou gestão do relacionamento com o cliente), muito mais ágil, certeiro, adaptável e com
potencial de ofertar ao cliente o que ele deseja, no momento e nos canais certos. Com
esse novo modelo de gestão da carteira de clientes, a árdua tarefa de acertar o alvo
passa a ter muito mais condições de obter sucesso.

A lição que fica é que inovar, como fazem Netflix e Facebook, é extrair das tecnologias
todos os benefícios possíveis para otimizar as estratégias de negócio. A partir daí,
conseguir oferecer ao cliente experiências memoráveis, que o encantam e o fidelizam,
será bem mais simples. Depois é só colher os frutos dessa “grande sacada”!

105
CAPÍTULO 2
AirBnB

Texto extraído e interpretado do Portal Melhores Destinos:

O Airbnb é uma plataforma de aluguel de acomodações ao redor do mundo. Presente


em 190 países e em mais de 34 mil cidades, conta atualmente com mais de 2 milhões
de acomodações e acumula 60 milhões de hóspedes, em números que aumentam todos
os meses. É possível ofertar ou procurar desde apartamentos por uma noite, castelos
por uma semana ou um condomínios por um mês, com preços e opções para quase
todos os bolsos e gostos. O Airbnb tem regras rígidas de funcionamento e um serviço de
atendimento ao consumidor de nível internacional.

O Airbnb existe desde 2008 e vem ajudando muitos viajantes a economizar, por se tratar
de uma opção, no geral, mais barata que os hotéis, apesar de existirem acomodações e
experiências exclusivas, como por exemplo casas-barco, chalés de montanha, casas de
árvore ou até mesmo carruagens ciganas.

Figura 25 – Tela de busca do Airbnb

Fonte: AIRBNB (2018).

Porém, para conseguir essa evolução que se tem diariamente, é necessário ter feedback
de como o negócio é desenvolvimento; esse feedback se dá por meio dos comentários,
que são extremamente importantes!

No geral, os anúncios descrevem bem as hospedagens, as condições e as regras gerais do


imóvel que você está interessado. A grande maioria dos anúncios é ricamente ilustrada
com fotos muitas vezes produzidas por fotógrafos profissionais. Mas há algo que não

106
APLICAÇÕES EM BIG DATA │ UNIDADE V

podemos esquecer: esses anúncios são escritos por pessoas que estão interessadas em
ter você como hóspede, e em alguns casos, alguns “detalhes” importantes podem não
receber o merecido destaque. Como exemplo dessa situação, posso citar que muitos
prédios em Paris não possuem elevador e muitos apartamentos para locação no site
ficam no 5o ou 6o andar (as vezes até mais alto) e subir escadas estreitas com malas
pesadas pode ser uma péssima ideia.

E como o Airbnb faz o tratamento dos dados?

Tudo parte do princípio planejamento!

A preparação para uma viagem exige planejamento. Saber do clima, arrumar as malas
com roupas adequadas, roteiro do que visitar, quantos dias pretende ficar… Barcelona
ou Aracaju? Berlim ou Nova Iorque?

Viagens são o melhor exemplo de como utilizamos a análise de dados diretamente na


nossa vida, levantando probabilidades e tirando daí previsões.

E é claro que nós não somos os únicos que fazemos isso. A análise inteligente de dados
é o segredo de uma das organizações mais inovadoras quando o assunto é viajar: o
Airbnb!

A plataforma, que recebeu seu nome a partir da expressão em inglês “Air Bed and
Breakfast”, faz o intermédio entre hóspedes e anfitriões do mundo todo utilizando big
data para transformar a estada do viajante numa experiência prazerosa e confiável.
Afinal, escolher qual a melhor localização e acomodação no seu passeio talvez seja um
dos principais motivos de sucesso da sua experiência em outra cidade.

Utilizando algoritmos para a realização do cruzamento de datas, checkins, checkouts


e número de hóspedes, o trabalho de big data analytics permite que o Airbnb faça
previsões das épocas mais procuradas, sugerindo melhores preços e prevendo períodos
que vão “bombar” na plataforma.

Com esse tipo de análise, o site transforma dados em respostas para perguntas como:
Qual a melhor data para viajar? Quando poderei pagar mais barato pela hospedagem?
Onde ficar? Quando é mais vantajoso para um anfitrião oferecer o seu imóvel para
aluguel?

Tudo isso porque a plataforma permite o acompanhamento em tempo real dos


calendários de hospedagem, datas suscetíveis e possíveis preços para hóspedes e
anfitriões em diversas localidades. Um estudo interno da empresa indica que, caso o

107
UNIDADE V │ APLICAÇÕES EM BIG DATA

anfitrião aceite a sugestão de valores da empresa, a possibilidade de alugar o seu espaço


cresce em quatro vezes.

Com todos esses dados obtidos, processados e analisados com ferramentas de big data
analytics, o Airbnb consegue, por exemplo, analisar o histórico do hóspede, seus tipos
de imóveis e bairros preferidos, e confrontá-lo com diversos perfis de locatários até
encontrar a combinação mais fácil e eficiente possível.

Mas os especialistas do Airbnb também deixam claro que, por trás de cada viagem, há
um tipo de pessoa diferente, que viaja com uma motivação específica e, do outro lado,
encontra outro indivíduo, que cede a sua casa como hospedagem também por motivos
únicos. Para eles, é preciso levar em consideração a interação humana. Ela é a cereja
do bolo.

Levando em consideração que duas viagens nunca são idênticas, o Airbnb ainda utiliza
a análise de dados para entender todas as possíveis variáveis do processo, como um
mesmo anfitrião ou viajante que dá votos diferentes para períodos semelhantes ou com
os mesmos números de hóspedes.

Para tentar minimizar esse ruído de comunicação entre quem procura o serviço e
quem hospeda, a empresa utiliza uma filtragem colaborativa, multiplicando as diversas
respostas para um mesmo tipo de viagem e filtrando os padrões.

Dá mais trabalho, mas garante que o que os problemas que não podem ser 100%
previstos – por conta da interação humana e humores diversos dos viajantes – podem,
pelo menos, ser reduzidos.

“Avaliamos a experiência de olhar para várias métricas (…) tivemos uma elevação
de 3,75% em nossa conversão de reserva e um aumento significativo no número de
partidas bem-sucedidas entre hóspedes e anfitriões”, diz Bar Ifrach, cientista de dados
do Airbnb em São Francisco (BigData Business, 2018).

108
CAPÍTULO 3
BI e Educação

Quando pensamos em processar dados vindos de fontes de dados educacionais,


estamos pensando em minerações educacionais. As técnicas de mineração de dados
foram desenvolvidas há muitos anos para ser aplicadas a áreas de marketing, vendas e
apoio financeiro (FAYYAD et al., 1996; WITTEN et al., 2011) e, mais recentemente, vem
sendo aplicada na área educacional (BAKER, 2011).

Romero, Ventura e García (2008) afirmam que, na EAD, a quantidade de


armazenamento de dados vem crescendo, e isso se deve às interações como acessos
a fóruns, perguntas e respostas na área de questionários e comunicação entre
participantes. Diante dessas atividades, um grande volume de dados é desenvolvido,
dificultando uma análise de forma manual.

Na área de educação, Zorrilla et al. (2005) apontam que essas técnicas podem ser
aplicadas para diferentes atores, que são os professores, os estudantes e os gestores,
cada um tendo suas características e pontos de vista próprios.

Na educação, cada ator possui uma função específica dentro do contexto em que está
inserido; isso não se difere na EAD, pois são responsáveis por projetar, planejar,
criar e manter o sistema educacional como um todo, a fim de que o resultado final
seja que o estudante possa interagir com o sistema. E, baseadas nessas interações dos
estudantes, são aplicadas as técnicas de mineração de dados, que têm o objetivo de
descobrir informações úteis para os gestores e professores, e também para os próprios
estudantes. Para entender as funções dos atores, veja a figura 26 a seguir.

Figura 26 – O ciclo de aplicação de mineração de dados em sistemas educacionais

Projetar, planejar, Usar, interagir,


Sistemas educacionais participar e
construir e manter
(sistemas tradicionais, comunicar
e-learning, sistemas tutores
inteligentes, sistemas
baseados em web)

Dados de uso e
interação,
informações dos
Gestores, professores e cursos, dados Estudante
educadores acadêmicos

Data mining (cluster,


previsão, relacionamento, Exibir
Exibir conhecimento descoberta com modelos, recomendações
descoberto mineração web)

Fonte: adaptado de Romero; Ventura, 2007.

109
UNIDADE V │ APLICAÇÕES EM BIG DATA

Romero e Ventura (2007) destacam que muitas técnicas foram abordadas como solução
para este cenário educacional. Mas, entre as técnicas mais usadas, são destacadas as que
têm a finalidade de classificação. Assim, na próxima seção, serão abordadas algumas
técnicas que fazem parte desse conjunto de solução.

Apesar de existirem alguns eventos relacionados à área, foi apenas em 2005, em


Pittsburgh, EUA, que foi organizado o primeiro Workshop on Educational Data
Mining. A partir dessa data, houve mais eventos relacionados e, em 2008, foi lançada,
em Montreal, Canadá, a primeira conferência em Mineração de Dados Educacionais
(EDM): First International Conference on Educational Data Mining, evento que
ganhou regularidade de realização anual, tendo sua sétima edição em 2014. Foi no ano
de 2009 que a sociedade científica investiu na criação de um periódico e publicou o
seu primeiro volume do Journal of Educational Data Mining (JEDM). Diante desse
cenário, a área de MDE está bem consolidada internacionalmente, porém no Brasil, está
em desenvolvimento, buscando recursos a fim de consolidar e promover mais eventos
relacionados, no intuito de gerar mais pesquisas na área (GOLDSCHMIDT, 2015).

Para Baker (2011), em grande parte, as técnicas utilizadas na área são as mesmas de
mineração de dados, porém, na maioria das vezes, é necessário adaptá-las, devido às
particularidades dos projetos e dos dados.

Aplicações de MDE
Romero e Ventura (2007) afirmam que, em geral, as aplicações de MDE procuram
abordar diversas questões na área da Educação, a fim de descobrir novos conhecimentos
que permitam a melhor compreensão entre as experiências dos alunos e do processo
ensino-aprendizagem.

Segundo Goldschmidth (2015), embora pareça que os envolvidos com a MDE


sejam estritamente estudantes e instrutores, existem outros grupos de usuários e/
ou participantes com diferentes visões e interesses no processo, como por exemplo:
pesquisadores, conteudistas, gestores e administradores. Especificamente para o grupo
de estudantes, um conjunto de exemplos de aplicações é apresentado na quadro 6.

Quadro 6 – Grupo de interesse na MDE

Grupo Exemplos de aplicações em MDE


Estudantes Personalização de ambientes
Identificação de estratégias de aprendizado
Recomendações de recursos de apoio
Sugestão de tarefas de reforço
Identificação e tratamento de lacunas de aprendizado
Fonte: adaptado Goldschmidt, 2015.

110
APLICAÇÕES EM BIG DATA │ UNIDADE V

De uma forma geral, as aplicações de MDE podem ser agrupadas segundo o


público-alvo, e os parâmetros necessários, bem como as abordagens utilizadas para
a mineração, dependem das inúmeras escolhas que podem ser feitas diante de tão vastas
opções. Para aplicações focadas nos alunos, a teoria da interação desenvolvida por Moore
(1989) apresenta inúmeros parâmetros que podem ser avaliados a fim de caracterizar o
perfil do aluno, bem como sua performance dentro do ambiente educacional.

Técnicas de mineração
Diversas abordagem e algoritmos podem ser explorados para serem utilizados como
técnica de mineração de dados. Podem-se utilizar algoritmos como: regressão linear,
redes neurais, máquinas de vetores de suporte e árvores de decisão. Romero et al.
(2008b) salientam que, entre os diversos métodos de classificação, destacam-se as
árvores de decisão e as redes neurais, sendo que as árvores de decisão abordam um
conjunto de dados e uma classificação seguindo um caminho que satisfaça as condições,
que se inicia pela raiz e vai até a folha da árvore. Já redes neurais trata-se de um
paradigma computacional que se baseia em um funcionamento de estruturas corticais
do cérebro humano. Essa técnica contém conexões de elementos chamados de nós, ou
neurônios, que trabalham em conjunto para produzir uma função de saída (WITTEN
et al., 2011).

Árvore de decisão

Árvore de decisão é uma técnica de aprendizado de máquina que aborda uma estrutura
de árvore para avaliar os atributos. A árvore possui vários nós, sendo que cada nó
corresponde a um teste realizado por uma dada entrada. A ligação entre um nó e outro
é chamada de ramo, e o último nó, que não tem mais ligação, é chamado de folha, que
é o retorno da árvore (QUINLAN, 1993).

As árvores de decisão geralmente resultam em árvores de grandes dimensões,


tornando-as complexas e comprometendo o seu desempenho. Na busca de otimização
das árvores, utiliza-se a poda, que é considerada uma parte decisiva na construção,
pois limita as dimensões da árvore, removendo partes que não contribuem para uma
classificação mais precisa (GARCIA, 2003).

Para ilustrar uma árvore de decisão, a figura 27 mostra a estrutura de uma árvore.
Em cada nó existe um teste e, ao chegar até a folha, é retornada uma resposta para a
classificação. No caso proposto deste trabalho, as respostas da árvore são as opções da
classe de entrada no classificador.

111
UNIDADE V │ APLICAÇÕES EM BIG DATA

Figura 27 – Estrutura de uma árvore de decisão

Fonte: Rolim, 2014.

Serão abordados dois modelos de árvore de decisão, o J48 e o random forest, que serve
de parâmetro para decidir qual método tem as melhores taxas de acerto.

Árvore de decisão tem sido largamente utilizada nos trabalhos de mineração de dados
educacionais (WANG, 2009). Por esse motivo valorizamos o detalhamento dos dois
principais algoritmos que envolvem os estudos com árvore de decisão, são eles o J48 e
o random forest.

Algoritmo C4.5 (J48)


O algoritmo J48 surgiu diante da necessidade de recodificar o algoritmo C4.5 para
ferramenta Weka Experiment Environment (WEE), em que o C4.5 foi escrito na
linguagem C, transcrito para a linguagem Java e nomeado como J48 (WITTEN et al.,
2005). Com a finalidade de gerar uma árvore de decisão que possui um conjunto de
treinamento de dados, esse modelo é usado para classificar as instâncias no conjunto
de teste.

A utilização do algoritmo J48 tem o foco em aplicações em mineração de dados, em que


o processo é adequado para envolvimentos de variáveis (dados) qualitativas contínuas
e discretas presentes nas bases de dados. O algoritmo J48 foi proposto por Quinlan
(1993) e é considerado o algoritmo que apresenta o melhor resultado de árvores de
decisão, a partir de um conjunto de dados de treinamento. E, para critério a avaliação,
o objetivo de usar um algoritmo como esse é poder comparar a percentagem de acerto
ou acurácia com outros algoritmos avaliados.

112
APLICAÇÕES EM BIG DATA │ UNIDADE V

Figura 28 – Pseudocódigo do algoritmo C4.5 (WITTEN; FRANK, 2005)

Algoritmo C4.5
- repetir várias vezes (aproximadamente 10)
CONSTRUIR
Escolher conjunto de trabalho do conjunto de treinamento
REPETIR
formar árvore para conjunto de trabalho
SE critério de parada satisfeito
escolher melhor classe
SENÃO
escolher melhor teste de atributo
dividir conjunto de treinamento em concordância formar árvore nos subconjuntos
testar no resto do conjunto de treinamento adicionar itens mal classificados ao conjunto de treinamento ATÉ não haver melhorias
PODAR
ENQUANTO a árvore de decisão contiver sub-árvores complexas e com pouco benefício Substituir sub-árvores por folhas
- selecionar a árvore podada mais promissoras

Para a montagem da árvore de decisão, o J48 utiliza a abordagem de dividir para


conquistar, segundo a qual o problema complexo é fracionado em subproblemas mais
simples, e assim aplicando essa mesma estratégia a cada subproblema, dividindo o
espaço definido pelos atributos em subespaços, associando a eles uma classe (WITTEN;
FRANK, 2005).

Os caminhos seguidos para criação da árvore foram com base na entropia e no ganho,
os quais definem a escolha do melhor atributo. A entropia de um nó de uma árvore é
dada pela equação a seguir.
m
EntropiaEsperada = ∑ pi log 2 ( pi )
i =1

Na equação, pi é igual à proporção da classe i, no nó, i=1,2,...,m, em que m é o número


de categorias da variável-alvo.

Pode-se também medir a entropia real de uma determinada variável A. Para esse
cálculo, usa-se a equação a seguir.
v s y +…+ smj
EntropiaReal ( A ) = ∑ EntropiaEsperada
j =1 s

Na equação acima, Sij representa os subconjuntos (quantidade de registros) da amostra


S (o número total de registros), em que j=1,...,v, corresponde às categorias da variável
de entrada. O ganho de informação (A) para um ramo da variável A pode ser encontrado
pela diferença entre a entropia esperada e a entropia real, e resultando em um valor que
permite uma redução da entropia causada pelo valor da variável A. O algoritmo C4.5 e
suas derivações mais recentes, como o J48, possuem uma otimização com a criação de
novos critérios para seleção, em que a normalização é feita sobre o ganho da informação
para ajudar testes com muitas saídas.

113
UNIDADE V │ APLICAÇÕES EM BIG DATA

Algoritmo random forest


Um Random Forest (RF) é um classificador formado por uma coleção de árvores de
decisão, em que cada uma é construída a partir de uma reamostra aleatória do conjunto
de treinamento original (BREIMAN, 2001).

A classificação de um vetor de características x é feita por votação, submetendo-se


o vetor às árvores da floresta e atribuindo-se a x a classe mais votada. É sabido
que algoritmos de árvores de classificação são instáveis em relação ao conjunto de
treinamento, no sentido de que perturbações nos atributos de entrada ou a inclusão
de novos exemplos podem resultar em árvores consideravelmente diferentes, com
diferentes erros classificação (BRIAND et al. 2009).

As RFs são obtidas por meio de bootstrapping aggregating (ou simplesmente bagging),
um método utilizado para gerar múltiplas versões de um preditor (BREIMAN, 1996).
Tais versões são construídas a partir de reamostras do conjunto original, obtidas via
sorteio simples com reposição.

Apresentamos a seguir a notação sugerida por Breiman (2001). Um conjunto de


treinamento é denotado por L = {(xn,yn), n = 1,2,...,N}, em que N é a quantidade de
exemplos, xn é o vetor de atributos, e yn {1,2,...,C} é a classe verdadeira do n-ésimo
exemplo. Os atributos são indexados por m = 1,2,...,M, e assim o vetor de atributos do
n-ésimo exemplo é denotado por xn = (xn,1,xn,2,...,xn,M).

Denote por ψ (x,L) um preditor para a classe de x construído a partir do conjunto de


treinamento L. Suponha que exista uma sequência finita de conjuntos de treinamento
{L(s)},s = 1,2,...,S, cada um consistindo de N observações independentes provenientes
da mesma distribuição subjacente ao conjunto L. A ideia central é usar {L(s)} para obter
um preditor melhor do que o preditor simples ψ (x,L), tendo como restrição utilizar
apenas a sequência de preditores ψ (x,L(s)). Indexando-se as classes por c = 1,2,...,C,
um método de agregar os preditores ψ (x,L(s)) é por meio de votação, escolhendo
para x a classe mais votada entre os preditores. Formalmente, denotando por
Nc = |{s ∈ {1...S} : ψ (x,L(s)) = c}| o número de “votos” na classe c, o classificador agregado
pode ser definido por ψA(x) = argmaxcNc. O subscrito A em ψA denota agregação.

A obtenção de {L(s)},s = 1,2,...,S é feita tomando-se reamostras bootstrap de L, via


sorteio com repetição, cada qual de tamanho N. Na formulação das RFs propostas por
Breiman (2001), o algoritmo básico de construção das árvores é o CART (classification
and regression trees) (BREIMAN et al., 1996).

As árvores são expandidas ao máximo, sem poda. Para a divisão de cada nó, um
subconjunto de tamanho fixo dos atributos de entrada é selecionado aleatoriamente,
escolhendo-se a divisão ótima dentro desse subconjunto.

114
CARREIRAS EM
CIÊNCIA DE UNIDADE VI
DADOS

CAPÍTULO 1
Profissional de Ciência de Dados

O pensamento é único: “Eu me formei, e agora?”. Esperando para quebrar o mundo


de dados científicos e não sabe por onde começar? A ideia deste capítulo é mostrar
maneiras de ajudar um cientista dos dados e tem objetivo de que a apresentação inicial
seja feita.

Com base no material que temos visto até agora, você viu a escala de atividades que um
cientista de dados pode exercer, mas eles vêm com conceitos de fixação.

Os cientistas de dados têm uma nova geração de especialistas analíticos que têm as
habilidades técnicas para resolver problemas complexos e a curiosidade para explorar
os problemas que precisa resolver.

Eles também são um sinal dos tempos modernos. Cientistas de dados não estavam no
radar na década passada, mas sua popularidade repentina reflete como as organizações
hoje pensam big data. Essa massa incrível de informação não estruturada já não pode
ser mais ignorada e esquecida. É uma mina de ouro virtual que ajuda a aumentar a
receita – desde que haja alguém que cava informações de negócios empresariais que
ninguém tinha pensado em olhar. Aí vem o cientista de dados e faz.

Para a comunidade em geral, um cientista de dados é um desses “magos de dados” que


pode capturar as massas de dados de várias fontes e, em seguida, limpá-los, discuti-los,
organizá-los e prepará-los; e, em seguida, explorar as suas habilidades em Matemática,
Estatística e Machine Learning para descobrir informações de negócios escondidas e
gerar inteligência.

Os dados utilizados por um cientista de dados podem ser tanto estruturados (banco de
dados transacional ou sistemas de ERP ou CRM, por exemplo) quanto não estruturados
(dados de e-mail, imagens, vídeo ou redes sociais). O cientista de dados cria algoritmos

115
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS

para extrair esses insights de dados. Então cabe a ele apresentar essa informação para
que os tomadores de decisão possam usar os resultados da análise para definir as
estratégias de negócios ou mesmo para criar novos produtos ou serviços com base nos
dados.

De acordo com Anjul Bhambhri, o ex-vice-presidente da IBM Big Data e atual


vice-presidente da Adobe, o cientista de dados é o profissional que pode trazer a
mudança para uma organização por meio da análise de diversas fontes de dados (W3B,
2018). Anjul Bhambhri escreve:

Um cientista de dados é uma evolução do papel do analista de negócios ou


um analista de dados. Esses profissionais têm uma base sólida geralmente
em ciência da computação, aplicações, modelagem, estatísticas, análises e
matemática.

O que o define de cientista de dados é uma forte visão de negócio,


juntamente com a capacidade de comunicar os resultados, tanto para os
líderes de negócios quanto para seus pares, de uma maneira que afeta a
forma como uma organização está posicionado em frente dos desafios do
mercado.

Não há treinamento para preparar os cientistas de dados, porque é uma profissão


relativamente nova. Tem havido muito debate sobre isso no mundo acadêmico
(particularmente nos EUA), pois o mercado tem necessidades profissionais, e o período
de preparação de um profissional como essas habilidades leva algum tempo. Assim, a
formação técnica em certas áreas pode ajudar a preparar esses profissionais.

Com tanta informação sobre a profissão de cientista de dados, uma onda crescente
vem ganhando destaque de forma exponencial nos últimos anos, e é fácil se perder
na frente de tantos artigos e materiais com fórmulas mágicas sobre qual caminho a
percorrer. Vou fazer uma advertência: não há nenhuma maneira fácil de se tornar um
cientista de dados! Temos de estudar, aprender técnicas diferentes e ter conhecimento
interdisciplinar. Por essa razão, os cientistas de dados são muito bem pagos e difíceis
de encontrar no mercado.

A Data Science Academy anunciou oito etapas interessantes a serem considerada para
a preparação de um cientista de dados (E-SETORIAL, 2018). Essas oito etapas estão
descritas a seguir.

116
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI

Passo 1: faça uma autoavaliação


Este é o primeiro passo, e eu acho que é crítico. Você, como um profissional, precisa
avaliar o atual momento em sua carreira e como você quer estar em 5 ou 10 anos. Se você
está planejando seguir uma carreira em analytics, como cientista de dados, engenheiro
ou analista de dados, você precisa conhecer suas habilidades atuais, aonde você quer
chegar, avaliar os gaps e elaborar um plano de ação.

Partindo do fato de que há formação acadêmica específica para se tornar um cientista


de dados, esse profissional pode vir de áreas como estatística ou ciência da computação,
sendo comum encontrar profissionais de outras áreas atuando como cientistas de dados
(Marketing, Economia, Ciências Sociais etc.). Mas, independentemente da área de
formação, algumas características são comuns a todos os profissionais que trabalham
com ciência de dados. Essas características desejáveis encontram-se descritas a seguir.

Programação – o conhecimento em programação acaba sendo obrigatório nessa


área. Linguagens de programação, tais como R, Python, Julia, Scala e Java, fazem
parte do arsenal de ferramentas usadas nos Data Science. Até mesmo outros pacotes
de análise de dados, tais como SAS, Matlab, Octave, SPSS e IBM Watson Analytics,
requerem conhecimento de programação, a fim de tirar o melhor proveito de cada
ferramenta. É a habilidade de programação que permite que o cientista de dados
pratique suas respostas, evidenciando a criatividade e extraindo dados de perguntas
que ainda não foram feitas. Se você já tem um conhecimento de programação, é uma
grande vantagem. Se você não tem nenhuma experiência em programação, mas tem
um bom conhecimento dos conceitos envolvidos na programação de computadores,
isso vai ajudar muito. Sempre é necessário avaliar o seu nível de conhecimento de
programação e ir se atualizando sempre.

Pensamento lógico – cientistas de dados usam o raciocínio lógico para fazer análise.
Programação requer lógica. Se você já tem essa capacidade, isso irá acelerar o seu
aprendizado em dados científicos.

Habilidades com números – a matemática é a base para ciência de dados.


Programação de computadores envolve habilidade com números. Os algoritmos de
aprendizado de máquina são baseados em conceitos matemáticos. A estatística é uma
parte fundamental da ciência de dados, e é essencial a habilidade com números. Avalie
sempre suas características e faça autoavaliação.

Conhecimento em banco de dados – várias fases do processo de análise de dados


requerem a interação com as bases de dados, tais como banco de dados relacionais, data
warehouses, banco de dados NoSQL, Hadoop, linguagem SQL. Todas essas tecnologias

117
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS

estão diretamente relacionadas com o trabalho do cientista de dados, e pelo menos


sua compreensão será um ponto que pode fazer a diferença. Avalie se você entende o
conceito básico de dados, entende as diferenças entre bancos de dados relacionais e
NoSQL, e se sabe usar SQL para consultar.

Neste ponto, você já pode perguntar: “Como é que você quer que eu aprenda tudo
isso?”. Aí vem um dos conceitos mal compreendidos dos dados do cientista profissão:
acredita-se que esse profissional tem de saber todos os instrumentos. Isso não é
verdade e nem mesmo necessário. Escolha as suas ferramentas e especialize-se neles.
Por exemplo, o conhecimento da linguagem R e Hadoop permitirá fazer análises de
grandes volumes de dados (big data). Você não precisa saber qualquer linguagem de
programação e não tem de conhecer todos os bancos de dados. O mais importante é o
pensamento lógico; esse, sim, é essencial (e essa habilidade você já tem). A tecnologia
oferece ferramentas, e nenhuma delas resolve sozinha 100% dos problemas, porque,
como todo mundo, elas têm as suas limitações.

A partir dessa autoavaliação, você pode entender o seu atual nível de conhecimento e
começar a pensar sobre o plano de ação!

Passo 2: prepare seu computador


Exatamente isso! Preparar o ambiente! Essa é a fase em que se prepara o ambiente
de teste e não deve ser subestimada. Pode ser frustrante, durante o seu processo de
aprendizagem, dar-se conta de que seus equipamentos não estão ideais para instalar
software ou executar tarefas que exigem poder de computação. Mas um passo necessário
é analisar e verificar os requisitos do software para o pleno funcionamento.

Ciência de Dados é algo que exige muito (mentalmente e computacionalmente) do


hardware de forma intensiva (isso não deve ser novidade para você!). Portanto, você
precisa de um computador que lhe permita processar seus scripts e aprender mais sobre
análise de dados. Além disso, você precisará instalar ferramentas, interpretadores,
pacote Office etc. Para trabalhar com Ciência de Dados, um computador com 8 GB de
RAM e processador i5 ou i7 Intel ou equivalente é a recomendação adequada. É claro
que, quanto maior a capacidade do seu computador, melhor! Você também pode usar
serviços como cloud9 ou Amazon AWS e montar um ambiente de trabalho virtual.

Sistema Operacional (SO) – a decisão por qual sistema operacional usar é muito
pessoal, vai muito de acordo com sua experiência de SO. No entanto, uma coisa é certa:
um dos três principais sistemas operacionais (Windows, Mac OS ou Linux) irá atender

118
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI

às suas necessidades. Em qualquer caso, você pode instalar máquinas virtuais com
outros sistemas operacionais.

Grande parte do framework de Ciência de Dados e big data foi construído sobre a
plataforma Unix. Para um servidor Hadoop ou Spark, um servidor Linux é a melhor
recomendação, devido à compatibilidade e à validação. Quanto à parte da apresentação
de dados (mostrar os resultados), Microsoft Office e outras ferramentas de visualização
dependem do sistema Windows. Não existe uma regra, mas, para usuários mais
avançados, recomendamos um sistema Unix. Para aqueles que se sentem mais
confortáveis ​​com o Windows, não há nenhum problema. Caso escolha usar o Windows
como sistema operacional, pode ser possível criar uma máquina virtual com o Linux, se
você quiser processar arquivos com Hadoop e/ou Spark ou realizar outros testes.

Os principais fornecedores do Hadoop (Cloudera, Hortownworks e MapR) fornecem


máquinas virtuais gratuitas com Linux e Hadoop, prontas para uso em apenas alguns
cliques. Já o Microsoft Azure Machine Learning pode ser usado via web (on-line). Você
também pode baixar o SAS University Edition, que é uma máquina virtual com Linux
e SAS e que possui a praticidade de, em poucos segundos, permitir que você use o SAS
(atualmente uma das principais soluções do Google Analytics) para a seu aprendizado,
sendo totalmente gratuito.

Software – independentemente da linguagem de programação que você escolher,


você deve instalar o interpretador e a IDE para utilização. Se a sua escolha é o R, por
exemplo, além de instalar a linguagem, você pode instalar o R Studio. O mesmo se
aplica a outras linguagens de programação. Você pode criar seus próprios scripts de
Ciência de Dados 100% on-line, por meio do navegador, usando o Jupyter Notebook.
Uma dica importante: você nem sempre terá as ferramentas on-line, assim é necessário
que sejam instaladas ferramentas localmente no computador, trazendo mais opções e
benefícios para você. É interessante que você instale:

»» editor de texto: Sublime, Atom, Notepad++;

»» software para a máquina virtual: VirtualBox;

»» git e github: criar o seu próprio portfólio em Ciência de Dados;

»» pacote Office: Microsoft Office e o LibreOffice.

Com exceção do Microsoft Office, todos as outras ferramentas são gratuitas.

119
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS

Passo 3: Matemática e Estatística


Habilidades em Estatística e Matemática são partes fundamentais do pacote essencial
para quem quer trabalhar como um cientista de dados. Modelos estatísticos e
algoritmos de aprendizagem de máquina dependem totalmente do conhecimento em
regressão linear, regressão múltipla, clustering, Álgebra Linear etc. E surge a dúvida:
“Precisa ser um especialista em Estatística ou Matemática ou até mesmo ter feito uma
graduação nessas áreas?”. A resposta é não! Apesar de essas áreas permitirem uma
compreensão mais completa, você pode aprender esses conceitos e aplicá-los durante a
sua aprendizagem em Ciência dos Dados. Não é necessário aprender todas as questões
relacionadas com Estatísticas ou Matemática.

Há muitas maneiras de aprender os conceitos de Estatística e Matemática Aplicada,


e isso leva um determinado tempo. Para qualquer aspirante a cientista de dados, a
recomendação é aprender Estatística codificando, de preferência em Python ou R, de
modo a ser capaz de aplicar imediatamente um conceito aprendido. Nada substitui uma
licenciatura em Estatística ou Matemática, obviamente, porém você pode aprender os
conceitos que serão utilizados no seu dia a dia em Ciência de Dados e a aplicação desses
conceitos por meio de uma linguagem de programação. Lembre-se: Ciência de Dados é
um campo multidisciplinar.

Passo 4: big data


Big data é a matéria-prima da Ciência de Dados. A profissão de cientista de dados é,
basicamente, a necessidade de criar novos métodos de análise do enorme volume de
dados, e vem crescendo exponencialmente. Técnicas analíticas têm sido utilizados por
muitas décadas (talvez séculos), mas nunca na história humana tem-se gerado tanto
dado como é gerado hoje em dia. Novas formas de coleta, armazenamento e análise
de dados são necessárias, sendo necessário reinventá-las diariamente, e o big data
está revolucionando o mundo de hoje. Devido ao fato de que os dados estão à nossa
disposição, é possível tomar decisões em tempo real, e isso gera um grande impacto
sobre nossas vidas.

O cientista de dados vai consumir big data, ou seja, vai utilizar o big data como
matéria-prima, aplicar diversas técnicas e colher insights. Mas a responsabilidade pela
coleta e pelo armazenamento de dados é geralmente do engenheiro de dados. A criação
de cluster Hadoop, streaming de dados com Spark, integração entre diferentes fontes
de dados são todas as novas e, normalmente, atribuições exercidas pelos engenheiros de
dados. É importante que o cientista de dados saiba bem como funciona a infraestrutura

120
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI

que armazena dados analisados, pois isso pode fazer a diferença quando se analisam 1
trilhão de registros, por exemplo.

Hadoop – Hadoop está se tornando o coração da infraestrutura de big data, que


vai revolucionar o sistema de armazenamento de banco de dados tradicional como
conhecemos hoje. Além do acesso gratuito, o Hadoop é projetado para ser usado em
hardware de baixo custo, uma combinação essencial para as organizações que buscam
reduzir os custos de infraestrutura e ainda aproveitar os benefícios de big data.

Spark – Spark é um projeto open source, mantido por uma comunidade de


desenvolvedores, que foi criado em 2009 na Universidade da Califórnia, Berkeley.
O Spark foi concebido com o objetivo principal de ser rápido, tanto em consultas de
processamento como algoritmos, além de processamento em memória e eficiente
recuperação de falha. É atualmente um dos tópicos mais quentes em Ciência de Dados
e está ganhando muita popularidade.

Banco de dados NoSQL – banco de dados tradicionais RDBMS (relational database


management systems) são projetados para lidar com grandes quantidades de dados
(big data). Bancos de dados tradicionais são projetados para lidar com conjuntos de
dados que podem ser armazenados em linhas e colunas, e, em seguida, podem ser
encontrados usando consulta SQL (Structured Query Language).

Bancos de dados relacionais não são capazes de gerenciar dados não estruturados e
semiestruturados. Bancos de dados relacionais simplesmente não têm os recursos
necessários para atender a requisitos de big data, pois esses dados são gerados em
grandes quantidades e em alta velocidade. Essa é a diferença para os bancos de dados
NoSQL, tal como MongoDB. Bancos de dados NoSQL são bancos de dados e não
relacionais, que são projetados para atender às necessidades deste mundo novo em que
vivemos.

Banco de dados relacionais e data warehouses – nas últimas décadas, todos


os dados corporativos são armazenados em bancos de dados relacionais e soluções
de inteligência de negócios utilizados para criar soluções analíticas. Esses dados
estruturados serão uma fonte de dados para a Ciência de Dadosç daí a importância do
conhecimento em SQL, a linguagem padrão para consultar esses tipos de dados.

Parte do trabalho do cientista de dados será coletar dados do HDFS (hadoop file
system), criar RDD’s no Spark, aplicar algoritmos de aprendizado de machine learning
em streaming de dados, cruzar dados não estruturados coletados de redes sociais com
bancos de dados de CRM etc. Então, o cientista de dados precisa estar confortável com

121
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS

a forma como os dados são armazenados e com a tecnologia de extração, com o melhor
que eles podem oferecer.

Passo 5: linguagem de programação e


machine learning
Existem várias ferramentas para análise, e o número de soluções continua crescendo
gradativamente. Mas a recomendação para aqueles que estão começando é obter o
conhecimento básico antes de tentar usar as ferramentas de análise ou pacote Office,
a fim de ser capaz de extrair o melhor dessas ferramentas. Algumas linguagens de
programação tornaram-se ícones em ciência de dados, como Python e R, por várias
razões: eles são gratuitos, têm uma comunidade ativa e crescente, já atravessaram o
período de maturação e são amplamente utilizados tanto no meio acadêmico quanto no
meio empresarial em Ciência de Dados.

Python – é uma linguagem de propósito geral que tem recebido, nos últimos anos,
mais e mais módulos e pacotes para Ciência de Dados, tais como: Pandas, Matplotlib,
scikit-learn e Stats models. Python é mais fácil de aprender do que outras linguagens,
tem uma comunidade ativa, uma grande quantidade de documentação disponível
(incluindo em português) e pode ser usado para outras atividades além da Ciência de
Dados.

Linguagem R – linguagem estatística que existe há mais de 30 anos. Tem capacidade


de processar estatísticas de grandes volumes de dados e criar gráficos sofisticados,
fazendo com que gigantes do mercado de tecnologia, como Oracle e Microsoft, adotassem
linguagem R como padrão para análise estatística. Um dos problemas mais comuns que
as pessoas enfrentam ao aprender R é a falta de orientação. Sempre é necessário fazer
um curso em paralelo aos estudos.

As pessoas não sabem por onde começar ou como proceder e qual caminho percorrer.
Há uma sobrecarga de bons recursos gratuitos disponíveis na internet, tornando o
processo de aprendizagem muito mais tortuoso.

Por exemplo: a plataforma de aprendizado de máquina da Microsoft (Microsoft Azure


Machine Learning) tem uma série de módulos Python e R pronta para uso. Conhecimento
de pelo menos uma das linguagem é essencial.

Outras linguagens, como Julia, Scala e Java, também são amplamente utilizadas em
dados científicos, mas, se você está começando, opte pelas linguagens R ou Python.
Essas linguagens irão fornecer uma base sólida para profissionais da área utilizarem

122
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI

linguagens como SAS, Microsoft Azure Machine Learning, linguagens avançadas do


Oracle Analytics, Microstrategy, SAP Predictive Analytics, o Google Analytics, Tibco
Analytics, entre outras.

Se você já tem conhecimento em Matlab, Octave, Stata ou Minitab, saiba que o seu
conhecimento pode ser usado agora mesmo em Ciência de Dados. Selecione 2 ou 3
instrumentos e dedique-se à sua aprendizagem em detalhes, pois isso é extremamente
importante.

Aprendizagem de máquina (ou machine learning, em inglês) é uma das tecnologias


atuais mais fascinantes. Provavelmente, você usa algoritmos de aprendizado várias
vezes por dia sem saber. Toda vez que você usar um site de busca como Google ou Bing,
uma das razões para trabalharem tão bem é um algoritmo de aprendizagem. O algoritmo
implementado pelo Google aprendeu a classificar as páginas da web. Cada vez que você
usar o aplicativo para “marcar” as pessoas nas fotos, o Facebook reconhece as fotos
de seus amigos – esse é um exemplo de aprendizagem de máquina. Outro exemplo
é toda vez que a filtragem antispam de e-mail faz filtros de toneladas de mensagens
indesejadas – esse é um algoritmo de aprendizagem.

Algumas das razões para o crescimento da aprendizagem de máquina são o crescimento


da web e da automação. Isso significa que temos conjuntos de dados maiores do que
nunca. Por exemplo, muitas organizações estão coletando dados de cliques na web,
também chamados de dados clickstream, e estão criando algoritmos para extrair esses
dados e gerar sistemas de recomendação que aprendem sobre usuários e oferecem
produtos que provavelmente eles estão olhando. Netflix é um dos exemplos mais
bem-sucedidos de aplicação de aprendizagem de máquina. Toda vez que você assiste
a um filme ou faz uma avaliação, o sistema “aprende” o seu gosto e vai oferecer filmes
personalizados para cada usuário com base nessas informações.

Existem vários algoritmos de aprendizado de máquina, supervisionados ou não,


tais como: Linear Regression, Ordinary Least Squares Regression (OLSR), Logistic
Regression, Classification and Regression Tree (CART), Naive Bayes, Gaussian Naive
Bayes, k-Nearest Neighbour (kNN), k-Means, Bootstrapped Aggregation (Bagging),
Natural Language Processing (NLP), Principal Component Analysis (PCA), Principal
Component Regression (PCR), Back-Propagation e muito mais.

Cada algoritmo é bom para um determinado tipo de dados e de acordo com a análise
pretendida. Não há necessidade de aprender todos os algoritmos, mas é importante
entender os conceitos e os métodos de implementação. Daí a importância da Matemática
e da Estatística.

123
UNIDADE VI │ CARREIRAS EM CIÊNCIA DE DADOS

Passo 6: conhecimento do negócio


Qual é o propósito da sua análise? Para que coletar montanhas de dados e aplicar
modelos analíticos? Que problema você quer resolver analisando dados? O principal
objetivo da Ciência de Dados é resolver os problemas. Organizações não iniciarão um
projeto de Ciência de Dados se isso não for relevante para o negócio. Portanto, o cientista
de dados deve estar familiarizado com a área de negócio para o qual está começando
um projeto usando Ciências de Dados.

Normalmente, o mercado interpreta essa profissão de forma equivocada, fazendo crer


que o profissional deve ser expert em um campo particular da atividade. Mas vale
ressaltar que os profissionais de inteligência de negócios sempre têm essa exigência,
familiarizados com uma área de negócio, a fim de coletar os KPI (indicadores) e, com
isso, fornecer soluções de BI que atendam às necessidades dos clientes. Outro aspecto é
que, dada a magnitude dos projetos de ciência de dados e big data, dificilmente há um
único profissional; existe, ao contrário, uma equipe de Ciência de Dados, geralmente
liderada pelo mais especialista na área do projeto.

Passo 7: técnicas de apresentação e


visualização de dados
Com a enorme quantidade de dados aumentando a cada dia, um grande desafio está
surgindo para os responsáveis ​​analisarem, sintetizarem e apresentarem os dados: fazer
com que a informação gerada seja facilmente compreendida.

Uma das tarefas mais importantes do cientista de dados do trabalho é ser capaz de
transmitir tudo o que os dados querem informar. E, por vezes, os dados significam coisas
diferentes, para diferentes públicos. Pode parecer fácil no início. Hoje temos à nossa
disposição uma ampla gama de recursos para a apresentação e é exatamente aí que está
o desafio. Nunca foi tão fácil criar tabelas e gráficos, com diferentes estruturas, formas,
tamanhos, cores e fontes. Os gráficos estão deixando de ser gráficos e tornando-se
infográficos. Com um volume crescente de dados à nossa disposição, não torna mais
fácil a apresentação das informações geradas. Pelo contrário, torna-se tarefa mais
complicada. Quase uma arte.

Uma das tarefas do cientista de dados é apresentar as suas conclusões. Ninguém melhor
do que o profissional que faz a análise, desde a coleta, a limpeza e o armazenamento
de dados até a aplicação de modelos estatísticos para explicar seus resultados. Uma
demonstração eficaz dos dados pode ser a diferença entre sucesso e fracasso nas
decisões de negócios.

124
CARREIRAS EM CIÊNCIA DE DADOS │ UNIDADE VI

Pessoalmente, acredito que, em breve, a capacidade de comunicar e contar histórias de


dados será uma das características mais apreciadas e procuradas pelas organizações.
Habilidades de apresentação são um dos processos que fazem a diferença na hora de
contratar um cientista de dados, tais como conhecimento técnico e generalizado. Assim,
a forma com que o profissional apresenta faz todo o diferencial.

O cientista de dados deve ser um contador de histórias e ser capaz de contar a mesma
história de diferentes maneiras. O profissional que é capaz de combinar as habilidades
técnicas necessárias para analisar os dados à de contar histórias será um profissional
único. Esse é o verdadeiro conceito do unicórnio, atribuído a cientistas de dados.

E quanto é um salário de um cientista de dados? Segundo pesquisa no site Lovemondays,


que reúne perfis dos mais variadas atuais, mostra-se que, em 2018, o salário médio é de
R$ 9.500,00, podendo variar de R$ 2.000,00 a R$ 25.000,00, respeitando a dimensão
do projeto e da organização de que aquele profissional faz parte (LOVEMONDAYS,
2018).

É importante estar familiarizado não só com uma ou mais ferramentas para visualização
de dados, mas também com os princípios básicos da codificação visual dos dados e dos
relatórios.

Passo 8: prática
Não há outra maneira de aprender qualquer que seja o assunto. É preciso prática, teste,
experiência, cometer erros, aprender com eles, tentar novamente, e sempre interagir
com a comunidade.

125
Referências

AGRAWAL, R; IMIELINSKI, T; SWAMI, A. Mining association rules between sets of


items in large databases. IBM Almaden Research Center, San Jose, pp. 207–216,
1993.

AIRBNB. Portal Airbnb. Disponível em: <https://www.airbnb.com.br/>. Acesso em:


10 mar. 2018.

ANTONIUTTI, C. L. 2015. 270 f. Usos do big data em campanhas eleitorais.


Tese (Doutorado em Ciência da Informação) – IBICT, Universidade Federal do Rio de
Janeiro, Rio de Janeiro, 2015. Disponível em: <https://goo.gl/jFP76r>. Acesso em: 20
fev. 2017.

AVENTURIER, P. Descrição do ciclo de vida de gestão de dados. Hypotheses,


Avignon, 2016. Disponível em: < https://publicient.hypotheses.org/1359>. Acesso em:
2 abr. 2018.

BIGGDATA. Portal BiggData Business in Memory. Disponível em: <http://www.


biggdata.com.br/qlikview-e-big-data>. Acesso em: 8 maio 2018.

BIG DATA BUSINESS. Portal Big Data Business Hekima. Disponível em: < http://
www.bigdatabusiness.com.br/dados-abertos/ >. Acesso em: 10 maio 2018.

CASANOVA, A. A; LABIDI, S. Algoritmo da Confiança Inversa para Mineração de Dados


Baseado em Técnicas de Regras de Associação e Lógica Nebulosa. In: XXV Congresso da
Sociedade Brasileira de Computação, 25., 2005, São Leopoldo. Anais... São Leopoldo:
Unisinos, 2005.

CHEN, M. et al. Big data related technologies, challenges, and future


prospects. New York: Sprienger, 2014.

E-SETORIAL. Portal e-Setorial Business Analytics. Disponível em: <http://


www.e-setorial.com.br/blog/217-cientista-de-dados-por-onde-comecar-em-8-
passos>. Acesso em: 10 maio 2018.

FAYYAD, U. M. et al. Advances in Knowledge Discovery and Data Mining.


Massachusetts: MIT Press, 1996.

FREITAS JUNIOR, J. C. S. et al. Big data e gestão do conhecimento: definições e


direcionamentos de pesquisa. Revista Alcance Eletrônica, Vale do Itajaí, v. 23, n.
4, out./dez 2016.

126
REFERÊNCIAS

GANDOMI, A. et al. Beyond the hype: big data concepts, methods, and analytics, 2015.
International Journal of Information Management, Waltham, v. 35, n. 2,
pp.137-144.

GOLDSCHMIDT, R. Data mining: conceitos, técnicas, algoritmos, orientações e


aplicações. 2. ed. Rio de Janeiro: Elsevier, 2015.

HAN, J; KAMBER, M. Data mining: concepts and techniques. Waltham: Elsevier,


2006.

KEEL. Website Keel. Disponível em: <http://www.keel.es/>. Acesso em: 3 abr. 2018.

KNIME. Website Knime. Disponível em: <https://www.knime.com/>. Acesso em: 3


abr. 2018.

LANEY, D. The importance of ‘Big Data’: a definition. Gartner, Stamford, 2012.


Disponível em: <http://www.gartner.com/resid=2057415>. Acesso em: 20 jan. 2014.

LEAKBUSINESS. Website Leak. Disponível em: <https://business.leak.pt/sas-


considerado-uma-potencia-em-analitica-de-big-data-segundo-a-forrester/>. Acesso
em: 8 maio 2018.

LOVEMONDAYS. Portal LoveMondays. Disponível em: <https://www.


lovemondays.com.br/>. Acesso em: 10 maio; 25 mar 2018.

MANYIKA, J. et al. Big data. New York: McKinsey Global Institute, 2011.

MAYER-SCHÖNBERGER, V.; CUKIER, K. Big data – como extrair volume, variedade,


velocidade e valor da avalanche de informação quotidiana. Rio de Janeiro: Campus,
2013.

MANNILA, H.; TOIVONEN, H.; VERKAMO, A. I. Efficient algorithms for discovering


association rules. In: AAAI Workshop of Knowledge Discovery in Databases, 3., 1994,
Washington. Anais… Washington: AAAI, 1994.

NETFLIX. Portal Netflix. Disponível em: <https://www.netflix.com/pt/>. Acesso


em: 11 mar. 18.

ORANGE. Website Orange. Disponível em: <https://orange.biolab.si/>. Acesso em:


3 abr. 2018.

RAPIDMINER. Website RapidMiner. Disponível em: <https://rapidminer.com>.


Acesso em: 3 abr. 2018.

REZENDE, C. Conceitos fundamentais sobre banco de dados. São Paulo:


Editora Campos, 2003.

127
REFERÊNCIAS

RUMBAUGH, J. et al. Modelagem e projetos baseados em objetos. Rio de


Janeiro: Campus, 1994.

SANT’ANA, R. C. G. Ciclo de vida dos dados e o papel da ciência da informação. In:


ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 14., 2013,
Florianópolis. Anais... Florianópolis, 2013. Disponível em: <http://enancib.sites.ufsc.
br/index.php/enancib2013/ XIVenancib/paper/viewFile/284/319>. Acesso em: 5
maio 2014.

SANTOS, P. L. V. A. C.; SANT’ANA, R. C. G. Dado e Granularidade na perspectiva da


Informação e Tecnologia: uma interpretação pela Ciência da Informação. Ciência da
Informação, Brasília, v. 42, pp. 199-209, 2013.

SAMARATI, P.; SWEENEY, L. Protecting privacy when disclosing information:


kanonymity and its enforcement through generalization and suppression. Electronic
Privacy Information Center, Washington, 1998. Disponível em: <https://epic.org/
privacy/reidentification/Samarati_Sweeney_paper.pdf>. Acesso em: 20 jan. 2015.

SHRIVASTAVA; SOMASUNDARAM. Armazenamento e gerenciamento de


informações: como armazenar, gerenciar e proteger informações digitais. São Paulo:
Bookman, 2009.

TAURION, C. Big data. Rio de Janeiro: Brasport, 2013. Disponível em: <https://goo.
gl/MVNFQ3>. Acesso em: 3 nov. 2016.

TANAGRA. Website Tanagra. Disponível em: <http://eric.univ-lyon2.fr/~ricco/


tanagra/>. Acesso em: 3 abr. 2018.

TELXPERTS. Big Data Archive. TelXperts, London, 2016. Disponível em: <https://
goo.gl/PsEjZw>. Acesso em: 3 abr. 2018.

UPLEXIS. As 10 melhores ferramentas para tomada de decisão. UpLexis, São Paulo,


2016. Disponível em: <http://blog.uplexis.com.br/ferramentas-para-tomada-de-
decisao/>. Acesso em: 23 mar. 2018.

WEKA. Website WEKA. Disponível em: <https://www.cs.waikato.ac.nz/ml/weka/>.


Acesso em: 10 mar 2018.

W3B. Portal W3B. Disponível em: <https://www.w3b.com.br/c27-blog/c115-


tecnologia/c118-big-data/page/3/> . Acesso em: 9 maio 2018.

128

Você também pode gostar