Você está na página 1de 63

Arquitetura Tecnológica para Ambientes Analíticos

Pela evolução dos Sistemas de Informação, é possível

observar que as organizações empresariais se constituem,

geralmente, dentro de um ambiente complexo de

Tecnologia da Informação. Esse ambiente é muito

importante para manutenção e sobrevivência das

empresas em relação à era da informação. Diante da

necessidade de implantar uma abordagem capaz de

construir um ambiente de TI para as empresas, surge o

conceito da Arquitetura Corporativa de Tecnologia da

Informação (ACTI).

A ACTI é um método organizado e sistemático, relacionado

à construção de um ambiente de Tecnologia da

Informação, direcionado para empresas. Esse método é

baseado em uma estrutura-guia chamada de framework,

que representa, com consistência e métodos organizados,

os requisitos da organização.
A ACTI, à medida que é bem elaborada, possibilita às empresas

vantagens competitivas relevantes. A infraestrutura de TI, aliada ao uso

dos aplicativos, dá à organização – juntamente com os clientes,

fornecedores e órgãos reguladores – a integração e a agilidade

necessárias para realizar atividades do negócio.

O conceito de Arquitetura Corporativa de Tecnologia da Informação é

definindo como um processo que atua sobre uma organização interna de

um empreendimento. Isso pode ser visto em como são empregadas as

conexões entre equipamentos, políticas de padrões de funcionamento

operacional e sobre as soluções empregadas pela empresa afim de

priorizar políticas de segurança e privacidade. Esse conceito possui como

principal objetivo o alinhamento de fatores, como os resultados de médio e

longo prazo do empreendimento.


A Arquitetura Corporativa de Tecnologia de Informação se

origina do modelo da organização, no qual a análise

sistemática desses aspectos norteia a organização

empresarial na geração, utilização e modificação do

ambiente de TI que deve auxiliá-la.

Segundo Watson (2000), a definição do ACTI, à medida que

se alinha com o modelo empresarial, possibilita a criação

de um framework para as ações relacionadas a

planejamento e implementação de uma infraestrutura de

informação. Esse alinhamento propicia, dentre outras

coisas, o intercâmbio facilitado da informação e seu

compartilhamento, passando pelo estabelecimento da

segurança e da privacidade até a redução dos custos. As

organizações empresariais podem, ao longo do processo,


solicitar ou precisar de funções importantes do ACTI, como

a escalabilidade, flexibilidade, confiabilidade e alta

disponibilidade – requisitos básicos para serem operados

em determinadas empresas.

INTRODUÇÃO À BIG DATA


Diante de um cenário em que o mundo gera quintilhões de bytes

diariamente, é possível perceber que as ações de uma sociedade são

relevantes para a empresa estabelecer uma melhor relação com os

clientes, ou até mesmo compreender seu comportamento. O cenário – que

se apresenta com um dinamismo cada vez maior – e o fato de se obter um

acesso antes da concorrência refletem alterações no mercado e a

condição imprescindível para a sobrevivência dentro do mundo

corporativo.

Analisando mais detalhadamente as aplicações de Big Data Analytics,

verifica-se que suas possibilidades são mais abrangentes do que a

experiência do consumidor. O uso de tecnologias, por exemplo, eleva o

nível de segurança na infraestrutura de TI, auxilia nas ações de marketing,

reduz custos, aperfeiçoa processos, dentre outras coisas.


Vivemos em um momento histórico em que a geração de dados, a cada

um ano e meio, se iguala à quantidade de dados criados pelos seres

humanos durante toda a história. A era da Big Data – isto é, o momento

em que vivemos – se destaca pela criação dos volumes desmedidos de

dados, sejam eles oriundos de empresas, pessoas ou aparelhos. O próprio

termo já remete a uma enormidade de dados que são gerados. Um dos

seus desdobramentos é conhecido como Big Data Analytics, que tem

como referência os sofisticados softwares utilizados para tratar os dados

obtidos e transformá-los em relevantes informações às empresas.

Registros de call center, balanço patrimoniais, demonstrativos de

resultado, ou seja, os dados estruturados ou não estruturados são

exemplos de iniciativas apoiadas em Analytics que condicionam uma série

de análises.
Contextualizando historicamente a origem do conceito de

Big Data, bem como o início de suas aplicações, é preciso

nos remeter à Nasa. No início dos anos 90, a Nasa se

utilizou desse conceito para descrever grandes

conglomerados de dados, dentro da sua complexidade, o

que tornava o termo sinônimo de “conjuntos de dados

complexos”.
As fórmulas matemáticas, por exemplo, antes do Big Data

Analytics, eram realizadas manualmente e com uma

quantidade ínfima de variáveis. Porém, com o provimento

dos processadores de alta capacidade, foi possível

manipular esses cálculos por meio de softwares

desenvolvidos. Hoje, as soluções em Big Data Analytics, por

exemplo, são utilizadas pela Fazenda Pública para evitar

sonegações de tributos graças à enorme demanda por

dados.

INFRAESTRUTURA PARA BIG


DATA
A Big Data é considerada, hoje, um dos principais componentes

empresariais que podem trazer uma série de vantagens competitivas para

as empresas – independente da sua estrutura ou ramo de atuação. Porém,

vale fazer a ressalva de que o planejamento está à frente de qualquer

projeto de negócio, principalmente quando se refere à infraestrutura.

Em um passado recente, os projetos de Big Data estavam condicionados a

investimentos pesados em infraestrutura – como softwares, estrutura

predial, datacenters –, o que tornava difícil para as empresas implantarem

esse tipo de recurso. Atualmente, o cenário mudou e o acesso à Big Data

se tornou mais viável. Pode-se destacar a introdução da computação em


nuvem como um fator que permitiu a abertura de diversas possibilidades

de utilização da Big Data, já que as empresas podem usufruir de

informações sem realizar grandes investimentos, no que se refere a

arquivamento e processamento de dados.

Para que os projetos relacionados à Big Data possam ser transformados

em ideias de valor comercial, são necessários investimentos –

considerados básicos na montagem da infraestrutura: coleta,

armazenamento, visualização e saída de dados.

// Coleta de dados

Considerado o caminho por onde os dados chegam às empresas. É uma

área na qual se registram todos os eventos da organização (vendas, banco

de dados de clientes e fornecedores, canais de mídia social ou outras

observações extraídas das análises das operações). Normalmente, a

coleta de dados é indispensável, já que a busca constante por elementos

auxilia no seu processo de análise.

A criação de novos dados está relacionada à disponibilidade de

investimentos permanentes em infraestrutura. As condições de

infraestrutura para a coleta estão ligadas aos tipos de dados que serão

necessários na análise, dentre os quais podem ser inclusos: uso de


sensores, aplicativos que disponibilizam dados dos usuários, vídeos de

circuito fechado de TV, informações e perfis de redes sociais.

A configuração desses sistemas de coleta de dados exige um baixo

conhecimento técnico, haja vista que sua configuração ocorre de maneira

individualizada. Existe a possibilidade de associação de um determinado

indivíduo a uma organização com o objetivo principal de configurar os

sistemas disponíveis e posteriormente colher os dados em seu nome. No

que se refere à fontes de dados classificadas como externas (sites de

redes sociais, por exemplo), a exigência na alteração da infraestrutura

disponível geralmente é ínfima ou simplesmente inexistente, pois o usuário

captura essas informações, ou seja, obtém informações através do

gerenciamento e disponibilização de uma outra pessoa.

// Armazenamento de dados

Os dados coletados são direcionados para essa área. Quando o volume dos

dados gerados eleva o seu nível e as empresas demonstram interesse em

armazená-lo, sistemas e tecnologias mais elaboradas e acessíveis são

desenvolvidos para auxiliá-lo. Como principais opções de armazenamento,

podem ser citados a data warehouse, ou um data lake.

O que se visualiza hoje é que os discos rígidos considerados tradicionais

estão sendo ofertados a um baixo custo e com uma capacidade relevante


de arquivamento – o que significa uma grande oportunidade para uma

pequena empresa. Porém, se a demanda por dados for a patamares mais

elevados – ou se a organização perceber que tais dados representam um

fator importante dentro dos negócios –, é preciso requerer um sistema

tecnológico mais rebuscado, como o Hadoop, que é baseado em

armazenamento em nuvens.

Diante disso, o armazenamento baseado em nuvem é uma excelente

possibilidade para a grande maioria das empresas, devido a flexibilidade e

manutenção dos sistemas físicos atuais, por conta da segurança de dados

– além de ser menos custoso do que os modelos de sistemas de

armazenamento de dados tradicionais.

// Análise de dados
Após a etapa de coleta e armazenamento, os dados passam

pelo processo de análise, no qual serão transformados em

insights. As linguagens de programação e plataformas

passam a ter relevância nessa fase. Existem três etapas

básicas neste processo:


Está disponível uma gama de softwares que o auxiliam na

realização da análise de dados – ou seja, que viabilizam a

transformação de dados, considerados brutos em insights,

ou em soluções com a utilização das linguagens de

programação R e Python. O Google, por sua vez,

disponibiliza o BigQuery, que é desenvolvido para

condicionar alguém com mínimo conhecimento em

ciência de dados a realizar e executar consultas em

grandes datasets. Outras opções de ferramentas de análise

incluem a Cloudera, Microsoft HDInsight e Amazon Web

Services.

// Visualização e saída de dados


Área responsável pela geração e transmissão de informações

captadas nas análises de dados para os tomadores de decisão das

organizações empresariais. A comunicação é a principal ferramenta

utilizada para a demonstração de resultados em forma de

relatórios, gráficos, figuras, recomendações-chave ou dashboards

interativos.

Os dashboards de gerenciamento se apresentam como uma

das principias alternativas de saídas dos dados. Eles são

definidos como ferramentas de visualização de dados

comerciais, e a sua função é facilitar o entendimento dos

dados obtidos e criar meios de atração para quem

visualizar. Para tanto, é comum a utilização de barras e

gráficos visualmente simples para possibilitar o

entendimento de quem está analisando os dados. Levando

em consideração as pequenas organizações, que, por

regra, apresentam uma estrutura menor se comparadas

com outras empresas de maior porte, possuem uma

margem de erro muito pequena, ou seja, uma tomada de

decisão equivocada pode comprometer todo um projeto

empresarial. Portanto, o uso de gráficos simples ou


ferramentas de visualização superam expectativas no

momento de apresentar informações sobre os dados.

TECNOLOGIAS FUNDAMENTAIS
EM BIG DATA E INTELIGÊNCIA
ANALÍTICA

// Apache Hadoop
Hadoop é considerado um projeto open source da Apache,

baseado em computação distribuída e escrito na linguagem

de programação Java. Segundo Zikopoulos et al. (2012, p.

3), o Hadoop tem como principal particularidade a

redundância – ou seja, os dados são arquivados de forma

redundante sobre os vários nós do cluster, sendo que o

modelo de programação adotado está adaptado para

suportar falhas. É possível, então, difundir os dados e a

programação por todo o cluster.


Essa tecnologia tem a capacidade de se autorregenerar,

segundo o entendimento de Hurwitz et al. (2013, p. 11),

pois o Hadoop consegue visualizar modificações ocorridas,

inclusive falhas, e se manter em pleno funcionamento.

Possui dois itens que a compõem, sendo eles o Hadoop

Distributed File System (HDFS) e o MapReduce.

O Hadoop Distributed File System (HDFS) é definido como “um

sistema de ficheiros distribuídos, concebido para armazenar

ficheiros por várias máquinas, para ser altamente tolerante a faltas

e ser implementado em hardware de baixo custo e facilmente

substituível” (KARUN; CHITHARANJAN, 2013, p. 2). Sua

importância surge do fato de que um dataset possui capacidade de

armazenamento superior, o que o impossibilita ser arquivado em

uma só máquina, tornando imprescindível o fracionamento dele em

diversas máquinas, denominadas Sistemas de Ficheiros, como por

exemplo, o HDFS.

Esse sistema de ficheiros se divide em dois tipos de nós:


Considerado o coração do Hadoop (ZIKOPOULOUS et al.,

2012), o MapReduce é definido como um modelo de

programação designado para o processamento de dados e

estabelece um nível elevado de escalabilidade ao cluster.

Está subdivido em duas fases:

MAP
Que adota uma coleção de dados e o transforma em outro

conjunto de dados, sendo que os elementos considerados

individuais são divididos em pares chamadas chave-valor

(key-value).

REDUCE

Que recebe output da fase map e relaciona tais pares em

conjuntos com os pares menores.

// Apache Hive
É o modelo de tecnologia que se apresenta como solução

de data warehousing de código aberto que se estabelece

sobre o Hadoop. Suporta consultas compiladas em

atividades map-reduce, realizadas em Hadoop e

apresentadas numa linguagem declarativa semelhante ao

SQL (Structured Query Language), conhecida por HiveQL.

Segundo Thusoo et al. (2009), os dados no Hive estão

organizados da seguinte forma:


// Apache Spark
Considerado um framework com capacidade para

processamento em fluxo. Em relação à velocidade, essa

tecnologia tem no map-reduce a sua extensão, o que

possibilita um apoio mais satisfatório de mais tipos de

computação. O Apache Spark foi criado com objetivo de

processar um grande volume de dados a níveis de

velocidade elevados, o que condiciona uma análise de

dados em tempo real, ou próximo disso. O processamento

do Spark frente ao Hadoop se caracteriza pela redução de

velocidade, que é explicada pelo fato de ele atuar, na sua


maioria, em memória, reduzindo assim o tempo de

operações de leitura e escrita nos discos.

INTERFACES DA BIG DATA


Big SQL é definido como uma interface do IBM SQL desenvolvida no

ambiente do Apache Hadoop e utilizada no intuito de resumir,

consultar e analisar dados. Essa interface consegue suportar, a partir

de plataformas como o Linux e Windows, o acesso dos clientes JDBC e

ODBC, possibilitando o uso dos atributos do SQL. Também é viável a

utilização de aplicativos relacionados à Inteligência de Negócios

baseados em SQL, das ferramentas manipuladas na consulta ou em seu

relatório.

Além disso, é perceptível que o Big SQL dá suporte à criptografia

transparente HDFS, na qual há um processo de retirada da criptografia

dos dados durante uma leitura de HDFS. O Big SQL não funciona no

intuito de se tornar uma alteração para Sistemas de Gerenciamento de

Banco de Dados Relacional (RDBMS). Ela foi projetada para integrar e

empregar a infraestrutura, que se baseia no Hadoop do Open Platform

e nos módulos de valor agregado do Big Insights.


Existe a possibilidade de se criar tabelas utilizando Big SQL. Os

administradores de dados utilizam a interface para elaborar tabelas

que utilizam dados existentes utilizando o comando CREATE

EXTERNAL HADOOP TABLE. As novas tabelas utilizam o comando

CREATE HADOOP TABLE ou CREATE HBASE TABLE e, para carregar

dados nela, se utiliza o comando LOAD.

Quanto aos desenvolvedores de aplicativos, é possível afirmar que eles

podem utilizar a sintaxe SQL padrão do Big SQL junto com as

extensões, para o uso de tecnologias baseadas em Hadoop. O Big SQL

possui um idioma que fornece uma sintaxe SQL considerada familiar

com o objetivo de gravar consultas para realizar junções, uniões e

agrupamentos.

Descoberta do

conhecimento
Os inovadores estudos referentes às mídias digitais têm servido de

direcionadores do conhecimento sobre a sociedade. Análises do

Facebook, Twitter ou do uso de smartphones são alguns exemplos. Os


dados disponíveis – em quantidades cada vez maiores – são fatores

que viabilizam esses estudos. Notadamente, é preciso citar que essa

disponibilidade é limitada – já que uma grande parcela dos dados

pertence à iniciativa privada – pela não integração deles com outras

mídias ou pesquisas sociais.

As mídias digitais vêm ganhando status de novos meios de

comunicação. No entanto, elas ainda não se enquadram nas

consideradas principais tradições de estudo: comunicação de massa e

comunicação interpessoal. Observando o Facebook, por exemplo, o

compartilhamento de notícias em grupo ocorre em uma conotação

diferente de uma troca de informações entre duas pessoas e também

em uma transmissão de notícias. Quando se observa a comunicação de

massa, pode ser citada a Wikipédia, que é considerada um site de

pesquisa aberto. Entretanto, não é considerada como meio fidedigno

de informações, devido às origens de suas fontes.

Independente das avaliações dos modelos de comunicação

serem de massa ou interpessoais, o que se pode concluir é que

a pesquisa em Big Data viabilizou, de maneira bastante

significativa, o entendimento sobre o papel da mídia na


sociedade, condicionando a chamada ciência social em

direção às análises quantitativas. De fato, para muitos

estudiosos e especialistas, a Big Data não representa

necessariamente uma novidade, pois os dados sempre

estiveram à disposição. Contudo, é inegável que ela ampliou

essa utilização e possibilitou implicações diferenciadas em

pesquisa e aplicações na sociedade.

Como os objetivos são distintos, é provável visualizar as

particularidades existentes entre o conhecimento científico e

o de uso comercial. A diferença mais relevante é que o

conhecimento científico tem o objetivo de demonstrar os

aspectos das coisas do mundo com maior eficácia. Já o

conhecimento comercial (tecnológico) se ocupa em


aprimorar o controle sobre o ambiente. Portanto, a Big Data

tem a função de gerar conhecimento abstrato, não

influenciando no comportamento. Já em ambientes de

conhecimento aplicado, o entendimento é inverso.

// Aspectos do conhecimento acadêmico relacionados à


mídia digital
Diante dos aspectos expostos, já está estabelecido que o uso

das mídias sociais é crescente. Entretanto, o questionamento

a ser feito é: qual é o papel dessas mídias geradoras de

conhecimento, de uma maneira mais ampla?

Para o Twitter, Bakshy, Messing e Adamic (2015)

apresentaram conclusões que concordam com ideologias

mais polarizadas. Portanto, as chamadas novas mídias

sociais conseguem socializar conhecimentos e informações

que vão além de questões pessoais.


Os usos de celulares é outro ponto a ser analisado. A transformação

ocorrida na telefonia – na qual o uso da voz vem sendo substituído

pelo texto – ocasiona a geração de uma quantidade relevante de

dados. No entanto, o uso desses dados ainda é um processo em fase de

compreensão.

A isso é atribuído o fato de haver uma limitação do uso da internet, de

uma maneira geral. Donner (2015, p. 3) aborda que países

considerados ricos dispõem de internet de larga escala a um custo

relativamente baixo, o que viabiliza o acesso de dados com maior

frequência. Países com renda mais baixa – no Sul da Ásia e na África,

por exemplo – apresentam uma situação contrária. O resultado dessa

análise, em relação aos países mais ricos, conclui que um público, que

consegue acessar dados com maior grau de qualidade e variedade,


gera conhecimento mais relevante. Por outro lado, nos países mais

pobres, veremos um público com uma capacidade analítica dos dados

em menor grau, sujeito à geração de um conceito de conhecimento

com menor relevância.

// Big Data nas Ciências Sociais

Com viés mais quantitativo e estatístico, as abordagens da Big Data

também se referem às Ciências Sociais. É importante afirmar que o uso

de fontes de dados é extenso, com a possibilidade de acesso de dados

manipuláveis, diferentemente do que ocorria em pesquisas passadas. A

disponibilidade dos dados é a condição primária para verificação de

resultados e a consistência do trabalho pesquisado se torna importante

na medida em que está à disposição uma quantidade maior de dados.

A pesquisa da Big Data tem encontrado limitações no campo das

Ciências Sociais devido ao grau de incerteza que as novas pesquisas

podem trazer para as mais diversas áreas do conhecimento. Há

também uma aplicabilidade com significância limitada, quando se

trata de dados aplicados para fins comerciais. Uma terceira limitação

está relacionada ao fato de os dados representarem parcialmente uma

determinada população, por questões linguísticas ou de censura.


Portanto, é visível que as Ciências Sociais ainda possuem gargalos que

dificultam a introdução da Big Data, mas é crescente a introdução

dessa ferramenta na criação do conhecimento.

// Descoberta de conhecimento em bancos de dados


(KDD)
As relações comerciais estabelecidas por meios eletrônicos

condicionaram as organizações empresariais a arquivar

importantes dados dos seus clientes. O conhecimento do perfil

desses consumidores leva a organização a obter uma série

vantagens. Elevar a qualidade desses serviços é uma dessas

vantagens. Isso gera um conhecimento mais aprofundado do

público-alvo, possibilitando a montagem de uma estratégia

de marketing adequada aos produtos e/ou serviços que a

empresa oferece.

Diante de um cenário como esse, a grande dificuldade se

encontra no fato de que o registro desses dados não pode

deixar de gerar um conhecimento mais abrangente. Para

suprir essa necessidade, surge o processo conhecido como a

descoberta de conhecimento em bancos de dados (Knowledge

Discovery in Databases, KDD).


Quando se analisa como processo não trivial, remete-se à

ideia de que existem técnicas na busca ou na inferência.

Parte-se da ideia de que as informações são desconhecidas

para o sistema e, de preferência, também para o usuário.

Lembrando que essa nova informação deve trazer consigo

algum benefício ou ganho. O processo de KDD traz uma série

de fases, indicando como é o processo (ciclo) até a

consolidação do conhecimento ou informação.

Apresentando uma visão generalizada sobre as fases para o

descobrimento do conhecimento, pode-se tratar,

inicialmente, da seleção de dados. A fase de seleção dos dados

é a primeira no processo de descobrimento de informação. É

selecionado um agrupamento de dados que pertencem a um

domínio, abarcando todas as variáveis possíveis e as


observações utilizadas na análise. A complexidade da seleção

dos dados é visível, já que os dados podem ser oriundos de

fontes e formatos variados.

No que se refere ao pré-processamento à limpeza dos dados,

é possível considerar esses itens como a parte essencial no

processo, levando em consideração que a qualidade dos

dados é determinante para a eficiência dos algoritmos de

mineração. Serão realizadas tarefas que descartam dados

inconsistentes, recuperam dados considerados incompletos e

avaliam os dados que apresentam discrepâncias. O auxílio do

especialista do domínio é essencial. São utilizados métodos

que auxiliam na redução do número de variáveis envolvidas

no processo, que objetivam elevar o desempenho dos

algoritmos de análise.

A fase dos dados ausentes – ou missing values – apresenta um

problema bastante recorrente: a falta de valores associados a

determinadas variáveis. Existe uma grande quantidade de dados

registrados de maneira incompleta – normalmente por falhas na

seleção ou na revisão. A confiabilidade no processo de mineração dos

dados se dá após o tratamento desses casos. O uso de técnicas de


imputação e substituir os valores faltantes por médias aritméticas e

exclusão de registros inteiros são alternativas para a solução desse

problema.

Os dados discrepantes apresentam valores considerados extremos e

características divergentes em comparação ao conhecimento

analisado. Normalmente, os registros que apresentam valores assim

são retirados da amostra. Entretanto, isso só ocorre quando houver um

erro de observação ou situação similar. Antes da exclusão, os dados

devem ser analisados, pois, embora seja não usual, merecem atenção,

porque podem conter algum tipo de informação relevante.

Consideram-se dados derivados, quando existe a necessidade de

manipulação de dados primários com outros dados, caso esses não

estejam disponíveis facilmente. Por exemplo, a obtenção do número da

carteira de identidade pela junção do nome de uma determinada

pessoa juntamente com a data de nascimento.


CLASSIFICAÇÕES DE CONHECIMENTO
Após a visualização das fases do KDD e suas características, é

possível extrair alguns tipos de conhecimento. Segundo

Addrians (1997), o conhecimento, após ser descoberto, pode

ser classificado em:


// Dificuldades e desafios pós-descoberta do

conhecimento

Inúmeros problemas ainda precisam da intervenção do usuário para

serem solucionados. A evolução visualizada nessa área é feita através

de sistemas projetados e implementados para fins específicos, podendo

ser utilizados em várias bases de dados, mas nas quais o objetivo da

descoberta seja semelhante.

Segundo Fayyad (1996, p. 3), existem fatores que dificultam o êxito no

processo da Descoberta do Conhecimento com Base de Dados.


Inicialmente, pode-se visualizar que as bases de dados se apresentam

cada vez mais em larga escala, ocasionando uma série de

manipulações entre os dados, determinando uma imensa variedade de

padrões, combinações e hipóteses. Outro fator está relacionado à

complexidade e à dimensionalidade, ou seja, uma base de dados

extensa gera um maior número de atributos e interação entre eles. Esse

tipo de ação possibilita o algoritmo a encontrar padrões considerados

falsos. Outro detalhe está ligado a complexidade dos dados, que exige

uma maior eficiência e precisa ser o algoritmo para extrair

conhecimento.

Fayyad (1996, p. 5) ainda menciona sobre os dados inconsistentes, nos

quais se visualiza que a base de dados não foi planejada ainda para

captar conhecimento através de técnicas de aprendizado de máquina, e

isso pode fazer com que muitos atributos importantes possam não

estar disponíveis na base de dados ou apresentarem valores nulos,

errados ou redundantes. O conhecimento descoberto necessita ser

interpretado de maneira correta para não ter que ser compreendido

pelo usuário, e assim evitar distorções. Por fim, em relação aos dados

constantemente alterados, é preciso compreender que os dados são

constantemente alterados, podendo levar a um entendimento


precipitado e normalmente errôneo, já que as variáveis podem ter sido

retiradas ou ter sofrido alterações.

Técnicas de Mineração de

Dados
O conceito de Mineração de Dados, ou Data Mining, pode ser

compreendido através do estudo das suas funcionalidades. De

imediato, é possível analisar a mineração de dados sob a perspectiva

estatística, em que já existe uma teorização sobre o assunto. Hand et al.

(2001, p. 1) defende a ideia de que a Mineração de Dados consiste,

dentre outras coisas, em uma análise dos conjuntos de dados,

normalmente com volumes extensos, e possui o objetivo de estabelecer

relações com dados aparentemente sem uma conexão lógica.

Exemplificando, seria como se um pesquisador coletasse dados da área

médica e estabelecesse uma relação com a área de transporte, por

exemplo. Na visão estatística, os dados devem apresentar tanto

relevância como utilidade a quem se disponha a pesquisar ou tratá-

los.
Mudando o foco sobre o mesmo assunto, a projeção sobre banco de

dados se apresenta com uma funcionalidade alternativa em relação à

estatística. Nessa abordagem, a Mineração de Dados tem o papel de

viabilizar técnicas de conhecimentos, ou reconhecimento de padrões

com o intuito de conseguir capturar informações das bases de dados

em um volume mais elevado.

Já sobre a perspectiva do aprendizado através da máquina, Fayyad et

al. (1996, p. 12) defende outra função para Mineração de Dados:

analisar dados e aplicar algoritmos. Caso existam restrições

computacionais, os dados serão tipificados, produzindo, assim, um

conjunto de padrões.

Não podemos nos esquecer que a Mineração de Dados tem capacidade

de executar determinadas tarefas. As tarefas normalmente realizadas

são:
VISÃO GERAL DA TECNOLOGIA DE

DATA MINING
O Data Mining é considerado como uma das tecnologias mais

promissoras. Existe uma relação entre o Data Mining e o data

warehouse, considerado uma área mais ampla. O data warehouse tem

por objetivo dar suporte à tomada de decisão com dados, enquanto o

Data Mining é utilizado em conjunto com ele, auxiliando em


determinados tipos de decisão. Aplicada a bancos de dados

operacionais com transações individuais, o Data Mining se torna mais

eficiente, se o data warehouse colecionar dados de forma agregada.

Ela colabora na aquisição de padrões novos, que normalmente não são

facilmente encontrados por pesquisas ou no processo de metadados no

data warehouse.

Pode-se verificar, também, que o uso do Data Mining tem grande

relevância no início do projeto do data warehouse, pois existe um

consenso de que as suas ferramentas deveriam facilitar seu uso em

conjunto com o data warehouse.

Aprofundando o conhecimento sobre Data Mining, visualiza-se o

conceito KDD – sigla em inglês para Knowledge Discovery in

Databases, ou “Descoberta de Conhecimento em Banco de Dados”. O

seu estudo envolve basicamente seis fases:


Vamos supor que uma determinada empresa detém o cadastro de

clientes – normalmente composto por dados básicos (nome, endereço,

CEP, telefone residencial e celular, histórico de compras, entre outros).

A partir dessas informações, um processamento KDD pode implantar

novas informações a serem incrementadas a esse cadastro, a começar

pela seleção dos dados que podem especificar itens de acordo com a

região da empresa; procedimento de limpeza de dados, que

geralmente filtra informações errôneas sobre os clientes; em seguida, o

chamado enriquecimento dos dados, no qual uma determinada

informação serve de incremento para novas informações; e, por fim, a

transformação (codificação) dos dados com o objetivo de reduzir a sua


quantidade. Esse procedimento é bastante utilizado no agrupamento

de número de telefone por ordem alfabética ou região geográfica.

O procedimento de mineração de dados, nesse caso, vai viabilizar a

descoberta de modelos de novas informações, como:

// Regra de associação
Um cliente compra um determinado equipamento e, na

sequência, adquire outros equipamentos associados. Por

exemplo, comprou um notebook e acabou levando uma

escrivaninha.

// Padrões sequências
Um determinado consumidor adquire produtos com os quais

mantém um grau de interação no prazo de seis meses,

estabelecendo, assim, um determinado padrão. Uma análise

dos dados e informações mais aprofundadas permite prever

que esse cliente poderá adquirir novos produtos em

momentos mais especiais, como Natal ou Páscoa.

// Árvores de classificação
Subdivisão de clientes levando em consideração ações ou

hábitos – por exemplo, tipo de financiamento que costuma

realizar e frequência às lojas. Essas características auxiliam

na montagem de padrões que facilitam na análise dos dados


ou na construção de novas unidades, ou até mesmo na oferta

de promoções.

Normalmente, usa-se o Data Mining como fonte para a descoberta do

conhecimento para se atingir metas. Tais propósitos falham nas

seguintes classes:
CLASSIFICAÇÃO DE TÉCNICAS DE

DATA MINING
Dentro do estudo de Data Mining, é preciso estabelecer um

modelo que retrate classes distintas de dados. O procedimento

utilizado para o alcance disso é chamado de classificação.

Tomemos como exemplo um determinado investimento

realizado no mercado financeiro. De acordo com seu perfil,

ele se classifica em risco básico, moderado ou alto.

Modelos como esses são elaborados e podem ser utilizados

para classificar uma gama de dados novos. É feito,

primeiramente, um treinamento com o agrupamento de

dados tratados. É extraído um rótulo de classe ou atributo,

que aponta à qual classe pertence o registro feito.

Geralmente, esse modelo está disposto em conjuntos de

regras ou até mesmo em árvores de decisão.

Vale salientar que uma das grandes preocupações no que diz

respeito ao modelo e ao algoritmo que o produz está


relacionada ao fato de a habilidade do modelo prever onde os

novos dados serão inseridos corretamente, qual o custo

computacional que será associado ao algoritmo e sua

escalabilidade.

ABORDAGENS PARA OUTROS


PROBLEMAS DE DATA MINING
Veremos, agora, algumas abordagens utilizadas para a

resolução de outros problemas de Data Mining.

// Descoberta de padrões sequências


Esse conceito é extraído de uma sequência de conjunto de

itens. Imaginemos um determinado consumidor que realiza

suas compras de maneira ordenada, estabelecendo uma

sequência de conjunto de produtos baseados em uma

determinada quantidade de visitas que esse cliente fez ao

estabelecimento comercial. A grande questão é verificar e

identificar os padrões sequenciais, ou seja, uma amostra dos

produtos minimamente consumidos pelo cliente que tenha

uma frequência definida pelo consumidor.

// Descoberta de padrões em séries temporais


Também conhecida como sequência de eventos. Pode-se dar

o exemplo de um determinado serviço no qual seu preço fixo é

considerado um evento diariamente. Quando se estabelece


uma sequência desse preço, esse fato é chamado de série

temporal.

Uma série temporal é composta por padrões, em que são

analisadas todas as sequencias e subsequências. Elas podem

ser avaliadas por medidas de similaridades existentes em

empresas cujo comportamento seja similar.

// Regressão
Considerada como regra especial de classificação, a regressão

é definida como uma função que ocorre sobre um conjunto de

variáveis que as mapeia em uma classe destino. É uma

ferramenta bastante usual nas Análises de Dados. A função

utilizada para projetar a variável destino é equivalente a uma

operação Data Mining.

// Redes neurais
São oriundas de pesquisas extraídas da Inteligência Artificial,

que faz uso da regressão generalizada e que cria um método

interativo para esse processo. Eles utilizam a chamada

abordagem de curva – apropriada para extrair uma função

de um agrupamento de amostras.
As técnicas utilizadas pelas redes neurais viabilizam uma

abordagem de aprendizado, ou seja, há um direcionamento

através de amostras de teste, que são utilizadas para a

inferência inicial e aprendizado. Espera-se que, com esse

modelo de aprendizado, sejam obtidas respostas para novas

entradas que sejam interpoladas partindo de exemplos

usuais. Elas se classificam, basicamente, em duas categorias:

redes supervisionadas e não supervisionadas, que

desenvolvem representações internas sem amostras de saída.

As redes neurais conseguem captar informações de problemas

específicos. São úteis em Data Mining e realizam bons

trabalhos no que se refere à tarefa de classificação. Porém, a

complexidade existente na representação do aprendizado

adquirido dificulta o entendimento, isso porque existe

normalmente uma dificuldade na modelagem dos dados das

séries temporais. Apesar desses problemas, esse método é

comumente utilizado em diversos produtos comerciais.

// Algoritmos genéricos
Também conhecidos pela expressão em inglês generic

algorithms. São conceituados como um conjunto de


procedimentos de pesquisas com a capacidade de realizar

buscas adaptativas dentro de uma vasta área de espaço. Eles

têm apresentado um desenvolvimento satisfatório em

diversas áreas do conhecimento, como a Engenharia.

Os GAs apresentam, geralmente, técnicas de busca diferentes

da maioria. Isso se dá devido a algumas características, como

o uso de um único conjunto de soluções algorítmicas durante

cada geração, ao invés de uma solução para cada geração.

Esses algoritmos são utilizados para o agrupamento e a

solução de problemas, sendo bastante utilizados pelo Data

Mining. Apresenta como desvantagem a diversa produção de

soluções individualizadas e a alta demanda no

processamento computacional.

APLICAÇÕES DE DATA MINING


O Data Mining apresenta tecnologias capazes de serem

aplicadas em diferentes contextos de tomada de decisão.

Vejamos algumas:
FERRAMENTAS COMERCIAIS PARA

DATA MINING
As ferramentas de Data Mining fazem uso de procedimentos na

captura de conhecimento. Nessas técnicas, podem ser incluídas, por

exemplo, a regra da associação, agrupamento e regras neurais, que já

foram abordadas nas sessões anteriores. Alguns produtos comerciais

utilizam procedimentos mais avançados, como os algoritmos

genéticos.

É preciso compreender que as ferramentas de Data Mining usam a

interface ODBC (Open Database Connectivity, ou “Conectividade de

Banco de Dados Abertos”). Essa interface é considerada como padrão

da indústria que atua no banco de dados, possibilitando o acesso nos

bancos de dados populares.

Geralmente, esses produtos estão no modo cliente servidor. Outros

acabam incorporando um procedimento paralelo nas chamadas

Arquiteturas Computacionais Paralelas, e atuam como uma parte das


ferramentas de procedimento analítico on-line, a OLAP (On-line

Analytical Processing).

Essas ferramentas estão em um constante processo de evolução, e vêm

sendo incorporados a elas os últimos algoritmos da área de

inteligência artificial. Recentemente, vêm sendo empregadas técnicas

modernas de banco de dados. Futuramente, existe uma previsão do

desenvolvimento da internet com capacidades mais completas, com

processamentos utilizando todos os recursos disponíveis.

Os programas de Data Mining tendem a trabalhar com uma gama de

dados, das mais diversas empresas, já que os bancos de dados

modernos estão disponibilizando uma quantidade de informações

relevantes, associada a um custo de armazenagem secundário

decrescente, mesmo para empresas de pequeno porte.

Preparação dos dados


Basicamente, é um processo que envolve a coleta, limpeza,

combinação, estruturação e organização dos dados para análise. É


considerado como a medida fundamental para a viabilidade do

trabalho com Big Data, pois eleva a qualidade dos dados – o que

automaticamente resultará nos resultados com o Data Mining.

Fazendo uma analogia com uma construção de luxo, por mais que seja

investido um volume grande de capital, caso não sejam estabelecidas

normas de segurança adequadas, a tendência é gerar um

empreendimento com baixa qualidade. O mesmo pensamento se aplica

à preparação de dados (data preparation), na qual os resultados a

serem alcançados só serão possíveis se forem analisados com

qualidade.

Importantes benefícios são condicionados pela qualidade de dados

realizada pelo processo de data preparation. É comum que as

aplicações de Big Data tornem os dados prontos para a sua utilização

em diversas análises. Outro ponto a ser avaliado está na simplificação

da gestão de TI que a preparação dos dados possibilita,

descentralizando suas análises sem comprometer a veracidade e

confiabilidade dos dados.


Data preparation é comumente utilizada em situações distintas. Dados

que apresentam falhas, por exemplo, faltantes ou inconsistentes, se

devem geralmente ao fato de terem sido inseridos de forma manual ou

captados de fontes não estruturadas. Diante disso, o uso da data

preparation é extremamente importante, quando se combinam dados

originados de diversas fontes e formatos, como remoções de

abreviações ou preenchimento de campos vazios.

A consistência dos dados é mantida através da mineração desses

dados. A formulação e a disseminação do conhecimento são obtidas

através de práticas e técnicas de preparação da base de dados. O

conhecimento é imprescindível na montagem do modelo de captura

dos elementos e auxilia nas tomadas de decisões que visem melhorias

qualitativas dos dados.

O processo de preparação dos dados para a mineração pode ser

definido pelas etapas:


// Tratamento e limpeza

Tem por objetivo detectar e descartar inconsistências nos dados, para

elevar a qualidade. Tipicamente, o processo de limpeza de dados

requer conhecimento especializado. Esse procedimento envolve

visualizar a consistência das informações, corrigir possíveis erros e

preencher ou eliminar valores nulos ou que apresentam redundância.

A etapa de tratamento e limpeza sana as deficiências da base de dados,

retirando as pesquisas desnecessárias que seriam tratadas pelos

modelos e que influenciariam o seu desempenho.

Um exemplo comum na limpeza de dados é a busca por valores

incomuns que são impossíveis na prática. Bases de dados que possuem

idades ou tempos de contrato com clientes são bons exemplos disso.

Por vezes, encontram-se clientes que possuem mais de 100 anos de

relação contratual com empresas, ou até mesmo clientes com menos de

cinco anos de idade. Da mesma forma, encontrar consumidores que

possuam um relacionamento de 300 anos com a empresa não é tão

exótico assim – levando-se em consideração as relações familiares

desses consumidores. Esses valores são originados, possivelmente, de

falhas de digitação ou preenchimento de cadastros.


No esforço para limpeza e consistência dos dados, os campos devem ser

preenchidos com valores possíveis, como médias ou medianas da

variável. Outra opção seria o descarte do registro que possui tal valor. O

conceito por trás dessas ações é impedir que tal valor atrapalhe o

entendimento dos dados pelos modelos, induzindo-o a conclusões

erradas.

Esses métodos possuem características vantajosas e desvantajosas ao

serem aplicados. O fato de ignorar o padrão que possui valores

inexistentes é direcionado quando os dados se apresentam em grande

quantidade. Porém, pode ser desaconselhado o seu uso, quando

existirem poucos dados ou quando eles forem contraindicados, se o

padrão possui mais informação relevante além das variáveis com

valores ausentes. Inserir valor em um campo de maneira manual e

com uma constante, média, moda ou valor mais provável, segundo

algum modelo, salva o padrão da eliminação e aproveita todo o resto


da sua informação, mas pode influenciar na modelagem –

principalmente, se os valores ausentes estiverem em grande escala,

gerando uma visão sobre os padrões que pode estar distante da

realidade. Isso conduziria a algum modelo, considerando certas

estruturas de comportamento nos dados que não deveriam existir.

// Transformações

Alterações nos dados estão relacionadas à implantação de fórmulas

matemáticas aos valores de uma variável. O intuito é captar esses

elementos da maneira que melhor se adequem, visando a modelagem

posterior.

A consequência dessas alterações é elevar a quantidade de

informação, atendendo necessidades dos pré-requisitos dos

modelos ou até reduzindo a quantidade de erros. A

normalização ou padronização dos dados (utilizada em

variáveis com unidades distintas ou dispersões extremamente

heterogêneas) se apresentam como transformações de maior

número de realizações e maior grau de importância. São

estabelecidas com a função de tornar homogênea a

variabilidade ocorrida nas variáveis visualizadas em uma

base de dados. Isso ocorre através da criação de um


determinado espaço em que as variáveis irão se alocar,

chamado de intervalo de amplitude similar.

// Oversampling
Bases de dados normalmente manipulam variáveis categóricas com

alto grau de discrepância no que se refere à proporção de cada classe

existente. Suponha, por exemplo, que uma determinada empresa

possua base de telefonia celular detentora de uma variável que indique

se o cliente continua ou não vinculado a ela. Colocando em termos

percentuais, atinge-se algo em torno de 98% dos clientes ainda

vinculados e 2% dos clientes que já encerraram a sua relação com a

operadora. Variáveis desse tipo, no instante em que há a formação de

um modelo em que a distribuição ocorre de maneira extremamente

desequilibrada nas classes, conduzirão esse modelo a visualizar apenas

uma das classes. Fica impossível detectar a classe que apresenta menor

quantidade de registros, pois o mesmo direciona a resposta sempre à

classe de maior número de registros.

Esse problema é sanado através de um procedimento que condiciona a

distinção de classes, conhecido como oversampling. Por meio dele,

constrói-se uma base de dados renovada para a modelagem. Para isso,

é selecionada, de maneira aleatória, uma amostra contendo o maior


número de registros que pertencem à classe rara, ou o menor número

de ocorrências de uma classe comum. Espera-se, com isso, ajustar a

proporção entre as classes.

O oversampling apresenta limitações, pois existe um número reduzido

de observações das classes consideradas raras na base de dados. Com

isso, não é viável criar uma base de qualquer tamanho, mesmo que a

base de dados primária seja composta por uma quantidade imensa de

elementos. Esse procedimento é similar para variáveis que apresentam

mais de duas classes.

SINTETIZANDO
Nesta unidade, foi apresentado o conceito de Arquitetura

Tecnológica para Ambientes Analíticos, que recebe a

definição de uma construção de um ambiente de Tecnologia

da Informação, representada por um banco de dados, em que

serão armazenados os elementos coletados pela organização,

a fim de estruturá-los, relacioná-los e, assim, constituir um

local para servir de suprimentos e fornecer subsídios para

uma análise, extraindo-se informações para gerar um

conhecimento.
Foi explanado, também, sobre como essa coleta de dados

massiva gera um ambiente favorável para chegar à definição

de Big Data, que é como surge essa massa volumosa de

elementos que são coletados, armazenados por organização

de diversos setores, com a finalidade de servir de repositório

de dados estruturados para serem explorados, analisados e

através desse processo, servir de conhecimento para tomadas

de decisão como suporte ao direcionamento de empresas.

Apresentamos como o desenvolvimento de uma

infraestrutura de data centers, com o auxílio do cloud

computing, tem contribuído de maneira significativa para o

aumento de coleta, armazenamento, seleção e mineração dos

dados, utilizando técnicas, programas aplicativos e

linguagens de programação como R e Phyton.

Definimos a mineração de dados como um processo de

seleção dentro do ambiente de Big Data, apoiado por

softwares e linguagem de programação específicos, a fim de

gerar conhecimento (KDD), que é a formalização mais

elaborada do conjunto de informações geradas diariamente


e, muitas vezes, aleatoriamente, que podem ser disseminadas

entre as pessoas e as corporações empresariais.

Concluímos que, para que os projetos relacionados à Big Data

possam ser transformados em ideias de valor comercial, são

necessários investimentos considerados básicos na

montagem da infraestrutura: coleta, armazenamento,

visualização e saída de dados.

Por fim, chegamos à preparação dos dados para utilização

em suporte a melhor tomada de decisão, que é, basicamente,

um processo de coleta, limpeza, combinação, estruturação e

organização dos dados para análise. É constatado como a

medida fundamental para a viabilidade do trabalho com Big

Data, pois eleva a qualidade dos dados – o que

automaticamente culminará nos resultados com o Data

Mining.

REFERÊNCIAS BIBLIOGRÁFICAS
ANGELONI, M. T.; REIS, E. S. Business Intelligence como

tecnologia de suporte à definição de estratégias para


melhoria da qualidade do ensino. In: ENCONTRO DA ANPAD,

30., 2006, Salvador. Anais… Salvador: ANPAD, 2006.

APPLEGATE, L. M.; MCFARLAN, F. W.; MCKENNEY, J.

Corporate information systems management: text and case.

Chicago: McGraw Hill, p. 350-432, 1996.

APPLEGATE, L. M; MCFARLAN, F. W.; MCKENNEY, J.

Corporate information systems management - texf and case.

Chicago: McGraw Hill, p. 154-257, 1996a.

BAKSHY, E.; MESSING, S.; ADAMIC, L. A. Exposure to

ideologically diverse news and opinion on Facebook. Science,

Washington, v. 348, n. 6.239, p. 1.130-1.132, 2015.

BATISTA, E. O. Sistema de informação: o uso consciente da

tecnologia para o gerenciamento. São Paulo: Saraiva, 2004.

BIG DATA BUSINESS. Big Data: tudo que você sempre quis

saber sobre o tema! 2017. Disponível em:


<http://www.bigdatabusiness.com.br/tudo-sobre-big-

data/>. Acesso em: 09 fev. 2019.

CHIAVENATO, I. Introdução à teoria geral da administração.

4. ed. São Paulo: Makron Books, 1993.

CONTI, F.; CHARAO, A. S. Análise de prazos de entrega de

atividades no moodle: um estudo de caso utilizando

mineração de dados. RENOTE, v. 9, n. 2, 2011.

DONNER, J. After access: inclusion, development, and a more

mobile internet. Cambridge: MIT Press, 2015.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; UTHURUSAMY, R.;

SMYTH, P. Advances in Knowledge Discovery and data

mining, Califórnia/Cambridge: AAAI Press/The MIT Press, p.

1-34, 1996.

FAYYAD, U., PIATETSKY-SHAPIRO, G., SMYTH, P. From data

mining to knowledge discovery: An overview. Advances in


Knowledge Discovery and data mining. Inglaterra: AAAI

Press/The MIT Press. 1996a.

FURLAN, J. D. Modelagem de Objetos através da UML: The

Unified Modeling Language. São Paulo: Makron Books, 1998.

HURWITZ, J. et al. Big Data for Dummies. Hoboken: John

Wiley & Sons, Inc., 2013.

INSTITUTO INFORMATION MANAGEMENT. Estudo mostra

nível de maturidade no uso de Big Data no Brasil. 2013.

Disponível em:

<https://docmanagement.com.br/07/11/2013/estudo-

mostra-nivel-de-maturidade-no-uso-de-big-data-no-

brasil/>. Acesso em: 11 fev. 2019.

KALA, K. A.; CHITHARANJAN, K. A review on hadoop: HDFS

infrastructure extensions. In: IEEE Conference on Information

and Communication Technologies, 2013, India. Proceedings…

New Jersey: IEEE, p. 132-137, 2013.


KROENKE, D. Sistemas de informação gerenciais. São Paulo:

Saraiva, 2012.

O‘BRIEN, J. A.; MARAKAS, G. M. Administração de sistemas de

informação. 15. ed. Porto Alegre:

AMGH/McGraw-Hill/Bookman, 2013.

PRIMAK, F. V. Decisões com B. I. (Business Intelligence). São

Paulo: Moderna. 2008.

STAIR, R. M.; REYNOLDS, G. W. Princípios de sistemas de

informação. 9. ed. São Paulo: Cengage Learning, 2013.

STAIR, R. M. Princípios de sistemas de informação. Rio de

Janeiro: LTC, 1998.

THUSOO, A.; SARMA, J. S.; JAIN, N.; SHAO, Z.; CHAKKA, P.;

ZHANG, N.; ANTONY, S.; LIU, H.; MURTHY, R. Hive: A

Warehousing Solution Over a Map-Reduce Framework. Sort,

v. 2, p. 1.626-1.629, 2009.
WATSON, R. W. An Enterprise Architecture: A Case Study for

Decentralized Organizations. In: HAWAII INTERNATIONAL

CONFERENCE ON SYSTEM SCIENCES, Proceedings..., Hawaii,

Maui, 2000.

ZIKOPOULOS, P.; EATON, C.; DEROOS, D.; DEUTSCH, T.;

LAPIS, G. Understanding big data: Analytics for enterprise

class hadoop and streaming data. USA: McGraw-Hill, 2012.

Você também pode gostar