Un 2 - Inteligência Analítica

Arquitetura Tecnológica para Ambientes Analíticos
Pela evolução dos Sistemas de Informação, é possível
observar que as organizações empresariais se constituem,
geralmente, dentro de um ambiente complexo de
Tecnologia da Informação. Esse ambiente é muito
importante para manutenção e sobrevivência das
empresas em relação à era da informação. Diante da
necessidade de implantar uma abordagem capaz de
construir um ambiente de TI para as empresas, surge o
conceito da Arquitetura Corporativa de Tecnologia da
Informação (ACTI).
A ACTI é um método organizado e sistemático, relacionado
à construção de um ambiente de Tecnologia da
Informação, direcionado para empresas. Esse método é
baseado em uma estrutura-guia chamada de framework,
que representa, com consistência e métodos organizados,
os requisitos da organização.
A ACTI, à medida que é bem elaborada, possibilita às empresas
vantagens competitivas relevantes. A infraestrutura de TI, aliada ao uso
dos aplicativos, dá à organização – juntamente com os clientes,
fornecedores e órgãos reguladores – a integração e a agilidade
necessárias para realizar atividades do negócio.
O conceito de Arquitetura Corporativa de Tecnologia da Informação é
definindo como um processo que atua sobre uma organização interna de
um empreendimento. Isso pode ser visto em como são empregadas as
conexões entre equipamentos, políticas de padrões de funcionamento
operacional e sobre as soluções empregadas pela empresa afim de
priorizar políticas de segurança e privacidade. Esse conceito possui como
principal objetivo o alinhamento de fatores, como os resultados de médio e
longo prazo do empreendimento.

A Arquitetura Corporativa de Tecnologia de Informação se
origina do modelo da organização, no qual a análise
sistemática desses aspectos norteia a organização
empresarial na geração, utilização e modificação do
ambiente de TI que deve auxiliá-la.
Segundo Watson (2000), a definição do ACTI, à medida que
se alinha com o modelo empresarial, possibilita a criação
de um framework para as ações relacionadas a
planejamento e implementação de uma infraestrutura de
informação. Esse alinhamento propicia, dentre outras
coisas, o intercâmbio facilitado da informação e seu
compartilhamento, passando pelo estabelecimento da
segurança e da privacidade até a redução dos custos. As
organizações empresariais podem, ao longo do processo,

solicitar ou precisar de funções importantes do ACTI, como
a escalabilidade, flexibilidade, confiabilidade e alta
disponibilidade – requisitos básicos para serem operados
em determinadas empresas.
INTRODUÇÃO À BIG DATA

Diante de um cenário em que o mundo gera quintilhões de bytes
diariamente, é possível perceber que as ações de uma sociedade são
relevantes para a empresa estabelecer uma melhor relação com os
clientes, ou até mesmo compreender seu comportamento. O cenário – que
se apresenta com um dinamismo cada vez maior – e o fato de se obter um
acesso antes da concorrência refletem alterações no mercado e a
condição imprescindível para a sobrevivência dentro do mundo
corporativo.
Analisando mais detalhadamente as aplicações de Big Data Analytics,
verifica-se que suas possibilidades são mais abrangentes do que a
experiência do consumidor. O uso de tecnologias, por exemplo, eleva o
nível de segurança na infraestrutura de TI, auxilia nas ações de marketing,
reduz custos, aperfeiçoa processos, dentre outras coisas.

Vivemos em um momento histórico em que a geração de dados, a cada
um ano e meio, se iguala à quantidade de dados criados pelos seres
humanos durante toda a história. A era da Big Data – isto é, o momento
em que vivemos – se destaca pela criação dos volumes desmedidos de
dados, sejam eles oriundos de empresas, pessoas ou aparelhos. O próprio
termo já remete a uma enormidade de dados que são gerados. Um dos
seus desdobramentos é conhecido como Big Data Analytics, que tem
como referência os sofisticados softwares utilizados para tratar os dados
obtidos e transformá-los em relevantes informações às empresas.
Registros de call center, balanço patrimoniais, demonstrativos de
resultado, ou seja, os dados estruturados ou não estruturados são
exemplos de iniciativas apoiadas em Analytics que condicionam uma série
de análises.
Contextualizando historicamente a origem do conceito de
Big Data, bem como o início de suas aplicações, é preciso
nos remeter à Nasa. No início dos anos 90, a Nasa se
utilizou desse conceito para descrever grandes
conglomerados de dados, dentro da sua complexidade, o
que tornava o termo sinônimo de “conjuntos de dados
complexos”.
As fórmulas matemáticas, por exemplo, antes do Big Data
Analytics, eram realizadas manualmente e com uma
quantidade ínfima de variáveis. Porém, com o provimento
dos processadores de alta capacidade, foi possível
manipular esses cálculos por meio de softwares
desenvolvidos. Hoje, as soluções em Big Data Analytics, por
exemplo, são utilizadas pela Fazenda Pública para evitar
sonegações de tributos graças à enorme demanda por
dados.
INFRAESTRUTURA PARA BIG

DATA
A Big Data é considerada, hoje, um dos principais componentes
empresariais que podem trazer uma série de vantagens competitivas para
as empresas – independente da sua estrutura ou ramo de atuação. Porém,
vale fazer a ressalva de que o planejamento está à frente de qualquer
projeto de negócio, principalmente quando se refere à infraestrutura.
Em um passado recente, os projetos de Big Data estavam condicionados a
investimentos pesados em infraestrutura – como softwares, estrutura
predial, datacenters –, o que tornava difícil para as empresas implantarem
esse tipo de recurso. Atualmente, o cenário mudou e o acesso à Big Data
se tornou mais viável. Pode-se destacar a introdução da computação em

nuvem como um fator que permitiu a abertura de diversas possibilidades
de utilização da Big Data, já que as empresas podem usufruir de
informações sem realizar grandes investimentos, no que se refere a
arquivamento e processamento de dados.
Para que os projetos relacionados à Big Data possam ser transformados
em ideias de valor comercial, são necessários investimentos –
considerados básicos na montagem da infraestrutura: coleta,
armazenamento, visualização e saída de dados.
// Coleta de dados
Considerado o caminho por onde os dados chegam às empresas. É uma
área na qual se registram todos os eventos da organização (vendas, banco
de dados de clientes e fornecedores, canais de mídia social ou outras
observações extraídas das análises das operações). Normalmente, a
coleta de dados é indispensável, já que a busca constante por elementos
auxilia no seu processo de análise.
A criação de novos dados está relacionada à disponibilidade de
investimentos permanentes em infraestrutura. As condições de
infraestrutura para a coleta estão ligadas aos tipos de dados que serão
necessários na análise, dentre os quais podem ser inclusos: uso de

sensores, aplicativos que disponibilizam dados dos usuários, vídeos de
circuito fechado de TV, informações e perfis de redes sociais.
A configuração desses sistemas de coleta de dados exige um baixo
conhecimento técnico, haja vista que sua configuração ocorre de maneira
individualizada. Existe a possibilidade de associação de um determinado
indivíduo a uma organização com o objetivo principal de configurar os
sistemas disponíveis e posteriormente colher os dados em seu nome. No
que se refere à fontes de dados classificadas como externas (sites de
redes sociais, por exemplo), a exigência na alteração da infraestrutura
disponível geralmente é ínfima ou simplesmente inexistente, pois o usuário
captura essas informações, ou seja, obtém informações através do
gerenciamento e disponibilização de uma outra pessoa.
// Armazenamento de dados
Os dados coletados são direcionados para essa área. Quando o volume dos
dados gerados eleva o seu nível e as empresas demonstram interesse em
armazená-lo, sistemas e tecnologias mais elaboradas e acessíveis são
desenvolvidos para auxiliá-lo. Como principais opções de armazenamento,
podem ser citados a data warehouse, ou um data lake.
O que se visualiza hoje é que os discos rígidos considerados tradicionais
estão sendo ofertados a um baixo custo e com uma capacidade relevante

de arquivamento – o que significa uma grande oportunidade para uma
pequena empresa. Porém, se a demanda por dados for a patamares mais
elevados – ou se a organização perceber que tais dados representam um
fator importante dentro dos negócios –, é preciso requerer um sistema
tecnológico mais rebuscado, como o Hadoop, que é baseado em
armazenamento em nuvens.
Diante disso, o armazenamento baseado em nuvem é uma excelente
possibilidade para a grande maioria das empresas, devido a flexibilidade e
manutenção dos sistemas físicos atuais, por conta da segurança de dados
– além de ser menos custoso do que os modelos de sistemas de
armazenamento de dados tradicionais.
// Análise de dados
Após a etapa de coleta e armazenamento, os dados passam
pelo processo de análise, no qual serão transformados em
insights. As linguagens de programação e plataformas
passam a ter relevância nessa fase. Existem três etapas
básicas neste processo:

Está disponível uma gama de softwares que o auxiliam na
realização da análise de dados – ou seja, que viabilizam a
transformação de dados, considerados brutos em insights,
ou em soluções com a utilização das linguagens de
programação R e Python. O Google, por sua vez,
disponibiliza o BigQuery, que é desenvolvido para
condicionar alguém com mínimo conhecimento em
ciência de dados a realizar e executar consultas em
grandes datasets. Outras opções de ferramentas de análise
incluem a Cloudera, Microsoft HDInsight e Amazon Web
Services.
// Visualização e saída de dados

Área responsável pela geração e transmissão de informações
captadas nas análises de dados para os tomadores de decisão das
organizações empresariais. A comunicação é a principal ferramenta
utilizada para a demonstração de resultados em forma de
relatórios, gráficos, figuras, recomendações-chave ou dashboards
interativos.
Os dashboards de gerenciamento se apresentam como uma
das principias alternativas de saídas dos dados. Eles são
definidos como ferramentas de visualização de dados
comerciais, e a sua função é facilitar o entendimento dos
dados obtidos e criar meios de atração para quem
visualizar. Para tanto, é comum a utilização de barras e
gráficos visualmente simples para possibilitar o
entendimento de quem está analisando os dados. Levando
em consideração as pequenas organizações, que, por
regra, apresentam uma estrutura menor se comparadas
com outras empresas de maior porte, possuem uma
margem de erro muito pequena, ou seja, uma tomada de
decisão equivocada pode comprometer todo um projeto
empresarial. Portanto, o uso de gráficos simples ou

ferramentas de visualização superam expectativas no
momento de apresentar informações sobre os dados.
TECNOLOGIAS FUNDAMENTAIS
EM BIG DATA E INTELIGÊNCIA
ANALÍTICA
// Apache Hadoop
Hadoop é considerado um projeto open source da Apache,
baseado em computação distribuída e escrito na linguagem
de programação Java. Segundo Zikopoulos et al. (2012, p.
3), o Hadoop tem como principal particularidade a
redundância – ou seja, os dados são arquivados de forma
redundante sobre os vários nós do cluster, sendo que o
modelo de programação adotado está adaptado para
suportar falhas. É possível, então, difundir os dados e a
programação por todo o cluster.

Essa tecnologia tem a capacidade de se autorregenerar,
segundo o entendimento de Hurwitz et al. (2013, p. 11),
pois o Hadoop consegue visualizar modificações ocorridas,
inclusive falhas, e se manter em pleno funcionamento.
Possui dois itens que a compõem, sendo eles o Hadoop
Distributed File System (HDFS) e o MapReduce.
O Hadoop Distributed File System (HDFS) é definido como “um
sistema de ficheiros distribuídos, concebido para armazenar
ficheiros por várias máquinas, para ser altamente tolerante a faltas
e ser implementado em hardware de baixo custo e facilmente
substituível” (KARUN; CHITHARANJAN, 2013, p. 2). Sua
importância surge do fato de que um dataset possui capacidade de
armazenamento superior, o que o impossibilita ser arquivado em
uma só máquina, tornando imprescindível o fracionamento dele em
diversas máquinas, denominadas Sistemas de Ficheiros, como por
exemplo, o HDFS.
Esse sistema de ficheiros se divide em dois tipos de nós:

Considerado o coração do Hadoop (ZIKOPOULOUS et al.,
2012), o MapReduce é definido como um modelo de
programação designado para o processamento de dados e
estabelece um nível elevado de escalabilidade ao cluster.
Está subdivido em duas fases:
MAP
Que adota uma coleção de dados e o transforma em outro
conjunto de dados, sendo que os elementos considerados
individuais são divididos em pares chamadas chave-valor
(key-value).
REDUCE
Que recebe output da fase map e relaciona tais pares em
conjuntos com os pares menores.
// Apache Hive
É o modelo de tecnologia que se apresenta como solução
de data warehousing de código aberto que se estabelece
sobre o Hadoop. Suporta consultas compiladas em
atividades map-reduce, realizadas em Hadoop e
apresentadas numa linguagem declarativa semelhante ao
SQL (Structured Query Language), conhecida por HiveQL.
Segundo Thusoo et al. (2009), os dados no Hive estão
organizados da seguinte forma:

// Apache Spark
Considerado um framework com capacidade para
processamento em fluxo. Em relação à velocidade, essa
tecnologia tem no map-reduce a sua extensão, o que
possibilita um apoio mais satisfatório de mais tipos de
computação. O Apache Spark foi criado com objetivo de
processar um grande volume de dados a níveis de
velocidade elevados, o que condiciona uma análise de
dados em tempo real, ou próximo disso. O processamento
do Spark frente ao Hadoop se caracteriza pela redução de
velocidade, que é explicada pelo fato de ele atuar, na sua

maioria, em memória, reduzindo assim o tempo de
operações de leitura e escrita nos discos.
INTERFACES DA BIG DATA

Big SQL é definido como uma interface do IBM SQL desenvolvida no
ambiente do Apache Hadoop e utilizada no intuito de resumir,
consultar e analisar dados. Essa interface consegue suportar, a partir
de plataformas como o Linux e Windows, o acesso dos clientes JDBC e
ODBC, possibilitando o uso dos atributos do SQL. Também é viável a
utilização de aplicativos relacionados à Inteligência de Negócios
baseados em SQL, das ferramentas manipuladas na consulta ou em seu
relatório.
Além disso, é perceptível que o Big SQL dá suporte à criptografia
transparente HDFS, na qual há um processo de retirada da criptografia
dos dados durante uma leitura de HDFS. O Big SQL não funciona no
intuito de se tornar uma alteração para Sistemas de Gerenciamento de
Banco de Dados Relacional (RDBMS). Ela foi projetada para integrar e
empregar a infraestrutura, que se baseia no Hadoop do Open Platform
e nos módulos de valor agregado do Big Insights.

Existe a possibilidade de se criar tabelas utilizando Big SQL. Os
administradores de dados utilizam a interface para elaborar tabelas
que utilizam dados existentes utilizando o comando CREATE
EXTERNAL HADOOP TABLE. As novas tabelas utilizam o comando
CREATE HADOOP TABLE ou CREATE HBASE TABLE e, para carregar
dados nela, se utiliza o comando LOAD.
Quanto aos desenvolvedores de aplicativos, é possível afirmar que eles
podem utilizar a sintaxe SQL padrão do Big SQL junto com as
extensões, para o uso de tecnologias baseadas em Hadoop. O Big SQL
possui um idioma que fornece uma sintaxe SQL considerada familiar
com o objetivo de gravar consultas para realizar junções, uniões e
agrupamentos.
Descoberta do
conhecimento
Os inovadores estudos referentes às mídias digitais têm servido de
direcionadores do conhecimento sobre a sociedade. Análises do
Facebook, Twitter ou do uso de smartphones são alguns exemplos. Os

dados disponíveis – em quantidades cada vez maiores – são fatores
que viabilizam esses estudos. Notadamente, é preciso citar que essa
disponibilidade é limitada – já que uma grande parcela dos dados
pertence à iniciativa privada – pela não integração deles com outras
mídias ou pesquisas sociais.
As mídias digitais vêm ganhando status de novos meios de
comunicação. No entanto, elas ainda não se enquadram nas
consideradas principais tradições de estudo: comunicação de massa e
comunicação interpessoal. Observando o Facebook, por exemplo, o
compartilhamento de notícias em grupo ocorre em uma conotação
diferente de uma troca de informações entre duas pessoas e também
em uma transmissão de notícias. Quando se observa a comunicação de
massa, pode ser citada a Wikipédia, que é considerada um site de
pesquisa aberto. Entretanto, não é considerada como meio fidedigno
de informações, devido às origens de suas fontes.
Independente das avaliações dos modelos de comunicação
serem de massa ou interpessoais, o que se pode concluir é que
a pesquisa em Big Data viabilizou, de maneira bastante
significativa, o entendimento sobre o papel da mídia na

sociedade, condicionando a chamada ciência social em
direção às análises quantitativas. De fato, para muitos
estudiosos e especialistas, a Big Data não representa
necessariamente uma novidade, pois os dados sempre
estiveram à disposição. Contudo, é inegável que ela ampliou
essa utilização e possibilitou implicações diferenciadas em
pesquisa e aplicações na sociedade.
Como os objetivos são distintos, é provável visualizar as
particularidades existentes entre o conhecimento científico e
o de uso comercial. A diferença mais relevante é que o
conhecimento científico tem o objetivo de demonstrar os
aspectos das coisas do mundo com maior eficácia. Já o
conhecimento comercial (tecnológico) se ocupa em

aprimorar o controle sobre o ambiente. Portanto, a Big Data
tem a função de gerar conhecimento abstrato, não
influenciando no comportamento. Já em ambientes de
conhecimento aplicado, o entendimento é inverso.
// Aspectos do conhecimento acadêmico relacionados à

mídia digital
Diante dos aspectos expostos, já está estabelecido que o uso
das mídias sociais é crescente. Entretanto, o questionamento
a ser feito é: qual é o papel dessas mídias geradoras de
conhecimento, de uma maneira mais ampla?
Para o Twitter, Bakshy, Messing e Adamic (2015)
apresentaram conclusões que concordam com ideologias
mais polarizadas. Portanto, as chamadas novas mídias
sociais conseguem socializar conhecimentos e informações
que vão além de questões pessoais.

Os usos de celulares é outro ponto a ser analisado. A transformação
ocorrida na telefonia – na qual o uso da voz vem sendo substituído
pelo texto – ocasiona a geração de uma quantidade relevante de
dados. No entanto, o uso desses dados ainda é um processo em fase de
compreensão.
A isso é atribuído o fato de haver uma limitação do uso da internet, de
uma maneira geral. Donner (2015, p. 3) aborda que países
considerados ricos dispõem de internet de larga escala a um custo
relativamente baixo, o que viabiliza o acesso de dados com maior
frequência. Países com renda mais baixa – no Sul da Ásia e na África,
por exemplo – apresentam uma situação contrária. O resultado dessa
análise, em relação aos países mais ricos, conclui que um público, que
consegue acessar dados com maior grau de qualidade e variedade,

gera conhecimento mais relevante. Por outro lado, nos países mais
pobres, veremos um público com uma capacidade analítica dos dados
em menor grau, sujeito à geração de um conceito de conhecimento
com menor relevância.
// Big Data nas Ciências Sociais
Com viés mais quantitativo e estatístico, as abordagens da Big Data
também se referem às Ciências Sociais. É importante afirmar que o uso
de fontes de dados é extenso, com a possibilidade de acesso de dados
manipuláveis, diferentemente do que ocorria em pesquisas passadas. A
disponibilidade dos dados é a condição primária para verificação de
resultados e a consistência do trabalho pesquisado se torna importante
na medida em que está à disposição uma quantidade maior de dados.
A pesquisa da Big Data tem encontrado limitações no campo das
Ciências Sociais devido ao grau de incerteza que as novas pesquisas
podem trazer para as mais diversas áreas do conhecimento. Há
também uma aplicabilidade com significância limitada, quando se
trata de dados aplicados para fins comerciais. Uma terceira limitação
está relacionada ao fato de os dados representarem parcialmente uma
determinada população, por questões linguísticas ou de censura.

Portanto, é visível que as Ciências Sociais ainda possuem gargalos que
dificultam a introdução da Big Data, mas é crescente a introdução
dessa ferramenta na criação do conhecimento.
// Descoberta de conhecimento em bancos de dados

(KDD)
As relações comerciais estabelecidas por meios eletrônicos
condicionaram as organizações empresariais a arquivar
importantes dados dos seus clientes. O conhecimento do perfil
desses consumidores leva a organização a obter uma série
vantagens. Elevar a qualidade desses serviços é uma dessas
vantagens. Isso gera um conhecimento mais aprofundado do
público-alvo, possibilitando a montagem de uma estratégia
de marketing adequada aos produtos e/ou serviços que a
empresa oferece.
Diante de um cenário como esse, a grande dificuldade se
encontra no fato de que o registro desses dados não pode
deixar de gerar um conhecimento mais abrangente. Para
suprir essa necessidade, surge o processo conhecido como a
descoberta de conhecimento em bancos de dados (Knowledge
Discovery in Databases, KDD).

Quando se analisa como processo não trivial, remete-se à
ideia de que existem técnicas na busca ou na inferência.
Parte-se da ideia de que as informações são desconhecidas
para o sistema e, de preferência, também para o usuário.
Lembrando que essa nova informação deve trazer consigo
algum benefício ou ganho. O processo de KDD traz uma série
de fases, indicando como é o processo (ciclo) até a
consolidação do conhecimento ou informação.
Apresentando uma visão generalizada sobre as fases para o
descobrimento do conhecimento, pode-se tratar,
inicialmente, da seleção de dados. A fase de seleção dos dados
é a primeira no processo de descobrimento de informação. É
selecionado um agrupamento de dados que pertencem a um
domínio, abarcando todas as variáveis possíveis e as

observações utilizadas na análise. A complexidade da seleção
dos dados é visível, já que os dados podem ser oriundos de
fontes e formatos variados.
No que se refere ao pré-processamento à limpeza dos dados,
é possível considerar esses itens como a parte essencial no
processo, levando em consideração que a qualidade dos
dados é determinante para a eficiência dos algoritmos de
mineração. Serão realizadas tarefas que descartam dados
inconsistentes, recuperam dados considerados incompletos e
avaliam os dados que apresentam discrepâncias. O auxílio do
especialista do domínio é essencial. São utilizados métodos
que auxiliam na redução do número de variáveis envolvidas
no processo, que objetivam elevar o desempenho dos
algoritmos de análise.
A fase dos dados ausentes – ou missing values – apresenta um
problema bastante recorrente: a falta de valores associados a
determinadas variáveis. Existe uma grande quantidade de dados
registrados de maneira incompleta – normalmente por falhas na
seleção ou na revisão. A confiabilidade no processo de mineração dos
dados se dá após o tratamento desses casos. O uso de técnicas de

imputação e substituir os valores faltantes por médias aritméticas e
exclusão de registros inteiros são alternativas para a solução desse
problema.
Os dados discrepantes apresentam valores considerados extremos e
características divergentes em comparação ao conhecimento
analisado. Normalmente, os registros que apresentam valores assim
são retirados da amostra. Entretanto, isso só ocorre quando houver um
erro de observação ou situação similar. Antes da exclusão, os dados
devem ser analisados, pois, embora seja não usual, merecem atenção,
porque podem conter algum tipo de informação relevante.
Consideram-se dados derivados, quando existe a necessidade de
manipulação de dados primários com outros dados, caso esses não
estejam disponíveis facilmente. Por exemplo, a obtenção do número da
carteira de identidade pela junção do nome de uma determinada
pessoa juntamente com a data de nascimento.

CLASSIFICAÇÕES DE CONHECIMENTO
Após a visualização das fases do KDD e suas características, é
possível extrair alguns tipos de conhecimento. Segundo
Addrians (1997), o conhecimento, após ser descoberto, pode
ser classificado em:

// Dificuldades e desafios pós-descoberta do
conhecimento
Inúmeros problemas ainda precisam da intervenção do usuário para
serem solucionados. A evolução visualizada nessa área é feita através
de sistemas projetados e implementados para fins específicos, podendo
ser utilizados em várias bases de dados, mas nas quais o objetivo da
descoberta seja semelhante.
Segundo Fayyad (1996, p. 3), existem fatores que dificultam o êxito no
processo da Descoberta do Conhecimento com Base de Dados.

Inicialmente, pode-se visualizar que as bases de dados se apresentam
cada vez mais em larga escala, ocasionando uma série de
manipulações entre os dados, determinando uma imensa variedade de
padrões, combinações e hipóteses. Outro fator está relacionado à
complexidade e à dimensionalidade, ou seja, uma base de dados
extensa gera um maior número de atributos e interação entre eles. Esse
tipo de ação possibilita o algoritmo a encontrar padrões considerados
falsos. Outro detalhe está ligado a complexidade dos dados, que exige
uma maior eficiência e precisa ser o algoritmo para extrair
conhecimento.
Fayyad (1996, p. 5) ainda menciona sobre os dados inconsistentes, nos
quais se visualiza que a base de dados não foi planejada ainda para
captar conhecimento através de técnicas de aprendizado de máquina, e
isso pode fazer com que muitos atributos importantes possam não
estar disponíveis na base de dados ou apresentarem valores nulos,
errados ou redundantes. O conhecimento descoberto necessita ser
interpretado de maneira correta para não ter que ser compreendido
pelo usuário, e assim evitar distorções. Por fim, em relação aos dados
constantemente alterados, é preciso compreender que os dados são
constantemente alterados, podendo levar a um entendimento

precipitado e normalmente errôneo, já que as variáveis podem ter sido
retiradas ou ter sofrido alterações.
Técnicas de Mineração de
Dados
O conceito de Mineração de Dados, ou Data Mining, pode ser
compreendido através do estudo das suas funcionalidades. De
imediato, é possível analisar a mineração de dados sob a perspectiva
estatística, em que já existe uma teorização sobre o assunto. Hand et al.
(2001, p. 1) defende a ideia de que a Mineração de Dados consiste,
dentre outras coisas, em uma análise dos conjuntos de dados,
normalmente com volumes extensos, e possui o objetivo de estabelecer
relações com dados aparentemente sem uma conexão lógica.
Exemplificando, seria como se um pesquisador coletasse dados da área
médica e estabelecesse uma relação com a área de transporte, por
exemplo. Na visão estatística, os dados devem apresentar tanto
relevância como utilidade a quem se disponha a pesquisar ou tratá-
los.
Mudando o foco sobre o mesmo assunto, a projeção sobre banco de
dados se apresenta com uma funcionalidade alternativa em relação à
estatística. Nessa abordagem, a Mineração de Dados tem o papel de
viabilizar técnicas de conhecimentos, ou reconhecimento de padrões
com o intuito de conseguir capturar informações das bases de dados
em um volume mais elevado.
Já sobre a perspectiva do aprendizado através da máquina, Fayyad et
al. (1996, p. 12) defende outra função para Mineração de Dados:
analisar dados e aplicar algoritmos. Caso existam restrições
computacionais, os dados serão tipificados, produzindo, assim, um
conjunto de padrões.
Não podemos nos esquecer que a Mineração de Dados tem capacidade
de executar determinadas tarefas. As tarefas normalmente realizadas
são:
VISÃO GERAL DA TECNOLOGIA DE
DATA MINING
O Data Mining é considerado como uma das tecnologias mais
promissoras. Existe uma relação entre o Data Mining e o data
warehouse, considerado uma área mais ampla. O data warehouse tem
por objetivo dar suporte à tomada de decisão com dados, enquanto o
Data Mining é utilizado em conjunto com ele, auxiliando em

determinados tipos de decisão. Aplicada a bancos de dados
operacionais com transações individuais, o Data Mining se torna mais
eficiente, se o data warehouse colecionar dados de forma agregada.
Ela colabora na aquisição de padrões novos, que normalmente não são
facilmente encontrados por pesquisas ou no processo de metadados no
data warehouse.
Pode-se verificar, também, que o uso do Data Mining tem grande
relevância no início do projeto do data warehouse, pois existe um
consenso de que as suas ferramentas deveriam facilitar seu uso em
conjunto com o data warehouse.
Aprofundando o conhecimento sobre Data Mining, visualiza-se o
conceito KDD – sigla em inglês para Knowledge Discovery in
Databases, ou “Descoberta de Conhecimento em Banco de Dados”. O
seu estudo envolve basicamente seis fases:

Vamos supor que uma determinada empresa detém o cadastro de
clientes – normalmente composto por dados básicos (nome, endereço,
CEP, telefone residencial e celular, histórico de compras, entre outros).
A partir dessas informações, um processamento KDD pode implantar
novas informações a serem incrementadas a esse cadastro, a começar
pela seleção dos dados que podem especificar itens de acordo com a
região da empresa; procedimento de limpeza de dados, que
geralmente filtra informações errôneas sobre os clientes; em seguida, o
chamado enriquecimento dos dados, no qual uma determinada
informação serve de incremento para novas informações; e, por fim, a
transformação (codificação) dos dados com o objetivo de reduzir a sua

quantidade. Esse procedimento é bastante utilizado no agrupamento
de número de telefone por ordem alfabética ou região geográfica.
O procedimento de mineração de dados, nesse caso, vai viabilizar a
descoberta de modelos de novas informações, como:
// Regra de associação
Um cliente compra um determinado equipamento e, na
sequência, adquire outros equipamentos associados. Por
exemplo, comprou um notebook e acabou levando uma
escrivaninha.
// Padrões sequências
Um determinado consumidor adquire produtos com os quais
mantém um grau de interação no prazo de seis meses,
estabelecendo, assim, um determinado padrão. Uma análise
dos dados e informações mais aprofundadas permite prever
que esse cliente poderá adquirir novos produtos em
momentos mais especiais, como Natal ou Páscoa.
// Árvores de classificação
Subdivisão de clientes levando em consideração ações ou
hábitos – por exemplo, tipo de financiamento que costuma
realizar e frequência às lojas. Essas características auxiliam
na montagem de padrões que facilitam na análise dos dados

ou na construção de novas unidades, ou até mesmo na oferta
de promoções.
Normalmente, usa-se o Data Mining como fonte para a descoberta do
conhecimento para se atingir metas. Tais propósitos falham nas
seguintes classes:
CLASSIFICAÇÃO DE TÉCNICAS DE
DATA MINING
Dentro do estudo de Data Mining, é preciso estabelecer um
modelo que retrate classes distintas de dados. O procedimento
utilizado para o alcance disso é chamado de classificação.
Tomemos como exemplo um determinado investimento
realizado no mercado financeiro. De acordo com seu perfil,
ele se classifica em risco básico, moderado ou alto.
Modelos como esses são elaborados e podem ser utilizados
para classificar uma gama de dados novos. É feito,
primeiramente, um treinamento com o agrupamento de
dados tratados. É extraído um rótulo de classe ou atributo,
que aponta à qual classe pertence o registro feito.
Geralmente, esse modelo está disposto em conjuntos de
regras ou até mesmo em árvores de decisão.
Vale salientar que uma das grandes preocupações no que diz
respeito ao modelo e ao algoritmo que o produz está

relacionada ao fato de a habilidade do modelo prever onde os
novos dados serão inseridos corretamente, qual o custo
computacional que será associado ao algoritmo e sua
escalabilidade.
ABORDAGENS PARA OUTROS

PROBLEMAS DE DATA MINING
Veremos, agora, algumas abordagens utilizadas para a
resolução de outros problemas de Data Mining.
// Descoberta de padrões sequências

Esse conceito é extraído de uma sequência de conjunto de
itens. Imaginemos um determinado consumidor que realiza
suas compras de maneira ordenada, estabelecendo uma
sequência de conjunto de produtos baseados em uma
determinada quantidade de visitas que esse cliente fez ao
estabelecimento comercial. A grande questão é verificar e
identificar os padrões sequenciais, ou seja, uma amostra dos
produtos minimamente consumidos pelo cliente que tenha
uma frequência definida pelo consumidor.
// Descoberta de padrões em séries temporais

Também conhecida como sequência de eventos. Pode-se dar
o exemplo de um determinado serviço no qual seu preço fixo é
considerado um evento diariamente. Quando se estabelece

uma sequência desse preço, esse fato é chamado de série
temporal.
Uma série temporal é composta por padrões, em que são
analisadas todas as sequencias e subsequências. Elas podem
ser avaliadas por medidas de similaridades existentes em
empresas cujo comportamento seja similar.
// Regressão
Considerada como regra especial de classificação, a regressão
é definida como uma função que ocorre sobre um conjunto de
variáveis que as mapeia em uma classe destino. É uma
ferramenta bastante usual nas Análises de Dados. A função
utilizada para projetar a variável destino é equivalente a uma
operação Data Mining.
// Redes neurais
São oriundas de pesquisas extraídas da Inteligência Artificial,
que faz uso da regressão generalizada e que cria um método
interativo para esse processo. Eles utilizam a chamada
abordagem de curva – apropriada para extrair uma função
de um agrupamento de amostras.
As técnicas utilizadas pelas redes neurais viabilizam uma
abordagem de aprendizado, ou seja, há um direcionamento
através de amostras de teste, que são utilizadas para a
inferência inicial e aprendizado. Espera-se que, com esse
modelo de aprendizado, sejam obtidas respostas para novas
entradas que sejam interpoladas partindo de exemplos
usuais. Elas se classificam, basicamente, em duas categorias:
redes supervisionadas e não supervisionadas, que
desenvolvem representações internas sem amostras de saída.
As redes neurais conseguem captar informações de problemas
específicos. São úteis em Data Mining e realizam bons
trabalhos no que se refere à tarefa de classificação. Porém, a
complexidade existente na representação do aprendizado
adquirido dificulta o entendimento, isso porque existe
normalmente uma dificuldade na modelagem dos dados das
séries temporais. Apesar desses problemas, esse método é
comumente utilizado em diversos produtos comerciais.
// Algoritmos genéricos
Também conhecidos pela expressão em inglês generic
algorithms. São conceituados como um conjunto de

procedimentos de pesquisas com a capacidade de realizar
buscas adaptativas dentro de uma vasta área de espaço. Eles
têm apresentado um desenvolvimento satisfatório em
diversas áreas do conhecimento, como a Engenharia.
Os GAs apresentam, geralmente, técnicas de busca diferentes
da maioria. Isso se dá devido a algumas características, como
o uso de um único conjunto de soluções algorítmicas durante
cada geração, ao invés de uma solução para cada geração.
Esses algoritmos são utilizados para o agrupamento e a
solução de problemas, sendo bastante utilizados pelo Data
Mining. Apresenta como desvantagem a diversa produção de
soluções individualizadas e a alta demanda no
processamento computacional.
APLICAÇÕES DE DATA MINING

O Data Mining apresenta tecnologias capazes de serem
aplicadas em diferentes contextos de tomada de decisão.
Vejamos algumas:
FERRAMENTAS COMERCIAIS PARA
DATA MINING
As ferramentas de Data Mining fazem uso de procedimentos na
captura de conhecimento. Nessas técnicas, podem ser incluídas, por
exemplo, a regra da associação, agrupamento e regras neurais, que já
foram abordadas nas sessões anteriores. Alguns produtos comerciais
utilizam procedimentos mais avançados, como os algoritmos
genéticos.
É preciso compreender que as ferramentas de Data Mining usam a
interface ODBC (Open Database Connectivity, ou “Conectividade de
Banco de Dados Abertos”). Essa interface é considerada como padrão
da indústria que atua no banco de dados, possibilitando o acesso nos
bancos de dados populares.
Geralmente, esses produtos estão no modo cliente servidor. Outros
acabam incorporando um procedimento paralelo nas chamadas
Arquiteturas Computacionais Paralelas, e atuam como uma parte das

ferramentas de procedimento analítico on-line, a OLAP (On-line
Analytical Processing).
Essas ferramentas estão em um constante processo de evolução, e vêm
sendo incorporados a elas os últimos algoritmos da área de
inteligência artificial. Recentemente, vêm sendo empregadas técnicas
modernas de banco de dados. Futuramente, existe uma previsão do
desenvolvimento da internet com capacidades mais completas, com
processamentos utilizando todos os recursos disponíveis.
Os programas de Data Mining tendem a trabalhar com uma gama de
dados, das mais diversas empresas, já que os bancos de dados
modernos estão disponibilizando uma quantidade de informações
relevantes, associada a um custo de armazenagem secundário
decrescente, mesmo para empresas de pequeno porte.
Preparação dos dados

Basicamente, é um processo que envolve a coleta, limpeza,
combinação, estruturação e organização dos dados para análise. É

considerado como a medida fundamental para a viabilidade do
trabalho com Big Data, pois eleva a qualidade dos dados – o que
automaticamente resultará nos resultados com o Data Mining.
Fazendo uma analogia com uma construção de luxo, por mais que seja
investido um volume grande de capital, caso não sejam estabelecidas
normas de segurança adequadas, a tendência é gerar um
empreendimento com baixa qualidade. O mesmo pensamento se aplica
à preparação de dados (data preparation), na qual os resultados a
serem alcançados só serão possíveis se forem analisados com
qualidade.
Importantes benefícios são condicionados pela qualidade de dados
realizada pelo processo de data preparation. É comum que as
aplicações de Big Data tornem os dados prontos para a sua utilização
em diversas análises. Outro ponto a ser avaliado está na simplificação
da gestão de TI que a preparação dos dados possibilita,
descentralizando suas análises sem comprometer a veracidade e
confiabilidade dos dados.

Data preparation é comumente utilizada em situações distintas. Dados
que apresentam falhas, por exemplo, faltantes ou inconsistentes, se
devem geralmente ao fato de terem sido inseridos de forma manual ou
captados de fontes não estruturadas. Diante disso, o uso da data
preparation é extremamente importante, quando se combinam dados
originados de diversas fontes e formatos, como remoções de
abreviações ou preenchimento de campos vazios.
A consistência dos dados é mantida através da mineração desses
dados. A formulação e a disseminação do conhecimento são obtidas
através de práticas e técnicas de preparação da base de dados. O
conhecimento é imprescindível na montagem do modelo de captura
dos elementos e auxilia nas tomadas de decisões que visem melhorias
qualitativas dos dados.
O processo de preparação dos dados para a mineração pode ser
definido pelas etapas:

// Tratamento e limpeza
Tem por objetivo detectar e descartar inconsistências nos dados, para
elevar a qualidade. Tipicamente, o processo de limpeza de dados
requer conhecimento especializado. Esse procedimento envolve
visualizar a consistência das informações, corrigir possíveis erros e
preencher ou eliminar valores nulos ou que apresentam redundância.
A etapa de tratamento e limpeza sana as deficiências da base de dados,
retirando as pesquisas desnecessárias que seriam tratadas pelos
modelos e que influenciariam o seu desempenho.
Um exemplo comum na limpeza de dados é a busca por valores
incomuns que são impossíveis na prática. Bases de dados que possuem
idades ou tempos de contrato com clientes são bons exemplos disso.
Por vezes, encontram-se clientes que possuem mais de 100 anos de
relação contratual com empresas, ou até mesmo clientes com menos de
cinco anos de idade. Da mesma forma, encontrar consumidores que
possuam um relacionamento de 300 anos com a empresa não é tão
exótico assim – levando-se em consideração as relações familiares
desses consumidores. Esses valores são originados, possivelmente, de
falhas de digitação ou preenchimento de cadastros.

No esforço para limpeza e consistência dos dados, os campos devem ser
preenchidos com valores possíveis, como médias ou medianas da
variável. Outra opção seria o descarte do registro que possui tal valor. O
conceito por trás dessas ações é impedir que tal valor atrapalhe o
entendimento dos dados pelos modelos, induzindo-o a conclusões
erradas.
Esses métodos possuem características vantajosas e desvantajosas ao
serem aplicados. O fato de ignorar o padrão que possui valores
inexistentes é direcionado quando os dados se apresentam em grande
quantidade. Porém, pode ser desaconselhado o seu uso, quando
existirem poucos dados ou quando eles forem contraindicados, se o
padrão possui mais informação relevante além das variáveis com
valores ausentes. Inserir valor em um campo de maneira manual e
com uma constante, média, moda ou valor mais provável, segundo
algum modelo, salva o padrão da eliminação e aproveita todo o resto

da sua informação, mas pode influenciar na modelagem –
principalmente, se os valores ausentes estiverem em grande escala,
gerando uma visão sobre os padrões que pode estar distante da
realidade. Isso conduziria a algum modelo, considerando certas
estruturas de comportamento nos dados que não deveriam existir.
// Transformações
Alterações nos dados estão relacionadas à implantação de fórmulas
matemáticas aos valores de uma variável. O intuito é captar esses
elementos da maneira que melhor se adequem, visando a modelagem
posterior.
A consequência dessas alterações é elevar a quantidade de
informação, atendendo necessidades dos pré-requisitos dos
modelos ou até reduzindo a quantidade de erros. A
normalização ou padronização dos dados (utilizada em
variáveis com unidades distintas ou dispersões extremamente
heterogêneas) se apresentam como transformações de maior
número de realizações e maior grau de importância. São
estabelecidas com a função de tornar homogênea a
variabilidade ocorrida nas variáveis visualizadas em uma
base de dados. Isso ocorre através da criação de um

determinado espaço em que as variáveis irão se alocar,
chamado de intervalo de amplitude similar.
// Oversampling
Bases de dados normalmente manipulam variáveis categóricas com
alto grau de discrepância no que se refere à proporção de cada classe
existente. Suponha, por exemplo, que uma determinada empresa
possua base de telefonia celular detentora de uma variável que indique
se o cliente continua ou não vinculado a ela. Colocando em termos
percentuais, atinge-se algo em torno de 98% dos clientes ainda
vinculados e 2% dos clientes que já encerraram a sua relação com a
operadora. Variáveis desse tipo, no instante em que há a formação de
um modelo em que a distribuição ocorre de maneira extremamente
desequilibrada nas classes, conduzirão esse modelo a visualizar apenas
uma das classes. Fica impossível detectar a classe que apresenta menor
quantidade de registros, pois o mesmo direciona a resposta sempre à
classe de maior número de registros.
Esse problema é sanado através de um procedimento que condiciona a
distinção de classes, conhecido como oversampling. Por meio dele,
constrói-se uma base de dados renovada para a modelagem. Para isso,
é selecionada, de maneira aleatória, uma amostra contendo o maior

número de registros que pertencem à classe rara, ou o menor número
de ocorrências de uma classe comum. Espera-se, com isso, ajustar a
proporção entre as classes.
O oversampling apresenta limitações, pois existe um número reduzido
de observações das classes consideradas raras na base de dados. Com
isso, não é viável criar uma base de qualquer tamanho, mesmo que a
base de dados primária seja composta por uma quantidade imensa de
elementos. Esse procedimento é similar para variáveis que apresentam
mais de duas classes.
SINTETIZANDO
Nesta unidade, foi apresentado o conceito de Arquitetura
Tecnológica para Ambientes Analíticos, que recebe a
definição de uma construção de um ambiente de Tecnologia
da Informação, representada por um banco de dados, em que
serão armazenados os elementos coletados pela organização,
a fim de estruturá-los, relacioná-los e, assim, constituir um
local para servir de suprimentos e fornecer subsídios para
uma análise, extraindo-se informações para gerar um
conhecimento.
Foi explanado, também, sobre como essa coleta de dados
massiva gera um ambiente favorável para chegar à definição
de Big Data, que é como surge essa massa volumosa de
elementos que são coletados, armazenados por organização
de diversos setores, com a finalidade de servir de repositório
de dados estruturados para serem explorados, analisados e
através desse processo, servir de conhecimento para tomadas
de decisão como suporte ao direcionamento de empresas.
Apresentamos como o desenvolvimento de uma
infraestrutura de data centers, com o auxílio do cloud
computing, tem contribuído de maneira significativa para o
aumento de coleta, armazenamento, seleção e mineração dos
dados, utilizando técnicas, programas aplicativos e
linguagens de programação como R e Phyton.
Definimos a mineração de dados como um processo de
seleção dentro do ambiente de Big Data, apoiado por
softwares e linguagem de programação específicos, a fim de
gerar conhecimento (KDD), que é a formalização mais
elaborada do conjunto de informações geradas diariamente

e, muitas vezes, aleatoriamente, que podem ser disseminadas
entre as pessoas e as corporações empresariais.
Concluímos que, para que os projetos relacionados à Big Data
possam ser transformados em ideias de valor comercial, são
necessários investimentos considerados básicos na
montagem da infraestrutura: coleta, armazenamento,
visualização e saída de dados.
Por fim, chegamos à preparação dos dados para utilização
em suporte a melhor tomada de decisão, que é, basicamente,
um processo de coleta, limpeza, combinação, estruturação e
organização dos dados para análise. É constatado como a
medida fundamental para a viabilidade do trabalho com Big
Data, pois eleva a qualidade dos dados – o que
automaticamente culminará nos resultados com o Data
Mining.
REFERÊNCIAS BIBLIOGRÁFICAS
ANGELONI, M. T.; REIS, E. S. Business Intelligence como
tecnologia de suporte à definição de estratégias para

melhoria da qualidade do ensino. In: ENCONTRO DA ANPAD,
30., 2006, Salvador. Anais… Salvador: ANPAD, 2006.
APPLEGATE, L. M.; MCFARLAN, F. W.; MCKENNEY, J.
Corporate information systems management: text and case.
Chicago: McGraw Hill, p. 350-432, 1996.
APPLEGATE, L. M; MCFARLAN, F. W.; MCKENNEY, J.
Corporate information systems management - texf and case.
Chicago: McGraw Hill, p. 154-257, 1996a.
BAKSHY, E.; MESSING, S.; ADAMIC, L. A. Exposure to
ideologically diverse news and opinion on Facebook. Science,
Washington, v. 348, n. 6.239, p. 1.130-1.132, 2015.
BATISTA, E. O. Sistema de informação: o uso consciente da
tecnologia para o gerenciamento. São Paulo: Saraiva, 2004.
BIG DATA BUSINESS. Big Data: tudo que você sempre quis
saber sobre o tema! 2017. Disponível em:

<http://www.bigdatabusiness.com.br/tudo-sobre-big-
data/>. Acesso em: 09 fev. 2019.
CHIAVENATO, I. Introdução à teoria geral da administração.
4. ed. São Paulo: Makron Books, 1993.
CONTI, F.; CHARAO, A. S. Análise de prazos de entrega de
atividades no moodle: um estudo de caso utilizando
mineração de dados. RENOTE, v. 9, n. 2, 2011.
DONNER, J. After access: inclusion, development, and a more
mobile internet. Cambridge: MIT Press, 2015.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; UTHURUSAMY, R.;
SMYTH, P. Advances in Knowledge Discovery and data
mining, Califórnia/Cambridge: AAAI Press/The MIT Press, p.
1-34, 1996.
FAYYAD, U., PIATETSKY-SHAPIRO, G., SMYTH, P. From data
mining to knowledge discovery: An overview. Advances in

Knowledge Discovery and data mining. Inglaterra: AAAI
Press/The MIT Press. 1996a.
FURLAN, J. D. Modelagem de Objetos através da UML: The
Unified Modeling Language. São Paulo: Makron Books, 1998.
HURWITZ, J. et al. Big Data for Dummies. Hoboken: John
Wiley & Sons, Inc., 2013.
INSTITUTO INFORMATION MANAGEMENT. Estudo mostra
nível de maturidade no uso de Big Data no Brasil. 2013.
Disponível em:
<https://docmanagement.com.br/07/11/2013/estudo-
mostra-nivel-de-maturidade-no-uso-de-big-data-no-
brasil/>. Acesso em: 11 fev. 2019.
KALA, K. A.; CHITHARANJAN, K. A review on hadoop: HDFS
infrastructure extensions. In: IEEE Conference on Information
and Communication Technologies, 2013, India. Proceedings…
New Jersey: IEEE, p. 132-137, 2013.

KROENKE, D. Sistemas de informação gerenciais. São Paulo:
Saraiva, 2012.
O‘BRIEN, J. A.; MARAKAS, G. M. Administração de sistemas de
informação. 15. ed. Porto Alegre:
AMGH/McGraw-Hill/Bookman, 2013.
PRIMAK, F. V. Decisões com B. I. (Business Intelligence). São
Paulo: Moderna. 2008.
STAIR, R. M.; REYNOLDS, G. W. Princípios de sistemas de
informação. 9. ed. São Paulo: Cengage Learning, 2013.
STAIR, R. M. Princípios de sistemas de informação. Rio de
Janeiro: LTC, 1998.
THUSOO, A.; SARMA, J. S.; JAIN, N.; SHAO, Z.; CHAKKA, P.;
ZHANG, N.; ANTONY, S.; LIU, H.; MURTHY, R. Hive: A
Warehousing Solution Over a Map-Reduce Framework. Sort,
v. 2, p. 1.626-1.629, 2009.
WATSON, R. W. An Enterprise Architecture: A Case Study for
Decentralized Organizations. In: HAWAII INTERNATIONAL
CONFERENCE ON SYSTEM SCIENCES, Proceedings..., Hawaii,
Maui, 2000.
ZIKOPOULOS, P.; EATON, C.; DEROOS, D.; DEUTSCH, T.;
LAPIS, G. Understanding big data: Analytics for enterprise
class hadoop and streaming data. USA: McGraw-Hill, 2012.

Un 2 - Inteligência Analítica

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Un 2 - Inteligência Analítica

Enviado por

Direitos autorais:

Formatos disponíveis

Arquitetura Tecnológica para Ambientes Analíticos

Pela evolução dos Sistemas de Informação, é possível

observar que as organizações empresariais se constituem,

geralmente, dentro de um ambiente complexo de

Tecnologia da Informação. Esse ambiente é muito

importante para manutenção e sobrevivência das

empresas em relação à era da informação. Diante da

necessidade de implantar uma abordagem capaz de

construir um ambiente de TI para as empresas, surge o

conceito da Arquitetura Corporativa de Tecnologia da

A ACTI é um método organizado e sistemático, relacionado

à construção de um ambiente de Tecnologia da

Informação, direcionado para empresas. Esse método é

baseado em uma estrutura-guia chamada de framework,

que representa, com consistência e métodos organizados,

vantagens competitivas relevantes. A infraestrutura de TI, aliada ao uso

dos aplicativos, dá à organização – juntamente com os clientes,

fornecedores e órgãos reguladores – a integração e a agilidade

necessárias para realizar atividades do negócio.

O conceito de Arquitetura Corporativa de Tecnologia da Informação é

definindo como um processo que atua sobre uma organização interna de

um empreendimento. Isso pode ser visto em como são empregadas as

conexões entre equipamentos, políticas de padrões de funcionamento

operacional e sobre as soluções empregadas pela empresa afim de

priorizar políticas de segurança e privacidade. Esse conceito possui como

principal objetivo o alinhamento de fatores, como os resultados de médio e

longo prazo do empreendimento.

origina do modelo da organização, no qual a análise

sistemática desses aspectos norteia a organização

empresarial na geração, utilização e modificação do

ambiente de TI que deve auxiliá-la.

Segundo Watson (2000), a definição do ACTI, à medida que

se alinha com o modelo empresarial, possibilita a criação

de um framework para as ações relacionadas a

planejamento e implementação de uma infraestrutura de

informação. Esse alinhamento propicia, dentre outras

coisas, o intercâmbio facilitado da informação e seu

compartilhamento, passando pelo estabelecimento da

segurança e da privacidade até a redução dos custos. As

organizações empresariais podem, ao longo do processo,

a escalabilidade, flexibilidade, confiabilidade e alta

disponibilidade – requisitos básicos para serem operados

INTRODUÇÃO À BIG DATA

diariamente, é possível perceber que as ações de uma sociedade são

relevantes para a empresa estabelecer uma melhor relação com os

clientes, ou até mesmo compreender seu comportamento. O cenário – que

se apresenta com um dinamismo cada vez maior – e o fato de se obter um

acesso antes da concorrência refletem alterações no mercado e a

condição imprescindível para a sobrevivência dentro do mundo

Analisando mais detalhadamente as aplicações de Big Data Analytics,

verifica-se que suas possibilidades são mais abrangentes do que a

experiência do consumidor. O uso de tecnologias, por exemplo, eleva o

nível de segurança na infraestrutura de TI, auxilia nas ações de marketing,

reduz custos, aperfeiçoa processos, dentre outras coisas.

um ano e meio, se iguala à quantidade de dados criados pelos seres

humanos durante toda a história. A era da Big Data – isto é, o momento

em que vivemos – se destaca pela criação dos volumes desmedidos de

dados, sejam eles oriundos de empresas, pessoas ou aparelhos. O próprio

termo já remete a uma enormidade de dados que são gerados. Um dos

seus desdobramentos é conhecido como Big Data Analytics, que tem

como referência os sofisticados softwares utilizados para tratar os dados

obtidos e transformá-los em relevantes informações às empresas.

Registros de call center, balanço patrimoniais, demonstrativos de