Você está na página 1de 9

Arquitetura de Dados Estruturados e Não Estruturados

Em um cenário hipercompetitivo, é necessário que os gestores sejam assertivos nas tomada de decisões
operacionais, táticas e estratégicas. Em contrapartida, a tecnologia da informação deve estar preparada, para
atender a organização por meio de métodos e ferramentas tecnológicas, apoiando os gestores de forma a
obterem informação inteligente. Nesse sentido, é necessário compreender os conceitos de arquitetura de
dados estruturados e não estruturados. Dentro da arquitetura de dados estruturados, veremos os conceitos
de sistemas de bancos de dados transacionais e operacionais, especícos para a tomada de decisão
operacional e tática. Na arquitetura não estruturada, veremos os conceitos e ferramentas para manipulação
de dados multidimensionais, especícos para a tomada de decisão tática e estratégica.
Caro(a) estudante, ao ler este roteiro, você vai:
compreender os conceitos de arquitetura de dados estruturados e não estruturados; estudar
a arquitetura de dados estruturados: os banco de dados relacionais e os princípios da
linguagem SQL; compreender a arquitetura de dados não estruturados: business intelligence e os
princípios da linguagem NoSQL;
compreender os conceitos das base multidimensionais: data warehouse e data marts; reetir sobre o uso da
inteligência articial e do data mining (mineração de dados).

Introdução
Atualmente, os sistemas computacionais têm a nalidade de assegurar que todas as informações imputadas,
em transações ou em concorrência, devem ser armazenadas com segurança, em termos de conabilidade,
integridade e eciência.
Existem dois tipos de arquitetura de dados e cada qual tem a sua aplicabilidade. A arquitetura de dados mais
estruturada está relacionada às aplicações operacionais e transacionais de uma organização. Já dentro de
uma arquitetura de dados multidimensional semiestruturada e não estruturada, as aplicações dizem respeito
à descoberta de inteligência de diversas fontes para a tomada de decisão gerencial e estratégica.
Contudo, é de responsabilidade do gestor de TI a escolha por sistemas de banco de dados consistentes,
seguros e ecientes. Já a sua programação, para a manipulação coerente dos dados, é de responsabilidade do
analista ou administrador de sistemas e banco de dados. Portanto, conhecer os conceitos, características e as
diversas técnicas, para gerenciar dados estruturados, semi e não estruturados, para as suas aplicações
organizacionais, são de grande importância para estes prossionais.
Compreenderemos, além dos conceitos de arquiteturas de dados estruturados, por meio dos princípios de
gerenciamento de banco de dados relacionais e da linguagem SQL, os conceitos de arquitetura de dados não-
estruturados, pelas linguagens NoSQL. Veremos também os conceitos das bases multidimensionais (data
warehouse e data marts) e o uso da inteligência articial, especicamente, relacionado à mineração de dados.
Conceitos de Dados Estruturados e não Estruturados
Atualmente, com a criação das mais diversas tecnologias móveis e web, houve uma necessidade do
desenvolvimento de novas estruturas de dados, mais ágeis e diversicadas, como as arquiteturas de dados
semiestruturados e não estruturados. Os dados estruturados em sistemas de bancos de dados relacionais e
transacionais, a rigor, seguem padrões normalizados para efetuarem os devidos relacionamentos. Já nos
modelos semi e não estruturados, devido a suas essências de aplicabilidade, não possuem uma normalização
ou padrão.
Os sistemas de bancos de dados relacionais seguem uma característica de relação entre tabelas formadas por
linhas (registros, objetos) e colunas (campos, atributos). Para Ramakrishnan e Gehrke (2011, p. 50, grifado),
“o principal construtor para representar dados no modelo relacional é a relação. Uma relação consiste em um
esquema de relação e em uma instância de relação”. A instância da relação se refere a uma tabela (no
paradigma relacional) ou classe (no paradigma orientado a objeto) que contém todos os registros de dados
ou uma coleção de objetos. Já o esquema de relação descreve o cabeçalho da tabela, ou seja, os campos da
tabela, ou atributos de uma classe ou também denominados de “colunas de uma tabela”. Uma tabela, para
Heuser (2004), é um conjunto ordenado de linhas, também chamadas de tuplas. Cada tupla é um registro de
dados. Um exemplo é uma tabela de funcionários de uma empresa (tabela Funcionario) em que cada linha ou
registro é composta de uma série de campos (ou atributo).
Já em nos modelos não estruturados e semiestruturados, podem ser classicados em chavevalor (key-value),
orientados a documentos (document), coluna familiar (column family) e banco triplo (triple). O tipo “chave-
valor”, segundo Rockenbach, Anderle, Griebler e Souza (2018) são aqueles bancos que possuem informações
associadas à respectiva chave. Muito utilizados em sistemas web e-commerce. No modelo orientado a
documentos, as informações são armazenadas em árvores tipo XML. Já em um modelo do tipo “colunas
familiares”, a estrutura é equivalente à tradicional, contudo, as informações são armazenadas em colunas em
vez de linhas. E, por m, no modelo banco triple, as informações são armazenadas em registros triplos: sujeito,
propriedade e relacionamento.

Arquitetura de Dados Estruturados: Banco de Dados Relacionais e os


Princípios da Linguagem SQL
Para obter uma melhor eciência nos projetos de banco de dados, tanto na questão de otimização de
consultas como no acesso aos dados, é necessário compreender a arquitetura interna do gerenciador de
banco de dados, indexação de tabelas, estruturas de armazenamento, controle de concorrência e a
recuperação de falhas. Silberschatz, Korth e Sudarshan (2006) comentam que os sistemas de banco de dados
são projetados para gerenciar grandes blocos de informação e para gerenciar tal quantidade de informação, é
necessário denir estruturas para armazenamento de informação e fornecer mecanismo para manipulação de
informações.
O Sistema de Gerenciamento de Dados (SGBD), segundo Date (2003, p. 37), é um software que trata de todo
o acesso ao banco de dados. Conceitualmente, o SGBD realiza uma intercepção de alguma solicitação advinda
dos usuários pelas aplicações. Esse procedimento é realizado por meio de alguma linguagem de manipulação
de dados, como o SQL. Após a intercepção, o SGBD inspeciona um esquema externo para este usuário
(esquema conceitual), o mapeamento conceitual interno e a denição do banco de dados armazenado. Para
Feitosa (2013, p. 73), o SGBD é um software executado no nível de serviços, ou seja, um serviço é executado
em segundo plano (background), no qual aguarda requisições do programa/usuário. Para se comunicar com o
SGBD, é necessário construir uma aplicação que estabeleça conexões com uma porta lógica e o SGBD. O
fabricante dos SGBD devem fornecer aplicações com interfaces, para realizar o gerenciamento do banco de
dados. O SGBD recebe comando SQL por esta porta lógica em uma cadeia de caracteres tipo string. Na
sequência, o SGBD realiza a análise de sintaxe desta cadeia de caracteres e o executa. O esquema abaixo
ilustra as principais funcionalidades de execução de um SGBD.

Figura 1 - Funcionalidade de um SGBD Fonte: Elaborada pelo autor.

Na Figura 1, após a requisição do usuário por uma consulta de relatório de clientes por meio de uma
aplicação especíca, veja que o serviço irá utilizar o processador de DQL (linguagem de consultas de dados),
vericando a sintaxe, inspecionando os esquemas da base de dados, executando a instrução SQL e retornando
ao usuário as informações solicitadas.
A estrutura de gerenciamento de banco de dados é formada por uma série de objetos, como compiladores,
mecanismos de avaliação, gerenciadores, dicionários de dados, arquivos, registros, campos e índices. A
maioria dos bancos de dados da atualidade são modelos relacionais, projetados com a sub linguagem DML
(Linguagem de Manipulação de Dados) e DDL (Linguagem de Denição de Dados) nos seus SGDs (Sistemas
Gerenciadores de Banco de Dados). Já uma estrutura de Sistema de Banco de Dados é mais ampla e é
composta de três camadas de acesso e de processamento de dados, como: 1. Processador de consulta; 2.
Gerenciador de armazenamento; e 3. Armazenamento em disco, como ilustra a Figura 2, a seguir:
A linguagem SQL (Structured Query Language) foi desenvolvida pela IBM, na década de 1970, para
implementações em modelos relacionais, tornando-se padrão, desde 1986, quando a ANSI (American
National Standards Institute) endossou a SQL como linguagem padrão para os bancos de dados relacionais.
Essa poderosa linguagem é utilizada, para consultar, criar tabelas, inserir, excluir e alterar dados em um
banco de dados.

Figura 2 - Sistema de um banco de dados Fonte: Elaborada pelo autor.

A SQL é uma linguagem declarativa, ou seja, ela permite denir metadados (DDL - Linguagem de denição de
dados), manipular dados (DML - Linguagem de manipulação de dados) e denir comandos para a segurança e
integridade dos dados (DCL - Linguagem de controle de dados). O usuário, pelos comandos SQL, consegue
montar consultas complexas e poderosas sem criar um código de programação (CARDOSO; CARDOSO, 2012).
Sistemas de banco de dados
Autor: Ramez Elmasri e Shamkant B. Navathe
Editora: Pearson Education do Brasil
Ano: 2018

Arquitetura de Dados não Estruturados: Business Intelligence e os


Princípios da Linguagem NoSQL
Atualmente, os sistemas de banco de dados transacionais e operacionais armazenam uma quantidade
massiva de fontes de dados internas e externas das organizações, por exemplo, dos sistemas de gestão
empresariais e das mídias digitais, das redes sociais e dos diversos dispositivos móveis. Para uma tomada de
decisão eciente, estruturação de uma inteligência competitiva ou uma contrainteligência, é necessária uma
busca de informações eciente e inteligente. Para isto, é necessário utilizar-se de ferramentas de mineração de
dados (data mining) e de projetos de data warehouse (busca inteligente de informações nos negócios).
Apesar de a consolidação se referir às informações sumarizadas, as técnicas de mineração de dados (data
mining) e de busca de informações nos armazéns de dados não deixam de ser uma consolidação de padrões e
dados selecionados. Estes dados selecionados de maneira inteligente por ferramentas especícas servem para
que os mesmos possam ser trabalhados pelos tomadores de decisão. Os algoritmos de data mining e os
projetos de data warehouse são de suma importância para tomada de decisão rápida e de qualidade.
Outro grande armazém de dados não estruturados é o big data. Segundo Alexandre e Cavique (2013, p. 38),
“o NoSQL vem trazer solução para o grande volume de informação que é gerada e tem que ser analisada e
com a necessidade das organizações manterem a informação durante um longo período de tempo, o Big
Data”.
Ainda sobre o NoSQL, Elmasri e Navathe (2018, p. 795):

[...] o termo NoSQL é geralmente interpretado como Not Only SQL [...] e tem como
nalidade transmitir a ideia de que muitas aplicações precisam de sistemas diferentes
dos sistemas SQL relacionais tradicionais para ampliar suas necessidade de
gerenciamento de dados. A maioria dos sistema NoSQL são bancos de dados
distribuídos ou sistemas de armazenamento distribuído com foco no armazenamento
de dados semiestruturados, alto desempenho, disponibilidade e replicação de dados, e
escalabilidade, ao contrário da ênfase em consistência imediata de dados, linguagens
de consultas poderosas [Caso da SQL] e armazenamento de dados estruturados.
Os sistemas big date utilizam NoSQL e possuem características denominadas 3V, volume, velocidade e
variedade de dados. O que difere um sistema de dados data warehouse, data mining e big data é a sua
organização, arquitetura e volume de seus dados.
Em um sistema de banco de dados do tipo big data, o armazenamento é realizado a partir de um grande
volume de dados não estruturados ou semiestruturados. Já no data mining e no data warehouse, o
armazenamento, em volume menor, é feito a partir de bases estruturadas, semiestruturadas e não
estruturadas.
NoSQL no suporte à análise de grande volume de dados
Autores: Joel Alexandre e Cavique Luís
Ano: 2013
Projeto de banco de dados com XML
Autor: Mark Graves
Editora: Pearson Education do Brasil
Ano: 2003

Conceitos das Bases Multidimensionais: Data Warehouse e Data Marts


O data warehouse (DW), o termo signica armazém de dados ou depósito de dados, é um acervo lógico que
concentra vários tipos diferentes de bancos de dados e que possui a função de consolidar as informações
para a análise de negócio e tomada de decisão. Os data warehouses consolidam as informações orientadas a
assuntos das atividades organizacionais a partir de um grande volume de dados, favorecendo relatórios e
análise de informações estratégicas. Para Alves (2018, p. 132), o data warehouse (DW) pode ser entendido
como:
[...] um banco de dados especializado, capaz de trabalhar com um número maior de
dados, e não apenas com dados internos da empresa. [...] Estes softwares são capazes
de processar informações e não apenas dados, e podem fazer parte dos sistemas de
apoio à decisão.
As fontes de bases de dados do data warehouse são bases transacionais e operacionais internas e externas
(OLTP – Online Transaction Processing ou processamento de transações em tempo real, que incluem
inserções, atualizações e exclusões, além de requisitos de consultas), que correspondem às informações das
diversas áreas organizacionais internas, como marketing, vendas, estoque, faturamento. E as bases externas
são as que contêm informações sobre a concorrência, do negócio e setor, análise do mercado de ações etc.
Para Alves (2018, p. 132), “o DW armazena e combina estes dados, gerando algumas informações e
ferramentas, por exemplo, para consultas de informações e relatórios de diversos tipos, oferecendo uma
visão multidimensional da empresa”. As informações destas bases de dados passam por um processo de
extração, transformação e carregamento (ETL – Extraction, Transformation, and Loading) e são armazenadas
para dentro de um armazém de dados, como ilustra a Figura 3, abaixo, representando um data warehouse. O
data warehouse surgiu, na década de 1980, por meio de um conceito acadêmico, para suprir a deciência dos
sistemas transacionais e operacionais OLTP, ao realizar as tarefas de análise com tarefas de relatórios
consolidados. Hoje, o data warehouse faz parte de uma das principais soluções de business intelligence do
mercado.

Figura 3 - Business intelligence por meio de um projeto de data warehouse Fonte: Elaborada pelo autor.

Descrição: os dados do data warehouse são coletados de bases transacionais pela ETL (extração,
transformação e leitura), após armazenados de forma catalogada no armazém de dados. O data warehouse
também podem gerar pequenos cubos de dados, os data marts.
Observe, na Figura 3, que todas as bases transacionais internas e externas passam por uma extração de dados
sendo consolidadas em um enorme cubo de dados (warehouse) e depois em cubos menores (data marts).
Estes cubos de dados possuem dimensões diferentes das bases transacionais e operacionais. São bancos de
dados multidimensionais. A dimensão de um banco de dados é uma característica da informação. Cada
camada de um data warehouse ou data mart representa um tipo de informação. E o cubo é a representação
da multidimensionalidade dessas informações.
Observe também, na gura, que os cubos data marts são criados de forma personalizada, para facilitar as
extensivas pesquisas por assuntos especícos, como um data mart especíco de vendas com informações do
mercado e da concorrência, ou um data mart de produção x estoque x pedidos ou ainda um data mart de
informações do mercado econômico-nanceiro x mercado de ações.
Para Alves (2018, p. 136), a “orientação por assunto é uma característica marcante de um DW, pois toda
modelagem é desenhada em torno dos principais assuntos da empresa. Já os sistemas transacionais estão
voltados para processos e aplicações especícas”.
A estrutura multidimensional facilita a pesquisa para a geração de relatórios e grácos sumarizados e de forma
analítica, dependendo dos recursos da ferramenta de leitura do cubo. Após a criação do cubo data mart, os
usuários, por aplicativos especícos de leitura, podem destrinchar e detalhar as informações por meio da
adição de dimensões, cruzando-as para visualização. Esse procedimento é denominado de análise
multidimensional. O diagrama da Figura 4, abaixo, ilustra um cubo representando as três dimensões de
informações (produto x cliente x região). Mas a representação na prática da multidimensionalidade é innita.

Figura 4 - Diagrama representando as três dimensões de um cubo de informação de vendas Fonte: Elaborada pelo autor.

Descrição: o cubo data mart possui multidimensões.


Com o cubo de vendas com várias dimensões inter-relacionadas, é possível vericar quais foram os produtos
vendidos, em determinada região, por clientes especícos. Uma possível tomada de decisão seria a atuação de
uma maior força de vendas para as regiões de menor venda ou efetuar ainda um marketing mais agressivo
para estes determinados clientes ou regiões. Se acrescentarmos uma nova dimensão ao cubo, por exemplo,
“contas a receber” da base nanceira, rodando o extrator de dados, migra-se, assim, dados do data warehouse
e gerase um novo data mart (produtos x clientes x região x contas a receber). Por meio da adição dessa nova
dimensão ao data mart, é possível detalhar qual a razão de possíveis inadimplências de clientes, mesmo que
tenham uma alta quantidade de pedidos fechados (alta quantidade de vendas). A análise pelo cruzamento
das informações com um data mart se torna mais rica e rápida para a tomada de decisão. Em um DW ou DM
(data mart), “as informações fornecem padrões consistentes, gerando, assim, relacionamentos
informacionais correlacionados e transformando a informação em nova informação” (ALVES, 2018, p. 136).
Com estas ferramentas de business intelligence, dos modelos de data warehouse e de data mart são
reduzidas as customizações de programas especícos para a criação de relatórios a partir das bases
transacionais e operacionais. Reduzem também o tempo de extração de dados das bases, evitando a
elaboração de planos de otimização de índices e estudo de recuperação de dados.
Explore mais o assunto sobre análise multidimensional nas recomendações a seguir.
Sistemas de informações gerenciais
Autor: Kenneth C. Laudon e Jane Price Laudon
Editora: Price Hall
Ano: 2007

Inteligência Artificial e Data Mining (mineração de dados)


Nas organizações, as bases transacionais são utilizadas, para rastrear padrões e tendências às complexas
tomadas de decisões em qualquer nível organizacional. Uma área da inteligência articial que está ajudando a
encontrar conhecimento em grandes bases de dados, para resolver problemas à tomada de decisão é a
mineração de dados. Segundo Yanaze (2011, p. 281)

[...] a mineração de dados ou Data Mining são ferramentas que possibilitam a


extração de informações úteis de bancos de dados volumosos e complexos, da
descoberta de padrões, associações, mudanças e anomalias nos dados existentes [...]”.
A mineração de dados pode levar a uma capacidade preditiva e analítica poderosa de dados. As
funcionalidades da mineração de dados são usadas, para especicar os tipos de informações nas tarefas
descritivas e preditivas. As tarefas descritivas caracterizam as propriedades gerais dos dados, já as preditivas
fazem inferência a partir dos dados, objetivando predições. Para encontrar informações necessárias em uma
base de dados, é necessário se chegar a uma análise descritiva ou agrupamento. Já para uma descoberta de
conhecimento, é necessário fazer com que o algoritmo aprenda de acordo com o seu desempenho
(classicando, estimando ou associando dados).
É possível dividir uma mineração de dados em uma sequência de etapas para a descoberta do conhecimento:

1. Pré-processamento de dados: etapa que diz respeito ao processo de preparação


da base de dados, limpeza, integração, redução, transformação e discretização dos
dados;{
2. Análise descritiva dos dados: etapa que se refere ao processo de visualização
dos dados;
3. Análise de grupos: etapa que diz respeito ao processo de agrupamento de dados
(similaridades e formas de representação dos agrupamentos);
4. Aprendizagem: é a etapa de aprendizagem através de algoritmos de
aprendizagem que podem ser por classicação, estimação ou por regras de associação;
As ferramentas de inteligência nos negócios (BI - business intelligence), como o data mining, é um dos
principais subsídios da inteligência competitiva organizacional.
Segundo Sferra e Corrêa (2003, p. 136) citados por Alves (2018, p. 136), o data mining, também conhecido
como mineração de dados,

[...] é uma tecnologia que emergiu da intersecção de três áreas: estatística clássica,
inteligência articial e aprendizado máquina, sendo a primeira mais antiga delas.
Observa-se que o Data Mining é parte de um processo conhecido como KDD
(Knowledge Discovery in DataBase) - em português: Descoberta do conhecimento em
base de dados.
O BI está relacionado a um processo de captura, processamento e análise de dados para a elaboração de
estratégias e tomada de decisão corporativa, podendo alcançar resultados surpreendentes na busca de
inteligência nos negócios.
Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações
Autor: Leandro Nunes de Castro e Daniel Gomes Ferrari
Editora: Saraiva
Ano: 2016

Conclusão
A compreensão da arquitetura de dados estruturados, não estruturados e suas particularidades híbridas
fazem dos analistas, preparadores de dados e gestores, importantes articuladores coadjuvantes da estratégia
organizacional. Por isso, os prossionais de tecnologia devem entender que os sistemas da atualidade
necessitam de um armazenamento adaptável, advindo de diversas fontes de dados, de forma segura,
conável, íntegra e eciente.

Vimos que este armazenamento adaptável dentro das organizações pode ser constituído de um conjunto de
ferramentas de recuperação e armazenamento de informações operacionais, táticas e estratégicas. As
informações operacionais são atendidas pelas arquiteturas de dados mais estruturados como as bases
transacionais e relacionais. Já as informações táticas e estratégicas são atendidas pelas arquiteturas de dados
semi e não estruturados, como as bases multidimensionais e as NoSQL.

avanços e aplicações. 2. ed. São Paulo: Saraiva, 2011.

Você também pode gostar