Escolar Documentos
Profissional Documentos
Cultura Documentos
Com uma visão clara do resultado em mente, você pode começar a pensar na análise em si. Que métodos você
precisará aplicar? Quais ferramentas você precisa? Agora que sabemos que tipo de análise você pretende fazer,
precisamos considerar de onde obteremos os dados necessários para fazê-lo.
Em primeiro lugar, é possível que tudo já esteja feito. Antes de investir muito tempo e energia, é uma boa ideia
perguntar por aí para ver se alguém já fez essa análise antes. Ou se alguém já reuniu os dados de que você
precisa para fazer a análise. Se sim, você acabou de economizar muito trabalho desnecessário. Supondo que
você esteja no caminho certo, você deseja delinear cada tipo de dados de que precisa em sua análise e
determinar se eles existem na nova organização e como pretende obtê-los. Se você tiver sorte, tudo que você
precisa já foi colocado em um local comum, como um data warehouse ou ambiente de business intelligence.
Nesse caso, pode ser apenas uma questão de extraí-lo para análise.
Se você precisar de uma resposta até sexta-feira e a análise levar duas semanas para ser concluída, você
precisa encontrar uma abordagem diferente. Depois de determinar que você pode obter tudo o que precisa e
seu cronograma é bom, é hora de começar. Agora você pode prosseguir com a coleta de dados, realizando a
análise, obtendo o resultado e tomando a decisão de negócios que leva à ação que deseja realizar.
Comece com as decisões que deseja tomar, determine quais resultados da análise ajudariam a tomar essa
decisão. Projete a análise que cria essas saídas e determine quais dados são necessários para análise e como
obtê-los.
Como analista de dados, você trabalhará com dados que descrevem todas as coisas em seu diagrama. Portanto,
parece natural começar a olhar para cada elemento e se perguntar de onde vêm as informações sobre esse
elemento, e começar a determinar se você tem a capacidade de vincular as coisas da mesma maneira, usando
esses dados.
Quanto melhor você compreender o valor de cada etapa, mais eficaz será como analista. A maneira como
ilustramos essa ideia é por meio de uma estrutura que chamamos de cadeia de valor de ação-informação, que é
uma ideia que descreve um processo sequencial onde cada etapa adiciona algum tipo de valor a um objeto ou
uma ideia relativa a um ponto final ou resultado desejado.
O ponto aqui é que para cada evento de interesse no mundo real, é necessário que haja um sistema que o
capture. Começaremos com a parte de cadeia de valor, que ocorre antes da análise. Para analisar um trabalho,
precisamos ter dados, e precisamos de um mecanismo para capturar a representação física ou digital desse
fenômeno do mundo real e colocá-lo em algum lugar. Normalmente, isso acontece por meio de algum tipo de
sistema Front-end ou um sistema que interage diretamente com clientes ou objetos físicos.
Precisamos de um sistema que capture cada evento, chamamos de sistema de origem, acontece que muitos
sistemas de origem são ótimos para capturar dados, mas não tão bons para análise. Minha análise pode exigir
que eu obtenha informações de mais de um sistema de origem, para isso, podemos reunir os dados em algum
local comum, na maioria das vezes, esse local é um sistema físico chamado Data Warehouse. Vamos nos
concentrar em algo que chamamos de Banco de dados relacional e em uma linguagem de programação
chamada Structured Query (SQL).
Falaremos sobre pessoas: As pessoas possuem características que as descrevem, como idade, gênero,
nacionalidade, etnia, raça, estado civil e estado familiar. Nível educacional, nível socioeconômico, status de
moradia. A lista continua e continua. As pessoas também têm preferências, crenças, atitudes e motivações que
ajudam a definir quem são. Eles podem não ser óbvios ou fáceis de obter, mas existem e existem métodos para
capturar informações sobre eles.
Freqüentemente, agrupamos essas características em algumas categorias amplas que você pode encontrar em
um contexto de negócios. Ou seja, demografia, psicografia e tecnologia. Os dados demográficos descrevem
amplamente as características do nível da população, como idade, sexo, nacionalidade, etc. E são as
características mais amplamente utilizadas em muitos tipos diferentes de análise. Os psicográficos falam mais
sobre as opiniões, atitudes e interesses das pessoas. Eles incluem preferências, gostos e desgostos e tendem a
revelar ideias sobre por que as pessoas fazem o que fazem.
A tecnologia é realmente um subconjunto da psicografia que se concentra em como as pessoas abordam a
tecnologia e quais são suas motivações e atitudes em relação ao uso de tecnologias novas e existentes. Todos
esses eventos relacionados podem ser do interesse da empresa e do analista. Além das características, as
pessoas também possuem identificadores. Eles têm nomes, endereços, números de telefone, endereços de
e-mail, identificadores de Facebook e Twitter, e todos os tipos de atributos únicos que podem ser usados para
identificá-los no mundo real. Vamos mudar um pouco das próprias pessoas para onde essas pessoas estão e
para onde vão.
Falaremos sobre objetos: Os objetos também têm uma localização física e podem se mover. Pense no caminho
de entrega de um pacote ou como sua bagagem se move quando você voa. Considere a maneira como as
matérias-primas podem entrar na fábrica e passar progressivamente por uma linha de montagem,
transformadas em produto e armazenadas. Também tendemos a vender produtos em e por meio de canais de
vendas, como lojas ou sites. Além disso, os objetos não apenas existem e são movidos, eles podem realmente
fazer coisas, especialmente em máquinas.
Os sistemas de clientes e pessoas podem ser críticos para os negócios, mas se concentram mais nas
organizações de pessoas, tanto dentro quanto fora da empresa. Os mais expansivos desses sistemas são os
sistemas de gerenciamento de relacionamento com o cliente ou CRM. Os sistemas de CRM são usados para
rastrear e gerenciar as interações do cliente em todos os pontos de contato e durante todo o ciclo de vida do
cliente com a empresa.
Os sistemas de atendimento ao cliente geralmente são usados por representantes de call center ou outro
pessoal que tem contato direto com os clientes. Eles geralmente fornecem acesso às informações da conta do
cliente, ofertas de marketing ou outras funções necessárias para ajudar a preservar os clientes. Eles também
ajudam a registrar o que aconteceu durante a interação, incluindo notas e comentários.
Os sistemas analíticos e de gerenciamento da web online são bastante específicos, mas quase todas as
empresas com um site têm um. O que esses sistemas fazem é rastrear como os usuários navegam em um site.
Eles ajudam a identificar problemas com sites, influenciam o design do site e medem a atividade e o
desempenho.
Os sistemas de operação técnica são geralmente muito táticos, ajudando a monitorar processos ou outros
sistemas para garantir que estão funcionando corretamente e para identificar problemas quando ocorrem.
Os sistemas de monitoramento de processo medem o que está acontecendo em cada estágio de um processo,
como uma sequência de fabricação ou uma série de operações de software. Os sistemas de monitoramento de
alarmes e falhas detectam anomalias nos processos ou nas operações da máquina e alertam as pessoas ou
outros sistemas que uma ação ou atenção é necessária.
Telemática e sistemas de processamento de dados de máquina capturam dados diretamente de máquinas e
dispositivos onde quer que estejam e alimentam todos os tipos de outros sistemas, incluindo os que acabamos
de descrever. Esse tipo de dados é particularmente estimulante para a comunidade analítica, à medida que
ideias como a internet das coisas e a casa conectada se tornam realidade.
SEMANA 2
Data Storage and Databases
Onde armazenamos? Considerando que estamos potencialmente capturando grandes quantidades de dados
em nossos sistemas de origem. É natural perguntar para onde diabos vão todas as coisas? Bem, acontece que
cada fonte geralmente tem seu próprio sistema de armazenamento para armazenar dados relevantes a esse
sistema. Infelizmente, isso não é necessariamente ideal para nós, analistas, por alguns motivos.
Em primeiro lugar, é provável que o sistema de armazenamento da origem seja otimizado para desempenho
funcional, não para extração e análise de dados. Como exemplo, você pode ter visto os termos processamento
transacional online ou OLTP. Esses termos se referem a sistemas de armazenamento que são otimizados para
operações e transações de negócios versus aqueles que são otimizados para análises.
Embora seja possível realizar análises em sistemas transacionais, geralmente é muito mais fácil fazê-lo em
sistemas analíticos. O segundo desafio com os sistemas de armazenamento de origem é que eles geralmente
contêm muito mais informações do que realmente precisamos para análises. Não é incomum que um banco de
dados de origem contenha todos os tipos de dados de trabalho internos que realmente não têm uso fora da
operação do sistema.
Por fim, como os sistemas de origem geralmente lidam com volumes muito altos de dados, eles podem não
armazenar dados por muito tempo para otimizar o desempenho geral desse sistema. Isso significa que, se
quisermos que os dados, ou algum subconjunto dos dados, estejam disponíveis por um período mais longo,
precisamos pegá-los e colocá-los em um local de armazenamento de longo prazo. Uma solução comum é reunir
dados em um local de armazenamento separado, este pode ser um repositório central de dados, onde os dados
são colocados fisicamente; também pode ser um repositório virtual, onde os dados estão fisicamente localizados
em locais diferentes, mas aparecem para o usuário como se estivessem em um local comum.
Como armazenamos? Um arquivo de texto delimitado contém dados que representam uma tabela bidimensional
com colunas e linhas. Esses dados em si são armazenados como texto com quebras entre as colunas e linhas,
identificados por meio de caracteres específicos ou códigos de formatação chamados delimitadores; os
delimitadores mais comuns são vírgulas, tabulações e barras verticais; a barra vertical é o caractere da linha
vertical que você vê no teclado.
Um segundo tipo de arquivo é uma Linguagem de marcação extensível ou arquivo XML. XML é uma estrutura
flexível de codificação de documentos e dados que foi desenvolvida no final dos anos 90, principalmente para
facilitar o compartilhamento de dados pela Internet, no entanto, ele possui uma ampla variedade de aplicativos,
desde páginas da web até aplicativos e sistemas de mensagens. O bom do XML é que ele é um padrão comum
e permite uma estruturação de dados mais complexa do que estou fazendo no arquivo de texto; a desvantagem
é que requer uma interface mais sofisticada para interpretar os dados e a estrutura para análise.
A vantagem dos arquivos de log é que eles são muito flexíveis, podendo capturar praticamente qualquer
estrutura de dados desejada. No entanto, isso ocorre às custas de um processo muito mais complicado de
leitura e uso dos dados; na verdade, existem ferramentas de software específicas que se especializam em
analisar arquivos de log.
O último tipo de arquivo de dados que discutiremos é, na verdade, uma classe de arquivos que são específicos
para ferramentas comuns de análise de dados. A maioria das ferramentas tem seus próprios formatos de
arquivo proprietários para armazenar dados, junto com outras informações chamadas metadados, que descreve
cálculos, operações ou outros atributos dos próprios dados, de longe, o mais comum deles é o arquivo de
planilha do Microsoft Excel.
Um banco de dados é simplesmente uma coleção organizada de dados. Quando dizemos banco de dados,
normalmente estamos nos referindo à estrutura e ao design de um ambiente de dados, bem como aos próprios
dados. Um banco de dados busca armazenar dados de uma forma mais complexa do que seria possível em um
arquivo de dados. Especificamente, um banco de dados geralmente armazena várias entidades de datas
diferentes com algumas informações unificadas sobre como essas entidades são organizadas ou relacionadas.
Isso permite o acesso a uma ampla gama de informações em um ambiente comum.
Normalmente, um banco de dados é construído usando um sistema de gerenciamento de banco de dados ou
DBMS. Um sistema de gerenciamento de banco de dados é um aplicativo de software usado para criar, manter
e acessar bancos de dados. Um sistema de arquivos é basicamente o equivalente digital de um arquivo
organizado. Pense em seu próprio computador, é assim que você provavelmente armazena a maioria das coisas
em seu PC ou Mac. O bom de um sistema de arquivos é que posso colocar praticamente tudo o que quero lá e
apenas anotar seu nome e localização para que possa encontrá-lo mais tarde. Os sistemas de arquivos são
atraentes porque podem lidar com todos os tipos de informações, incluindo o que chamamos de dados não
estruturados.
A desvantagem de armazenar dados em sistemas de arquivos é que não é tão óbvio como os dados foram
acessados, visto que você está enviando vários locais de arquivos diferentes. Também não está claro como faço
a análise de dados em algo como um documento, foto ou vídeo sem algum tipo de processamento intermediário
para transformá-lo em algo mais estrutural. Um exemplo importante de sistema de arquivos é o Hadoop
Distributed File System ou HDFS, que é uma manifestação de big data do conceito de sistema de arquivos.
Tipos de arquivo:
Existem vários tipos de bancos de dados mas; de longe o mais comum é o Banco de Dados Relacional. O
conceito básico por trás dos bancos de dados relacionais é que armazenamos informações em tabelas
bidimensionais e, em seguida, encontramos relacionamentos específicos entre essas tabelas, acontece que essa
pode ser uma maneira realmente eficiente e eficaz de armazenar dados que é muito fácil de entender, o que
contribui para sua popularidade.
Com a virtualização de dados, não buscamos necessariamente alterar os dados ou integrar dados de várias
fontes. Mas tornamos muito mais simples para os usuários obtê-lo sem ter que se preocupar com detalhes do
formato de dados e da tecnologia subjacentes.
Uma vantagem da virtualização de dados é que podemos evitar ter que armazenar dados em vários locais,
nomeadamente no sistema de origem e em algum banco de dados de destino. Outra vantagem é que as
alterações nos dados de origem geralmente são refletidas imediatamente na camada de acesso do usuário, já
que não preciso esperar que os processos ETL sejam executados e mova os dados de um lugar para outro.
Novamente, a virtualização de dados por si só faz com que os dados pareçam estar em um só lugar, não faz
sentido, necessariamente, como os dados de diferentes fontes se relacionam, o que é uma das principais
vantagens de construir um banco de dados centralizado.
As vantagens da federação de dados são semelhantes às da virtualização de dados, com o benefício adicional
de apresentar ao usuário uma visão mais integrada dos dados de várias fontes, obviamente, isso acarreta um
processamento ainda mais complexo que pode resultar em um desempenho mais lento quando os dados são
acessados ou extraídos. Tanto a virtualização quanto a federação de dados geralmente são realizadas por meio
de aplicativos de software especializados que se conectam a uma variedade de sistemas de origem diferentes.
Embora eliminem a necessidade de mover dados usando processos ETL, eles ainda requerem desenvolvimento
e manutenção para estabelecer essas conexões e apresentar uma visão unificada dos dados aos usuários.
As outras duas ideias que queremos discutir, computação em memória e análise em banco de dados, são um
pouco diferentes porque buscam maximizar o desempenho das operações analíticas em vez de minimizar a
movimentação de dados no armazenamento físico. Com a computação in-memory, todos os dados necessários
para análise são carregados na memória de acesso aleatório de um computador ou servidor, ou RAM, onde
podem ser acessados muito rapidamente.
Normalmente, toda uma estrutura de dados, incluindo relacionamentos entre entidades de dados, é armazenada
e disponibilizada para fins analíticos. A vantagem dessa abordagem é obviamente a velocidade. Como analista,
posso aplicar técnicas complexas aos dados em muito menos tempo do que levaria se tentasse acessar os
dados armazenados no disco localmente ou em um servidor remoto, e uma vez que os dados estão na memória,
posso tentar muitas coisas diferentes sem ter que esperar muito entre cada tentativa, isso permite esforços
analíticos que requerem exploração e tentativa e erro para serem realizados.
Em bancos de dados relacionais, armazenamos informações em tabelas e, em seguida, definimos
relacionamentos específicos entre essas tabelas. Uma tabela é uma estrutura bidimensional que armazena
dados em linhas e colunas. A maioria dos bancos de dados relacionais são orientados por linha, o que significa
que as idéias ou itens descritos na tabela são armazenados em linhas, com as colunas das tabelas contendo
atributos que descrevem as idéias ou itens de interesse.
A ideia de painel é uma extensão do relatório padrão. À medida que mais e mais relatórios padrão são criados
em uma organização, fica mais difícil isolar as informações mais importantes de que um executivo ou outro
tomador de decisão pode precisar para dar sentido ao negócio. Uma solução para esse problema é pegar um
subconjunto de relatórios e apresentá-los em uma visão simplificada que permite que as métricas mais
importantes sejam rapidamente identificadas e interpretadas. Os painéis também tendem a ser um pouco mais
dinâmicos e podem apresentar informações mais oportunas do que alguns relatórios padrão. Como o nome
sugere, a analogia aqui é o painel do seu carro, que permite que você veja as coisas mais importantes que estão
acontecendo enquanto você dirige.
A exploração de dados é uma extensão inteligente da ideia de visualização de dados. As ferramentas de
exploração de dados buscam orientar proativamente o analista de dados, digitalizando automaticamente os
dados e fornecendo pistas ou sugestões sobre o que o analista de dados pode olhar a seguir. Eles também
fornecem ferramentas de navegação avançadas que permitem ao analista explorar com eficiência um conjunto
de dados. Esses recursos são geralmente integrados a algumas das mesmas ferramentas especializadas em
visualização de dados.
Um segundo método pode ser chamado de abordagem de conexão direta. Com essa abordagem, conectamos
nossa ferramenta analítica diretamente a um banco de dados ou outra fonte de dados usando o que é chamado
de conectividade de banco de dados aberto, ou conexão ODBC, ou alguma outra interface de programa de
aplicativo ou conexão API.
Vamos passar para as ferramentas de business intelligence, que incluem relatórios padrão, visualização de
dados e ferramentas de exploração de dados. Essas ferramentas são uma boa escolha para uma ampla
variedade de necessidades analíticas destinadas a tornar a manipulação complexa de dados mais fácil e rápida
do que outras ferramentas.
Nem é preciso dizer que a análise requer exploração extensiva ou técnicas de visualização avançadas.
Ferramentas adequadas para essas operações produzirão melhores resultados. As ferramentas de business
intelligence também são preferíveis nos casos em que a saída da análise será amplamente compartilhada ou
transformada em um relatório padrão, pois geralmente incluem uma funcionalidade de distribuição de
agendamento mais avançada. A modelagem estatística e as ferramentas de programação avançadas são a
escolha óbvia quando precisamos fazer análises altamente sofisticadas, especialmente usando técnicas
analíticas avançadas.
SEMANA 3
Introduction to SQL
Então, o que é SQL? Como os próprios bancos de dados relacionais, o SQL foi desenvolvido no início dos anos
1970 para ajudar os usuários a manipular e extrair dados desses bancos de dados. É uma linguagem baseada
na álgebra relacional, que é um conjunto de operações matemáticas que falam sobre como as coisas se
relacionam, como cruzamentos, uniões e diferenças. o SQL é, na verdade, uma linguagem muito mais ampla,
que pode ser usada para criar e manipular dados dentro de um banco de dados, usando definição de dados ou
operações de manipulação de dados. A ideia por trás de uma consulta SQL é extrair apenas os dados que
queremos de uma tabela de banco de dados ou conjunto de tabelas.
● O comando SELECT definem quais atributos, colunas ou campos eu desejo extrair da tabela.
Normalmente não estou interessado em todos os atributos de uma tabela, então select me permite
trazer de volta apenas aqueles que preciso.
● O comando FROM define a tabela da qual desejo extrair os dados. Os comandos SELECT e FROM
trabalham juntos e são necessários em todas as consultas SQL. Todos os outros comandos são
opcionais.
● O comando where adiciona filtros que restringem quais linhas de dados são extraídas da tabela.
Semelhante à maneira como o comando SELECT retorna apenas as colunas que desejo, o comando
WHERE retorna apenas dados com base nas linhas que desejo incluir.
● O comando GROUP BY é usado para definir o nível de agregação que desejo no conjunto de dados de
saída.
● Se eu quiser dados agregados e quiser filtrar ainda mais o conjunto de saída com base nessas
agregações, uso o comando HAVING. O comando HAVING é semelhante ao comando WHERE, exceto
que opera em linhas agregadas de dados versus as linhas subjacentes da tabela do banco de dados.
● Finalmente, o comando ORDER BY permite definir como desejo que o conjunto de saída seja
classificado.
●
SELECT
max(exemplox)
FROM
exemploy
●
SELECT
min(exemplox)
FROM
exemploy
● Função SUM: realiza a soma dos valores em uma única coluna e retorna esse resultado.
SELECT
sum(exemplox)
FROM
exemploy
WHERE
z=1
● Função AVG: podemos calcular a média aritmética dos valores em uma única coluna.
●
SELECT
avg(exemplox)
FROM
exemploy
SELECT
count(exemplox)
FROM
exemploy
WHERE
z=1
● Função GROUP BY: dividimos os registros que serão agregados em grupos de valores.
●
SELECT
z
max(exemplox)
FROM
exemploy
GROUP BY z
Um exemplo do Macoratti:
Supondo que desejamos obter o nome e a nota de cada aluno do banco de dados Escola.mdb, os dados que
desejamos encontram-se em duas tabelas: Tblalunos (o nome do aluno), Tblnotas (o código do curso e a nota).
A sintaxe para o comando SQL extrair esse dado: (nome e nota, ordenados pelo nome do aluno) é:
Abordaremos três tipos de Joins:
● Inner Join: retorna apenas linhas de dados onde há uma correspondência de valor de chave comum. Em
outras palavras, quando os valores específicos no campo-chave são os mesmos em ambas as tabelas.
● Full Outer Join: completa retorna todas as linhas de dados de ambas as tabelas, haja ou não uma
correspondência de valor-chave entre elas.
● Left Join: retorna todas as linhas de dados em uma tabela e adiciona dados de quaisquer linhas na
segunda tabela onde há uma correspondência de valor-chave.
SELECT x, y, z
FROM w
UNION
SELECT x , y, z
FROM v
● Operadores aritméticos: Podemos usar operadores aritméticos de duas maneiras diferentes.
Podemos usá-los em conjunto com operadores de comparação em where e com instruções
para construir condições mais complexas como essas.
● Operadores lógicos: Quase todos eles são usados principalmente em cláusulas, pois estamos
tentando definir condições específicas para hesitação de linha ou agregado.
Using SQL Subqueries
Existem alguns motivos pelos quais podemos usar subconsultas. Na análise de dados, geralmente tentamos
vários dados de alguma forma exclusiva imediatamente pela primeira vez. Conforme pensamos na melhor
maneira de extrair os dados, podemos ter várias etapas que queremos isolar na tarefa para ter certeza de que
estão fazendo exatamente o que queremos que façam. Construir consultas e peças de dentro para fora pode
nos permitir testar cada etapa com mais eficácia e chegar ao resultado final com mais rapidez.
● Arquitetura de dados refere-se ao design no ambiente de dados para atender às necessidades da
empresa.
● O gerenciamento de dados envolve a construção e manutenção reais do ambiente de dados.
● Os relatórios, como discutimos no módulo dois, permitem renderizações periódicas padrão de métricas
específicas ou relacionamentos de dados.
● A análise ad-hoc se refere amplamente à análise direcionada que busca responder a uma pergunta
específica, especialmente uma que seja nova ou pouco frequente. Se nos pegamos fazendo a mesma
coisa repetidamente, estamos realmente fazendo reportagens. No entanto, há uma ligação natural entre
análises ad-hoc e relatórios.
● Finalmente, a modelagem se refere à análise avançada ou aplicação de dados usando técnicas de
ordem superior, incluindo procedimentos estatísticos.
Agora que temos uma noção das funções gerais executadas no ambiente de dados, vamos falar sobre as
equipes ou funções específicas que oferecem suporte a todas essas funções. Começaremos com funções
centradas em TI mais técnicas e avançaremos para funções mais analíticas e relacionadas aos negócios.
Outra área é o desenvolvimento de sistemas e aplicativos na administração. Essas equipes criam e mantêm
sistemas que capturam informações para o negócio. Eles também podem fornecer funções auxiliares, como TI
corporativa, que ajudam a administrar software e outras ferramentas.
Há outro conjunto de funções técnicas que estão mais diretamente associadas ao ambiente de dados.
Chamaremos essas funções de gerenciamento de dados técnicos e entrega de inteligência de negócios. O
primeiro deles é o arquiteto de dados. O arquiteto de dados é responsável pelo design real do ambiente de
dados e geralmente é a pessoa responsável por estruturar os modelos de dados usados em bancos de dados
corporativos para armazenamento e acesso de dados. Essa função normalmente é encontrada em uma
organização de TI em uma equipe de data warehouse ou em uma equipe maior de arquitetura corporativa.
Uma terceira função nesta área é a do desenvolvedor ETL, ou mais geralmente, um desenvolvedor de integração
de dados. Como um lembrete, ETL significa extrair, transformar e carregar, ou o processo de pegar dados de um
lugar, manipulá-los e colocá-los em outro lugar. Esses desenvolvedores são amplamente responsáveis por
preencher um banco de dados e garantir que os dados sejam carregados corretamente nas várias estruturas de
banco de dados.
A última função que discutiremos nesta área é a inteligência de negócios ou desenvolvimento de BI. O
desenvolvedor de BI fica bem no limite do que a maioria das organizações considera uma função de TI. Essa
função pode assumir algumas formas diferentes, mas geralmente o Desenvolvedor de BI gerencia alguns dos
aspectos mais técnicos de um conjunto de ferramentas de business intelligence, incluindo manutenção. E é
frequentemente responsável pela implementação técnica e distribuição de relatórios padrão.
Vamos passar para alguns rolos mais alinhados com a manipulação e análise de dados. O primeiro é o analista
de banco de dados, que é alguém que tem as habilidades para acessar o banco de dados diretamente,
geralmente escrevendo consultas SQL, e que pode ter a habilidade de fazer pelo menos algumas análises nos
dados. Um analista de dados pode ou não acessar o banco de dados diretamente, mas geralmente tem contexto
adicional suficiente sobre o negócio para executar uma ampla gama de análises nos dados e tirar uma
conclusão. Essa é a função central em torno da qual a maioria das funções de análise de dados giram em muitas
organizações.
O modelador é uma extensão mais qualificada do analista de dados. O modelador normalmente passa a maior
parte do tempo realizando análises preditivas e prescritivas de dados usando técnicas sofisticadas que são um
pouco mais avançadas do que uma função básica de analista de dados.
Começaremos com um modelo totalmente centralizado, onde alguns conjuntos de atividades analíticas são
realizados usando uma equipe centralizada. Por exemplo, uma equipe analítica empreendedora pode atender às
necessidades de marketing, finanças, operações, atendimento ao cliente, etc; com relação a relatórios, análises
ad hoc e modelagem estatística.
Um modelo centralizado tem algumas vantagens principais. Em primeiro lugar, normalmente podemos atingir
um nível mais alto de consistência quando a análise é feita por uma única equipe, pois é mais fácil garantir que
métodos comuns sejam usados de uma análise para a próxima. Também é mais fácil garantir que as prioridades
da equipe, incluindo quais análises são feitas e quando, estejam alinhadas com as necessidades gerais da
empresa versus as necessidades de apenas um grupo.
Em um modelo centralizado, a equipe que executa a análise geralmente não é a mesma que solicitou a análise.
A colaboração é necessária e a organização solicitante pode não obter prioridade de outras necessidades. Nesse
caso, a equipe centralizada responde menos às organizações periféricas e é mais difícil para essas organizações
controlar seus destinos. Uma segunda desvantagem está relacionada aos contextos, alguém que trabalha no
marketing e o faz o tempo todo terá um grau mais alto de contextos de marketing.
Finalmente, embora o modelo centralizado exija menos pessoas, ele depende de alguma consistência na carga
de trabalho. É mais difícil preencher o prato de uma equipe analítica centralizada com atividades não
centralizadas e não analíticas quando a carga de trabalho é leve.
O segundo modelo, denominado modelo alocado, busca melhorar a capacidade de resposta da organização
analítica enquanto retém a maioria dos benefícios de uma abordagem centralizada. Nesse modelo, uma
atividade analítica sentimental ainda é realizada por meio de uma equipe centralizada. Mas dentro dessa equipe,
a capacidade específica é reservada para uma ou mais das funções periféricas. Novamente, o principal benefício
dessa abordagem é a capacidade de resposta aprimorada à organização que solicita a análise. Também pode
ter o benefício de melhorar o contexto do grupo de analistas, especialmente quando os indivíduos são alocados
para uma única função por um longo período de tempo.
Modelo coordenado: Nesse modelo, a equipe e as prioridades dos recursos analíticos são totalmente
controladas por equipes funcionais. No entanto, essas equipes estão ligadas por algum conjunto de estruturas
governamentais, metodologias padrão ou comunidades como grupos de usuários ou centros de excelência. Os
benefícios dessa abordagem se baseiam nos do modelo alocado.
O último modelo organizacional que discutiremos é o modelo distribuído, no qual as atividades analíticas são
totalmente realizadas em organizações periféricas com pouca ou nenhuma coordenação. As vantagens deste
modelo são semelhantes ao modelo coordenado. Ou seja, um alto grau de capacidade de resposta e contexto
pode ser alcançado. A equipe também tem total flexibilidade em como realizar análises, uma vez que não
precisa necessariamente aderir a padrões centralizados.
Então, qual desses modelos é o preferido? Bem, isso realmente depende. Existem organizações que obtiveram
sucesso usando cada um desses modelos e até combinações desses modelos.
Em vez de classificar os modelos, por que não procuramos alguns fatores que tendem a tornar cada modelo
mais ou menos viável em uma organização? O fator mais significativo que influencia nosso modelo
organizacional é o tamanho da empresa. Acontece que as organizações analíticas realmente começam a ter um
bom desempenho quando atingem uma massa crítica de recursos.
Data Governance
A ideia de governança de dados tem o objetivo de estruturar como os dados são gerenciados e usados em uma
organização. Estabelecendo regras e processos em torno de uma variedade de operações e decisões
relacionadas a dados.
Uma função principal da governança de dados é estabelecer e manter padrões em torno dos dados. Isso pode
assumir algumas formas diferentes. O primeiro é identificar quais fontes são preferidas para cada tipo de dado
ou métrica usado em uma organização. Existe uma ideia chamada Master Data Management, ou MDM, que
identifica os dados mais críticos em uma organização e garante que haja um entendimento claro de onde esses
dados devem vir e onde devem ser armazenados.
O último conjunto de controles gira em torno do acesso aos dados e conformidade. Um processo de governança
pode ajudar a descobrir quem deve ter acesso aos dados em quais circunstâncias.
A terceira função da governança de dados é ajudar a gerenciar o processo geral de desenvolvimento de dados e
comunicar as mudanças no ambiente de dados. Muitas equipes usam dados e cada uma delas provavelmente
tem uma longa lista de adições ou modificações que gostariam de ver implementadas. No entanto, geralmente
não há capacidade suficiente para realizá-los todos e deve haver alguma forma de priorizar o trabalho que
precisa ser feito. A governança pode ajudar fornecendo um processo para verificar, avaliar e priorizar quais
projetos de dados são realizados, geralmente racionalizando esses projetos em relação às prioridades gerais de
negócios da empresa.
Como os ambientes de dados estão em constante evolução, também precisa haver algum mecanismo para
permitir que os usuários dos dados saibam quando novos dados são adicionados. Ou alguma mudança ou
melhoria é feita. Ter uma abordagem de governança de dados bem estruturada pode facilitar a comunicação
sobre os dados e garantir que todos estejam informados e cientes das mudanças.
A última função que a governança de dados desempenha é fornecer informações sobre o próprio ambiente de
dados. Há um ampla classe de atividades chamada gerenciamento de metadados, que ajuda a controlar os
metadados ou dados sobre os dados.
O primeiro é a representação multifuncional. O objetivo da governança de dados é colocar todos na mesma
página, para fazer isso, todos precisam estar envolvidos. As melhores estruturas de governança têm ampla
participação de equipes técnicas e não técnicas, geralmente por meio de algo como um conselho de governança
de dados que reúne esses grupos e trata de questões de governança.
O segundo é um processo e cronograma contínuos. Um conselho de governança de dados não adianta muito se
nunca se reúne ou não se reúne com frequência suficiente, ou se não toma decisões, ou se não tem mecanismo
para executar as decisões. Um programa sólido de governança de dados fornece a estrutura.
O terceiro elemento comum é um conjunto de funções definidas. Alguém precisa atuar como o líder efetivo do
programa. Este pode ser um presidente do Conselho de Governança ou outro líder.
Data Privacy
Em primeiro lugar, o conjunto de leis e regulamentos que regem a privacidade de dados é extenso e muito
complexo e esses regulamentos variam dependendo de onde você está. Em segundo lugar, o panorama da
privacidade de dados está mudando muito rapidamente e o que é verdade hoje pode não ser amanhã.
Níveis
O nível superior são os padrões legais que foram estabelecidos por lei, ordem ou regra para obrigar o
tratamento de certas classes de dados. As normas legais devem ser seguidas por quaisquer organizações
sujeitas a elas. Não há muita escolha no assunto e as consequências podem ser graves se os padrões legais não
forem seguidos.
O segundo nível é o padrão ético. Esses padrões são estabelecidos por organizações da indústria ou
profissionais que buscam atingir algum nível de tratamento não vinculativo de informações. A violação dessas
normas pode ter consequências, mas geralmente elas são impostas fora dos tribunais.
O terceiro nível de padrões são os padrões de política, que são padrões internos estabelecidos por uma
organização para orientar seu próprio tratamento de dados, geralmente por meio de algo como uma política de
privacidade. A empresa decide como fazer cumprir esses padrões.
Na área de conectividade com a Internet e big data, a capacidade de vincular informações em domínios
desesperados nunca foi tão grande.
CFI é qualquer informação que não esteja publicamente disponível, e que um consumidor fornece a uma
instituição financeira para obter um produto ou serviço financeiro da instituição. Resulta de uma transação entre
o consumidor e a instituição envolvendo um produto ou serviço financeiro, ou que uma instituição financeira
obtém informações sobre um cliente em conexão com o fornecimento de um produto ou serviço financeiro.
O último tipo de informação sobre o qual falaremos são informações de saúde protegidas ou PHI. PHI é
considerado um dos tipos de informação mais sensíveis e, conseqüentemente, está entre aquelas rigidamente
controladas e regulamentadas. Um, o PHI é criado ou recebido por um provedor de saúde, plano de saúde,
empregador ou câmara de compensação de saúde.
Em segundo lugar, está relacionado com a saúde ou condição física ou mental passada, presente ou futura de
um indivíduo, a prestação de cuidados de saúde a um indivíduo ou o pagamento passado, presente ou futuro
pela prestação de cuidados de saúde a um indivíduo.
A maioria dos campos acadêmicos, científicos, jurídicos e médicos têm padrões bem estabelecidos que tornam
os órgãos que responsabilizam os membros por um amplo conjunto de comportamentos éticos, alguns dos
quais incluem o uso de dados. No mundo dos negócios, verifica-se que alguns dos órgãos de ética e padrões
Data Quality
O que exatamente é qualidade de dados? Existem duas definições gerais que podemos aplicar. O primeiro, e
aquele que você vê na maioria dos artigos técnicos ou documentos de padrões, é a adequação para uso ou
atende à definição de requisitos.
Existem algumas características que geralmente ajudam a definir bons dados. O primeiro é a integridade ou
uma medida para saber se temos ou não todos os dados que esperamos ter.
Uma segunda ideia é a precisão, uma medida para saber se os dados que temos são um representante preciso
da ideia que está tentando capturar.
● O conceito de consistência é uma extensão da precisão. Capturo os mesmos dados sempre da mesma
maneira?
● Ou se eu capturar em dois lugares diferentes, tenho os mesmos valores?
Uma terceira medida é o que podemos chamar de conformidade ou validade. Se os dados armazenados estão
em conformidade com a sintaxe, a codificação e outras especificações de um modelo de dados.