Data Analytics For Business

DATA ANALYTICS FOR BUSINESS
University of Colorado Boulder

Traduzido por Gisele Cristina Costa Jardim

SEMANA 1
A análise de dados é um processo que cria clareza no caos. Ele nos permite entender o que vemos no mundo
real usando dados e métodos avançados junto com nosso intelecto para criar percepções que podemos usar
para resolver problemas reais. A análise de dados nos ajuda a entender o que está acontecendo, o que
provavelmente acontecerá em seguida e o que devemos fazer a respeito. Em sua empresa, você pode usar a
análise de dados para crescer, se tornar mais lucrativo e criar o máximo valor no mercado e para seus acionistas.

Thinking about Analytical Problems

A primeira pergunta a fazer é se você pode realizar uma análise que realmente influenciará uma decisão
significativa. Se você puder dizer algo como se minha análise mostra o resultado x, farei uma coisa, e se ela
mostrar o resultado y farei outra coisa, e a escolha que faço importa, então você está em boa forma. Se você
descobrir que provavelmente toma a mesma decisão, independentemente do resultado, ou que a decisão em si
realmente não é tão importante, então reconsidere investir em uma análise.

A próxima coisa que você deve pensar é como seria o resultado de sua análise. Que tipo de história eu esperava

ser capaz de contar? Como veria realmente o resultado x ou o resultado y nos dados? Existe uma tabela ou
gráfico específico que ilustraria a diferença? Quanto mais específico você puder descrever a saída, melhor. Você
pode até mesmo esboçar antecipadamente como será sua apresentação final.

Com uma visão clara do resultado em mente, você pode começar a pensar na análise em si. Que métodos você
precisará aplicar? Quais ferramentas você precisa? Agora que sabemos que tipo de análise você pretende fazer,
precisamos considerar de onde obteremos os dados necessários para fazê-lo.

Em primeiro lugar, é possível que tudo já esteja feito. Antes de investir muito tempo e energia, é uma boa ideia
perguntar por aí para ver se alguém já fez essa análise antes. Ou se alguém já reuniu os dados de que você
precisa para fazer a análise. Se sim, você acabou de economizar muito trabalho desnecessário. Supondo que
você esteja no caminho certo, você deseja delinear cada tipo de dados de que precisa em sua análise e
determinar se eles existem na nova organização e como pretende obtê-los. Se você tiver sorte, tudo que você
precisa já foi colocado em um local comum, como um data warehouse ou ambiente de business intelligence.
Nesse caso, pode ser apenas uma questão de extraí-lo para análise.
No entanto, muitas vezes nem tudo de que você precisa é tão fácil de conseguir. Portanto, você terá que pensar

sobre quais etapas são necessárias para realmente obter os dados, e se é mesmo viável fazer isso.

Em alguns casos, pode ser necessário entrar em contato com pessoas fora de sua empresa para obter os dados.

E pode haver casos em que você precise configurar um experimento ou outro processo de pesquisa para
realmente gerar os dados necessários contratados para análise. Você também precisa pensar no tempo
necessário para obter os dados e realizar a análise, e garantir que o cronograma e o investimento continuem
fazendo sentido em termos da decisão de negócios que você precisa tomar.

Se você precisar de uma resposta até sexta-feira e a análise levar duas semanas para ser concluída, você
precisa encontrar uma abordagem diferente. Depois de determinar que você pode obter tudo o que precisa e
seu cronograma é bom, é hora de começar. Agora você pode prosseguir com a coleta de dados, realizando a
análise, obtendo o resultado e tomando a decisão de negócios que leva à ação que deseja realizar.

Comece com as decisões que deseja tomar, determine quais resultados da análise ajudariam a tomar essa
decisão. Projete a análise que cria essas saídas e determine quais dados são necessários para análise e como
obtê-los.

Conceptual Business Models

O que é um modelo conceitual de negócios? Um modelo de negócios conceitual é um diagrama que ilustra como
funciona um segmento de mercado ou negócios. Ele mostra elementos importantes no negócio e mapeia como
esses elementos se relacionam entre si.

Como analista de dados, você trabalhará com dados que descrevem todas as coisas em seu diagrama. Portanto,
parece natural começar a olhar para cada elemento e se perguntar de onde vêm as informações sobre esse
elemento, e começar a determinar se você tem a capacidade de vincular as coisas da mesma maneira, usando
esses dados.

The Information-Action Value Chain

Para que você tenha sucesso como profissional analítico em uma organização real, é fundamental que você
tenha um bom entendimento prático de onde vêm os dados que usa e quais fenômenos do mundo real esses
dados descrevem. Também é importante que você entenda como os resultados de suas análises serão usados
para tomar decisões e, em última análise, como eles levarão a alguma ação específica a ser realizada no
mercado.

Quanto melhor você compreender o valor de cada etapa, mais eficaz será como analista. A maneira como
ilustramos essa ideia é por meio de uma estrutura que chamamos de cadeia de valor de ação-informação, que é
uma ideia que descreve um processo sequencial onde cada etapa adiciona algum tipo de valor a um objeto ou
uma ideia relativa a um ponto final ou resultado desejado.

O ponto aqui é que para cada evento de interesse no mundo real, é necessário que haja um sistema que o
capture. Começaremos com a parte de cadeia de valor, que ocorre antes da análise. Para analisar um trabalho,
precisamos ter dados, e precisamos de um mecanismo para capturar a representação física ou digital desse
fenômeno do mundo real e colocá-lo em algum lugar. Normalmente, isso acontece por meio de algum tipo de
sistema Front-end ou um sistema que interage diretamente com clientes ou objetos físicos.

Precisamos de um sistema que capture cada evento, chamamos de sistema de origem, acontece que muitos
sistemas de origem são ótimos para capturar dados, mas não tão bons para análise. Minha análise pode exigir
que eu obtenha informações de mais de um sistema de origem, para isso, podemos reunir os dados em algum
local comum, na maioria das vezes, esse local é um sistema físico chamado Data Warehouse. Vamos nos
concentrar em algo que chamamos de Banco de dados relacional e em uma linguagem de programação
chamada Structured Query (SQL).

Definindo os três tipos de análise:

● Análise Descritiva: ajuda a descrever como as coisas são agora ou o que aconteceu no passado; a ideia
é usar essas informações para entender melhor o ambiente de negócios e como ele funciona, e aplicar
esse conhecimento junto com a visão de negócios para tomar melhores decisões no futuro; essa análise
pode assumir a forma de agregações simples ou dados de tabulação cruzada.
● Análise Preditiva: ajuda a pegar o que sabemos sobre o que aconteceu no passado e usar essas
informações para nos ajudar a prever o que acontecerá no futuro, isso quase sempre envolve a
aplicação de métodos estatísticos avançados ou outras técnicas numéricas.
● Análise Prescritiva: ajuda a vincular explicitamente a análise à tomada de decisão, fornecendo
recomendações sobre o que devemos fazer ou que escolha devemos fazer para alcançar um
determinado resultado; geralmente envolve a integração de técnicas de otimização numérica com
regras de negócios e até modelo financeiro.

Real World Events and Characteristics

Acontece que quase tudo no mundo real pode ser transformado em dados. A tecnologia está continuamente
nos permitindo ir além, tanto em termos dos tipos e informações que podem ser capturados, quanto do grande
volume de dados que podem ser capturados e armazenados.

Falaremos sobre pessoas: As pessoas possuem características que as descrevem, como idade, gênero,
nacionalidade, etnia, raça, estado civil e estado familiar. Nível educacional, nível socioeconômico, status de
moradia. A lista continua e continua. As pessoas também têm preferências, crenças, atitudes e motivações que
ajudam a definir quem são. Eles podem não ser óbvios ou fáceis de obter, mas existem e existem métodos para
capturar informações sobre eles.

Freqüentemente, agrupamos essas características em algumas categorias amplas que você pode encontrar em
um contexto de negócios. Ou seja, demografia, psicografia e tecnologia. Os dados demográficos descrevem
amplamente as características do nível da população, como idade, sexo, nacionalidade, etc. E são as
características mais amplamente utilizadas em muitos tipos diferentes de análise. Os psicográficos falam mais
sobre as opiniões, atitudes e interesses das pessoas. Eles incluem preferências, gostos e desgostos e tendem a
revelar ideias sobre por que as pessoas fazem o que fazem.

A tecnologia é realmente um subconjunto da psicografia que se concentra em como as pessoas abordam a
tecnologia e quais são suas motivações e atitudes em relação ao uso de tecnologias novas e existentes. Todos
esses eventos relacionados podem ser do interesse da empresa e do analista. Além das características, as
pessoas também possuem identificadores. Eles têm nomes, endereços, números de telefone, endereços de
e-mail, identificadores de Facebook e Twitter, e todos os tipos de atributos únicos que podem ser usados para
identificá-los no mundo real. Vamos mudar um pouco das próprias pessoas para onde essas pessoas estão e
para onde vão.

Podemos pensar sobre isso pelo menos de duas maneiras.

Primeiro, podemos pensar sobre a ideia de localização física, onde as pessoas vivem, como se movem e onde
estão em determinado momento. As pessoas se deslocam, elas viajam. E eles têm padrões naturais de
movimento em suas vidas diárias.

Também podemos pensar em localização no sentido virtual. As pessoas podem navegar no ambiente online por

meio da navegação na web. Eles podem frequentar determinados sites ou estar presentes em um determinado
momento em um local online. Claro, eles também estão acessando a web de algum local físico e, graças à
conectividade móvel, eles podem até se mover enquanto fazem isso. Em muitos setores, algumas das
informações mais importantes e freqüentemente usadas são sobre transações ou eventos que envolvem uma
troca entre pessoas ou empresas. De longe, a transação de interesse mais comum em análise de negócios é
uma compra, o evento em que alguém compra um produto ou serviço que nossa empresa está vendendo.

Falaremos sobre objetos: Os objetos também têm uma localização física e podem se mover. Pense no caminho
de entrega de um pacote ou como sua bagagem se move quando você voa. Considere a maneira como as
matérias-primas podem entrar na fábrica e passar progressivamente por uma linha de montagem,
transformadas em produto e armazenadas. Também tendemos a vender produtos em e por meio de canais de
vendas, como lojas ou sites. Além disso, os objetos não apenas existem e são movidos, eles podem realmente
fazer coisas, especialmente em máquinas.

Data Capture by Source Systems

Principais sistemas corporativos: geralmente são sistemas de grande escala vinculados diretamente às
operações financeiras de uma empresa, esse sistema geralmente se concentra nos recursos da empresa, sejam
eles ativos financeiros, materiais ou capacidade de produção.

Os sistemas de clientes e pessoas podem ser críticos para os negócios, mas se concentram mais nas
organizações de pessoas, tanto dentro quanto fora da empresa. Os mais expansivos desses sistemas são os

sistemas de gerenciamento de relacionamento com o cliente ou CRM. Os sistemas de CRM são usados para
rastrear e gerenciar as interações do cliente em todos os pontos de contato e durante todo o ciclo de vida do
cliente com a empresa.

Os sistemas de atendimento ao cliente geralmente são usados por representantes de call center ou outro
pessoal que tem contato direto com os clientes. Eles geralmente fornecem acesso às informações da conta do
cliente, ofertas de marketing ou outras funções necessárias para ajudar a preservar os clientes. Eles também
ajudam a registrar o que aconteceu durante a interação, incluindo notas e comentários.

Os sistemas de recursos humanos são focados internamente e rastreiam informações sobre os funcionários da

empresa, incluindo informações de funções e salários, informações de tempo e despesas, executam suas
informações de gerenciamento e uma variedade de outros atributos e características do trabalho forçado.

Os sistemas de gerenciamento de produtos são usados para rastrear informações sobre os próprios produtos.

Eles geralmente contêm atributos e características do produto e podem até conter informações descritivas ou
voltadas para as vendas que estão vinculadas aos sistemas voltados para o cliente.

Os sistemas de gerenciamento de conteúdo são um pouco mais amplos. Eles podem ser usados para todos os

tipos de fins comerciais. Mas o que eles fazem é organizar e armazenar conteúdo. O conteúdo pode ser textos,
documentos, imagens, música, vídeo, onde fazemos praticamente qualquer coisa. Esses sistemas geralmente
disponibilizam conteúdo para qualquer parte da empresa que necessite, desde equipes internas até ambientes
voltados para o cliente, como sites.

Os sistemas analíticos e de gerenciamento da web online são bastante específicos, mas quase todas as
empresas com um site têm um. O que esses sistemas fazem é rastrear como os usuários navegam em um site.
Eles ajudam a identificar problemas com sites, influenciam o design do site e medem a atividade e o
desempenho.

Os sistemas de operação técnica são geralmente muito táticos, ajudando a monitorar processos ou outros
sistemas para garantir que estão funcionando corretamente e para identificar problemas quando ocorrem.

Os sistemas de monitoramento de processo medem o que está acontecendo em cada estágio de um processo,
como uma sequência de fabricação ou uma série de operações de software. Os sistemas de monitoramento de
alarmes e falhas detectam anomalias nos processos ou nas operações da máquina e alertam as pessoas ou
outros sistemas que uma ação ou atenção é necessária.

Telemática e sistemas de processamento de dados de máquina capturam dados diretamente de máquinas e
dispositivos onde quer que estejam e alimentam todos os tipos de outros sistemas, incluindo os que acabamos
de descrever. Esse tipo de dados é particularmente estimulante para a comunidade analítica, à medida que
ideias como a internet das coisas e a casa conectada se tornam realidade.

SEMANA 2
Data Storage and Databases
Onde armazenamos? Considerando que estamos potencialmente capturando grandes quantidades de dados
em nossos sistemas de origem. É natural perguntar para onde diabos vão todas as coisas? Bem, acontece que
cada fonte geralmente tem seu próprio sistema de armazenamento para armazenar dados relevantes a esse
sistema. Infelizmente, isso não é necessariamente ideal para nós, analistas, por alguns motivos.

Em primeiro lugar, é provável que o sistema de armazenamento da origem seja otimizado para desempenho
funcional, não para extração e análise de dados. Como exemplo, você pode ter visto os termos processamento
transacional online ou OLTP. Esses termos se referem a sistemas de armazenamento que são otimizados para
operações e transações de negócios versus aqueles que são otimizados para análises.

Embora seja possível realizar análises em sistemas transacionais, geralmente é muito mais fácil fazê-lo em
sistemas analíticos. O segundo desafio com os sistemas de armazenamento de origem é que eles geralmente
contêm muito mais informações do que realmente precisamos para análises. Não é incomum que um banco de
dados de origem contenha todos os tipos de dados de trabalho internos que realmente não têm uso fora da
operação do sistema.

Por fim, como os sistemas de origem geralmente lidam com volumes muito altos de dados, eles podem não
armazenar dados por muito tempo para otimizar o desempenho geral desse sistema. Isso significa que, se
quisermos que os dados, ou algum subconjunto dos dados, estejam disponíveis por um período mais longo,
precisamos pegá-los e colocá-los em um local de armazenamento de longo prazo. Uma solução comum é reunir
dados em um local de armazenamento separado, este pode ser um repositório central de dados, onde os dados
são colocados fisicamente; também pode ser um repositório virtual, onde os dados estão fisicamente localizados
em locais diferentes, mas aparecem para o usuário como se estivessem em um local comum.

Como armazenamos? Um arquivo de texto delimitado contém dados que representam uma tabela bidimensional
com colunas e linhas. Esses dados em si são armazenados como texto com quebras entre as colunas e linhas,
identificados por meio de caracteres específicos ou códigos de formatação chamados delimitadores; os
delimitadores mais comuns são vírgulas, tabulações e barras verticais; a barra vertical é o caractere da linha
vertical que você vê no teclado.

Um segundo tipo de arquivo é uma Linguagem de marcação extensível ou arquivo XML. XML é uma estrutura
flexível de codificação de documentos e dados que foi desenvolvida no final dos anos 90, principalmente para
facilitar o compartilhamento de dados pela Internet, no entanto, ele possui uma ampla variedade de aplicativos,
desde páginas da web até aplicativos e sistemas de mensagens. O bom do XML é que ele é um padrão comum
e permite uma estruturação de dados mais complexa do que estou fazendo no arquivo de texto; a desvantagem
é que requer uma interface mais sofisticada para interpretar os dados e a estrutura para análise.

Um terceiro tipo de arquivo é um arquivo de log. Os arquivos de log são geralmente usados para capturar dados

de eventos de um sistema e são comuns em dados de máquina, mensagens e aplicativos de análise da web.

A vantagem dos arquivos de log é que eles são muito flexíveis, podendo capturar praticamente qualquer
estrutura de dados desejada. No entanto, isso ocorre às custas de um processo muito mais complicado de
leitura e uso dos dados; na verdade, existem ferramentas de software específicas que se especializam em
analisar arquivos de log.

O último tipo de arquivo de dados que discutiremos é, na verdade, uma classe de arquivos que são específicos
para ferramentas comuns de análise de dados. A maioria das ferramentas tem seus próprios formatos de
arquivo proprietários para armazenar dados, junto com outras informações chamadas metadados, que descreve
cálculos, operações ou outros atributos dos próprios dados, de longe, o mais comum deles é o arquivo de
planilha do Microsoft Excel.

Um banco de dados é simplesmente uma coleção organizada de dados. Quando dizemos banco de dados,
normalmente estamos nos referindo à estrutura e ao design de um ambiente de dados, bem como aos próprios
dados. Um banco de dados busca armazenar dados de uma forma mais complexa do que seria possível em um
arquivo de dados. Especificamente, um banco de dados geralmente armazena várias entidades de datas
diferentes com algumas informações unificadas sobre como essas entidades são organizadas ou relacionadas.
Isso permite o acesso a uma ampla gama de informações em um ambiente comum.

Normalmente, um banco de dados é construído usando um sistema de gerenciamento de banco de dados ou
DBMS. Um sistema de gerenciamento de banco de dados é um aplicativo de software usado para criar, manter
e acessar bancos de dados. Um sistema de arquivos é basicamente o equivalente digital de um arquivo
organizado. Pense em seu próprio computador, é assim que você provavelmente armazena a maioria das coisas
em seu PC ou Mac. O bom de um sistema de arquivos é que posso colocar praticamente tudo o que quero lá e
apenas anotar seu nome e localização para que possa encontrá-lo mais tarde. Os sistemas de arquivos são
atraentes porque podem lidar com todos os tipos de informações, incluindo o que chamamos de dados não
estruturados.

A desvantagem de armazenar dados em sistemas de arquivos é que não é tão óbvio como os dados foram
acessados, visto que você está enviando vários locais de arquivos diferentes. Também não está claro como faço
a análise de dados em algo como um documento, foto ou vídeo sem algum tipo de processamento intermediário
para transformá-lo em algo mais estrutural. Um exemplo importante de sistema de arquivos é o Hadoop
Distributed File System ou HDFS, que é uma manifestação de big data do conceito de sistema de arquivos.

Tipos de arquivo:
Existem vários tipos de bancos de dados mas; de longe o mais comum é o Banco de Dados Relacional. O
conceito básico por trás dos bancos de dados relacionais é que armazenamos informações em tabelas
bidimensionais e, em seguida, encontramos relacionamentos específicos entre essas tabelas, acontece que essa
pode ser uma maneira realmente eficiente e eficaz de armazenar dados que é muito fácil de entender, o que
contribui para sua popularidade.

Quatro bancos de dados alternativos comuns:

● Um banco de dados de grafos é baseado na teoria dos grafos ou no estudo de relacionamentos
para-sábios entre objetos. Esses bancos de dados tendem a funcionar bem com dados altamente
interconectados, como relacionamentos entre pessoas ou locais, e têm aplicativos em análise de redes
físicas e sociais.
● Um armazenamento de documentos, como o próprio nome sugere, geralmente é projetado para
armazenar documentos, junto com peças-chave de metadados que descrevem esses documentos. É útil
para armazenar dados não estruturados ou diferentes tipos de dados de uma forma um pouco mais útil
do que um sistema de arquivos típico.
● Bancos de dados colunares são mecanismos de armazenamento que buscam melhorar o desempenho
do acesso aos dados. Concentrando-se em colunas de tabelas de dados, em vez da abordagem
baseada em linha de sistemas de banco de dados relacionais.
● Os armazenamentos de valores-chave são muito simples, mas maneiras eficientes de armazenar dados.
Eles armazenam informações em pares muito pequenos. Normalmente, uma chave e um valor. Este
método de armazenamento de dados é muito flexível, pois não requer o design e a estrutura extensa de
outros tipos de banco de dados.

Virtualization, Federation, and In-Memory Computing

A ideia por trás da virtualização de dados é que mantemos os dados de origem onde estão para cada origem,
mas fazemos com que pareça que todos os dados estão em um só lugar e permitimos que os usuários acessem
esses dados usando uma interface comum.

Com a virtualização de dados, não buscamos necessariamente alterar os dados ou integrar dados de várias
fontes. Mas tornamos muito mais simples para os usuários obtê-lo sem ter que se preocupar com detalhes do
formato de dados e da tecnologia subjacentes.

Uma vantagem da virtualização de dados é que podemos evitar ter que armazenar dados em vários locais,
nomeadamente no sistema de origem e em algum banco de dados de destino. Outra vantagem é que as
alterações nos dados de origem geralmente são refletidas imediatamente na camada de acesso do usuário, já
que não preciso esperar que os processos ETL sejam executados e mova os dados de um lugar para outro.

No entanto, a virtualização de dados tem algumas limitações.

Em primeiro lugar, embora remova uma camada de dados no ambiente, ele adiciona uma camada de
processamento e pode levar mais tempo para executar as operações de extração de dados, uma vez que essa
camada adicional deve traduzir as instruções do usuário para qualquer idioma apropriado para as fontes em
questão. Além disso, se qualquer limpeza de dados ou operações de transformação complexas forem
necessárias, esses processos serão adicionados à carga de processamento e podem desacelerar ainda mais o
acesso, nesses casos, pode ser melhor usar processos ETL mais tradicionais.

Novamente, a virtualização de dados por si só faz com que os dados pareçam estar em um só lugar, não faz
sentido, necessariamente, como os dados de diferentes fontes se relacionam, o que é uma das principais
vantagens de construir um banco de dados centralizado.

É aqui que entra a federação de dados. Com a federação de dados, não apenas fazemos com que pareça que os

dados estão em um só lugar, mas realmente ajustamos esses dados em um modelo de dados integrado comum.
Realizamos todas as mesmas transformações e estabelecemos todos os mesmos relacionamentos entre
entidades de dados que faríamos em um banco de dados físico, mas fazemos tudo virtualmente, ou seja, sem
realmente mover os dados.

As vantagens da federação de dados são semelhantes às da virtualização de dados, com o benefício adicional
de apresentar ao usuário uma visão mais integrada dos dados de várias fontes, obviamente, isso acarreta um
processamento ainda mais complexo que pode resultar em um desempenho mais lento quando os dados são
acessados ou extraídos. Tanto a virtualização quanto a federação de dados geralmente são realizadas por meio
de aplicativos de software especializados que se conectam a uma variedade de sistemas de origem diferentes.
Embora eliminem a necessidade de mover dados usando processos ETL, eles ainda requerem desenvolvimento
e manutenção para estabelecer essas conexões e apresentar uma visão unificada dos dados aos usuários.

As outras duas ideias que queremos discutir, computação em memória e análise em banco de dados, são um
pouco diferentes porque buscam maximizar o desempenho das operações analíticas em vez de minimizar a
movimentação de dados no armazenamento físico. Com a computação in-memory, todos os dados necessários
para análise são carregados na memória de acesso aleatório de um computador ou servidor, ou RAM, onde
podem ser acessados muito rapidamente.

Normalmente, toda uma estrutura de dados, incluindo relacionamentos entre entidades de dados, é armazenada
e disponibilizada para fins analíticos. A vantagem dessa abordagem é obviamente a velocidade. Como analista,
posso aplicar técnicas complexas aos dados em muito menos tempo do que levaria se tentasse acessar os
dados armazenados no disco localmente ou em um servidor remoto, e uma vez que os dados estão na memória,
posso tentar muitas coisas diferentes sem ter que esperar muito entre cada tentativa, isso permite esforços
analíticos que requerem exploração e tentativa e erro para serem realizados.

The Relational Database

Os aplicativos que executam bancos de dados relacionais são chamados de sistemas de gerenciamento de
banco de dados relacional ou RDBMS. Embora existam tipos de banco de dados emergentes, se você quiser ser
um analista eficaz na maioria das organizações, quase certamente precisará entender o que são bancos de
dados relacionais, como funcionam e como extrair dados deles.

Em bancos de dados relacionais, armazenamos informações em tabelas e, em seguida, definimos
relacionamentos específicos entre essas tabelas. Uma tabela é uma estrutura bidimensional que armazena
dados em linhas e colunas. A maioria dos bancos de dados relacionais são orientados por linha, o que significa
que as idéias ou itens descritos na tabela são armazenados em linhas, com as colunas das tabelas contendo
atributos que descrevem as idéias ou itens de interesse.

Data Tools Landscape

Ferramentas de relatório padrão são usadas para fornecer um uso repetitivo estável de dados. Normalmente, os
relatórios padrão são criados depois que já identificamos uma maneira específica de ver os dados que
consideramos útil ou esclarecedora. Usamos ferramentas de relatórios para automatizar a geração desses
relatórios periodicamente. Mensalmente, semanalmente, diariamente, de hora em hora, então não temos que
fazer isso anualmente. Esses relatórios podem ou não fornecer algumas funções manipuladas limitadas, como
filtragem ou capacidade de redução, e geralmente são direcionados a empresas e usuários. Ferramentas de
relatórios padrão foram algumas das primeiras ferramentas de inteligência de negócios criadas e já existem há
um bom tempo. Embora o nível de sofisticação e usabilidade tenha aumentado substancialmente com o tempo.

A ideia de painel é uma extensão do relatório padrão. À medida que mais e mais relatórios padrão são criados
em uma organização, fica mais difícil isolar as informações mais importantes de que um executivo ou outro
tomador de decisão pode precisar para dar sentido ao negócio. Uma solução para esse problema é pegar um
subconjunto de relatórios e apresentá-los em uma visão simplificada que permite que as métricas mais
importantes sejam rapidamente identificadas e interpretadas. Os painéis também tendem a ser um pouco mais
dinâmicos e podem apresentar informações mais oportunas do que alguns relatórios padrão. Como o nome
sugere, a analogia aqui é o painel do seu carro, que permite que você veja as coisas mais importantes que estão
acontecendo enquanto você dirige.

A visualização de dados é o processo de organizar os dados de forma que possamos ver mais facilmente o que

está acontecendo e desenhar conclusões com base no que vemos.
Essas ferramentas facilitam a agregação e manipulação de dados e fornecem um espectro de técnicas de
visualização avançada para o usuário. Na verdade, essas ferramentas estão se tornando rapidamente os
aplicativos de curso de trabalho em muitas organizações de análise de negócios.

A exploração de dados é uma extensão inteligente da ideia de visualização de dados. As ferramentas de
exploração de dados buscam orientar proativamente o analista de dados, digitalizando automaticamente os
dados e fornecendo pistas ou sugestões sobre o que o analista de dados pode olhar a seguir. Eles também
fornecem ferramentas de navegação avançadas que permitem ao analista explorar com eficiência um conjunto
de dados. Esses recursos são geralmente integrados a algumas das mesmas ferramentas especializadas em
visualização de dados.

A última classe de ferramentas que apresentaremos são ferramentas de modelagem estatística e programação

avançada. Essas ferramentas são usadas para executar procedimentos analíticos altamente sofisticados em
dados, geralmente usando técnicas estatísticas. Eles são as principais ferramentas dos cientistas de dados e
também uma parte importante do kit de ferramentas do analista de dados. Eles variam de pacotes de software
orientados por interface altamente integrados a ambientes de programação bruta onde analistas podem
manipular dados diretamente usando uma ou mais linguagens de programação.

The Tools of the Data Analyst

Vamos chamar o primeiro método de abordagem de arquivo intermediário. Nesta abordagem, extraímos dados
de um banco de dados ou outro local onde os dados são armazenados e exportamos os dados de que
precisamos para um arquivo independente, como um arquivo de texto ou arquivo Excel. Isso geralmente envolve
escrever código SQL no banco de dados para extrair apenas os dados de que precisamos. Em seguida,
importamos os dados para uma ferramenta analítica como o Excel, uma ferramenta de inteligência de negócios
ou um pacote de software estatístico ou ambiente de programação. Uma vez que os dados estão no ambiente
analítico, posso executar qualquer tipo de análise desejada. Observe que essa abordagem pressupõe que todos
os dados de que preciso já estão integrados em um ambiente de banco de dados.

Um segundo método pode ser chamado de abordagem de conexão direta. Com essa abordagem, conectamos
nossa ferramenta analítica diretamente a um banco de dados ou outra fonte de dados usando o que é chamado
de conectividade de banco de dados aberto, ou conexão ODBC, ou alguma outra interface de programa de
aplicativo ou conexão API.

Em termos gerais, APIs são mecanismos padrão para troca de informações entre programas e ODBC é um caso

especial de API usada para conectar-se a bancos de dados.

Vamos passar para as ferramentas de business intelligence, que incluem relatórios padrão, visualização de
dados e ferramentas de exploração de dados. Essas ferramentas são uma boa escolha para uma ampla
variedade de necessidades analíticas destinadas a tornar a manipulação complexa de dados mais fácil e rápida
do que outras ferramentas.

Nem é preciso dizer que a análise requer exploração extensiva ou técnicas de visualização avançadas.
Ferramentas adequadas para essas operações produzirão melhores resultados. As ferramentas de business
intelligence também são preferíveis nos casos em que a saída da análise será amplamente compartilhada ou
transformada em um relatório padrão, pois geralmente incluem uma funcionalidade de distribuição de
agendamento mais avançada. A modelagem estatística e as ferramentas de programação avançadas são a
escolha óbvia quando precisamos fazer análises altamente sofisticadas, especialmente usando técnicas
analíticas avançadas.

SEMANA 3
Introduction to SQL
Então, o que é SQL? Como os próprios bancos de dados relacionais, o SQL foi desenvolvido no início dos anos
1970 para ajudar os usuários a manipular e extrair dados desses bancos de dados. É uma linguagem baseada
na álgebra relacional, que é um conjunto de operações matemáticas que falam sobre como as coisas se
relacionam, como cruzamentos, uniões e diferenças. o SQL é, na verdade, uma linguagem muito mais ampla,
que pode ser usada para criar e manipular dados dentro de um banco de dados, usando definição de dados ou
operações de manipulação de dados. A ideia por trás de uma consulta SQL é extrair apenas os dados que
queremos de uma tabela de banco de dados ou conjunto de tabelas.
Comandos mais usados:

● O comando SELECT definem quais atributos, colunas ou campos eu desejo extrair da tabela.
Normalmente não estou interessado em todos os atributos de uma tabela, então select me permite
trazer de volta apenas aqueles que preciso.
● O comando FROM define a tabela da qual desejo extrair os dados. Os comandos SELECT e FROM
trabalham juntos e são necessários em todas as consultas SQL. Todos os outros comandos são
opcionais.
● O comando where adiciona filtros que restringem quais linhas de dados são extraídas da tabela.
Semelhante à maneira como o comando SELECT retorna apenas as colunas que desejo, o comando
WHERE retorna apenas dados com base nas linhas que desejo incluir.
● O comando GROUP BY é usado para definir o nível de agregação que desejo no conjunto de dados de
saída.
● Se eu quiser dados agregados e quiser filtrar ainda mais o conjunto de saída com base nessas
agregações, uso o comando HAVING. O comando HAVING é semelhante ao comando WHERE, exceto
que opera em linhas agregadas de dados versus as linhas subjacentes da tabela do banco de dados.
● Finalmente, o comando ORDER BY permite definir como desejo que o conjunto de saída seja
classificado.
Aggregating and Sorting Data in SQL

O que queremos dizer quando falamos agregações de dados? Uma agregação basicamente pega os valores em
várias linhas de dados e retorna um valor.

● Função MAX: analisa um conjunto de valores e retorna o maior entre eles.
●
SELECT
max(exemplox)
FROM
exemploy

● Função MIN: analisa um grupo de valores e retorna o menor entre eles.
●
SELECT
min(exemplox)
FROM
exemploy

● Função SUM: realiza a soma dos valores em uma única coluna e retorna esse resultado.
SELECT
sum(exemplox)
FROM
exemploy
WHERE
z=1
● Função AVG: podemos calcular a média aritmética dos valores em uma única coluna.
●
SELECT
avg(exemplox)
FROM
exemploy
● Função COUNT: retorna o total de linhas selecionadas.

●
SELECT
count(exemplox)
FROM
exemploy
WHERE
z=1
● Função GROUP BY: dividimos os registros que serão agregados em grupos de valores.
●
SELECT
z
max(exemplox)
FROM
exemploy
GROUP BY z
● Função HAVING: em conjunto com group by, usamos para filtrar os resultados que serão submetidos à

agregação.
SELECT
z
max(exemplox)
FROM
exemploy
GROUP BY z
HAVING m ax(exemplox) > 10
Extracting Data from Multiple Tables

Com frequência, vamos ser obrigados a obter dados de diversas tabelas e, para selecionar campos de várias
tabelas, precisamos informar o seguinte: o nome de cada tabela, os nomes dos campos dos quais estamos
selecionando os dados e o relacionamento entre as tabelas.
Um exemplo do Macoratti:
Supondo que desejamos obter o nome e a nota de cada aluno do banco de dados Escola.mdb, os dados que
desejamos encontram-se em duas tabelas: Tblalunos (o nome do aluno), Tblnotas (o código do curso e a nota).
A sintaxe para o comando SQL extrair esse dado: (nome e nota, ordenados pelo nome do aluno) é:

SELECT T blalunos.nome, Tblnotas.nota

FROM T
blalunos INNER JOIN T
blnotas ON Tblalunos.codaluno = Tblnotas.codaluno
ORDER BY Tblalunos.nome;

Abordaremos três tipos de Joins:
● Inner Join: retorna apenas linhas de dados onde há uma correspondência de valor de chave comum. Em
outras palavras, quando os valores específicos no campo-chave são os mesmos em ambas as tabelas.
● Full Outer Join: completa retorna todas as linhas de dados de ambas as tabelas, haja ou não uma
correspondência de valor-chave entre elas.
● Left Join: retorna todas as linhas de dados em uma tabela e adiciona dados de quaisquer linhas na
segunda tabela onde há uma correspondência de valor-chave.
Stacking Data with UNION Command

O objetivo desse comando é combinar os resultados de duas consultas, ou seja, usamos quando queremos
combinar duas colunas similares a partir de tabelas que não estão relacionadas. Em uma consulta ONION, todas
as colunas correspondentes devem possuir o mesmo tipo de dado.

SELECT x, y, z
FROM w
UNION
SELECT x , y, z
FROM v

Extending SQL Queries Using Operators

Existem três tipos de operadores, vamos falar sobre eles:
● Operadores de comparação: Os operadores de comparação ajudam a descobrir se uma
condição entre dois campos ou funções de campos é verdadeira ou falsa. Para usar operadores
de comparação, nós os colocamos entre dois campos, funções e campos ou valores fixos.

● Operadores aritméticos: Podemos usar operadores aritméticos de duas maneiras diferentes.
Podemos usá-los em conjunto com operadores de comparação em where e com instruções
para construir condições mais complexas como essas.

● Operadores lógicos: Quase todos eles são usados principalmente em cláusulas, pois estamos
tentando definir condições específicas para hesitação de linha ou agregado.

Using SQL Subqueries
Existem alguns motivos pelos quais podemos usar subconsultas. Na análise de dados, geralmente tentamos
vários dados de alguma forma exclusiva imediatamente pela primeira vez. Conforme pensamos na melhor
maneira de extrair os dados, podemos ter várias etapas que queremos isolar na tarefa para ter certeza de que
estão fazendo exatamente o que queremos que façam. Construir consultas e peças de dentro para fora pode
nos permitir testar cada etapa com mais eficácia e chegar ao resultado final com mais rapidez.
Analytical Organizations - Roles

Vamos descrever as principais atividades funcionais que ocorrem em um ambiente de dados real.
Especificamente, arquitetura de dados, gerenciamento de dados, relatórios, análise e modelagem Ad-Hoc.

● Arquitetura de dados refere-se ao design no ambiente de dados para atender às necessidades da
empresa.
● O gerenciamento de dados envolve a construção e manutenção reais do ambiente de dados.
● Os relatórios, como discutimos no módulo dois, permitem renderizações periódicas padrão de métricas
específicas ou relacionamentos de dados.
● A análise ad-hoc se refere amplamente à análise direcionada que busca responder a uma pergunta
específica, especialmente uma que seja nova ou pouco frequente. Se nos pegamos fazendo a mesma
coisa repetidamente, estamos realmente fazendo reportagens. No entanto, há uma ligação natural entre
análises ad-hoc e relatórios.
● Finalmente, a modelagem se refere à análise avançada ou aplicação de dados usando técnicas de
ordem superior, incluindo procedimentos estatísticos.

Agora que temos uma noção das funções gerais executadas no ambiente de dados, vamos falar sobre as
equipes ou funções específicas que oferecem suporte a todas essas funções. Começaremos com funções
centradas em TI mais técnicas e avançaremos para funções mais analíticas e relacionadas aos negócios.
Vamos começar com algumas áreas de suporte de TI altamente técnicas, uma delas é infraestrutura. As equipes

de infraestrutura gerenciam o hardware físico e as conexões existentes dentro da empresa e que se conectam
com o mundo externo. A maior parte dessa atividade provavelmente será transparente para os usuários dos
dados, mas é crítica para a operação do ambiente de dados.
Outra área é o desenvolvimento de sistemas e aplicativos na administração. Essas equipes criam e mantêm
sistemas que capturam informações para o negócio. Eles também podem fornecer funções auxiliares, como TI
corporativa, que ajudam a administrar software e outras ferramentas.
Há outro conjunto de funções técnicas que estão mais diretamente associadas ao ambiente de dados.
Chamaremos essas funções de gerenciamento de dados técnicos e entrega de inteligência de negócios. O
primeiro deles é o arquiteto de dados. O arquiteto de dados é responsável pelo design real do ambiente de
dados e geralmente é a pessoa responsável por estruturar os modelos de dados usados em bancos de dados
corporativos para armazenamento e acesso de dados. Essa função normalmente é encontrada em uma
organização de TI em uma equipe de data warehouse ou em uma equipe maior de arquitetura corporativa.
Uma segunda função é a do administrador de banco de dados ou DBA. O DBA é amplamente responsável pelo

próprio banco de dados. Incluindo a criação do banco de dados e manutenção do banco de dados para garantir
estabilidade, acessibilidade e desempenho eficiente. Uma função importante que o DBA também pode
desempenhar é ajudar o analista ou outros usuários de banco de dados a ajustar suas consultas para execução
eficiente.

Uma terceira função nesta área é a do desenvolvedor ETL, ou mais geralmente, um desenvolvedor de integração
de dados. Como um lembrete, ETL significa extrair, transformar e carregar, ou o processo de pegar dados de um
lugar, manipulá-los e colocá-los em outro lugar. Esses desenvolvedores são amplamente responsáveis por
preencher um banco de dados e garantir que os dados sejam carregados corretamente nas várias estruturas de
banco de dados.
A última função que discutiremos nesta área é a inteligência de negócios ou desenvolvimento de BI. O
desenvolvedor de BI fica bem no limite do que a maioria das organizações considera uma função de TI. Essa
função pode assumir algumas formas diferentes, mas geralmente o Desenvolvedor de BI gerencia alguns dos
aspectos mais técnicos de um conjunto de ferramentas de business intelligence, incluindo manutenção. E é
frequentemente responsável pela implementação técnica e distribuição de relatórios padrão.

Vamos passar para alguns rolos mais alinhados com a manipulação e análise de dados. O primeiro é o analista
de banco de dados, que é alguém que tem as habilidades para acessar o banco de dados diretamente,
geralmente escrevendo consultas SQL, e que pode ter a habilidade de fazer pelo menos algumas análises nos
dados. Um analista de dados pode ou não acessar o banco de dados diretamente, mas geralmente tem contexto
adicional suficiente sobre o negócio para executar uma ampla gama de análises nos dados e tirar uma
conclusão. Essa é a função central em torno da qual a maioria das funções de análise de dados giram em muitas
organizações.

O modelador é uma extensão mais qualificada do analista de dados. O modelador normalmente passa a maior
parte do tempo realizando análises preditivas e prescritivas de dados usando técnicas sofisticadas que são um
pouco mais avançadas do que uma função básica de analista de dados.

A última função nesta área é um pouco diferente e muitas vezes mal compreendida. Essa é a função do analista

de negócios. A análise de negócios não é realmente uma função de análise de dados, é o processo de análise de
como um negócio funciona, normalmente com o objetivo de identificar maneiras pelas quais um processo ou
sistema de negócios pode ser aprimorado. Às vezes, a análise de negócios incorpora dados, mas, ao contrário
da análise de dados, não é realmente o objetivo principal.

Analytical Organizations - Structures

A maneira como as equipes analíticas são estruturadas dentro de uma organização tende a depender de uma
questão básica. Quão centralizadas ou descentralizadas devem ser essas organizações? As atividades analíticas
devem ser reunidas em uma equipe ou devem ser incorporadas a várias equipes? Como você pode imaginar, a
resposta depende de vários fatores diferentes.

Começaremos com um modelo totalmente centralizado, onde alguns conjuntos de atividades analíticas são
realizados usando uma equipe centralizada. Por exemplo, uma equipe analítica empreendedora pode atender às
necessidades de marketing, finanças, operações, atendimento ao cliente, etc; com relação a relatórios, análises
ad hoc e modelagem estatística.

Um modelo centralizado tem algumas vantagens principais. Em primeiro lugar, normalmente podemos atingir
um nível mais alto de consistência quando a análise é feita por uma única equipe, pois é mais fácil garantir que
métodos comuns sejam usados de uma análise para a próxima. Também é mais fácil garantir que as prioridades
da equipe, incluindo quais análises são feitas e quando, estejam alinhadas com as necessidades gerais da
empresa versus as necessidades de apenas um grupo.
Em um modelo centralizado, a equipe que executa a análise geralmente não é a mesma que solicitou a análise.
A colaboração é necessária e a organização solicitante pode não obter prioridade de outras necessidades. Nesse
caso, a equipe centralizada responde menos às organizações periféricas e é mais difícil para essas organizações
controlar seus destinos. Uma segunda desvantagem está relacionada aos contextos, alguém que trabalha no
marketing e o faz o tempo todo terá um grau mais alto de contextos de marketing.

Finalmente, embora o modelo centralizado exija menos pessoas, ele depende de alguma consistência na carga
de trabalho. É mais difícil preencher o prato de uma equipe analítica centralizada com atividades não
centralizadas e não analíticas quando a carga de trabalho é leve.
O segundo modelo, denominado modelo alocado, busca melhorar a capacidade de resposta da organização
analítica enquanto retém a maioria dos benefícios de uma abordagem centralizada. Nesse modelo, uma
atividade analítica sentimental ainda é realizada por meio de uma equipe centralizada. Mas dentro dessa equipe,
a capacidade específica é reservada para uma ou mais das funções periféricas. Novamente, o principal benefício
dessa abordagem é a capacidade de resposta aprimorada à organização que solicita a análise. Também pode
ter o benefício de melhorar o contexto do grupo de analistas, especialmente quando os indivíduos são alocados
para uma única função por um longo período de tempo.

Modelo coordenado: Nesse modelo, a equipe e as prioridades dos recursos analíticos são totalmente
controladas por equipes funcionais. No entanto, essas equipes estão ligadas por algum conjunto de estruturas
governamentais, metodologias padrão ou comunidades como grupos de usuários ou centros de excelência. Os
benefícios dessa abordagem se baseiam nos do modelo alocado.

O último modelo organizacional que discutiremos é o modelo distribuído, no qual as atividades analíticas são
totalmente realizadas em organizações periféricas com pouca ou nenhuma coordenação. As vantagens deste
modelo são semelhantes ao modelo coordenado. Ou seja, um alto grau de capacidade de resposta e contexto
pode ser alcançado. A equipe também tem total flexibilidade em como realizar análises, uma vez que não
precisa necessariamente aderir a padrões centralizados.

No lado negativo, há pouca garantia de consistência nos métodos ou mesmo nas fontes de dados. É muito mais

provável que os esforços sejam duplicados e essa abordagem geralmente requer o maior número de recursos.
Uma vez que são poucos mecanismos para identificar sobreposição e agilizar atividades.

Então, qual desses modelos é o preferido? Bem, isso realmente depende. Existem organizações que obtiveram
sucesso usando cada um desses modelos e até combinações desses modelos.

Em vez de classificar os modelos, por que não procuramos alguns fatores que tendem a tornar cada modelo
mais ou menos viável em uma organização? O fator mais significativo que influencia nosso modelo
organizacional é o tamanho da empresa. Acontece que as organizações analíticas realmente começam a ter um
bom desempenho quando atingem uma massa crítica de recursos.

Data Governance
A ideia de governança de dados tem o objetivo de estruturar como os dados são gerenciados e usados em uma
organização. Estabelecendo regras e processos em torno de uma variedade de operações e decisões
relacionadas a dados.
Uma função principal da governança de dados é estabelecer e manter padrões em torno dos dados. Isso pode
assumir algumas formas diferentes. O primeiro é identificar quais fontes são preferidas para cada tipo de dado
ou métrica usado em uma organização. Existe uma ideia chamada Master Data Management, ou MDM, que
identifica os dados mais críticos em uma organização e garante que haja um entendimento claro de onde esses
dados devem vir e onde devem ser armazenados.
Uma ideia relacionada é a de dados de referência comuns. De um modo geral, os dados de referência fornecem

conjuntos de valores permitidos para determinados atributos de dados ou fornecem informações descritivas
adicionais sobre ideias-chave no ambiente de dados da empresa. Às vezes, esses dados são vagamente
chamados de dados de pesquisa ou dados dimensionais. A governança de dados ajuda a garantir que os dados
de referência sejam completos e precisos.
O último conjunto de controles gira em torno do acesso aos dados e conformidade. Um processo de governança
pode ajudar a descobrir quem deve ter acesso aos dados em quais circunstâncias.
A segunda função principal da governança de dados é estabelecer e manter a responsabilidade pelos dados. Os

administradores de dados geralmente são responsáveis por garantir que sua área tenha as definições corretas e
são responsáveis pelo estado geral de seu domínio de dados. A governança também pode ajudar a identificar
quem é responsável por abordar vários tipos de problemas de qualidade de dados.
A terceira função da governança de dados é ajudar a gerenciar o processo geral de desenvolvimento de dados e
comunicar as mudanças no ambiente de dados. Muitas equipes usam dados e cada uma delas provavelmente
tem uma longa lista de adições ou modificações que gostariam de ver implementadas. No entanto, geralmente
não há capacidade suficiente para realizá-los todos e deve haver alguma forma de priorizar o trabalho que
precisa ser feito. A governança pode ajudar fornecendo um processo para verificar, avaliar e priorizar quais
projetos de dados são realizados, geralmente racionalizando esses projetos em relação às prioridades gerais de
negócios da empresa.
Como os ambientes de dados estão em constante evolução, também precisa haver algum mecanismo para
permitir que os usuários dos dados saibam quando novos dados são adicionados. Ou alguma mudança ou
melhoria é feita. Ter uma abordagem de governança de dados bem estruturada pode facilitar a comunicação
sobre os dados e garantir que todos estejam informados e cientes das mudanças.

A última função que a governança de dados desempenha é fornecer informações sobre o próprio ambiente de
dados. Há um ampla classe de atividades chamada gerenciamento de metadados, que ajuda a controlar os
metadados ou dados sobre os dados.

Pode haver muita variação em como a governança de dados é implementada em uma organização. No entanto,

existem algumas características que quase sempre estão presentes em um programa de sucesso.
O primeiro é a representação multifuncional. O objetivo da governança de dados é colocar todos na mesma
página, para fazer isso, todos precisam estar envolvidos. As melhores estruturas de governança têm ampla
participação de equipes técnicas e não técnicas, geralmente por meio de algo como um conselho de governança
de dados que reúne esses grupos e trata de questões de governança.
O segundo é um processo e cronograma contínuos. Um conselho de governança de dados não adianta muito se
nunca se reúne ou não se reúne com frequência suficiente, ou se não toma decisões, ou se não tem mecanismo
para executar as decisões. Um programa sólido de governança de dados fornece a estrutura.

O terceiro elemento comum é um conjunto de funções definidas. Alguém precisa atuar como o líder efetivo do
programa. Este pode ser um presidente do Conselho de Governança ou outro líder.
Data Privacy
Em primeiro lugar, o conjunto de leis e regulamentos que regem a privacidade de dados é extenso e muito
complexo e esses regulamentos variam dependendo de onde você está. Em segundo lugar, o panorama da
privacidade de dados está mudando muito rapidamente e o que é verdade hoje pode não ser amanhã.

Níveis
O nível superior são os padrões legais que foram estabelecidos por lei, ordem ou regra para obrigar o
tratamento de certas classes de dados. As normas legais devem ser seguidas por quaisquer organizações
sujeitas a elas. Não há muita escolha no assunto e as consequências podem ser graves se os padrões legais não
forem seguidos.
O segundo nível é o padrão ético. Esses padrões são estabelecidos por organizações da indústria ou
profissionais que buscam atingir algum nível de tratamento não vinculativo de informações. A violação dessas
normas pode ter consequências, mas geralmente elas são impostas fora dos tribunais.
O terceiro nível de padrões são os padrões de política, que são padrões internos estabelecidos por uma
organização para orientar seu próprio tratamento de dados, geralmente por meio de algo como uma política de
privacidade. A empresa decide como fazer cumprir esses padrões.
O último nível de padrões é simplesmente o que podemos chamar de bom julgamento. Mesmo se alguma ação

não for proibida por padrões legais, éticos ou de política. Devemos sempre nos perguntar: essa é realmente uma
boa ideia e quais seriam as consequências de usar os dados de determinada maneira?
Como a maioria dos termos associados à privacidade de dados, PII tem uma definição longa. Conforme definido

pelo US National Institutes of Standard ou NIST, PII inclui qualquer informação sobre um indivíduo mantida por
uma agência, inclusive. Um, qualquer informação que possa ser usada para distinguir ou rastrear a identidade
de um indivíduo, como nome, número do seguro social, data e local de nascimento, nome da mãe / solteira ou
registros biométricos. E dois, quaisquer outras informações vinculadas ou vinculáveis a um indivíduo, como
informações médicas, educacionais, financeiras e de emprego.
Na área de conectividade com a Internet e big data, a capacidade de vincular informações em domínios
desesperados nunca foi tão grande.
O segundo tipo de informação que discutiremos são as informações financeiras do consumidor, ou CFI. O CFI é

definido nos Estados Unidos pelo Gramm-Leach-Bliley Act, também conhecido como Financial Services
Modernization Act de 1999.

CFI é qualquer informação que não esteja publicamente disponível, e que um consumidor fornece a uma
instituição financeira para obter um produto ou serviço financeiro da instituição. Resulta de uma transação entre
o consumidor e a instituição envolvendo um produto ou serviço financeiro, ou que uma instituição financeira
obtém informações sobre um cliente em conexão com o fornecimento de um produto ou serviço financeiro.
O CPNI é coletado por empresas de telecomunicações sobre ligações telefônicas de clientes. Inclui a hora, data,

duração e número de destino de cada chamada. O tipo de rede que o cliente assina e qualquer outra informação
que apareça na conta telefônica do cliente.
O último tipo de informação sobre o qual falaremos são informações de saúde protegidas ou PHI. PHI é
considerado um dos tipos de informação mais sensíveis e, conseqüentemente, está entre aquelas rigidamente
controladas e regulamentadas. Um, o PHI é criado ou recebido por um provedor de saúde, plano de saúde,
empregador ou câmara de compensação de saúde.

Em segundo lugar, está relacionado com a saúde ou condição física ou mental passada, presente ou futura de
um indivíduo, a prestação de cuidados de saúde a um indivíduo ou o pagamento passado, presente ou futuro
pela prestação de cuidados de saúde a um indivíduo.
A maioria dos campos acadêmicos, científicos, jurídicos e médicos têm padrões bem estabelecidos que tornam
os órgãos que responsabilizam os membros por um amplo conjunto de comportamentos éticos, alguns dos
quais incluem o uso de dados. No mundo dos negócios, verifica-se que alguns dos órgãos de ética e padrões

mais relevantes operam na área de marketing, o que faz sentido, já que geralmente interagimos com os clientes

por meio de algum tipo de atividade de mercado ou interface.

Data Quality
O que exatamente é qualidade de dados? Existem duas definições gerais que podemos aplicar. O primeiro, e
aquele que você vê na maioria dos artigos técnicos ou documentos de padrões, é a adequação para uso ou
atende à definição de requisitos.

Essa definição basicamente diz que a qualidade dos dados é o grau em que os dados podem ser usados para a

finalidade pretendida. A segunda definição é um pouco mais filosófica e sugere que a qualidade dos dados é o
grau em que os dados representam com precisão o mundo real.
Existem algumas características que geralmente ajudam a definir bons dados. O primeiro é a integridade ou
uma medida para saber se temos ou não todos os dados que esperamos ter.
● Estamos capturando todos os eventos que deveríamos capturar?

● Quando capturamos um evento, temos todos os atributos desse evento que esperamos ter?
● Se usarmos dados de referência, todos os valores nesses dados de referência são contabilizados?
Uma segunda ideia é a precisão, uma medida para saber se os dados que temos são um representante preciso
da ideia que está tentando capturar.

● Se o ponto de dados for um número, é o número certo?

● Se for uma string, é a string certa e está escrita corretamente?
● Os carimbos de data / hora e outros atributos são capturados corretamente?
● O conceito de consistência é uma extensão da precisão. Capturo os mesmos dados sempre da mesma
maneira?

● Ou se eu capturar em dois lugares diferentes, tenho os mesmos valores?

Uma terceira medida é o que podemos chamar de conformidade ou validade. Se os dados armazenados estão
em conformidade com a sintaxe, a codificação e outras especificações de um modelo de dados.

● Os dados estão armazenados no formato correto?

● Se códigos forem usados para atributos, eles são os códigos esperados?
● Os pedaços de dados são nomeados usando as convenções que foram estabelecidas para um sistema
ou banco de dados?

Uma quarta medida é a oportunidade, que indica se os dados são capturados ou disponibilizados logo após um

evento do mundo real para que sejam úteis. Você pode ouvir o termo latência de dados para descrever quanto
tempo leva para que os dados estejam disponíveis para algo como relatórios ou análises.

A quinta e última medida que incluiremos é a proeminência, que é o grau em que temos visibilidade das origens

dos dados. Essa é uma medida de segunda ordem, mas mostra quanta confiança temos de que os dados que
estamos vendo são reais e precisos.

Data Analytics For Business - University of Colorado Boulder

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Data Analytics For Business - University of Colorado Boulder

Enviado por

Direitos autorais:

Formatos disponíveis

University of Colorado Boulder

Thinking about Analytical Problems

A próxima coisa que você deve pensar é como seria o resultado de sua análise. Que tipo de história eu esperava

No entanto, muitas vezes nem tudo de que você precisa é tão fácil de conseguir. Portanto, você terá que pensar

Em alguns casos, pode ser necessário entrar em contato com pessoas fora de sua empresa para obter os dados.

Conceptual Business Models

The Information-Action Value Chain

Definindo os três tipos de análise:

Real World Events and Characteristics

Podemos pensar sobre isso pelo menos de duas maneiras.

Também podemos pensar em localização no sentido virtual. As pessoas podem navegar no ambiente online por

Data Capture by Source Systems

Os sistemas de recursos humanos ​são focados internamente e rastreiam informações sobre os funcionários da

Os sistemas de gerenciamento de produtos ​são usados ​para rastrear informações sobre os próprios produtos.

Os sistemas de gerenciamento de conteúdo ​são um pouco mais amplos. Eles podem ser usados ​para todos os

Um terceiro tipo de arquivo é um arquivo de log. Os arquivos de log são geralmente usados ​para capturar dados

Quatro bancos de dados alternativos comuns:

Virtualization, Federation, and In-Memory Computing

No entanto, a virtualização de dados tem algumas limitações.

É aqui que entra a federação de dados. Com a federação de dados, não apenas fazemos com que pareça que os

The Relational Database

Data Tools Landscape

A visualização de dados é o processo de organizar os dados de forma que possamos ver mais facilmente o que

A última classe de ferramentas que apresentaremos são ferramentas de modelagem estatística e programação

The Tools of the Data Analyst

Em termos gerais, APIs são mecanismos padrão para troca de informações entre programas e ODBC é um caso

Comandos mais usados:

Aggregating and Sorting Data in SQL

● Função MAX: analisa um conjunto de valores e retorna o maior entre eles.

● Função MIN: analisa um grupo de valores e retorna o menor entre eles.

● Função COUNT: retorna o total de linhas selecionadas.

● Função HAVING: em conjunto com group by, usamos para filtrar os resultados que serão submetidos à

Extracting Data from Multiple Tables

SELECT T​ blalunos.nome, Tblnotas.nota

Stacking Data with UNION Command

Extending SQL Queries Using Operators

Analytical Organizations - Roles

Vamos começar com algumas áreas de suporte de TI altamente técnicas, uma delas é infraestrutura. As equipes

Uma segunda função é a do administrador de banco de dados ou DBA. O DBA é amplamente responsável pelo

A última função nesta área é um pouco diferente e muitas vezes mal compreendida. Essa é a função do analista

Analytical Organizations - Structures

No lado negativo, há pouca garantia de consistência nos métodos ou mesmo nas fontes de dados. É muito mais

Uma ideia relacionada é a de dados de referência comuns. De um modo geral, os dados de referência fornecem

A segunda função principal da governança de dados é estabelecer e manter a responsabilidade pelos dados. Os

Pode haver muita variação em como a governança de dados é implementada em uma organização. No entanto,

O último nível de padrões é simplesmente o que podemos chamar de bom julgamento. Mesmo se alguma ação

Como a maioria dos termos associados à privacidade de dados, PII tem uma definição longa. Conforme definido

O segundo tipo de informação que discutiremos são as informações financeiras do consumidor, ou CFI. O CFI é

O CPNI é coletado por empresas de telecomunicações sobre ligações telefônicas de clientes. Inclui a hora, data,

mais relevantes operam na área de marketing, o que faz sentido, já que geralmente interagimos com os clientes

Essa definição basicamente diz que a qualidade dos dados é o grau em que os dados podem ser usados ​para a

● Estamos capturando todos os eventos que deveríamos capturar?

● Se o ponto de dados for um número, é o número certo?

● Os dados estão armazenados no formato correto?

Uma quarta medida é a oportunidade, que indica se os dados são capturados ou disponibilizados logo após um

A quinta e última medida que incluiremos é a proeminência, que é o grau em que temos visibilidade das origens

Você também pode gostar

Os sistemas de recursos humanos são focados internamente e rastreiam informações sobre os funcionários da

Os sistemas de gerenciamento de produtos são usados para rastrear informações sobre os próprios produtos.

Os sistemas de gerenciamento de conteúdo são um pouco mais amplos. Eles podem ser usados para todos os

Um terceiro tipo de arquivo é um arquivo de log. Os arquivos de log são geralmente usados para capturar dados

SELECT T blalunos.nome, Tblnotas.nota

Essa definição basicamente diz que a qualidade dos dados é o grau em que os dados podem ser usados para a