Você está na página 1de 41

MBA em

Tecnologia para Negócios:


AI, Data Science e Big Data

DATA MINING
(MINERAÇÃO DE DADOS)
Com Fabiano Castello e Júlio Machado

Dados têm pouca utilidade se não forem


transformados em informações.

Ricardo Ruiz Rodrigues


Conheça
c o livro da disciplina
-
CONHEÇA SEUS PROFESSORES 3

Conheça os professores da disciplina.​

EMENTA DA DISCIPLINA 4

Veja a descrição da ementa da disciplina. ​

BIBLIOGRAFIA BÁSICA 5

Veja as referências principais de leitura da disciplina.​

O QUE COMPÕE O MAPA DA AULA? 6

Confira como funciona o mapa da aula.

MAPA DA AULA 7

Veja as principais ideias e ensinamentos vistos ao longo da aula.

ARTIGOS 38

Links de artigos científicos, informativos e vídeos sugeridos.

RESUMO DA DISCIPLINA 39

Relembre os principais conceitos da disciplina.​

AVALIAÇÃO 40

Veja as informações sobre o teste da disciplina.​

2
Conheça
c seus professores

-
FABIANO CASTELLO
Professor convidado

Professor e escritor, soma mais de 25 anos de experiência


corporativa nas áreas de auditoria, novas tecnologias,
inteligência artificial e blockchain. É palestrante de diversos
temas relacionados à tecnologia e à auditoria no Brasil e no
exterior, além de consultor da DataLab, empresa com foco
em projetos de inteligência artificial. É associado à Inova
Consulting e pesquisador na BB Chain, startup focada em
projetos ligados à blockchain e incubada na Escola Politécnica
da Universidade de São Paulo (POLI/USP). Iniciou sua carreira
corporativa na Arthur Andersen e atuou como executivo
em empresas como Deloitte, Electrolux, Ambev, Oi e Grant
Thornton, com forte atuação nacional e internacional. Tem as
principais certificações internacionais de auditoria — CISA,
CISM, CIA, CCSA e CRMA —, além de ser conselheiro certificado
pelo Instituto Brasileiro de Governança Corporativa (IBGC).

JÚLIO MACHADO
Professor PUCRS

Graduado em Ciência da Computação pela Universidade


Federal do Rio Grande do Sul (1997) e mestre em Computação
pela UFRGS (2000). É professor-assistente da Pontifícia
Universidade Católica do Rio Grande do Sul (PUCRS). Tem
experiência na área de Ciência da Computação com ênfase em
Linguagens Formais, Teoria da Computação e Linguagens de
Programação, atuando principalmente nos seguintes temas:
teoria dos autômatos, modelos de hipertexto, teoria das
categorias, cursos hipermídia, programação de sistemas para
Web.

3
Ementa da Disciplina

Armazenamento e pesquisa em bases de dados. Técnicas, abordagens e


ferramentas de mineração de dados. A mineração de dados e as suas utilizações
em estudos de casos reais.

4
Bibliografia básica
a

-
As publicações destacadas têm acesso gratuito.

Bibliografia básica

FERNANDO, A. Aprenda mineração de dados. São Paulo: Alta Books, 2016.

GOLDSCHMIDT, R.; PASSOS, E. Data mining: conceitos, técnicas, algoritmos,


orientações e aplicações. Rio de Janeiro: Elsevier, 2015.

SILVA, L. Introdução à mineração de dados. Rio de Janeiro: Elsevier, 2016.

Bibliografia complementar

IIBA. A guide to the business analyst body of knowledge: version 3.0. Toronto: IIBA,
2015.

JIAWEI, H.; MICHELINE, K.; JIAN, P. Data mining: concepts and techniques.
Burlington: Morgan Kaufmann, 2011.

O’DELL, C; GRAYSON, J. If only we knew what we know: the transfer of internal


knowledge and best practice. H&HN Hospitals & Health Networks, v. 73, n. 10, p.
A-20, out. 1999.

SHARP, S. Competitive intelligence advantage. New Jersey: John Wiley & Sons, Inc.,
2009.

TOURTE, E. et al. Working with text: tools, techniques and approaches for text
mining. Oxford: Chandos Publishing, 2016.

5
o o
O que compõe

s
Mapa da Aula?
MAPA DA AULA
São os capítulos da aula, demarcam
momentos importantes da disciplina,
servindo como o norte para o seu FUNDAMENTOS
aprendizado.
Conteúdos essenciais sem os quais
você pode ter dificuldade em
compreender a matéria. Especialmente
importante para alunos de outras
EXERCÍCIOS DE FIXAÇÃO
áreas, ou que precisam relembrar
assuntos e conceitos. Se você estiver
Questões objetivas que buscam
por dentro dos conceitos básicos dessa
reforçar pontos centrais da disciplina,
disciplina, pode tranquilamente pular
aproximando você do conteúdo de
os fundamentos.
forma prática e exercitando a reflexão
sobre os temas discutidos.​
CURIOSIDADES
Apresentação de figuras públicas
e profissionais de referência
PALAVRAS-CHAVE mencionados pelo(a) professor(a),
além de fatos e informações que dizem
Conceituação de termos técnicos, respeito à conteúdos da disciplina.
expressões, siglas e palavras específicas
do campo da disciplina citados durante
a videoaula. DESTAQUES
Frases dos professores, que resumem
sua visão sobre um assunto ou
VÍDEOS situação.​

Assista novamente aos conteúdos


expostos pelos professores em vídeo.
Aqui você também poderá encontrar ENTRETENIMENTO
vídeos mencionados em sala de aula.
Lembre-se que a diversificação de Inserções de conteúdos da equipe de
estímulos sensoriais na hora do estudo design educacional para tornar a sua
otimiza seu aprendizado. ​ experiência mais agradável e significar
o conhecimento da aula.​

CASE
Neste item você relembra o case
analisado em aula pelo professor. ​
LEITURAS INDICADAS
A jornada de aprendizagem não
termina ao fim de uma disciplina. Ela
MOMENTO DINÂMICA segue até onde a sua curiosidade
alcança. Aqui você encontra uma lista
Aqui você encontra a descrição
de indicações de leitura. São artigos e
detalhada da dinâmica realizada pelo
livros sobre temas abordados em aula.​
professor em sala de aula com os alunos. ​

6
Mapa da Aula
Os tempos marcam os principais momentos das videoaulas.

AULA 1 • PARTE 1

Dado em si, não tem valor 01:01


nenhum. O dado passa a ter
valor a partir do momento em
que fazemos algo com ele.

PALAVRAS-CHAVE
01:48

Actionable intelligence: Inteligência


acionável é a informação que pode
ser acompanhada, com a implicação
adicional de que um plano estratégico
Se vocês querem se propor 04:57 deve ser realizado para fazer uso
a trabalhar com dados ou positivo das informações coletadas.
coordenar equipes que O termo costuma ser mencionado no
vão trabalhar com dados, é contexto de big data e modelagem
preditiva.
preciso ter método.

Os softwares de inteligência 08:07


artificial sempre trabalham
com um arquivo único de
entrada, que é o dataset.

08:47 Linguagem e leituras indicadas

Fabiano Castello apresenta expressões


e linguagens utilizadas no campo da
análise e da mineração de dados, além de
recomendar bibliografias que embasam as
suas duas aulas.

7
LEITURAS INDICADAS
10:05
Data Mining Models

LEITURAS INDICADAS
10:41
Data Mining: Concepts and
Techniques

Publicado por David Olson em 2016, o livro


demonstra aplicações comuns de mineração
de dados em empresas, descrevendo os
benefícios do data mining nas organizações
e os modelos básicos. Ainda sem edição em
português.

Publicado por Jiawei Han, Micheline Kamber e


Jian Pei em 2011, o livro explora os conceitos
de data mining e suas principais ferramentas,
LEITURAS INDICADAS que podem ser utilizada na descoberta de
11:03 conhecimento a partir dos dados coletados.
Análise Multivariada de Dados

12:04 Introduzindo BI, KDD e DM

O professor exibe uma pirâmide que


mostra o caminho a ser percorrido do
dado bruto até o processo de decisão.
A knowledge-discovery in databases
(descoberta de conhecimento em banco
de dados, em português) é um processo
Publicado por Joseph F. Hair, William C.
de framework que inicia nos dados e segue
Black, Barry J. Babin e Rolph E. Anderson em
2009, o livro apresenta um amplo conjunto em direação ao seu pré-processamento,
de técnicas estatísticas. Trata-se de uma à mineração dos dados e, por fim, à
introdução sobre o assunto destinada àqueles avaliação. O data mining é uma das etapas
sem formação estatística.
do KDD.

8
PALAVRAS-CHAVE
13:59

DBA: O data base administrator


(administrador de banco e dados,
em português) é o profissional PALAVRAS-CHAVE
responsável pelo planejamento de 14:34
capacidade, instalação, configuração,
design de banco de dados, migração, BI: O business intelligence
monitoramento de desempenho, (inteligência empresarial, em
segurança, solução de problemas, português) é o processo que envolve
backup e recuperação de dados. a coleta, a organização, a análise, o
compartilhamento e o monitoramento
de informações relacionadas à gestão
de negócios.

LEITURAS INDICADAS
15:55
The Support of Decision
Processes with Business
Intelligence and Analytics
CURIOSIDADE
16:15
Thomas Davenport

Professor e presidente de Tecnologia da


Publicado por Martin Kowalczyk em 2017, o Informação e Gerenciamento do Babson
livro investiga o desenho e o estabelecimento
de decisões baseadas em Business College, cofundador do International
Intelligence e Analytics (BI&A). Institute for Analytics, membro da Iniciativa
MIT sobre Economia Digital e consultor
sênior da Deloitte Analytics, Davenport
ensina análise/big data em programas
executivos na Babson, Harvard Business
School e School of Public Health e MIT Sloan
School.

KDD é o processo como um 19:25


todo e data mining é uma das
etapas desse processo.

9
19:48 Contextualizando BI&A e KDD

No contexto de business intelligence (BI)


e analytics (A), o KDD trabalha com dados
PALAVRAS-CHAVE desde a aquisição até a sua transformação
21:00
em informação; no KDD, ainda há o DM.
Ambos podem ser realizados fora do
Machine learning: É um subcampo
da engenharia e da ciência da contexto do BI&A - na inteligência artificial
computação que evoluiu do estudo (IA), no machine learning e no deep
de reconhecimento de padrões e da learning.
teoria do aprendizado computacional
em inteligência artificial.

Hierarquia DIKW 23:59

Os dados assumem valor a partir do


momento em que são tratados, em que
lhes é atribuído um contexto. Nesse CURIOSIDADE
sentido, tornam-se informação e, ao dar 25:00
sentido a essa informação, alcança-se o
Russell Ackoff
conhecimento. Quando o conhecimento
provocar uma transformação efetiva,
atingimos a sabedoria. O segredo para o
trabalho com dados é fazê-lo de forma
estruturada por meio de técnicas (KDD),
processos (SEMMA) ou metodologias
(CRISP-DM).

Fundador do movimento de pensamento


sistêmico, foi um teórico organizacional e
Se vocês querem trabalhar 27:47
com dados, obrigatoriamente pioneiro em pesquisa operacional e ciência
vocês têm que ter um da administração.
processo para trabalhar com
esses dados.

CRISP-DM 29:05

O cross industry standard process for


data mining (CRISP-DM) é uma das
técnicas mais utilizadas em data mining
e também é considerada uma das mais
completas. Sua principal vantagem é que
pode ser aplicada a qualquer modelo de
negócio, além de não possui dependência

10
de ferramenta específica. Essa técnica
compreende cinco fases:

• Business understanding (identificação


EXERCÍCIO DE FIXAÇÃO
35:01
do problema);
Assinale a alternativa que apresenta
• Data preparation (compreensão dos o nome do processo de extração de
dados); informações de base de dados.
• Modeling (técnicas de modelagem);
• Evaluation (avaliação dos resultados); Knowledge discovery in databases
• Deployment (implantação). (KDD).

Data mining (DM).

CRISP-DM.

PCA.

AULA 1 • PARTE 2

Vejo [o deployment] como 00:54


um dos grandes desafios do
projetos de ciências de dados.

02:43 KDD e SEMMA

Knowledge discovery in databases (KDD)


é o método mais conhecido por ser um
dos mais antigos. Compreende a fase
Apesar de o KDD ter 06:33 de data mining e não foca em questões
essa introdução, não foca de negócios ou geração de modelos,
exatamente na questão dos mas na descoberta de conhecimento a
problemas de negócios. partir dos dados. Já o sample, explore,
modify, model e assess (SEMMA),
criado pelo SAS Institute, é semelhante
Resposta desta página: alternativa 1.

ao CRISP-DM em muitos aspectos,


mas concentra-se, principalmente, nas
tarefas de criação do modelo, sem o
protagonismo dos problemas de negócio.
Independentemente da metodologia
escolhida, entretanto, sempre existirão
as seguintes etapas: exploração, pré-
processamento e transformação de
dados e o mining, que pode envolver
a descoberta de padrões ou análises
preditivas usando inteligência artificial.

11
CASE
08:39
SAS Institute

10:08
De 2014 para cá, não surgiu
nenhum grande novo
framework que foi adotado
pelo mercado, o que se viu foi
a consolidação do CRISP-DM
como o principal framework.
Fundada em 1976 por Anthony Barr, James
Goodnight, John Sall e Jane Helwig, é uma
empresa pioneira em Business intelligence e
de uma família de softwares gerenciadores
de bancos de dados. Em 2001, foi rebatizada
13:12 Exploração de dados
como SAS.

A base para o entendimento do trabalho


com dados é compreender os tipos de
dados existentes. São eles:
O dado estruturado é aquele 14:24
que efetivamente está no • Dados não estruturados: qualquer tipo
nosso dia a dia. de dado (posts, imagens, áudio, vídeo,
livros...);
• Dados semiestruturados: XML e JSON;
• Dados estruturados: tabelas, dia a dia
empresarial, linhas e colunas, bancos
PALAVRAS-CHAVE
15:04 de dados relacionais.

JSON: O JavaScript Object Notation é Explorar os dados é fundamental, bem


um formato de troca de informações/ como conhecê-los (tamanho dos dados,
dados entre sistemas que utiliza
tipos de variáveis e distribuição dos
texto legível a humanos no formato
valores) e validá-los (fazer totalizações,
atributo-valor.
missing values e outliers).

17:01
Eu gosto de pensar em big data
como um grande conceito de
uso de dados.

PALAVRAS-CHAVE
20:14

NLP: O natural language processing


(processamento de linguagem
natural, em português) é uma área
da inteligência artificial dedicada
a desenvolver a capacidade da
tecnologia de entender a linguagem
humana.

12
EXERCÍCIO DE FIXAÇÃO
28:23

Qual é a principal vantagem do


CRISP-DM?

Estar presente ao longo de todo o


processo de DM.

Ser aplicado a qualquer tipo de ne-


gócio e não ter dependência de fer-
ramenta específica para ser execu-
tado.

Todos conhecem e usam, resultando


em uma ampla base open source de
dados disponíveis.

É uma excelente forma de explorar


dados.

AULA 1 • PARTE 3

00:27 Formatos de dados

De acordo com Davis Olson, no livro “Data


Mining Models”, os principais tipos de
formatos de dados são: numerical, integer,
binary, category, date e string/text.

04:39
Quando falamos de explorar
dados, uma das melhores
Resposta desta página: alternativa 2.

formas de conhecermos nossos


dados é através de visualização
de dados.

Visualização de dados 04:56

A visualização de dados é uma excelente


forma de explorá-los. Entre as formas
gráficas de visualização, destacam-se

13
• Gráfico de barras (histograma);
• Scatter plot (gráfico de dispersão);
• Tree maps;
VÍDEO
• Bloxpot (diagrama de caixa); 05:13
• Facets. 200 países, 200 anos, 4 minu-
tos

PALAVRAS-CHAVE
10:18

Storytelling: É o ato de contar


histórias usando técnicas inspiradas
em roteiristas e escritores para
transmitir uma mensagem de forma
inesquecível. O médico Hans Rosling explora dados
sobre o desenvolvimento do planeta
nos últimos dois século. Assista aqui.

CURIOSIDADE
11:02
Hans Rosling

LEITURAS INDICADAS
11:15
Factfulness

Responsável pelo sistema de software


Trendalyzer, participou de diversas palestras
ao redor do mundo debatendo uso de dados
para explorar problemas de desenvolvimento.

Publicado por Hans Rosling, Ola Rosling


e Anna Rosling Rönnlund em 2019, o livro
destrói diversos mitos sobre o mundo de hoje
apresentando fatos e estatísticas de forma
clara e divertida.

14
LEITURAS INDICADAS
12:07
Storytelling com Dados

CURIOSIDADE
12:45
Edward Tufte

Publicado por Cole Nussbaumer Knaflic em


2019, é um guia sobre visualização de dados
Estatístico, designer gráfico, economista para profissionais de negócios, oferecendo
análises complexas de forma criativa.
político e renomado infografista
estadunidense, seu trabalho é muito
bem reconhecido nas áreas de design de
informação e leitura visual.

PALAVRAS-CHAVE
14:26

Quarteto de Anscombe: Criado pelo


estatístico inglês Francis John “Frank”
Anscombe, são quatro conjuntos
de dados que têm estatísticas
descritivas quase idênticas, mas que
têm distribuições muito diferentes e 27:46
Usar gráfico 3D é sinal de
aparências distintas quando exibidos amadorismo para quem trabalha
graficamente.
com dados.

29:50 Ferramentas

Castello apresenta algumas ferramentas


utilizadas no trabalho com dados, como
Power BI, Qlik, Tableau (as três líderes de
mercado pensadas para o usuário final),
Alteryx (que automatiza todo o processo
prévio do mining), Minitab, Matlab, IBM
SPSS Software, Gretl, R, Python e FCastell
auto analyser (FCA).

15
LEITURAS INDICADAS
36:29
Análise de Dados

37:27 FCA2 FC auto analyser

A FCA2 FC auto analyser é uma


ferramenta gratuita de produtividade
para analisar dados em formato XLS e
CSV. Ela roda em Python e é mantida
pela comunidade (está no Github). Em
seu pipeline, o objetivo é reunir todas as
Publicada por Luiz Paulo Fávero e Patrícia informações em um único .pdf, inserir data
Belfiore em 2021, a obra apresenta as
principais técnicas relativas aos modelos labels nos histogramas, montar correlação
de regressão que podem ser adotadas no entre variáveis numéricas (facets), criar
tratamento de bancos de dados, além de uma versão compilada para ampliar o
propiciar ao leitor uma oportunidade para a uso por não usuários de Python e uma
aplicação dessas técnicas por de Excel, Stata
e SPSS. interface gráfica.

EXERCÍCIO DE FIXAÇÃO
42:04

Assinale a alternativa que apresenta


um tipo de visualização de dados.

Tree maps e stratified.

Boxplot e bining.

Scatter plot e gráfico de barras.

Sampling e facets.

AULA 1 • PARTE 4
Resposta desta página: alternativa 3.

Missing values 00:25

Em dataset, os valores ausentes são


comuns, mas é importante entender a
quantidade e a gravidade para definir a
estratégia a ser adotada.

16
10:55
Do ponto de vista do
processamento, não podemos
esquecer que o computador
é uma máquina burra, ela é
programada para fazer as
Noise: erros aleatórios 11:32 coisas.

O maior desafio de data mining é separar


noise e sinal. As três estratégias para lidar
com essa diferença são:

• Bining: transformar valores contínuos


em valores discretos; 11:43
Em qualquer tipo de dado
• Regression: encontrar os valores mais existem os tais erros
prováveis de uma variável em função aleatórios.
de outra;
• Outliers: filtrar outliers e utilizar
estratégias de missing values.

LEITURAS INDICADAS
12:02
O sinal e o ruído: por que tantas
previsões falham e outras não

CURIOSIDADE
12:19
Nate Silver

Publicado por Nate Silver em 2013, o livro


examina casos de sucessos e fracassos para
Estatístico e escritor estadunidense que determinar o que os melhores previsores têm
analisa beisebol, basquete e eleições, é o em comum em diversos campos de atividade.
fundador e editor-chefe do FiveThirtyEight e
correspondente especial da ABC News.

17
Data integration 14:53

Data integration envolve a combinação de


dados residentes em diferentes fontes e
fornece aos usuários uma visão unificada.
Para integrar bases de dados, é importante
considerar dois conceitos: entendimento
23:14 Data reduction
das variáveis segundo unique rules,
As estratégias para redução de dados
consecutive rules e null rules, além do
mais comuns são a redução dimensional
relacionamento das bases (chaves, modelo
e a redução de registros. A redução
E/R). As regras para a integração de
dimensional é realizada por meio da
dados são:
análise fatorial, a técnica mais utilizada.
No caso da redução de registros, é preciso
• Unique rules: os valores de um
reduzir dados minimizando a perda nos
determinado atributo devem ser
resultados principais.
únicos, não podem se repetir;
• Consecutive rules: não pode haver
missing values entre o valor mínimo e o
valor máximo, bem como precisam ser
únicos;
• Null rules: especifica condições em
que valores ausentes são admissíveis.

CURIOSIDADE
25:20
Joseph F. Hair Jr.

CURIOSIDADE
26:04
Maria Aparecida Gouvêa

Foi o fundador e diretor do programa DBA


da Kennesaw State University. Antes da
KSU, fazia parte do corpo docente da Ourso
College of Business Administration. Foi
membro da Fundação do Aço dos Estados Professora titular do Departamento
Unidos na Universidade da Flórida, onde de Administração da FEA/USP, possui
obteve seu Ph.D. em Marketing. experiência na área de Administração, com
ênfase em Métodos Quantitativos Aplicados,
atuando principalmente nos seguintes temas:
avaliação da qualidade de atendimento em
serviços e modelos de aceitação de novas
tecnologias.

18
Quando reduzimos dados, 26:39
perdemos uma coisa chamada
granularidade.

23:14 PCA

Técnica de análise multivariada que


identifica um número menor de fatores
que podem representar relações entre
PCA é diferente de 31:27 variáveis que estão inter-relacionadas. A
regressão, é uma técnica de lógica por trás do PCA é que as variáveis
interdependência. que apresentam correlação expressiva
compartilham algum fator em comum
que pode substituí-las, preservando um
bom percentual da variabilidade dos
dado originais. Castello observa que o
Existem outras técnicas para 33:16 PCR não é uma técnica de regressão,
fazer redução dimensional, mas de interdependência, e que existem
mas o PCA talvez seja uma condicionais para o uso do PCA,
das mais utilizadas. principalmente em relação ao tamanho da
amostra.

EXERCÍCIO DE FIXAÇÃO
33:55

Bining, regression e outliers são


estratégias de:

Filtragem de outliers e utilização de


estratégias de missing values.

Análise de dados coletados.

Resolução de problemas complexos.

Diferenciação de noise (erros alea-


tórios) e sinal.
Resposta desta página: alternativa 4.

19
AULA 1 • PARTE 5

Redução numérica 00:25

Castello apresenta algumas estratégias para


a redução de registros. São ellas:

• Histograma ou binning: é interessante


para transformar variáveis contínuas em
00:49
discretas, para definir “bins”, “buckets” Toda vez que eu elimino
ou faixas, bem como regras equal- um determinado tipo de
width (limites de faixa fixos) e equal- informação, eu perco a
frequency (quantidade de itens por
chamada granularidade.
faixa constante);
• Agrupamento ou clustering: técnica
de interdependência, utiliza a distância
entre objetos. A lógica é maximizar
similaridades de objetos em cada cluster
e maximizar a dissimilaridade entre os
clusters. São utilizados dois métodos: 07:58 Probability sampling
hierárquico (mais tradicional) e k-means
(mais utilizado e mais prático); Nem sempre é possível trabalhar com um
• Sampling ou amostragem: técnica volume muito grande de dados. Nessas
muito usada em estatística, observa condições, são utilizadas as técnicas
todo o contexto desde uma parte. para fazer amostragem, tanto as não
Muitas vezes, não conseguimos
probabilísticas e quanto as probabilísticas.
processar toda a informação que temos,
As cinco principais técnicas probabilísticas
então uma das técnicas de redução
que podemos utilizar é o sampling ou a são:
amostragem.
• Simple random: cada elemento da
população tem a mesma chance de ser
selecionado;
• Stratified: como a randômica, mas
Data quality 10:56
feita a partir de uma pré-divisão da
A qualidade dos dados está diretamente população;
relacionada ao resultado final do processo • Cluster;
de mineração. Não existe uma fórmula • Systematic: elementos são
ou um software específico para avaliar selecionados em intervalos regulares
a qualidade dos dados, o que existe é da população (exceto o primeiro
o conhecimento do negócio, razão pela elemento);
qual é importante avaliar inconsistências e • Multi-stage: combinação dos métodos
redundâncias. O data management book anteriores.
of knowledge, nesse sentido, é um material
com as seis dimensões da qualidade dos
dados que pode colaborar na avaliação da
qualidade de dados.

20
Não tem como você obter um 11:24
resultado bom se você partir
de dados que são ruins.

PALAVRAS-CHAVE
12:52

Data management book of


knowledge: É um dos esforços
do DAMA, que se dedica a
avançar os conceitos e práticas de
gerenciamento de informações e
Data transformation 15:18 dados e a apoiar os membros da
DAMA e suas organizações a atender
O data transformation consiste em suas necessidades de gerenciamento
transformar ou consolidar dados visando de informações e dados.
tornar o processo de mineração mais
eficiente e os padrões mais fáceis de
serem identificados e entendidos. Nesse
sentido, destaca-se o processo de
padronização, em especial a padronização
por mínimo e máximo e a padronização 18:35
Normalização não é a mesma
por z-score.
coisa que padronização.

19:02
Quais são os principais tipos de
padronização? Padronização
por mínimo e máximo e por
z-score.

PALAVRAS-CHAVE
23:07

Drill down: Termo utilizado para


detalhar uma informação em análises
Online Analytical Processing (OLAP).
Partindo de uma informação macro,
como o faturamento anual, o usuário 23:37 Outras transformações
realiza o drill down para detalhar esse
valor por mês, por exemplo, podendo Algumas transformações de dados são
fazer novo drill down para analisar o
executadas caso a caso, como a questão
valor do mês por regiões, e assim por
diante. da idade. Na prática, não se utiliza a idade,
mas a data de nascimento.

A questão da transformação 26:43


é feita muito caso a caso, vai
depender da necessidade,
da qualidade da precisão,
do dado disponível e do que
você quer obter.

21
EXERCÍCIO DE FIXAÇÃO
29:53

Qual é o maior problema do data


quality?

Não há receita pronta, tampouco


um software específico, é preciso
checar consistências e redundân-
cias.

Os valores ausentes são muito


comuns.

Há modelos prontos, porém é ne-


cessário checar as inconsistências e
redundâncias.

Há perda de informação e perde-se


granularidade.

AULA 2 • PARTE 1

Essa parte da preparação 01:18


dos dados é absolutamente
fundamental.

01:52 Data mining techniques

Há diversos tipos de classificação de


mineração de dados. David Olson a
classifica da seguinte forma:
Resposta desta página: alternativa 1.

Inteligência artificial 04:54 • Estatística: cluster detection, linear


regression e logistic regression;
A IA pode ajudar nas respostas, mas está • Inteligência artificial: machine learning,
muito longe de saber fazer as perguntas neural networks, decision trees e rule
necessárias. Castello classifica a inteligência induction.
artificial em:

• Machine learning (aprendizado de


máquina);
• Predictive analysis (análise preditiva).

22
A inteligência artificial pode 07:38
nos ajudar a encontrar as
respostas, mas está muito
longe de nos ajudar a fazer as
perguntas.
PALAVRAS-CHAVE
09:54

Narrow AI: O termo descreve


sistemas de inteligência artificial que
são especificados para lidar com uma
tarefa única ou limitada. Essa variação
Basicamente, hoje, quando de inteligência artificial corresponde
12:35
a uma ampla gama de tarefas, ao
falamos de inteligência
invés de uma tarefa ou problema
artificial é dela que estamos específico. Além disso, pode servir de
falando: machine learning. base para redes neurais, emulando
senciência ou consciência.

Inteligência artificial está 14:08


relacionada a resolver
problemas usando previsão.

14:24 Autonomia veicular

Castello menciona os carros autônomos


como exemplo de IA e destaca que a
automação de veículos já existe há algum
A linguagem de programação 17:01
tempo na indústria. Nesse sentido, a
é o nosso elo, nosso vínculo
autonomia veicular só pode ser resolvida
com a máquina, com o
com previsão.
computador.

O condicional é a alma da 18:18


computação porque é através
dele que pilotamos um
computador.

PALAVRAS-CHAVE
18:46

Mainframe: Trata-se de um
computador de grande porte
normalmente dedicado ao
processamento de grandes volumes
de informação.

23
EXERCÍCIO DE FIXAÇÃO
32:40
Machine learning e predictive
analysis são divisões de qual área?

Progressão logística.

Progressão linear múltipla.

Inteligência artificial.

Progressão linear.

AULA 2 • PARTE 2

Outro exemplo de uso de IA 00:27

O departamento de RH de uma empresa


poderá utilizar um dataset de seus
funcionários para prever a possibilidade
de desligamento dos funcionários ativos, PALAVRAS-CHAVE
diminuindo, assim, o seu turnover. Além 00:43
desse caso, Castello discorre sobre outras
Turnover: Refere-se à rotatividade
possibilidades de aplicação do modelo
de pessoal em uma empresa. O
preditivo. turnover está relacionado à entrada
e à saída de colaboradores de uma
organização.

11:02
Não tem nenhum tipo de
Resposta desta página: alternativa 3.

mágica por trás da construção


de modelos de inteligência
artificial e de machine
learning de análise preditiva,
são técnicas que envolvem
matemática.

24
FUNDAMENTO I
19:20
Modelos de atribuição
Os modelos de atribuição são ferramentas
que auxiliam na definição das campanhas/
mídias que terão mais possibilidades de
23:13 Manter a mente aberta!
conversão. Para tanto, o domínio das
ferramentas é essencial. Um modelo de A regressão é a forma mais simples
atribuição é a regra ou um conjunto de de análise preditiva, trata-se de uma
regras que determina como o crédito de ferramenta poderosa que pode ajudar a
vendas e conversões é atribuído a pontos resolver muitos problemas do dia a dia,
de contato em caminhos de conversão. O com base em fatos e dados (cada vez
modelo mais utilizado é o “último clique”, mais necessários para suportar decisões
no qual a conversão aponta para o último de negócio). A matemática utilizada é
clique do usuário, seja no Google, Facebook, simples e acessível; mesmo que os alunos
YouTube ou Bing. não sejam da área das exatas, essa é uma
O DDA é a capacidade de processamento ótima oportunidade para aprender uma
e interpretação massiva de dados aplicada ferramenta que pode ser uma vantagem
à atribuição. O algoritmo da atribuição competitiva no negócio e na carreira de
baseada em dados analisa diversos todos os alunos.
caminhos de conversão com diferenças
sutis e, utilizando alguns métodos e
modelos estatísticos, é capaz de entender 25:14
Você pode ter opiniões, mas,
a importância de cada um dos passos do se tiver fatos e dados, tem uma
usuário para gerar a conversão final. chance de questionamento
muito menor.

CASE
26:48
Gretl
Pacote de software multiplataforma para
análise econométrica, escrito na linguagem
de programação C. É um software de
LEITURAS INDICADAS
código aberto gratuito. Saiba mais. 28:35
Discurso sobre o Método

Publicado em 1637 pelo filósofo francês


René Descartes, trata-se de um tratado
matemático e filosófico que busca conduzir o
pensamento humano na direção da verdade,
diminuindo as possibilidades de dúvida e

25
favorecendo o protagonismo da razão.
CASE
35:39
R Studio
É um ambiente computacional e uma
linguagem de programação que vem
progressivamente se especializando em
manipulação, análise e visualização gráfica
de dados.

EXERCÍCIO DE FIXAÇÃO
36:04

Quais são os principais tipos de


normatização?

Cluster detection e linear regres-


sion.

Padronização e normatização.

Predictive analysis e machine lear-


ning.

Padronização por mínimo e máximo


e z-score.

AULA 2 • PARTE 3

00:31 Regressão linear simples

Castello menciona um exemplo de


previsão de salário baseado no tempo de
experiência de trabalho ao longo da vida
Resposta desta página: alternativa 2.

Quando trabalhamos com 15:13 para explicar o fundamento da regressão


previsão, sempre temos linear simples. A regressão linear é o
associada a essa previsão algo processo de traçar uma reta através dos
que chamamos de capacidade dados em um diagrama de dispersão. Ao
preditiva. trabalhar com inteligência artificial, com
machine learning e com análise preditiva,
podemos criar diversos modelos, mas é
preciso levar em conta que, sempre que
um novo modelo for criado, ele estará
associado a uma capacidade preditiva.

26
Regressão linear múltipla 23:31

Para realizar uma regressão linear


múltipla, são utilizadas diferentes
variáveis. Com base em uma amostra 27:25
de 50 startups e um problema a ser Qualquer técnica de machine
resolvido, Castello demonstra como learning, independentemente
criar um modelo preditivo de lucro. Os da fórmula em que ela atua,
atributos utilizados foram: os gastos em
sempre vai estar baseada em
pesquisa e desenvolvimento, os gastos em
cálculos matemáticos.
administração, os gastos em marketing e o
estado em que está instalada a startup.
PALAVRAS-CHAVE
28:05

Variável dummy: É uma variável


categórica que foi transformada em
PALAVRAS-CHAVE numérica. De acordo com o blog Data
34:13 Hackers, “as variáveis dummys devem
ser utilizadas sempre que desejarmos
Colinearidade: Na geometria, a incluir variáveis categóricas em
colinearidade de um conjunto de modelos que aceitam apenas
pontos é a propriedade de sua variáveis numéricas”. Saiba mais.
localização em uma única linha.

39:07
Quanto menos variáveis eu
tiver, menos trabalho terei para
me preocupar com a qualidade
do material.
Demonstração de regressão múltipla 40:34

Castello demonstra uma regressão


múltipla no software Gretl, apresentando o
funcionamento da ferramenta. EXERCÍCIO DE FIXAÇÃO
54:28

Como é chamado o processo de


traçar uma reta através dos dados
em um diagrama de dispersão?

Regressão linear múltipla.

Regressão logística.
Resposta desta página: alternativa 4.

Regressão logística múltipla.

Regressão linear.

27
AULA 2 • PARTE 4

00:29 Regressão logística

Nos modelos de regressão linear simples


e múltipla era possível prever um valor
numérico. Já a regressão logística utiliza
Quando trabalhamos com 01:47 o algoritmo como classificação, ou seja,
regressão logística, não busca-se uma opção; escolher pela opção
procuramos um número, depende da probabilidade de ocorrer
como em regressão linear. Na o evento. Esse modelo oferece como
verdade, procuramos uma resultado uma probabilidade.
probabilidade.

Demonstração de progressão
03:00
logística

Castello revela um modelo de predição


de melhores clientes para ativar em uma
PALAVRAS-CHAVE campanha de e-mail marketing, com base
03:59 nos atributos de idade e de sexo. Além
disso, ressalta que o modelo de progressão
Parsing: Trata-se da análise sintática logística calcula as probabilidades, indicando
na ciência da computação. É um
que a linha do gráfico que separa o que é
processo de compilação de uma
linguagem de programação. sucesso ou fracasso é arbitrária.

07:06
Esta é a diferença importante
sobre a questão da regressão
linear e da regressão logística:
elas são diferentes porque
PALAVRAS-CHAVE muda o tipo de função que elas
07:38 usam para calcular a previsão.
Função sigmoide: É uma função
matemática de amplo uso em campos
como a economia e a computação. O
nome “sigmoide” é oriundo da forma
em S de seu gráfico.
PALAVRAS-CHAVE
11:28

Logit: É a função inversa do


“sigmoide”, ou função “logística”.

28
14:35
O R quadrado não é uma boa
métrica para trabalhar com
regressão logística.

Visão geral 35:56

A visão geral sobre sistemas de suporte


à decisão e inteligência de negócios que
Castello explorou ao longo de suas aulas
é o entendimento sobre o processo de
KDD e, em especial, sobre preparação de 36:51
A preparação de dados é uma
dados, entre outros aspectos. Inteligência etapa fundamental de qualquer
artificial não é uma mera moda, mas projeto que lida com dados.
uma ferramenta para reduzir custos e
aumentar receita; o que faz diferença não
é o software, mas as pessoas e os dados;
cultura de dados é uma jornada, não um
destino, ela é a base de tudo. Em suma, a
inteligência artificial é meio, não um fim; o 38:35
Normalmente, quando falamos
que interessa é o resultado.
de inteligência artificial, falamos
de machine learning; e, dentro
de machine learning, o que
interessa é a análise preditiva.

Vocês têm que conseguir 43:42


associar a questão do uso da
inteligência social como um
meio para causar algum tipo
de impacto no negócio.

44:30 O que importa não é o


software, o que faz a diferença
são as pessoas e os dados.

Cultura de dados é uma 45:46


jornada não é um destino.

29
EXERCÍCIO DE FIXAÇÃO
49:34

Assinale a alternativa que apresenta


a definição correta de regressão
logística.

A regressão logística utiliza a variá-


vel como classificação.

Esse modelo apresenta como resul-


tado uma definição.

A regressão logística utiliza o algo-


ritmo como classificação, ou seja,
busca-se uma opção.

Esse modelo apresenta como resul-


tado um valor numérico definido.

AULA 3 • PARTE 1

05:44 Mineração de regras de associação

A mineração de regras de associação, uma


tarefa de mineração não supervisionada,
PALAVRAS-CHAVE não considera quantidades, apenas
07:00 a presença ou a ausência de itens.
Normalmente, necessita de pós-
Algoritmo apriori: Um dos mais
processamento, pois o número de regras,
famosos algoritmos para web mining,
utiliza uma hash sobre uma árvore na maioria desinteressantes, é muito
para coletar informações em um grande. É uma técnica de mineração
banco de dados. específica para problemas de correlação
de compras (carrinhos de compras, por
Resposta desta página: alternativa 3.

exemplo), e utiliza o algoritmo clássico


apriori, disponível nas ferramentas de
mineração.
É sempre importante, ao 22:49
analisar resultados, observar a
análise do suporte e a análise
da confiança em relação
aos conjuntos de itens que
estamos construindo.

30
23:08 Algoritmo apriori

Utilizando o software de código aberto


WEKA, Júlio Machado salienta que a
PALAVRAS-CHAVE literatura apresenta outras métricas que
23:25
podem ser utilizadas para ranquear as
WEKA: Uma coleção de algoritmos regras de associação, além do suporte e da
de aprendizado de máquina para confiança.
tarefas de mineração de dados,
contém ferramentas para preparação
de dados, classificação, regressão,
agrupamento, ineração de regras de 27:48 Ferramenta Orange
associação e visualização.
Utilizando o software Orange, Júlio
Machado demonstra a construção do
workflow de mineração de dados, com
PALAVRAS-CHAVE
base em um dataset de compras.
28:04

Orange: Programa de mineração de


dados de código aberto, trabalha
com aprendizado de máquina e
visualização de dados. Saiba mais. 35:56 Cervejas e fraldas

Um caso famoso de uso de mineração


de dados e de regra de associação é
mencionado para encontrar uma relação
entre cervejas e fraldas, mais compradas
juntas nas sextas-feiras. Com as regras de
associações mineradas e respectivamente
métricas, verifica-se a variação das
medidas entre os conjuntos de dados para
as mesmas regras de associação.

LEITURAS INDICADAS
35:57
Artigos sobre o caso das cervejas e das
fraldas

WHITEHORN, Mark. The parable of the beer


Caso da Target 39:36 and diapers. The Register, Londres, 15 ago.
2006.
Ao analisar dados de navegação de
uma usuária, a empresa Target sugeriu POWER, Daniel. What is the “true story”
um determinado tipo de produto, about data mining, beer and diapers? DSS
evidenciando uma nova realidade na News, [s.l.], v. 3, n. 23, nov. 2002.
mineração de dados.

31
LEITURAS INDICADAS
39:37
Artigos sobre o caso da Target

HILL, Kashmir. How Target figured out a


teen girl was pregnant before her father did.
Forbes, Jersey City, 16 fev. 2012.
CASE
39:51 DUHIGG, Charles. How companies learn your
Target secrets. The New York Times, Nova Iorque,
16 fev. 2012.

KUHN, George. How Target used data


analytics to predict pregnancies. Drive
Research, Syracuse, 16 jun. 2020.

EXERCÍCIO DE FIXAÇÃO
49:26
Fundada por George Draper Dayton em Assinale a alternativa correta em
1902, é a segunda maior rede de varejo dos relação ao algoritmo apriori.
Estados Unidos, atrás apenas da Walmart.
Em 2019, o rendimento da corporação girava Não precisa de pós-processamento
em torno dos 75 bilhões de dólares. pois o número de regras resultantes
da mineração é pequeno.

Obtém regras de associação que in-


dicam causalidade.

Não considera quantidades, apenas


a presença ou não de itens.

Utiliza a métrica de lifting para a se-


leção do conjunto de itens frequen-
tes.

AULA 3 • PARTE 2
Resposta desta página: alternativa 2.

Matriz de confusão 03:39

Também conhecida como tabela de


contingência, a matriz de confusão
permite a extração de diferentes medidas
de desempenho preditivo e pode ser
utilizada para distinguir os tipos de
erros. Aplica-se a problemas binários ou
multiclasse. Em classificação binária, é

32
comum nomear os objetos da classe de
maior interesse de “positivos”, enquanto
os demais objetos são denominados
04:05
“negativos”. Em alguns casos, os erros têm A matriz de confusão também
igual importância, mas, em muitos outros, é chamada de matriz de
têm prioridades distintas, considerando as contingência.
possíveis consequências.

11:07
Eu não avaliar mais a fundo
um determinado paciente
por causa de uma predição
mal feita, pode me levar a
problemas sérios.

A acurácia é uma medida 13:50


que dá um tratamento igual a
todas as classes do problema.

Se os dados estiverem 14:54


desbalanceados, eu posso ter
vários problemas ao analisar
essas métricas, como a
acurácia.

16:50
A precisão diz respeito a uma
determinada classe. A acurácia
está tratando das classes como
um todo.

F-Score 26:36

O F-Score é a média harmônica de


precisão e revocação, também conhecida
como F1-score ou F-measure. Busca o
equilíbrio entre a precisão e revocação. FUNDAMENTO II
26:57
F1-score
A pontuação F1 é necessária quando se
deseja buscar um equilíbrio entre precisão e
revocação. De forma bastante simplificada,
Exemplo de regressão logística 28:34 esse score é uma maneira de visualizar
as métricas Precision e Recall juntas. A
Utilizando a ferramenta Gretl, Júlio
Precision é utilizada para indicar a relação
Machado apresenta um modelo de
entre as previsões positivas realizadas
predição para verificar a tendência de
corretamente e todas as previsões positivas
inadimplência.
(incluindo as falsas); a Recall é utilizada para
indicar a relação entre as previsões positivas
realizadas corretamente e todas as previsões
que realmente são positivas (true positives e
false negatives).

33
EXERCÍCIO DE FIXAÇÃO
44:42
Assinale a alternativa correta em
relação à mineração de regras de
associação.

É uma técnica de mineração espe-


cífica para problemas de correlação
de compras.

É uma tarefa de mineração não su-


pervisionada que considera apenas
presença ou não de itens.

Utiliza o algoritmo clássico apriori.

Todas as alternativas estão corretas.

AULA 3 • PARTE 3

00:37 Datasets desbalanceados

Apresenta soluções para os casos


de datasets desbalanceados, Júlio
Machado comenta que o dataset pode
Tratando datasets desbalanceados 09:35 ser transformado buscando emparelhar
o número de linhas de cada classe. Para
Apresentando um modelo com notebooks
tanto, existem as seguintes opções:
Python e exemplos de aplicação
das técnicas para tratar datasets
• Subamostragem da classe maior:
desbalanceados, Júlio Machado explora o
under-sampling the majority;
site e detalha as técnicas em questão.
• Repetir a classe menor: over-sampling
the minority;
• Extrair amostra dos dados de forma a
Resposta desta página: alternativa 4.

LEITURAS INDICADAS tornar uniforme a distribuição de linhas


19:34 nas classes;
Referências sobre datasets desbalanceados
• Utilizar um classificador baseado em
BATISTA, Gustavo E. A. P. A.; PRATI, Ronaldo custo e penalizar os falsos negativos.
C.; MONARD, Maria Carolina. A study of the
behavior of several methods for balancing
machine learning training data. ACM SIGKDD
Explorations Newsletter, v. 6, n. 1, p. 20-29,
jun. 2004.

34
HILARIO, A. F. et al. Learning from
imbalanced data sets. Berlim: Springer,
2018.
20:01
Não preciso, necessariamente,
entrar a fundo em todo
formulismo matemático ou na
codificação do algoritmo em si
para saber que existe e que eu
Dados: treino, validação e testes 20:31 devo utilizar a técnica quando
necessária.
Os três conjuntos de dados de interesse
são os seguintes:

• Treino: o conjunto de dados de treino


são os exemplos utilizados no processo 21:07
Não vou fazer mineração de
de aprendizagem do modelo;
dados de qualquer forma,
• Validação: o conjunto de dados de
existe um método a ser
validação são os exemplos utilizados
seguido.
na estimativa das métricas de
qualidade dos modelos e também no
processo de ajustes dos parâmetros
(hiperparâmetros) dos modelos;
• Teste: o conjunto de dados de teste 26:01
Esse processo de ajuste dos
são os exemplos utilizados no processo parâmetros utilizando esses
de avaliação do modelo final. dados de validação segue o
modelo de early stopping.

Cross-validation I 35:16

Júlio Machado apresenta o modelo de


validação cross-validation no Orange
e explora de forma detalhada seus
diferentes recursos.
EXERCÍCIO DE FIXAÇÃO
37:36
Em que momento da mineração
de dados é possível distinguir os
tipos de erros aplicando problemas
binários ou multiclasse?

Matriz de confusão.

Regras de associação.
Resposta desta página: alternativa 1.

Métricas.

Matriz de confusão binária.

35
AULA 3 • PARTE 4

Cross-validation II 00:29

Júlio Machado dá sequência à exploração


do modelo de cross-validation no Orange,
demonstrando novas funcionalidades do
software.
13:53 Data mining x big data

Observando uma imagem que demonstra


a quantidade de dados trocados por
minuto em diferentes sites e aplicativos
na internet, Júlio Machado comenta o
Começa a aparecer a 18:54 crescente aumento de dados, que alimenta
necessidade de uma evolução a necessidade de novas técnicas para
de como trabalhar a nossa obter mais informações. Questões de
mineração de dados. veracidade, volume, variedade, velocidade
e valor (“os cinco Vs”) também estão
associadas ao big data.

FUNDAMENTO III
21:00
TensorFlow
Trata-se de uma biblioteca de software
de código aberto para computação
numérica utilizando grafos computacionais.
MLOps 24:17 Originalmente desenvolvida pela Google
Brain Team, na organização de pesquisa
O Machine Learning Operations
Machine Intelligence do Google para
(MLOps) nasce a partir da necessidade
aprendizado de máquina e pesquisa de
de novas técnicas para a obtenção de
redes neurais profundas (Deep Learning),
dados, estabelecendo uma prática de
a biblioteca é ampla o suficiente para ser
engenharia de machine learning (ML)
aplicada em uma grande variedade de
que visa unificar o desenvolvimento e a
domínios. Foi disponibilizada em código
operação de sistemas de ML. O desafio
aberto no ano de 2015, e alcançou a
é criar um sistema integrado e operá-lo
versão 1.0 em fevereiro de 2017, com um
continuamente na produção.
desenvolvimento e adoção incrivelmente
rápidos e muitos colaboradores externos.

O celular é uma ótima plataforma para


uso do TensorFlow — o celular faz sentido
quando há uma conexão de rede deficiente
ou ausente, e o envio de dados contínuos
para um servidor seria muito custoso. Um

36
dos projetos do TensorFlow, o MobileNet,
está desenvolvendo um conjunto de
modelos de visão computacional que são
especialmente projetados para abordar
O mundo muda, a 25:38 os trade-offs de velocidade/precisão que
característica dos dados precisam ser considerados em dispositivos
muda. móveis ou em aplicativos embarcados.

LEITURAS INDICADAS
36:28
Desafios em Machine Learning

TALBY, David. Why Machine Learning


models crash and burn in production.
Forbes, Jersey City, abr. 2019.

37:31
No momento em que o modelo
preditivo foi implantado em
produção, ele começa a se
degradar.

EXERCÍCIO DE FIXAÇÃO
39:02

Quais são os três conjuntos de dados


de interesse utilizados na mineração
de dados?

Modelagem, validação e avaliação.

Treino, validação e teste.

Validação cruzada, teste e avalia-


ção.

Treino, modelagem e validação.


Resposta desta página: alternativa 2.

37
Artigos
Nesta página, você encontra links de artigos científicos, informativos
e vídeos sugeridos pelo professor PUCRS.

LIVROS

BARBIERI, Carlos. Uma visão sintética e comentada do Data Management


Body of Knowledge (DMBOK). Fumsoft: Belo Horizonte, 2013.

CHAPMAN, Pete et al. CRISP-DM 1.0: step-by-step data mining guide. SPSS
Inc.: Chicago, 2000.

38
Resumo da disciplina
Nesta página, veja um resumo dos principais conceitos trabalhados ao longo da
disciplina.

AULA 1

O KDD é o processo como um todo, e


o data mining é uma das etapas desse
processo.
Dados sozinhos não têm valor,
mas tornam-se efetivos quando
transformados em actionable
intelligence.
Para trabalhar com dados, é preciso
ter método. O CRISP-DM é a
metodologia padrão de mercado.

AULA 2

Modelos de inteligência artificial e de


machine learning de análise preditiva são
técnicas que envolvem matemática.

A preparação é uma etapa fundamental


de qualquer projeto que lida com dados.

Inteligência artificial é meio, não fim;


o que interessa é o resultado.

AULA 3

O processo de mineração deve


seguir um método.

No contexto de big data, é preciso


automatizar todo o processo de
mineração de dados.

Modelos não conseguem sugerir


valores ou padrões que não aparecem
nos dados.

39
Avaliação
Veja as instruções para realizar a avaliação da disciplina.

Já está disponível o teste online da disciplina. O prazo para realização


é de dois meses a partir da data de lançamento das aulas. ​

Lembre-se que cada disciplina possui uma avaliação online.


A nota mínima para aprovação é 6. ​

Fique tranquilo! Caso você perca o prazo do teste online, ficará aberto
o teste de recuperação, que pode ser realizado até o final do seu curso.
A única diferença é que a nota máxima atribuída na recuperação é 8. ​
MBA em
Tecnologia para Negócios: AI, Data Science e Big Data

Você também pode gostar