Você está na página 1de 59

Ciência de Dados

Sistemas de Informação
01/2023

Professor: MSc Felipe André Zeiser


Apresentação

Felipe André Zeiser

Head of Artificial Inteligence – Phi Healthcare

Doutorando e Mestre em Computação Aplicada –
Unisinos

Engenheiro de Computação – Unoesc


Áreas de pesquisa e desenvolvimento:

Inteligência Artificial ●
felipe.zeiser@unoesc.edu.br

Deep learning

https://www.linkedin.com/in/felipezeiser/

Visão Computacional
Plano de Ensino e Alinhamento de
Expectativas

https://forms.gle/BAgre72yZtJYZD4t7
Definição de Ciência de Dados

Parábola chinesa
Definição de Ciência de Dados

Parábola chinesa

Cada um definiu o elefante de um jeito!
Definição de Ciência de Dados

Parábola chinesa

Cada um definiu o elefante de um jeito!

A Ciência de Dados é o elefante
Definição de Ciência de Dados

Parábola chinesa

Cada um definiu o elefante de um jeito!

A Ciência de Dados é o elefante
Definição de Ciência de Dados

Os cientistas de dados de hoje têm
experiências muito diferente, cada um
conceitua o elefante com base em seu
treinamento profissional e área de aplicação.
Então o que é Ciência de Dados?
Então o que é Ciência de Dados?
Ciência de Dados

Um aspecto importante é o data engineering

Ele é a parte não vista do icebeerg em ML e IA
Ciência de Dados

Você ou sua empresa precisa de um data
scientist?
Ciência de Dados

Você ou sua empresa precisa de um data
scientist?

Você não está pronto para um cientista de
dados se não tiver um engenheiro de dados
ainda.
Ciência de Dados

Você ou sua empresa precisa de um data
scientist?

Você não está pronto para um cientista de dados
se não tiver um engenheiro de dados ainda.

Você precisa ter a capacidade de obter dados
antes dando sentido a isso.
Ciência de Dados

Excel:
Ciência de Dados

Excel:
– Analisar graficamente:

1 000 registros
Ciência de Dados

Excel:
– Analisar graficamente:

1 000 registros

100 000 registros
Ciência de Dados

Excel:
– Analisar graficamente:

1 000 registros

100 000 registros

100 000 000 registros
Ciência de Dados

Excel:
– Analisar graficamente:

1 000 registros

100 000 registros

100 000 000 registros

100 000 000 000 registros
Ciência de Dados

Excel:
– Analisar graficamente:

1 000 registros

100 000 registros

100 000 000 registros

100 000 000 000 registros
Big Data

Dispositivos móveis, sensores, redes sociais,
tecnologias de imagens médicas…

Acompanhar esse fluxo de dados é complexo e difícil

É ainda mais difícil analisar esse fluxo de dados

Esse fluxo apresenta um potencial para alterar o
transformar o governo, organizações, ciência e o
cotidiano
Big Data

Apesar do hype e toda o marketing diversas
empresas e setores se beneficiam da análise
de grandes volumes de dados
Setores
Pilares do Big Data
Big Data

Big Data são dados cuja escala, distribuição,
diversidade e/ou pontualidade exigem o uso de
novas arquiteturas técnicas e análises para
permitir insights que desbloqueiam novas
fontes de valor comercial
McKinsey & Co.; Big Data: The Next Frontier for Innovation, Competition, and Productivity
Big Data
Big Data

Por exemplo, em 2012, os usuários do
Facebook postaram 700 atualizações de status
por segundo em todo o mundo

Por exemplo, em 2012, os usuários do Facebook
postaram 700 atualizações de status por segundo em
todo o mundo

Por exemplo, uma atualização em que uma mulher
muda seu status de relacionamento de “solteira” para
“noiva” acionaria anúncios de vestidos de noiva,
planejamento de casamento ou anúncios de casas...
Estrutura dos dados

Os dados podem vir de diferentes formas:
– Textos
– Arquivos de mídia
– Tabelas
– XML
Estrutura dos dados
Dados estruturados
Dados estruturados

Dados contendo um tipo de dados, formato e
estrutura definidos
Dados semi-estruturados

Arquivos de dados textuais com um padrão
discernível que permite a análise (como
Extensible Markup Language [XML])
Dados quasi-estruturados

Dados quasi-estruturados são mais dados
textuais com formatos de dados erráticos. Pode
ser formatado com esforço, ferramentas e
tempo. Esse tipo de dados inclui dados de
sequência de cliques da web, como pesquisas
do Google.
Dados não-estruturados

Dados que não possuem estrutura inerente,
que podem incluir documentos de texto, PDFs,
imagens e vídeos.

80% dos dados mundiais são não estruturados.
As empresas estão interessadas em desvendar
os seus segredos e para tanto recorrem às
tecnologias de Big Data.

https://blog.xpeducacao.com.br/dados-estruturados-e-nao-estruturados/
BI vs Data Science
BI

O BI tende a fornecer relatórios, painéis e consultas sobre questões
de negócios do período atual ou do passado.

Perguntas relacionadas à receita trimestral, progresso em relação
às metas trimestrais e entender quanto de um determinado produto
foi vendido em um trimestre ou ano anterior.

Explica o comportamento atual ou passado, geralmente agregando
dados históricos e agrupando-os de alguma forma.

Responde a perguntas relacionadas a “quando” e “onde” os eventos
ocorreram.
Data Science

Data Science tende a usar dados desagregados de
uma forma mais prospectiva e exploratória, focando na
análise do presente e permitindo decisões informadas
sobre o futuro.

Exemplo: análise de séries temporais para prever
vendas futuras de produtos e receita com mais precisão
do que estender uma linha de tendência simples
Um pouco de perfil do profissional...
Hard skills

Matemática, estatística…

Lógica de programação, engenharia de
software
Soft skills

Capacidade de comunicação, interações com
diversos níveis de conhecimento e áreas são
necessárias.

Curiosidade e criatividade.

Colaborativo.

Mentalidade cética e pensamento crítico.
Exercícios
1. Quais são as três características de Big Data e quais são
as principais considerações no processamento de Big Data?
2. Quais os principais tipos de dados. Cite um exemplo para
cada um.
3. Explique as diferenças entre BI e Data Science.
4. Quais são os principais conjuntos de habilidades e
características comportamentais de um cientista de dados?
Ciclo de Vida
Ciclo de Vida
Modelagem do projeto

Entender o negócio/problema

Aquisição dos dados

Modelos

Deploy
O início de um projeto

Quais são os pontos problemáticos na operação comercial atual?

Quais dados estão disponíveis e qual é a qualidade e quantidade dos dados?

Quais podem ser os impactos mais significativos da utilização de ciência de dados no projeto?

Existe algum impacto positivo ou negativo em outras equipes?

Quais recursos de computação estão disponíveis para treinamento de modelo e execução do
modelo?

Podemos definir as principais métricas para comparar e quantificar o valor do negócio?

Há alguma segurança de dados, privacidade e questões legais?

Quais são os marcos, pontos de verificação e cronograma desejados?

A aplicação final é online ou offline? Qual o contexto da aplicação final?

As fontes de dados estão online ou offline?
Aquisição dos dados

Inserir os dados no ambiente analítico de destino.

Explore os dados para determinar se a qualidade
dos dados é adequada para responder à
pergunta.

Configure um pipeline de dados para pontuar
dados novos ou atualizados regularmente.
Aquisição dos dados

Produza um conjunto de dados limpo e de alta
qualidade cuja relação com as variáveis de destino
seja compreendida.

Localize o conjunto de dados no ambiente de análise
apropriado para que você esteja pronto para modelar.

Desenvolva uma arquitetura de solução do pipeline de
dados que atualize e pontue os dados regularmente.
Modelos

Feature engineering: crie features de dados a partir dos
dados brutos para facilitar o treinamento do modelo.

Treinamento de modelo: encontre o modelo que
responde à pergunta com mais precisão comparando
suas métricas de desempenho.

Determine se o seu modelo é adequado para produção.
Modelos

Determine as features de dados ideais para o
modelo de aprendizado de máquina.

Crie um modelo informativo de aprendizado de
máquina que prevê o alvo com mais precisão.

Crie um modelo de aprendizado de máquina
adequado para produção.
Deploy

Deploy do modelo: Implante o modelo e o
pipeline em um ambiente de produção ou
semelhante a produção para consumo de
aplicativos.
Principais erros
Principais erros

Formulação do problema

Tempo

Muito otimistas com a disponibilidade de dados e a qualidade

Dados não são representativos

Overfitting

Obsessão com modelos complexos

Falta de testes de aceitabilidade (A/B)

Falha na escala para aplicações de tempo real

Falta de acompanhamento dos modelos após o deploy
Road to entrepreneurship
Tarefa da Semana

Escolher um problema que possa ser solucionado utilizando Ciência de
Dados.

Responder as perguntas inicias de um projeto de Ciência de Dados (slide 50).

O problema deve ser novo e permitir o desenvolvimento de um plano de
negócios de um produto ou startup.

O objetivo ao final da disciplina é que este produto/startup possa gerar um
MVP funcional.

As aulas serão direcionadas para o desenvolvimento do produto/startup.

Entrega pode ser em dupla com nome até 22/02/2023 às 23:59 horas pelo
Moodle Rooms em formato pdf.

Você também pode gostar