Escolar Documentos
Profissional Documentos
Cultura Documentos
Sistemas de Informação
01/2023
●
Áreas de pesquisa e desenvolvimento:
●
Inteligência Artificial ●
felipe.zeiser@unoesc.edu.br
●
Deep learning
●
https://www.linkedin.com/in/felipezeiser/
●
Visão Computacional
Plano de Ensino e Alinhamento de
Expectativas
●
https://forms.gle/BAgre72yZtJYZD4t7
Definição de Ciência de Dados
●
Parábola chinesa
Definição de Ciência de Dados
●
Parábola chinesa
●
Cada um definiu o elefante de um jeito!
Definição de Ciência de Dados
●
Parábola chinesa
●
Cada um definiu o elefante de um jeito!
●
A Ciência de Dados é o elefante
Definição de Ciência de Dados
●
Parábola chinesa
●
Cada um definiu o elefante de um jeito!
●
A Ciência de Dados é o elefante
Definição de Ciência de Dados
●
Os cientistas de dados de hoje têm
experiências muito diferente, cada um
conceitua o elefante com base em seu
treinamento profissional e área de aplicação.
Então o que é Ciência de Dados?
Então o que é Ciência de Dados?
Ciência de Dados
●
Um aspecto importante é o data engineering
●
Ele é a parte não vista do icebeerg em ML e IA
Ciência de Dados
●
Você ou sua empresa precisa de um data
scientist?
Ciência de Dados
●
Você ou sua empresa precisa de um data
scientist?
●
Você não está pronto para um cientista de
dados se não tiver um engenheiro de dados
ainda.
Ciência de Dados
●
Você ou sua empresa precisa de um data
scientist?
●
Você não está pronto para um cientista de dados
se não tiver um engenheiro de dados ainda.
●
Você precisa ter a capacidade de obter dados
antes dando sentido a isso.
Ciência de Dados
●
Excel:
Ciência de Dados
●
Excel:
– Analisar graficamente:
●
1 000 registros
Ciência de Dados
●
Excel:
– Analisar graficamente:
●
1 000 registros
●
100 000 registros
Ciência de Dados
●
Excel:
– Analisar graficamente:
●
1 000 registros
●
100 000 registros
●
100 000 000 registros
Ciência de Dados
●
Excel:
– Analisar graficamente:
●
1 000 registros
●
100 000 registros
●
100 000 000 registros
●
100 000 000 000 registros
Ciência de Dados
●
Excel:
– Analisar graficamente:
●
1 000 registros
●
100 000 registros
●
100 000 000 registros
●
100 000 000 000 registros
Big Data
●
Dispositivos móveis, sensores, redes sociais,
tecnologias de imagens médicas…
●
Acompanhar esse fluxo de dados é complexo e difícil
●
É ainda mais difícil analisar esse fluxo de dados
●
Esse fluxo apresenta um potencial para alterar o
transformar o governo, organizações, ciência e o
cotidiano
Big Data
●
Apesar do hype e toda o marketing diversas
empresas e setores se beneficiam da análise
de grandes volumes de dados
Setores
Pilares do Big Data
Big Data
●
Big Data são dados cuja escala, distribuição,
diversidade e/ou pontualidade exigem o uso de
novas arquiteturas técnicas e análises para
permitir insights que desbloqueiam novas
fontes de valor comercial
McKinsey & Co.; Big Data: The Next Frontier for Innovation, Competition, and Productivity
Big Data
Big Data
●
Por exemplo, em 2012, os usuários do
Facebook postaram 700 atualizações de status
por segundo em todo o mundo
●
Por exemplo, em 2012, os usuários do Facebook
postaram 700 atualizações de status por segundo em
todo o mundo
●
Por exemplo, uma atualização em que uma mulher
muda seu status de relacionamento de “solteira” para
“noiva” acionaria anúncios de vestidos de noiva,
planejamento de casamento ou anúncios de casas...
Estrutura dos dados
●
Os dados podem vir de diferentes formas:
– Textos
– Arquivos de mídia
– Tabelas
– XML
Estrutura dos dados
Dados estruturados
Dados estruturados
●
Dados contendo um tipo de dados, formato e
estrutura definidos
Dados semi-estruturados
●
Arquivos de dados textuais com um padrão
discernível que permite a análise (como
Extensible Markup Language [XML])
Dados quasi-estruturados
●
Dados quasi-estruturados são mais dados
textuais com formatos de dados erráticos. Pode
ser formatado com esforço, ferramentas e
tempo. Esse tipo de dados inclui dados de
sequência de cliques da web, como pesquisas
do Google.
Dados não-estruturados
●
Dados que não possuem estrutura inerente,
que podem incluir documentos de texto, PDFs,
imagens e vídeos.
●
80% dos dados mundiais são não estruturados.
As empresas estão interessadas em desvendar
os seus segredos e para tanto recorrem às
tecnologias de Big Data.
https://blog.xpeducacao.com.br/dados-estruturados-e-nao-estruturados/
BI vs Data Science
BI
●
O BI tende a fornecer relatórios, painéis e consultas sobre questões
de negócios do período atual ou do passado.
●
Perguntas relacionadas à receita trimestral, progresso em relação
às metas trimestrais e entender quanto de um determinado produto
foi vendido em um trimestre ou ano anterior.
●
Explica o comportamento atual ou passado, geralmente agregando
dados históricos e agrupando-os de alguma forma.
●
Responde a perguntas relacionadas a “quando” e “onde” os eventos
ocorreram.
Data Science
●
Data Science tende a usar dados desagregados de
uma forma mais prospectiva e exploratória, focando na
análise do presente e permitindo decisões informadas
sobre o futuro.
●
Exemplo: análise de séries temporais para prever
vendas futuras de produtos e receita com mais precisão
do que estender uma linha de tendência simples
Um pouco de perfil do profissional...
Hard skills
●
Matemática, estatística…
●
Lógica de programação, engenharia de
software
Soft skills
●
Capacidade de comunicação, interações com
diversos níveis de conhecimento e áreas são
necessárias.
●
Curiosidade e criatividade.
●
Colaborativo.
●
Mentalidade cética e pensamento crítico.
Exercícios
1. Quais são as três características de Big Data e quais são
as principais considerações no processamento de Big Data?
2. Quais os principais tipos de dados. Cite um exemplo para
cada um.
3. Explique as diferenças entre BI e Data Science.
4. Quais são os principais conjuntos de habilidades e
características comportamentais de um cientista de dados?
Ciclo de Vida
Ciclo de Vida
Modelagem do projeto
●
Entender o negócio/problema
●
Aquisição dos dados
●
Modelos
●
Deploy
O início de um projeto
●
Quais são os pontos problemáticos na operação comercial atual?
●
Quais dados estão disponíveis e qual é a qualidade e quantidade dos dados?
●
Quais podem ser os impactos mais significativos da utilização de ciência de dados no projeto?
●
Existe algum impacto positivo ou negativo em outras equipes?
●
Quais recursos de computação estão disponíveis para treinamento de modelo e execução do
modelo?
●
Podemos definir as principais métricas para comparar e quantificar o valor do negócio?
●
Há alguma segurança de dados, privacidade e questões legais?
●
Quais são os marcos, pontos de verificação e cronograma desejados?
●
A aplicação final é online ou offline? Qual o contexto da aplicação final?
●
As fontes de dados estão online ou offline?
Aquisição dos dados
●
Inserir os dados no ambiente analítico de destino.
●
Explore os dados para determinar se a qualidade
dos dados é adequada para responder à
pergunta.
●
Configure um pipeline de dados para pontuar
dados novos ou atualizados regularmente.
Aquisição dos dados
●
Produza um conjunto de dados limpo e de alta
qualidade cuja relação com as variáveis de destino
seja compreendida.
●
Localize o conjunto de dados no ambiente de análise
apropriado para que você esteja pronto para modelar.
●
Desenvolva uma arquitetura de solução do pipeline de
dados que atualize e pontue os dados regularmente.
Modelos
●
Feature engineering: crie features de dados a partir dos
dados brutos para facilitar o treinamento do modelo.
●
Treinamento de modelo: encontre o modelo que
responde à pergunta com mais precisão comparando
suas métricas de desempenho.
●
Determine se o seu modelo é adequado para produção.
Modelos
●
Determine as features de dados ideais para o
modelo de aprendizado de máquina.
●
Crie um modelo informativo de aprendizado de
máquina que prevê o alvo com mais precisão.
●
Crie um modelo de aprendizado de máquina
adequado para produção.
Deploy
●
Deploy do modelo: Implante o modelo e o
pipeline em um ambiente de produção ou
semelhante a produção para consumo de
aplicativos.
Principais erros
Principais erros
●
Formulação do problema
●
Tempo
●
Muito otimistas com a disponibilidade de dados e a qualidade
●
Dados não são representativos
●
Overfitting
●
Obsessão com modelos complexos
●
Falta de testes de aceitabilidade (A/B)
●
Falha na escala para aplicações de tempo real
●
Falta de acompanhamento dos modelos após o deploy
Road to entrepreneurship
Tarefa da Semana
●
Escolher um problema que possa ser solucionado utilizando Ciência de
Dados.
●
Responder as perguntas inicias de um projeto de Ciência de Dados (slide 50).
●
O problema deve ser novo e permitir o desenvolvimento de um plano de
negócios de um produto ou startup.
●
O objetivo ao final da disciplina é que este produto/startup possa gerar um
MVP funcional.
●
As aulas serão direcionadas para o desenvolvimento do produto/startup.
●
Entrega pode ser em dupla com nome até 22/02/2023 às 23:59 horas pelo
Moodle Rooms em formato pdf.