RECURSOS

Recursos
Existem muitos recursos disponíveis para aprender Data Science e tantos recursos acabam gerando
sobrecarga nos iniciantes, que podem perder o foco. Separamos aqui uma lista com as que
consideramos as melhores fontes de aprendizagem em Data Science.
PILARES PARA O MACHINE LEARNING, IA e CIÊNCIA de DADOS

(PILARES PARA O NOSSO CURSO)
1- LINGUAGENS DE COMPUTAÇÃO: PHYTON, R e SAS e outras: JAVA, C, PASCAL, SQL, PROLOG
2- MATEMÁTICA E ESTATÍSTICA https://pt.coursera.org/learn/multivariate-calculus-machine-learning
3- APRESENTAÇÃO E VISUALIZAÇÃO de DADOS
4- CONHECIMENTO do NEGÓCIO
(CONHECIMENTOS dos PROBLEMAS PROCESSOS, ENFRENTAMENTO E SOLUÇÃO DOS PROBLEMAS)
Apresentação de Processamento de Linguagem Natural https://slideplayer.com.br/slide/366456/
Blogs:
Data Science Central: http://www.datasciencecentral.com
KDD Nuggets: http://www.kdnuggets.com
Artigos sobre R: http://www.r-bloggers.com
Python Brasil: http://python.org.br
Linkedin (rede social profissional): https://www.linkedin.com (comunique-se com profissionais da área)
Ciência e Dados: http://www.cienciaedados.com
https://www.partnershiponai.org/partners/
https://www.partnershiponai.org/
Estatística:
Statistics: http://www.statistics.com
Simply Statistics: http://simplystatistics.org
Machine Learning:
Deep Learning Book: http://deeplearning.net/
Deep Learning Book Brasil: http://www.deeplearningbook.com.br
10 ALGORITIMOS DE MACHINE LEARNING
https://semantix.com.br/blog/10-algoritmos-de-machine-learning-que-voce-precisa-conhecer/
Guia Básico para Processamento de Linguagem Natural (NLP)

https://www.datageeks.com.br/processamento-de-linguagem-natural/
Vídeos e Competições:
1
Top 10 TED Talks for Data Scientists: http://www.kdnuggets.com/2016/02/top-10-tedtalks-data-
scientists.html
Data Science for Social Goods: http://dssg.uchicago.edu
Kaggle: https://www.kaggle.com
Data Science Game: http://www.datasciencegame.com
Cursos Gratuitos do Data Science Academy (Link):

https://www.datascienceacademy.com.br/pages/cursos-gratuitos
1- Introdução à Ciência de Dados versão 2.0 – Curso Gratuito da DSA

https://www.datascienceacademy.com.br/pages/curso-introducao-a-ciencia-de-dados
2- Big Data Fundamentos – Curso Gratuito da DSA

https://www.datascienceacademy.com.br/pages/curso-big-data-fundamentos
3- Python Fundamentos para Análise de Dados – Curso Gratuito da DSA

https://www.datascienceacademy.com.br/pages/curso-python-fundamentos-para-analise-de-dados
Outros Cursos (ver outros arquivos)

Cursos do DAS – Data Science Academy (MUITO BOM)
https://www.datascienceacademy.com.br/pages/todos-os-cursos-dsa
Curso de Formação Cientista de Dados da Data Science Academy – composto de 6 cursos:

https://www.datascienceacademy.com.br/pages/formacao-cientista-de-dados
1- Big Data Analytics com R e Microsoft Azure Machine Learning
https://www.datascienceacademy.com.br/course?courseid=analise-de-dados-com-r
2- Big Data Real-Time Analytics com Python e Spark
https://www.datascienceacademy.com.br/course?courseid=analise-de-dados-com-python
3- Engenharia de Dados com Hadoop e Spark
https://www.datascienceacademy.com.br/course?courseid=big-data-analytics-engineer
4- Machine Learning
https://www.datascienceacademy.com.br/course?courseid=machine-learning-engineer
5- Business Analytics
https://www.datascienceacademy.com.br/course?courseid=anlise-de-dados-com-matlab
6- Visualização de Dados e Design de Dashboards
https://www.datascienceacademy.com.br/course?courseid=cincia-de-dados-aplicada
MBA EM MACHINE LEARNING IGTI

https://www.igti.com.br/cursos/mba-em-aprendizado-de-maquina/?
utm_source=adws&utm_medium=pg&gclid=Cj0KCQiA9dDwBRC9ARIsABbedBNGcJDEpOpPYItvqoGgyZ2SdfXKpeLWkx
EZ82AcOFutYozWQKQEOSUaAvTgEALw_wcB
Livros: Ebooks gratuitos:

TOP 20 livros gratuitos sobre inteligência Artificial
Quer iniciar com IA, mas não sabe como?
2
Abaixo segue uma lista feita pelo site Big Data Made Simple com 20 livros gratuitos disponíveis
na Rede, para quem quer iniciar no mundo da IA.
10 EBOOKS GRATUITOS sobre Machine Learning e Data Science
10 Livros de leitura obrigatória sobre Machine Learning e ...

http://semantix.com.br/blog/10-livros-de-leitura-obrigatoria-sobre-machine-learning-e-data-science/
Capacitação:
Data Science from Harvard: http://cs109.github.io/2014
Open Data Science Master: http://datasciencemasters.org
Metis Data Science: http://www.thisismetis.com
Data Science Academy: http://www.datascienceacademy.com.br
Data Science Academy é o maior portal brasileiro 100% online e 100% em português, dedicado a Data
Science, Big Data, Inteligência Artificial e capacitação para Cientistas de Dados. A Formação Cientista
de Dados oferece ao aluno 6 cursos intensivos, 100% online e 100% em português e ainda 1 curso
gratuito (exclusivo aos alunos da Formação) de Preparação Para a Carreira de Cientista de Dados com
dicas sobre como montar seu portfólio, como buscar oportunidades, além de dicas de carreira e
desenvolvimento pessoal. Clique no link abaixo e confira o programa completo.
CURSOS: https://www.datascienceacademy.com.br/bundles?bundle_id=formacao-inteligencia-
artificial&gclid=CjwKCAiA6bvwBRBbEiwAUER6JZh0_T5HaTJt9BxxWI9CjJzf35xuD66wcr7ev1DR0NFv41lWxCtz4RoC0Q
UQAvD_BwE
PALESTRAS VIDEOS https://datahackers.com.br/
https://datahackers.com.br/newsletter/20-palestras-de-data-science-machine-learning-e-big-data
https://pt.wikipedia.org/wiki/Motor_de_inferência
Alguns Conceitos
Conceito de Inteligência Artificial (link de dicionário em pdf) de Kevin W. Hamlen de Kevin W. Hamlen
Professor Associado, Departamento de Ciências da Computação da Universidade do Texas, Dallas
https://books.google.com.br/books?id=5_tyDwAAQBAJ&pg=PT459&lpg=PT459&dq=o+melhor+gloss
%C3%A1rio+de+intelig%C3%AAncia+artificial+e+ci
%C3%AAncia+de+dados+online+gratuito&source=bl&ots=106iIlq7CS&sig=ACfU3U2m259T8WB5lkQ7bZVwDujmYikJl
Q&hl=pt-BR&sa=X&ved=2ahUKEwiu6rm-5vHmAhXQLLkGHazQCEUQ6AEwBXoECBMQAQ#v=onepage&q=o
%20melhor%20gloss%C3%A1rio%20de%20intelig%C3%AAncia%20artificial%20e%20ci%C3%AAncia%20de%20dados
%20online%20gratuito&f=false
Um motor de inferência é uma ferramenta informatizada "caixa preta", também utilizada em Sistema
Especialista (Inteligência Artificial), que após ser estimulada com solicitações predeterminadas, oferece as
soluções possíveis. Este é o núcleo da inteligência artificial de um sistema especialista, onde a capacidade do
motor de inferência é baseada numa combinação de procedimentos de raciocínios de forma regressiva
(partindo de uma conclusão, feita pelo usuário ou pelo sistema, é feita uma pesquisa por meio do conhecimento
acumulado para se provar a afirmação inicial) e progressiva (respostas fornecidas pelo usuário desencadeando
um processo de busca até que se encontre a solução ótima).
3
Motor de Inferência • É um programa que utiliza a base de conhecimento como ‘dado’ na solução de um problema.
• É um programa que utiliza mecanismos gerais de combinação de fatos e regras. • Funcionamento cíclico- um ciclo
de base é composto por duas etapas: – Avaliação - procura das regras possíveis de serem ativadas, em função do
estado corrente da base de fatos e escolha das regras a ativar efetivamente. – Execução - modificação da base de
fatos e eventualmente da base de regras. • Condição de parada: – Encontrada a solução para o problema – Não há
mais regra a ser ativada.
Agente Inteligente - Um agente inteligente é uma peça de software que executa uma determinada tarefa empregando
informação extraída de seu ambiente para agir de forma adequada no sentido de completar sua tarefa de modo bem
sucedido. O agente deve ser capaz de adaptar-se dinamicamente às modificações ocorridas no ambiente
https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-natural.html
Processamento de linguagem natural (PLN) é uma vertente da inteligência artificial que

ajuda computadores a entender, interpretar e manipular a linguagem humana. O PLN
resulta de diversas disciplinas, incluindo ciência da computação e linguística
computacional, que buscam preencher a lacuna entre a comunicação humana e o
entendimento dos computadores.
Evolução do processamento de linguagem natural

Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia
está avançando rapidamente graças ao interesse cada vez maior na comunicação homem-
máquina, paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos
aprimorados.
Enquanto humano, você pode falar e escrever em inglês, espanhol ou chinês. Mas o idioma
nativo de um computador – conhecido como código de máquina ou linguagem de máquina – é
altamente incompreensível para a maioria das pessoas. Nos níveis mais profundos dos seus
dispositivos, a comunicação acontece não com palavras, mas através de milhões de 0s e 1s que
produzem ações lógicas.
Há 70 anos, programadores usavam cartões furados para se comunicar com os primeiros

computadores. Esse processo manual e penoso era compreendido por um número relativamente
pequeno de pessoas. Hoje você pode dizer “Alexa, eu gosto desta música”, e um dispositivo em
sua casa irá abaixar o volume e responder “Ok, classificação salva” numa voz que simula a de um
ser humano. Na sequência, ele adapta seu algoritmo para tocar essa música – e outras
parecidas – na próxima vez que você ouvir aquela estação.
Vejamos essa interação em detalhe. Seu dispositivo foi ativado quando ouviu você falar,
entendeu a intenção nas entrelinhas do comentário, executou uma ação e deu um feedback numa
frase bem construída, tudo isso em cerca de cinco segundos. A interação completa só é possível
graças ao PLN em conjunto com outras tecnologias de inteligência artificial como machine
learning e deep learning.
4
Qual a importância do PLN?
Grandes volumes de dados textuais
O processamento de linguagem natural ajuda computadores a se comunicar com seres humanos

em sua própria linguagem e escala outras tarefas relacionadas à linguagem. Por exemplo, o PLN
possibilita que computadores leiam textos, ouçam e interpretem falas, identifiquem sentimentos e
determinem quais trechos são importantes.
As máquinas de hoje podem analisar mais dados baseados em linguagem do que seres
humanos, sem fadiga, de maneira consistente e imparcial. Considerando a quantidade gigantesca
de dados não-estruturados que é gerada todos os dias, de registros médicos a mídias sociais, a
automação será imprescindível para uma análise de texto e fala completa e eficiente.
Estruturando uma fonte de dados altamente não-estruturada
A linguagem humana é surpreendentemente complexa e diversa. Nós nos expressamos de

infinitas maneiras, tanto verbalmente quanto por escrito. Não apenas existem centenas de
idiomas e dialetos, como há também um conjunto único de regras gramaticais e de sintaxe,
expressões e gírias dentro de cada um deles. Quando escrevemos, costumamos cometer erros
ou abreviar palavras, ou omitimos pontuações; quando falamos, carregamos sotaques regionais,
tendemos a murmurar e emprestamos termos de outros idiomas.
Embora o aprendizado supervisionado, o aprendizado não-supervisionado e, especificamente, o

deep learning sejam hoje amplamente utilizados para modelar a linguagem humana, há também a
necessidade de compreensão sintática e semântica, além de domínio, que não estão
necessariamente presentes nessas abordagens de machine learning. O PLN é importante porque
ajuda a resolver a ambiguidade na linguagem e adiciona uma estrutura numérica útil aos dados
para muitas aplicações downstream, como reconhecimento de fala ou análise de texto.
 Conheça as Etapas do Pré-Processamento de dados

 Entenda como funciona um Computador Quântico!
 Guia Básico para Processamento de Linguagem Natural (NLP)
 Machine Learning para todos, de forma simples e com exemplos!
 Conheça o algoritmo XGBoost
Como funciona o Deep Learning
Resumo Métodos de Aprendizado Profundo (Deep Learning) são atualmente o estado-da-arte em muitos problemas
possíveis de se resolver via aprendizado de maquina, em particular problemas de classificação. No entanto, ainda há
pouco entendimento de como esses métodos funcionam, porque funcionam e quais as limitações envolvidas ao
5
utilizá-los. Nesse capítulo descreveremos em detalhes a transição desde redes rasas (shallow) até as redes profundas
(deep), incluindo exemplos em código de como implementá-las, bem como os principais fatores a se levar em
consideração ao treinar uma rede profunda. Adicionalmente, iremos introduzir aspectos teóricos que embasam o
uso de modelos profundos, e discutir suas limitações.
http://conteudo.icmc.usp.br/pessoas/moacir/papers/Ponti_Costa_Como-funciona-o-Deep-Learning_2017.pdf
O que significa Big Data? Big Data é um grande e massivo volume de dados, que ao ser
analisado, permite a descoberta de relacionamentos entre informações que de outra forma não
seriam tão naturais
Um curso sobre Big Data pode oferecer uma introdução detalhada dos principais conceitos envolvendo Big
Data, permitindo uma compreensão clara do que há de mais avançado em tecnologia de engenharia de dados
e preparando o aluno para os cursos mais avançados.

Uma das funções principais de um Cientista de Dados é analisar a massa de dados para fazer
inferências. O dado é a matéria bruta do Cientista de Dados. Mas seu primeiro desafio é
pensar na pergunta certa a ser feita para chegar na resposta que o negócio precisa
responder. Big Data é o novo petróleo, um novo asset corporativo e está revolucionando o
mundo. Saber coletar, armazenar, tratar, analisar e disponibilizar estes dados é um desafio e
o mercado está em busca de profissionais com este perfil. (EXTRAIR CONHECIMENTO E
VALOR DOS DADOS)
Big Data deixou de ser uma palavra da moda e está se transformando
em realidade. O mercado de trabalho está em busca de profissionais de
Big Data com capacidades analíticas.

Fazer análise de Big Data é utilizar técnicas avançadas para tratamento
de grande volume de dados. São milhares de dados sendo alimentados e
armazenados em tempo real 24 horas por dia. Trata-se de registros
pessoais, informações sobre saúde, trabalho, comércio, cada ação
realizada por usuários através de milhões de sites na internet, celulares,
sensores, transações eletrônicas de negócios e assim por diante. Nós
precisamos agora de tecnologias que nos ajudem a preparar esses
dados, sejam eles estruturados ou não estruturados e em diferentes
tamanhos e formatos, para extrair insights e auxiliar as nossas decisões.

Analisar grandes volumes de dados é uma tarefa para analistas,
pesquisadores e usuários de tecnologia e negócios, os quais irão tomar
decisões mais acertadas e objetivas a partir desses dados tratados. Por
meio de técnicas de análise avançadas, tais como análise de conteúdo
textual, análise preditiva de dados, mineração, estatísticas e aplicações
de Machine Learning. Esses profissionais terão acesso a dados
singulares, nunca acessados anteriormente o que os permitirão sair a
frente de seus concorrentes.
O que Data Science tem a ver com o Diagrama de Venn?

6
(Link do Linkedin sobre compreensão de Data Science)
https://www.linkedin.com/pulse/o-que-data-science-tem-ver-com-diagrama-de-veen-jaqueline-ariane
Os 3 conjuntos da Diagrama de Venn aplicado a Data Science:
O primeiro conjunto representado pela Ciência da Computação (programação) nos ajuda
nas camadas de infraestrutura até a arquitetura dos dados: onde, como e quando, armazenar, obter e
tratar o dado. O segundo conjunto composto pela matemática e pela estatística nos
ajudam a filtrar o dado, classificar, minerar, aplicar algoritmos, que nos darão respostas mais rápidas. E por
fim, o terceiro conjunto composto pela Especialização Científica ou conhecimento,
que nos ajudam a fazer as perguntas certas. https://www.linkedin.com/
10 habilidades de um Cientista de Dados – 3 visões
http://www.cienciaedados.com/as-10-habilidades-de-um-cientista-de-dados/
Após realizar a pesquisa com profissionais de Ciência de Dados e busca em perfis

no LinkedIn, estas foram as 10 habilidades mais encontradas nos profissionais que
trabalham como Cientistas de Dados:
1. Comunicação
2. Gestão de Dados Estruturados
3. Matemática
4. Gestão de Projetos
5. Data Mining e Visualização
6. Design de Experimentos
7. Gestão de Dados
8. Design e Desenvolvimento de Produtos
9. Modelagem estatística
10. Desenvolvimento de negócios
Harvard Business Review, afirma que as habilidades do Cientista de Dados dependem da

função que ele exerce, sejam elas mais técnicas ou mais voltadas para a criação de
produtos ou apps de análise de dados. Segundo o artigo, estas seriam as habilidades
necessárias para se tornar um Cientista de Dados:
 Conhecimento em linguagens de programação de análise de dados (R, Python e SQL)

 Comunicação
 Visualização de Dados
 Data Mining
 Estatística
 Infraestrutura de Big Data (Hadoop, MapReduce e Spark)
 Machine Learning
 Engenharia de Software
 Álgebra Linear
7
 Foco em solução de problemas
 Há ainda um artigo escrito por Ferris Jumah, Cientista de Dados bastante atuante na
comunidade internacional, que listou estas como sendo as habilidades principais de
quem trabalha como Cientista de Dados:
Ciência de Dados: o básico e como se qualificar numa das áreas mais

promissoras da TI (LINK)
https://www.profissionaisti.com.br/2019/04/ciencia-de-dados-o-basico-e-como-se-qualificar-numa-das-areas-mais-
promissoras-da-ti/
Python é uma linguagem de programação de uso geral, mas que tem liderado as
iniciativas de Análise de Dados por diversos motivos: é fácil de aprender e
poderosa, pode ser usada em diversas plataformas, possui uma comunidade ativa,
diversas bibliotecas e módulos prontos para uso e é totalmente gratuita.
Um curso poderá apresentar a você, os conceitos básicos e fundamentos da

linguagem de programação Python. Através de uma experiência prática, com
exemplos, quizzes, exercícios e projetos, será possível testar seus conhecimentos
e aplicá-los em projetos de Data Science.

RECURSOS

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

RECURSOS

Enviado por

Direitos autorais:

Formatos disponíveis

Recursos

PILARES PARA O MACHINE LEARNING, IA e CIÊNCIA de DADOS

Apresentação de Processamento de Linguagem Natural https://slideplayer.com.br/slide/366456/

Guia Básico para Processamento de Linguagem Natural (NLP)

Cursos Gratuitos do Data Science Academy (Link):

1- Introdução à Ciência de Dados versão 2.0 – Curso Gratuito da DSA

2- Big Data Fundamentos – Curso Gratuito da DSA

3- Python Fundamentos para Análise de Dados – Curso Gratuito da DSA

Outros Cursos (ver outros arquivos)

Curso de Formação Cientista de Dados da Data Science Academy – composto de 6 cursos:

MBA EM MACHINE LEARNING IGTI

Livros: Ebooks gratuitos:

Quer iniciar com IA, mas não sabe como?

10 Livros de leitura obrigatória sobre Machine Learning e ...

Data Science Academy: http://www.datascienceacademy.com.br

Processamento de linguagem natural (PLN) é uma vertente da inteligência artificial que

Evolução do processamento de linguagem natural

Há 70 anos, programadores usavam cartões furados para se comunicar com os primeiros

O processamento de linguagem natural ajuda computadores a se comunicar com seres humanos

Estruturando uma fonte de dados altamente não-estruturada

A linguagem humana é surpreendentemente complexa e diversa. Nós nos expressamos de

Embora o aprendizado supervisionado, o aprendizado não-supervisionado e, especificamente, o

 Conheça as Etapas do Pré-Processamento de dados

Como funciona o Deep Learning

O que Data Science tem a ver com o Diagrama de Venn?

10 habilidades de um Cientista de Dados – 3 visões

Após realizar a pesquisa com profissionais de Ciência de Dados e busca em perfis

Harvard Business Review, afirma que as habilidades do Cientista de Dados dependem da

 Conhecimento em linguagens de programação de análise de dados (R, Python e SQL)

Ciência de Dados: o básico e como se qualificar numa das áreas mais

Um curso poderá apresentar a você, os conceitos básicos e fundamentos da

Você também pode gostar