Você está na página 1de 8

Recursos

Existem muitos recursos disponíveis para aprender Data Science e tantos recursos acabam gerando
sobrecarga nos iniciantes, que podem perder o foco. Separamos aqui uma lista com as que
consideramos as melhores fontes de aprendizagem em Data Science.

PILARES PARA O MACHINE LEARNING, IA e CIÊNCIA de DADOS


(PILARES PARA O NOSSO CURSO)
1- LINGUAGENS DE COMPUTAÇÃO: PHYTON, R e SAS e outras: JAVA, C, PASCAL, SQL, PROLOG
2- MATEMÁTICA E ESTATÍSTICA https://pt.coursera.org/learn/multivariate-calculus-machine-learning
3- APRESENTAÇÃO E VISUALIZAÇÃO de DADOS
4- CONHECIMENTO do NEGÓCIO
(CONHECIMENTOS dos PROBLEMAS PROCESSOS, ENFRENTAMENTO E SOLUÇÃO DOS PROBLEMAS)

Apresentação de Processamento de Linguagem Natural https://slideplayer.com.br/slide/366456/

Blogs:
Data Science Central: http://www.datasciencecentral.com
KDD Nuggets: http://www.kdnuggets.com
Artigos sobre R: http://www.r-bloggers.com
Python Brasil: http://python.org.br
Linkedin (rede social profissional): https://www.linkedin.com (comunique-se com profissionais da área)
Ciência e Dados: http://www.cienciaedados.com
https://www.partnershiponai.org/partners/
https://www.partnershiponai.org/

Estatística: 
Statistics: http://www.statistics.com
Simply Statistics: http://simplystatistics.org

Machine Learning:
Deep Learning Book: http://deeplearning.net/
Deep Learning Book Brasil: http://www.deeplearningbook.com.br
10 ALGORITIMOS DE MACHINE LEARNING
https://semantix.com.br/blog/10-algoritmos-de-machine-learning-que-voce-precisa-conhecer/

Guia Básico para Processamento de Linguagem Natural (NLP)


https://www.datageeks.com.br/processamento-de-linguagem-natural/

Vídeos e Competições:
1
Top 10 TED Talks for Data Scientists: http://www.kdnuggets.com/2016/02/top-10-tedtalks-data-
scientists.html
Data Science for Social Goods: http://dssg.uchicago.edu
Kaggle: https://www.kaggle.com
Data Science Game: http://www.datasciencegame.com

Cursos Gratuitos do Data Science Academy (Link):


https://www.datascienceacademy.com.br/pages/cursos-gratuitos

1- Introdução à Ciência de Dados versão 2.0 – Curso Gratuito da DSA


https://www.datascienceacademy.com.br/pages/curso-introducao-a-ciencia-de-dados

2- Big Data Fundamentos – Curso Gratuito da DSA


https://www.datascienceacademy.com.br/pages/curso-big-data-fundamentos

3- Python Fundamentos para Análise de Dados – Curso Gratuito da DSA


https://www.datascienceacademy.com.br/pages/curso-python-fundamentos-para-analise-de-dados

Outros Cursos (ver outros arquivos)


Cursos do DAS – Data Science Academy (MUITO BOM)
https://www.datascienceacademy.com.br/pages/todos-os-cursos-dsa

Curso de Formação Cientista de Dados da Data Science Academy – composto de 6 cursos:


https://www.datascienceacademy.com.br/pages/formacao-cientista-de-dados
1- Big Data Analytics com R e Microsoft Azure Machine Learning 
https://www.datascienceacademy.com.br/course?courseid=analise-de-dados-com-r
2- Big Data Real-Time Analytics com Python e Spark
https://www.datascienceacademy.com.br/course?courseid=analise-de-dados-com-python
3- Engenharia de Dados com Hadoop e Spark
https://www.datascienceacademy.com.br/course?courseid=big-data-analytics-engineer
4- Machine Learning
https://www.datascienceacademy.com.br/course?courseid=machine-learning-engineer
5- Business Analytics
https://www.datascienceacademy.com.br/course?courseid=anlise-de-dados-com-matlab
6- Visualização de Dados e Design de Dashboards
https://www.datascienceacademy.com.br/course?courseid=cincia-de-dados-aplicada

MBA EM MACHINE LEARNING IGTI


https://www.igti.com.br/cursos/mba-em-aprendizado-de-maquina/?
utm_source=adws&utm_medium=pg&gclid=Cj0KCQiA9dDwBRC9ARIsABbedBNGcJDEpOpPYItvqoGgyZ2SdfXKpeLWkx
EZ82AcOFutYozWQKQEOSUaAvTgEALw_wcB

Livros: Ebooks gratuitos:


TOP 20 livros gratuitos sobre inteligência Artificial

Quer iniciar com IA, mas não sabe como?

2
Abaixo segue uma lista feita pelo site Big Data Made Simple com 20 livros gratuitos disponíveis
na Rede, para quem quer iniciar no mundo da IA.
10 EBOOKS GRATUITOS sobre Machine Learning e Data Science

10 Livros de leitura obrigatória sobre Machine Learning e ...


 http://semantix.com.br/blog/10-livros-de-leitura-obrigatoria-sobre-machine-learning-e-data-science/

Capacitação:
Data Science from Harvard: http://cs109.github.io/2014
Open Data Science Master: http://datasciencemasters.org
Metis Data Science: http://www.thisismetis.com

Data Science Academy: http://www.datascienceacademy.com.br

Data Science Academy é o maior portal brasileiro 100% online e 100% em português, dedicado a Data
Science, Big Data, Inteligência Artificial e capacitação para Cientistas de Dados. A Formação Cientista
de Dados oferece ao aluno 6 cursos intensivos, 100% online e 100% em português e ainda 1 curso
gratuito (exclusivo aos alunos da Formação) de Preparação Para a Carreira de Cientista de Dados com
dicas sobre como montar seu portfólio, como buscar oportunidades, além de dicas de carreira e
desenvolvimento pessoal. Clique no link abaixo e confira o programa completo.
CURSOS: https://www.datascienceacademy.com.br/bundles?bundle_id=formacao-inteligencia-
artificial&gclid=CjwKCAiA6bvwBRBbEiwAUER6JZh0_T5HaTJt9BxxWI9CjJzf35xuD66wcr7ev1DR0NFv41lWxCtz4RoC0Q
UQAvD_BwE
PALESTRAS VIDEOS https://datahackers.com.br/
https://datahackers.com.br/newsletter/20-palestras-de-data-science-machine-learning-e-big-data

https://pt.wikipedia.org/wiki/Motor_de_inferência

Alguns Conceitos
Conceito de Inteligência Artificial (link de dicionário em pdf) de Kevin W. Hamlen de Kevin W. Hamlen
Professor Associado, Departamento de Ciências da Computação da Universidade do Texas, Dallas
https://books.google.com.br/books?id=5_tyDwAAQBAJ&pg=PT459&lpg=PT459&dq=o+melhor+gloss
%C3%A1rio+de+intelig%C3%AAncia+artificial+e+ci
%C3%AAncia+de+dados+online+gratuito&source=bl&ots=106iIlq7CS&sig=ACfU3U2m259T8WB5lkQ7bZVwDujmYikJl
Q&hl=pt-BR&sa=X&ved=2ahUKEwiu6rm-5vHmAhXQLLkGHazQCEUQ6AEwBXoECBMQAQ#v=onepage&q=o
%20melhor%20gloss%C3%A1rio%20de%20intelig%C3%AAncia%20artificial%20e%20ci%C3%AAncia%20de%20dados
%20online%20gratuito&f=false

Um motor de inferência é uma ferramenta informatizada "caixa preta", também utilizada em Sistema
Especialista (Inteligência Artificial), que após ser estimulada com solicitações predeterminadas, oferece as
soluções possíveis. Este é o núcleo da inteligência artificial de um sistema especialista, onde a capacidade do
motor de inferência é baseada numa combinação de procedimentos de raciocínios de forma regressiva
(partindo de uma conclusão, feita pelo usuário ou pelo sistema, é feita uma pesquisa por meio do conhecimento
acumulado para se provar a afirmação inicial) e progressiva (respostas fornecidas pelo usuário desencadeando
um processo de busca até que se encontre a solução ótima).

3
Motor de Inferência • É um programa que utiliza a base de conhecimento como ‘dado’ na solução de um problema.
• É um programa que utiliza mecanismos gerais de combinação de fatos e regras. • Funcionamento cíclico- um ciclo
de base é composto por duas etapas: – Avaliação - procura das regras possíveis de serem ativadas, em função do
estado corrente da base de fatos e escolha das regras a ativar efetivamente. – Execução - modificação da base de
fatos e eventualmente da base de regras. • Condição de parada: – Encontrada a solução para o problema – Não há
mais regra a ser ativada.

Agente Inteligente - Um agente inteligente é uma peça de software que executa uma determinada tarefa empregando
informação extraída de seu ambiente para agir de forma adequada no sentido de completar sua tarefa de modo bem
sucedido. O agente deve ser capaz de adaptar-se dinamicamente às modificações ocorridas no ambiente

https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-natural.html

Processamento de linguagem natural (PLN) é uma vertente da inteligência artificial que


ajuda computadores a entender, interpretar e manipular a linguagem humana. O PLN
resulta de diversas disciplinas, incluindo ciência da computação e linguística
computacional, que buscam preencher a lacuna entre a comunicação humana e o
entendimento dos computadores.

Evolução do processamento de linguagem natural


Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia
está avançando rapidamente graças ao interesse cada vez maior na comunicação homem-
máquina, paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos
aprimorados.

Enquanto humano, você pode falar e escrever em inglês, espanhol ou chinês. Mas o idioma
nativo de um computador – conhecido como código de máquina ou linguagem de máquina – é
altamente incompreensível para a maioria das pessoas. Nos níveis mais profundos dos seus
dispositivos, a comunicação acontece não com palavras, mas através de milhões de 0s e 1s que
produzem ações lógicas.

Há 70 anos, programadores usavam cartões furados para se comunicar com os primeiros


computadores. Esse processo manual e penoso era compreendido por um número relativamente
pequeno de pessoas. Hoje você pode dizer “Alexa, eu gosto desta música”, e um dispositivo em
sua casa irá abaixar o volume e responder “Ok, classificação salva” numa voz que simula a de um
ser humano. Na sequência, ele adapta seu algoritmo para tocar essa música – e outras
parecidas – na próxima vez que você ouvir aquela estação.

Vejamos essa interação em detalhe. Seu dispositivo foi ativado quando ouviu você falar,
entendeu a intenção nas entrelinhas do comentário, executou uma ação e deu um feedback numa
frase bem construída, tudo isso em cerca de cinco segundos. A interação completa só é possível
graças ao PLN em conjunto com outras tecnologias de inteligência artificial como machine
learning e deep learning.

4
Qual a importância do PLN?
Grandes volumes de dados textuais

O processamento de linguagem natural ajuda computadores a se comunicar com seres humanos


em sua própria linguagem e escala outras tarefas relacionadas à linguagem. Por exemplo, o PLN
possibilita que computadores leiam textos, ouçam e interpretem falas, identifiquem sentimentos e
determinem quais trechos são importantes.

As máquinas de hoje podem analisar mais dados baseados em linguagem do que seres
humanos, sem fadiga, de maneira consistente e imparcial. Considerando a quantidade gigantesca
de dados não-estruturados que é gerada todos os dias, de registros médicos a mídias sociais, a
automação será imprescindível para uma análise de texto e fala completa e eficiente.

Estruturando uma fonte de dados altamente não-estruturada

A linguagem humana é surpreendentemente complexa e diversa. Nós nos expressamos de


infinitas maneiras, tanto verbalmente quanto por escrito. Não apenas existem centenas de
idiomas e dialetos, como há também um conjunto único de regras gramaticais e de sintaxe,
expressões e gírias dentro de cada um deles. Quando escrevemos, costumamos cometer erros
ou abreviar palavras, ou omitimos pontuações; quando falamos, carregamos sotaques regionais,
tendemos a murmurar e emprestamos termos de outros idiomas.

Embora o aprendizado supervisionado, o aprendizado não-supervisionado e, especificamente, o


deep learning sejam hoje amplamente utilizados para modelar a linguagem humana, há também a
necessidade de compreensão sintática e semântica, além de domínio, que não estão
necessariamente presentes nessas abordagens de machine learning. O PLN é importante porque
ajuda a resolver a ambiguidade na linguagem e adiciona uma estrutura numérica útil aos dados
para muitas aplicações downstream, como reconhecimento de fala ou análise de texto. 

 Conheça as Etapas do Pré-Processamento de dados


 Entenda como funciona um Computador Quântico!
 Guia Básico para Processamento de Linguagem Natural (NLP)
 Machine Learning para todos, de forma simples e com exemplos!
 Conheça o algoritmo XGBoost

Como funciona o Deep Learning

Resumo Métodos de Aprendizado Profundo (Deep Learning) são atualmente o estado-da-arte em muitos problemas
possíveis de se resolver via aprendizado de maquina, em particular problemas de classificação. No entanto, ainda há
pouco entendimento de como esses métodos funcionam, porque funcionam e quais as limitações envolvidas ao
5
utilizá-los. Nesse capítulo descreveremos em detalhes a transição desde redes rasas (shallow) até as redes profundas
(deep), incluindo exemplos em código de como implementá-las, bem como os principais fatores a se levar em
consideração ao treinar uma rede profunda. Adicionalmente, iremos introduzir aspectos teóricos que embasam o
uso de modelos profundos, e discutir suas limitações.
http://conteudo.icmc.usp.br/pessoas/moacir/papers/Ponti_Costa_Como-funciona-o-Deep-Learning_2017.pdf

O que significa Big Data? Big Data é um grande e massivo volume de dados, que ao ser
analisado, permite a descoberta de relacionamentos entre informações que de outra forma não
seriam tão naturais
Um curso sobre Big Data pode oferecer uma introdução detalhada dos principais conceitos envolvendo Big
Data, permitindo uma compreensão clara do que há de mais avançado em tecnologia de engenharia de dados
e preparando o aluno para os cursos mais avançados.
 
Uma das funções principais de um Cientista de Dados é analisar a massa de dados para fazer
inferências. O dado é a matéria bruta do Cientista de Dados. Mas seu primeiro desafio é
pensar na pergunta certa a ser feita para chegar na resposta que o negócio precisa
responder. Big Data é o novo petróleo, um novo asset corporativo e está revolucionando o
mundo. Saber coletar, armazenar, tratar, analisar e disponibilizar estes dados é um desafio e
o mercado está em busca de profissionais com este perfil.  (EXTRAIR CONHECIMENTO E
VALOR DOS DADOS)
Big Data deixou de ser uma palavra da moda e está se transformando
em realidade. O mercado de trabalho está em busca de profissionais de
Big Data com capacidades analíticas.
 
Fazer análise de Big Data é utilizar técnicas avançadas para tratamento
de grande volume de dados. São milhares de dados sendo alimentados e
armazenados em tempo real 24 horas por dia. Trata-se de registros
pessoais, informações sobre saúde, trabalho, comércio, cada ação
realizada por usuários através de milhões de sites na internet, celulares,
sensores, transações eletrônicas de negócios e assim por diante. Nós
precisamos agora de tecnologias que nos ajudem a preparar esses
dados, sejam eles estruturados ou não estruturados e em diferentes
tamanhos e formatos, para extrair insights e auxiliar as nossas decisões.
 
Analisar grandes volumes de dados é uma tarefa para analistas,
pesquisadores e usuários de tecnologia e negócios, os quais irão tomar
decisões mais acertadas e objetivas a partir desses dados tratados. Por
meio de técnicas de análise avançadas, tais como análise de conteúdo
textual, análise preditiva de dados, mineração, estatísticas e aplicações
de Machine Learning. Esses profissionais terão acesso a dados
singulares, nunca acessados anteriormente o que os permitirão sair a
frente de seus concorrentes.

O que Data Science tem a ver com o Diagrama de Venn?


6
(Link do Linkedin sobre compreensão de Data Science)
https://www.linkedin.com/pulse/o-que-data-science-tem-ver-com-diagrama-de-veen-jaqueline-ariane
Os 3 conjuntos da Diagrama de Venn aplicado a Data Science:
O primeiro conjunto representado pela Ciência da Computação   (programação) nos ajuda
nas camadas de infraestrutura até a arquitetura dos dados: onde, como e quando, armazenar, obter e
tratar o dado. O segundo conjunto composto pela matemática e pela estatística nos
ajudam a filtrar o dado, classificar, minerar, aplicar algoritmos, que nos darão respostas mais rápidas. E por
fim, o terceiro conjunto composto pela Especialização Científica ou conhecimento,
que nos ajudam a fazer as perguntas certas. https://www.linkedin.com/

10 habilidades de um Cientista de Dados – 3 visões

http://www.cienciaedados.com/as-10-habilidades-de-um-cientista-de-dados/

Após realizar a pesquisa com profissionais de Ciência de Dados e busca em perfis


no LinkedIn, estas foram as 10 habilidades mais encontradas nos profissionais que
trabalham como Cientistas de Dados:

1. Comunicação
2. Gestão de Dados Estruturados
3. Matemática
4. Gestão de Projetos
5. Data Mining e Visualização
6. Design de Experimentos
7. Gestão de Dados
8. Design e Desenvolvimento de Produtos
9. Modelagem estatística
10. Desenvolvimento de negócios

 Harvard Business Review, afirma que as habilidades do Cientista de Dados dependem da


função que ele exerce, sejam elas mais técnicas ou mais voltadas para a criação de
produtos ou apps de análise de dados. Segundo o artigo, estas seriam as habilidades
necessárias para se tornar um Cientista de Dados:

 Conhecimento em linguagens de programação de análise de dados (R, Python e SQL)


 Comunicação
 Visualização de Dados
 Data Mining
 Estatística
 Infraestrutura de Big Data (Hadoop, MapReduce e Spark)
 Machine Learning
 Engenharia de Software
 Álgebra Linear
7
 Foco em solução de problemas
 Há ainda um artigo escrito por Ferris Jumah, Cientista de Dados bastante atuante na
comunidade internacional, que listou estas como sendo as habilidades principais de
quem trabalha como Cientista de Dados:

Ciência de Dados: o básico e como se qualificar numa das áreas mais


promissoras da TI (LINK)
https://www.profissionaisti.com.br/2019/04/ciencia-de-dados-o-basico-e-como-se-qualificar-numa-das-areas-mais-
promissoras-da-ti/

Python é uma linguagem de programação de uso geral, mas que tem liderado as
iniciativas de Análise de Dados por diversos motivos: é fácil de aprender e
poderosa, pode ser usada em diversas plataformas, possui uma comunidade ativa,
diversas bibliotecas e módulos prontos para uso e é totalmente gratuita.

Um curso poderá apresentar a você, os conceitos básicos e fundamentos da


linguagem de programação Python. Através de uma experiência prática, com
exemplos, quizzes, exercícios e projetos, será possível testar seus conhecimentos
e aplicá-los em projetos de Data Science.

Você também pode gostar