Projeto E-Book

MACHINE LEARNING
Com Hesdras Oliveira Viana

SUMÁRIO
SOBRE O CURSO 3
PROFESSOR DO CURSO 4
AULA 1, PARTE 1 5
AULA 1, PARTE 2 11
AULA 1, PARTE 3 14
AULA 2, PARTE 1 16
AULA 2, PARTE 2 19
AULA 2, PARTE 3 23
AULA 3, PARTE 1 26
AULA 3, PARTE 2 29
AULA 3, PARTE 3 33
2
SOBRE O CURSO
O QUE SERÁ ABORDADO N AS AUL AS?

Introdução a sistemas inteligen t es . Ap ren diz a g em s u p er vis io n a da e não-
super visionad a. Aprend izado p o r ref o rç o . R edu ç ã o de dim en s io n a lidade.
Redes neurais. Deep learning. Ap ren diz a g em b ayes ia n a . Ár vo res de deci são.
Algoritmos evolucionários.
O QUE CONSTA NESTE E BOOK?
Neste material, você tem uma lin h a do t em p o c o m o s p r in c ip a is

acontecimentos d as videoaulas , c o m o f ra s es im p a c t a n t es do s p ro fessores,
conceitos impor tantes do merc a do , in dic a ç õ es de f ilm es e livro s , en t re
outros.
3
PROFESSOR DO CURSO
HESDRAS OLIVEIRA VIANA
D O U T O R E M C I Ê N C I A D A C O M P U TA Ç Ã O E
COORDENADOR ACADÊMICO
Atualmente é Coordenado r Ac a dêm ic o da UN IN ASSAU - R ec ife. Doutor

em Ciência da Computa ç ã o , t em ex p er iên c ia em g es t ã o de IE S e no
desenvolvimento de nova s t ec n o lo g ia s , a t u a n do p r in c ip a lm en t e nas
seguintes subáreas: Int elig ên c ia Ar t if ic ia l, Bu s in es s In t ellig ence,
Processamento d e Sinal, Des en vo lvim en to e R edes de Co m p u t a dores.
4
AULA 1, PARTE 1
Hesdras Oliveira Viana
Overview 04:20
Hesdras inicia a aula oferecen do def in iç õ es s o b re in t elig ên c ia a r t if ic ial

afirmando que, nessa d isciplin a , t ra b a lh a rem o s c o m p ro b lem a s em a ber to.
Ele utiliza o exemplo do proble m a do s is t em a de lo g í s t ic a do s Co r reios, cuja
solução de I A ainda não foi d es en vo lvida c o m s u c es s o e q u e ele c o n si dera
“um problema de I A que vale um m ilh ã o de dó la res ” . O p ro fes s o r a p resenta
uma linha d o tempo recapitulan do a evo lu ç ã o da in t elig ên c ia a r t if ic ia l de
1943 a 1995, comentand o sobre a lg u n s m a rc o s n a h is tó r ia da I A, c o mo
o desenvolvimento d os primeiro s p ro g ra m a s de I A, p es q u is a s em redes
neurais até o surgimento d e agen t es in t elig en t es em 1 9 9 5 , in dic a n do que
iniciaremos a aula consid erand o o s ava n ç o s a dq u ir ido s a p a r t ir da í . Hesdras
mostra um gráfico de constelaç ã o q u e t en t a p rever c o m o a in t elig ên ci a
ar tificial estará m 2025, id entif ic a n do in ú m era s ra m if ic a ç õ es do s p ro cessos,
métodos e aplicações referentes a I A c o n c lu in do q u e es s a é u m a á rea de
atuação muito extensa.
Uma área de pesquisa que investiga formas de habilitar o

computador a realizar tarefas nas quais, até o momento, o ser
humano tem um melhor desempenho.
- Elaine Rich -
5
Tão logo algum problema de IA é resolvido, ele não é mais
considerado um problema da área de IA.
- Chuck Thorpe -
Abordagens de IA 14:04
Hesdras afirma que precisamos t er em m en t e a ex is t ên c ia de u m a diferença

entre elaborar sistemas que co n s iderem o s a s p ec to s h u m a n o s e o s a spectos
racionais. Ele explica que o pe n s a m en to e o c o m p o r t a m en to ra c io n a l se
baseiam apenas em aspectos ra c io n a is , u t iliz a n do c o m o exem p lo q u estões
práticas como ir de um lugar a o u t ro . Já o p en s a m en to e o c o m p o r t a mento
humano ad vêm de uma sensaçã o im p revis í vel, c o m o en c o n t ra r u m a mi go
que você não via há muito temp o p o r a c a s o . L eva n do em c o n t a o a s p e cto
humano, o professor comenta s o b re o t es t e de Tu r n in g , ela b o ra do n a
década de 50, que consegue det er m in a r s e u m a m á q u in a c o n s eg u e imi tar
o pensamento e compor tamento h u m a n o , o u “p en s a r s oz in h a” . O p ro fessor
ressalta que a maior dificuld ade n o p ro c es s o de ela b o ra ç ã o de in t eligênci a
ar tificial é a compreensão sobre o a p ren diz a do h u m a n o , e a p res en t a três
segmentos dessa ver tente:
• Aprendizad o super visionad o /Cla s s if ic a do r : o a lg o r it m o s u p er vis io nado

recebe um conjunto de exemplo s de t rein a m en to p a ra o s q u a is o s ró t ul os
das classe s associadas são co n h ec ido s ;
6
• Aprendizad o não-super visio n a do /Ag r u p a m en to : o a lg o r it m o a n a lis a
os exemplos fornecidos e tenta det er m in a r s e a lg u n s deles p o dem s er
agrupados;
• Aprendizad o por reforço: alg o r it m o q u e a p ren de, s em t er p a râ m et ros

de referência, através das ações to m a da s s o b re o a m b ien t e, g era n do
recompensas.
O professor reforça esses conc eito s a t ravés de u m f lu xo g ra m a q u e rami fi ca

o Machine Learning exemplifica n do a s redes de c a da u m a da s m o da lidades
de aprendizado. Finalizand o ess e c a p í t u lo , Hes dra s a p res en t a o s s eg ui ntes
paradigmas d e aprendizado:
• Simbólico: ár vore d e d ecisã o ;
• Estatístico: aprend izado Bayes ia n o ;
• Conexionista: red es neurais ;
• Evolutivo: algoritmo genétic o .
Teste de Turning
O teste d e Turing tem uma p rem is s a b á s ic a : s e u m s er h u m a n o c onversa
com uma máquina por cinco m in u to s s em p erc eb er q u e ela n ã o é
human a, o computador pas s a n o t es t e.
Agentes inteligentes 26:26
Hesdras traz o conceito d e age n t e c o m o a lg o ( a n í vel de s o f t w a re o u

hardware) capaz d e perceber s eu a m b ien t e p o r m eio de s en s o res e de agi r
sobre esse ambiente por meio de a t u a do res . E le dem o n s t ra a t ravés de um
fluxograma que, à medid a que a M a c h in e L ea r n in g f o i s e des en vo lven do,
encontramos o parad igma entre a g en t es in t elig en t es e s is t em a s in t eligentes
clássicos.
7
O professor demonstra os con c eito s de a g en t e c it a n do o s exem p lo s :
• Agente humano:
Sensores: Olhos, ouvidos e o u t ro s ó rg ã o s .
Atuadores: Mãos, pernas, bo c a e o u t ra s p a r t es do c o r p o .
• Agente robótico:
Sensores: câmeras e detecto res de in f raver m elh o .
Atuadores: vários motores.
• Agente de software:
Sensores: entrad a do teclado , c o n t eú do de a rq u ivo s e p a c o t es vin dos da
rede.
Atuadores: tela, disco, envio de p a c o t es p ela rede.
O professor explica que os age n t es in t elig en t es a t u a m de f o r m a s im p l es,

mapeando percepções em açõ es e t ra z u m m ec a n is m o s im p les c o m o o do
funcionamento d e um aspirad o r de p ó , q u e p erc eb e o a m b ien t e e a g e de
acordo com essa percepção, indic a n do a f ó r m u la de q u e f u n ç ã o é ig u al à
percepção que gera ação. Hesdra s m o s t ra u m a t a b ela c o m a q u a n t idade de
ações de um aspirad or de pó d izen do q u e, u m do s des a f io s p a ra es s e ti po
de funcionamento é o tamanho q u e u m a t a b ela p o de t er, dep en den do da
quantidade d e ações que pod em a c o n t ec er. E le a f ir m a q u e é dif í c il c ol ocar
uma tabela extensa dentro de u m a g en t e, p o r is s o in t ro du z o c o n c eito
de agentes racionais, que ajuda m a m edir o des em p en h o do s a g en t es
inteligente s, ressaltando que o c o n c eito de ra c io n a lida de é diferen t e d e
onisciência e d e per feição.
8
Hesdras cita os tipos d e agent e c o n s idera n do u m a o rdem c res c en t e e m
relação à autonomia e complex ida de:
• Agente tabela;
• Agente reativo simples;
• Agente reativo com estad o in t er n o ;
• Agente cognitivo basead o em o b jet ivo ;
• Agente otimizador;
• Agente adaptativo, aquele qu e a p ren de.
As coisas foram evoluindo, a parte de robótica foi criando

corpo, proporcionando a ideia de agentes inteligentes
trazendo sensores que percebem e atuam no ambiente.
A racionalidade maximiza o desempenho esperado, enquanto

a perfeição maximiza o desempenho real.
A escolha racional só depende das percepções até o

momento.
Se você tem ambiente, sensores, atuadores e medida de

desempenho, você tem um agente inteligente.
9
Mão na massa 42:33
Hesdras inicia o capítulo apresen t a n do a p á g in a do Ch a t t er Bo t do Go ogl e

Colab, indicand o seu uso para s o lu ç õ es s im p les c o m o a u to m a t iz a r u m
pop-up ou uma resposta de Wh a t s a p p , p o r exem p lo . E le in dic a q u e, p ara
soluções mais robustas e com p lex a s , devem o s c r ia r o n o s s o p ró p r io
ChatterBot. O professor realiza a c r ia ç ã o de u m a g en t e den t ro des s a
plataforma em tempo real, oferec en do dic a s de p ro g ra m a ç ã o e m o s t rando
como a plataforma cria um banc o de da do s p a ra diá lo g o s p ro n to s e s el eção
de idioma.
P-value
Valor-p, também chamado de n í vel des c r it ivo o u p ro b a b ilida de de
significância, é a probabilida de de s e o b t er u m a es t a t í s t ic a de t este
igual ou mais extrema que a q u ela o b s er va da em u m a a m o s t ra , s o b a
hipótese nula.
10
AULA 1, PARTE 2
Algorimos evolucionários 00:18
I niciamos a aula visualizand o u m f lu xo g ra m a c o m a s ra m if ic a ç õ es g e radas

a par tir da computação natural p a ra , a s s im , iden t if ic a r m o s a s o r ig en s e a
evolução de cad a segmento ap res en t a do . O p ro fes s o r s e a p ro f u n da n os
algoritmos evolucionários relac io n a n do à t eo r ia da evo lu ç ã o . A p a r t ir dos
algoritmos evolucionários, Hes dra s a p res en t a o s a lg o r it m o s g en ét ic o s
utilizando como exemplo a desc o b er t a do p o n to m á x im o da f u n ç ã o a través
de um gráfico e fala sobre reco n h ec im en to de im a g em . E le a f ir m a q u e os
algoritmos genéticos são utiliza do s p a ra p ro b lem a s de o t im iz a ç ã o e geração
de base ar tificial e sugere algu n s p o n to s im p o r t a n t es a def in ir :
• Representação d os indivídu o s ;
• Estratégia d e seleção;
• Operadores de busca.
Hesdras oferece um passo a pa s s o p a ra c r ia ç ã o de u m a lg o r it m o g enéti co

da seguinte forma:
• Passo 1: Geração de uma po p u la ç ã o in ic ia l c o m in diví du o s es c o lh i dos

aleatoriamente;
• Passo 2: Avaliação d os indiví du o s a t ravés do c á lc u lo da f u n ç ã o de fi tness
usando função objetivo;
• Passo 3: Seleção de ind ivídu o s m a is a p to s ;
• Passo 4: Geração de uma nova p o p u la ç ã o a p a r t ir do s in diví du o s
selecionad os voltando para o pa s s o 2 .
11
A represen tação binária é a mais u t iliz a da e, den t ro dela , t em o s a p a r te da
seleção, que nos permite ident if ic a r a s s o lu ç õ es c a n dida t a s e n o s demanda
a utilização d e algum método de p ro b a b ilida de de s eleç ã o . So b re es s e
processo de seleção na repres en t a ç ã o b in á r ia , Hes dra s c o m en t a s o b re o
método da roleta, a seleção por to r n eio , o p era do res g en ét ic o s , o p era d or
mutação, operad or crossover de do is p o n to s e c ro s s over u n if o r m e. Sobre
o processo de seleção na repres en t a ç ã o rea l, o p ro fes s o r c o m en t a s obre
crossover convencional, crossover a r it m ét ic o , b a s ea do s da direç ã o ,
crossover méd ia e blend cross over. Além des s es c o n c eito s , Hes dra s
aborda também a população in ic ia l e o s c r it ér io s de p a ra da , a b o rda n d o
número máximo d e gerações, f u n ç ã o o b jet ivo c o m va lo r ó t im o a lc a n ç ado,
convergência na função objetivo .
Algoritmo meta-heurístico
Algoritmo d e alto nível custo m iz ável a u m a a m p la q u a n t ida de de
problemas.
O algoritmo genético é utilizado para você resolver problemas

de otimização e encontrar os melhores parâmetros.
A primeira coisa que a rede neural precisa é base de dados.
Para otimização de parâmetros contínuos a representação

binária não é adequada.
12
Operadores genéticos
Operad ores genéticos (cru z a m en to e m u t a ç ã o ) s ã o a p lic a do s a o s
indivíduos selecionados, vis a n do p ro du z ir n ovo s in diví du o s a p a r ti r
do material genético de se u s p a is a p a r t ir de u m a p ro b a b ilida de para
ser realizada a operação (pm – p ro b a b ilida de de m u t a ç ã o e p c –
probabilid ade d e cruzamento ).
Na definição da representação do indivíduo, o mais comum é

a representação binária. A dificuldade que essa abordagem
apresenta é a de que o mundo não é binário. Para converter
algo à lógica binária, acabamos ocupando muito espaço.
No Machine Learning, o que faz você sair do 90% e ir para o

100% é a diversidade.
Mão na massa 50:08
O professor encerra a aula apres en t a n do u m p ro b lem a e a n t ec ip a q u e sua

solução será abordada na próxim a a u la . E le a f ir m a s er u m p ro b lem a real de
um caminhão que tem limite de t rês m et ro s c ú b ic o s . O o b jet ivo é c a r regar
o máximo de mercadorias geran do o m a io r lu c ro p o s s í vel c o n s idera n do
variedade, peso, quantid ade e p reç o , u m p ro b lem a c lá s s ic o de b u s c a d entro
da otimização. . Hesd ras ind ica q u e a m elh o r s o lu ç ã o p a ra es s a q u es tão
é a utilização de algoritmos gen ét ic o s e diz q u e, a t ravés do Go o g le Col ab,
vamos elaborar esse algoritmo a t ravés de c la s s e de p ro du to s , c o n s iderando
a abordagem binária e criand o u m c ro m o s s o m o de 1 4 it en s , u t iliz a n do o
método da roleta, crossover, g era ç ã o do s f ilh o s e ava lia ç ã o des s es f ilhos.
13
AULA 1, PARTE 3
Mão na massa 00:23
Hesdras inicia a programação c r ia n do u m a c la s s e p ro du to im p la n tando a

forma randômica, classe ind iví du o c o m es p a ç o s , va lo res e lim it e de espaços,
fitness e preenchimento d o cro m o s s o m o . Pa ra ro da r a ava lia ç ã o da função
fitness, consid eramos o valor do s p ro du to s e o es p a ç o , da n do n o t a s para as
piores combinações e somando o s es p a ç o s o c u p a do s . Hes dra s m o stra, na
prática, a criação de cód igos a p a r t ir da ló g ic a ela b o ra da a t ravés da a pl i cação
dos conceitos vistos até aqui. E le a p res en t a a lg u m a s s o lu ç õ es o b t idas ai nda
sem seleção, ou seja, d e forma ra n dô m ic a , q u e n ã o u t iliz a m to do o es paço ou
que extrapolam a capacidade d o c a m in h ã o . E le s u g ere a c r ia ç ã o de m utação e
roda novamente afirmando que , s e a t a x a de m u t a ç ã o es t iver m u ito a lta, você
pode diminuir e, se estiver muito b a ix a , vo c ê p o de a u m en t a r. E le a p resenta
as funções sor ted e reverse t r u e p a ra o rden a ç ã o da p o p u la ç ã o e encontro
da melhor solução para entender s e é p rec is o ro da r m a is g era ç õ es ou não.
Ele aplica o método da roleta p a ra iden t if ic a r o p a i de f o r m a ra n dômi ca e
identificar seus d ados. Após ro da r a lg u m a s vezes , ele a p res en t a u m gráfi co
que identifica que os resultad os n ã o s ã o s a t is f a tó r io s e a f ir m a q u e o a lgori tmo
genético é utilizad o como início da rede n eu ra l p a ra o t im iz a r p a râ m etros ou
para criação d e base.
A parte do código é simples, a parte difícil do Machine

Learning é entender como ele funciona.
14
Valores de reverse
Os valores d e reverse podem s er Tr u e o u Fa ls e: f a ls e s ig n if ic a q u e a
lista será ord enada em ord em a s c en den t e, t r u e s ig n if ic a q u e a lis ta será
ordenada em ord em descen den t e.
Vida artificial 46:15
Obser vamos o compor tamento de u m a c o lô n ia de f o r m ig a s p a ra en t en der o

funcionamento d a criação d e trilh a s res u lt a n t es da lib era ç ã o de fero m ôni os.
O professor comenta que a otimiz a ç ã o p o r c o lô n ia de f o r m ig a s é u m a
abordagem que pod e ser utilizada p a ra ro t ea m en to de redes , p o r exempl o.
Hesdras afirma que os estud os s o b re o a s s u n to t ivera m s eu in í c io a p ar ti r
do experimento d a ponte binária, c o n f ir m a n do a p rem is s a de q u e, o n de
houver mais feromônios, haverá c o n c en t ra ç ã o o rden a da de f o r m ig a s . O
professor fala sobre id entificaçã o de m elh o r ro t a , a p res en t a o s da do s que
formam o algoritmo e explica as f ó r m u la s de b u ild s o lu t io n e de u p da t e
pheromone. Hesd ras expõe o pro b lem a de es t a g n a ç ã o c o m p a ra n do a
distribuição d e feromônio no in í c io da b u s c a e a p ó s 1 0 0 it era ç õ es e c ita as
diferenças entre formigas reais e a r t if ic ia is .
Otimização é você sair do seu máximo local e ir para o

máximo global.
A otimização por colônia de formigas pode substituir o

algoritmo de rota.
15
AULA 2, PARTE 1
Redes neurais 00:58
São técnicas inspiradas no func io n a m en to do c éreb ro , c a p a z de a p render

e generalizar. As característica s des eja da s s ã o : c a p a c ida de de a p ren d er,
de generalizar e robustez. Hesdra s a p res en t a u m q u a dro c o m p a ra t ivo entre
cérebro e computad or, afirman do q u e o t ip o de p ro c es s a m en to do c érebro
é paralelo e o d o computador é s eq u en c ia l. O p ro fes s o r c o m en t a s o b re
origem das red es neurais citando Ar is tó t eles , Des c a r t es , R a m o n e Ca j al .
Ele aborda também conceitos ela b o ra do s p o r Heb b , M c Cu llo c h e Pit t na
década de 40, afirmand o que nes s a déc a da é q u e s e dá o c o m eç o de fato
das redes neurais com a criaçã o de m o delo s m a t em á t ic o s p a ra s im u lação
do aprendizad o cerebral. Nas d éc a da s de 5 0 e 6 0 , o p ro fes s o r t ra z c o ncei tos
de Von Neumann, Rosenblatt, W idro w e Ho f f . N a déc a da de 7 0 , a n a lis amos
conceitos como o perceptron, redes b o o lea n a s , R N A a s s o c ia t iva s , t eori a
da ressonância adaptativa e, na déc a da de 8 0 , c h a m a da s eg u n da o n da,
temos o início das redes neurais de f a to c o m Hin to n , R u m elh a r t e Will i ams,
colocando mais uma camad a de p ro c es s a m en to p ro p o n do u m a lg o r it mo
de aprendizagem para redes mu lt ic a m a da s . Hes dra s ex p lic a o c o m p o nente
geral de uma RN:
• Sinal de entrada (x);

• Pesos ou conectivid ades (w );
• Bias (b);
• Camada intermed iaria ou es c o n dida – s o m a tó r io en t re o s p es o s e o si nal
de entrada (soma ponderad a);
• Função d e ativação;
• Saída.
16
A rede neural é uma tentativa de simular o cérebro humano.
Perceptron
É uma red e neural de cama da ú n ic a e u m Perc ep t ro n de vá r ia s c a madas
é chamad o de Rede Neural Ar t if ic ia l. O Perc ep t ro n é u m c la s s if ic ador
linear binário. Além d isso, é u s a do n a a p ren diz a g em s u p er vis io n a da e
pode ser usad o para classif ic a r o s da do s de en t ra da f o r n ec ido s .
Função de ativação determina como será o seu

comportamento de aprendizagem.
Funções de ativação
As funções de ativação são u m elem en to ex t rem a m en t e im p o r t a n te das
redes neurais ar tificiais. Ela s b a s ic a m en t e dec idem s e u m n eu rô ni o
deve ser ativado ou não. Ou s eja , s e a in f o r m a ç ã o q u e o n eu rô n io está
recebendo é relevante para a in f o r m a ç ã o f o r n ec ida o u deve s er ignorada.
Você precisa de um bom balanceamento de classe e de dados

para sua rede neural trazer bons resultados.
17
Perceptron 42:33
Hesdras reforça as característ ic a s da rede Perc ep t ro n :
• Aprendizagem super visionada ;
• Utiliza função d egrau;
• Modelo mais simples de um a rede n eu ra l e q u e s ó c la s s if ic a p ro b lemas

linearmente separáveis;
• Consiste em uma única cama da de n eu rô n io s c o m p es o s s in á p t ic os e

bias ajustáveis;
• Se os pad rões de entrada forem lin ea r m en t e s ep a ráveis , o a lg o r it mo

de treinamento possui convergên c ia g a ra n t ida , i.e, t em c a p a c ida de p ara
encontrar um conjunto d e peso s q u e c la s s if ic a c o r ret a m en t e o s da do s.
O professor utiliza exemplos p a ra ex p lic a r o a ju s t e de p es o s n a f a s e de

aprendizado fornecend o conce ito s , f u n ç ã o e n o m en c la t u ra s referen t e s
ao processo de treinamento d o a lg o r it m o . Hes dra s a f ir m a q u e a f a s e de
treinamento d e um algoritmo é a f a s e de a p ren diz a do e q u e, u m a vez que
essa etapa é concluída, passamo s p a ra a p rá t ic a , c h a m a da de p er í o do de
teste. A aula é finalizada com u m exem p lo de p erc ep t ro n q u e s erá c o l ocado
em prática na próxima aula.
18
AULA 2, PARTE 2
Mão na massa 00:22
O professor desenvolve a solu ç ã o p a ra o p ro b lem a a p res en t a do n o f inal

da última aula através d o Google Co la b . Hes dra s a f ir m a q u e g era lm ente
numa programação convencion a l n ã o u t iliz a m o s a f u n ç ã o “ w h ile” t a n to
quanto numa solução d e red e n eu ra l. Is s o a c o n t ec e, p o is , rede n eu ra l é
aprendizagem, então não cons eg u im o s u t iliz a r a f u n ç ã o “f o r ” . Hes dra s roda
por três gerações que são o suf ic ien t e p a ra g era r a s o lu ç ã o .
NumPy
É uma biblioteca para a lin g u a g em P yt h o n c o m f u n ç õ es p a ra s e t rabal har
com computação numérica . Seu p r in c ip a l o b jeto é o veto r n - dim ensi onal ,
ou ndarray. Um vetor n-dimen s io n a l t a m b ém é c o n h ec ido p elo n o me
tensor.
A etapa de treinamento é a etapa na qual a sua rede neural

aprende. Uma vez que sua rede neural aprende, você passa
para a etapa de testes, quando entram novos dados e você
quer que sua rede neural generalize para entregar novos
dados. O treinamento é a parte mais importante e a que nos
demanda mais trabalho.
19
O Numpy é mais rápido que as próprias funções nativas do
Phyton, principalmente quando queremos simular algum
agente robótico pois é fácil fazer manipulação de dados
dentro dele.
Questões de projeto RN 14:01
O professor ded ica o capítulo p a ra res s a lt a r q u es tõ es q u e p rec is a m o s

considerar em projetos de red e n eu ra l:
• Redes Neurais precisam d e m u ito s da do s ;
• O desempenho de uma red e dep en de da es c o lh a do s p es o s q u e,

normalmente, é feita de forma a lea tó r ia ;
• Os dados normalmente devem s er p ré- p ro c es s a do s e a n o r m a liz a ç ão ou

padronização são muito utiliza do s ;
• Utilizar média, mod a ou out ro a r t if í c io es t a t í s t ic o p a ra def in ir va lo res

ausentes;
• Redes Neurais precisam gen era liz a r ;
• Dividir o conjunto de d ados em :
• Subconjunto d e treinamen to ( 5 0 % do s da do s )
• Subconjunto d e valid açã o ( 2 5 % do s da do s )
• Subconjunto d e teste (25 % do s da do s )
• Dividir dados aleatoriam en t e en t re o s c o n ju n to s
20
• Taxa de aprendizagem deve s er b a ix a ( 0 .1 , 0 .5 , 0 .0 1 );
• O número d e neurônios em c a da c a m a da é def in ido em p ir ic a m en t e,

entretanto, por experiência, a m édia a r it m ét ic a en t re o t a m a n h o da entrada
e a saída da rede acaba trazen do b o n s res u lt a do s ;
• O treinamento da red e pod e s er feito p o r p a drã o ( o n - lin e o u in c remental ) ,

onde os pesos são atualizados a p ó s a a p res en t a ç ã o de c a da exem p lo de
treinamento. Nesta abord agem , a o rdem da a p res en t a ç ã o do s p a drõ es é
impor tante para a velocidade d e a p ren diz a do da rede;
• O treinamento da red e pod e s er feito p o r c ic lo ( b a t c h ), o n de o s p esos

são atualizad os após tod os os exem p lo s de t rein a m en to t erem s ido
apresentados. A média d o erro é u s a do n o a ju s t e do s p es o s . Gera lm ente é
mais estável que o por padrão, p o rém é m u ito len to ;
• Critério d e parada da rede é feito de vá r ia s f o r m a s , en t ret a n to , p o r época

ou por erro são os mais utilizado s ;
• Quando uma rede começa a m em o r iz a r o s da do s de t rein a m en to e não

consegue mais aprender novos exem p lo s , a rede n eu ra l en t re em u m e stado
que chamamos d e over fitting. A rede en t ã o t erá res u lt a do s b o n s n a b ase de
treinamento e resultados ruins n a b a s e de t es t e devido a o g ra n de a ju ste dos
dados que foram feitos;
• Já o und er fitting acontece q u a n do a s redes a p ren dem p o u q u í s s im os

padrões devido à falta de comp lex ida de do m o delo em rela ç ã o a o p robl ema.
Nosso critério de parada geralmente é assim, a gente associa

o erro com a quantidade de épocas.
21
MLP 33:06
Segundo Hesd ras, a MLP veio p a ra res o lver p ro b lem a s n ã o lin ea r m en te

separáveis e é uma d as mais u t iliz a da s a in da h o je, u m a vez q u e m u it as
outras soluções pod em ser con s idera da s va r ia n t es dela . O p ro fes s o r
apresenta uma figura mostrando c o m o ela é vis u a lm en t e rep res en t a d a
e explica que uma d e suas cara c t er í s t ic a s é p o s s u ir du a s c a m a da s de
processamento, send o que pod em o s a u m en t a r a q u a n t ida de de c a m a d as
se necessário. Hesdras coment a s o b re o m éto do g ra dien t e des c en dente,
que utiliza backpropagation para ret ro p ro p a g a r o er ro e des c o b r ir s e as
alterações de peso que estamos a p lic a n do es t ã o f a zen do o er ro dim inui r
ou não. O professor explica co m o o g ra dien t e a c h a a direç ã o a t ravés de
fórmula de ajuste d e peso e apres en t a a evo lu ç ã o do g ra dien t e des c e ndente.
Hesdras oferece um exemplo prá t ic o p a ra f ix a ç ã o do c o n t eú do e in ic ia a
fase de ida, ou foward , d a MLP e in dic a q u e in ic ia rem o s a p róx im a a ul a com
a fase de volta, ou backward.
Se eu vou retro propagar o erro, preciso saber se minha base

está diminuindo o erro ou não. Quem me mostra isso é o
gradiente descendente.
Se você quer resolver algo que o perceptron não resolveu,

saiba que foi para isso que a MLP veio.
22
AULA 2, PARTE 3
MLP 00:20
Hesdras segue o exemplo d a a u la p a s s a da en t ra n do a g o ra n a et a p a d e vol ta,

ou backward s. Ele ressalta algu m a s dif ic u lda des da M L P:
• Backpropagation é muito le n to em s u p er f í c ies c o m p lex a s ( c o n s iderar

efeitos de segunda ord em para g ra dien t e des c en den t e);
• Mínimos locais: solução est ável q u e n ã o f o r n ec e s a í da c o r ret a ;
• Taxa de aprendizado decresc en t e;
• Adicionar nós intermediário s ;
• Utilizar momentum;
• Adicionar ruido.
Mão na massa 11:49
O professor propõe a solução em M L P n o Go o g le Co la b , p a s s a n do p a ra

a par te prática as fórmulas que vim o s n o s c a p í t u lo s p a s s a do s . Fa zemos
cálculo de sensibilid ade na cam a da u m e c a m a da do is e a ju s t e de er ro.
Hesdras encontra sucesso no p r im eiro t es t e e a f ir m a q u e, s e q u is er mos
um erro acumulado, é só acres c en t a r m o s o s c ó dig o s p a ra o s o m a tó r io. O
professor recomend a um dado de b a s e p a ra M a c h in e L ea r n in g c h a m ado I ri s
Dataset e a biblioteca Scikit Le a r n , a lém de a p res en t a r a m a t r iz de c onfusão
que é a forma com a qual id ent if ic a m o s a q u a lida de da rede M L P.
23
Quero que você aprenda a matriz de confusão não só para
Machine Learning, mas para sua vida, para você aprender o
que é recall, precisão e acurácia.
Matriz de confusão
É calculad a pela função d e p es q u is a Cla s s if ic a ç ã o . E la ex ib e a
distribuição d os registros em t er m o s de s u a s c la s s es a t u a is e de suas
classes previstas. Isso indic a a q u a lida de do m o delo a t u a l. Um m odel o
pode conter d uas ou mais c la s s es p revis t a s .
Árvore de decisão 48:55
É um parad igma estatístico qu e u t iliz a a p ren diz a do s u p er vis io n a do e é

retratada como um fluxograma de á r vo re e, a t ravés dele, vo c ê a n a lis a
características para tomada de dec is õ es . Pa ra det er m in a r m o s o n í vel de
impor tância dos atributos cont ido s n a á r vo re da dec is ã o , p o dem o s u ti l i zar
entropia ou índice de Gini. Hesdra s a p res en t a o f u n c io n a m en to da á r vore de
decisão e suas vantagens:
• Fácil entendimento e interpret a ç ã o ;
• Normalmente não necessita de m u it a s p rep a ra ç õ es de da do s ;
• Trabalh a com valores faltant es , va r iáveis c a t eg ó r ic a s e n u m ér ic a s ;
• Atua com d ados não linearmen t e s ep a ráveis .
24
Dentre as desvantagens da ár vo re de dec is ã o , t em o s :
• Sujeito a problemas de over f it t in g ;
• Muito sensível ao ruíd o;
• Não garante a construção da m elh o r es t r u t u ra p a ra o s da do s de t rei no

em questão (necessita treinar vá r ia s á r vo res dis t in t a s ).
Overfitting
Ocorre quand o o mod elo se a da p to u m u ito b em a o s da do s c o m o s quai s
está sendo treinad o; porém , n ã o g en era liz a b em p a ra n ovo s da do s.
Ou seja, o mod elo “decorou ” o c o n ju n to de da do s de t rein o , m a s n ão
aprendeu de fato o que diferen c ia a q u eles da do s p a ra q u a n do p re ci sar
enfrentar novos testes.
25
AULA 3, PARTE 1
Árvore de decisão 00:55
I niciamos essa aula aind a abo rda n do a á r vo re de dec is õ es . Hes dra s e xpl i ca
como diminuirmos o over fittin g a t ravés da s s eg u in t es p rá t ic a s :
1) Pré-podagem: para o crescim en to da á r vo re;
2) Pós-podagem: pod a com a ár vo re já c o m p let a .
Sobre o processo d e pod agem , o p ro fes s o r c o m en t a q u e:
• Percorre a ár vore em profun dida de.
• Para cada nó d e d ecisão ca lc u la o er ro n o n ó e a s o m a do s er ro s nos nós

descendentes.
• Se o erro d o nó é menor ou ig u a l à s o m a do s er ro s do s n ó s des c endentes

então o nó é transformado em f o lh a .
O professor comenta também s o b re a á r vo re a lea tó r ia , c it a n do s u a s

vantagens, desvantagens e res s a lt a n do o m éto do en s em b le.
O ensemble não é exclusividade da árvore de decisão, ele é

utilizado em quase todos os métodos da Machine Learning.
Quanto mais poder computacional, mais o ensemble começa a

se encaixar no nosso dia a dia.
26
Mão na massa 11:27
Colocamos em prática os conc eito s s o b re á r vo re de dec is ã o n o Go o g le

Colab. Hesd ras ind ica a base de da do s “ka g g le” , q u e o ferec e u m a b a s e
atualizada que fornece d esafios diá r io s e c o m p et iç õ es . O p ro fes s o r ori enta
o aluno sobre o funcionamento des s a b a s e de da do s e dem o n s t ra n o
Google Colab os cód igos para s o lu c io n a r u m p ro b lem a de do en ç a c a rdíaca
analisando o accuracy afirmando q u e, p a ra o M a c h in e L ea r n in g , 8 0 % é o
mínimo de accuracy que d evemo s c o n s idera r a deq u a do p a ra u m a s o lução.
Dentro da prática d e ár vore de dec is ã o , o p ro fes s o r c o m en t a t a m b ém sobre
o funcionamento da ár vore alea tó r ia .
A primeira coisa que eu faço é conversar com minha base de

dados.
Fazemos entropia ou Índice de Gini para verificar o ganho e, aí

sim, a árvore decide quem será raiz, nós e folha.
É muito melhor digitar o código do que pegar o código pronto.
27
Naive Bayes 33:55
É um métod o de aprendizagem s u p er vis io n a da c o n s idera do u m c la s s i fi cador

probabilístico. Sua premissa é a in dep en dên c ia en t re va r iáveis e s eu nome
“naive”, qu e vem d o inglês, ing ên u o , s e dá p elo f a to des s e m éto do n ã o l evar
em consideração a d epend ênc ia en t re va r iáveis . O N a ive Bayes u t iliz a a
probabilidade a priori para enc o n t ra r a p ro b a b ilida de a p o s t er io r i. Hesdras
utiliza o caso do Covid -19 para exem p lif ic a r o s p a s s o s p a ra t ra n s f o r mar o
problema em probabilidade, pa ra c a lc u la r a p ro b a b ilida de a p o s t er io r i da
negação e para normalizar os da do s e c h eg a r n o res u lt a do da c h a n c e de
as pessoas testadas nesse exem p lo t erem a do en ç a . O p ro fes s o r c o menta
sobre as vantagens e d esvanta g en s des s e m éto do e ex p lic a o s m o delos
Gaussian, Multinomial e Berno u lli. E le in dic a a a p lic a ç ã o do N a ive Bayes
para:
• Processamento d e linguage m n a t u ra l - f ilt ro de s p a m ;
• Diagnóstico médico;
• Classificad or de sentimento: n eu t ro , p o s it ivo e n eg a t ivo ;
• Análise de Créd ito;
• Separação d e Documentos;
• Previsão d e falhas.
Esse capítulo se encerra com a p rá t ic a n o Go o g le Co la b e o p ro fes s o r

faz um comparativo entre os méto do s e o s res u lt a do s o b t ido s a t é a q ui ,
reforçando que a melhor soluç ã o va r ia de a c o rdo c o m c a da p ro b lem a .
28
AULA 3, PARTE 2
Regressão linear 00:22
Funciona como previsão d e valo res p a ra en c o n t ra r p o s s í veis rela ç õ es entre

os atributos. A ideia é fazer uma m o dela g em en t re a s va r iáveis ex p la natóri a
(feature, x) e a variável depend en t e ( t a rg et , y), en t ret a n to , a s va r iáveis
têm que ser minimamente correla c io n a da s ( p o dem o s u s a r a c o r rela ç ão de
Pearson). Hesd ras apresenta um a t a b ela e u m g rá f ic o dem o n s t ra n do uma
regressão linear simples usand o c o m o exem p lo a rela ç ã o en t re o es p aço
e o preço de um apar tamento. Hes dra s ref o rç a o c o n c eito de g ra dien te
descendente, explicand o que os a ju s t es de p a râ m et ro s n a reg res s ã o li near
são feitos através dele. O profes s o r m o s t ra o f u n c io n a m en to da reg ressão
linear.
Erros são os resíduos do modelo, ou seja, a diferença do valor

original para o valor da previsão. Para medir o erro a melhor
estratégia é utilizar o Mean Square Error (MSE).
Perceba que a ideia da regressão linear é simples: fazer uma

equação da reta penalizando os pontos que estão muito
distantes, sem penalizar tanto os pontos mais próximos a ela.
29
Aprendizagem não 19:31
supervisionada
Diferente da aprend izagem sup er vis io n a da , n ã o h á o t a rg et . É u s a da para

agrupar basead o em caracterís t ic a s , p o s s u i f o r t e in s p ira ç ã o n eu ro f is i ol ógi ca
e é baseada em aprend izagem c o m p et it iva . Hes dra s ex p lic a a ló g ic a por trás
da definição d e neurônio vencedo r, a f ir m a n do q u e es s e n eu rô n io a p re nde a
se especializar em agrupamen to s de p a drõ es s im ila res e s e to r n a detector
de características para classes diferen t es de p a drõ es de en t ra da . n eurôni o
vencedor é o que possui o mai o r c a m p o lo c a l in du z ido e a es c o lh a do
vencedor maximiza o produto in t er n o en t re o s p es o s do n eu rô n io e o si nal
de entrada. Cada neurônio tem s eu s p es o s in ic ia liz a do s a lea to r ia m en te, o
aprendizado dá-se, então, desl o c a n do o s p es o s do n eu rô n io ven c edo r na
direção da entrada.
A forma que você tem para criar aprendizado é mudar o

paradigma.
A ideia da aprendizagem competitiva é você colocar os

neurônios em competição e encontrar o neurônio vencedor,
que é aquele mais próximo da sua entrada e que te responde
mais rapidamente.
O número de unidades de entrada define a dimensionalidade

dos dados.
30
K-Means 34:06
É um métod o interativo que con s is t e em a g r u p a r elem en to s q u e es t ã o

próximos dos centroides d efinido s , u m do s m a is u t iliz a do s a t é h o je. O
algoritmo do K-means funciona da s eg u in t e f o r m a :
1. Escolhe aleatoriamente protó t ip o s p a ra o s c lu s t er s ;
2. Atribui cada objeto para o clu s t er de c en t ro m a is p róx im o ;
3. Move cad a centro para a média do s o b jeto s do c lu s t er c o r res p o n de nte;
4. Repete os passos 2 e 3 até q u e a lg u m c r it ér io de c o n verg ên c ia s eja

obtido.
Suas vantagens são:
• Simples e intuitivo;
• Comple xidade linear em toda s a s va r iáveis ;
• Eficaz em muitos cenários d e a p lic a ç ã o ;
• Resultado de interpretação s im p les .
Suas desvantagens são:
• Tem que definir o K;
• Sensível a outlier;
• Limitado a atributos numéric o s ;
• Sensível a inicialização dos p ro tó t ip o s .
31
Método elbow
Conhecid o como método do c o tovelo . Ba s ic a m en t e o q u e o m éto d o
faz é testar a variância d os da do s em rela ç ã o a o n ú m ero de c lu s t ers.
Podemos ver esse “cotovelo” q u a n do p lo t a m o s s eu s res u lt a do s em um
gráfico.
PCA 49:54
Análise de Componente Principa l ( PCA) é u m m éto do n ã o s u p er vis io nado

estatístico, usado para examina r rela ç õ es en t re u m c o n ju n to de va r iávei s,
com o objetivo d e encontrar um a es t r u t u ra b á s ic a q u e p er m it a redu z ir a
dimensionalid ade. Enquanto u m a reg res s ã o det er m in a a lin h a q u e m el hor
se ajusta ao conjunto d e dados , o PCA det er m in a o m elh o r c o n ju n to
or togonal de linhas para ajusta r o m o delo . O p ro fes s o r a p res en t a g rá fi cos
com as linhas or togonais expli c a n do c o m o o PCA c r ia c a ra c t er í s t ic a s para
conseguir id entificar o quanto o s da do s es t ã o va r ia n do e p a ra ex p lic ar
esses dados. Hesdras inicia a p a r t e p rá t ic a de a p lic a ç ã o de K- m ea n s e de
PCA estruturand o os códigos e diz q u e n a p róx im a a u la verem o s o m étodo
elbow.
Maldição da dimensionalidade
Diz que a quantid ade d e d a do s de q u e vo c ê p rec is a p a ra a lc a n ç a r
o conhecimento desejado im p a c t a ex p o n en c ia lm en t e o n ú m ero de
atributos necessários. O d es em p en h o do c la s s if ic a do r t en de a s e
degradar a par tir de um d et er m in a do n ú m ero de a t r ib u to s .
32
AULA 3, PARTE 3
Mão na massa 00:21
Hesdras aplica, na prática, as s o lu ç õ es K- m ea n s e PCA ex p lic a n do t a mbém

o funcionamento da função elbo w vo lt a n do a u t iliz a r a b a s e de da do s I ri s.
O professor rod a por 300 geraç õ es , iden t if ic a o c o tovelo e ro da o PCA para
reduzir as quatro característic a s da Ir is p a ra du a s va r iáveis p r in c ip a is.
Rede SOM 08:47
O professor comenta que a rede SO M s e a s s em elh a a o K- m ea n s p o r se

basear em aprendizagem comp et it iva . O s n eu rô n io s de s a í da c o m p et e m
entre si para serem ativados o u dis p a ra do s e f ic a m dis p o s to s em n ó s de
uma grade uni ou bidimensiona l to r n a n do es s a rede idea l p a ra det ec t ar
clusters. Hesd ras mostra uma f ig u ra c o m a g ra de e ex p lic a o m o delo
de Kohonen. Caso a red e SOM s eja b idim en s io n a l, p o dem o s t er g ra des
hexagonais e retangulares: na h ex a g o n a l, c a da n eu rô n io p o s s u i s eis vi zi nhos
diretos, na retangular, cad a neu rô n io p o s s u i q u a t ro viz in h o s direto s . O
algoritmo da rede SOM tem as s eg u in t es c a ra c t er í s t ic a s :
1. Inicialização: geralmente alea tó r ia , p o de a in da s er es t im a da p o r a nál i se

da representação d os dados;
2. Competição: para cada padrã o de en t ra da , c a lc u la - s e a res p o s t a dos

neurônios de saíd a (grad e). O n eu rô n io c o m a m a io r res p o s t a é o ven cedor
da competição;
33
3. Cooperação: o neurônio venc edo r def in e u m a viz in h a n ç a to p o ló g ic a (em
função da grad e) de neurônios exc it a do s ;
4. Adaptação Sináptica: apren diz a do em rela ç ã o a o p a drã o de en t ra da. Os

pesos do neurônio venced or, e de s u a viz in h a n ç a , f ic a m m a is p róx im os do
padrão de entrad a.
Suas métricas d e qualid ade são :
• Erro de Quantização: d escon s idera a to p o lo g ia do m a p a em s eu c ál cul o.

O erro de quantização (QE) é medido c a lc u la n do a m édia da s dis t â n c i as dos
vetores de entrada aos seus m elh o res n eu rô n io s n o es p a ç o de s a í da .
• Erro Topográfico: métrica de p res er va ç ã o de to p o lo g ia . O er ro to p ográfi co

(TE) é calculad o da seguinte m a n eira : o s m elh o res e o s s eg u n do m elhores
neurônios dos vetores de entra da s ã o en c o n t ra do s , p a ra c a da o c o r rênci a
onde o melhor neurônio e o seg u n do m elh o r n eu rô n io n ã o s eja m a dja centes
no mapa, é consid erado um erro .
• Trade-OFF: quanto menor o er ro de q u a n t iz a ç ã o m a io r o er ro to p o gráfi co.
Hesdras indica o site Minisom e u t iliz a a b a s e Ir is p a ra c o lo c a r em p ráti ca a

elaboração de uma red e SOM.
A rede SOM gaussiana parte do princípio de que todo mundo é

vizinho.
O critério do best matching é baseado na maximização do

produto interno assim como na aprendizagem competitiva.
Para encontrar um erro de quantização menor basta apenas

aumentar o número de neurônios no mapa, entretanto quanto
maior o mapa, maior a probabilidade que o melhor neurônio e
o segundo melhor neurônio não sejam adjacentes.
34
Aprendizagem por reforço 26:18
A aprendizagem por reforço fa z c o m q u e u m a g en t e a u tô n o m o , q u e t e m

percepção e atuação no ambie n t e, a p ren da a ç õ es q u e s ã o ó t im a s p a ra
ganhar recompensas. Seu apre n diz a do s e dá a p a r t ir de t en t a t iva e erro e é
muito utilizad o em jogos, robó t ic a e m et a - lea r n in g . Seu a lg o r it m o f u nci ona
da seguinte forma:
• Inicializa Q (s,a);
• Seleciona o estado st;
• Do Terminando (stop critério ):
• Seleciona a ação at e execu t a s t
• Recebe reforço R (st,at)
• Obser va o estado st+1
• Atualiza tabela: Q(st,at) (1- α ) * Q ( s t , a t ) + α ( R ( s t , a t ) + *m a x Q ( s t + 1,a) ) .
Aprendizagem por reforço não é uma técnica, e sim um

problema de aprendizagem.
Q-learning
É um algoritmo de Apren diz a do Po r R ef o rç o q u e b u s c a en c o n t rar a
melhor ação a ser tomad a , da do o es t a do a t u a l. O ‘q ’ n o q - lea r n i ng
significa qualidade. A qu a lida de, n es t e c a s o , rep res en t a a u t ilid ade de
uma d eterminad a ação p a ra o b t er a lg u m a rec o m p en s a f u t u ra .
35
Deep Neural Networking 37:38
Deep Neural Networking (DNN) s ig n if ic a u s a r u m a rede n eu ra l c o m

várias camad as. Usar várias cam a da s p er m it e q u e a rede iden t if iq u e as
características relevantes, d o m es m o m o do q u e a c o n t ec e c o m o c érebro.
Hesdras explica as d iferenças en t re o m éto do de a p ren diz a g em da M LP e do
deep neural networking. Suas a p lic a ç õ es s ã o u t iliz a da s p a ra m o n ito ramento
de pessoas com ar tificial super in t ellig en c e, p a ra rec o n h ec im en to de
objetos, para recuperação de res o lu ç ã o de im a g en s e p a ra o f u n c io n amento
de carros automáticos. O profes s o r ex p lic a o f u n c io n a m en to DN N
autoencod er, ressaltando com o diferen ç a em rela ç ã o a o PCA o p ro c esso
de volta, ou seja, enquanto o P CA f a z a p en a s a c o dif ic a ç ã o , o DN N f a z a
decodificação também.
O deep neural networking nada mais é do que você colocar

mais camadas que vão servir para o aprendizado.
DNN GAN 50:37
Generative Ad versarial Networks ( GAN s ) é u m a rede n eu ra l q u e c r ia al go

de forma autônoma, como por exem p lo , u m a im a g em . É u m a da s rede s
neurais mais avançadas pois ap ren de s o b re o s o b jeto s do m u n do e c ri a
outras versões desses objetos qu e n u n c a ex is t ira m ( c o m o s e f o s s e u ma
imaginação), podendo, inclusive, c r ia r im a g en s a p a r t ir de t ex to s . Seu
funcionamento se dá a par tir d e du a s redes n eu ra is , u m a p a ra g era r a
imagem (gerador) e outra para a p ren der a ava lia r a im a g em ( dis c r im inador) .
Em ambas as redes, não há info r m a ç õ es p révia s , a rede deve a p ren der só
baseado nas entradas gerad as a lea to r ia m en t e X im a g en s rea is . E n c erramos
a aula com a aplicação dos co n c eito s de f o r m a p rá t ic a .
36
Dropout é quando você desliga os neurônios com o passar do
tempo.
PyTorch
É uma estrutura de aprendiz a do de m á q u in a de c ó dig o a b er to b aseada
na biblioteca Torch, usada p a ra a p lic a t ivo s c o m o vis ã o c o m p u t aci onal
e processamento d e ling u a g em n a t u ra l, des en vo lvida p r in c ip a lmente
pela Meta AI. É um softw a re g ra t u ito e de c ó dig o a b er to la n ç a do sob a
licença BSD mod ificad a.
37

Projeto E-Book

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Projeto E-Book

Enviado por

Direitos autorais:

Formatos disponíveis

MACHINE LEARNING

Com Hesdras Oliveira Viana

O QUE SERÁ ABORDADO N AS AUL AS?

O QUE CONSTA NESTE E BOOK?

Neste material, você tem uma lin h a do t em p o c o m o s p r in c ip a is

HESDRAS OLIVEIRA VIANA

Atualmente é Coordenado r Ac a dêm ic o da UN IN ASSAU - R ec ife. Doutor

Hesdras inicia a aula oferecen do def in iç õ es s o b re in t elig ên c ia a r t if ic ial

Uma área de pesquisa que investiga formas de habilitar o

Hesdras afirma que precisamos t er em m en t e a ex is t ên c ia de u m a diferença

• Aprendizad o super visionad o /Cla s s if ic a do r : o a lg o r it m o s u p er vis io nado

• Aprendizad o por reforço: alg o r it m o q u e a p ren de, s em t er p a râ m et ros

O professor reforça esses conc eito s a t ravés de u m f lu xo g ra m a q u e rami fi ca

• Simbólico: ár vore d e d ecisã o ;

• Estatístico: aprend izado Bayes ia n o ;

• Conexionista: red es neurais ;

• Evolutivo: algoritmo genétic o .

Agentes inteligentes 26:26

Hesdras traz o conceito d e age n t e c o m o a lg o ( a n í vel de s o f t w a re o u

O professor explica que os age n t es in t elig en t es a t u a m de f o r m a s im p l es,

As coisas foram evoluindo, a parte de robótica foi criando

A racionalidade maximiza o desempenho esperado, enquanto

A escolha racional só depende das percepções até o

Se você tem ambiente, sensores, atuadores e medida de

Hesdras inicia o capítulo apresen t a n do a p á g in a do Ch a t t er Bo t do Go ogl e

Algorimos evolucionários 00:18

I niciamos a aula visualizand o u m f lu xo g ra m a c o m a s ra m if ic a ç õ es g e radas

Hesdras oferece um passo a pa s s o p a ra c r ia ç ã o de u m a lg o r it m o g enéti co

• Passo 1: Geração de uma po p u la ç ã o in ic ia l c o m in diví du o s es c o lh i dos

O algoritmo genético é utilizado para você resolver problemas

A primeira coisa que a rede neural precisa é base de dados.

Para otimização de parâmetros contínuos a representação

Na definição da representação do indivíduo, o mais comum é

No Machine Learning, o que faz você sair do 90% e ir para o

Mão na massa 50:08

O professor encerra a aula apres en t a n do u m p ro b lem a e a n t ec ip a q u e sua

Mão na massa 00:23

Hesdras inicia a programação c r ia n do u m a c la s s e p ro du to im p la n tando a

A parte do código é simples, a parte difícil do Machine

Vida artificial 46:15

Obser vamos o compor tamento de u m a c o lô n ia de f o r m ig a s p a ra en t en der o

Otimização é você sair do seu máximo local e ir para o

A otimização por colônia de formigas pode substituir o

Redes neurais 00:58

São técnicas inspiradas no func io n a m en to do c éreb ro , c a p a z de a p render

• Sinal de entrada (x);

Função de ativação determina como será o seu

Você precisa de um bom balanceamento de classe e de dados

Hesdras reforça as característ ic a s da rede Perc ep t ro n :

• Aprendizagem super visionada ;

• Utiliza função d egrau;

• Modelo mais simples de um a rede n eu ra l e q u e s ó c la s s if ic a p ro b lemas

• Consiste em uma única cama da de n eu rô n io s c o m p es o s s in á p t ic os e

• Se os pad rões de entrada forem lin ea r m en t e s ep a ráveis , o a lg o r it mo

O professor utiliza exemplos p a ra ex p lic a r o a ju s t e de p es o s n a f a s e de

Mão na massa 00:22

O professor desenvolve a solu ç ã o p a ra o p ro b lem a a p res en t a do n o f inal

A etapa de treinamento é a etapa na qual a sua rede neural

Questões de projeto RN 14:01

O professor ded ica o capítulo p a ra res s a lt a r q u es tõ es q u e p rec is a m o s

• Redes Neurais precisam d e m u ito s da do s ;

• O desempenho de uma red e dep en de da es c o lh a do s p es o s q u e,

• Os dados normalmente devem s er p ré- p ro c es s a do s e a n o r m a liz a ç ão ou