Redes Neurais Convolucionais

Redes neurais convolucionais
Jones Granatyr
Redes neurais convolucionais (CNN)
• Usado para visão computacional
• Carros autônomos, detecção de pedestres (umas das razões por deep
learning funcionar bem)
• Em geral, melhor do que SVM (support vector machines)
Pixels
RGB
32 pixels
32 pixels
32 x 32 = 1024 pixels
Laranja camisa Marrom boca
Azul calção Azul calca
Azul sapato Cinza sapato

0,1,1,1,0,0,1,0,1,0,0,1,1,1,0,0,0,0,1,0,0,1,1,1,0,9
0,1,1,1,0,0,1,0,0,0,0,1,1,1,0,0,1,0,1,0,0,1,1,1,0,6
Redes neurais densas x convolucionais
32 x 32 = 1.024 x 3 = 3.072 entradas
• Não usa todas as entradas (pixels)

• Usa uma rede neural tradicional, mas no começo transforma os dados na camada de
entrada
• Quais são as características mais importantes?
• Quais características utilizar?
• Para faces
• Localização do nariz
• Distância entre os olhos
• Localização da boca
• Como diferenciar uma face humana de um animal?
• CNN descobre as características
• Etapa 1 – Operador de convolução
• Etapa 2 – Pooling
• Etapa 3 – Flattening
• Etapa 4 – Rede neural densa
Etapa 1 – Operador de convolução
• Convolução é o processo de adicionar cada elemento da imagem
para seus vizinhos, ponderado por um kernel
• A imagem é uma matriz e o kernel é outra matriz
Fonte: https://en.wikipedia.org/wiki/Convolution
• Explicações sobre os kernels
• https://en.wikipedia.org/wiki/Kernel_(image_processing)
• Exemplo on-line
• http://setosa.io/ev/image-kernels/
0 0 0 0 0 0 0
0 1 0 0 0 1 0 0
0 0 0 0 0 0 0 1 0 0
0 0 0 1 0 1 1 X 1 0 1 =
0 1 0 1 1 0 0 0 1 1
0 1 0 1 1 0 1 Detector de características
0 1 0 0 0 1 1 (feature detector)
Mapa de características
Imagem (feature map)
0*1+0*0+0*0+0*1+1*0+0*1+0*0+0*1+0*1=0
0 0 0 0 0 0 0
0 1 0 0 0 1 0 0 1
0 0 0 0 0 0 0 1 0 0
0 0 0 1 0 1 1 X 1 0 1 =
0 1 0 1 1 0 0 0 1 1
0*1+0*0+0*0+1*1+0*0+0*1+0*0+0*1+0*1=1
0 0 0 0 0 0 0
0 1 0 0 0 1 0 0 1 0
0 0 0 0 0 0 0 1 0 0
0 0 0 1 0 1 1 X 1 0 1 =
0 1 0 1 1 0 0 0 1 1
0*1+0*0+0*0+0*1+0*0+0*1+0*0+0*1+0*1=0
0 0 0 0 0 0 0
0 1 0 0 0 1 0 0 1 0 1
0 0 0 0 0 0 0 1 0 0
0 0 0 1 0 1 1 X 1 0 1 =
0 1 0 1 1 0 0 0 1 1
0*1+0*0+0*0+0*1+0*0+1*1+0*0+0*1+0*1=1
0 0 0 0 0 0 0
0 1 0 0 0 1 0 0 1 0 1 0
0 0 0 0 0 0 0 1 0 0 0 2 1 1 2
0 0 0 1 0 1 1 X 1 0 1 = 1 2 2 3 1
0 1 0 1 1 0 0 0 1 1 1 3 3 3 2
(feature detector) 1 3 1 3 5
0 1 0 0 0 1 1 Mapa de características
1*1+0*0+0*0+1*1+0*0+1*1+0*0+1*1+1*1=5
• Com o mapa de características (filter map) a imagem fica menor para
facilitar o processamento
• Alguma informação sobre a imagem pode ser perdida, porém o
propósito é detectar as partes principais (quanto maior os números
melhor)
• O mapa de características preserva as características principais da
imagem (olho, boca, nariz, por exemplo)
Etapa 1 – Operador de convolução (Relu)
0 0 0 0 0 0 0
0 1 0 0 0 1 0 0 1 0 1 0
0 0 0 0 0 0 0 1 0 0 0 2 1 1 2
0 0 0 1 0 1 1 X 1 0 1 = 1 2 2 3 1
0 1 0 1 1 0 0 0 1 1 1 3 3 3 2
(feature detector)
1 3 1 3 5
0 1 0 0 0 1 1 Mapa de características
Camada de convolução
0 0 0 0 0 0 0 0 1 0 1 0
0 1 0 1 0
0 1 0 0 0 1 0 0 2 11 01 12 0
0
0 0 0 0 0 0 0 0 02 11 01 12 0
1 02 0220 1131 0110 121 0 0
0 0 0 1 0 1 1 1 02 220 131 110 21 0
1 13 0230 22032 13121 1101 212 0
0 1 0 1 1 0 0 1 13 230 2032 3121 101 12 0
1 13 1311 23032 23252 3213 111 2
0 1 0 1 1 0 1 1 13 311 3032 3252 213 11 2
1 13 311 332 352 23 1
0 1 0 0 0 1 1 1 13 311 332 352 23 1
1 13 31 33 35 2
Imagem 1 13 31 33 35 2
1 13 31 33 35 2
1 3 1 3 5
A rede decidirá qual detector de características que será utilizado 1 3 1 3 5
Camada de convolução é o conjunto de mapa de características Mapas de características
(feature maps)
Etapa 2 - Pooling
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2
1 2 2 3 1
1 3 3 3 2
1 3 1 3 5
(feature map)
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2 1
1 2 2 3 1
1 3 3 3 2
1 3 1 3 5
(feature map)
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2 1 2
1 2 2 3 1
1 3 3 3 2
1 3 1 3 5
(feature map)
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2 1 2
1 2 2 3 1 3
1 3 3 3 2
1 3 1 3 5
(feature map)
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2 1 2
1 2 2 3 1 3 3
1 3 3 3 2
1 3 1 3 5
(feature map)
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2 1 2
1 2 2 3 1 3 3 2
1 3 3 3 2
1 3 1 3 5
(feature map)
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2 1 2
1 2 2 3 1 3 3 2
1 3 3 3 2 3
1 3 1 3 5
(feature map)
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2 1 2
1 2 2 3 1 3 3 2
1 3 3 3 2 3 3
1 3 1 3 5
(feature map)
Etapa 2 – Pooling
0 1 0 1 0
0 2 1 1 2 2 1 2
1 2 2 3 1 3 3 2
1 3 3 3 2 3 3 5
1 3 1 3 5
(feature map)
Etapa 2 –Pooling
• Seleciona as características mais relevantes (reduz overfitting e
ruídos desnecessários)
• Max polling (mínimo, média): max foca nas características mais
relevantes
Rede neural convolucional (polling)
0 0 0 0 0 0 0 0 1 0 1 0
01 0 1 0 2 1 2
0 1 0 0 0 1 0 0 2 11 01 12 0
0
0 02 11 01 12 0 2
1 2
0 0 0 0 0 0 0 1 02 0220 1131 0110 121 0 0 3 3 12 2
2
1 02 220 131 110 21 0 3 23 12 2
0 0 0 1 0 1 1 1 13 0230 22032 13121 1101 212 0 3 33 2352 121 2 2
1 13 230 2032 3121 101 12 0 3 33 352 21 2
0 1 0 1 1 0 0 3 33 352 21 2
1 13 1311 23032 23252 3213 111 2 3 33 352 21 2
0 1 0 1 1 0 1 1 13 311 3032 3252 213 11 2 3 33 35 2
1 13 311 332 352 23 1 3 33 35 2
0 1 0 0 0 1 1 1 13 311 332 352 23 1 3 33 35 2
1 13 31 33 35 2 3 3 5
Imagem 1 13 31 33 35 2 3 3 5
1 13 31 33 35 2
1 3 1 3 5
1 3 1 3 5 Max pooling
Mapas de características
(feature maps)
Etapa 3 – Flattening
2
1
2
2 1 2
3
3 3 2
3
3 3 5
Pooled feature 2
map
3
3
5
Etapa 4 – Rede neural densa
0.9
0.8
0.1
0.2
0.1
0.1
0.2
0.1
0.7
0.9
0.1
0.2
0.9
0.2
0.3
0.9
0.6 65%
0.6 05%
0.2 30%
0.3
Rede neural convolucional
2
0 0 0 0 0 0 0 0 1 0 1 0
2 1 2
0 1 0 0 0 1 0 0
1 0 1 0
0 20 11 10 21 0 2 1 2 1
0 0 0 0 0 0 0 0 2 1 1 2 3 32 21 2
1 20 0220 1311 0 110 1 21 0 0 3 32 21 2 2
0 0 0 1 0 1 1
1 2 2 3 1 3 33 53
2 21 2
0 1 0 1 1 0 0 1 31 0320 20322 11231 10 11 21 2 0 3 33 53
1 3 3 03 12 0 1 0 3 33 2 5 21 2 3
0 1 0 1 1 0 1 1 31 113 2033 22503 3112 110 21 0 3 3
32
5
21 2
0 1 0 0 0 1 1 1 31 113 2033 22503 3112 110 21 0

3 32 21 2 3
3 33 53
1 31 1 13 2033 2253 31 2 11 2 2 21 2
Imagem 1 31 1 13 2033 2253 31 2 11 2
3 33 53 2 2
3 33 53
1 31 1 13 2 33 2 53 3 2 1 2
3 3 5 3
1 31 1 13 2 33 2 53 3 2 1
3 3 5
1 31 13 33 53 2 3
1 3 1 3 5
1 3 1 3 5 5
Treinamento com a descida do gradiente
Além do ajuste dos pesos, é feito também a mudança do detector de características

Conclusão

Redes Neurais Convolucionais

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Redes Neurais Convolucionais

Enviado por

Direitos autorais:

Formatos disponíveis

Redes neurais convolucionais

Azul calção Azul calca

Azul sapato Cinza sapato

32 x 32 = 1.024 x 3 = 3.072 entradas

• Não usa todas as entradas (pixels)

0 1 0 0 0 1 1 1 31 113 2033 22503 3112 110 21 0

Treinamento com a descida do gradiente

Além do ajuste dos pesos, é feito também a mudança do detector de características

Você também pode gostar