Você está na página 1de 126

Bem vindos!

MACHINE LEARNING - Prof. Claudiany


Agenda

1. Sobre a disciplina
2. Sobre a avaliação
3. Dúvidas
Disciplina

Os principais tópicos a serem ministrados são:


● Conceitos de Data Science, Big Data, Inteligencia Artificial e
Machine Learning;
● Fundamentos de Machine Learning;
● Computação Natural;
● Métodos paramétricos e não paramétricos;
● Conceitos de redução de dimensionalidade e Clustering;
● Árvores de Decisão e Redes Neurais;
● Aprendizagem por Reforço.
Disciplina

● Aulas expositivas;
● Atividades práticas em laboratório;
● Lista de atividades;
● Avaliação 1 e 2;
● Projeto.
Avaliação

Os critérios de aprovação/reprovação são:


● Média Parcial maior ou igual a 7,0 (sete) => APROVADO
● Média Parcial menor a 7,0 (sete) ou maior ou igual a 4,0 (quatro) =>
AVALIAÇÃO FINAL
● Média Parcial menor a 4,0 (quatro) => REPROVADO
Os critérios de aprovação/reprovação para quem está em AVALIAÇÃO FINAL:
● Média Final maior ou igual a 5,0 (cinco) => APROVADO
● Média Final menor a 5,0 (cinco) => REPROVADO
Dúvidas
MACHINE LEARNING
Machine Learning

➔ Sabem como um computador


planeja uma rota em um GPS? E a
melhor rota para você?
➔ Sabem como os apps de Streams
escolhem os filmes indicados para
vocês?
Machine Learning

➔ O que é Data Science?


➔ O que é Big Data?
➔ O que é Inteligência Artificial?
➔ Como funciona uma IA?
➔ Quais os tipos de IA?
➔ O que é Machine Learning?
Machine Learning

O que é Data Science?

É uma ciência que estuda as informações, seu processo


de captura, transformação, geração e, posteriormente,
análise de dados.
Machine Learning
Data Science envolve diversas áreas como:
Machine Learning
Ciclo de vida do Data Science:
Machine Learning

Etapas para
trabalhar com Data
Science
Machine Learning

O que é Big Data?


Big Data refere-se a um grande conjunto de dados
armazenados.
E pode-se basear em 5V’s: Velocidade, Volume, Variedade,
Veracidade e Valor.
Machine Learning
Machine Learning

O que é Inteligência Artificial (IA)?


É uma área da ciência da computação que permite que
máquinas e dispositivos eletrônicos realizem tarefas que
antes eram exclusivas dos seres humanos. E não apenas
tarefas mecânicas, mas também tarefas que exigiam a
atuação de profissionais especializados.
Machine Learning
Podemos dividir a IA em três categorias principais, são elas:

● Inteligência Artificial Restrita ou Fraca: são projetadas para realizar tarefas específicas e
limitadas, como reconhecimento de voz, análise de dados, tradução automática ou
recomendação de produtos. Essas IAs não possuem consciência, autoconhecimento, a
capacidade de entender, ou aprender fora do escopo para o qual foram projetadas.

● Inteligência Artificial Geral ou Forte: é uma IA teórica capaz de realizar qualquer tarefa
intelectual que um ser humano possa fazer. Ela teria habilidades cognitivas semelhantes às
humanas, como raciocínio, aprendizado, planejamento, criatividade e compreensão
emocional. A IA geral poderia aprender, adaptar-se e aplicar seu conhecimento a uma ampla
variedade de tarefas.

● Inteligência Artificial Superinteligente: é hipotética e se refere a uma IA muito mais


avançada e capaz do que a inteligência humana em todos os aspectos intelectuais. Uma IA
super inteligente seria capaz de superar os humanos em habilidades de aprendizado,
raciocínio, criatividade, adaptação e solução de problemas.
Machine Learning

Quais tipos de tarefas pode envolver IA?


Machine Learning

Tipos de tarefas pode envolver IA


● Aprendizado;
● Raciocínio;
● Percepção;
● Compreensão e geração de linguagem natural;
● Reconhecimento de voz e imagem;
● Tomada de decisão; e
● Resolução de problemas complexos.
Machine Learning

Como funciona a Inteligência Artificial (IA)?

Existem diversas técnicas e algoritmos para se ensinar


uma máquina a realizar uma tarefa. Na maior parte dos
casos, quando ouvimos falar de IA, estamos falando de
algoritmos de Machine Learning.
Machine Learning
O que é Machine Learning?
É uma sub-área da inteligência artificial que estuda o reconhecimento de padrões
através dos dados. Como exemplos, temos:
● Os algoritmos supervisionados, onde a ideia principal é que, após um
processo que chamamos de treinamento, seja construído um modelo capaz de
fazer uma conexão entre um tipo de entrada desejada com uma saída desejada.
● Os algoritmos não supervisionados que recebem dados sem informações de
uma saída desejada e são capazes de identificar padrões.
● O aprendizado por reforço onde os algoritmos aprendem a tomar decisões
através da interação com um ambiente, recebendo feedback na forma de
recompensas ou punições.
Machine Learning

Por que utilizar Machine Learning?

O aprendizado de máquina é utilizado para melhorar processos,


produtos e serviços. Isso é possível porque aprendemos com os dados
que coletamos.

Na prática, ao invés de implementarmos heurísticas simples, podemos


treinar algoritmos, testar, validar contra modelos de base e colocá-los
em produção, medindo o resultado de nossos modelos.
Machine Learning
Fundamentos de ML - Tipos de Aprendizado de Máquina

● Aprendizado Supervisionado: dados um arranjo de features (atributos) e


labels (resultados) associados, treina-se o agente para predizer a
melhor saída para uma nova feature.
● Aprendizado Não Supervisionado: dado um arranjo de features, sem os
respectivos labels, descobrem-se padrões dentro desse arranjo.
● Aprendizado Semi-Supervisionado: dados um arranjo de features e uma
quantidade limitada de resultados associados, treina-se o agente para
predizer resultados para as demais features.
● Aprendizado Por Reforço: dado um objetivo, treina-se um agente
artificial, via tentativa e erro, sem o auxílio de operador humano.
Machine Learning
Fundamentos de ML - Técnicas para Aprendizado de Máquina
• Linear Regression
• Dense Neural Networks
• Support Vector Machines
• Naive Bayes
• Decision Trees
• Convolutional Networks
• Recurrent Neural Networks
• Attention Networks
• Bidirectional Transformers
Machine Learning
Dataset
- São conjuntos de
dados são o principal
insumo dos processos de
análise de dados.
- São representados
por dados tabulares
com linhas e colunas
que contém
informações sobre
determinado tema.
- Cada coluna em um
dataset é um atributo.
Machine Learning
Tipos de dados no dataset
Machine Learning
Atributos quantitativos contínuos ou discretos

● Atributos discretos representam um número finito de valores.

Exemplo: idade e número de internações.

● Quantitativo contínuo podem assumir um número infinito de valores, geralmente


usado na medida, são representados por números real (quebrado).

Exemplo: peso e temperatura.


Machine Learning
Atributos qualitativos (ou categóricos)
● São atributos qualitativos, também chamados de simbólicos ou categóricos, eles
representam qualidades, esses valores podem ser associados a categorias, alguns podem
ser ordenados, mas operações aritméticas não são aplicáveis.
Exemplo: sexo e o estado também são qualitativos.

Atributos quantitativos (ou numéricos)


● Os atributos quantitativos são valores que representam quantidades e consegue-se
aplicar operações aritméticas neles (consegue usá-los em cálculos).
Exemplo: o número de internações é a quantidade de vezes que um paciente foi internado.
Machine Learning
Machine Learning
Para o nosso exemplo vamos usar uma base de dados de um hospital.
Dentro dessa base de dados, cada coluna corresponde a uma característica de um paciente.
Id - Identificador numérico inteiro
Nome - Identificador NÃO único (Nome do paciente repetível)
Idade - Dado numérico (inteiro)
Sexo - Dado classificatório de cada pessoa M/F/O(Sigla)
Peso - Dado numérica (reais)
Manchas - Dado classificatório (Concentradas, Inexistente, Espalhadas e Uniforme)
Temperatura - Dado numérico (real)
Internações - Dado numérico (inteiro)
Estado - Dado classificatório (Sigla)
Diagnóstico - Dado de saída/classe com base nas informações acima (doente e saudável)
Machine Learning
Escala de atributos - define as operações que podem ser realizadas sobre os valores dos
atributos, e podem ser:

● Nominais -> Qualitativos


● Ordinais -> Qualitativos
● Intervalar -> Quantitativos
● Racional -> Quantitativos
Machine Learning
Machine Learning
Escala nominal
● São valores diferentes e carregam a menor quantidade de informação possível, não
existe relação de ordem entre os valores, as operações aplicáveis são:
Igual (==) ou diferente (! =)
Exemplo: Número de conta em banco, cores e sexo

Escala ordinal
● São valores que refletem ordem das categorias representadas, as operações aplicáveis é
de igual (==), menor (<), maior (>), maior ou igual (>=), menor ou igual (<=), diferente
(! =).
Exemplo: hierarquia militar ou avaliações qualitativas de temperatura.
Machine Learning
Escala Racional
● A escala racional carrega mais informações, tem significado absoluto e as operações que podem ser
aplicadas são as de igual (==), menor (<), maior (>), maior ou igual (>=), menor ou igual (<=), diferente
(! =), você ainda pode aplicar operações de adição, subtração, multiplicação e divisão.
Exemplo: Idade, peso e o número de internações.

Escala intervalar
● Os números variam em um intervalo, é possível definir ordem e diferença em magnitude entre dois
valores.
● As operações aplicáveis são =, <,>,>=, <=, !=, adição e subtração, mas não é aplicável, operação
multiplicação e divisão como era na escala racional.
Exemplo: Renda mensal de uma pessoa que pode ser quantitativo racional, número de palavras de um
texto também seria quantitativos racional, ou id.
Machine Learning
Machine Learning
Colab

- Criar notebook
- Importar dataset do google drive
- Exibir no colab o dataset, as colunas e os tipos de dados

https://colab.google/

https://colab.research.google.com/drive/1FvJ0vVXbNX6vyl4u7DE9CJkMwOfhHlx2
?usp=sharing
Machine Learning
Atividade prática
- Escolher 1 dataset no https://www.kaggle.com/datasets
- Identificar os tipos de atributos de cada coluna do dataset
escolhido
- Criar 1 no notebook no colab
- Importar o dataset
- Criar relatório
- Enviar link do relatório para mp.claudiany@gmail.com
Machine Learning
Media, Mediana e Moda

Existem três valores que nos interessam:

● Média - O valor médio


● Mediana - O valor intermediário
● Modo - O valor mais comum

Material da aula prática:


https://colab.research.google.com/drive/1FvJ0vVXbNX6vyl4u7DE9CJkMwOfhHlx2?usp=sharing
Machine Learning
Média, Mediana e Moda
Para calcular a média, realizá-se a soma de todos os valores e divide a soma pelo
número de valores.

Vamos utilizar o módulo NumPy, ele possui um método mean() para isso.
Machine Learning
Média, Mediana e Moda
Para calcular a mediana, identifica o valor médio (intermediário).

Vamos utilizar o módulo NumPy, ele possui um método median() para encontrar o
valor médio.
Machine Learning
Média, Mediana e Moda
Para calcular a média, identifica qual é o valor que aparece o maior número de vezes.

Vamos utilizar o módulo SciPy, ele possui um método mode() para isso.
Machine Learning
Machine Learning
Atividade prática
- Usar o dataset
https://www.kaggle.com/datasets/ravindrasinghrana/employeedataset?select=emplo
yee_data.csv
- Escolher 3 coluna com valores numéricos do dataset
- Criar 1 no notebook no colab
- Importar o dataset
- Calcular a média, a mediana e a moda para as colunas escolhidas, fazer 1 calculo
para cada coluna.
- Compartilhar comigo pelo e-mail e enviar link do relatório para
mp.claudiany@gmail.com
Machine Learning
Desvio padrão e Variância
O desvio padrão é um número que descreve a distribuição dos valores, em outras
palavras, é um parâmetro que indica o grau de variação de um conjunto de elementos.

● Um desvio padrão baixo significa que a maioria dos números está próxima do
valor médio (médio).

● Um desvio padrão alto significa que os valores estão espalhados por uma faixa
mais ampla.

Material da aula prática:


https://colab.research.google.com/drive/16JrVGzHZ6k8p68DU9h_VuZuXGYAynBjP?usp=sharing
Machine Learning
Desvio padrão e Variância

Para os valores

O desvio padrão é 37.8

O que significa que a maioria dos valores está dentro da faixa de 37.8 do valor médio,
que é 77,4.
Machine Learning
Desvio padrão e Variância
● Um desvio padrão mais alto indica que os valores estão espalhados por uma faixa
mais ampla.

● O módulo NumPy possui o método std() para calcular o desvio padrão


Machine Learning
Desvio padrão e Variância
A variação é outra forma de identificar quão distribuídos estão os valores.

- Se você tirar a raiz quadrada da variância, obterá o desvio padrão!

- Se você multiplicar o desvio padrão por ele mesmo, obtém a variância!

Para calcular a variância deve-se:


1. Encontre a média
2. Para cada valor, encontre a diferença da média
3. Para cada diferença, encontre o valor quadrado
4. A variância é o número médio destas diferenças quadradas
Machine Learning
Desvio padrão e Variância
- Encontre a média

- Para cada valor, encontre a diferença da média


Machine Learning
Desvio padrão e Variância
- Para cada diferença, encontre o valor quadrado

- A variância é o número médio destas diferenças quadradas


Machine Learning
Desvio padrão e Variância

● O módulo NumPy possui o método var() para calcular a variância


Machine Learning
Percentis
Os percentis são usados em estatísticas para fornecer um número que mostra o valor ao
qual uma determinada porcentagem dos valores é inferior.

● Quando perguntamos qual é o percentil de um array, queremos como resposta um


valor que significa o % dos itens do array que tem o valor retornado ou menos.
Machine Learning
Percentis

● O módulo NumPy possui o método percentile() para calcular o percentil


especificado
Machine Learning
Percentis
● Qual é a idade em que 75% das pessoas são mais jovens?

● Resposta: 43
○ Significa que 75% das pessoas têm 43 anos ou menos
Machine Learning
Valores estatísticos
Método df.describe()
O resultado do método df.describle() é um dataframe com dados de uma estatística
completa do array de dados.
Machine Learning
Valores estatísticos
Resultado
Machine Learning
Valores estatísticos
Especificando colunas

Resultado
Machine Learning
Machine Learning
Atividade prática
- Usar o dataset
https://www.kaggle.com/datasets/sakshigoyal7/credit-card-customers
- Utilizar a coluna de idade (Customer_Age) para calcular a média, a mediana, a
moda, o desvio padrão, a variância e percentile para 25, 50 e 75.
- Uma célula para cada função.
- Adicionar comentário sobre o que está sendo sendo feito.
- Criar 1 no notebook no colab
- Importar o dataset
- Compartilhar comigo pelo e-mail e enviar link do relatório para
mp.claudiany@gmail.com
Machine Learning
Estatísticas resumidas
Podemos utilizar o pandas para obter estatísticas resumidas através do método .describe()

Gráficos
Visualização de informações é fundamental na ciência de dados, auxiliando na
exposição de conteúdos e colaborando para a interpretação de problemas.
A visualização de dados, quando feita de modo assertivo, ajuda a resolver situações com
mais agilidade.
Através de gráficos, é possível comunicar efetivamente informações contidas em um
conjunto de dados, sejam eles simples ou complexos.
Machine Learning
Tipos de Gráficos
Vamos ver principais tipos de gráficos e como utilizá-los na ciência de
dados com a linguagem Python.
● Gráfico de linha
● Gráfico de barras
● Histograma
● Gráfico de Setores - Pizza
● Gráfico de dispersão
● Gráfico de caixa - Boxplot
● Gráfico de Mapa de Calor - Heatmap
● Gráfico de área
Machine Learning
Gráfico de Linha
O gráfico de linhas é composto por dois eixos (plano cartesiano), podendo possuir uma
ou mais linhas que mostram a variação (medidas ou quantidades numéricas) dos dados
no decorrer do tempo.
Esse modelo é ideal para visualizar a evolução de uma variável em um período, em
outras palavras, podemos utilizá-lo para analisar a tendência de vendas de um produto
durante o ano, preços de ações em determinada semana, ou entender o porquê uma
empresa vende mais chocolate em Abril do que em Setembro.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Barras
O gráfico de barras é exibido com dois eixos, possuindo barras que representam a
variação (medidas ou quantidades numéricas) dos dados, e por valores categóricos. Para
melhorar a visualização, as barras devem possuir a mesma largura e uma distância
constante entre elas.
São muito utilizados para fazer comparações entre categorias ou grupos. Por exemplo,
podemos comparar a popularidade de diferentes produtos ou a distribuição de vendas
por região de uma loja.
Machine Learning
Machine Learning
Machine Learning
Gráfico Histograma
O gráfico Histograma é formado por colunas verticais lado a lado, sem existir espaço entre
elas. As colunas são analisadas de modo que quanto mais alta, mais frequente é aquele
dado na amostra. Também possui eixos cartesianos e é amplamente utilizado em modelos
estatísticos.
Seu objetivo é baseado na visualização da distribuição de uma variável contínua,
permitindo entender a forma dessa distribuição e identificar outliers (dados que se
distanciam radicalmente dos demais), avaliando a simetria ou assimetria dos dados.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Setores - Pizza
Os gráficos de Setores são formados a partir de um círculo e divididos
proporcionalmente de acordo com os dados analisados.
Os valores são expressos em números ou percentuais. Geralmente, não se recomenda o
uso de três dimensões, afim de facilitar a visualização da informação.
Eles são utilizados para analisar a composição de um todo em termos de proporções.
Assim, podemos mostrar a distribuição de gastos de um orçamento ou a participação de
diferentes categorias em relação ao total.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Dispersão
Conhecidos como diagrama de disposição, gráfico de correlação ou Scatter. Esse modelo
é representado por eixos e pontos que podem estar mais agrupados ou dispersos. Ele é
formado por uma variável independente (causa), que é representada no eixo horizontal, e
outra dependente (consequência) no eixo vertical.
Ele é utilizado quando queremos explorar a relação entre duas variáveis numéricas, ou
seja, se existe padrões ou tendências entre variáveis analisadas.
Essa relação entre variáveis pode ser de três tipos:
● Correlação Negativa: Quando existe uma tendência de valores decrescentes
● Correlação Nula: Quando os pontos não seguem uma tendência
● Correlação Positiva: Quando existe uma tendência de valores crescentes
Machine Learning
Machine Learning
Machine Learning
Gráfico de Caixa - Boxplot
Esse gráfico é representado por uma caixa com os valores mínimos, máximos, primeiro
e terceiro quartis, mediana e outliers. Na parte central do gráfico, encontra-se os valores
da mediana, primeiro e terceiro quartil. As hastes inferior e superior representam os
intervalos mínimos e máximos, respectivamente.
Ele é utilizado para visualizar a distribuição de uma variável numérica, ele nos fornece
uma visão detalhada das estatísticas dos dados, facilitando principalmente a análise entre
quartis, mediana, amplitude e outliers.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Mapa de Calor - Heatmap
Esse gráfico é utilizado para representar uma matriz de dados através de cores. É
especialmente útil para visualizar a relação entre duas variáveis categóricas ou
numéricas, destacando padrões e tendências.
Esse modelo é muito utilizado, por exemplo, para rastrear o caminho percorrido do
usuário pelo mouse, afim de compreender seu comportamento em uma página de
conversão.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Área
O gráfico de Área é formado por um conjunto de pontos que são ligados por uma linha,
tendo a área abaixo dela preenchida. Deste modo, deve-se analisar toda a área formada
entre o eixo e o ponto marcado durante o intervalo de tempo.
Ele é utilizado para visualizar a evolução de uma ou mais variáveis em um período. É
útil para mostrar tendências, oscilações e comparar a distribuição de diferentes variáveis.
Machine Learning
Machine Learning
Machine Learning

Gráficos

- Colab
https://colab.research.google.com/drive/1ZMFUK6pcMsP7oFqjG_1-Um7FNAQO
n3SU?usp=sharing
Machine Learning

Heurística, Meta-Heurística e Híper-heurística

Heurística é uma técnica utilizada para resolver problemas mais rapidamente quando
os métodos tradicionais são muito lentos ou para encontrar soluções aproximadas
quando os métodos tradicionais não são capazes de encontrar soluções exatas.
- Trocá-se a otimização, integridade, exatidão ou precisão por velocidade.
Machine Learning

Heurística, Meta-Heurística e Híper-heurística

Meta-heurística é um conjunto de estratégias genéricas utilizado para construir


esqueletos (bases) de algoritmos com o objetivo de resolver diferentes problemas.
- Com uma estrutura genérica e com poucas modificações, é possível adaptá-la para
resolver um problema específico.
Machine Learning

Heurística, Meta-Heurística e Híper-heurística

Hiper-heurística tem o objetivo de facilitar a utilização de diversos métodos


heurísticos para construir algoritmos bem definidos capazes de obter sucesso na
resolução de problemas específicos.
Machine Learning
Algoritmos

● Algoritmo Busca Tabu


● Algoritmos Genéricos
● Algoritmo Path Relinking
● Algoritmo de Local Branching
● Algoritmo inserção do mais próximo
● Algoritmo inserção do mais barato
Machine Learning
Machine Learning
Vale 2.5 na AV2
Formar grupo de 5 a 6 pessoas
Escolher um dos algoritmos no slide 89
Apresentar dia 08/11
- Todos no grupo devem falar
- Preparar apresentação, onde deverão:
- Explicar como o algoritmo funciona
- Explicar um exemplo prático
- Explicar quais os recursos que uma arquitetura precisa para esse
algoritmo funcionar em produção
Machine Learning
Distribuição de dados
Os dados na saúde podem ter basicamente 4 tipos de distribuição:

● Uniforme
● Normal (Gaussiana)
● Right skewed
● Left skewed
Machine Learning
Distribuição de dados
Big data é um conjunto com quantidades grandes de dados que podem ser utilizados
para testes e na fase inicial de projetos.

Como podemos obter conjuntos de dados, seja Big Data ou não?


- Usar módulos Python como NumPy (possui vários métodos para nos ajudar a criar
conjuntos de dados aleatórios)
- Usar datasets
Machine Learning
Distribuição Uniforme
A distribuição uniforme é a distribuição de probabilidades
contínua mais simples de conceituar.
No modelo uniforme, a probabilidade de gerar qualquer ponto
em um intervalo contido no espaço amostral é proporcional ao
tamanho do intervalo.
Machine Learning
Distribuição Uniforme
Usada para descrever a probabilidade em que cada evento tem chances iguais de ocorrer.
Por exemplo, geração de números aleatórios.
Possui três parâmetros:
● a - limite inferior - padrão 0 .0.
● b - limite superior - padrão 1.0.
● size - A forma da matriz retornada.
Machine Learning

https://colab.research.google.com/drive/1HjAPH6n8CoNF6M0mKHIQg8TPFphaV8Gp?usp=sharing
Machine Learning
Distribuição Uniforme
Para visualizar o conjunto de dados podemos desenhar um
histograma com os dados que coletamos.
Usaremos o módulo Python Matplotlib para desenhar um
histograma.
Machine Learning
Machine Learning
Resultado
Machine Learning
Gráfico Histograma explicado

Usamos o array com valores numéricos gerado aleatoriamente para desenhar um histograma com 5 barras.

Onde:
- A primeira barra representa quantos valores na matriz estão entre 0 e 1.
- A segunda barra representa quantos valores estão entre 1 e 2.
- A terceira barra representa quantos valores estão entre 2 e 3, e assim por diante.

O que nos dá este resultado:

52 valores estão entre 0 e 1


48 valores estão entre 1 e 2
49 valores estão entre 2 e 3
51 valores estão entre 3 e 4
50 valores estão entre 4 e 5
Machine Learning
Distribuições de Big Data

Vamos criar um conjunto aleatório de valores e, alterando


os parâmetros, podemos criar o conjunto de dados do
tamanho que desejar e representar um conjunto big data.
Machine Learning
Machine Learning
Distribuição normal de dados

Vamos aprender como criar um array onde os valores


estão concentrados em torno de um determinado valor.

Na teoria das probabilidades, esse tipo de distribuição de


dados é conhecido como distribuição normal de dados ,
ou distribuição gaussiana de dados.
Machine Learning
Machine Learning
Vamos criar uma distribuição normal típica de dados
utilizando o módulo NumPy.
Machine Learning

Um gráfico de
distribuição normal
também é conhecido
como curva em sino
devido ao seu formato
característico de sino.
Machine Learning
Histograma explicado
Utilizamos o array gerado pelo método numpy.random.normal(), com
100.000 valores, para desenhar um histograma com 100 barras.
Especificamos que o valor médio é 5,0 e o desvio padrão é 1,0.
O que significa que os valores devem estar concentrados em torno de 5,0 e
raramente mais distantes que 1,0 da média.
E como você pode ver no histograma, a maioria dos valores está entre 4,0 e
6,0, com um máximo em aproximadamente 5,0.
Machine Learning
Gráfico de dispersão
É um diagrama onde cada valor no conjunto de dados é representado
por um ponto.
O módulo Matplotlib possui um método para desenhar gráficos de
dispersão, ele precisa de dois arrays do mesmo comprimento, um
para os valores do eixo x e outro para os valores do eixo y.
O método scatter() é usado para desenhar um diagrama de
dispersão.
Machine Learning
Machine Learning
Machine Learning
Gráfico de dispersão explicado
O eixo x representa idades e o eixo y representa velocidades.
O que podemos entender no diagrama é que os dois carros mais
rápidos tinham ambos 2 anos e o carro mais lento tinha 12 anos.
Pelo que vemos, quanto mais novo o carro, mais rápido ele anda,
mas isso pode ser coincidência, afinal registramos apenas 13 carros.
Machine Learning
Machine Learning
Atividade prática
No Machine Learning, os conjuntos de dados podem conter milhares ou até milhões
de valores.
Vamos criar duas matrizes preenchidas com 1.000 números aleatórios de uma
distribuição normal de dados.
● A primeira matriz terá a média definida como 5,0 com desvio padrão de 1,0.
● A segunda matriz terá a média definida como 10,0 com um desvio padrão de
2,0.
● Exibir o gráfico de dispersão dos arrays gerados.
Machine Learning
Machine Learning
Resultado
Machine Learning
Gráfico de dispersão explicado
Podemos ver que os pontos estão concentrados em torno
do valor 5 no eixo x e 10 no eixo y.
Também podemos ver que o spread é maior no eixo y do
que no eixo x.
Machine Learning
Distribuição binomial
A distribuição binomial é uma distribuição discreta.
Ela descreve o resultado de cenários binários, por exemplo, no lançamento de uma moeda,
será cara ou coroa.
Possui três parâmetros:
● N - número de tentativas.
● P - probabilidade de ocorrência de cada tentativa (por exemplo, para lançamento de
moeda 0,5 cada).
● Size - A forma da matriz retornada.
Machine Learning
Distribuição Discreta

A distribuição é definida em um conjunto separado de eventos, por exemplo, o resultado do


lançamento de uma moeda é discreto, pois pode ser apenas cara ou coroa, enquanto a altura
das pessoas é contínua, pois pode ser 170, 170.1, 170.2 e assim por diante.

Dadas 10 tentativas de lançamento de moeda, gere 10 pontos de dados:


Machine Learning
Visualização da distribuição binomial
Machine Learning
Machine Learning
Diferença entre distribuição normal e binomial

A principal diferença é que a distribuição normal é


contínua, enquanto a binomial é discreta, mas se houver
pontos de dados suficientes, será bastante semelhante à
distribuição normal com determinados locais e escalas.
Machine Learning
Machine Learning
Machine Learning
Colab das aulas práticas

https://colab.research.google.com/drive/1HjAPH6n8CoNF
6M0mKHIQg8TPFphaV8Gp?usp=sharing
Machine Learning
Referências
● https://harve.com.br/blog/data-science-blog/o-que-e-data-science-guia-iniciantes/
● https://hotmart.com/pt-br/blog/o-que-e-data-science
● https://medium.com/@get_excelsior/big-data-explained-the-5v-s-of-data-ae80cbe8ded1
● https://github.com/mattharrison/ml_pocket_reference
● https://medium.com/brasil-ai/antes-de-come%C3%A7armos-a-falar-sobre-tipos-de-aprendizados-que-veremos
-no-pr%C3%B3ximo-artigo-%C3%A9-ea5b04685913
● https://medium.com/brasil-ai/o-que-%C3%A9-machine-learning-94cc71c2a6e3
● https://www.linkedin.com/pulse/voc%C3%AA-sabe-diferen%C3%A7a-entre-heur%C3%ADstica-meta-heur%
C3%ADstica-e-alexandria/?originalSubdomain=pt
● https://www.dio.me/articles/8-graficos-fundamentais-para-data-science-utilizando-python

Você também pode gostar