Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Sobre a disciplina
2. Sobre a avaliação
3. Dúvidas
Disciplina
● Aulas expositivas;
● Atividades práticas em laboratório;
● Lista de atividades;
● Avaliação 1 e 2;
● Projeto.
Avaliação
Etapas para
trabalhar com Data
Science
Machine Learning
● Inteligência Artificial Restrita ou Fraca: são projetadas para realizar tarefas específicas e
limitadas, como reconhecimento de voz, análise de dados, tradução automática ou
recomendação de produtos. Essas IAs não possuem consciência, autoconhecimento, a
capacidade de entender, ou aprender fora do escopo para o qual foram projetadas.
● Inteligência Artificial Geral ou Forte: é uma IA teórica capaz de realizar qualquer tarefa
intelectual que um ser humano possa fazer. Ela teria habilidades cognitivas semelhantes às
humanas, como raciocínio, aprendizado, planejamento, criatividade e compreensão
emocional. A IA geral poderia aprender, adaptar-se e aplicar seu conhecimento a uma ampla
variedade de tarefas.
Escala ordinal
● São valores que refletem ordem das categorias representadas, as operações aplicáveis é
de igual (==), menor (<), maior (>), maior ou igual (>=), menor ou igual (<=), diferente
(! =).
Exemplo: hierarquia militar ou avaliações qualitativas de temperatura.
Machine Learning
Escala Racional
● A escala racional carrega mais informações, tem significado absoluto e as operações que podem ser
aplicadas são as de igual (==), menor (<), maior (>), maior ou igual (>=), menor ou igual (<=), diferente
(! =), você ainda pode aplicar operações de adição, subtração, multiplicação e divisão.
Exemplo: Idade, peso e o número de internações.
Escala intervalar
● Os números variam em um intervalo, é possível definir ordem e diferença em magnitude entre dois
valores.
● As operações aplicáveis são =, <,>,>=, <=, !=, adição e subtração, mas não é aplicável, operação
multiplicação e divisão como era na escala racional.
Exemplo: Renda mensal de uma pessoa que pode ser quantitativo racional, número de palavras de um
texto também seria quantitativos racional, ou id.
Machine Learning
Machine Learning
Colab
- Criar notebook
- Importar dataset do google drive
- Exibir no colab o dataset, as colunas e os tipos de dados
https://colab.google/
https://colab.research.google.com/drive/1FvJ0vVXbNX6vyl4u7DE9CJkMwOfhHlx2
?usp=sharing
Machine Learning
Atividade prática
- Escolher 1 dataset no https://www.kaggle.com/datasets
- Identificar os tipos de atributos de cada coluna do dataset
escolhido
- Criar 1 no notebook no colab
- Importar o dataset
- Criar relatório
- Enviar link do relatório para mp.claudiany@gmail.com
Machine Learning
Media, Mediana e Moda
Vamos utilizar o módulo NumPy, ele possui um método mean() para isso.
Machine Learning
Média, Mediana e Moda
Para calcular a mediana, identifica o valor médio (intermediário).
Vamos utilizar o módulo NumPy, ele possui um método median() para encontrar o
valor médio.
Machine Learning
Média, Mediana e Moda
Para calcular a média, identifica qual é o valor que aparece o maior número de vezes.
Vamos utilizar o módulo SciPy, ele possui um método mode() para isso.
Machine Learning
Machine Learning
Atividade prática
- Usar o dataset
https://www.kaggle.com/datasets/ravindrasinghrana/employeedataset?select=emplo
yee_data.csv
- Escolher 3 coluna com valores numéricos do dataset
- Criar 1 no notebook no colab
- Importar o dataset
- Calcular a média, a mediana e a moda para as colunas escolhidas, fazer 1 calculo
para cada coluna.
- Compartilhar comigo pelo e-mail e enviar link do relatório para
mp.claudiany@gmail.com
Machine Learning
Desvio padrão e Variância
O desvio padrão é um número que descreve a distribuição dos valores, em outras
palavras, é um parâmetro que indica o grau de variação de um conjunto de elementos.
● Um desvio padrão baixo significa que a maioria dos números está próxima do
valor médio (médio).
● Um desvio padrão alto significa que os valores estão espalhados por uma faixa
mais ampla.
Para os valores
O que significa que a maioria dos valores está dentro da faixa de 37.8 do valor médio,
que é 77,4.
Machine Learning
Desvio padrão e Variância
● Um desvio padrão mais alto indica que os valores estão espalhados por uma faixa
mais ampla.
● Resposta: 43
○ Significa que 75% das pessoas têm 43 anos ou menos
Machine Learning
Valores estatísticos
Método df.describe()
O resultado do método df.describle() é um dataframe com dados de uma estatística
completa do array de dados.
Machine Learning
Valores estatísticos
Resultado
Machine Learning
Valores estatísticos
Especificando colunas
Resultado
Machine Learning
Machine Learning
Atividade prática
- Usar o dataset
https://www.kaggle.com/datasets/sakshigoyal7/credit-card-customers
- Utilizar a coluna de idade (Customer_Age) para calcular a média, a mediana, a
moda, o desvio padrão, a variância e percentile para 25, 50 e 75.
- Uma célula para cada função.
- Adicionar comentário sobre o que está sendo sendo feito.
- Criar 1 no notebook no colab
- Importar o dataset
- Compartilhar comigo pelo e-mail e enviar link do relatório para
mp.claudiany@gmail.com
Machine Learning
Estatísticas resumidas
Podemos utilizar o pandas para obter estatísticas resumidas através do método .describe()
Gráficos
Visualização de informações é fundamental na ciência de dados, auxiliando na
exposição de conteúdos e colaborando para a interpretação de problemas.
A visualização de dados, quando feita de modo assertivo, ajuda a resolver situações com
mais agilidade.
Através de gráficos, é possível comunicar efetivamente informações contidas em um
conjunto de dados, sejam eles simples ou complexos.
Machine Learning
Tipos de Gráficos
Vamos ver principais tipos de gráficos e como utilizá-los na ciência de
dados com a linguagem Python.
● Gráfico de linha
● Gráfico de barras
● Histograma
● Gráfico de Setores - Pizza
● Gráfico de dispersão
● Gráfico de caixa - Boxplot
● Gráfico de Mapa de Calor - Heatmap
● Gráfico de área
Machine Learning
Gráfico de Linha
O gráfico de linhas é composto por dois eixos (plano cartesiano), podendo possuir uma
ou mais linhas que mostram a variação (medidas ou quantidades numéricas) dos dados
no decorrer do tempo.
Esse modelo é ideal para visualizar a evolução de uma variável em um período, em
outras palavras, podemos utilizá-lo para analisar a tendência de vendas de um produto
durante o ano, preços de ações em determinada semana, ou entender o porquê uma
empresa vende mais chocolate em Abril do que em Setembro.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Barras
O gráfico de barras é exibido com dois eixos, possuindo barras que representam a
variação (medidas ou quantidades numéricas) dos dados, e por valores categóricos. Para
melhorar a visualização, as barras devem possuir a mesma largura e uma distância
constante entre elas.
São muito utilizados para fazer comparações entre categorias ou grupos. Por exemplo,
podemos comparar a popularidade de diferentes produtos ou a distribuição de vendas
por região de uma loja.
Machine Learning
Machine Learning
Machine Learning
Gráfico Histograma
O gráfico Histograma é formado por colunas verticais lado a lado, sem existir espaço entre
elas. As colunas são analisadas de modo que quanto mais alta, mais frequente é aquele
dado na amostra. Também possui eixos cartesianos e é amplamente utilizado em modelos
estatísticos.
Seu objetivo é baseado na visualização da distribuição de uma variável contínua,
permitindo entender a forma dessa distribuição e identificar outliers (dados que se
distanciam radicalmente dos demais), avaliando a simetria ou assimetria dos dados.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Setores - Pizza
Os gráficos de Setores são formados a partir de um círculo e divididos
proporcionalmente de acordo com os dados analisados.
Os valores são expressos em números ou percentuais. Geralmente, não se recomenda o
uso de três dimensões, afim de facilitar a visualização da informação.
Eles são utilizados para analisar a composição de um todo em termos de proporções.
Assim, podemos mostrar a distribuição de gastos de um orçamento ou a participação de
diferentes categorias em relação ao total.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Dispersão
Conhecidos como diagrama de disposição, gráfico de correlação ou Scatter. Esse modelo
é representado por eixos e pontos que podem estar mais agrupados ou dispersos. Ele é
formado por uma variável independente (causa), que é representada no eixo horizontal, e
outra dependente (consequência) no eixo vertical.
Ele é utilizado quando queremos explorar a relação entre duas variáveis numéricas, ou
seja, se existe padrões ou tendências entre variáveis analisadas.
Essa relação entre variáveis pode ser de três tipos:
● Correlação Negativa: Quando existe uma tendência de valores decrescentes
● Correlação Nula: Quando os pontos não seguem uma tendência
● Correlação Positiva: Quando existe uma tendência de valores crescentes
Machine Learning
Machine Learning
Machine Learning
Gráfico de Caixa - Boxplot
Esse gráfico é representado por uma caixa com os valores mínimos, máximos, primeiro
e terceiro quartis, mediana e outliers. Na parte central do gráfico, encontra-se os valores
da mediana, primeiro e terceiro quartil. As hastes inferior e superior representam os
intervalos mínimos e máximos, respectivamente.
Ele é utilizado para visualizar a distribuição de uma variável numérica, ele nos fornece
uma visão detalhada das estatísticas dos dados, facilitando principalmente a análise entre
quartis, mediana, amplitude e outliers.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Mapa de Calor - Heatmap
Esse gráfico é utilizado para representar uma matriz de dados através de cores. É
especialmente útil para visualizar a relação entre duas variáveis categóricas ou
numéricas, destacando padrões e tendências.
Esse modelo é muito utilizado, por exemplo, para rastrear o caminho percorrido do
usuário pelo mouse, afim de compreender seu comportamento em uma página de
conversão.
Machine Learning
Machine Learning
Machine Learning
Gráfico de Área
O gráfico de Área é formado por um conjunto de pontos que são ligados por uma linha,
tendo a área abaixo dela preenchida. Deste modo, deve-se analisar toda a área formada
entre o eixo e o ponto marcado durante o intervalo de tempo.
Ele é utilizado para visualizar a evolução de uma ou mais variáveis em um período. É
útil para mostrar tendências, oscilações e comparar a distribuição de diferentes variáveis.
Machine Learning
Machine Learning
Machine Learning
Gráficos
- Colab
https://colab.research.google.com/drive/1ZMFUK6pcMsP7oFqjG_1-Um7FNAQO
n3SU?usp=sharing
Machine Learning
Heurística é uma técnica utilizada para resolver problemas mais rapidamente quando
os métodos tradicionais são muito lentos ou para encontrar soluções aproximadas
quando os métodos tradicionais não são capazes de encontrar soluções exatas.
- Trocá-se a otimização, integridade, exatidão ou precisão por velocidade.
Machine Learning
● Uniforme
● Normal (Gaussiana)
● Right skewed
● Left skewed
Machine Learning
Distribuição de dados
Big data é um conjunto com quantidades grandes de dados que podem ser utilizados
para testes e na fase inicial de projetos.
https://colab.research.google.com/drive/1HjAPH6n8CoNF6M0mKHIQg8TPFphaV8Gp?usp=sharing
Machine Learning
Distribuição Uniforme
Para visualizar o conjunto de dados podemos desenhar um
histograma com os dados que coletamos.
Usaremos o módulo Python Matplotlib para desenhar um
histograma.
Machine Learning
Machine Learning
Resultado
Machine Learning
Gráfico Histograma explicado
Usamos o array com valores numéricos gerado aleatoriamente para desenhar um histograma com 5 barras.
Onde:
- A primeira barra representa quantos valores na matriz estão entre 0 e 1.
- A segunda barra representa quantos valores estão entre 1 e 2.
- A terceira barra representa quantos valores estão entre 2 e 3, e assim por diante.
Um gráfico de
distribuição normal
também é conhecido
como curva em sino
devido ao seu formato
característico de sino.
Machine Learning
Histograma explicado
Utilizamos o array gerado pelo método numpy.random.normal(), com
100.000 valores, para desenhar um histograma com 100 barras.
Especificamos que o valor médio é 5,0 e o desvio padrão é 1,0.
O que significa que os valores devem estar concentrados em torno de 5,0 e
raramente mais distantes que 1,0 da média.
E como você pode ver no histograma, a maioria dos valores está entre 4,0 e
6,0, com um máximo em aproximadamente 5,0.
Machine Learning
Gráfico de dispersão
É um diagrama onde cada valor no conjunto de dados é representado
por um ponto.
O módulo Matplotlib possui um método para desenhar gráficos de
dispersão, ele precisa de dois arrays do mesmo comprimento, um
para os valores do eixo x e outro para os valores do eixo y.
O método scatter() é usado para desenhar um diagrama de
dispersão.
Machine Learning
Machine Learning
Machine Learning
Gráfico de dispersão explicado
O eixo x representa idades e o eixo y representa velocidades.
O que podemos entender no diagrama é que os dois carros mais
rápidos tinham ambos 2 anos e o carro mais lento tinha 12 anos.
Pelo que vemos, quanto mais novo o carro, mais rápido ele anda,
mas isso pode ser coincidência, afinal registramos apenas 13 carros.
Machine Learning
Machine Learning
Atividade prática
No Machine Learning, os conjuntos de dados podem conter milhares ou até milhões
de valores.
Vamos criar duas matrizes preenchidas com 1.000 números aleatórios de uma
distribuição normal de dados.
● A primeira matriz terá a média definida como 5,0 com desvio padrão de 1,0.
● A segunda matriz terá a média definida como 10,0 com um desvio padrão de
2,0.
● Exibir o gráfico de dispersão dos arrays gerados.
Machine Learning
Machine Learning
Resultado
Machine Learning
Gráfico de dispersão explicado
Podemos ver que os pontos estão concentrados em torno
do valor 5 no eixo x e 10 no eixo y.
Também podemos ver que o spread é maior no eixo y do
que no eixo x.
Machine Learning
Distribuição binomial
A distribuição binomial é uma distribuição discreta.
Ela descreve o resultado de cenários binários, por exemplo, no lançamento de uma moeda,
será cara ou coroa.
Possui três parâmetros:
● N - número de tentativas.
● P - probabilidade de ocorrência de cada tentativa (por exemplo, para lançamento de
moeda 0,5 cada).
● Size - A forma da matriz retornada.
Machine Learning
Distribuição Discreta
https://colab.research.google.com/drive/1HjAPH6n8CoNF
6M0mKHIQg8TPFphaV8Gp?usp=sharing
Machine Learning
Referências
● https://harve.com.br/blog/data-science-blog/o-que-e-data-science-guia-iniciantes/
● https://hotmart.com/pt-br/blog/o-que-e-data-science
● https://medium.com/@get_excelsior/big-data-explained-the-5v-s-of-data-ae80cbe8ded1
● https://github.com/mattharrison/ml_pocket_reference
● https://medium.com/brasil-ai/antes-de-come%C3%A7armos-a-falar-sobre-tipos-de-aprendizados-que-veremos
-no-pr%C3%B3ximo-artigo-%C3%A9-ea5b04685913
● https://medium.com/brasil-ai/o-que-%C3%A9-machine-learning-94cc71c2a6e3
● https://www.linkedin.com/pulse/voc%C3%AA-sabe-diferen%C3%A7a-entre-heur%C3%ADstica-meta-heur%
C3%ADstica-e-alexandria/?originalSubdomain=pt
● https://www.dio.me/articles/8-graficos-fundamentais-para-data-science-utilizando-python
●