Você está na página 1de 8

SUPERIOR DE TECNOLOGIA EM CIÊNCIA DE DADOS

ADRIANO PEREIRA DA SILVA

PROJETO INTEGRADO III

Camaçari-BA
2023
ADRIANO PEREIRA DA SILVA

PROJETO INTEGRADO III

Trabalho apresentado ao Curso superior de tecnologia


em ciência de dados da UNOPAR - Universidade Norte
do Paraná, para a disciplina Projeto Integrado I.

Orientador: Prof. Gian Carlo Decarli

Camaçari-BA
2023
TAREFA 1
O aprendizado supervisionado é a tarefa de aprendizado de máquina que consiste
em aprender uma função que mapeia uma entrada para uma saída com base em
pares de entrada-saída de exemplo. os algoritmos supervisionados podem ser
subdivididos em algoritmos de classificação e algoritmos de regressão. sobre este
assunto, descreva as características destes algoritmos e cite algoritmos que utilizem
estas técnicas.

O aprendizado supervisionado é uma abordagem comum em aprendizado de


máquina, onde um algoritmo é treinado para mapear entradas para saídas com base
em exemplos de treinamento previamente rotulados. Esses exemplos de
treinamento consistem em pares de entrada-saída, onde a saída desejada (rótulo) é
conhecida. Os algoritmos de aprendizado supervisionado podem ser divididos em
duas categorias principais: classificação e regressão, cada uma com suas
características distintas.

Algoritmos de Classificação:

Características: Algoritmos de classificação são usados quando a saída desejada é


uma categoria ou classe discreta. Eles se concentram em dividir o espaço de
entrada em regiões distintas, onde cada região corresponde a uma classe.
Exemplos de Algoritmos de Classificação:
 Regressão Logística: É um método de classificação que modela a
probabilidade de um evento pertencer a uma classe.
 Árvores de Decisão: Representam uma estrutura de árvore em que cada nó
interno corresponde a um teste em um atributo, e as folhas correspondem a
classes.
 Máquinas de Vetores de Suporte (SVM): Buscam encontrar um hiperplano
que melhor separe as classes em um espaço de alta dimensão.
 K-Vizinhos Mais Próximos (K-NN): Classifica um ponto de dados com base na
maioria das classes dos "k" pontos mais próximos no espaço de treinamento.
Algoritmos de Regressão:
Características: Algoritmos de regressão são usados quando a saída desejada é
uma variável contínua. Eles modelam a relação entre as entradas e a saída como
uma função matemática.

Exemplos de Algoritmos de Regressão:


 Regressão Linear: Modela a relação entre as variáveis de entrada e a saída
como uma função linear.
 Regressão de Árvore de Decisão: Pode ser usada para problemas de
regressão, onde as folhas da árvore representam valores de saída.
 Regressão de Floresta Aleatória (Random Forest Regression): É uma
extensão da árvore de decisão que combina múltiplas árvores para melhorar
a precisão da regressão.
 Regressão de Máquinas de Vetores de Suporte (SVR): É a versão de
regressão das Máquinas de Vetores de Suporte.

É importante escolher o tipo correto de algoritmo de acordo com a natureza do


problema. Se a saída desejada é discreta e categórica, como prever se um e-mail é
spam ou não (classificação), algoritmos de classificação são adequados. Se a saída
desejada é contínua, como prever o preço de uma casa com base em suas
características (regressão), algoritmos de regressão são mais apropriados. Além dos
exemplos mencionados, existem muitos outros algoritmos de aprendizado
supervisionado disponíveis, e a escolha depende da complexidade do problema e
dos dados disponíveis.

TAREFA 2
Explique o conceito de regressão linear, muito utilizado na análise exploratória de
dados.

A análise de regressão linear é usada para prever o valor de uma variável com base
no valor de outra variável. A variável que você deseja prever é chamada de variável
dependente. A variável que você está usando para prever o valor da outra variável é
chamada de variável independente.

Esta forma de análise estima os coeficientes da equação linear, envolvendo uma ou


mais variáveis independentes que melhor predizem o valor da variável dependente.
A regressão linear ajusta-se a uma linha reta ou superfície que minimiza as
discrepâncias entre os valores de saída previstos e reais. Existem calculadoras de
regressão linear simples que usam um método de “mínimos quadrados” para
descobrir a linha de melhor ajuste para um conjunto de dados emparelhados. Você
então estima o valor de X (variável dependente) de Y (variável independente).

Os modelos de regressão linear são relativamente simples e fornecem uma fórmula


matemática fácil de interpretar que pode gerar previsões. A regressão linear pode
ser aplicada a diversas áreas de estudos empresariais e acadêmicos. Você
descobrirá que a regressão linear é usada em tudo, desde ciências biológicas,
comportamentais, ambientais e sociais até negócios. Os modelos de regressão
linear tornaram-se uma forma comprovada de prever o futuro de forma científica e
confiável. Como a regressão linear é um procedimento estatístico estabelecido há
muito tempo, as propriedades dos modelos de regressão linear são bem
compreendidas e podem ser treinadas muito rapidamente.

TAREFA 3
Big data é um conjunto de dados de tipos muito diversificados; por este motivo,
necessitam de ferramentas preparadas para lidar com um grande volume de dados,
de forma que toda e qualquer informação, nesses meios possam ser encontradas,
analisadas e aproveitadas em tempo hábil. o principal objetivo do desenvolvimento
de soluções big data é oferecer uma abordagem consistente no tratamento do
constante crescimento e da complexidade dos dados. para isso você precisa
considerar os 5 v's, volume, velocidade, variedade, veracidade e valor. sabendo
disso, descreva o significado e a aplicação de cada v na big data.

Os "5 V's" representam os principais desafios e características que definem o Big


Data. Cada "V" tem um significado e uma aplicação específica no contexto de Big
Data:
Volume (Volume):
Significado: Refere-se à quantidade massiva de dados que estão sendo gerados e
coletados continuamente. Isso inclui dados históricos e em tempo real.
Aplicação: Empresas e organizações coletam grandes volumes de dados, como
registros de transações, registros de sensores, registros de mídia social, logs de
servidores, etc. O tratamento eficiente de grandes volumes de dados é essencial
para análises significativas e tomada de decisões informadas.
Velocidade (Velocity):
Significado: Refere-se à taxa de geração e atualização de dados. É a velocidade
com que os dados são produzidos, coletados e processados.
Aplicação: Dados em tempo real, como feeds de mídias sociais, transações
financeiras, registros de tráfego da web e sensores IoT, exigem o processamento
quase instantâneo para análise em tempo real e detecção de padrões ou eventos
em tempo hábil.
Variedade (Variety):
Significado: Refere-se à diversidade de tipos e fontes de dados. Os dados podem
ser estruturados, semiestruturados ou não estruturados.
Aplicação: Big Data inclui dados de várias fontes, como texto, áudio, vídeo, registros
de logs, dados de sensores e muito mais. A capacidade de lidar com uma variedade
de formatos de dados é crucial para a análise holística.
Veracidade (Veracity):
Significado: Refere-se à confiabilidade e qualidade dos dados. Os dados podem
conter erros, inconsistências e imprecisões.
Aplicação: É fundamental garantir que os dados utilizados nas análises sejam
precisos e confiáveis. Isso envolve a limpeza, validação e aprimoramento dos dados
para eliminar informações incorretas ou enganosas.
Valor (Value):
Significado: Refere-se à capacidade de extrair informações úteis e insights
significativos dos dados coletados.
Aplicação: O objetivo final do Big Data é gerar valor para a organização. Isso pode
ser alcançado por meio de análises avançadas, machine learning, identificação de
tendências, tomada de decisões estratégicas e criação de produtos ou serviços
personalizados com base nos dados.
Em resumo, a compreensão e a aplicação dos "5 V's" são fundamentais para
desenvolver soluções eficazes de Big Data. É preciso considerar como lidar com
grandes volumes de dados de várias fontes, em tempo real, garantindo sua
qualidade e, finalmente, transformá-los em insights e valor para a organização. Essa
abordagem consistente ajuda as empresas a tirar o máximo proveito do Big Data e a
se manterem competitivas em um ambiente cada vez mais orientado por dados.

TAREFA 4
Explique as diferenças entre os tipos de junção utilizadas em bancos de dados
relacionais: inner join, right join e left join. dê exemplos

As junções (joins) em bancos de dados relacionais são operações que combinam


dados de duas ou mais tabelas com base em critérios específicos. As três junções
mais comuns são o Inner Join, o Right Join (ou Right Outer Join) e o Left Join (ou
Left Outer Join). Vamos explicar as diferenças entre eles e fornecer exemplos:

Inner Join:

Significado: Retorna apenas os registros que têm correspondências nas tabelas à


esquerda e à direita da junção. Ou seja, ele retorna apenas os registros que têm
valores correspondentes nas duas tabelas.

Exemplo:
Suponhamos que temos duas tabelas: "Clientes" e "Pedidos". Queremos obter uma
lista de todos os clientes que fizeram pedidos. Usaríamos um Inner Join da seguinte
maneira:

sql
Copy code
SELECT Clientes.Nome, Pedidos.Produto
FROM Clientes
INNER JOIN Pedidos ON Clientes.ID = Pedidos.ClienteID;
Right Join (ou Right Outer Join):

Significado: Retorna todos os registros da tabela à direita e os registros


correspondentes da tabela à esquerda. Se não houver correspondência na tabela à
esquerda, os campos da tabela à esquerda serão preenchidos com valores nulos.

Exemplo:
Usando as mesmas tabelas "Clientes" e "Pedidos", queremos uma lista de todos os
pedidos e, se houver, o nome do cliente que fez o pedido. Nesse caso, usaríamos
um Right Join da seguinte maneira:

sql
Copy code
SELECT Clientes.Nome, Pedidos.Produto
FROM Clientes
RIGHT JOIN Pedidos ON Clientes.ID = Pedidos.ClienteID;
Left Join (ou Left Outer Join):

Significado: É semelhante ao Right Join, mas retorna todos os registros da tabela à


esquerda e os registros correspondentes da tabela à direita. Se não houver
correspondência na tabela à direita, os campos da tabela à direita serão preenchidos
com valores nulos.

Exemplo:
Usando as mesmas tabelas "Clientes" e "Pedidos", queremos uma lista de todos os
clientes e, se houver, os produtos que eles compraram. Usaríamos um Left Join da
seguinte maneira:

sql
Copy code
SELECT Clientes.Nome, Pedidos.Produto
FROM Clientes
LEFT JOIN Pedidos ON Clientes.ID = Pedidos.ClienteID;
Resumidamente:

Inner Join retorna apenas registros que têm correspondências em ambas as tabelas.
Right Join retorna todos os registros da tabela à direita e os registros
correspondentes da tabela à esquerda.
Left Join retorna todos os registros da tabela à esquerda e os registros
correspondentes da tabela à direita.
A escolha entre esses tipos de junção depende das necessidades específicas da
consulta e do que você deseja incluir no resultado. É importante entender as
diferenças e aplicar a junção apropriada para obter os dados desejados em
consultas SQL complexas.

Você também pode gostar