Escolar Documentos
Profissional Documentos
Cultura Documentos
CAMPUS I
CENTRO CIÊNCIAS E TECNOLOGIA
DEPARTAMENTO DE ESTATÍSTICA
CURSO DE ESTATÍSTICA
CAMPINA GRANDE - PB
2023
JOÃO VITOR ANDRADE ALVES DE SOUZA
CAMPINA GRANDE - PB
2023
JOÃO VITOR ANDRADE ALVES DE SOUZA
BANCA EXAMINADORA
O resumo deverá ser uma apresentação concisa dos pontos relevantes de um documento.
Deve ressaltar o objetivo, o método, os resultados e as conclusões do documento. Deverá
ser composto de uma sequência de frases concisas, afirmativas e não de enumeração de
tópicos. Recomenda-se o uso de parágrafo único. Deve-se usar o verbo na voz ativa e na
terceira pessoa do singular.
Resumo em inglês
Página
1 INTRODUÇÃO 9
2 REFERENCIAL TEÓRICO 10
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Árvore de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3 XGBOOST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.4 Multioutputregressor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Seleção e validação do modelos . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 MATERIAIS 13
3.1 MATERIAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1 Coleta dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Métodos 15
4.1 Seleção de Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2 Treinamento e Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Avaliação de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4 Resultados intermediários . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.5 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.6 Ferramentas e Recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Resultados e Discussões 18
6 CONCLUSÃO 19
1 INTRODUÇÃO
2.2 Algoritmos
Na seção, serão mencionados alguns algoritmos que serão utilizados no Machine le-
arning, tendo em vista suas teorias, os fundamentos matemáticos e estatı́sticos, para a
criação dos algoritmos. Assim serão representados de forma bem resumidas de forma com
que o algoritmo terá sua funcionalidade. Serão abordados algoritmos baseados em árvores
de decisão como: Random Forest, Gradient Boosting e multioutputregressor.
Compreende-se que, a árvore de decisão é uma ferramenta que consegue ajudar pes-
soas ou organizações a visualizar consequências e ramificações de uma ação, ajudando na
tomada de decisão quando realizada.
O que difere uma árvore de decisão e um fluxograma, é que na árvore não pode existir
loop, uma ação que volte o fluxo em alguma etapa. É imprescindı́vel que toda árvore
tenha inı́cio e fim, mesmo que chegue em várias possibilidades diferentes.
Atualmente, esta ferramenta é utilizada na tomada de decisões nas empresas, norte-
ando por onde deve seguir. (Projep, 2021)
10
11
2.2.3 XGBOOST
2.2.4 Multioutputregressor
2.3.1 Validação
Sendo o Mean Squared Error MSE, que traduzido para o português como: erro
quadrático médio, é uma das métricas que serão utilizadas quando se quer calcular a
média da diferença que está entre o valor preditivo com o valor real, como é utilizado
a métrica MAE. porém o que diferencia uma métrica da outra é que a MAE utiliza-se
o módulo do resultado entre o valor de y e ŷ , já no erro quadrático médio utiliza-se a
diferença elevada ao quadrado. desta forma terá uma penalização entre os valores quando
são muito diferente entre o previsto e o real. entretanto quanto menor o valor do erro,
melhor o modelo se adequada em relação às previsões. (Data Hackers, 2021).
13
3 MATERIAIS
3.1 MATERIAIS
Os dados utilizados neste estudo foram coletados a partir da tese de Nascimento (2013),
que envolveu a análise de 19 observações de tipos de argila e reagentes em fluidos argilosos.
Com base nesses dados, construı́mos dois modelos: um modelo de Análise de Superfı́cie
de Resposta e um modelo XGBoost, usando o MultiOutputRegressor.
Para a análise comparativa dos modelos, empregamos diversas métricas de desempe-
nho, incluindo o erro quadrático médio, para determinar qual modelo apresenta o melhor
desempenho na previsão da estabilidade dos fluidos argilosos.
Os dados utilizados neste estudo foram obtidos da fonte Nascimento (2013). Os dados
foram selecionados a partir da referida fonte, permitindo-nos obter informações essenciais
para nossa análise. As variáveis alvo incluem a Viscosidade Aparente (V A) em centipoises
(cP ) e a Viscosidade Plástica (V P ) em centipoises (cP ). As variáveis explicativas são o
Limite de Escoamento (LE) em Newton por metro quadrado (N /m2 ), a Força Gel (F G)
em Newton por metro quadrado (N /m2 ) e L3. Cada uma dessas variáveis explicativas
possui 19 observações.
14
15
16
Diante das fórmulas, onde podemos usar a sigla LOOCV que é uma técnica que realiza
validação cruzada e estima o desempenho de um modelo estatı́stico ou de machine learning
e se baseia principalmente em deixar de fora um único ponto de dados por vez da base de
dados, e seguindo, usando o modelo para poder realizar previsões para o ponto excluı́do
anteriormente. Faz-se a repetição do processo para cada ponto de dados na parte em
treinamento do conjunto, o que permite uma avaliação que abrange todo o desempenho
do modelo, que também é treinando o modelo, fazendo previsões, calculando as métricas
de avaliação para esta iteração LOOCV e calculando as métricas médias LOOCV.
As variáveis respostas (Y ) são V A(cP ) Viscosidade Aparente e V P (cP ) Viscosidade
Plástica e as variáveis explicativas (X) sendo elas a LE(N /m) Limite de Escoamento,
F G(N /m) Força Gel e L3.
Por possuir uma quantidade pequena de observações na amostra, não foi necessário
prévia divisão de conjuntos de treinamento e testes tradicionais.Entretanto foram feitos
a divisão através do Leave-One-Out Cross-Validation, que tem a função para testar e
treinar todos as observações exceto uma, sendo uma cada vez, até todos as observações
serem utilizados como ponto de testes ao menos uma vez, o que é muito útil quando se
tem uma amostra reduzida.
A fórmula matemática que representa o LOOCV é representada.
LOOV C = ∑i=1 Erro ou Métrica de Desempenhoi
n1
n
n = Número de observações do banco do banco de dados.
Erro ou Métrica de Desempenhoi = Será o erro ou métrica de desempenho, assim
calculando a iteração do LOOCV.
O Treinamento do Modelo se dá por detalhar o processo de treinamento dos modelos,
incluindo o uso de técnicas de validação cruzada, se aplicável.
A métrica utilizada para avaliação foi MSE (Erro Médio Quadrático), que é utilizada
normalmente em análises de regressão, e tem como intuito, observar o erro, pois quanto
menor for, melhor será o modelo ajustado.
n = É o número de observações encontrada na amostra,
yi = É o valor real da i-ésima observação,
ŷi = É a previsão do modelo na a i-ésima observação.
M SE = 1
n ∑i=1 (yi − ŷi )2
n
Como pode-se observar na tabela acima os erros médios quadráticos foram pequenos,
ou seja o modelo se ajusta bem para este banco de dados.
4.5 Validação
Todas estas informações foram programadas através do software Google Colab, utili-
zando as bibliotecas: sklearn.multioutput, klearn.models election, sklearn.metricsescikit.learn.
18
5 Resultados e Discussões
19
6 CONCLUSÃO
20