TCC Atualizado

UNIVERSIDADE ESTADUAL DA PARAÍBA
CAMPUS I
CENTRO CIÊNCIAS E TECNOLOGIA
DEPARTAMENTO DE ESTATÍSTICA
CURSO DE ESTATÍSTICA
JOÃO VITOR ANDRADE ALVES DE SOUZA
USO DO MODELO DE MACHINE LARNING PARA PARA AVALIAR AS

PROPRIEDADES DA ARGILA
CAMPINA GRANDE - PB
2023

Trabalho de Conclusão de Curso

Bacharelado em Estatı́stica apresentado
ao Departamento de Estatı́stica do Centro
de Ciências e Tecnologia da Universidade
Estadual da Paraı́ba como requisito parcial
à obtenção do tı́tulo de Bacharelado em
Estatı́stica.
Área de concentração: Estatı́stica
Orientador: Prof. Dr. Tiago Almeida de Oliveira
CAMPINA GRANDE - PB
2023

Trabalho de Conclusão de Curso

Bacharelado em Estatı́stica apresentado
ao Departamento de Estatı́stica do Centro
de Ciências e Tecnologia da Universidade
Estadual da Paraı́ba como requisito parcial
à obtenção do tı́tulo de Bacharelado em
Estatı́stica.
Área de concentração: Estatı́stica
Aprovado em: ———
BANCA EXAMINADORA
Prof. Dr. Tiago Almeida de Oliveira (Orientador)

Universidade Estadual da Paraı́ba (UEPB)
Profa. Dra. xxxxxxxxxxxxxx

Universidade Estadual da Paraı́ba (UEPB)
Prof. Dr. xxxxxxxxxxxxxxx

Universidade XXXXXX (CASO MEMBRO EXTERNO)
Dedicatória, a Deus,
aos meus familiares,
aos meus amigos e aos
meus colegas de sala.
AGRADECIMENTOS
Agradeço primeiramente a Deus por ter me dado o dom da vida,pela sabedoria e

inteligência , força e coragem, para poder enfrentar meus obstáculos e possa realizar meus
sonhos.
“Epı́grafe - Citação relacionada com o tema
do trabalho, com indicação de autoria. Dever
seguir as diretrizes da NBR 10.520/2002 de
Citação em documentos.”
RESUMO
O resumo deverá ser uma apresentação concisa dos pontos relevantes de um documento.
Deve ressaltar o objetivo, o método, os resultados e as conclusões do documento. Deverá
ser composto de uma sequência de frases concisas, afirmativas e não de enumeração de
tópicos. Recomenda-se o uso de parágrafo único. Deve-se usar o verbo na voz ativa e na
terceira pessoa do singular.
Palavras-chave: Palavras-chave 1. Palavras-chave 2. Palavras-chave 3.

ABSTRACT
Resumo em inglês
Keywords: Keyword 1. Keyword 2. Keyword 3.

SUMÁRIO
Página
1 INTRODUÇÃO 9
2 REFERENCIAL TEÓRICO 10
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Árvore de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3 XGBOOST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.4 Multioutputregressor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Seleção e validação do modelos . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 MATERIAIS 13
3.1 MATERIAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1 Coleta dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Métodos 15
4.1 Seleção de Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2 Treinamento e Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Avaliação de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4 Resultados intermediários . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.5 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.6 Ferramentas e Recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Resultados e Discussões 18
6 CONCLUSÃO 19
APÊNDICE A – TÍTULO DO APÊNDICE 19

9
1 INTRODUÇÃO
A análise da argila e de sua superfı́cie é interessante para ressaltar as caracterı́sticas e

suas propriedades que se tenha uma base de conhecimento para tomada de decisões para
fins desejados. A argila é um material com vasta gama de utilização, desde cosméticos,
nos artesanatos e em larga escala pelas indústrias, na fabricação de utensı́lios de uso
doméstico como louças e cerâmicas. Tem na composição os argilominerais como elemento
principal, podendo conter quartzo, silicatos, óxidos, dentre outros componentes e até
mesmo impurezas, o que vai alterar sua coloração e as propriedades da argila.
O conhecimento de Machine Learning é que é um subcampo da Ciência da Com-
putação e da Engenharia e pode-se entender como aprendizado de máquina, que outrora
era a base de estudos usada para reconhecimento de padrões e feito o processo de me-
lhoria, e hoje evoluiu e é a base da inteligência artificial. A técnica de aprendizagem de
máquina de aumento gradual, tendo por nome Gradient Boosting, devido utilizar modelos
de previsões fracos com o objetivo de minimizar os erros dos modelos anteriores, gerando
um gradiente de erros cada vez menor, resolvendo problemas de regressão e classificação,
e consequentemente, gerando assim uma árvore de decisões fortes.
A ferramenta MultiOutputRegressor faz parte da scikit-learn, que é uma biblioteca
gratuita de código aberto do Python, e aplicada na prática de Machine Learning, ela é
que permite analisar regressões com múltiplas variáveis respostas e treinar vários modelos
através do XGBoost.
Segundo Cecon e Silva, (2011, p.2) “A metodologia de superfı́cie de resposta, ou MSR,
é uma coleção de técnicas matemáticas e estatı́sticas que são úteis para modelagem e
análise nas aplicações em que a resposta de interesse seja influenciada por várias variáveis
e o objetivo seja otimizar essa resposta”.
Sendo o objetivo, analisar comparativamente o modelo XGBoost para duas variáveis
resposta simultâneas, versus a análise em superfı́cie resposta univariada, utilizando como
métrica de comparação o Erro Quadrático Médio e R2 .
2 REFERENCIAL TEÓRICO
2.1 Machine Learning
Entende-se que, o aprendizado de máquina, traduzido do inglês que é Machine Lear-

ning, é um braço da inteligência artificial que emprega diversas técnicas da probabilidade,
da estatı́stica e de otimização que possibilitam o aprendizado de computadores para reali-
zar detecção de padrões difı́ceis de discernir os parâmetros analisados de dados passados.
(Matheus, Mendonça, 2020).
O Machine Learning precisa de diferentes algoritmos para solucionar problemas rela-
cionados a dados. Os profissionais da área de dados deixam explı́cito que não existe um
único algoritmo que resolva todos os problemas, e que para cada situação vai utilizar mais
adequado a ela, a depender do tipo de modelo, quais variáveis serão utilizadas, dentre
outros, e obtendo assim o melhor para cada circunstância. (Mahesh, 2018)
2.2 Algoritmos
Na seção, serão mencionados alguns algoritmos que serão utilizados no Machine le-
arning, tendo em vista suas teorias, os fundamentos matemáticos e estatı́sticos, para a
criação dos algoritmos. Assim serão representados de forma bem resumidas de forma com
que o algoritmo terá sua funcionalidade. Serão abordados algoritmos baseados em árvores
de decisão como: Random Forest, Gradient Boosting e multioutputregressor.
2.2.1 Árvore de decisão
Compreende-se que, a árvore de decisão é uma ferramenta que consegue ajudar pes-
soas ou organizações a visualizar consequências e ramificações de uma ação, ajudando na
tomada de decisão quando realizada.
O que difere uma árvore de decisão e um fluxograma, é que na árvore não pode existir
loop, uma ação que volte o fluxo em alguma etapa. É imprescindı́vel que toda árvore
tenha inı́cio e fim, mesmo que chegue em várias possibilidades diferentes.
Atualmente, esta ferramenta é utilizada na tomada de decisões nas empresas, norte-
ando por onde deve seguir. (Projep, 2021)
2.2.2 Random Forest
O random forest, ou floresta aleatória em tradução direta, é um termo que se refere

a um conjunto composto por uma coleção de árvores de decisão, cada qual no conjunto,
sendo composta por uma amostra retirada de um conjunto de teste e treinamento com
substituição, que pode ser chamada de bootstrap. Um terço da amostra é destinado para
dados de teste, chamada de amostra fora de saco (oob).
10
11
Uma outra instância de aleatoriedade é injetada pelo ensacamento de recursos, adi-

cionando uma maior diversidade ao conjunto de dados e diminuindo a correlação entre
as árvores de decisão. A depender do tipo de problema. Em um trabalho de regressão,
serão calculadas as árvores de decisão individualmente em média, em uma classificação,
um voto majoritário, logo, a variável categórica que mais aparece, produzirá a classe pre-
vista. Enfim, a amostra obb é utilizada para uma validação cruzada, finalizando esta
previsão. (IBM, 2021)
2.2.3 XGBOOST
De acordo com o autor, pode-se entender o XGBoost como um algoritmo de apren-

dizado de máquina, tal qual ele é, e que usa árvores de decisão para fazer previsões.
Amplamente conhecido por sua eficácia e escalabilidade, e é usado em muitas aplicações
de aprendizado de máquina, incluindo regressão, classificação e ranking, e é um sistema de
boosting de árvore escalável chamado XGBoost, que é amplamente usado por cientistas
de dados para conseguir resultados de qualidade em muitos trabalho em aprendizado de
máquina.(Chen, Guestrin, 2016)
2.2.4 Multioutputregressor
O multiouputregressor é uma ferramenta que é utilizada quando tem duas ou mais

variáveis alvos no modelo. Segundo o autor existem muitos algoritmos utilizados em
aprendizagem de máquinas em que só aceitam uma variável, assim prevendo apenas um
valor. Outros algoritmos irão suportar mais de uma saı́da, trazendo a regressão de mul-
tisaı́das, tendo regressão linear e árvores de decisões. Outrossim existirá modelos que irão
solucionar, servindo como uma alternativa para utilizar alguns algoritmos que antes não
conseguiria fazer previsões com mais de uma saı́da. (Brownlee, 2021).
Problema de regressão multi saı́da:
A regressão é uma solução de problema de modelagem preditiva que busca a previsão
de um valor numérico. Seja por exemplo, prever número de vendas, um peso, tamanho,
uma quantidade de cliques em site, são problemas de regressão. Geralmente, apenas
um valor numérico é encontrado, dadas as variáveis de entrada. Alguns problemas de
regressão, necessitam da previsão de dois ou mais valores, como por exemplo, prevendo
coordenada x e y.
Esses problemas são nomeados de regressão de saı́da múltipla e regressão multi-saı́da.
(Brownlee, 2021)
12
2.3 Seleção e validação do modelos
2.3.1 Validação
Sabe-se que o LOOCV, validação cruzada Leave-one-out Cross-Validation, é um su-

porte especial quando se trata de validação cruzada, utilizando k − f old com k = n, que
se remete ao número de observações dos dados. É utilizado quando o banco de dados
é pequeno. O (LOOCV) é importante quando o tamanho do conjunto de dados para o
treinamento é maximizado. Entretanto, a aplicação da validação cruzada Leave-one-out
Cross-Validation é complexa , quando se trata de forma computacional intensiva, exigindo
diversas análises. (Hao, Dorian e Rohan, 2017)
2.3.2 Erro Quadrático Médio
Sendo o Mean Squared Error MSE, que traduzido para o português como: erro
quadrático médio, é uma das métricas que serão utilizadas quando se quer calcular a
média da diferença que está entre o valor preditivo com o valor real, como é utilizado
a métrica MAE. porém o que diferencia uma métrica da outra é que a MAE utiliza-se
o módulo do resultado entre o valor de y e ŷ , já no erro quadrático médio utiliza-se a
diferença elevada ao quadrado. desta forma terá uma penalização entre os valores quando
são muito diferente entre o previsto e o real. entretanto quanto menor o valor do erro,
melhor o modelo se adequada em relação às previsões. (Data Hackers, 2021).
13
3 MATERIAIS
3.1 MATERIAIS
Os dados utilizados neste estudo foram coletados a partir da tese de Nascimento (2013),
que envolveu a análise de 19 observações de tipos de argila e reagentes em fluidos argilosos.
Com base nesses dados, construı́mos dois modelos: um modelo de Análise de Superfı́cie
de Resposta e um modelo XGBoost, usando o MultiOutputRegressor.
Para a análise comparativa dos modelos, empregamos diversas métricas de desempe-
nho, incluindo o erro quadrático médio, para determinar qual modelo apresenta o melhor
desempenho na previsão da estabilidade dos fluidos argilosos.
3.1.1 Coleta dos dados
Os dados utilizados neste estudo foram obtidos da fonte Nascimento (2013). Os dados
foram selecionados a partir da referida fonte, permitindo-nos obter informações essenciais
para nossa análise. As variáveis alvo incluem a Viscosidade Aparente (V A) em centipoises
(cP ) e a Viscosidade Plástica (V P ) em centipoises (cP ). As variáveis explicativas são o
Limite de Escoamento (LE) em Newton por metro quadrado (N /m2 ), a Força Gel (F G)
em Newton por metro quadrado (N /m2 ) e L3. Cada uma dessas variáveis explicativas
possui 19 observações.
14
Tabela 3.1 – text
Fluidos VA(cP) VP(cP) LE(N/m) FG(N/m) L3

FB1 42,5 16,0 53,0 10,0 39,0
FB2 34,0 15,0 38,0 51,0 26,0
FB3 46,5 15,0 63,0 8,0 38,0
FB4 46,5 17,0 59,0 52,0 38,0
FB5 53,5 15,0 77,0 11,0 46,0
FB6 48,0 20,0 56,0 57,0 36,0
FB7 60,0 17,0 86,0 10,0 53,0
FB8 50,5 22,0 57,0 53,0 34,0
FB9 41,0 15,0 52,0 13,0 38,0
FB10 42,5 15,0 55,0 58,0 35,0
FB11 50,5 17,0 67,0 3,0 44,0
FB12 56,0 18,0 76,0 61,0 45,0
FB13 55,0 19,0 72,0 18,0 43,0
FB14 51,5 19,0 65,0 47,0 40,0
FB15 60,0 23,0 74,0 27,0 46,0
FB16 59,5 23,0 73,0 65,0 46,0
FB17 55,0 19,0 72,0 21,0 44,0
FB18 55,5 21,0 69,0 22,0 40,0
FB19 56,0 19,0 74,0 22,0 47,0
4 Métodos
4.1 Seleção de Algoritmos
Foi empregado métodos da estatı́stica descritiva, incluindo o cálculo de médias, media-

nas, valores máximos e mı́nimos, bem como a criação de gráficos de correlação e dispersão,
para explorar os dados coletados. Além disso, foi aplicado testes estatı́sticos apropriados
para avaliar a normalidade das variáveis que seriam objeto de estudo em nossa análise.
A normalidade das variáveis foi avaliada por meio de testes estatı́sticos com o objetivo
de garantir a robustez das análises subsequentes. Esta etapa foi fundamental para a
aplicação do modelo de regressão.
O XGBoost, uma abreviação de ”eXtreme Gradient Boosting,”é um sistema eficiente
e escalável baseado na estrutura de aumento de gradiente, conforme introduzido por
Friedman (2001) e posteriormente desenvolvido por Friedman et al. (2000). O XGBoost
tem se destacado como uma ferramenta poderosa para lidar com problemas de regressão
e classificação em uma variedade de domı́nios.
Fórmulas do XGBoost:
Fórmula da iteração:
Seja o valor da target yi ;
Como predição do t-ésimo ŷi
Uma função de erro sendo l
Tamanho da amostra n
O erro do modelo na iteração t
temos:
Lt = ∑n i = 1l(yi, ŷit )
Fórmula da Predição: se pegarmos a iteração t, ela terá a mesma significância de t − 1,
assim somando o um novo modelo, ft : obtemos:
Lt = ∑ni=1 l(yi , ŷit−1 + ft (xi ))
Fórmula da regularização: Adicionando um termo de regularização, será permitido
um suporte em que controlará a complexidade do modelo.
Lt = ∑ni=1 l(yi , ŷit−1 + ft (xi )) + Ω(ft )
Foram separadas as variáveis entre elas X para as variáveis explicativas, e consequente-
mente Y para as variáveis respostas, também foram gerados listas para armazenamentos
de métricas de avaliações, criando o modelo XGBoost base, usando o MultiOutputRe-
gressor para criar um modelo de múltiplas saı́das, criando um objeto Leave-One-Out
Cross-Validation, cujo script está abaixo:
Script MultiOutputRegressor:
multioutput.model = M ultiOutputRegressor(xgb.model)
15
16
Diante das fórmulas, onde podemos usar a sigla LOOCV que é uma técnica que realiza
validação cruzada e estima o desempenho de um modelo estatı́stico ou de machine learning
e se baseia principalmente em deixar de fora um único ponto de dados por vez da base de
dados, e seguindo, usando o modelo para poder realizar previsões para o ponto excluı́do
anteriormente. Faz-se a repetição do processo para cada ponto de dados na parte em
treinamento do conjunto, o que permite uma avaliação que abrange todo o desempenho
do modelo, que também é treinando o modelo, fazendo previsões, calculando as métricas
de avaliação para esta iteração LOOCV e calculando as métricas médias LOOCV.
As variáveis respostas (Y ) são V A(cP ) Viscosidade Aparente e V P (cP ) Viscosidade
Plástica e as variáveis explicativas (X) sendo elas a LE(N /m) Limite de Escoamento,
F G(N /m) Força Gel e L3.
4.2 Treinamento e Teste
Por possuir uma quantidade pequena de observações na amostra, não foi necessário
prévia divisão de conjuntos de treinamento e testes tradicionais.Entretanto foram feitos
a divisão através do Leave-One-Out Cross-Validation, que tem a função para testar e
treinar todos as observações exceto uma, sendo uma cada vez, até todos as observações
serem utilizados como ponto de testes ao menos uma vez, o que é muito útil quando se
tem uma amostra reduzida.
A fórmula matemática que representa o LOOCV é representada.
LOOV C = ∑i=1 Erro ou Métrica de Desempenhoi
n1
n
n = Número de observações do banco do banco de dados.
Erro ou Métrica de Desempenhoi = Será o erro ou métrica de desempenho, assim
calculando a iteração do LOOCV.
O Treinamento do Modelo se dá por detalhar o processo de treinamento dos modelos,
incluindo o uso de técnicas de validação cruzada, se aplicável.
4.3 Avaliação de Desempenho
A métrica utilizada para avaliação foi MSE (Erro Médio Quadrático), que é utilizada
normalmente em análises de regressão, e tem como intuito, observar o erro, pois quanto
menor for, melhor será o modelo ajustado.
n = É o número de observações encontrada na amostra,
yi = É o valor real da i-ésima observação,
ŷi = É a previsão do modelo na a i-ésima observação.
M SE = 1
n ∑i=1 (yi − ŷi )2
n
4.4 Resultados intermediários
Y 1 ∶ V A(cP ) Viscosidade Aparente

Y 2 ∶ V P (cP ) Viscosidade Plástica
17
Como pode-se observar na tabela acima os erros médios quadráticos foram pequenos,
ou seja o modelo se ajusta bem para este banco de dados.
4.5 Validação
A validação foi feita através da Leave-One-Out Cross-Validation, foi uma validação

cruzada, mas de uma observação de cada vez, assim até todas as observações serem
testadas.
4.6 Ferramentas e Recursos
Todas estas informações foram programadas através do software Google Colab, utili-
zando as bibliotecas: sklearn.multioutput, klearn.models election, sklearn.metricsescikit.learn.
18
5 Resultados e Discussões
19
6 CONCLUSÃO
20
APÊNDICE A – TÍTULO DO APÊNDICE
Conteúdo do Apêndice A...

Conteúdo do Apêndice A...

TCC Atualizado

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TCC Atualizado

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE ESTADUAL DA PARAÍBA

JOÃO VITOR ANDRADE ALVES DE SOUZA

USO DO MODELO DE MACHINE LARNING PARA PARA AVALIAR AS

USO DO MODELO DE MACHINE LARNING PARA PARA AVALIAR AS

Trabalho de Conclusão de Curso

Área de concentração: Estatı́stica

Orientador: Prof. Dr. Tiago Almeida de Oliveira

USO DO MODELO DE MACHINE LARNING PARA PARA AVALIAR AS

Trabalho de Conclusão de Curso

Área de concentração: Estatı́stica

Aprovado em: ———

Prof. Dr. Tiago Almeida de Oliveira (Orientador)

Profa. Dra. xxxxxxxxxxxxxx

Prof. Dr. xxxxxxxxxxxxxxx

Agradeço primeiramente a Deus por ter me dado o dom da vida,pela sabedoria e

Palavras-chave: Palavras-chave 1. Palavras-chave 2. Palavras-chave 3.

Keywords: Keyword 1. Keyword 2. Keyword 3.

APÊNDICE A – TÍTULO DO APÊNDICE 19

A análise da argila e de sua superfı́cie é interessante para ressaltar as caracterı́sticas e

2.1 Machine Learning

Entende-se que, o aprendizado de máquina, traduzido do inglês que é Machine Lear-

2.2.1 Árvore de decisão

2.2.2 Random Forest

O random forest, ou floresta aleatória em tradução direta, é um termo que se refere

Uma outra instância de aleatoriedade é injetada pelo ensacamento de recursos, adi-

De acordo com o autor, pode-se entender o XGBoost como um algoritmo de apren-

O multiouputregressor é uma ferramenta que é utilizada quando tem duas ou mais

2.3 Seleção e validação do modelos

Sabe-se que o LOOCV, validação cruzada Leave-one-out Cross-Validation, é um su-

2.3.2 Erro Quadrático Médio

3.1.1 Coleta dos dados

Tabela 3.1 – text

Fluidos VA(cP) VP(cP) LE(N/m) FG(N/m) L3

4.1 Seleção de Algoritmos

Foi empregado métodos da estatı́stica descritiva, incluindo o cálculo de médias, media-

4.2 Treinamento e Teste

4.3 Avaliação de Desempenho

4.4 Resultados intermediários

Y 1 ∶ V A(cP ) Viscosidade Aparente

A validação foi feita através da Leave-One-Out Cross-Validation, foi uma validação

4.6 Ferramentas e Recursos

APÊNDICE A – TÍTULO DO APÊNDICE

Conteúdo do Apêndice A...

Você também pode gostar