Você está na página 1de 21

UNIVERSIDADE ESTADUAL DA PARAÍBA

CAMPUS I
CENTRO CIÊNCIAS E TECNOLOGIA
DEPARTAMENTO DE ESTATÍSTICA
CURSO DE ESTATÍSTICA

JOÃO VITOR ANDRADE ALVES DE SOUZA

USO DO MODELO DE MACHINE LARNING PARA PARA AVALIAR AS


PROPRIEDADES DA ARGILA

CAMPINA GRANDE - PB
2023
JOÃO VITOR ANDRADE ALVES DE SOUZA

USO DO MODELO DE MACHINE LARNING PARA PARA AVALIAR AS


PROPRIEDADES DA ARGILA

Trabalho de Conclusão de Curso


Bacharelado em Estatı́stica apresentado
ao Departamento de Estatı́stica do Centro
de Ciências e Tecnologia da Universidade
Estadual da Paraı́ba como requisito parcial
à obtenção do tı́tulo de Bacharelado em
Estatı́stica.

Área de concentração: Estatı́stica

Orientador: Prof. Dr. Tiago Almeida de Oliveira

CAMPINA GRANDE - PB
2023
JOÃO VITOR ANDRADE ALVES DE SOUZA

USO DO MODELO DE MACHINE LARNING PARA PARA AVALIAR AS


PROPRIEDADES DA ARGILA

Trabalho de Conclusão de Curso


Bacharelado em Estatı́stica apresentado
ao Departamento de Estatı́stica do Centro
de Ciências e Tecnologia da Universidade
Estadual da Paraı́ba como requisito parcial
à obtenção do tı́tulo de Bacharelado em
Estatı́stica.

Área de concentração: Estatı́stica

Aprovado em: ———

BANCA EXAMINADORA

Prof. Dr. Tiago Almeida de Oliveira (Orientador)


Universidade Estadual da Paraı́ba (UEPB)

Profa. Dra. xxxxxxxxxxxxxx


Universidade Estadual da Paraı́ba (UEPB)

Prof. Dr. xxxxxxxxxxxxxxx


Universidade XXXXXX (CASO MEMBRO EXTERNO)
Dedicatória, a Deus,
aos meus familiares,
aos meus amigos e aos
meus colegas de sala.
AGRADECIMENTOS

Agradeço primeiramente a Deus por ter me dado o dom da vida,pela sabedoria e


inteligência , força e coragem, para poder enfrentar meus obstáculos e possa realizar meus
sonhos.
“Epı́grafe - Citação relacionada com o tema
do trabalho, com indicação de autoria. Dever
seguir as diretrizes da NBR 10.520/2002 de
Citação em documentos.”
RESUMO

O resumo deverá ser uma apresentação concisa dos pontos relevantes de um documento.
Deve ressaltar o objetivo, o método, os resultados e as conclusões do documento. Deverá
ser composto de uma sequência de frases concisas, afirmativas e não de enumeração de
tópicos. Recomenda-se o uso de parágrafo único. Deve-se usar o verbo na voz ativa e na
terceira pessoa do singular.

Palavras-chave: Palavras-chave 1. Palavras-chave 2. Palavras-chave 3.


ABSTRACT

Resumo em inglês

Keywords: Keyword 1. Keyword 2. Keyword 3.


SUMÁRIO

Página

1 INTRODUÇÃO 9

2 REFERENCIAL TEÓRICO 10
2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Árvore de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3 XGBOOST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.4 Multioutputregressor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Seleção e validação do modelos . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Erro Quadrático Médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 MATERIAIS 13
3.1 MATERIAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1 Coleta dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 Métodos 15
4.1 Seleção de Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2 Treinamento e Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Avaliação de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4 Resultados intermediários . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.5 Validação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.6 Ferramentas e Recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5 Resultados e Discussões 18

6 CONCLUSÃO 19

APÊNDICE A – TÍTULO DO APÊNDICE 19


9

1 INTRODUÇÃO

A análise da argila e de sua superfı́cie é interessante para ressaltar as caracterı́sticas e


suas propriedades que se tenha uma base de conhecimento para tomada de decisões para
fins desejados. A argila é um material com vasta gama de utilização, desde cosméticos,
nos artesanatos e em larga escala pelas indústrias, na fabricação de utensı́lios de uso
doméstico como louças e cerâmicas. Tem na composição os argilominerais como elemento
principal, podendo conter quartzo, silicatos, óxidos, dentre outros componentes e até
mesmo impurezas, o que vai alterar sua coloração e as propriedades da argila.
O conhecimento de Machine Learning é que é um subcampo da Ciência da Com-
putação e da Engenharia e pode-se entender como aprendizado de máquina, que outrora
era a base de estudos usada para reconhecimento de padrões e feito o processo de me-
lhoria, e hoje evoluiu e é a base da inteligência artificial. A técnica de aprendizagem de
máquina de aumento gradual, tendo por nome Gradient Boosting, devido utilizar modelos
de previsões fracos com o objetivo de minimizar os erros dos modelos anteriores, gerando
um gradiente de erros cada vez menor, resolvendo problemas de regressão e classificação,
e consequentemente, gerando assim uma árvore de decisões fortes.
A ferramenta MultiOutputRegressor faz parte da scikit-learn, que é uma biblioteca
gratuita de código aberto do Python, e aplicada na prática de Machine Learning, ela é
que permite analisar regressões com múltiplas variáveis respostas e treinar vários modelos
através do XGBoost.
Segundo Cecon e Silva, (2011, p.2) “A metodologia de superfı́cie de resposta, ou MSR,
é uma coleção de técnicas matemáticas e estatı́sticas que são úteis para modelagem e
análise nas aplicações em que a resposta de interesse seja influenciada por várias variáveis
e o objetivo seja otimizar essa resposta”.
Sendo o objetivo, analisar comparativamente o modelo XGBoost para duas variáveis
resposta simultâneas, versus a análise em superfı́cie resposta univariada, utilizando como
métrica de comparação o Erro Quadrático Médio e R2 .
2 REFERENCIAL TEÓRICO

2.1 Machine Learning

Entende-se que, o aprendizado de máquina, traduzido do inglês que é Machine Lear-


ning, é um braço da inteligência artificial que emprega diversas técnicas da probabilidade,
da estatı́stica e de otimização que possibilitam o aprendizado de computadores para reali-
zar detecção de padrões difı́ceis de discernir os parâmetros analisados de dados passados.
(Matheus, Mendonça, 2020).
O Machine Learning precisa de diferentes algoritmos para solucionar problemas rela-
cionados a dados. Os profissionais da área de dados deixam explı́cito que não existe um
único algoritmo que resolva todos os problemas, e que para cada situação vai utilizar mais
adequado a ela, a depender do tipo de modelo, quais variáveis serão utilizadas, dentre
outros, e obtendo assim o melhor para cada circunstância. (Mahesh, 2018)

2.2 Algoritmos

Na seção, serão mencionados alguns algoritmos que serão utilizados no Machine le-
arning, tendo em vista suas teorias, os fundamentos matemáticos e estatı́sticos, para a
criação dos algoritmos. Assim serão representados de forma bem resumidas de forma com
que o algoritmo terá sua funcionalidade. Serão abordados algoritmos baseados em árvores
de decisão como: Random Forest, Gradient Boosting e multioutputregressor.

2.2.1 Árvore de decisão

Compreende-se que, a árvore de decisão é uma ferramenta que consegue ajudar pes-
soas ou organizações a visualizar consequências e ramificações de uma ação, ajudando na
tomada de decisão quando realizada.
O que difere uma árvore de decisão e um fluxograma, é que na árvore não pode existir
loop, uma ação que volte o fluxo em alguma etapa. É imprescindı́vel que toda árvore
tenha inı́cio e fim, mesmo que chegue em várias possibilidades diferentes.
Atualmente, esta ferramenta é utilizada na tomada de decisões nas empresas, norte-
ando por onde deve seguir. (Projep, 2021)

2.2.2 Random Forest

O random forest, ou floresta aleatória em tradução direta, é um termo que se refere


a um conjunto composto por uma coleção de árvores de decisão, cada qual no conjunto,
sendo composta por uma amostra retirada de um conjunto de teste e treinamento com
substituição, que pode ser chamada de bootstrap. Um terço da amostra é destinado para
dados de teste, chamada de amostra fora de saco (oob).

10
11

Uma outra instância de aleatoriedade é injetada pelo ensacamento de recursos, adi-


cionando uma maior diversidade ao conjunto de dados e diminuindo a correlação entre
as árvores de decisão. A depender do tipo de problema. Em um trabalho de regressão,
serão calculadas as árvores de decisão individualmente em média, em uma classificação,
um voto majoritário, logo, a variável categórica que mais aparece, produzirá a classe pre-
vista. Enfim, a amostra obb é utilizada para uma validação cruzada, finalizando esta
previsão. (IBM, 2021)

2.2.3 XGBOOST

De acordo com o autor, pode-se entender o XGBoost como um algoritmo de apren-


dizado de máquina, tal qual ele é, e que usa árvores de decisão para fazer previsões.
Amplamente conhecido por sua eficácia e escalabilidade, e é usado em muitas aplicações
de aprendizado de máquina, incluindo regressão, classificação e ranking, e é um sistema de
boosting de árvore escalável chamado XGBoost, que é amplamente usado por cientistas
de dados para conseguir resultados de qualidade em muitos trabalho em aprendizado de
máquina.(Chen, Guestrin, 2016)

2.2.4 Multioutputregressor

O multiouputregressor é uma ferramenta que é utilizada quando tem duas ou mais


variáveis alvos no modelo. Segundo o autor existem muitos algoritmos utilizados em
aprendizagem de máquinas em que só aceitam uma variável, assim prevendo apenas um
valor. Outros algoritmos irão suportar mais de uma saı́da, trazendo a regressão de mul-
tisaı́das, tendo regressão linear e árvores de decisões. Outrossim existirá modelos que irão
solucionar, servindo como uma alternativa para utilizar alguns algoritmos que antes não
conseguiria fazer previsões com mais de uma saı́da. (Brownlee, 2021).
Problema de regressão multi saı́da:
A regressão é uma solução de problema de modelagem preditiva que busca a previsão
de um valor numérico. Seja por exemplo, prever número de vendas, um peso, tamanho,
uma quantidade de cliques em site, são problemas de regressão. Geralmente, apenas
um valor numérico é encontrado, dadas as variáveis de entrada. Alguns problemas de
regressão, necessitam da previsão de dois ou mais valores, como por exemplo, prevendo
coordenada x e y.
Esses problemas são nomeados de regressão de saı́da múltipla e regressão multi-saı́da.
(Brownlee, 2021)
12

2.3 Seleção e validação do modelos

2.3.1 Validação

Sabe-se que o LOOCV, validação cruzada Leave-one-out Cross-Validation, é um su-


porte especial quando se trata de validação cruzada, utilizando k − f old com k = n, que
se remete ao número de observações dos dados. É utilizado quando o banco de dados
é pequeno. O (LOOCV) é importante quando o tamanho do conjunto de dados para o
treinamento é maximizado. Entretanto, a aplicação da validação cruzada Leave-one-out
Cross-Validation é complexa , quando se trata de forma computacional intensiva, exigindo
diversas análises. (Hao, Dorian e Rohan, 2017)

2.3.2 Erro Quadrático Médio

Sendo o Mean Squared Error MSE, que traduzido para o português como: erro
quadrático médio, é uma das métricas que serão utilizadas quando se quer calcular a
média da diferença que está entre o valor preditivo com o valor real, como é utilizado
a métrica MAE. porém o que diferencia uma métrica da outra é que a MAE utiliza-se
o módulo do resultado entre o valor de y e ŷ , já no erro quadrático médio utiliza-se a
diferença elevada ao quadrado. desta forma terá uma penalização entre os valores quando
são muito diferente entre o previsto e o real. entretanto quanto menor o valor do erro,
melhor o modelo se adequada em relação às previsões. (Data Hackers, 2021).
13

3 MATERIAIS

3.1 MATERIAIS

Os dados utilizados neste estudo foram coletados a partir da tese de Nascimento (2013),
que envolveu a análise de 19 observações de tipos de argila e reagentes em fluidos argilosos.
Com base nesses dados, construı́mos dois modelos: um modelo de Análise de Superfı́cie
de Resposta e um modelo XGBoost, usando o MultiOutputRegressor.
Para a análise comparativa dos modelos, empregamos diversas métricas de desempe-
nho, incluindo o erro quadrático médio, para determinar qual modelo apresenta o melhor
desempenho na previsão da estabilidade dos fluidos argilosos.

3.1.1 Coleta dos dados

Os dados utilizados neste estudo foram obtidos da fonte Nascimento (2013). Os dados
foram selecionados a partir da referida fonte, permitindo-nos obter informações essenciais
para nossa análise. As variáveis alvo incluem a Viscosidade Aparente (V A) em centipoises
(cP ) e a Viscosidade Plástica (V P ) em centipoises (cP ). As variáveis explicativas são o
Limite de Escoamento (LE) em Newton por metro quadrado (N /m2 ), a Força Gel (F G)
em Newton por metro quadrado (N /m2 ) e L3. Cada uma dessas variáveis explicativas
possui 19 observações.
14

Tabela 3.1 – text

Fluidos VA(cP) VP(cP) LE(N/m) FG(N/m) L3


FB1 42,5 16,0 53,0 10,0 39,0
FB2 34,0 15,0 38,0 51,0 26,0
FB3 46,5 15,0 63,0 8,0 38,0
FB4 46,5 17,0 59,0 52,0 38,0
FB5 53,5 15,0 77,0 11,0 46,0
FB6 48,0 20,0 56,0 57,0 36,0
FB7 60,0 17,0 86,0 10,0 53,0
FB8 50,5 22,0 57,0 53,0 34,0
FB9 41,0 15,0 52,0 13,0 38,0
FB10 42,5 15,0 55,0 58,0 35,0
FB11 50,5 17,0 67,0 3,0 44,0
FB12 56,0 18,0 76,0 61,0 45,0
FB13 55,0 19,0 72,0 18,0 43,0
FB14 51,5 19,0 65,0 47,0 40,0
FB15 60,0 23,0 74,0 27,0 46,0
FB16 59,5 23,0 73,0 65,0 46,0
FB17 55,0 19,0 72,0 21,0 44,0
FB18 55,5 21,0 69,0 22,0 40,0
FB19 56,0 19,0 74,0 22,0 47,0
4 Métodos

4.1 Seleção de Algoritmos

Foi empregado métodos da estatı́stica descritiva, incluindo o cálculo de médias, media-


nas, valores máximos e mı́nimos, bem como a criação de gráficos de correlação e dispersão,
para explorar os dados coletados. Além disso, foi aplicado testes estatı́sticos apropriados
para avaliar a normalidade das variáveis que seriam objeto de estudo em nossa análise.
A normalidade das variáveis foi avaliada por meio de testes estatı́sticos com o objetivo
de garantir a robustez das análises subsequentes. Esta etapa foi fundamental para a
aplicação do modelo de regressão.
O XGBoost, uma abreviação de ”eXtreme Gradient Boosting,”é um sistema eficiente
e escalável baseado na estrutura de aumento de gradiente, conforme introduzido por
Friedman (2001) e posteriormente desenvolvido por Friedman et al. (2000). O XGBoost
tem se destacado como uma ferramenta poderosa para lidar com problemas de regressão
e classificação em uma variedade de domı́nios.
Fórmulas do XGBoost:
Fórmula da iteração:
Seja o valor da target yi ;
Como predição do t-ésimo ŷi
Uma função de erro sendo l
Tamanho da amostra n
O erro do modelo na iteração t
temos:
Lt = ∑n i = 1l(yi, ŷit )
Fórmula da Predição: se pegarmos a iteração t, ela terá a mesma significância de t − 1,
assim somando o um novo modelo, ft : obtemos:
Lt = ∑ni=1 l(yi , ŷit−1 + ft (xi ))
Fórmula da regularização: Adicionando um termo de regularização, será permitido
um suporte em que controlará a complexidade do modelo.
Lt = ∑ni=1 l(yi , ŷit−1 + ft (xi )) + Ω(ft )
Foram separadas as variáveis entre elas X para as variáveis explicativas, e consequente-
mente Y para as variáveis respostas, também foram gerados listas para armazenamentos
de métricas de avaliações, criando o modelo XGBoost base, usando o MultiOutputRe-
gressor para criar um modelo de múltiplas saı́das, criando um objeto Leave-One-Out
Cross-Validation, cujo script está abaixo:
Script MultiOutputRegressor:
multioutput.model = M ultiOutputRegressor(xgb.model)

15
16

Diante das fórmulas, onde podemos usar a sigla LOOCV que é uma técnica que realiza
validação cruzada e estima o desempenho de um modelo estatı́stico ou de machine learning
e se baseia principalmente em deixar de fora um único ponto de dados por vez da base de
dados, e seguindo, usando o modelo para poder realizar previsões para o ponto excluı́do
anteriormente. Faz-se a repetição do processo para cada ponto de dados na parte em
treinamento do conjunto, o que permite uma avaliação que abrange todo o desempenho
do modelo, que também é treinando o modelo, fazendo previsões, calculando as métricas
de avaliação para esta iteração LOOCV e calculando as métricas médias LOOCV.
As variáveis respostas (Y ) são V A(cP ) Viscosidade Aparente e V P (cP ) Viscosidade
Plástica e as variáveis explicativas (X) sendo elas a LE(N /m) Limite de Escoamento,
F G(N /m) Força Gel e L3.

4.2 Treinamento e Teste

Por possuir uma quantidade pequena de observações na amostra, não foi necessário
prévia divisão de conjuntos de treinamento e testes tradicionais.Entretanto foram feitos
a divisão através do Leave-One-Out Cross-Validation, que tem a função para testar e
treinar todos as observações exceto uma, sendo uma cada vez, até todos as observações
serem utilizados como ponto de testes ao menos uma vez, o que é muito útil quando se
tem uma amostra reduzida.
A fórmula matemática que representa o LOOCV é representada.
LOOV C = ∑i=1 Erro ou Métrica de Desempenhoi
n1
n
n = Número de observações do banco do banco de dados.
Erro ou Métrica de Desempenhoi = Será o erro ou métrica de desempenho, assim
calculando a iteração do LOOCV.
O Treinamento do Modelo se dá por detalhar o processo de treinamento dos modelos,
incluindo o uso de técnicas de validação cruzada, se aplicável.

4.3 Avaliação de Desempenho

A métrica utilizada para avaliação foi MSE (Erro Médio Quadrático), que é utilizada
normalmente em análises de regressão, e tem como intuito, observar o erro, pois quanto
menor for, melhor será o modelo ajustado.
n = É o número de observações encontrada na amostra,
yi = É o valor real da i-ésima observação,
ŷi = É a previsão do modelo na a i-ésima observação.
M SE = 1
n ∑i=1 (yi − ŷi )2
n

4.4 Resultados intermediários

Y 1 ∶ V A(cP ) Viscosidade Aparente


Y 2 ∶ V P (cP ) Viscosidade Plástica
17

Como pode-se observar na tabela acima os erros médios quadráticos foram pequenos,
ou seja o modelo se ajusta bem para este banco de dados.

4.5 Validação

A validação foi feita através da Leave-One-Out Cross-Validation, foi uma validação


cruzada, mas de uma observação de cada vez, assim até todas as observações serem
testadas.

4.6 Ferramentas e Recursos

Todas estas informações foram programadas através do software Google Colab, utili-
zando as bibliotecas: sklearn.multioutput, klearn.models election, sklearn.metricsescikit.learn.
18

5 Resultados e Discussões
19

6 CONCLUSÃO
20

APÊNDICE A – TÍTULO DO APÊNDICE

Conteúdo do Apêndice A...


Conteúdo do Apêndice A...

Você também pode gostar