Você está na página 1de 17

ANÁLISE DOS PREÇOS DO COMBUSTÍVEL NO BRASIL POR MEIO DO

GOOGLE COLAB

Janaína Rodrigues Santos Alves

1. RESUMO

O contexto dos dados envolve a análise dos preços médios de revenda de


combustíveis em diferentes regiões e estados. O objetivo é compreender a variação
desses preços e identificar possíveis relações entre as variáveis estudadas. Nesse
sentido, o problema abordado é a compreensão dos fatores que influenciam os preços
médios de revenda de combustíveis, incluindo a identificação de padrões regionais e a
presença de outliers. Onde, as variáveis analisadas incluem o preço médio de revenda,
desvio padrão, número de postos pesquisados, região, estado e tipo de combustível.
Através de técnicas estatísticas univariadas, bivariadas e multivariadas, foram
examinadas as relações entre essas variáveis e as tendências gerais dos preços.
Os principais resultados revelaram uma ampla variação nos preços médios de
revenda, com valores que variaram de 0.766 a 107.500. O desvio padrão indicou a
dispersão dos preços em relação à média, enquanto os quartis mostraram os
intervalos onde a maioria dos preços se concentra. O histograma evidenciou uma
assimetria positiva, indicando uma maior concentração de preços em faixas de valor
mais baixo. Já na análise bivariada, foi identificada uma forte correlação positiva entre
o preço médio de revenda e o desvio padrão, sugerindo que a variabilidade dos preços
está relacionada ao seu valor médio. Além disso, foram observadas variações nos
preços médios de revenda entre diferentes regiões e estados, evidenciando a
influência desses fatores. E a análise multivariada mostrou que o número de postos
pesquisados não possui uma relação significativa com as outras variáveis. A regressão
simples indicou uma relação fraca e negativa entre o número de postos pesquisados e
o preço médio de revenda. A regressão logística revelou que o preço médio de revenda
e algumas variáveis de região e estado influenciam a ocorrência do produto "etanol
hidratado".
Em conclusão, os dados analisados forneceram insights sobre a variação dos
preços médios de revenda de combustíveis e suas relações com outras variáveis. Os
resultados sugerem que fatores como região, estado e tipo de combustível podem
desempenhar um papel significativo na determinação dos preços. Essas informações
podem ser úteis para compreender o mercado de combustíveis e orientar decisões
relacionadas a políticas públicas e estratégias de negócios no setor.

2. DESCRIÇÃO DOS DADOS

Este relatório descreve a análise de dados de uma planilha obtida no site Kaggle
intitulada como “Freight Cost Dataset”, disponível no seguinte link:
https://www.kaggle.com/datasets/maheusfreitag/gaspricesinbrazil?
resource=download. No qual foi criada por Matheus Freitag e é focada nos preços de
combustíveis no Brasil. A base de dados possui 120.823 observações (linhas) e 18
colunas, em que, contém informações sobre preços de revenda de combustíveis em
postos de gasolina. Sendo que a mesma possui 7 colunas de variáveis quantitativas e
11 colunas de variáveis categóricas, onde as variáveis quantitativas fornecem
informações sobre os preços e margens de revenda, enquanto as variáveis categóricas
indicam a região e o estado onde o posto de gasolina está localizado. Dessa forma o
dicionário das variáveis são:
1. Data Inicial
2. Data Final
3. Região
4. Estado
5. Produto
6. Número de Postos Pesquisados
7. Unidade de Medida
8. Preço Médio Revenda
9. Desvio Padrão Revenda
10. Preço Mínimo Revenda
11. Preço Máximo Revenda
12. Margem Média Revenda
13. Coef de Variação Revenda
14. Preço Médio Distribuição
15. Desvio Padrão Distribuição
16. Preço Mínimo Distribuição
17. Preço Máximo Distribuição
18. Coef de Variação Revenda

Durante a análise inicial, algumas inconsistências e problemas de qualidade de


dados foram identificados, tais como: Valores ausentes, presença de outliers e erros de
digitação. É importante ressaltar que essas inconsistências foram corrigidas para
garantir a confiabilidade dos resultados.
3. ANÁLISE UNIVARIADA

Uma análise univariada da variável "Preço Médio de Revenda" foi conduzida


em uma amostra de 117.392 observações com o objetivo de obter insights e
estatísticas descritivas sobre sua distribuição. Os principais resultados obtidos são os
seguintes:

Figura 1 – Variável” Preço Médio de Revenda”

Fonte: Autor, 2023.


Essa análise revelou uma ampla variação, com valores mínimos de 0.766000 e
máximos de 107.500000. A média foi calculada em 11.415039, indicando o valor médio
dos preços de revenda. O desvio padrão, que foi de 19.149383, revela a dispersão dos
preços em relação à média. Os quartis mostraram que 25% dos preços médios de
revenda estão abaixo de 2.159000, 50% estão abaixo de 2.915000 e 75% estão abaixo
de 4.023000. Esses resultados resumem a distribuição do preço médio de revenda,
destacando a média, o desvio padrão e os quartis como medidas descritivas.
Posteriormente foi realizado o histograma dessa mesma variável, conforme figura 2.

Figura 2 – Histograma da variável” Preço Médio de Revenda”


Fonte: Autor, 2023.
O histograma revelou que a distribuição do preço médio de revenda do gás no
Brasil apresenta uma assimetria positiva, com a maioria dos valores concentrados em
intervalos de menor preço. Essa análise sugere que a maioria dos revendedores pratica
preços mais baixos, enquanto um número menor de revendedores pratica preços mais
elevados. Além disso, foi observada a presença de outliers, indicando casos atípicos de
preços de revenda. No entanto, esses valores não foram excluídos da análise, a fim de
representar os preços reais praticados, conforme podemos observar na figura 3.

Figura 3 – Boxplot da variável” Preço Médio de Revenda”

Fonte: Autor, 2023.

Foi realizada a análise da variável "Desvio Padrão Revenda" onde os principais


resultados obtidos foram os seguintes:
Figura 4 – Variável” Desvio Padrão Revenda”

Fonte: Autor, 2023.


A análise do desvio padrão da variável de revenda revela que os preços
apresentam uma ampla variação, com valores mínimos próximos de zero e um máximo
de 10.748. A média do desvio padrão é de aproximadamente 0.681, indicando que os
preços tendem a se concentrar próximo à média. Os quartis mostram que a maioria
dos desvios padrão é relativamente baixa, enquanto a presença do valor máximo
sugere a existência de valores extremos ou outliers que estão distantes da maioria.
Esses resultados resumem a variabilidade dos preços de revenda e podem auxiliar na
compreensão da dispersão dos dados.
Posteriormente, foi realizada uma análise das variáveis “Preço Mínimo de
Revenda” e ““Preço Máximo de Revenda”, conforme figura abaixo.

Figura 5 – “Preço Mínimo de Revenda” vs ““Preço Máximo de Revenda”

Fonte: Autor, 2023.

A análise das variáveis "Preço Mínimo de Revenda" e "Preço Máximo de


Revenda" revela que os preços apresentam uma ampla variação. O preço mínimo varia
de 0.59 a 100.00, com média de aproximadamente 9.92, enquanto o preço máximo
varia de 0.999 a 120.00, com média de aproximadamente 13.18. Ambas as variáveis
mostram uma variabilidade considerável, indicada pelos desvios padrão de 16.42 e
22.47, respectivamente. Os quartis revelam os limites para 25%, 50% e 75% dos
valores, mostrando a distribuição dos preços ao longo do intervalo. Esses resultados
fornecem uma visão sucinta da variação e distribuição dos preços mínimos e máximos
de revenda no conjunto de dados analisado. Já na figura 6 é possível a análise da
variável “Margem Média de Revenda”, conforme abaixo:

Figura 6 – “Margem Média de Revenda”

Fonte: Autor, 2023.


Os resultados indicam uma variação nos valores da margem de revenda, com a
maioria das margens sendo relativamente baixas. No entanto, a presença de valores
extremos negativos e um desvio padrão alto sugerem uma dispersão significativa nos
dados. Isso pode indicar a presença de margens de revenda atípicas e uma grande
variação na lucratividade entre os revendedores. Foi realizada a análise da variável
categórica “Região” através do gráfico de barras, como pode ser observado na figura 7.
Figura 7 – “Distribuição de Região”

Fonte: Autor, 2023.

Figura 8 – “Distribuição por Estados”


Fonte: Autor, 2023.
O gráfico de barras mostra que a região Nordeste tem a maior frequência,
seguida pela região Norte. As regiões Sudeste, Centro-Oeste e Sul têm frequências
progressivamente menores. Essa análise visual destaca a representatividade das
regiões nos dados e pode ajudar a identificar possíveis padrões ou tendências
regionais. Podemos visualizar melhor essa distribuição por estados, conforme figura 8.
Em contrapartida na figura 9, é possível visualizar a distribuição na variável categórica
“Produto".
Figura 9 – “Produto”
Fonte: Autor, 2023.
A análise dos dados revelou a distribuição dos produtos em uma amostra, com
base na contagem de ocorrências de cada produto. O óleo diesel foi o produto mais
frequente, seguido pela gasolina comum e o etanol hidratado. O GLP e o GNV tiveram
frequências intermediárias, enquanto a gasolina aditivada foi o produto menos
frequente. Essa análise fornece insights sobre a composição dos produtos na amostra
e pode ajudar a identificar tendências ou preferências dos consumidores em relação
aos diferentes produtos.

4. ANÁLISE BIVARIADA

O objetivo de realizar a análise bivariada entre as variáveis "Preço Médio de


Revenda" e "Desvio Padrão de Revenda" é identificar e compreender a relação
existente entre essas duas variáveis. Dessa forma, ao observar figura 10 podemos
notar que as variáveis "Preço Médio de Revenda" e "Desvio Padrão de Revenda" revela
a seguinte correlação:

Figura 10 – “Preço Médio de Revenda" e "Desvio Padrão de Revenda"

Fonte: Autor, 2023.


A análise bivariada entre as variáveis "Preço Médio de Revenda" e "Desvio
Padrão de Revenda" revelou uma forte correlação positiva de 0.907633. Isso indica
que, à medida que o preço médio de revenda aumenta, o desvio padrão de revenda
também tende a aumentar. Essa relação sugere que o aumento dos preços de revenda
está associado a uma maior variabilidade nos valores praticados pelos revendedores.
Esses insights podem auxiliar na compreensão da dinâmica do mercado de revenda e
nas estratégias de precificação adotadas pelos revendedores.
Foi realizado uma comparação do preço médio de revenda entre diferentes
regiões, conforme figura abaixo.

Figura 11 – “Preço Médio de Revenda" por “Região"

Fonte: Autor, 2023.

A análise bivariada comparando o preço médio de revenda entre diferentes


regiões revelou que a região Norte possui o maior preço médio de revenda, seguida
pela região Centro-Oeste. As regiões Nordeste, Sudeste e Sul apresentam preços
médios de revenda próximos entre si, porém mais baixos em comparação com as
outras regiões mencionadas. Esses resultados destacam as variações regionais nos
preços de revenda.
Posteriormente, foi realizada a mesma análise bivariada porém por estado
conforme figura 12.
Figura 12 – “Preço Médio de Revenda" por “Estado"
Fonte: Autor, 2023.

É possível observar que o Acre possui o maior preço médio, seguido pelos
estados do Amapá, Mato Grosso e Rondônia. Por outro lado, os estados da Bahia,
Espírito Santo, Pernambuco e Rio de Janeiro apresentaram os preços médios mais
baixos. Essa análise ressalta as variações nos preços médios de revenda entre os
estados, refletindo fatores como custos de distribuição, impostos e concorrência local.
Realizamos uma tabulação cruzada em formato de gráfico com as variáveis
"Região" e “Produto” conforme figura 13.
Figura 13- "Região" e “Produto”

Fonte: Autor, 2023.

A análise da tabela de frequência cruzada entre Região e Produto revelou a


distribuição dos produtos em cada região. Os resultados indicam que o "Óleo Diesel" é
o produto mais comum em todas as regiões. No Centro-Oeste, Nordeste, Norte,
Sudeste e Sul, ele é seguido pela "Gasolina Comum" como o segundo produto mais
comum. Além disso, o "Etanol Hidratado" também é bastante presente em todas as
regiões, ocupando a terceira posição em termos de frequência. Ao correlacionar o
"Preço Mínimo de Revenda” com o “Preço Médio de Revenda” encontramos o
seguinte resultado:

Figura 14- "Preço Mínimo de Revenda” e “Preço Médio de Revenda”


Fonte: Autor, 2023.
A figura 14 apresenta um gráfico de dispersão que apresenta a frequência de
ocorrências de diferentes combinações de preços mínimos e médios de revenda. Ela
mostra a contagem de casos em que determinado preço mínimo de revenda está
associado a determinado preço médio de revenda. Essa tabela fornece uma visão geral
da distribuição dos preços mínimos e médios de revenda, permitindo identificar
padrões ou discrepâncias nos preços.

5. ANÁLISE MULTIVARIADA

Foi realizada uma análise de correlação com o objetivo de explorar possíveis


associações ou relações entre essas variáveis. Essa análise busca entender se existem
padrões ou tendências entre o número de postos pesquisados, o preço médio de
revenda, a variabilidade dos preços e a margem de lucro nos postos de revenda de
combustíveis, conforme mostra a figura 15.

Figura 15- “Matriz de correlação”


Fonte: Autor, 2023.

Sendo assim, a matriz de correlação mostra a relação entre as variáveis


numéricas selecionadas. Observa-se que o número de postos pesquisados não possui
uma correlação significativa com as outras variáveis. Existe uma forte correlação
positiva entre o preço médio de revenda e o desvio padrão de revenda. A margem
média de revenda não apresenta correlação significativa com as outras variáveis. Essa
análise de correlação ajuda a entender as relações entre as variáveis e pode fornecer
insights sobre possíveis padrões nos preços.
Já a regressão simples foi realizada para investigar a relação entre a variável
independente “número de postos pesquisados” e a variável dependente “preço médio
revenda”. O objetivo é determinar se o número de postos pesquisados tem algum
efeito significativo no preço médio de revenda dos combustíveis.

Figura 16- Regressão Simples


Fonte: Autor, 2023.

Os resultados da regressão mostram que o coeficiente da variável 'Número de


Postos Pesquisados” é de -0.0004, indicando uma relação negativa com o preço médio
de revenda. Isso significa que, em média, um aumento no número de postos
pesquisados está associado a uma leve diminuição no preço médio de revenda. No
entanto, é importante observar que o coeficiente é muito próximo de zero e o R-
quadrado, que mede o ajuste do modelo aos dados, é muito baixo (0.000). Isso indica
que a variável “Número de Postos Pesquisados” tem pouca capacidade de explicar a
variação no preço médio de revenda.
Além disso, o valor de p-valor para a variável “Número de Postos Pesquisados”
é de 0.012, o que indica que existe uma evidência estatística fraca para rejeitar a
hipótese nula de que o coeficiente é igual a zero. Isto é, os resultados da regressão
simples sugerem uma relação fraca e negativa entre o número de postos pesquisados
e o preço médio de revenda, mas essa relação não é estatisticamente significativa e a
capacidade de explicação do modelo é baixa.
No estudo em questão, foi realizada uma regressão logística para prever a
ocorrência do produto "Etanol Hidratado" com base em 13 variáveis independentes.
Conforme figura 17.
Figura 17- Regressão Logística
Fonte: Autor, 2023.

Os resultados revelaram que o preço médio de revenda possui uma relação


inversa significativa com a probabilidade do produto. Além disso, algumas variáveis
indicadoras de região e estado também apresentaram coeficientes estatisticamente
significantes, indicando uma influência na ocorrência do produto.
Por fim, foi realizada a análise de clusters onde o conjunto de dados fornecido
contém informações sobre o preço médio de revenda, desvio padrão de revenda e
margem média de revenda de um determinado produto. Além disso, cada amostra
está atribuída a um cluster específico. O objetivo é analisar essas características em
relação aos clusters e identificar possíveis padrões ou diferenças significativas entre
eles.

Figura 18- Análise clusters


Fonte: Autor, 2023.

A análise utilizando o algoritmo de agrupamento K-means revelou a existência


de três clusters distintos com base nas variáveis de preço médio de revenda e desvio
padrão de revenda. Cada cluster representa um grupo de postos de gasolina com
características semelhantes. Os clusters apresentam diferenças significativas nas
médias das variáveis, indicando diferentes perfis de postos de gasolina. Essa análise
pode auxiliar na compreensão do mercado e na identificação de oportunidades ou
desafios específicos para cada grupo de postos de gasolina.

6. CONSIDERAÇÕES FINAIS

Com base na análise realizada no relatório, podemos concluir que os preços


médios de revenda de combustíveis no Brasil apresentam uma ampla variação, tanto
dentro de cada região e estado quanto entre eles. Essa variação está relacionada a
diferentes fatores, como o tipo de combustível, características regionais e estaduais, e
a própria variabilidade dos preços. Observou-se uma correlação positiva entre o preço
médio de revenda e o desvio padrão, indicando que a variabilidade dos preços está
relacionada ao seu valor médio. Além disso, verificou-se que os preços médios de
revenda variam entre diferentes regiões e estados, sugerindo a influência desses
fatores na determinação dos preços. A análise também revelou que o número de
postos pesquisados não possui uma relação significativa com as outras variáveis,
indicando que a quantidade de postos não é um fator determinante para os preços de
revenda. Considerando essas informações, é importante destacar a importância de
políticas públicas e estratégias de negócios que levem em conta essas variações
regionais e estaduais, bem como a necessidade de monitoramento constante dos
preços de revenda para garantir a transparência e a concorrência saudável no setor de
combustíveis.

Você também pode gostar