Você está na página 1de 18

Universidade Federal de Minas Gerais – UFMG

Aplicação de técnicas de estatística multivariada para


construção de modelo de seleção de módulos
fotovoltaicos
Apresentação referente à monografia entregue ao Curso de Especialização em Estatística do Instituto
de Ciências Exatas da Universidade Federal de Minas Gerais, como requisito parcial à obtenção do
título de Especialista em Estatística, com ênfase em Indústria e Mercado.

Aluno: Marcone Dutra Mesquita


Orientadora: Profa. Dra. Sueli Aparecida Mingoti

Belo Horizonte, 02 de outubro de 2020


Agenda

1. Contexto e justificativa
2. Base de dados
3. Análise estatística
4. Resultados

2
Mercado de energia elétrica
Matriz energética do Brasil, Mundo e União Européia (IRENA-2019)
A matriz energética brasileira se caracteriza por maior proporção
de capacidade instalada em empreendimentos de geração
hidrelétrica.

Na média mundial, há participação mais acentuada em fontes de


energia solar que no Brasil (19,63% vs 1,7%). Regiões com acesso
mais escasso a fontes hídricas tendem a concentrais mais ainda
suas matrizes nas fontes eólicas e solares.

Antes de 2018, empreendimentos fotovoltaicos requeriam


preços elevados para se viabilizarem economicamente. A partir
Preço médio da energia fotovoltaica nos leilões da ANEEL de 2018, se observa mudança nesse paradigma, o que pode
indicar que os empreendedores do setor estão conseguindo
R$/MWh - dez/2019

66,68 performar com maior competitividade.


363,50 353,46 123,45
282,04
O Plano Decenal de Expansão de Energia indica que a capacidade
instalada em empreendimentos fotovoltaicos deve subir de
01/2018

03/2019
Leilão 8/2014

Leilão 8/2015

Leilão 9/2015

Leilão

Leilão
~2GW (2019) até ~8,6GW (2027) para a geração centralizada.
Já para a geração distribuída, a elevação prevista é de ~0,3GW
(2019) para ~8,8GW (2027)

3
Mercado fotovoltaico no Brasil
Tipo convencional de geração de energia, no qual se implantam grandes empreendimento, conectados ao Sistema
Geração Centralizada Integrado Nacional por meio de linhas de transmissão e estruturas de distribuição de energia.

Geração de energia menos dependente da estrutura de transmissão e distribuição, normalmente empreendimentos


Geração Distribuída implantados próximo ao consumidor final, sendo também muitas vezes empreendimentos de porte menor.

Autoprodução Tipo de geração distribuída em que o gerador e o consumidor são o mesmo agente.

Evolução da disponibilidade de módulos (Procel) Evidências do crescimento do mercado:


• Redução dos preços de leilão
300 ~15% • Aumento da disponibilidade de módulos fotovoltaicos e fornecedores
~17% • Projeções do Plano Decenal de Expansão de Energia
200
• Viés de diversificação da matriz energética
215 248 35 41
100
Consequências para os empreendedores futuros do setor:
0 • Maior gama de produtos para contemplar na escolha durante a
Número de Módulos Número de Fornecedores implantação dos projetos
ago/19 ago/20
• O objetivo deste projeto é propor agrupamento dos módulos
disponíveis, por meio de métodos de análise de cluster, de modo a
facilitar a comparação entre eles. 4
Agenda

1. Contexto e justificativa
2. Base de dados
3. Análise estatística
4. Resultados

5
Fontes de dados e tratamentos realizados
Programa Nacional de
Conservação de Energia Base de dados dos módulos, contendo dados técnicos por fabricante e por modelo - referência ago/2019
Elétrica (Procel)

Produção mensal média


Área do módulo (m²)
de energia (kWh/mês)

Potência na condição
Código do modelo Eficiência energética (%)
padrão (Wp)

Corrente no ponto de
Peso do módulo (kg)
máxima potência (A)

Banco de dados do histórico de importações, nesse caso filtrado para a importação de módulos fotovoltaicos
Receita Federal (conforme Nomenclatura Comum do Mercosul – NCM 85414032) - histórico de jan/2016 a ago/2019

Histórico de importações Dado segregado por


Código do modelo
desde 2016 movimentação

Apurada a média por


módulos (USD/Wp)
6
Análise de dados (parte 1)
Dos 215 módulos registrados no Procel em agosto de 2019, somente para 79 deles foi possível apurar os dados de
Consolidação das bases preços da Receita Federal.

Matriz de correlação das variáveis analisadas


Corrente no ponto Produção de energia Eficiência energética
Área (m²) Potência Pico (Wp) Peso (kg)
máximo (A) (kWh/mês) (%)
Potência Pico (Wp) 0,97
Corrente no ponto máximo (A) 0,68 0,76
Produção de energia (kWh/mês) 0,97 1,00 0,76
Eficiência energética (%) 0,68 0,84 0,79 0,84
Peso (kg) 0,89 0,84 0,53 0,84 0,52
Preço (U$/Wp) -0,62 -0,71 -0,54 -0,71 -0,73 -0,54

Dispersão entre as variáveis estudadas padronizadas


Há evidências de relacionamento entre as variáveis: a potência está fortemente relacionada
com a energia gerada, a corrente é relacionada com a potência, todas elas são relacionadas
com o tamanho do módulo (área) e a eficiência do mesmo, o que se reflete, ultimamente,
no nível de preço.

Inicialmente, não foram removidas variáveis a partir desse critério, uma vez que não há
restrição de uso de variáveis correlacionadas para a análise de cluster. Os métodos de
agrupamento se utilizam de distâncias (ou similaridades) para comparar elementos
amostrais e podem ser usadas para qualquer tipo de matriz de covariâncias desde que seja
positiva definida.

7
Análise de dados (parte 2)
Estatísticas descritivas das variáveis analisadas
Variável Média DesvPad Mínimo Q1 Mediana Q3 Máximo
Potência Pico (Wp) 290,38 65,69 95,00 260,00 315,00 330,00 400,00
Corrente no ponto máximo (A) 8,53 0,79 4,90 8,39 8,69 8,85 10,34
Produção de energia (kWh/mês) 36,29 8,21 11,88 32,50 39,38 41,25 50,00
Eficiência energética (%) 16,50 1,17 13,70 16,00 16,50 17,00 19,20
Área (m²) 1,74 0,33 0,67 1,63 1,94 1,94 2,21
Peso (kg) 20,62 4,52 7,70 18,50 21,60 22,50 33,10
Preço (U$/Wp) 0,36 0,10 0,22 0,27 0,35 0,43 0,65

Como as variáveis apresentam unidades de medida distintas e seus patamares observados apresentam ordens de grandeza consideravelmente
diferentes, as análises de agrupamento serão realizadas em termos das variáveis padronizadas (ou seja, alterando a média para zero e o desvio
padrão para 1). Desse modo se reduz a possibilidade de atribuir, a alguma variável, maior peso durante o processo de separação de observações entre
grupos simplesmente pelo fato de apresentar valores absolutos maiores que os das demais variáveis analisadas, como é o caso da variável “Potência
pico”

• Além do elevado número de módulos disponíveis, o consumidor ou


fornecedor pode contemplar até 7 variáveis sobre cada um eles em seu
processo de decisão, reforçando a importância de se buscar métodos
de simplificação da comparabilidade entre deles.

8
Agenda

1. Contexto e justificativa
2. Base de dados
3. Análise estatística
4. Resultados

9
Síntese do método aplicado
Parte 1 – Métodos
Aplicação de métodos de ligação simples, ligação completa, ligação média, e Ward
hierárquicos

Parte 2 – Métodos não


Aplicação do método k-médias
hierárquicos

Complemento – Redução Utilização da matriz de correlação como matriz de distância e aplicação de métodos de ligação simples e de ligação
do número de variáveis completa

𝑑𝑖𝑙 • Foram consideradas distâncias euclidianas entre os elementos.


A 𝑆𝑖𝑙 = 1 − × 100
𝑚𝑎𝑥 𝑑𝑗𝑘 , 𝑗, 𝑘 = 1,2, … , 𝑛
• A escolha do número de grupos é realizada na Parte 1 é realizada ao se comparar
𝑔∗ 𝑛𝑖 as estatísticas similaridade (A), R² (B) e Pseudo-F (C). No caso, pretende-se apurar

𝑆𝑆𝑇𝑐 = ෍ ෍ 𝑋𝑖𝑗 − 𝑋ത 𝑋𝑖𝑗 − 𝑋ത número pequeno de grupos, contanto que não se perca muita similaridade nem R²
𝑆𝑆𝐵 e principalmente se a estatística Pseudo-F permitir a identificação do número
B 𝑅2 = 𝑖=1 𝑗=1
𝑆𝑆𝑇𝑐 𝑔 ∗ “natural” de grupos.
𝑆𝑆𝐵 = σ𝑖=1 𝑛𝑖 𝑋ത𝑖. − 𝑋ത ′
𝑋ത𝑖. − 𝑋ത
• Na parte 2 é considerada como semente do método não hierárquico o
𝑆𝑆𝐵Τ 𝑔∗ − 1 𝑛 − 𝑔∗ 𝑅2 agrupamento segundo a metodologia que apresentar melhores resultados em
C 𝐹= = relação ao R². Novamente se compara a solução por esse método às soluções da
𝑆𝑆𝑅Τ 𝑛 − 𝑔∗ 𝑔∗ − 1 1 − 𝑅2
Parte 1.
𝑔∗ 𝑛𝑖

𝑆𝑆𝑅 = ෍ ෍ 𝑋𝑖𝑗 − 𝑋ത𝑖. 𝑋𝑖𝑗 − 𝑋ത𝑖.
𝑖=1 𝑗=1 10
Parte 1 - Comparativo de similaridades
120,00 0,0%
-0,1%
-2,0%
-4,8%
100,00 -2,9%
-4,0%
-7,7%
-6,0% -11,0%

Δ Nível de similaridade
-10,5%
Nível de similaridade

80,00
-8,0% -13,0%
-17,3%
60,00 -10,0%
Ward (g=5); -12,0%
74,97
40,00
Ward (g=3); -14,0%
55,38
-16,0%
20,00
-18,0%

- -20,0%
15 14 13 12 11 10 9 8 7 6 5 4 3 6 5 4 3
Número de Grupos Número de Grupos

Ligação Completa Ligação Simples Ligação Média Ward Ligação Completa Ligação Simples Ligação Média Ward

Ao se analisar somente a similaridade, já é possível identificar os primeiros candidatos a número de grupos (g=5, 4 ou 3)

11
Parte 1 - Comparativo de R² e Pseudo-F
100,00% 120,00
Ward; 82,12%
90,00%
Ward; 72,25% 100,00
80,00%

70,00%
80,00
60,00%

Pseudo-F
50,00% 60,00

40,00%
40,00
30,00%

20,00%
20,00
10,00%

- -
15 14 13 12 11 10 9 8 7 6 5 4 3 2 15 14 13 12 11 10 9 8 7 6 5 4 3 2
Ligação Completa Ligação Simples Ligação Média Ward Ligação Completa Ligação Simples Ligação Média Ward

Com relação ao R², na faixa a partir de 14 grupos até 2 grupos, a ordem de resultados de melhor método seria o de Ward, o de ligação completa, o de
ligação média e o de ligação simples. Já sob a perspectiva do Pseudo-F não se observa convergência, posto que cada método apresenta pico para um
número diferente de grupos.
12
Parte 1 – Seleção do método de Ward
Número de grupos
Estatística Método
15 14 13 12 11 10 9 8 7 6 5 4 3
Similaridade

Ligação Completa 84,84 83,74 81,47 81,23 79,44 76,11 75,66 75,18 72,30 70,87 65,38 62,30 54,20
Ligação Simples 93,06 92,66 92,60 92,18 91,45 86,87 86,72 86,26 85,96 84,91 84,84 81,60 72,59
Ligação Média 89,21 88,07 87,12 84,84 84,40 81,28 80,82 80,56 78,01 77,49 75,21 71,87 68,40
Ward 96,55 96,29 95,50 93,96 93,15 92,67 88,22 87,33 84,86 83,74 74,97 66,99 55,38
Ligação Completa 1,79 1,92 2,18 2,21 2,42 2,82 2,87 2,93 3,26 3,43 4,08 4,44 5,40
distância
Nível de

Ligação Simples 0,82 0,87 0,87 0,92 1,01 1,55 1,57 1,62 1,65 1,78 1,79 2,17 3,23
Ligação Média 1,27 1,41 1,52 1,79 1,84 2,21 2,26 2,29 2,59 2,65 2,92 3,31 3,72
Ward 4,80 5,16 6,25 8,39 9,52 10,18 16,36 17,60 21,03 22,59 34,77 45,86 61,98
Ligação Completa 96,03% 95,33% 93,87% 91,80% 91,16% 90,27% 89,34% 86,77% 84,57% 83,86% 82,24% 69,37% 65,17%
Ligação Simples 85,68% 85,48% 85,27% 85,06% 84,04% 66,80% 64,16% 62,68% 60,47% 59,68% 59,39% 58,45% 55,14%

Ligação Média 95,87% 93,76% 91,69% 91,40% 90,90% 86,73% 84,17% 83,44% 82,51% 80,45% 59,98% 58,45% 56,84%
Ward 96,03% 95,56% 94,98% 94,21% 93,34% 92,41% 90,91% 89,30% 87,38% 85,31% 82,12% 77,92% 72,25%
Ligação Completa 110,53 102,12 84,17 68,17 70,09 71,13 73,32 66,54 65,75 75,83 85,69 56,63 71,12
Pseudo-F

Ligação Simples 27,35 29,43 31,84 34,68 35,81 15,43 15,67 17,03 18,36 21,61 27,05 35,18 46,70
Ligação Média 106,14 75,09 60,67 64,70 67,95 50,13 46,52 51,11 56,61 60,10 27,73 35,18 50,05
Ward 110,53 107,51 104,13 99,19 95,35 93,36 87,54 84,66 83,06 84,77 84,99 88,25 98,93

Apesar da divergência entre os métodos, uma vez que nem todos indicam como ideal o mesmo número de grupos, foi considerado como método
hierárquico de referência o método de Ward com 5 grupos, uma vez que apresenta o segundo maior R² entre os demais candidatos (82,12%) e com
nível de similaridade razoavelmente elevado (74,97). Seria possível alternativamente selecionar o método de ligação completa, com 5 grupos, embora
apresente R² mais elevado (82,24%), mas muito próximo do valor do método de Ward, seu nível de similaridade é o pior entre os métodos testados
(65,38).

13
Parte 2 – Método k-médias, comparativo com Ward (g=5)
6
5
4
Ao se utilizar o método das k-médias com as variáveis
Grupo

3
2 padronizadas, a partir das sementes produzidas pelo
1
0
agrupamento construído por meio do método de Ward para
SF 125X125 - 72…

AC-300M/156-…

AC-360M/156-…
5 grupos, apura-se que apenas 1 módulo é realocado em

CS6U-320P
CS6U-325P
CS6U-330P
CS6U-330P
CS6U-335P

CS6U-325P

CS3U-350P
CS3U-355P
CS3U-360P
BYD330PHK-36
BYD335PHK-36
BYD320P6K-36
AC-250P/156-60S
AC-260P/156-60S
AC-270P/156-60S

BYD 325P6K-36

CS6P-265P
CS6P-260P

CS3W-400P
CS6X-310P

CS6K-270P
CS6X-315P

CS6X-320P
AC-350M/72S
grupo distinto ao indicado pelo método Ward

6
5 Ward k=5 K-means, seed = Ward k=5 O valor do R² para o k-médias é igual a 82,33%, levemente
4
Grupo

3 superior aos 82,12% (método de Ward g=5).


2
1
0

JAM72S03-…
JAM72S03-…
JST150P36
JST250P60
PLM-265P
PLM-325P-72
PLM-330P-72

JAP72S01-320/SC

JAP60S01-275/SC
JAP60S01-270/SC
JAP72S01-330/SC
JAP72S03-335/SC
JAP72S01-325/SC
HR-260P
HR-260P-18/Bp
HR-275P-18/Bb
HR-330P-24/Ba

BWSM100M36

GCL-P6/72H330
GCL-P6/72H335
GCL-P6/72H340
GCL-P6/72H345

CORAL 260 P-60


JKM265PP-60
JKM335PP-72
JST100P(36)

O agrupamento definitivo escolhido para os dados de


módulos fotovoltaicos comercializados no Brasil foi o
sugerido pelo agrupamento não-hierárquico k-médias, com
6 as variáveis padronizadas para 5 grupos e distância
5 Ward k=5 K-means, seed = Ward k=5 euclidiana, utilizando-se como semente inicial o resultado do
4
Grupo

3 agrupamento obtido pelo método hierárquico de Ward


2
1
também com as variáveis padronizadas, para 5 grupos e
0 distância euclidiana ao quadrado.
AD260-60P
SL250TU-30P
SL300TU-36P
KD-P265
KD-P310

RSM60-6-260P

YL095P-17B
YL140P-17B
RSM72-6-370M
RSM72-6-330P
RSM72-6-370M
RSM144-6-340P

YL255P-29b
YL260P-29b
YL270P-29B
CORAL 310-P-72

TP672P-330

YL275D-30b
YL300P-35b
HR-315P-24/Ba
HR-315P-24/Ba
HR-315P-24/Ba
KM(P) 150
KM(P) 250
S 140P

HR-260P-18/Bp

Ward k=5 K-means, seed = Ward k=5


14
Agenda

1. Contexto e justificativa
2. Base de dados
3. Análise estatística
4. Resultados

15
Agrupamento dos módulos
Modelos
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 o Grupo 1 contém as informações dos módulos que, em média,
JST100P(36) AC-250P/156-60S AC-300M/156-60S CORAL 310-P-72 BWSM100M36 apresentam menores potências pico, corrente no ponto máximo,
SF 125X125 - 72 - M (L) AC-260P/156-60S AC-350M/72S CS6U-320P JST150P36 produção de energia, eficiência energética, área e peso, e maior preço
YL095P-17B AC-270P/156-60S AC-360M/156-72S CS6U-325P KM(P) 150
médio por watt pico.
AD260-60P BYD 325P6K-36 CS6U-325P S 140P
CORAL 260 P-60 BYD320P6K-36 CS6X-310P YL140P-17B
CS6K-270P BYD330PHK-36 CS6X-315P
CS6P-260P BYD335PHK-36 CS6X-320P O Grupo 2 foi composto pelos valores intermediários médios das
CS6P-265P CS3U-350P HR-315P-24/Ba variáveis analisadas.
HR-260P CS3U-355P HR-315P-24/Ba
HR-260P-18/Bp CS3U-360P HR-315P-24/Ba
HR-260P-18/Bp CS3W-400P HR-330P-24/Ba O Grupo 3 foi formado pelos módulos que, em média, apresentam
HR-275P-18/Bb CS6U-330P JAP72S01-320/SC
JAP60S01-270/SC CS6U-330P JAP72S01-325/SC
maiores potências pico, corrente no ponto máximo, produção de
JAP60S01-275/SC CS6U-335P KD-P310 energia, eficiência energética, área e peso, e menor preço médio por
JKM265PP-60 GCL-P6/72H330 SL300TU-36P watt pico.
JST250P60 GCL-P6/72H335 YL300P-35b
KD-P265 GCL-P6/72H340
KM(P) 250 GCL-P6/72H345 O Grupo 4 se difere do Grupo 2 quanto às variáveis potência pico,
PLM-265P JAM72S03-375/PR
RSM60-6-260P JAM72S03-380/PR
produção de energia, área e peso sendo maiores no grupo 4.
SL250TU-30P JAP72S01-330/SC
YL255P-29b JAP72S03-335/SC
YL260P-29b JKM335PP-72 O Grupo 5 se difere do Grupo 1 principalmente em termos da corrente
YL270P-29B PLM-325P-72 elétrica no ponto máximo, sendo maior no grupo 5.
YL275D-30b PLM-330P-72
RSM144-6-340P
RSM72-6-330P
RSM72-6-370M
RSM72-6-370M
TP672P-330
16
Redução do número de variáveis
Ligação simples Em ambas metodologias seria possível, caso todas as variáveis não estejam
disponíveis, selecionar somente uma entre as variáveis Potência, Produção, Área
N° de Nível de
Passo
grupos
Fusão
fusão e Eficiência, conforme nível de fusão apurado para elas. Como os resultados são
1 6 {Pot, Prod} - convergentes, optou-se pela adoção do método de Ligação Simples.
2 5 {Pot, Prod, Área} 0,032
3 4 {Pot, Prod, Área, Eficiência} 0,033 A variável eficiência, que é uma variável muito emblemática no mercado de
4 3 {Pot, Prod, Área, Eficiência, Preço} 0,106 módulos fotovoltaicos, será priorizada, nessa alternativa simplificada
5 2 {Pot, Prod, Área, Eficiência, Preço, Peso} 0,160
6 1 {Pot, Prod, Área, Eficiência, Preço, Peso, Corrente} 0,210 O grupo 3 é composto, em média, pelos módulos de menor preço por Wp e maior
eficiência energética.

Ligação completa Os grupos 2 e 4 são similares em termos do preço por Wp e da eficiência (ambos
N° de Nível de
representam, em média, valores superiores de preço e inferiores de eficiência em
Passo Fusão comparação aos respectivos valores médios do grupo 3), mas se diferenciam
grupos fusão
1 6 {Pot, Prod} - principalmente quanto ao peso dos módulos, sendo os pesos do grupo 2 menores
2 5 {Pot, Prod, Área} 0,033
que os do grupo 4, em média, o que pode representar maiores custos da
3 4 {Pot, Prod, Área, Eficiência} 0,165
4 3 {Pot, Prod, Área, Eficiência, Preço} 0,210 estrutura física necessária para a implantação dos módulos do grupo 4 em
5 2 {Pot, Prod, Área, Eficiência, Preço, Peso} 0,294 comparação aos do grupo 2.
6 1 {Pot, Prod, Área, Eficiência, Preço, Peso, Corrente} 0,477
Os grupos 1 e 5 contemplam módulos que, em média, são similares em termos
do preço por Wp, eficiência e de seus pesos (os preços são, em média, superiores
ao médios observados dos grupos 2 e 4), mas se diferem entre si principalmente
quanto à corrente elétrica presente no módulo na potência máxima, sendo a
corrente elétrica do grupo 1 menor que a do grupo 5, em média, o que pode
representar a necessidade de cabeamento mais espesso e mais caro para os
módulos do grupo 5 em comparação aos módulos do grupo 1
17
Universidade Federal de Minas Gerais – UFMG

Obrigado

Marcone Dutra Mesquita


marcone.dutra@yahoo.com.br

Você também pode gostar