0026 AnirvinNarayan Matemática HL IA

1
Avaliação dos métodos empíricos de cálculo do coeficiente de

Gini
2
I. Introdução, Objetivos e Justificativa
A desigualdade econômica é uma questão persistente e urgente que tem a potência de
despertar ressentimento entre a população de uma nação, dar origem a convulsões sociais e
econômicas e provocar fortes argumentos sobre sua magnitude, impactos e possíveis
soluções. Só me interessei pela questão da desigualdade global depois de testemunhar
diferentes graus de pobreza dentro e entre as áreas de residência que dominaram minha vida:
Índia (várias áreas internas) e Cingapura. É fascinante ver que desigualdades tão drásticas
podem existir nas pequenas proximidades das cidades, como se vê na figura abaixo.
Figura 1: Índia: Pobreza e riqueza no mesmo terreno
Fiquei curioso para saber como foi calculada uma medida tão crucial que definiu várias
políticas governamentais, suportando a disparidade de renda dentro de uma região geográfica
e a vastidão de dados necessários para um cálculo preciso em países como a Índia. Isso levou
à minha pesquisa básica na área a partir da qual descobri a prevalência da matemática na
generalização de fórmulas para representar a desigualdade econômica. Através das aulas na
escola, pude reconhecer os princípios básicos por trás de algumas dessas fórmulas que me
instigaram ainda mais a investigar. Isso porque, um desejo adicional meu era aplicar o estudo
profundo que fizemos de cálculo e séries na escola a algo mais tangível e real.
Assim, para entender o processo de tornar a matemática referente a situações sociopolíticasda

vida real confiável e confiável, decidi focar na desigualdade de renda, comparando várias
formas de calcular o Coeficiente de Gini (um padrão global), particularmente a da Índia.
Através da investigação, vou identificar as razões da falta de confiabilidade (se houver) e
entender o que seria uma medida perfeita de desigualdade econômica.
II. Informações Básicas

O Coeficiente de Gini é a medida de desigualdade mais conhecida e amplamente empregada,
3
sendo um padrão nos cálculos governamentais. Seu nome é uma homenagem ao seu
fundador, Corrado Gini, que o descobriu em 1912. O valor do Coeficiente de Gini de uma
região varia entre 0 e 1 e é baseado na renda líquida dos moradores. Aqui, 0 representa a
igualdade perfeita com cada residente ganhando a mesma renda e 1 representa a
desigualdade perfeita onde 1 pessoa ganha toda a renda (Bourne). Como tal, um valor mais
elevado do coeficiente de Gini significaria uma maior disparidade entre os rendimentos dos
mais ricos e dos mais pobres de uma determinada região.
Existem várias maneiras diferentes de calcular o coeficiente de Gini. Estes incluem métodos
gráficos que envolvem a acumulação de vários pontos de dados e frequências, como a curva
de Lorenz, e métodos mais teóricos, como a função de distribuição de Pareto. Estes são os 2
métodos que vou analisar e comparar entre si.
A confiabilidade será baseada na proximidade dos valores extraídos de cada método com o
valor divulgado pelo governo indiano para o ano de 2013 que foi de G=0,510 em 2013 (Nair).
Método 1: Usando a curva de Lorenz: regra de trapézio

A maneira mais comum de visualizar o coeficiente GINI é através da curva de Lorenz
generalizada.
Figura 2: A linha de equidade perfeita e uma curva de Lorenz arbitrária

4
Em referência à Figura 2, essa curva mostra os percentuais de uma população definida
disposta dos mais pobres aos mais ricos no eixo horizontal ( x ) e o percentual acumulado da
renda desfrutada por um segmento da população de uma nação. Por exemplo, o Quintil 3
mostra a porcentagem acumulada de renda ou riqueza pelos 1º, 2º e 3º quintis combinados.
Como 0% da população tem 0% da renda, a curva passa pelo ponto A (0, 0) e como 100% da
população usufrui de toda a renda, a curva passa pelo ponto B (1,1) como visto no diagrama.
Como tal, uma curva de Lorenz vai de um canto do quadrado da unidade até o canto
diagonalmente oposto. Isso serve como referência para uma distribuição de renda
perfeitamente igual indicada pela curva L0(x) .
10x -
A Figura 2 mostra uma curva de Lorenz arbitrária, mas possível, . O grau de
L1(x) = 1023
a desigualdade de renda é definida pelo desvio da curva de Lorenz da linha da
desigualdade perfeita. Esse desvio (coeficiente de Gini) é medido pela área abaixo da
curva de Lorenz, como observaremos.
Com um gráfico de curva de Lorenz como o acima, podemos medir o coeficiente de Gini.
A fórmula geral a ser utilizada na investigação é representada pela seguinte integral:
∫
G = 2 0 1L 0(x)-L(x)dx
Este calcula a área entre a curva de desigualdade perfeita e uma curva de Lorenz dividida
pela área sob a curva de desigualdade perfeita. Na Figura 1, por exemplo, o coeficiente de
Gini de L 1 (x) é medido como a área LA (área de Lorenz) entre a curva e L 0 (x) dividida
pela área sob L 0 (x) como destaque em magenta e laranja, respectivamente. Uma vez
que, no ponto B, as coordenadas são (1,1) , este forma um triângulo retângulo com o
ponto A e (1,0) sendo os outros dois vértices, que é destacado em um tom claro de laranja.
1 1 Portanto, a
área sob a curva de equidade é a área sob um triângulo, que é 2×1×1= 2 .
Como tal, o coeficiente de Gini pode ser geralmente escrito como:
G= AE = 2 AE←⎯→ AE = G
1/2
2
onde LA é a área entre as duas curvas citadas acima e G é o coeficiente de Gini de L 2(x) ,
com referência à Figura 2. No entanto, a fórmula geral é difícil de empregar em situações
da vida real. Isso ocorre porque, as nações coletam dados brutos de sua população em
grande número, o que pode ser difícil de formular como um gráfico generalizado. Eu
5
tentará fazer isso usando a regra do trapézio com um conjunto limitado de dados
adquiridos a partir dos dados oficiais do censo das faixas de renda da Índia, como visto na
tabela a seguir.
Proporção da Proporção do
População: Rendimento
(convertendo % (conversão de %
em decimais) xi em decimais yi
1 0 0
2 0,2 (primeiro 0.061
quintil)
3 0.153
0,4 (segundo quintil)
4 0,6 (terceiro quintil) 0.279
5 0.468
0,8 (quarto quintil)
6 1 (quinto quintil) 1.0
Tabela 1: Tabela de frequência acumulada Figura 3: Gráfico de dispersão da proporção de renda

representando a renda da Índia em quintis quintil da Índia
A regra do trapézio refere-se a uma regra de integração numérica que estima a área sob
uma curva. Como tal, é uma forma de estimar integrais de curvas segregando a área sob
a curva em um número de trapézios, cujas áreas são então somadas. Para encontrar o
coeficiente de Gini, os pontos de dados da Tabela 1 podem ser usados para formular um
número de trapézios para representar uma Curva de Lorenz estimada, como pode ser
6
visto na figura abaixo:
Figura 4: Área sob uma curva de Lorenz estimada, formulada
com a regra do trapézio
7
Aqui, a área somada dos trapézios T1, T2, T3 e T4 e o triângulo TR1 (em vermelho)
subtraindo pela área de TR0 (em verde) representa a área de LA. A área de TR0, o
triângulo abaixo de L0 (x) é 1/2. Assim, de acordo com a fórmula citada acima, o
coeficiente de Gini estimado pela regra do trapézio será:
=0,5-(0,01+0,02+0,04+0,07+0,15)=0,21=0,420
G
0.5 0.5
Esse valor é uma grande subestimação do valor declarado pelo governo do coeficiente, que é
G=0,510. Isso sugere que a regra do Trapézio resulta na presença de um viés negativo para o
cálculo do coeficiente de Gini, tornando-o uma medida amplamente ineficaz.
8
Método 2: Usando a Curva de Lorenz: Regressão Polinomial
Para corrigir essa limitação e formular uma curva de Lorenz mais precisa, tentarei formular
um grafo polinomial usando regressão polinomial. Isso se refere a um método de ajuste de
curva com o qual um conjunto de dados é aproximado usando uma função polinomial que
assume a forma f(x) = C +C x 1 +C x2 ...+ C x n onde C refere-se a um conjunto de
+
coeficientes e nrefere-se a 01 2 n
ao grau da função polinomial. Aqui, a diferença entre o valor medido de y i e o valor real
de yi é referida como o valor residual R .
O modelo geral para regressão polinomial pode ser criado usando o método dos mínimos
quadrados. Esse método tenta reduzir a variância entre os valores para ajustar os pontos
de dados com precisão, encontrando a menor soma de resíduos. Como os modelos de
regressão linear e polinomial muitas vezes não são confiáveis, tendendo a retratar
inadequadamente os dados, os resíduos são usados para examinar sua precisão. Um
ponto residual (e) refere-se à diferença entre o valor real da variável dependente (y) e o
valor previsto pelos pontos em uma curva de regressão (y1) ("Finding Residuals").
Isso é mostrado graficamente na figura abaixo:
Aqui, a soma dos resíduos quadrados é representada por:

9
≡∑⎡⎣y -(C +C x +...+Cn x i

n2
SSR i 0 1 i n
)
⎤⎦ i =1
A fim de minimizar o polinômio, tomamos derivadas parciais desta função em relação a

cada uma das constantes ( C ), onde igualamos o residual a 0 para encontrar o menor
valor de SR (soma de resíduos). Derivadas parciais referem-se a derivadas de uma função
com múltiplas variáveis, onde todas as variáveis, exceto C , são mantidas como fixas
(Weisstein).
Para encontrar a curva de Lorenz da Índia, restringirei a investigação à regressão

quadrática, onde a equação geral é:
yi = C 2 x 2 + C 1 + C0 x
≡∑⎡⎣y i (C0+C xi C 2 xi
n2
onde:
SSR - 1 + i=
2)⎤⎦
1
As derivadas parciais para esta função quadrática serão:
∂ =-2 ⎡y-(C +Cx+Cx )⎤=0

(SSR)
n 2
∂(C ) ∑ ⎣
0 ⎦ i=1 0 1 2
∂C )
( -2∑⎡⎣y-
= (C 0 +C1x+C 2 x2) x= ⎤⎦
0
∂ C ) = -2 ⎡⎣y-(C 0 +C 1x+
( ∑ C 2 x 2 )⎤⎦x 2= 0
Dividindo ambos os lados por 2 e fatorando as constantes, isso nos leva às seguintes
equações:
n Não.
C =
C0n+C 1∑x i
i =1
+ 2∑x i 2
i =1 i=1
y
∑ i equação (a)
n n Não.
C0∑x i ∑+C 1∑x i 2+C2∑x i 3=

i=1 i=1 i=1 i=1
x
iyi equação (b)
n n Não.
C0 ∑ y x i 2+C 1∑x i 3+C 2∑x i 4 =∑x i 2

i=1 i=1 i=1 i=1
i equação (c)
1
que pode ser expresso da seguinte forma: 0
∑ ∑ ∑
n n n
yi
xi i=1 C0 i=1
∑ ∑ ∑
n n xn i 2
n
∑
(1) C1
º
xi x
∑ ∑ ∑
n x
n i2 x
n i3
C2
º
iyi
i=1
i=1 i=1 i=1
n
1
A criação da matriz e sua representação das 3 equações acima podem ser 1
observadas
observando a multiplicação das matrizes do lado direito de (1). Para multiplicar duas
matrizes precisamos fazer o produto ponto de cada linha da primeira matriz e a única
coluna da segunda matriz. Isso calcula a soma de todos os produtos dos membros
correspondentes, conforme mostrado abaixo:
>x
i=1 i=1
x
Não. n C
∑∑ xi xi 2 o
∑∑
n n n C
∑ ∑
xi 2
xi 3
xi
xi 3
4
,
Não.
=C n + C x +C x 2
0 1 i 2i
i=1 i=1
n
= ∑ i =1
yi
Como visto, encontrar o produto ponto da primeira linha da primeira matriz e da segunda
matriz produz a equação (a). Encontrar o produto de pontos das próximas duas linhas da
primeira matriz resultará na equação (b) e (c). Portanto, matrizes podem ser usadas para
representar equações (a), (b) e (c).
Podemos determinar o valor das constantes multiplicando ambos os lados de (1) pelo
Primeira matriz transposta:
-1
∑∑ ∑
n n n
n
yi
C0 xi xi i=1
∑ ∑
2
n
i=1 n
i =1
C1
∑
n
∑
n
º
x i x
C2 i=1 xi 2
º i =1 xi i=1 iy
∑ ∑ ∑
n 3 i
n i =1
n
n
Para calcular a matriz inversa de uma matriz Podemos usar o seguinte

3 × 3, processo.
bc ef
Suponha uma matriz geral na forma: M= oi , em que cada letra corresponde a
um
número real. A matriz inversa será:

1
2
Ef
Oi
-1
1 a.C corr
ente
Oi Gi
a.C Ab
Ef de
onde a matriz menor arbitrária: =

anúncio
e o que é conhecido como o
determinante:
Df
IMI= -b +c = a(ei - fh)-b(di- fg)+c(dh-eg)
a Gi
Uma curva pode então ser gerada para uma função quadrática resolvendo para os
coeficientes na matriz. No caso da Índia, temos a informação da proporção de renda
auferida por cada quintil da população mostrada na Tabela 1.
Inserindo os valores x i e yi representados na tabela na equação matricial 1, obtemos o

seguinte:
⎡6 3 ⎤ ⎡ 1.961
⎤ —1
C
0 3
2.29
C1º
⎥ 2.29 1.8
⎥ 1.6152
C2
⎥ ⎣⎢ 1.8
1.5664 ⎦ ⎥ ⎣⎢
⎦
Para resolver o inverso da matriz, devemos primeiro encontrar seu determinante que pode
ser calculado somando-se o produto de um cofator da primeira linha e sua respectiva
matriz menor:
2.29 1.8 3 1.8 3 2.29

-3 + 2.29
1.8 1.5664 2.29 1.8
1.5664 2.29
= 6(3.59 - 3.24)- 3(4.70 - 4.12) + 2.29(5.4 - 5.24)
= 0.60347
A recíproca disso pode ser multiplicada para a seguinte matriz para nos dar a transposição
da matriz:
1
3
⎡
2.29 1.8 3 1.8 3 2.29
⎢ 1.8 1.5664 2.29 1.5664 2.29 1.8 ⎥⎥
1 ⎢ 3 2.29 6 2.29 63 ⎥
0.60347 1.8 1.5664 2.29 1.5664 2.29 1.8 ⎥
⎥
⎢ 3 2.29 6 2.29 63 ⎥⎥
2.29 1.8 3 1.8 3 2.29 ⎦⎥
⎣⎢ ⎥
⎡ 0.347 -0.577 0.156 ⎤

= 1
-0.577 4.154 -3.93 ⎥
0.60347 ⎥
⎣⎢ 0.156 -3.93 4.74 ⎦⎥
0.490 -0.815 0.220

-0.815 5.869 -5.553
0.220 -5.553 6.697
Podemos determinar o valor dos coeficientes, C! 0,C 1,C substituindo-o no

2
equação original.
C0 -0.815
C1
0.490
0.220 ⎥⎡ 1.961
-5.553
º
-0.815 5.869
⎢⎢
C2
º
0.220 -5.553 ⎥⎥⎥⎣⎢
6.697
C0 -0.04139503523151611
C1
º -0.04057415997524583
C2
º 1.0179444066877004
Isso nos daria a equação quadrática:

y=C2x +C1x+C 0 2
y= 1,02 x - 0,041x - 0,041 2
Na equação acima, os coeficientes foram representados em até 3 figuras significativas

para facilitar a observação. A curva de Lorenz resultante (L q) em meio aos pontos de
dispersão de entrada pode ser vista abaixo:
Pela natureza da curva, podemos dizer que ela não passa pelos pontos de dados
exultados na Tabela 1. Isso sugere que a predição dos valores de y para todos os x com
base em um conjunto limitado de dados não retrata com precisão a proporção de renda de
cada segmento da população para a Índia. A partir dos desvios dos pontos de dados
(destacados pelos pontos vermelhos na Figura 6) da curva de melhor ajuste, podemos
formular uma tabela para representar cada ponto residual:
y
x y1 e
0 0.00 -0.04 0.04
0.2 0.06 0.01 0.05
0.4 0.15 0.14 0.01
0.6 0.28 0.35 -0.07
0.8 0.47 0.64 -0.17
1.0 1.0 1.102 -0.102

Tabela 2: Dados do gráfico residual para a Tabela 1
1
5
A soma residual dos quadrados, como explicado anteriormente, é uma medida que indica
o grau em que um modelo estatístico é um bom ajuste para um conjunto de dados. O valor
de SSR neste caso é SSR = 0,048404, o que sugere que a linha quadrática desenha uma
linha de melhor ajuste adequada, ela não representa perfeitamente os dados. Mais
significativamente, não satisfaz os requisitos de uma curva de Lorenz, ou seja, que passa
pela origem e pelo ponto B (1,1) . Essa foi uma limitação que reconheci somente após o
cálculo dos dados e o desenho da curva usando um software gráfico. Percebi que usar
regressão quadrática pode não ser um método apropriado para esboçar uma curva de
Lorenz.
Para combater essa questão, decidi usar a regressão polinomial para definir um polinômio
de maior grau usando os pontos de dados da Tabela 1.
Como temos 6 pontos de dados, uma equação polinomial do quinto grau pode ser
construída para representar a curva de Lorenz. Optei por usar um polinômio de quinto grau
aqui com a equação geral de, yi = C 5 x 5 +C 4 x 4 + C 3 x3 + 2 x2 +C 1 +C0 , uma vez C x
que esta é a ordem máxima de um polinômio que pode ser criado usando 6 pontos de
dados, presumivelmente resultar na curva de Lorenz mais precisa possível. A equação
acima mencionada (1) pode ser alternativamente escrita como:
⎤ ⎡⎤ ⎥ ⎡⎤ y
⎡ ⎢ x1 x12 ⎥
⎢ 1
⎥ ⎢Y
⎥
1 x
x! ⎢ =
2 ⎢
⎢⎢!1 ⎥! ⎥ 2⎥ 2
⎥ ⎣ C ⎢ ⎥
⎥
⎢
2
⎢x ⎦ ⎣ ⎣⎢ ⎦ n
XN2 ⎦⎥
onde n refere-se ao número de coordenadas xe y . A primeira matriz na equação acima é

conhecida como matriz de Vandermonde, que é um tipo de matriz que surge no ajuste de
mínimos quadrados polinomiais (Weisstein). No caso de um polinômio de quinto grau,
usando os valores da Tabela 1 este é representado como:
⎥ ⎤⎡⎢
⎡⎢
⎢ 0 00 ⎥⎡0⎤ ⎢
0 0 ⎥
1 0.2
1
0.04 0.008 ⎥0.061
0.0016 0.00032
C
⎥
⎢⎢1 0.4 0.16 0.064 0.0256 0.01024 0

⎢ 0.153 ⎥ ⎥⎢ C
⎥
⎥
2
0.6 0.36 0.216 0.1296 0.0776
⎢ 0.8 0.64 0.512 0.4096 0.32768 ⎥⎢⎢ ⎢
⎥
1
⎢ C3
⎢1 1 11 1 1
⎥⎢
⎥ 0.468 ⎥ ⎥⎢ C
⎣ ⎢1 ⎥⎣ 1⎦⎥ ⎦⎢ 4 ⎢
⎣⎢ ⎥
-1 ⎡ 0 ⎤
⎤
⎡
C ⎢ ⎥ ⎡1 0 0 ⎤
⎢ ⎥
⎢C⎢C ⎥⎥ ⎢ 1 0.2 0.04 0 0.008 0 0.0016 0.00032 ⎢ 0.061

0 0
1
⎥ ⎥
⎢ ⎥⎢ 1 0.4 0.16 0.064 0.0256 0.01024

⎥ ⎢ 0.153 ⎥
⎢
⎢ ⎥⎢⎢ 1 0.6 0.36 0.216
C
3
0.1296 0.0776
⎢⎢
⎢ ⎥⎢ ⎥
C 1 0.8 0.64
0.512 0.4096 0.32768
1 1 1
⎥ ⎢ 0.468
⎢ ⎦⎥ ⎣4 ⎢11 1
⎦ ⎣ ⎦ ⎢1
⎣⎢ ⎥ ⎥
1
6
Realizando as etapas acima mencionadas sobre inversão e multiplicação de matrizes
usando I.T. (uma calculadora), devido à magnitude da matriz obtemos a seguinte matriz
para as constantes:
0
C0
0.363692946057596
C1 -1.30244640387085
º
6.54629149376606
C2 -10.1476054633385
º 5.54006742737785
C3
º A partir desses valores, a equação para a curva de
Lorenz da Índia em 2013 será:
5,540 x 5 - 10,148 x 4 + 6,546 x 3 - 1,302 x 2 + 0,364x
vista como a curva de Lorenz no diagrama abaixo, com os vários pontos de dispersão
definindo os quintis de renda da Índia da Tabela 1.
Em comparação com a curva de Lorenz derivada da regressão quadrática, observa-se que
Figura 7: Curva de Lorenz resultante da regressão polinomial

a utilização de um polinômio de 5º grau é mais adequada para calcular a curva de Lorenz,
1
7
uma vez que ela passa tanto pela origem quanto pelo ponto B.
O coeficiente de gini usando a fórmula integral de acordo com nossa curva e dados é:
∫1
x - (5,540 x5 - 10,148 x 4 + 6,546 x 3 - 1,302 x 2 + 0,364 x)dx
= 0.443
Como pode ser visto, essa curva de Lorenz não tem desvio dos pontos de dados, pois
interessa a todos os 6 pontos vistos na Tabela 1. Como não há pontos residuais, isso
sugere que é uma representação mais precisa da distribuição de renda da Índia que L q
obteve com regressão polinomial.
De acordo com dados oficiais, o coeficiente de Gini da Índia em 2013 foi de G=0,510, o
que não equivale ao coeficiente de Gini calculado a partir da Curva de Lorenz prevista, L .
Isso pode ser resultado de uma gama limitada de dados utilizados, o que reduz a
viabilidade sociopolítica dos cálculos e não estima com precisão o Coeficiente de Gini.
Nesse caso, a regressão polinomial para esboçar uma curva de Lorenz seria mais precisa
com um conjunto maior de dados.
Método 3: Usando a fórmula de covariância

O cálculo do Coeficiente de Gini, utilizando interpretações geométricas baseadas na Curva
de Lorenz, é apenas uma das inúmeras maneiras pelas quais o índice pode ser calculado.
Um método alternativo é representar o Índice de Gini em termos da covariância entre os
níveis de renda (proporção da população) e a distribuição cumulativa da renda.
Conhecendo a fórmula geral do Coeficiente de Gini utilizando a curva de Lorenz, podemos
reescrevê-la como:
∫
G = 2 0 1L 0(x)-L(x)dx
=1-2 ∫ L(x)dx
1
Nesse caso, vamos supor que a função de distribuição cumulativa F(x) dá a proporção da
população com um nível de renda menor ou igual a x . Trata-se de uma função não
decrescente que representa o percentual de indivíduos com renda inferior a x . Vamos
chamar essa proporção de p . Além disso, vamos supor que F(x) é continuamente
diferenciável de tal forma que a seguinte densidade existe:
′
F (x)=f(x)
onde, para um dado valor de x, a proporção p pode ser alternativamente definida como:
1
x 8
∫
p= f(x)=F(x)
0
Usando a representação geométrica da fórmula geral acima mencionada para o

Coeficiente de Gini, podemos representá-la em termos da covariância entre os níveis de
renda e a distribuição cumulativa de renda (Lubrano).
∫
G = 1 - 2 L(p)dx
0
. . 2 ... . . ...
onde C ov é a covariância = Cov(x,F(x)) entre os níveis de renda y e o
distribuição cumulativa de μ
a mesma renda F(y) e μ é a renda média.
A tabela abaixo representa a renda familiar para cada um dos quintis da Índia, como uma
extensão da Tabela 1:
Proporção da Proporção da Renda Renda Familiar

População: (convertendo % em (Rs/Annum) yi
(convertendo % em decimais
decimais)
xi
1 0,2 (primeiro quintil) 0.061 19,041

2 0,4 (segundo quintil) 0.153 29,353
3 0,6 (terceiro quintil) 0.279 41,220
4 0,8 (quarto quintil) 0.468 65,235
5 1 (quinto quintil) 1.0 153,872
Tabela 3: Tabela de níveis médios de renda correspondentes a cada quintil populacional na Índia
Com isso, a distribuição cumulativa da renda refere-se a coordenadas x, enquanto os níveis

de renda referem-se à renda pessoal média correspondente a x segmento da população.
Isso sugere que o coeficiente de Gini é proporcional à covariância entre uma variável e
seu rank. A covariância de duas variáveis indica como elas mudam juntas. Como tal,
fornece uma medida do grau de correlação entre conjuntos de variáveis aleatórias, com
um valor de covariância positivo sugerindo uma relação positiva e um valor negativo, uma
relação inversa.
Entender a ideia de covariância foi especialmente desafiador para mim, já que estatística
era um tópico que não era visitado em nenhuma das minhas aulas de matemática. Como
tal, em oposição a um formulaico, tentei compreender e explicar diagramaticamente o
conceito. Usando os dados pareados da Tabela 3, um gráfico de dispersão é visto abaixo:
1
9
Figura 8: Representação diagramática da covariância

No diagrama desenhei todos os retângulos possíveis que poderiam existir entre os 5
pontos de dados, colorindo-os de vermelho. Aqui, a covariância é representada pela
quantidade líquida de vermelho no gráfico (refletindo a covariação média entre as
variáveis), que seria aproximadamente em torno do meio devido a tons mais escuros de
vermelho lá. Matematicamente, isso é mostrado com a fórmula:
n
∑ (x i-x)(y i-y)
Cov(x,y)= i =1
n-1
onde: = variável independente
x
y = variável dependente
n = número de pontos de dados
x = média da variável
independente, x
y = média da variável dependente,
y calcular x e y
Usando os valores da Tabela 3, podemos
primeiro.
5
x= ∑ xi
5 i=1
= = 0.6
∑
3
55
i 308, 721
=61.744,2=μ
y = i=1 = 5
Substituindo esses valores na fórmula de covariância acima mencionada,

obtemos:
5
∑ (x i-x)(y i-y)
Cov(x,y)= i= 1
4
17081.28 + 6478.24 + 0 + 698.16 +

36851.12
=415277.2
2
0
2
Dividindo este valor por podemos calcular o valor do Coeficiente de Gini usando o μ
Fórmula de covariância:
G= 2 × 15277.2
61744.2
= 0.495
Como pode ser visto, o valor de G=0,495 não é equivalente ao valor oficialmente
declarado para o Coeficiente de Gini da Índia em 2013 de G=0,510, calculado e publicado
pelo governo indiano usando seus dados completos. Com apenas 5 níveis de renda
generalizados usados para determinar a covariância entre os níveis de renda e as
proporções da população na Índia, isso é inevitável. Ao usar um número limitado de
pontos de dados, percebi que estou ignorando várias idiossincrasias que podem estar
presentes na distribuição de renda de cada segmento individual. Isso levou a uma
subestimação do coeficiente de Gini da Índia.
Tal como acontece com o resultado do primeiro método, a razão para a discrepância
reside provavelmente no acesso limitado que um civil tem aos dados do rendimento
nacional. Isso cria desafios na observação da eficácia de métodos distintos para calcular o
Coeficiente de Gini.
Discussão e Análise
Nesta investigação, procurei apresentar uma análise de três métodos formulaicos para
calcular o Coeficiente de Gini; dois baseados em razões de área sob uma curva de Lorenz
e o outro baseado em fórmulas de covariância.
O método de integração numérica da regra de Trapézio em comparação com o Método 2 é

extremamente pouco confiável, pois inevitavelmente resulta em um viés positivo para a
curva de Lorenz e um viés negativo para o coeficiente de gini. Isso ocorre porque, o
método cria a curva com segmentos de reta que ficariam acima de linhas parabólicas
conectando os pontos de dados (como visto no Método 2). Isso resulta em uma maior área
abaixo da curva de Lorenz para o Método 1 e, portanto, um coeficiente de Gini menor.
Ao comparar os métodos 2 e 3, apesar de os valores do coeficiente de Gini pelos métodos

2 e 3 serem inferiores ao valor definido pelo governo de G=0,510, o método 2 parece ser
mais ineficaz para medir com precisão o valor, uma vez que o valor predito tinha maior
discrepância em relação ao valor real, do que o previsto pela fórmula de covariância. Uma
razão para isso pode ser que a formulação da curva de Lorenz L(x) a partir de um conjunto
de dados de tamanho n = 6 resulta em uma curva que estima proporções de renda (y) para
todos os segmentos não especificados / proporções populacionais da sociedade indiana(x)
. No caso da minha investigação, onde os pontos de dados foram restritos a dados de
renda do quintil, isso dá grande espaço para incertezas e estimativas imprecisas da
disparidade de renda dentro desses quintis. Por outro lado, como o coeficiente de Gini
baseado na fórmula de covariância foi derivado exclusivamente da relação entre as
2
1
coordenadas 5 x e y , seu valor de G=0,495 foi mais próximo do valor real.
Com evidências empíricas de minha investigação, o coeficiente de Gini parece ser

calculado com mais precisão usando o método baseado em covariância. No entanto, com
melhor acesso a uma ampla gama de proporções de renda e pontos de dados, a maioria
dos governos opta por empregar a curva de Lorenz para determinar o coeficiente (Método
2). A diferença mais nítida entre o Método 2 e o Método 3 é que a curva de Lorenz é uma
maneira extremamente contextualizada e direta de calcular o Gini. Isso porque, ele foi
criado principalmente para atuar como um gráfico das frequências cumulativas de
proporções de renda e proporções populacionais, o que, juntamente com as regras bem
definidas para a curva, sugere que ela foi destinada exclusivamente para esse fim. Por
outro lado, a fórmula de covariância, no Método 3, é utilizada como inferência para o
Coeficiente de Gini, geralmente indicando o tipo de relações entre duas variáveis
aleatórias. Isso permite que o Método 3 forneça medidas para várias outras áreas de
interesse, como a magnitude da correlação positiva ou negativa entre quaisquer duas
variáveis. Esse traço do Método 3, pode ser usado para entender melhor o grau de
desigualdade em um país, preenchendo lacunas que podem existir como resultado do
coeficiente ser uma consideração simplista da distribuição de renda.
No geral, o coeficiente de Gini tem limitações como medida de desigualdade. Um dos

principais é que o coeficiente não é aditivo em vários segmentos de uma população e não
ignora as nuances de disparidade de renda que podem existir dentro de cada segmento.
Para um melhor julgamento do grau de desigualdade de uma nação, o coeficiente é usado
em conjunto com outros índices de desigualdade de renda, como o Índice de Theil, que é
aditivo sobre vários segmentos e medidas populacionais. Ele identifica a parcela de
desigualdade atribuível aos componentes entre regiões e é medido com base em fórmulas
de entropia geral, mitigando algumas das limitações do coeficiente de Gini. /citar/
Pressupostos e Limitações
Na investigação, não foi explorada a utilização do coeficiente de Gini como ferramenta
para comparar desigualdades de renda de múltiplos países. Essa poderia ter sido uma
possível extensão da investigação, que também poderia contribuir para uma compreensão
mais profunda de sua relevância na desigualdade econômica moderna e de sua
confiabilidade como tal.
Além disso, o escopo da pesquisa, como resultado do acesso limitado aos dados do censo
sobre as proporções de renda da Índia, foi limitado. No entanto, para fins de comparação e
exploração, os resultados foram assumidos como conclusivos e comparados com o valor
real do coeficiente publicado pelo governo indiano para determinar a confiabilidade de
cada método.
Conclusão
A investigação permitiu determinar as diversas implicações e cálculos dos coeficientes de
Gini que podem variar numericamente dependendo das nuances de cada método.
2
2
Trabalhar com o coeficiente de Gini e com tantas áreas da matemática que eram novas
para mim me permitiu apreciar a ideia de desigualdade, o compartilhamento de recursos
monetários e a matemática aplicada nos dias atuais. Fiquei espantado com o quão
drástica era a diferença entre os quintis mais baixos e mais altos da população de renda
da Índia, uma visão que não teria sido tão reveladora sem derivá-los matematicamente
através das curvas de Lorenz. A análise quantitativa e empírica de questões sociais como
a desigualdade de renda me permitiu ampliar minha perspectiva sobre as implicações e a
gravidade dessa questão prevalente.
2
3
Bibliografia
Bourne, Murray. "O Coeficiente de Gini da Distribuição da Riqueza". RSS Intmathcom.
N.p., 24 fev. 2010. Teia. 07 de março de 2017.
Nair, Remya. "FMI alerta para crescente desigualdade na Índia e na China." Http://
www.livemint.com/. Livemint, 03 de maio de 2016. Teia. 07 de março de 2017.
"Encontrando resíduos". Interativar: Encontrar resíduos. CSERD, s.d. Teia. 23 de março
de 2017.
Weisstein, Eric W. "Matriz Vandermonde." De MathWorld--Um recurso da Web Wolfram.
http://mathworld.wolfram.com/VandermondeMatrix.html. 23 de março de 2017.
Lubrano, Miguel. "A Econometria da Desigualdade e da Pobreza" (s.d.): n. pag. Http://
www.vcharite.univ-mrs.fr/PP/lubrano/cours/Lecture-4.pdf. Setembro de 2016. Teia.
24 mar.
2017.

0026 AnirvinNarayan Matemática HL IA

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

0026 AnirvinNarayan Matemática HL IA

Enviado por

Direitos autorais:

Formatos disponíveis

1

Avaliação dos métodos empíricos de cálculo do coeficiente de

Figura 1: Índia: Pobreza e riqueza no mesmo terreno

Assim, para entender o processo de tornar a matemática referente a situações sociopolíticasda

II. Informações Básicas

Método 1: Usando a curva de Lorenz: regra de trapézio

Figura 2: A linha de equidade perfeita e uma curva de Lorenz arbitrária

Como tal, o coeficiente de Gini pode ser geralmente escrito como:

6 1 (quinto quintil) 1.0

Tabela 1: Tabela de frequência acumulada Figura 3: Gráfico de dispersão da proporção de renda

Isso é mostrado graficamente na figura abaixo:

Aqui, a soma dos resíduos quadrados é representada por:

≡∑⎡⎣y -(C +C x +...+Cn x i

A fim de minimizar o polinômio, tomamos derivadas parciais desta função em relação a

Para encontrar a curva de Lorenz da Índia, restringirei a investigação à regressão

As derivadas parciais para esta função quadrática serão:

∂ =-2 ⎡y-(C +Cx+Cx )⎤=0

C0∑x i ∑+C 1∑x i 2+C2∑x i 3=

C0 ∑ y x i 2+C 1∑x i 3+C 2∑x i 4 =∑x i 2

Para calcular a matriz inversa de uma matriz Podemos usar o seguinte

número real. A matriz inversa será:

onde a matriz menor arbitrária: =

Inserindo os valores x i e yi representados na tabela na equação matricial 1, obtemos o

2.29 1.8 3 1.8 3 2.29

⎡ 0.347 -0.577 0.156 ⎤

0.490 -0.815 0.220

Podemos determinar o valor dos coeficientes, C! 0,C 1,C substituindo-o no

Isso nos daria a equação quadrática:

y= 1,02 x - 0,041x - 0,041 2

Na equação acima, os coeficientes foram representados em até 3 figuras significativas

0 0.00 -0.04 0.04

0.2 0.06 0.01 0.05

0.4 0.15 0.14 0.01

0.6 0.28 0.35 -0.07

0.8 0.47 0.64 -0.17

1.0 1.0 1.102 -0.102

onde n refere-se ao número de coordenadas xe y . A primeira matriz na equação acima é

⎢⎢1 0.4 0.16 0.064 0.0256 0.01024 0

⎢C⎢C ⎥⎥ ⎢ 1 0.2 0.04 0 0.008 0 0.0016 0.00032 ⎢ 0.061

⎢ ⎥⎢ 1 0.4 0.16 0.064 0.0256 0.01024

5,540 x 5 - 10,148 x 4 + 6,546 x 3 - 1,302 x 2 + 0,364x

Em comparação com a curva de Lorenz derivada da regressão quadrática, observa-se que

Figura 7: Curva de Lorenz resultante da regressão polinomial

Método 3: Usando a fórmula de covariância

Usando a representação geométrica da fórmula geral acima mencionada para o

Proporção da Proporção da Renda Renda Familiar

1 0,2 (primeiro quintil) 0.061 19,041

Com isso, a distribuição cumulativa da renda refere-se a coordenadas x, enquanto os níveis

Figura 8: Representação diagramática da covariância

Substituindo esses valores na fórmula de covariância acima mencionada,

17081.28 + 6478.24 + 0 + 698.16 +

O método de integração numérica da regra de Trapézio em comparação com o Método 2 é

Ao comparar os métodos 2 e 3, apesar de os valores do coeficiente de Gini pelos métodos

Com evidências empíricas de minha investigação, o coeficiente de Gini parece ser

No geral, o coeficiente de Gini tem limitações como medida de desigualdade. Um dos

Você também pode gostar