Escolar Documentos
Profissional Documentos
Cultura Documentos
NOMES:
Albertina João Balane
Natália Camilo Tambo
Nelsa Fernando Muambo
1. INTRODUÇÃO .................................................................................................................. 1
2. REPRESENTAÇÃO DE DADOS ESTATÍSTICOS ......................................................... 2
2.1. Apresentação de dados em tabelas .................................................................................. 2
2.1.1. Tabelas de distribuição de frequências ..................................................................... 3
2.2. Apresentação de dados em gráficos ................................................................................ 7
2.2.1. Gráfico de sectores ............................................................................................... 7
2.2.2. Gráfico de Barras ................................................................................................. 8
2.2.3. Histograma ........................................................................................................... 9
2.2.4. Polígono de frequências ..................................................................................... 10
2.2.5. Polígono de frequências acumuladas (OGIVA) ................................................ 11
3. ASSIMETRIA E CURTOSE............................................................................................ 12
3.2. ASSIMETRIA ........................................................................................................... 12
3.2.1. Assimetria nula ou simétrica .............................................................................. 12
3.2.2. Assimétrica à direita ou positiva ........................................................................ 12
3.2.3. Assimétrica à esquerda ou negativa ................................................................... 13
3.2.4. Coeficientes de Assimetria (AS) ........................................................................ 13
3.2.5. Coeficientes de Pearson ..................................................................................... 13
3.3. Curtose ...................................................................................................................... 14
3.3.1. Coeficiente Percentílico de Curtose ................................................................... 16
4. A CURVA DE LORENZ E O ÍNDICE DE GINI............................................................ 16
4.2. Curva de Lorenz ........................................................................................................ 16
4.3. Índice de Gini ............................................................................................................ 17
5. CORRELAÇÃO E REGRESSÃO LINEAR .................................................................... 19
5.2. Correlação ................................................................................................................. 20
5.2.1. Coeficiente de correlação ................................................................................... 20
5.2.2. Propriedades do Coeficiente de Correlação Linear ........................................... 21
5.3. REGRESSÃO............................................................................................................ 22
5.3.1. REGRESSÃO LINEAR SIMPLES ................................................................... 22
5.3.1.1. ESTIMAÇÃO DOS PARÂMETROS ........................................................ 23
5.3.1.2. MÉTODO DOS MÍNIMOS QUADRADOS ............................................. 23
5.3.2. COEFICIENTE DE DETERMINAÇÃO (R2) ................................................... 25
5.3.3. Representação da recta de regressão linear ........................................................ 25
5.4. Testes do coeficiente de correlação ........................................................................... 26
5.4.1. Significância do coeficiente de correlação ........................................................ 26
6. CONCLUSÃO .................................................................................................................. 28
7. BIBLIOGRAFIA .............................................................................................................. 29
1. INTRODUÇÃO
A estatística é uma disciplina cujo objecto principal é a recolha, a compilação, a análise e a
interpretação de dados. No sentido de clarificar o que se entende por análise e interpretação dos
dados vamos desde já estabelecer uma distinção entre estatística descritiva e inferência
estatística.
Neste trabalho vai-se apresentar alguns conceitos e técnicas utilizadas na estatística descritiva,
nomeadamente a representação de dados, assimetria e curtose, a curva de Lorenz e o índice de
Gini e a correlação e regressão linear.
1
2. REPRESENTAÇÃO DE DADOS ESTATÍSTICOS
Apresentação dos dados estatísticos através de tabelas nem sempre pode cumprir com os
objetivos da comunicação. Por isso, com a finalidade de melhorar esse processo, muitos
pesquisadores recorrem ao uso dos gráficos. Para isso, é necessário saber o que se pretende
mostrar, como elaborar o gráfico e qual o tipo de gráfico mais apropriado para cada tema
abordado.
2
Exemplo 2: Tabelas de dupla entrada
Acumulada: a cada valor ou classe de valores da variável corresponde a sua frequência mais
a de todos os valores, ou classes de valores anteriores (ou posteriores).
A sua disposição prática é designada por quadro de frequências (dados agrupados e dados
agrupados em intervalo de classes)
3
Represente os dados em frequências absolutas e relativa
Solução
4
a) Intervalo de variação da variável x: é o intervalo que contém todos os valores da variável
x, isto é:
b) Classes: são intervalos cuja reunião contém o intervalo de variação da variável observada.
c) Amplitude da classe:
e) O número k de classes:
Sempre que possível, é vantajoso que os intervalos de classes possuam a mesma amplitude, a
fim de que seja mais sugestiva a comparação das frequências de cada classe. No que se refere
à determinação do número k de classes a tomar, não há regras fixas. Irá-se usar a seguinte regra
para amostras de pequenas dimensões:
5
Para amostras grandes desse usar-se-á fórmula de Sturges:
3º Tabela de frequência
6
2.2. Apresentação de dados em gráficos
Solução
7
Nota que este gráfico pode ser substituído pelo gráfico de barras.
No gráfico de barras a altura de cada barra traduz o valor da frequência (absoluta ou relativa)
respeitante a cada valor da variável. No eixo horizontal assinalam-se os valores possíveis da
variável. No eixo vertical as frequências absolutas ou relativa.
8
2.2.3. Histograma
No caso dos valores agrupados em intervalos de classe é muito frequente representar a
distribuição através de um histograma. É um gráfico formado por rectângulos adjacentes em
que a área dos rectângulos é proporcional às frequências ordinárias (absolutas ou relativas). Se
todos os intervalos tiverem a mesma amplitude, as alturas dos rectângulos serão proporcionais
às frequências das classes e então, tomam se as alturas numericamente iguais a essas
frequências. Se os intervalos de classe não tiverem a mesma amplitude, essas alturas deverão
ser ajustadas.
Solução
9
2.2.4. Polígono de frequências
Um polígono de frequência é um gráfico que se realiza através da união dos pontos mais altos
das colunas num histograma de frequência (que utiliza colunas verticais para mostrar as
frequências). Os polígonos de frequência para dados agrupados, por sua vez, constroem-se a
partir da marca de classe que coincide com o ponto médio de cada coluna do histograma.
Geralmente, os polígonos de frequência são usados quando se pretende mostrar mais de uma
distribuição ou a classificação cruzada de uma variável quantitativa contínua com uma
qualitativa ou quantitativa discreta num mesmo gráfico. O ponto que tiver mais altura num
polígono de frequência representa a maior frequência, ao passo que a área abaixo da curva
inclui a totalidade dos dados existentes.
Solução
10
2.2.5. Polígono de frequências acumuladas (OGIVA)
Unindo os limites superiores das classes, obtém-se, analogamente o polígono de frequências
acumuladas ou Ogiva.
Solução
11
3. ASSIMETRIA E CURTOSE
3.2. ASSIMETRIA
Numa distribuição estatística, a assimetria é o quanto sua curva de frequência se desvia ou se
afasta da posição simétrica;
Pode-se caracterizar uma distribuição de acordo com as relações entre suas medidas de
centralidade.
12
3.2.3. Assimétrica à esquerda ou negativa
Analogamente, quando a cauda da curva da distribuição declina para esquerda, tem-se uma
distribuição com curva assimétrica negativa.
13
Segundo Coeficiente de Assimetria de Pearson:
Os valores dos dois coeficientes de assimetria de Pearson serão iguais somente quando a
distribuição for simétrica.
Segundo Toledo & Ovale (Estatística Básica – Ed. Atlas), quando a distribuição não tiver
forte assimetria, o segundo coeficiente deverá ser usado preferencialmente ao primeiro.
3.3. Curtose
Denomina-se curtose ao grau de “achatamento” de uma distribuição de frequências,
geralmente unimodal, medido em relação ao de uma distribuição normal (de Gauss) que é
tomada como padrão. Muito embora seja comum explicar a curtose como o “grau de
achatamento” de uma distribuição de frequências, o que as medidas de curtose buscam indicar
realmente é o grau de concentração de valores da distribuição em torno do centro desta
distribuição.
Numa distribuição unimodal, quanto maior for a concentração de valores em torno do centro
da mesma, maior será o valor da sua curtose.
Graficamente isto será associado a uma curva com a parte central mais afilada, mostrando um
pico de frequência simples mais destacado, mais pontiagudo, caracterizando a moda da
distribuição de forma mais nítida.
14
Platicúrtica – quando apresenta uma medida de curtose menor que a da distribuição
normal.
Leptocúrtica - quando apresenta uma medida de curtose maior que a da distribuição
normal.
15
3.3.1. Coeficiente Percentílico de Curtose
Este coeficiente é definido como o quociente entre a amplitude semi- interquartílica e a
amplitude entre o 10º e o 90º percentis.
𝑖
𝑥1 ≤ 𝑥2 ≤ ... ≤ 𝑥𝑛 . A proporção acumulada da população até a 𝑖-ésima pessoa é 𝑝𝑖 = ea
𝑛
1
correspondente proporção acumulada da variável 𝑥𝑖 é Φ𝑖 = ∑𝑖𝑗=1 𝑥𝑗 . Os pares de valores
𝑛𝜇
(𝑝𝑖 , Φ𝑖 ) correspondem a pontos que, uma vez unidos, formam a "curva de Lorenz".
No outro extremo, temos o caso de perfeita iniquidade, no qual um único indivíduo 𝑗 possui
tudo (𝑥𝑗 = Nµ e 𝑥𝑖 = 0 para 𝑖 ≠ 𝑗). Nesta situação, a curva de Lorenz coincide com o eixo
horizontal do gráfico até o ponto no qual a proporção acumulada da população corresponda a
𝑛⁄
𝑛 − 1.
Pode-se mostrar que a declividade da curva de Lorenz correspondente à 𝑖-ésima pessoa é sua
participação relativa no total de 𝑥. Devido ao ordenamento crescente da variável, garante-se a
inclinação sempre não decrescente da curva de Lorenz.
16
4.3. Índice de Gini
A área compreendida entre a linha de perfeita equidade e a curva de Lorenz é a área de
desigualdade, indicada por 𝛼 na figura abaixo. No caso de perfeita iniquidade, 𝑛 − 1 pessoas
possuem 0 e um único indivíduo possui tudo. A área de desigualdade corresponde à área do
triângulo cuja base (no eixo das abscissas) é igual a 1− 1⁄𝑛 e cuja altura é igual a 1. Assim, o
valor máximo de 𝛼 para uma distribuição discreta é
(1)
Note que, à medida que o tamanho da população aumenta, αmax converge para
17
O índice de Gini (G) é definido como o quociente entre a área de desigualdade 𝛼 e o valor deste
limite:
(2)
1 1 1
Como 0 ≤ 𝛼 ≤ (1 − 𝑛 ) , temos que 0 ≤ G ≤ (1 − 𝑛 ). E 𝐺𝑚𝑎𝑥 = lim 2𝛼𝑚𝑎𝑥 =
2 𝑛→∞
2 × 0,5 = 1 .
O cálculo do Gini de uma distribuição pode ser realizado sem que para tanto seja necessário
recorrer à plotagem da curva de Lorenz. Definimos a área entre a curva de Lorenz e o eixo das
abscissas por 𝛽. Então, temos 𝛼 + 𝛽 = 0, 5.
(3)
(4)
(5)
O Gini pode ser então calculado a partir de uma distribuição 𝑥 qualquer, dispensando o uso de
uma curva de Lorenz. É possível recorrer a uma fórmula alternativa para o Gini, bastando notar
que
18
Assim, temos que
(6)
Ou ainda,
(7)
Onde
corresponde à diferença média de 𝑥, isto é, a média dos valores absolutos das diferenças entre
dois valores quaisquer da variável.
19
Correlação: resume o grau de relacionamento entre duas variáveis (X e Y, por exemplo).
Regressão: tem como resultado uma equação matemática que descreve o relacionamento entre
variáveis.
5.2. Correlação
O objetivo do estudo da correlação é determinar (mensurar) o grau de relacionamento entre
duas variáveis.
Caso os pontos das variáveis, representados num plano cartesiano (X, Y) ou gráfico de
dispersão, apresentem uma dispersão ao longo de uma reta imaginária, diz-se que os dados
apresentam uma correlação linear.
Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce”, diz-se que
entre as duas variáveis existe uma correlação positiva, tanto mais forte quanto mais
perto de uma recta imaginária os pontos estiverem;
Se, quando uma das variáveis “cresce”, a outra, em média, também “decresce”, diz-se
que entre as duas variáveis existe uma correlação negativa, tanto mais forte quanto
mais perto de uma recta imaginária os pontos estiverem;
Se os pontos estiverem dispersos, sem definição da direcção, diz-se que a correlação é
muito baixa ou mesmo nula. As variáveis nesse caso são ditas não correlacionadas.
Se for observada uma associação entre duas variáveis quantitativas (a partir de um diagrama
de dispersão, por exemplo), é muito útil quantificar essa associabilidade. Existem muitos tipos
de associação possíveis entretanto no presente trabalho irá-se apresentar o tipo de relação mais
simples, que é o linear.
20
O valor de “ r” estará sempre no intervalo de -1 a 1.
21
5.3. REGRESSÃO
Quando analisa-se dados que sugerem a existência de uma relação funcional entre duas
variáveis, surge então o problema de se determinar uma função matemática que exprima esse
relacionamento, ou seja, uma equação de regressão.
Ao imaginar-se uma relação funcional entre duas variáveis, sejam X e Y, estamos interessados
numa função que explique grande parte da variação de Y por X. Entretanto, uma parcela da
variabilidade de Y não explicada por X será atribuída ao acaso, ou seja, ao erro aleatório.
Quando se estuda a variação de uma variável Y em função de uma variável X, diz-se que Y é
a variável dependente e que X é a variável explanatória (ou independente).
O modelo em que busca explicar uma variável Y como uma função linear de apenas uma
variável X é denominado de modelo de regressão linear simples.
Exemplo:
𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜺𝒊
Onde:
22
𝜺𝒊 é o erro aleatória para a i-ésima observação, isto é, o efeito dos factores que estão
afectando a observação Y de forma aleatória. Por suposição, considerar-se-á que
𝜀𝑖 ~ 𝑁(0, 𝜎 2 );
𝜶 𝑒 𝜷 são parâmetros que precisam ser determinados.
𝑺 = ∑ 𝜺𝒊 = ∑(𝒀𝒊 − 𝜶 − 𝜷𝑿𝒊 )𝟐
23
Após aplicar as derivadas parciais, e igualando-se a zero, é possível obter as seguintes
estimativas para α e β, as quais chamaremos de a e b, respectivamente:
∑ 𝒀𝒊 − 𝒃 ∑ 𝑿𝒊
𝒂=
𝒏
𝒏 ∑ 𝒀𝒊 𝑿𝒊 − ∑ 𝒀𝒊 ∑ 𝑿𝒊
𝒃=
𝒏 ∑ 𝑿𝒊 𝟐 − (∑ 𝑿𝒊 ) 𝟐
̂ = 𝒂 + 𝒃𝑿
𝒀
e para cada valor xi (i = 1, ..., n) temos, pela equação de regressão, o valor predito:
̂ 𝒊 = 𝒂 + 𝒃𝑿𝒊
𝒀
̂𝒊
𝑒𝑖 = 𝒀𝒊 − 𝒀
O resíduo relativo à i-ésima observação (𝑒𝑖 ) pode ser considerado uma estimativa do erro
aleatório (𝑒𝑖 ), como ilustrado abaixo.
24
5.3.2. COEFICIENTE DE DETERMINAÇÃO (R2)
O coeficiente de determinação é uma medida descritiva da proporção da variação de Y que
pode ser explicada por variações em X, segundo o modelo de regressão especificado. Ele é
dado pela seguinte razão:
A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis
é uma função linear de alguns parâmetros
Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas
as variáveis.
Onde:
25
Com base no modelo representado na imagem assim, é possível identificar que :
Hipóteses:
H0:ρ= 0
H1:ρ≠ 0
Com n-2 graus de liberdade na tabela t de Student. Caso o valor de tc seja superior ao valor
crítico de t, devermos rejeitar a hipótese nula. Se a hipótese nula, ao nível de significância α ,
for rejeitada podemos concluir que efetivamente existe uma relação significativa entre as
variáveis.
26
Exemplo: 1. Para estudar a poluição de um rio, um cientista mediu a concentração de um
determinado composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X):
Existe alguma relação entre o nível de poluição e a precipitação pluviométrica? Teste sua
significância, ao nível de 5%.
O valor crítico de t para n-2 = 4 graus de liberdade e 5% de nível de significância é 2,78. Note
que o teste de significância do coeficiente será sempre bilateral. Como o valor calculado de t é
superior ao valor crítico, podemos concluir que existem evidências suficientes para afirmar que
o composto orgânico (Y) e a precipitação pluviométrica (X) estejam correlacionados.
27
6. CONCLUSÃO
28
7. BIBLIOGRAFIA
Mahaluça, Filipe António, 2016. Estatística Aplicada
Rodrigues Fazenda ISCTEM, 2006. Manual de Estatística para Gestão e
Contabilidade e Auditoria.
Hoffmann, Rodolfo (1998) Distribuição de Renda, Medidas de Desigualdade e
Pobreza, São Paulo. Editora da Universidade de São Paulo. 1998, Capítulo 3
29