Você está na página 1de 32

INSTITUTO SUPERIOR DE FORMAÇÃO, INVESTIGAÇÃO E CIÊNCIA

Trabalho de investigação de Estatística

NOMES:
Albertina João Balane
Natália Camilo Tambo
Nelsa Fernando Muambo

LICENCIATURA EM GESTÃO DE RECURSOS HUMANOS 2º Ano

Nome do docente: Escrivão Júnior

Maputo, Junho de 2021


Índice

1. INTRODUÇÃO .................................................................................................................. 1
2. REPRESENTAÇÃO DE DADOS ESTATÍSTICOS ......................................................... 2
2.1. Apresentação de dados em tabelas .................................................................................. 2
2.1.1. Tabelas de distribuição de frequências ..................................................................... 3
2.2. Apresentação de dados em gráficos ................................................................................ 7
2.2.1. Gráfico de sectores ............................................................................................... 7
2.2.2. Gráfico de Barras ................................................................................................. 8
2.2.3. Histograma ........................................................................................................... 9
2.2.4. Polígono de frequências ..................................................................................... 10
2.2.5. Polígono de frequências acumuladas (OGIVA) ................................................ 11
3. ASSIMETRIA E CURTOSE............................................................................................ 12
3.2. ASSIMETRIA ........................................................................................................... 12
3.2.1. Assimetria nula ou simétrica .............................................................................. 12
3.2.2. Assimétrica à direita ou positiva ........................................................................ 12
3.2.3. Assimétrica à esquerda ou negativa ................................................................... 13
3.2.4. Coeficientes de Assimetria (AS) ........................................................................ 13
3.2.5. Coeficientes de Pearson ..................................................................................... 13
3.3. Curtose ...................................................................................................................... 14
3.3.1. Coeficiente Percentílico de Curtose ................................................................... 16
4. A CURVA DE LORENZ E O ÍNDICE DE GINI............................................................ 16
4.2. Curva de Lorenz ........................................................................................................ 16
4.3. Índice de Gini ............................................................................................................ 17
5. CORRELAÇÃO E REGRESSÃO LINEAR .................................................................... 19
5.2. Correlação ................................................................................................................. 20
5.2.1. Coeficiente de correlação ................................................................................... 20
5.2.2. Propriedades do Coeficiente de Correlação Linear ........................................... 21
5.3. REGRESSÃO............................................................................................................ 22
5.3.1. REGRESSÃO LINEAR SIMPLES ................................................................... 22
5.3.1.1. ESTIMAÇÃO DOS PARÂMETROS ........................................................ 23
5.3.1.2. MÉTODO DOS MÍNIMOS QUADRADOS ............................................. 23
5.3.2. COEFICIENTE DE DETERMINAÇÃO (R2) ................................................... 25
5.3.3. Representação da recta de regressão linear ........................................................ 25
5.4. Testes do coeficiente de correlação ........................................................................... 26
5.4.1. Significância do coeficiente de correlação ........................................................ 26
6. CONCLUSÃO .................................................................................................................. 28
7. BIBLIOGRAFIA .............................................................................................................. 29
1. INTRODUÇÃO
A estatística é uma disciplina cujo objecto principal é a recolha, a compilação, a análise e a
interpretação de dados. No sentido de clarificar o que se entende por análise e interpretação dos
dados vamos desde já estabelecer uma distinção entre estatística descritiva e inferência
estatística.

No âmbito da estatística descritiva procura-se sintetizar e representar de uma forma


compreensível a informação contida num conjunto de dado. Esta tarefa, que adquire
importância quando o volume de dados for significativo, materializa-se na construção de
tabelas, de gráficos ou no cálculo de medidas que representem convenientemente a informação
contida nos dados.

O objectivo da inferência estatística é mais ambicioso do que o da estatística descritiva e,


naturalmente, os métodos e técnicas utilizados são mais sofisticados. Com base na análise de
um conjunto limitado de dados (uma amostra), pretende-se caracterizar o todo a partir do qual
tais dados foram obtidos (a população).

Neste trabalho vai-se apresentar alguns conceitos e técnicas utilizadas na estatística descritiva,
nomeadamente a representação de dados, assimetria e curtose, a curva de Lorenz e o índice de
Gini e a correlação e regressão linear.

1
2. REPRESENTAÇÃO DE DADOS ESTATÍSTICOS
Apresentação dos dados estatísticos através de tabelas nem sempre pode cumprir com os
objetivos da comunicação. Por isso, com a finalidade de melhorar esse processo, muitos
pesquisadores recorrem ao uso dos gráficos. Para isso, é necessário saber o que se pretende
mostrar, como elaborar o gráfico e qual o tipo de gráfico mais apropriado para cada tema
abordado.

2.1. Apresentação de dados em tabelas


Tabela: é um quadro que resume um conjunto de observações. Uma tabela compõe-se de:

 Corpo: conjunto de linhas e colunas que contém informações sobre a variável em


estudo;
 Cabeçalho: parte superior da tabela que especifica o conteúdo das colunas;
 Coluna indicadora: parte da tabela que especifica o conteúdo das linhas;
 Linhas: rectas imaginárias que facilitam a leitura, no sentido horizontal, de dados que
se inscrevem nos seus cruzamentos com as colunas;
 Casa ou célula: espaço destinado a um só número.
 Titulo: conjunto de informações, as mais completas possíveis, respondendo a perguntas
como: O quê? Quando? Onde? Localizado no topo da tabela.

Exemplo 1: Tabelas de entrada simples

2
Exemplo 2: Tabelas de dupla entrada

2.1.1. Tabelas de distribuição de frequências

Dá-se o nome de distribuição de frequências ao conjunto de todos os valores de uma variável


estatística com as correspondentes frequências:

 Frequências absolutas: é o número de vezes que esse valor foi observado;


 Frequências relativas: é o quociente entre a frequência absoluta da variável e o
número total de observações

As distribuições de frequências podem-se classificar:

 Ordinárias: a cada valor ou classe de valores da variável corresponde a sua frequência;

 Acumulada: a cada valor ou classe de valores da variável corresponde a sua frequência mais
a de todos os valores, ou classes de valores anteriores (ou posteriores).

A sua disposição prática é designada por quadro de frequências (dados agrupados e dados
agrupados em intervalo de classes)

Exemplo 3: Distribuição de dados agrupados Foram examinados 100 lotes de 50 peças


produzidas por uma máquina, para verificação do número de peças defeituosas por lote. Os
resultados apresentam-se no seguinte quadro:

3
Represente os dados em frequências absolutas e relativa

Solução

Exemplo 4: Distribuição de dados agrupados em intervalo de classe Utilizando os dados


apresentados no exemplo 3.3, podemos agrupar os valores da variável nas classes [0---2], [3--
-4], [5---6], obtendo a distribuição de valores da variável agrupados em intervalos de classe:

Neste caso de distribuição de frequências devemos considerar outros elementos e conceitos


além dos mencionados anteriormente

4
a) Intervalo de variação da variável x: é o intervalo que contém todos os valores da variável
x, isto é:

b) Classes: são intervalos cuja reunião contém o intervalo de variação da variável observada.

c) Amplitude da classe:

d) Centro da classe: é o ponto médio do intervalo, isto é,

e) O número k de classes:

 Deve depender do número N de observações efectuadas;


 Não deve ser tão elevado que sobressaiam irregularidades acidentais devido ao pequeno
número de indivíduos por classe
 Não deve ser tão pequeno que conduza a uma perda de informação
 Situa-se em geral entre 5 e 15.

Depois de determinado k e se as classe tiverem amplitude constante temos que calcular a


amplitude da classe, usando a seguinte fórmula:

Sempre que possível, é vantajoso que os intervalos de classes possuam a mesma amplitude, a
fim de que seja mais sugestiva a comparação das frequências de cada classe. No que se refere
à determinação do número k de classes a tomar, não há regras fixas. Irá-se usar a seguinte regra
para amostras de pequenas dimensões:

5
Para amostras grandes desse usar-se-á fórmula de Sturges:

Exemplo 5: Distribuição de dados agrupados em intervalo de classe

Os dados seguintes referem-se á percentagem de algodão, no material usado para


confeccionar camisas de homem:

34.2 33.6 33.8 34.7 37.8 32.6

33.1 34.7 34.2 33.6 36.6 33.1

34.5 35.0 33.4 32.5 35.4 34.6

35.6 35.4 34.7 34.1 34.6 35.9

36.3 36.2 34.6 35.1 33.8 34.7

Organize os dados em tabela de frequências de dados agrupados em intervalos de classe.


Solução
1º Determinar o nº de classes

2º Determinar a amplitude da classe

3º Tabela de frequência

6
2.2. Apresentação de dados em gráficos

2.2.1. Gráfico de sectores


Gráfico de sectores ou gráfico circular, como é tradicionalmente chamado gráfico de pizza é
um diagrama circular em que os valores de cada categoria estatística representada são
proporcionais às respectivas medidas dos ângulos (1% no gráfico de sector equivale a 3,6º).

Exemplo 6: Gráfico de sectores

O exemplo a seguir é baseado no resultado preliminar das Eleições Parlamentares Europeias


em 2004. A tabela consiste no número de assentos alocados para cada partido, além de uma
percentagem do grupo total que eles compõem. Os valores da última coluna, que são o ângulo
central de cada um dos sectores podem ser encontrados multiplicando as percentagens por
360°.

Solução

7
Nota que este gráfico pode ser substituído pelo gráfico de barras.

2.2.2. Gráfico de Barras

No gráfico de barras a altura de cada barra traduz o valor da frequência (absoluta ou relativa)
respeitante a cada valor da variável. No eixo horizontal assinalam-se os valores possíveis da
variável. No eixo vertical as frequências absolutas ou relativa.

Exemplo 3.8: Considerando os dados do exemplo 6.

8
2.2.3. Histograma
No caso dos valores agrupados em intervalos de classe é muito frequente representar a
distribuição através de um histograma. É um gráfico formado por rectângulos adjacentes em
que a área dos rectângulos é proporcional às frequências ordinárias (absolutas ou relativas). Se
todos os intervalos tiverem a mesma amplitude, as alturas dos rectângulos serão proporcionais
às frequências das classes e então, tomam se as alturas numericamente iguais a essas
frequências. Se os intervalos de classe não tiverem a mesma amplitude, essas alturas deverão
ser ajustadas.

Exemplo 3.9: Histograma

A tabela a seguir representa o salário mensal em meticais de funcionários duma fábrica de


tijolos:

Esboce o histograma correspondente.

Solução

9
2.2.4. Polígono de frequências
Um polígono de frequência é um gráfico que se realiza através da união dos pontos mais altos
das colunas num histograma de frequência (que utiliza colunas verticais para mostrar as
frequências). Os polígonos de frequência para dados agrupados, por sua vez, constroem-se a
partir da marca de classe que coincide com o ponto médio de cada coluna do histograma.
Geralmente, os polígonos de frequência são usados quando se pretende mostrar mais de uma
distribuição ou a classificação cruzada de uma variável quantitativa contínua com uma
qualitativa ou quantitativa discreta num mesmo gráfico. O ponto que tiver mais altura num
polígono de frequência representa a maior frequência, ao passo que a área abaixo da curva
inclui a totalidade dos dados existentes.

Exemplo 3.10: Polígono de frequências

A tabela a seguir representa o salário mensal em meticais de funcionários duma fábrica de


tijolos:

Esboce o polígono de frequências correspondente.

Solução

10
2.2.5. Polígono de frequências acumuladas (OGIVA)
Unindo os limites superiores das classes, obtém-se, analogamente o polígono de frequências
acumuladas ou Ogiva.

Exemplo 3.11: Polígono de frequências acumuladas

A tabela a seguir representa o salário mensal em meticais de funcionários duma fábrica de


tijolos:

Esboce o polígono de frequências acumuladas correspondente.

Solução

11
3. ASSIMETRIA E CURTOSE
3.2. ASSIMETRIA
Numa distribuição estatística, a assimetria é o quanto sua curva de frequência se desvia ou se
afasta da posição simétrica;

Pode-se caracterizar uma distribuição de acordo com as relações entre suas medidas de
centralidade.

3.2.1. Assimetria nula ou simétrica


Uma distribuição é dita simétrica quando apresenta o mesmo valor para a moda, a média e a
mediana.

3.2.2. Assimétrica à direita ou positiva


Quando a cauda da curva da distribuição declina para direita, tem-se uma distribuição com
curva assimétrica positiva.

12
3.2.3. Assimétrica à esquerda ou negativa
Analogamente, quando a cauda da curva da distribuição declina para esquerda, tem-se uma
distribuição com curva assimétrica negativa.

3.2.4. Coeficientes de Assimetria (AS)


Um coeficiente de assimetria quantifica o desvio de uma distribuição em relação a uma
distribuição simétrica e o sinal resultante do seu cálculo nos dá o tipo de assimetria da
distribuição.

3.2.5. Coeficientes de Pearson

Primeiro Coeficiente de Assimetria de Pearson:

13
Segundo Coeficiente de Assimetria de Pearson:

A interpretação do coeficiente de assimetria é:

 −1 < As < 1, então a distribuição é simétrica;


 As > 1 a distribuição é assimétrica positiva;
 As < −1 a distribuição é assimétrica negativa.

Teoricamente, o segundo coeficiente de assimetria de Pearson pode variar entre −3 e +3. Na


prática, porém, raramente ultrapassará os limites de −1 e +1.

Os valores dos dois coeficientes de assimetria de Pearson serão iguais somente quando a
distribuição for simétrica.

Segundo Toledo & Ovale (Estatística Básica – Ed. Atlas), quando a distribuição não tiver
forte assimetria, o segundo coeficiente deverá ser usado preferencialmente ao primeiro.

3.3. Curtose
Denomina-se curtose ao grau de “achatamento” de uma distribuição de frequências,
geralmente unimodal, medido em relação ao de uma distribuição normal (de Gauss) que é
tomada como padrão. Muito embora seja comum explicar a curtose como o “grau de
achatamento” de uma distribuição de frequências, o que as medidas de curtose buscam indicar
realmente é o grau de concentração de valores da distribuição em torno do centro desta
distribuição.

Numa distribuição unimodal, quanto maior for a concentração de valores em torno do centro
da mesma, maior será o valor da sua curtose.

Graficamente isto será associado a uma curva com a parte central mais afilada, mostrando um
pico de frequência simples mais destacado, mais pontiagudo, caracterizando a moda da
distribuição de forma mais nítida.

Diz-se que uma distribuição de frequências é:

 Mesocúrtica – quando apresenta uma medida de curtose igual à da distribuição normal.

14
 Platicúrtica – quando apresenta uma medida de curtose menor que a da distribuição
normal.
 Leptocúrtica - quando apresenta uma medida de curtose maior que a da distribuição
normal.

Fig. Gráfico de uma distribuição Mesocúrtica

Fig. Gráfico de uma distribuição Platicúrtica

Fig. Gráfico de uma distribuição Leptocúrtica

15
3.3.1. Coeficiente Percentílico de Curtose
Este coeficiente é definido como o quociente entre a amplitude semi- interquartílica e a
amplitude entre o 10º e o 90º percentis.

O valor deste coeficiente para a curva normal é 0, 26367...

Assim sendo, ao calcularmos o coeficiente percentílico de curtose de uma distribuição qualquer


teremos:

 Quando Cp ≅ 0,263 → diz-se que a distribuição é mesocúrtica .


 Quando Cp < 0,263 → diz-se que a distribuição é platicúrtica .
 Quando Cp > 0,263 → diz-se que a distribuição é leptocúrtica .

4. A CURVA DE LORENZ E O ÍNDICE DE GINI


4.2. Curva de Lorenz
Considere 𝑛 valores para uma variável 𝑥1 e admita-os ordenados de forma que

𝑖
𝑥1 ≤ 𝑥2 ≤ ... ≤ 𝑥𝑛 . A proporção acumulada da população até a 𝑖-ésima pessoa é 𝑝𝑖 = ea
𝑛
1
correspondente proporção acumulada da variável 𝑥𝑖 é Φ𝑖 = ∑𝑖𝑗=1 𝑥𝑗 . Os pares de valores
𝑛𝜇

(𝑝𝑖 , Φ𝑖 ) correspondem a pontos que, uma vez unidos, formam a "curva de Lorenz".

No caso de perfeita equidade, 𝑥𝑖 = µ para todo 𝑖, e a curva de Lorenz corresponde à reta


diagonal que une os pontos (0,0) e (1,1).

No outro extremo, temos o caso de perfeita iniquidade, no qual um único indivíduo 𝑗 possui
tudo (𝑥𝑗 = Nµ e 𝑥𝑖 = 0 para 𝑖 ≠ 𝑗). Nesta situação, a curva de Lorenz coincide com o eixo
horizontal do gráfico até o ponto no qual a proporção acumulada da população corresponda a
𝑛⁄
𝑛 − 1.

Pode-se mostrar que a declividade da curva de Lorenz correspondente à 𝑖-ésima pessoa é sua
participação relativa no total de 𝑥. Devido ao ordenamento crescente da variável, garante-se a
inclinação sempre não decrescente da curva de Lorenz.

16
4.3. Índice de Gini
A área compreendida entre a linha de perfeita equidade e a curva de Lorenz é a área de
desigualdade, indicada por 𝛼 na figura abaixo. No caso de perfeita iniquidade, 𝑛 − 1 pessoas
possuem 0 e um único indivíduo possui tudo. A área de desigualdade corresponde à área do
triângulo cuja base (no eixo das abscissas) é igual a 1− 1⁄𝑛 e cuja altura é igual a 1. Assim, o
valor máximo de 𝛼 para uma distribuição discreta é

(1)

Note que, à medida que o tamanho da população aumenta, αmax converge para

Figura: Casos possíveis para curvas de Lorenz de uma distribuição

17
O índice de Gini (G) é definido como o quociente entre a área de desigualdade 𝛼 e o valor deste
limite:

(2)

1 1 1
Como 0 ≤ 𝛼 ≤ (1 − 𝑛 ) , temos que 0 ≤ G ≤ (1 − 𝑛 ). E 𝐺𝑚𝑎𝑥 = lim 2𝛼𝑚𝑎𝑥 =
2 𝑛→∞

2 × 0,5 = 1 .
O cálculo do Gini de uma distribuição pode ser realizado sem que para tanto seja necessário
recorrer à plotagem da curva de Lorenz. Definimos a área entre a curva de Lorenz e o eixo das
abscissas por 𝛽. Então, temos 𝛼 + 𝛽 = 0, 5.

É possível decompor a área 𝛽 em 𝑛 − 1 trapézios. Indicamos a área do 𝑖-ésimo trapézio por


𝑆𝑖 , cuja altura é igual a 𝑝𝑖 − 𝑝𝑖−1 = 1⁄𝑛 e bases maior e menor correspondem a Φ𝑖 e Φ𝑖−1,
respectivamente. Assumindo Φ0 = 0, temos

(3)

A área 𝛽 pode ser encontrada através da soma de todos os trapézios, isto é,

(4)

A partir da equação (2) e do fato de que 𝛼 = 0, 5 − 𝛽, obtemos a seguinte expressão para o


índice de Gini

(5)

O Gini pode ser então calculado a partir de uma distribuição 𝑥 qualquer, dispensando o uso de
uma curva de Lorenz. É possível recorrer a uma fórmula alternativa para o Gini, bastando notar
que

18
Assim, temos que

O que nos dá a seguinte expressão para o Gini

(6)

Ou ainda,

(7)

Onde

corresponde à diferença média de 𝑥, isto é, a média dos valores absolutos das diferenças entre
dois valores quaisquer da variável.

5. CORRELAÇÃO E REGRESSÃO LINEAR


São duas técnicas estreitamente relacionadas, que visam estimar uma relação que possa existir
entre duas variáveis na população.

19
Correlação: resume o grau de relacionamento entre duas variáveis (X e Y, por exemplo).

Regressão: tem como resultado uma equação matemática que descreve o relacionamento entre
variáveis.

5.2. Correlação
O objetivo do estudo da correlação é determinar (mensurar) o grau de relacionamento entre
duas variáveis.

Caso os pontos das variáveis, representados num plano cartesiano (X, Y) ou gráfico de
dispersão, apresentem uma dispersão ao longo de uma reta imaginária, diz-se que os dados
apresentam uma correlação linear.

Em síntese três situações marcantes podem acontecer:

 Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce”, diz-se que
entre as duas variáveis existe uma correlação positiva, tanto mais forte quanto mais
perto de uma recta imaginária os pontos estiverem;
 Se, quando uma das variáveis “cresce”, a outra, em média, também “decresce”, diz-se
que entre as duas variáveis existe uma correlação negativa, tanto mais forte quanto
mais perto de uma recta imaginária os pontos estiverem;
 Se os pontos estiverem dispersos, sem definição da direcção, diz-se que a correlação é
muito baixa ou mesmo nula. As variáveis nesse caso são ditas não correlacionadas.

5.2.1. Coeficiente de correlação


É um valor numérico que mede o grau de associação entre duas variáveis.

Se for observada uma associação entre duas variáveis quantitativas (a partir de um diagrama
de dispersão, por exemplo), é muito útil quantificar essa associabilidade. Existem muitos tipos
de associação possíveis entretanto no presente trabalho irá-se apresentar o tipo de relação mais
simples, que é o linear.

20
O valor de “ r” estará sempre no intervalo de -1 a 1.

5.2.2. Propriedades do Coeficiente de Correlação Linear


 Este coeficiente é adimensional, logo não é afectado pelas unidades de medidas das
variáveis X e Y.
 O sinal positivo indica que as variáveis são directamente proporcionais, enquanto
que o sinal negativo indica que a relação entre as variáveis é inversamente
proporcional.

21
5.3. REGRESSÃO
Quando analisa-se dados que sugerem a existência de uma relação funcional entre duas
variáveis, surge então o problema de se determinar uma função matemática que exprima esse
relacionamento, ou seja, uma equação de regressão.

Ao imaginar-se uma relação funcional entre duas variáveis, sejam X e Y, estamos interessados
numa função que explique grande parte da variação de Y por X. Entretanto, uma parcela da
variabilidade de Y não explicada por X será atribuída ao acaso, ou seja, ao erro aleatório.

Quando se estuda a variação de uma variável Y em função de uma variável X, diz-se que Y é
a variável dependente e que X é a variável explanatória (ou independente).

O modelo em que busca explicar uma variável Y como uma função linear de apenas uma
variável X é denominado de modelo de regressão linear simples.

Exemplo:

Variável independente, X Variável dependente, Y


Temperatura do forno (°C) Resistência mecânica da cerâmica (MPa)
Memória RAM do computador (GB) Tempo de resposta do sistema (s)
Área construída do imóvel (m2) Preço do imóvel (Mts)

5.3.1. REGRESSÃO LINEAR SIMPLES


Formalmente, a análise da regressão parte de um conjunto de observações pareadas (X1 , Y1),
(X2 , Y2),…, (Xn , Yn) relativas às variáveis X e Y e considera que podemos escrever a relação
entre as duas variáveis, da seguinte forma:

𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜺𝒊

Onde:

 𝒀𝒊 é a variável resposta associada à i-ésima observação de Y;


 𝑿𝒊 é a i-ésima observação do valor fixado para a variável independente (e não aleatória)
X;

22
 𝜺𝒊 é o erro aleatória para a i-ésima observação, isto é, o efeito dos factores que estão
afectando a observação Y de forma aleatória. Por suposição, considerar-se-á que
𝜀𝑖 ~ 𝑁(0, 𝜎 2 );
 𝜶 𝑒 𝜷 são parâmetros que precisam ser determinados.

5.3.1.1. ESTIMAÇÃO DOS PARÂMETROS


O objetivo é estimar valores para α e β através dos dados fornecidos pela amostra. Além disso,
encontrar a reta que passe o mais próximo possível dos pontos observados segundo um critério
pré-estabelecido.

5.3.1.2. MÉTODO DOS MÍNIMOS QUADRADOS


É usado para estimar os parâmetros do modelo ( α e β) e consiste em fazer com que a soma dos
erros quadráticos seja menor possível, ou seja, este método consiste em obter os valores d e α
e β que minimizam a expressão:

𝑺 = ∑ 𝜺𝒊 = ∑(𝒀𝒊 − 𝜶 − 𝜷𝑿𝒊 )𝟐

Aplicando-se derivadas parciais à expressão acima, e igualando-se a zero, acharemos as


estimativas para α e β.

23
Após aplicar as derivadas parciais, e igualando-se a zero, é possível obter as seguintes
estimativas para α e β, as quais chamaremos de a e b, respectivamente:

∑ 𝒀𝒊 − 𝒃 ∑ 𝑿𝒊
𝒂=
𝒏

𝒏 ∑ 𝒀𝒊 𝑿𝒊 − ∑ 𝒀𝒊 ∑ 𝑿𝒊
𝒃=
𝒏 ∑ 𝑿𝒊 𝟐 − (∑ 𝑿𝒊 ) 𝟐

A chamada equação (recta) de regressão é dada por:

̂ = 𝒂 + 𝒃𝑿
𝒀

e para cada valor xi (i = 1, ..., n) temos, pela equação de regressão, o valor predito:

̂ 𝒊 = 𝒂 + 𝒃𝑿𝒊
𝒀

A diferença entre os valores observados e os preditos será chamada de resíduo do modelo de


regressão, sendo denotado por:

̂𝒊
𝑒𝑖 = 𝒀𝒊 − 𝒀

O resíduo relativo à i-ésima observação (𝑒𝑖 ) pode ser considerado uma estimativa do erro
aleatório (𝑒𝑖 ), como ilustrado abaixo.

24
5.3.2. COEFICIENTE DE DETERMINAÇÃO (R2)
O coeficiente de determinação é uma medida descritiva da proporção da variação de Y que
pode ser explicada por variações em X, segundo o modelo de regressão especificado. Ele é
dado pela seguinte razão:

 Quanto mais próximo de 1 estiver o coeficiente de determinação, melhor será o grau de


explicação da variação de Y em termos da variável X.
 É uma medida sempre positiva, e é obtida, na regressão linear simples, elevando-se o
coeficiente de correlação de pearson ao quadrado.

5.3.3. Representação da recta de regressão linear


Regressão linear é uma equação para se estimar a condicional (valor esperado) de uma
variável y, dados os valores de algumas outras variáveis x.

A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis
é uma função linear de alguns parâmetros

Equação da Regressão Linear

Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas
as variáveis.

Onde:

Yi: Variável explicada (dependente); representa o que o modelo tentará prever

𝛼: É uma constante, que representa a intercetação da recta com o eixo vertical;

𝛽: Representa a inclinação (coeficiente angular) em relação à variável explicativa;

Xi: Variável explicativa (independente);

25
Com base no modelo representado na imagem assim, é possível identificar que :

 A relação matemática entre Y e X é linear


 Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória
 A média do erro é nula.

5.4. Testes do coeficiente de correlação


5.4.1. Significância do coeficiente de correlação

Para comprovarmos se o coeficiente de correlação é significativo, devemos realizar o


seguinte teste de hipóteses:

Hipóteses:
H0:ρ= 0
H1:ρ≠ 0

Com n-2 graus de liberdade na tabela t de Student. Caso o valor de tc seja superior ao valor
crítico de t, devermos rejeitar a hipótese nula. Se a hipótese nula, ao nível de significância α ,
for rejeitada podemos concluir que efetivamente existe uma relação significativa entre as
variáveis.

26
Exemplo: 1. Para estudar a poluição de um rio, um cientista mediu a concentração de um
determinado composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X):

Existe alguma relação entre o nível de poluição e a precipitação pluviométrica? Teste sua
significância, ao nível de 5%.

O valor crítico de t para n-2 = 4 graus de liberdade e 5% de nível de significância é 2,78. Note
que o teste de significância do coeficiente será sempre bilateral. Como o valor calculado de t é
superior ao valor crítico, podemos concluir que existem evidências suficientes para afirmar que
o composto orgânico (Y) e a precipitação pluviométrica (X) estejam correlacionados.

27
6. CONCLUSÃO

28
7. BIBLIOGRAFIA
 Mahaluça, Filipe António, 2016. Estatística Aplicada
 Rodrigues Fazenda ISCTEM, 2006. Manual de Estatística para Gestão e
Contabilidade e Auditoria.
 Hoffmann, Rodolfo (1998) Distribuição de Renda, Medidas de Desigualdade e
Pobreza, São Paulo. Editora da Universidade de São Paulo. 1998, Capítulo 3

29

Você também pode gostar