Você está na página 1de 12

ME 613 --TRABALHO

TRABALHO1- 1
2 deREGRESSÃO
Janeiro de 2021
LINEAR

Laura JANEIRO
TherezaDE Zaia
2020 Ferro
RA239037
1. MATERIAIS E OBJETIVOS
Os dados utilizados neste trabalho constituem-se de uma amostra aleatória de 1000
estudantes que fizeram a prova do ENEM de 2015, fornecidos pelo Instituto Nacional de
Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), vinculado ao Ministério da
Educação.
Nessa amostra estão disponíveis 16 variáveis: UF (estado de residência do
indivíduo), Idade (em anos), Sexo (F ou M), Cor (PPI - autodeclarados pretos, pardos e
indígenas; Não PPI - autodeclarados brancos ou amarelos), EstadoCivil (Solteiro ou
Outros), NotaCN (nota na prova de Ciências da Natureza), NotaCH (nota na prova de
Ciências Humanas), NotaLC (nota na prova de Linguagens e seus Códigos), NotaMT (nota
na prova de Matemática), InstrPai (nível de instrução do pai - Fundamental, Médio ou
Superior), InstrMae (nível de instrução da mãe - Fundamental, Médio ou Superior),
NPessoas (número de pessoas que moram
na mesma residência), Renda (familiar total, dividida em fatores de salários mínimos),
EscolaEM (tipo de escola do ensino médio) e TurnoEM (turno do ensino médio).
O objetivo deste trabalho é analisar a amostra fornecida e ajustar um modelo de
regressão linear ou polinomial múltipla para predizer a nota de Matemática (NotaMT),
utilizando como potenciais variáveis preditoras todas as demais variáveis presentes no
conjunto.

2. ANÁLISE DESCRITIVA

A fim de observar a distribuição amostral das variáveis quantitativas (todas as variáveis


Nota; Idade e NPessoas) e a relação entre elas foi criado um Gráfico de Draftman. A
respeito da correlação, a mesma foi avaliada pelo Coeficiente de Correlação de Pearson.

Figura 1: gráficos de dispersão (diagonal) e de correlação (abaixo) entre as variáveis quantitativas


Como pode ser visto na ​Figura 1​, os gráficos de dispersão entre Idade e Número de
pessoas na casa e as outras variáveis numéricas (notas) demonstram baixa correlação
entre estes, o que pode causar possíveis problemas de predição. A nota de Matemática
tem, aparentemente, uma distribuição próxima de uma distribuição Beta, e sua relação com
as outras notas é não linear. Isso indica que, em um modelo de regressão, talvez
precisemos fazer uma regressão polinomial (que tem curva; a linear é, como dito, uma linha
reta). Nenhuma das Notas apresenta correlação extremamente alta ou baixa umas com as
outras.
A influência geral de algumas das variáveis qualitativas - Renda e EscolaEM - sobre
as notas dos candidatos foram analisadas por meio de diagramas de caixa (box plots), dos
quais foram observadas as diferenças entre mediana e variância para cada nível das
variáveis. Os gráficos foram construídos com base na média simples das notas das 5 partes
da prova do ENEM em detrimento das notas separadas.

Figura 2: Diagramas de caixa dos níveis de Renda relacionados a média nas matérias específicas

É possível observar a diferença da distribuição das notas médias entre os níveis de


renda familiar: mais da metade dos candidatos da categoria 1 tiveram média abaixo de 500,
enquanto menos de 50% dos na categoria 5 tiveram média abaixo de 550. E, os valores
médios da média das notas tendem a aumentar conforme aumenta a renda, revelando uma
possível relação de proporcionalidade. Vale a pena notar também que a maior variância nas
notas médias dos candidatos de alta renda (níveis 4 e 5) pode dificultar boas predições para
esses perfis.
Figura 3: Diagrama de caixa das categorias de tipo de escola relacionadas a média nas matérias
específicas

Na ​Figura 3 observamos novamente que existe uma diferença entre as categorias,


especialmente entre os valores medianos das notas médias dos candidatos que estudaram
apenas em escolas públicas e apenas em escolas privadas. A fim de verificar se a diferença
é significativa, foi realizado um Teste de Wilcoxon para Amostras Não Emparelhadas, com a
hipótese nula de que os valores médios das duas distribuições são iguais. O valor de W
obtido foi de ​63992 ​com p-valor de ​6.34e-25​, ​sendo então as distribuições
significativamente distintas. Assim, podemos dizer que numa regressão, as categorias de
EscolaEM terão pesos diferentes.

3. MODELO DE REGRESSÃO
O primeiro modelo de regressão foi feito com todas as variáveis quantitativas e
qualitativas, exceto a coluna UF, que foi considerada desnecessária. No caso do segundo
tipo, para cada K categorias, foram criadas K-1 variáveis dummy. Em especial, no caso da
variável Estado Civil, valores faltantes foram classificados como 0 junto dos demais valores
diferentes de ‘Solteiro’. Dessa forma, o modelo ‘completo’ tinha 21 variáveis e o intercepto
continha a informação de todas as variáveis qualitativas, sendo elas Sexo, Cor, Estado Civil,
Instrução do Pai, Instrução da Mãe, Renda, Escola do Ensino Médio e Turno do Ensino
Médio. O R​2 ​observado foi de ​0.462, o que significa que esse modelo consegue explicar
46,2% dos dados.
Considerando então as curvas observadas na parte de gráficos de dispersão entre a
variável resposta NotaMT e as demais variáveis quantitativas da ​Figura 1,​ foi feito um
segundo modelo ‘completo’ com quatro variáveis a mais que o anterior, sendo estas as
variáveis NotaCN, NotaCH, NotaLC e NotaRED elevadas ao quadrado, totalizando assim 25
variáveis independentes. Vale também a pena notar que as variáveis do tipo Nota foram
padronizadas subtraindo a média de cada uma, para prevenir a ocorrência de dependência.
Nesse segundo caso, o R​2 ​observado foi de ​0.521.
Então, foi iniciado o processo de seleção de variáveis da regressão. Foram usados
métodos automatizados no processo.
Primeiramente foram testados, simultaneamente, os métodos BIC (Critério de
Informação Bayesiano) e Cp de Mallow. No primeiro, quanto menor o valor de BIC, melhor.
Esse método foi escolhido ao invés do método AIC (Critério de Informação de Akaike) por
ter um termo de penalização para o número de parâmetros no modelo mais rigoroso. O
método do Cp de Mallow compara a precisão e o vício do modelo completo a modelos com
um subconjunto de preditores, e procura modelos que tenham o erro quadrático médio
como estimador não-viciado da variância.

Figura 4: Melhores modelos pelos métodos BIC e Cp de Mallow

Como pode ser visto na ​Figura 4, ​ambos os métodos indicam que o melhor modelo
possui 8 variáveis preditoras. Observando a tabela ANOVA do modelo, as 8 podem ser
mantidas (todas têm um valor de F grande o suficiente). Seu R​2​ foi de 0.5002​.
O segundo modelo foi obtido a partir do método ​Stepwise ‘Forward Selection’, cuja
função retorna o modelo que testa até onde é mais significativo adicionar variáveis ao invés
de usar o modelo vazio. ‘Forward’ indica que o método começou com o modelo vazio e foi
adicionando variáveis até onde foi considerado vantajoso. O modelo obtido pelo método
tinha 14 variáveis, mas observando a tabela ANOVA, foi removida uma variável
(Turno_SomenteDiurno). O ​R2​ ​do modelo sem nenhuma transformação foi 0.5163.
Para decidir qual era o melhor modelo entre os dois, foi realizado um teste de
análise de variância entre eles. O p-valor obtido foi de 5.214e-06, e concluímos que as
variáveis acrescentadas no modelo do método Stepwise não precisam ser excluídas.
Porém, como a diferença no ​R2​ ​dos modelos é bastante pequena, foi decidido utilizar o
modelo BIC-CP.
Definido o modelo, foi feita uma análise de resíduos. Para testar a normalidade,
homocedasticidade e independência dos resíduos, foram utilizados, respectivamente, Teste
de Shapiro-Wilks (hipótese nula é: o conjunto tem distribuição normal), Teste de
Breusch-Pagan (hipótese nula é: o conjunto tem variância constante) e Teste de
Durbin-Watson (hipótese nula é:os elementos do conjunto são independentes). Com o
objetivo de normalizar a distribuição dos resíduos e tornar a variância próxima de constante,
foram feitas 2 transformações: log(NotaMT) seguido de uma Transformação de Box-Cox
que indicou um lambda aproximado de -2. O lambda utilizado foi -2.5. A variável resposta
final está na forma: log​-2.5​(NotaMT).
Figura 5: Gráfico Q-Q Normal dos resíduos do modelo transformado

Figura 6: Gráfico de Resíduo X Valores ajustados de NotaMT

Figura 7: Gráfico de densidade dos resíduos


Aplicando os testes previamente mencionados aos resíduos do modelo
transformado, foram obtidos os valores apresentados na ​Tabela 1.​ Fica concluído que os
resíduos do modelo transformado são homocedásticos, independentes e têm distribuição
normal.

TESTE NÍVEL DE ESTATÍSTIC VALOR DE P HIPÓTESE


SIGNIFICÂNCIA A DO TESTE NULA

Shapiro-Wilks 0,05 0,9971 0,0758 Não rejeitada

Breusch-Pagan 0,05 3,0812 0,0792 Não rejeitada

Durbin-Watson 0,05 2,0500 0,4540 Não rejeitada

Tabela 1: tabela de resultado dos testes de Normalidade, Homocedasticidade e Independência dos


resíduos do modelo transformado

Assim sendo, o modelo final tem o formato:


log(NotaMT)​-2.5 ~ β0​ + β1​ ​*NotaCN + β​2*​ NotaCN2​ + β​3*​ NotaCH + β4​ *​ NotaLC +
β​5​*NotaLC2​ ​ + β​6​*Sexo + β7​ ​*InstrPai_Medio + β​8*​ `EscolaEM_Somente Publica`
com
β​0​ = 1,09e-02
β​1​ = - 2,70e-06
β​2​ = - 1,67e-08
β​3​ = - 1,74e-06
β​4​ = - 2,53e-06
β​5​ = ​- 1,28e-08
β​6​ = 1,34e-06
β​7​ = - 1,68e-04
β​8​ = 1,67e-04
Sendo log a função logarítmica natural, a transformação inversa para retornar a nota
de matemática é ​exp(Yi​ ​-0.4)​ .​ Esse modelo tem R​2​ igual a 0,4102.

4. INTERPRETAÇÃO DO MODELO

O modelo final foi planejado com o intuito de ter a maior explicação da variabilidade
dos dados com o menor número de variáveis preditoras possível. O modelo escolhido tem 8
variáveis independentes, sendo 5 quantitativas (numéricas) e 3 qualitativas (que indicam se
a característica indicada pela variável existe - com valor 1 - ou não - com valor 0 - no
candidato). As informações das demais variáveis estão contidas no valor do intercepto β​0​,
que é o valor que se obtém quando todas as variáveis preditoras são zero). Elas não
estarem no modelo indica que as suas variações não têm influência significativa no valor da
variável resposta Nota de Matemática.
Esse modelo é capaz de explicar 41,02% da variabilidade dos 1000 dados
inicialmente fornecidos. Para obter um modelo mais preciso, seria necessário um conjunto
de dados do ENEM 2015 maior.
Por conta dos dados quantitativos estarem concentrados abaixo da faixa dos 600
pontos, o modelo não é tão bom em predizer notas mais altas. Então, fica concluído que o
modelo é razoavelmente capaz de determinar o valor médio da nota de um candidato do
conjunto de dados estudado.
Como a variável resposta do modelo foi transformada utilizando a função
logarítmica, o aumento/diminuição da nota de matemática a cada unidade acrescentada a
cada variável independente (tendo as outras fixadas) é dada em termos de porcentagem.
Os aumentos ou diminuições percentuais esperados(as) na nota de matemática no caso de
cada variável quantitativa estão escritos na ​Tabela 2.​

Variável preditora Aumento/redução percentual esperado

Nota de Ciências da Natureza 0,3122%

Nota de Ciências Humanas 0,0252%

Nota de Linguagens e seus Códigos 0,2468%

​Tabela 2: Aumento ou diminuição percentual esperada no valor da variável dependente a cada uma
unidade adicionada à variável independente especificada

Observando a ​Tabela 2,​ é possível verificar que a nota em ciências humanas é a


que menos influencia o valor da nota de matemática. Em contrapartida, a cada aumento de
1 ponto na nota de Ciências da Natureza, a nota esperada em Matemática aumenta em
0,3122%, sendo esta a variável quantitativa com maior influência no valor médio da variável
resposta. Ademais, uma interpretação mais palpável talvez seja: a cada 100 pontos a mais
que o candidato tirou na prova de Ciências da Natureza, a nota esperada de Matemática
dele foi multiplicada por 1,031.
A influência de variáveis qualitativas é contabilizada como o percentual de
aumento/diminuição da variável resposta quando a qualitativa é presente em comparação
com quando ela não está presente. Os valores da influência das variáveis qualitativas do
modelo estão listados na ​Tabela 3​.

Variável preditora Aumento/redução percentual esperado

Sexo -- 0,8074%

Instrução Pai = Ensino Médio 0,8089%

Escola do Ensino Médio = Apenas Pública -- 0,8619%


Tabela 3: Aumento ou diminuição percentual esperada no valor da variável dependente quando a
variável independente especificada está presente

Analisando a ​Tabela 3,​ podemos ver que pessoas do sexo feminino têm uma nota
esperada de matemática 0,8074% menor do que candidatos homens. O indivíduo que
estudou apenas em escolas públicas durante o seu ensino médio também sofre uma
penalização: sua nota média de Matemática é 0,8619% menor que os que tiveram o
privilégio de estudar, mesmo que parcialmente, numa escola privada.
É importante lembrar que estes são valores aproximados, tanto pela amostra ser
limitada quanto pelo fato de que o aumento/decréscimo varia junto com a função
exponencial. Esses valores são próximos dos reais para valores medianos das notas de
Ciências da Natureza, Ciências Humanas e Linguagens e Códigos.
Concluindo, podemos dizer que o modelo não explica muito da variabilidade dos
dados, mas que fornece valores condizentes com os dados fornecidos e produz valores
médios aceitáveis para a nota de Matemática baseado na variação das notas das outras
provas específicas e características socioeconômicas dos candidatos.
CÓDIGOS

##TRABALHO FINAL - ME 613

#SETUP
library(tidyverse)
library(leaps)
library(bestglm)
library(fastDummies)
library(lmtest)
library(car)
library(caret)
library(GGally)
#READ FILE
path = "D:/EXERCICIOS R/ME613"
fname = file.path(path, "dados_239037.csv")
batata = read.csv(fname, sep=";")

desc1 = batata %>%


mutate(NotaMedia = (NotaCN + NotaCH + NotaLC + NotaRED + NotaMT)/5) %>%
select(-c(UF, NotaCN, NotaCH, NotaLC, NotaRED, NotaMT )) %>%
na.omit() %>%
mutate_if(is.factor, as.character)
desc2 = batata %>% select(Idade, NotaCN, NotaCH, NotaLC, NotaMT, NotaRED,
NPessoas)

#CORRELAÇÃO ENTRE AS VARIAVEIS NUMERICAS e DIST DE DENSIDADE


lower_graph <- function(data, mapping, ...){
ggplot(data = data, mapping=mapping) +
geom_jitter() +
geom_smooth(mapping = aes(color='red'))
}
ggpairs(desc2, lower = list(continuous = lower_graph))
#conclusão: Idade e NPessoas(na casa) tem baixa correlação com a nota média do
individuo

#SomentePublica é a que tem menor variação na média das provas e a menor mediana,
mas tem o amior numero de outliers

ggplot(data=desc1, mapping = aes(Renda, NotaMedia)) +


geom_boxplot()
before <- subset(desc1, Renda == "2. 1 a 3 SM", NotaMedia,
drop = TRUE)
after <- subset(desc1, Renda == "4. 5 a 10 SM", NotaMedia,
drop = TRUE)
wilcox.test(before, after, paired = F)$p.value
#variação é maior entre os individuos de alta renda, embora suas notas medias sejam
maiores

ggplot(data=desc1, mapping = aes(EscolaEM, NotaMedia)) +


geom_boxplot()
before <- subset(desc1, EscolaEM == "Somente Privada", NotaMedia,
drop = TRUE)
after <- subset(desc1, EscolaEM == "Somente Publica", NotaMedia,
drop = TRUE)
wilcox.test(before, after, paired = F)$p.value
wilcox.test(before, after, paired = F) ##diferença entre valores medianos é significativa

#ESCOLHA DAS VARIÁVEIS

##QUEM SÃO AS VARIÁVEIS RESPOSTA?


##VARIÁVEL RESPOSTA É A **NOTA DE MATEMÁTICA**
##POSSIVEIS VARIÁVEIS PREDITORAS SÃO TODAS AS DEMAIS VARIAVEIS
##ISSO IMPLICA EM 2^14 POSSIVEIS MODELOS
##VAMOS TESTAR OS MODELOS E ESCOLHER O MELHOR (DEVEMOS ESCOLHER
APENAS 1 MODELO)

#BEST SUBSETS ALGORITHMS


preds = wah[,-c(1,9)]
preds1 <- cbind(preds, y = wah$NotaMT)
names(preds1) <- c(paste("X",1:21,sep=""),"y")

#MÉTODO STEPWISE (BOTH)


completo = lm(y~.,data=preds1)
vazio = lm(y~1,data=preds1)
step(vazio, scope=list(upper=completo,lower=vazio), direction = "both", trace = T)

summary(step(vazio, scope=list(upper=completo,lower=vazio), direction = "both", trace =


T))$coef

#MODELO com CURVA(POLINOMIAL)


padronizar = function(col){
col - mean(col)
}
#wah é o dataframe original com só que com dummies para as variaveis categoricas
#weh é a nossa tabela com as variaveis Nota padronizadas conforme dito no Slide 09
weh = wah %>%
transmute(CN = padronizar(NotaCN), CH = padronizar(NotaCH),LC = padronizar(NotaLC),
RED = padronizar(NotaRED)) %>%
mutate(CN2 = CN^2, CH2 = CH^2,
LC2 = LC^2, RED2 = RED^2) %>%
cbind(wah[c(2:5,11:23,9)])

#STEPWISE both
completo = lm(NotaMT~.,data=weh)
vazio = lm(NotaMT~1,data=weh)
step(vazio, scope=list(upper=completo,lower=vazio), direction = "both", trace = T)
#BIC E CP
modelos <- regsubsets(NotaMT ~ ., data=weh, nbest=5)
plot(modelos, scale="bic")
plot(modelos, scale="Cp")

#MODELO ENCONTRADOS

#X1 e X13 retirados


mod_esc = lm(formula = (log(y))^(-1.85) ~ X5 + X6 + X19 + X10 + X17 + X7 + X14 + X2 +
X3 + X8, data = preds1)
anova(mod_esc) #por causa do anova tirado anteriormente, X13 foi retirado da formula de
regressao

mod_bic = lm(formula = log(NotaMT)^(-2.5) ~ CN + CN2 + CH + LC + LC2 + Sexo +


InstrPai_Medio + `EscolaEM_Somente Publica`, data=weh)
anova(mod_bic)

mod_pol = lm(formula = log(NotaMT)^(-2) ~ CN + CN2 + CH + InstrPai_Medio + CH2 +


`EscolaEM_Somente Publica` + LC + Sexo + LC2 + Idade + Cor +
`Renda_5. 10 ou mais` + `Renda_3. 3 a 5 SM`,
data = weh)
anova(mod_pol) #indica que devemos tirar "Turno_SomenteDiurno" (agora ja foi retirado)

anova(mod_bic, mod_pol) #retira-se as transformações antes de fazer


#isso inplica: mod_pol é melhor, mas ambos tem r2 parecidos enntao melhor deixar o bic,
ele tem menos variaveis

#QUANTO DOS DADOS É EXPLICADO PELO MODELO (R2)


summary(mod_esc)$r.squared
summary(mod_bic)$r.squared
summary(mod_pol)$r.squared
#QUANTO DA VARIAÇÃO DOS DADOS PODE SER EXPLICADO POR UM MODELO
COM TODAS AS VARIÁVEIS
summary(lm(y ~ ., data = preds1))$r.squared #linear
summary(lm(NotaMT ~ ., data=weh))$r.squared #polinomial
#tudo considerado, meus dados nao sao tao bons e o modelo está explicando até que
bastante coisa ajdfhakldsjf

#OK, DIAGNÓSTICO!! VAMOS ANALISAR ESSES RESÍDUOS!


res <- resid(mod_bic)
#TESTANDO PARA NORMALIDADE DOS RESÍDUOS
#create Q-Q plot for residuals
qqnorm(res)
qqline(res) #conclusão: parece ser normalmente distribuido
#produce residual vs. fitted plot
plot(fitted(mod_bic), res)
abline(0,0)
#Create density plot of residuals
plot(density(res))

#Shapiro-Wilks Test for Normality


#H0: residuos são normalmente dist; H1: residuos NÃO são normalmente dist
shapiro.test(res) #conclusão: é normalmente distribuido
#Breusch-Pagan Test Test for Homocedacity
#H0: temos homocedasticidade; H1: não temos homocedasticidade
ncvTest(mod_bic) #conclusão: temos homocedasticidade no modelo,está bom o suficiente,
bola pra frente
#Durbin-Watson Test for Independence of Residuals
#H0: residuos são independentes; H1: residuos são autocorrelacionados
durbinWatsonTest(mod_bic) #conclusão: os residuos são indepedentes

caret::BoxCoxTrans(log(weh$NotaMT))
#INTERPRETAÇÃO
coef <- as.vector(mod_bic$coefficients)
lin_ratio <- function(x){
(exp(x^(-2/5)))
}
v_esperado = function(x1,x2,x3,x4,x5,x6,x7,x8){
notamt_esp = coef[1] + coef[2]*x1 +coef[3]*x2+coef[4]*x3+coef[5]*x4+
coef[6]*x5+coef[7]*x6+coef[8]*x7+coef[9]*x8
}
#TESTE (B0)
lin_ratio(coef[1]) #parece estar dando certo

#VARIAVEL SEXO
inf_sexo=(lin_ratio(v_esperado(mean(batata$NotaCN),mean(batata$NotaCN)^2,mean(batat
a$NotaCH),mean(batata$NotaLC),mean(batata$NotaLC)^2,1,0,0))/lin_ratio(v_esperado(me
an(batata$NotaCN),mean(batata$NotaCN)^2,mean(batata$NotaCH),mean(batata$NotaLC),
mean(batata$NotaLC)^2,0,0,0)))-1

#VARIAVEL INSTRPAI_MEDIO (valores medianos observados no conjunto original pois


colocar mean ta dando uns valores muito estranhos)
inf_instrpai_medio=(lin_ratio(v_esperado(450,202500,550,450,202500,0,1,0))/lin_ratio(v_es
perado(450,202500,550,450,202500,0,0,0)))-1
#VARIAVEL ESCOLAEM_SOMENTEPUBLICA
inf_somentepublica=(lin_ratio(v_esperado(mean(batata$NotaCN),mean(batata$NotaCN)^2,
mean(batata$NotaCH),mean(batata$NotaLC),mean(batata$NotaLC)^2,0,0,1))/lin_ratio(v_es
perado(mean(batata$NotaCN),mean(batata$NotaCN)^2,mean(batata$NotaCH),mean(batat
a$NotaLC),mean(batata$NotaLC)^2,0,0,0)))-1

#VARIAVELCN (POLINOMIAL)
inf_cn=(lin_ratio(v_esperado(mean(batata$NotaCN)+1,(mean(batata$NotaCN)+1)^2,mean(b
atata$NotaCH),mean(batata$NotaLC),mean(batata$NotaLC)^2,0,0,0))/(lin_ratio(v_esperado
(mean(batata$NotaCN),mean(batata$NotaCN)^2,mean(batata$NotaCH),mean(batata$Nota
LC),mean(batata$NotaLC)^2,0,0,0))))-1

#VARIAVELCH (LINEAR)
inf_ch=(lin_ratio(v_esperado(mean(batata$NotaCN),(mean(batata$NotaCN))^2,mean(batata
$NotaCH)+1,mean(batata$NotaLC),mean(batata$NotaLC)^2,0,0,0))/(lin_ratio(v_esperado(m
ean(batata$NotaCN),mean(batata$NotaCN)^2,mean(batata$NotaCH),mean(batata$NotaLC
),mean(batata$NotaLC)^2,0,0,0))))-1

#VARIAVELLC (POLINOMIAL)
inf_lc=(lin_ratio(v_esperado(mean(batata$NotaCN),(mean(batata$NotaCN))^2,mean(batata
$NotaCH),mean(batata$NotaLC)+1,(mean(batata$NotaLC)+1)^2,0,0,0))/(lin_ratio(v_esperad
o(mean(batata$NotaCN),mean(batata$NotaCN)^2,mean(batata$NotaCH),mean(batata$Not
aLC),mean(batata$NotaLC)^2,0,0,0))))-1

Você também pode gostar