Lista Respondida Prova 2

QUESTÃO I2 OK A tensão de ruptura dos cabos produzidos por um fabricante apresenta a
média de 1800kg e o desvio padrão de 100kg. Mediante nova técnica no processo de

fabricação, proclamou-se que a tensão de ruptura pode ter aumentado. Para testar essa
declaração, ensaiou-se uma amostra de 50 cabos, tendo-se determinado a tensão média de
ruptura de 1850kg. Pode-se confirmar a declaração com nível de significância 0,01?
> #I2: > closeAllConnections() > rm(list=ls()) > # Processo: > μ = 1800 #kg > σ = 100 #kg >
#Amostra: > n = 50 #tamanho amostral > mediaAmostral = 1850 #kg > ##Testar suspeita de
que a média aumentou: > #Teste de hipóteses para a média populacional com σ² conhecido e
n ≥ 30. > α = 0.01 #1%, nível de significância > z = (mediaAmostral - μ) / (σ / sqrt(n)) > #Teste
Unilateral à Direita > # H0: μ = 1800 (μ ≤ 1800) Média não aumentou > # H1: μ >
1800 Média aumentou > #Rejeitar H0 se z > zα > zα = qnorm(p = 1-α, mean =
0, sd = 1, lower.tail = TRUE) > #lower.tail logical; if TRUE (default), probabilities are P[X ≤ x] >
zα = qnorm(p = α, mean = 0, sd = 1, lower.tail = FALSE) > #lower.tail logical; if FALSE,
probabilities are P[X > x]. > #Decisão: > paste0("H0: μ = μ0 (μ <= μ0); H1: Média aumentou")
[1] "H0: µ = µ0 (µ <= µ0); H1: Média aumentou" > if (z > zα) { paste0("Rejeitar H0") } else {
paste0("Não rejeitar H0") } [1] "Rejeitar H0" > ######Teste pelo P-Valor para Normal
unilateral: > #z = (mediaAmostral - μ) / (σ / sqrt(n)) > p.valor = pnorm(q = abs(z), mean = 0, sd =
1, lower.tail = FALSE) > #lower.tail logical; if FALSE, probabilities are P[X > x]. > if (p.valor > α) {
paste0("Não rejeitar H0") } else { paste0("Rejeitar H0") } [1] "Rejeitar H0"
Conclusão: Ao nível de confiança de 99%, verifica-se que há evidências suficientes para

suspeitar que a tensão de ruptura dos cabos aumentou.
QUESTÃO I3 O desempenho de dois catalisadores está sendo testada de forma a determinar-se

se eles exigem tempos diferentes de imersão para a remoção de quantidades idênticas de
material fotorressistente. Doze lotes foram submetidos ao catalisador 1, resultando em uma
média amostral do tempo de imersão de 24,6 minutos e em um desvio padrão de 0,85
minutos. Quinze lotes foram submetidos ao catalisador 2, resultando em um tempo médio de
imersão de 22,1 minutos e um desvio padrão de 0,98 minutos. Verifique se há diferença
significativa entre o desempenho dos catalisadores considerando um nível de significância de
5% considerando:
a) Intervalo de confiança. Justifique sua resposta. b) Teste de hipóteses. Justifique sua

resposta.
O zero não faz parte do intervalo, logo a diferença entre as médias é diferente de zero,
portanto, os processos são diferentes.
QUESTÃO I4 OK
Dado que a expressão para o tamanho da amostra para a proporção é
22 )()1)(( pZn
, descreva detalhadamente como maximizar n se o parâmetro é desconhecido? Lembre-se:

é a proporção da população.
> #I4: > #Montgomery, 196-197 > #TRIOLA, 273-274 > # n = Z²(π)(1-π) / (p-π)² > #A expressão
mostra que o tamanho amostral não depende do tamanho N da população; o tamanho
amostral depende do nível de confiança desejado, que aparece na estatística Z, e da margem
de erro dada por (p-π) no denominador. > #Para maximizar o tamanho amostral, toma-se a
primeira derivada da parcela (π)(1-π) igualando à zero para determinar o máximo local: > #
d[π(1-π)]/dπ = 0 > # 1.(1-π) + π.(-1) = 0 > # 1-π-π = 0 > # -2π = -1 > # π = 1/2 = 0.5 > #Ou seja,
π(1-π) é máximo quando π = 0.5. Quando não se tem informação alguma a respeito da
proporção de uma população, é razoável supor que esta proporção esteja dividida igualmente,
π=0.5 e (1-π)=0.5, para n suficientemente grande. > #Logo, definida uma margem de erro e o
nível de confiança da estatística, o tamanho amostral pode ser maximizado fazendo π = 0.5. >
#Parece comum tratar essa suposição como um abordagem conservadora ou otimista. > #Ou
ainda, fazendo a primeira derivada igual a zero considerando a parcela do erro: > # d[ (π)(1-π)
/ (p-π)² ]/dπ = 0 > #obtem-se:
> # π = p / (2p-1), tal que a função tem assintota vertical em p=1/2. (e assintota horizontal em
π=1/2) > #Dessa forma é interessante que o pesquisador defina o erro admissível, (p-π).
n=Z2(π)(1−π) /(p−π)²
dπ(1−π) /dπ
QUESTÃO I5 OK
Deseja-se estimar a resistência média de certo tipo de peça com precisão de 2kg e 95% de
confiança. Desconhecendo-se a variabilidade dessa resistência, roperam-se cinco peças,
obtendo-se para elas os seguintes valores de sua resistência (em kg): 50,58,52,49,55. Com
base no resultado obtido, determinouse que deveriam ser rompidas mais quinze peças, a fim
de se conseguir o resultado desejado. Qual sua opinião a respeito dessa conclusão?
> #I5: > setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir") > closeAllConnections() >
rm(list=ls()) > ############################################################
######### > dados = c(50,58,52,49,55) > erro = 2 #kg > α = 0.05 #5%, nível de significância >
s = sd(dados) > s [1] 3.701351 > n = length(dados) > n [1] 5 > #distribuição t-Student > t = qt(p =
(α/2), df = (n-1), lower.tail = FALSE) > t [1] 2.776445 > n = ( t * s/erro )^2 > n = ceiling(n) > n #n
= 27 [1] 27 > #distribuição t-Student > #Calculando a nova probabilidade t com df=27-1: > t =
qt(p = (α/2), df = (n-1), lower.tail = FALSE) > t [1] 2.055529 > #Calculando novo n, com
erro=2kg: > n = ( t * s/erro )^2 > n = ceiling(n) > n #N = 15 [1] 15
QUESTÃO RLM1 OK Acredita-se que a vazão de vapor (em ton/h) usada mensalmente por uma
planta química está relacionada com a temperatura ambiente (em oF) daquele mês. Os usos e
temperaturas dos últimos anos estão mostradas na tabela que segue:
Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Temp. 21 24 32 47 50 59 68 74 62 50 41
30 Vazão/1000 185,79 214,47 288,03 424,84 454,58 539,03 621,55 675,06 562,03 542,93
369,95 273,98
> closeAllConnections() > rm(list=ls()) > par(mar=c(4,4,1,1)) > par(mfrow=c(1,1)) > setwd(dir =
"K:/2016_1 UFBA/ENGD02/Statistics R WDir") > planta = read.table(file =
"RegressaoLinearMultipla/RLM1/PlantaQuimica.txt", header = TRUE, dec = ',') > #Importante:
Deve haver um \n ao fim do vetor de dados no arquivos .txt para evitar um alerta no RStudio >
#Transpor matriz mantendo os nomes do cabeçário: > planta =
setNames(data.frame(t(planta[,-1])), planta[,1]) > modelo = lm(planta$`Vazão/1000` ~
planta$Temp.) #Modelo Linear > summary(modelo) Call: lm(formula = planta$`Vazão/1000` ~
planta$Temp.) Residuals: Min 1Q Median 3Q Max -11.528 -8.467 -6.977 -6.130
81.014 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -3.2621 23.0726
-0.141 0.89 planta$Temp. 9.3036 0.4673 19.910 2.24e-09 *** --Signif. codes: 0 ‘***’
0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 26.88 on 10 degrees of freedom
Multiple R-squared: 0.9754, Adjusted R-squared: 0.9729 F-statistic: 396.4 on 1 and 10 DF, p-
value: 2.243e-09 > plot(planta$Temp.)
Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura é diferente

de Zero, comparando a qualquer nível de significância, já que a probabilidade é da ordem de
10-9. O coeficiente de interceptação (coeficiente linear) por sua vez, não pode ser considerado
como diferente de Zero já que a probabilidade é muito alta, ou ainda, adotando um nível de
significância, α = 5%, a hipótese nula, H0: B0 = 0, não poderá ser rejeitada. Conclusão: β0 = 0 e
β1 = 9.3036
> #Teste de Shapiro-Wilk -> Verificar se um conjunto de dados é normal >

shapiro.test(modelo$residuals) Shapiro-Wilk normality test data: modelo$residuals W =
0.41436, p-value = 4.413e-06 > boxplot(planta$Temp.)
Avaliando o p-valor do Teste de Normalidade, conclui-se que os resíduos são normais, já que o
p-valor é muito pequeno quando comparado a qualquer nível de significância.
a) Assuma que o modelo de regressão linear simples é apropriado e ajuste o modelo de

regressão relacionando a vazão de vapor (y) e a temperatura (x). Vazao = -3,26 +
9,30*Temp b) Avalie a significância do modelo de regressão. Multiple R-squared:
0.9754, Adjusted R-squared: 0.9729 F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-
09
b) O coeficiente de determinação múltipla, R² e o R² ajustado servem como parâmetro
para explicar a variabilidade dos dados observados usando as variáveis independentes.
Como o modelo tem uma única variável independente, a Temperatura, e tanto o R²
múltiplo quanto o R² ajustado são muito próximo de 1, pode-se concluir que 97% dos
dados de vazão observados são explicados pela variação da temperatura.
c) A significância é melhor avaliada a partir da análise de variância que retorna uma
estatística F = 396.4 com p-valor da ordem de 10-9 que, para as hipóteses: H0:β1=0 ,
não existe relação linear H1:β1≠0 , existe relação linear e para um nível de significância
muito pequeno, por exemplo α=0,01 que retorna uma estatística F = 6055,85,
F0,01;1;n−2=F0,01;1;10=6055,85 , conclui-se que a hipótese nula pode ser rejeitada,
ou seja, para um nível de confiança de 99% existe relação linear entre Vazão e
Temperatura ( β1≠0 ).
d) c) Analise o significado de cada p-valor (P) apresentado ao lado fazendo-se uso do
teste de hipóteses. Você faria alguma sugestão de alteração do seu modelo de
regressão?
e) Predictor t-valor p-valor Constant -0.14 0.890 Temp. 19.91 0.000
Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura é
diferente de Zero, comparando a qualquer nível de significância, já que a
probabilidade é da ordem de 10-9. O coeficiente de interceptação (coeficiente linear)
por sua vez, não pode ser considerado como diferente de Zero já que a probabilidade
é muito alta, ou ainda, adotando um nível de significância, α = 5%, a hipótese nula,
H0:β0=0 , não poderá ser rejeitada. Conclusão: β0 = 0 e β1 = 9.3036
QUESTÃO RLM2 SINTETIZAR

Como identificar a existência de correlação não linear entre as variáveis? Qual a
influência de pontos aberrantes em um modelo de regressão?
Uma relação linear é uma tendência nos dados que pode ser modelada por uma linha
reta. #### Uma relação linear é uma tendência nos dados que pode ser modelada por
uma linha reta que mostra uma taxa estável de aumento ou redução.
Se a relação entre duas variáveis não é linear, a taxa de aumento ou redução pode
mudar quando uma variável muda, causando um "padrão curvo" nos dados. Essa
tendência curva pode ser melhor modelada por uma função não linear #### A
associação linear entre duas variáveis é avaliada usando correlação. Para predizer o
valor de uma variável contínua a partir de uma outra variável e para descrever a
relação entre duas variáveis utiliza-se regressão (veja o próximo capítulo). O primeiro
estágio em qualquer um dos casos é produzir um gráfico de pontos dos dados para
obter alguma ideia da forma e grau de associação entre duas variáveis.
Para obter uma medida do grau de associação da relação linear entre duas variáveis,
usamos o coeficiente de correlação Somente relações lineares são detectadas pelo
coeficiente de correlação que acabamos de descrever (também chamado coeficiente
de correlação de Pearson). Nos dados abaixo, mesmo existindo uma clara relação
(não-linear) entre e , o coeficiente de correlação é zero. Sempre faça o gráfico dos
dados de modo que você possa visualizar tais relações. ####
A análise gráfica da relação entre variáveis é importante, mas os olhos nem sempre
são um bom juiz da intensidade de uma relação linear. Os diagramas a seguir ilustram
precisamente os mesmos dados, mas o gráfico inferior é menor em um campo mais
amplo (escala diferente).
Nossos olhos podem ser enganados por uma mudança de escalas, ou pela quantidade
de espaço em branco em torno do aglomerado dos pontos. Deve-se, então, utilizar
uma medida numérica para suplementar o gráfico. Coeficiente de Correlação Linear (r)
r -> mede o grau de relacionamento linear entre valores emparelhados x e y em uma
amostra. Mede a intensidade e a direção da relação linear entre duas variáveis
quantitativas. Chamado também de Coeficiente de Correlação de Pearson (Karl
Pearson, 1857-1936).
Quanto mais próximo de –1: maior correlação negativa Quanto mais próximo de 1:
maior correlação positiva Quanto mais próximo de 0: menor a correlação linear
O valor de r não varia se todos os valores de qualquer uma das variáveis são
convertidos para uma escala diferente. O valor de r não é afetado pela escolha de x ou
y. Permutando x e y, r permanece inalterado. r: só mede a intensidade ou grau de
relacionamentos lineares. Não serve para medir intensidade de relacionamentos não
lineares.
http://leg.ufpr.br/~paulojus/CE003/ce003/node8.html
https://www.eecis.udel.edu/~portnoi/classroom/prob_estatistica/2006_2/lecture_slid
es/aula20.pdf http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-
statistics/regression-andcorrelation/basics/what-is-a-linear-relationship/
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-
statistics/regression-andcorrelation/basics/linear-nonlinear-and-monotonic-
relationships/
O coeficiente de correlação é sensível a pontos aberrantes, portanto é importante que
o diagrama de pontos seja analisado. O coeficiente de determinação múltipla, R² e o R²
ajustado servem como parâmetro para explicar a variabilidade dos dados observados
usando as variáveis independentes. Quando R² ajustado é mais próximo de 1, indica
que existe relação linear, no entanto deve-se tomar cuidado pois a adição de variáveis
aumenta o valor de R².
Para avaliar a existência ou não da relação linear, pode-se recorrer ao teste de
hipóteses, onde avalia-se a significância do modelo através das hipóteses: H0:βi=0 ,
não existe relação linear
H1:βi≠0 , existe relação linear Definido um α e calculando a estatística F é possível
realizar o teste de hipóteses para verificar a existência da relação linear. Fcalculado=
MQregressão MQresiduos Encontra-se o valor de F para o nível de significância
estabelecido e, comparando com o Fcalculado , temos: Se Fα;glN;glD<Fcalculado ,
rejeita-se a hipótese nula, H0 , portanto, conclui-se que os dados indicam relação
linear. Caso contrário, não há indícios que indiquem a existência da relação linear.
É possível ainda avaliar a existência de correlação não-linear a partir da análise gráfica
dos resíduos, de modo que, através da análise dos resíduos pode-se observar
comportamento diferente do comportamento linear ou outras inadequações do
modelo, como dependência dos erros, desgaste, ou seja, variância não constante.
QUESTÃO RLM7 OK
Um modelo linear multivariado foi construído para representar uma variável de um
processo. Para tanto, foi utilizado o método Stepwise. Sendo você um especialista do
processo, sugira um meio de interferir na seleção das variáveis pelo método Stepwise;
justifique sua resposta considerando inclusive conceitos estatísticos.
“Qualquer procedimento para seleção ou exclusão de variáveis de um modelo é
baseado em um algoritmo que checa a importância das variáveis, incluindo ou
excluindo-as do modelo se baseando em uma regra de decisão. A importância da
variável é definida em termos de uma medida de significância estatística do
coeficiente associado à variável para o modelo. Essa estatística depende das
suposições do modelo. No Stepwise da regressão linear um teste F é usado desde que
os erros tenham distribuição normal.”
Sabendo disso, o especialista, conhecendo o processo estudado e sabendo da
importância ou não de determinadas variáveis, poderá interferir na seleção de
variáveis alterando o nível de significância, α , do teste.
A regressão stepwise padrão adiciona e remove preditores conforme necessário em
cada etapa. O procedimento para quando todas as variáveis fora do modelo possuem
valores p maiores que o alfa especificado para inclusão e quando todas as variáveis no
modelo possuem valores p menores que ou iguais aos valores alfa para exclusão.
Variável sai do modelose p-valor ¿α Variável entra no modelo se p-valor ¿α
Dessa forma, aumenta-se o nível de significância para permitir que determinada
variável entre no modelo e diminui-se o nível de significância para fazer com que
determinada variável saia do modelo, tendo em vista a importância da variável em
questão através do teste de hipóteses.
Problemas com a regressão stepwise:2 Quando duas variáveis preditoras são
altamente correlacionadas, é possível que apenas uma fique no modelo mesmo se a
outra for importante. Como o procedimento ajusta muitos modelos, ele pode
selecionar aqueles que ajustam os dados bem apenas por acaso. A regressão
stepwise pode não parar necessariamente com o modelo com o valor R² mais alto
possível para um número especificado de preditores. Procedimentos automáticos
não consideram conhecimento especializado que o analista poderia ter sobre os
dados. Por isso o modelo selecionado pode não ser o melhor sob um ponto de vista
prático.

Lista Respondida Prova 2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Lista Respondida Prova 2

Enviado por

Direitos autorais:

Formatos disponíveis

QUESTÃO I2 OK A tensão de ruptura dos cabos produzidos por um fabricante apresenta a

média de 1800kg e o desvio padrão de 100kg. Mediante nova técnica no processo de

Conclusão: Ao nível de confiança de 99%, verifica-se que há evidências suficientes para

QUESTÃO I3 O desempenho de dois catalisadores está sendo testada de forma a determinar-se

a) Intervalo de confiança. Justifique sua resposta. b) Teste de hipóteses. Justifique sua

Dado que a expressão para o tamanho da amostra para a proporção é

, descreva detalhadamente como maximizar n se o parâmetro é desconhecido? Lembre-se:

Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura é diferente

> #Teste de Shapiro-Wilk -> Verificar se um conjunto de dados é normal >

a) Assuma que o modelo de regressão linear simples é apropriado e ajuste o modelo de

QUESTÃO RLM2 SINTETIZAR

Você também pode gostar