Você está na página 1de 22

ESTATÍSTICA II

Data: 10-05-2021

Produto 2

NOME: Jairo Luis Valadez Almaguer

TEMA: Análise de Regressão

PROFESSORA: CLAUDIA ZAPATA GARZA


3ª Semana

INTRODUÇÃO:

Uma análise de variância (ANOVA) testa a hipótese de que as médias de duas ou mais populações são iguais.
As ANOVAs avaliam a importância de um ou mais fatores comparando as médias da variável resposta em
diferentes níveis fatoriais. A hipótese nula afirma que todas as médias populacionais (médias dos níveis
fatoriais) são iguais, enquanto a hipótese alternativa afirma que pelo menos uma é diferente. Para executar
uma ANOVA, você deve ter uma variável de resposta contínua e pelo menos um fator categórico com dois
ou mais níveis. As análises de ANOVA requerem dados de populações que seguem uma distribuição
aproximadamente normal de covariâncias iguais entre os níveis fatoriais. O objetivo principal é dar uma
visão comparativa dos diferentes métodos estatísticos tais como: (ANOVA, MANOVA E MODELOS MISTOS)
de um ponto de vista prático no ambiente de aplicações médicas, para cada um dos métodos uma breve
introdução e uma discussão das condições de aplicação que permitem ter uma ideia do tipo de desenhos em
que possa ser utilizado e, finalmente, será realizada a análise dos dados do resultado de um ensaio clínico
onde o estado de cada indivíduo é determinado ao longo de três instantes de tempo (T1, T2 e T3), sob dois
fatores (controle e tratamento), concluindo que a principal desvantagem reside na restrição da matriz de
covariância, que limita o método a variado, mas não tanto ao método multivariado, exigindo que os dados
sejam balanceados e completos, o que é muito difícil, portanto, o último método utilizado foi o modelo
misto, o que se ajusta bem à matriz de correlação e aos dados desbalanceados, concluindo que os modelos
mistos se ajustam corretamente aos dados com medidas repetidas.

Objetivo: Resolva um problema de aplicação usando o método de análise de variância ANOVA de um fator.

Desenvolvimento

A Alerce Austral deve enviar um pedido de vários itens produzidos na fábrica na Cidade do México, CDMX,
para sua loja localizada em Guadalajara. O gerente da fábrica na Cidade do México decide fazer o embarque
por avião, então o diretor de transporte sugere possíveis maneiras de mover a carga da fábrica para o
Aeroporto Internacional da Cidade do México (AICM): o Viaduto Miguel Alemán, Rio La Piedad e Rio
Churubusco. O diretor de Transportes, por sua vez, quer analisar o tempo que levaria para transportar a
carga da usina até a AICM por cada uma das rotas sugeridas e, em seguida, comparar os resultados. A coleta
dos dados amostrais que foram relatados em minutos está registrada na Tabela 2.
Tabela 2. Tempos de transporte de carga da fábrica para a AICM
N Rio Churubusco Viaduto Miguel Rio La Piedad (tempo
(tempo em minutos) Alemán (tempo em em minutos)
minutos)
1 52 59 56
2 67 60 71
3 56 61 60
4 45 51 49
5 70 56 74
6 54 63 58
7 64 57 68
8 60 65 64

Considerando um nível de significância de 0,10, responda ao Diretor de Transportes as seguintes questões:

a) Existe alguma diferença no tempo de transporte da carga da fábrica na Cidade do México para a AICM
através das duas rotas recomendadas? Não há diferença nos tempos de transporte de cargas pelas duas
rotas.

b) Os desvios-padrão de cada uma das rotas escolhidas são iguais ou diferentes? Se são diferentes, o que
essa diferença implica em termos estatísticos? Os desvios-padrão são diferentes em cada uma das rotas
escolhidas. Em termos estatísticos é uma medida de dispersão dos dados, quanto maior a dispersão maior o
desvio padrão.

(c) Que tipo de análise estatística você usará para responder à pergunta? Fundamente sua resposta. A
análise estatística a ser utilizada deve ser uma análise de variância ou ANOVA, uma vez que estamos
comparando as médias de duas populações com amostras do mesmo tamanho.

d) Qual estatística de teste você deve usar? A estatística a ser utilizada é a distribuição de Fisher. Por que?

Por nos ajudar a comparar as variâncias de duas populações, é uma distribuição assimétrica à direita e é
descrita pelos diferentes graus de liberdade de seu numerador e denominador.

Considerando que as amostras são do mesmo tamanho, para a análise de variância temos o seguinte:

H0: μ1 = μ2

H1: μ1 ≠ μ2

Valores críticos
gl1 = k-1 = 2 -1 = 1

gl2 = k(n – 1) = 2 (8 – 1) = 14

α = 0.11 – α = 1 – 0.1 = 0.90

Das tabelas

F0.1,1,14 = 3.102

Rio Churubusco
X1=52+67+56+45+70+54+64+60= 58,5

Viaduto Miguel Alemán

X2=59+60+61+51+56+63+57+65= 59

Rio La Piedad

X3=56+71+60+49+74+58+68+64= 62,5

A estatística de teste a ser usada é a F de Fishe.

No gráfico
CONCLUSÃO

Vantagens e limitações da Análise de Variância (ANOVA) A análise de variância (ANOVA) é uma técnica de
teste de hipóteses estatísticas. Tradicionalmente, essas técnicas, juntamente com as técnicas de regressão
linear múltipla, das quais são praticamente uma extensão natural, marcam o início das técnicas
multivariadas. Com essas técnicas, mais de duas variáveis são tratadas simultaneamente, e a complexidade
do aparato matemático aumenta proporcionalmente com o número de variáveis em jogo. A análise de
variância de um fator é o modelo mais simples: uma única variável nominal independente, com três ou mais
níveis, explica uma variável dependente contínua. Outra alternativa, aparentemente mais lógica e intuitiva,
é comparar, em todas as combinações possíveis de dois a dois, as médias de todos os subgrupos formados.
Isso reúne, fundamentalmente, dois tipos de problemas: a). - O risco de dar um resultado falso positivo é
aumentado, quando se realiza mais de uma análise no mesmo conjunto de dados. b). - É difícil interpretar a
verdadeira influência da variável que atua como fator de classificação, pois gera diferentes níveis de
significância (p), resultantes de comparações entre seus subgrupos. A ANOVA elimina essas desvantagens.
Com essas técnicas, a influência de cada variável independente é analisada globalmente, gerando um único
nível de significância. Com a análise de variância, a influência de dois ou mais fatores classificatórios
(variáveis independentes) sobre uma variável resposta contínua pode ser analisada simultaneamente. Isso é
conhecido como análise fatorial de variância. O efeito de um fator pode ser somado ao de outro fator
(modelo aditivo) ou pode ser potencializado (modelo multiplicativo). Neste último caso, um novo fator de
interação aparece e é analisado sobre a variável resposta, como resultado da ação conjunta de dois ou mais
fatores. Esse possível efeito é detectado na análise de variância pela significância de sua correspondente
estatística de contraste. As técnicas de análise de variância, baseadas na partição da variabilidade (soma dos
quadrados) da resposta estudada, servem de base para a análise das distribuições dos dados gerados, em
delineamentos mais complexos, como a análise de covariância. Neste último tipo de análise, são combinadas
variáveis explicativas discretas e contínuas. A variabilidade da resposta é analisada como na análise fatorial
de variância, uma vez eliminada a possível influência da variável ou variáveis contínuas explicativas. Seria
uma análise análoga à da variância dos resíduos; ou seja, os resíduos da regressão são analisados ao invés
dos dados iniciais. Outros modelos mais complexos são a análise de medidas repetidas sobre as mesmas
unidades experimentais, a análise de delineamentos cruzados, a análise aninhada ou a análise de variância
fatorial com informações incompletas. Na ANOVA, comparam-se médias e não variâncias: médias dos
subgrupos ou estratos originados pelos fatores classificatórios estudados. Nessas técnicas, a hipótese
alternativa é múltipla, pois engloba diferentes hipóteses.

4ª Semana
Introdução

A estatística não paramétrica é um ramo da inferência estatística cujos cálculos e procedimentos são
baseados em distribuições desconhecidas. Estatísticas não paramétricas não são muito populares. No
entanto, há uma literatura muito extensa sobre isso. O problema que a estatística não paramétrica pretende
resolver é a falta de conhecimento da distribuição de probabilidade. Em outras palavras, a estatística não
paramétrica tenta descobrir a natureza de uma variável aleatória. Pois, uma vez que ele saiba como se
comporta, realize cálculos e métricas que o caracterizem.

Este é o objetivo da estatística não paramétrica.

Existem diferentes tipos de distribuições de probabilidade nas quais a estatística paramétrica funciona.
Agora, quando não sabemos a que tipo de distribuição de probabilidade uma variável corresponde, que
cálculos usamos? Ou seja, quando não conhecemos a distribuição de probabilidade de um conjunto de
dados, devemos fazer inferências estatísticas com procedimentos não paramétricos. Em outras palavras, se
não sabemos que tipo de distribuição de probabilidade um fenômeno tem, não podemos fazer estimativas
como se realmente soubéssemos como ele é distribuído. Este é o objetivo da estatística paramétrica, para
nos permitir conhecer a distribuição.

Objetivo: Testar sinais e resolver um problema de aplicativo

Desenvolvimento

O CEO da Alerce Austral recomendou o desenvolvimento de um programa de treinamento para seus


gestores com o objetivo de aumentar seus conhecimentos em administração de empresas. Uma amostra de
15 gestores foi selecionada aleatoriamente e examinada por um grupo de especialistas em gestão. Estes
determinaram o nível geral de conhecimento de cada gestor participante em relação ao tema da formação.
A competência e o entendimento sobre o tema foram classificados como "Excelente", "Bom", "Regular" ou
"Ruim". O treinamento teve duração de três meses. Posteriormente, a mesma equipe de especialistas em
negócios reavaliou e avaliou cada um dos gerentes que concluíram o treinamento. A Tabela 3 contém as
notas obtidas antes e após o treinamento. O sinal + indica que o gestor melhorou em suas competências e
em sua compreensão do assunto, enquanto o sinal - indica um declínio nas competências e no
entendimento das pessoas após o programa de treinamento. Os gestores são mais proficientes em
administração de empresas após o programa de treinamento?

Tabela 3. Nível de competência dos gestores antes e após o treinamento


N Nome Antes Depois Sinal de
deferência
1 Cláudio Rojas Deficiente Bom +
2 Desconhecido Bom Excelente +
3 Andréa Schmidt Bom Regular -
4 Cláudia Tello Regular Excelente +
5 Mário Ponce Bom Excelente +
6 José Gómez Deficiente Bom +
7 Marisol Colunga Bom Deficiente -
8 Joana Pardo Bom Excelente +
9 Andrés Fonseca Deficiente Regular +
10 João Soares Bom Excelente +
11* Armando Tejeda Excelente Excelente 0*
12 Rodrigo Paredes Deficiente Bom +
13 Josefina Muñoz Excelente Bom -
14 Lewis Tomás Regular Excelente +
15 Maria Stewart Bom Excelente +

Solicita-se que o diretor da empresa seja informado do seguinte: Os gestores são mais competentes em
administração de empresas após o programa de treinamento? Para responder à pergunta, considere um
nível de significância de 0,1. Antes de responder, reflita sobre: Qual método estatístico você deve usar para
responder, paramétrico ou não paramétrico?

Para a realização da análise, o método estatístico a ser utilizado é um teste não paramétrico. Se você
escolher um método não paramétrico, qual especificamente é o mais adequado? Por que? Fundamente suas
respostas. O método estatístico mais adequado a ser utilizado é o teste de contraste de sinais, este método
é escolhido porque a tabela de resultados mostra as diferenças com os sinais. Posteriormente será
demonstrado por que é considerado o mais indicado.

Declaração do problema

Estabelecemos as hipóteses

H0: P = 0,5

H1: P > 0,5

α = 0.10 => 1-α= 0.90

Q -> porcentagem de diferenças positivas que existem em toda a população em relação a uma mudança.

Qualificação Antes Depois Diferença (D-A Sinalização


Deficiente 4 1 -3 -
Regular 2 2
Poço 7 4 -3 -
Excelente 2 8 6 +

Calculando a estatística do teste Z

X=1 há apenas um sinal positivo

n=3 são 3 diferenças diferentes de zero

Z= 2x−n

√n

Z = 2 ( 1 ) − 3 = − 0 , 5 7 7 3

√3

Das tabelasα = 10% = 0,10

1- α =1-0,10= 0,90 sendo um teste de cauda direita consideramos apenas metade, portanto, seria (1- α)
/2=0,45
Como 0,45 está entre os valores
0,4495 e 0,4504, o valor de Z está em
1,6 e entre 0,4 e 0,5, o que nos dá um
valor de 1,645

Z= 1.645

Com base no resultado obtido para Z (tabelas e cálculos), aceita-se H0

Não há diferença significativa entre o antes e o depois do programa de treinamento.


Estabelecemos as hipóteses

H0: P = 0,5

H1: P > 0,5

α = 0.10 => 1-α= 0.90

Qualificaçã Antes Depois Diferença (D- Intervalos Posts Posts


o A) negativos positivos
Deficiente 4 1 -3 1 1.5
Regular 2 2
Poço 7 4 -3 2 1.5
Excelente 2 8 6 7 7
SOMA 3 7

Já que a menor das somas é o valor de Wilcoxon

T calculado = 3

Tα, n=T0.1,3Das tabelas

Como a tabela de Wilcoxon


manipula apenas inteiros, inferimos
que para um valor de n=3 é um valor
muito pequeno entre zero e um,
para α=0,10.

Por não ter um valor para T, podemos declarar que esse método não se aplica para resolver esse problema.
Embora com os valores obtidos pudéssemos aceitar H0
Teste U de Mann-Whitney

Estabelecemos as hipóteses

H0: P = 0,5

H1: P > 0,5

α = 0.10 => 1-α= 0.90

Antes Classificar Depois Classificar


4 5.5 1 1
2 3 2 3
7 7 4 5.5
2 3 8 8
Soma 18.5 Soma 17.5

U = n1 n2 + n1(n1+1)-R1

Calculando para antes

U=4*4+4(4+1)-18,5 =7,5

Calculando para depois

U=4∗4+4(4+1) −17,5 =8,5

Cálculo de Z
Das tabelas

Z=1.645

H0 é aceito com base nos resultados obtidos. O teste é para n ≥ 10, esta estatística não deve ser usada para
este problema.
Conclusão

Solicita-se que o diretor da empresa seja informado do seguinte: Os gestores são mais competentes em
administração de empresas após o programa de treinamento? Para responder à pergunta, considere um
nível de significância de 0,1. Antes de responder, reflita sobre: Qual método estatístico você deve usar para
responder, paramétrico ou não paramétrico?

Para a realização da análise, o método estatístico a ser utilizado é um teste não paramétrico. Se você
escolher um método não paramétrico, qual especificamente é o mais adequado? Por que? Fundamente suas
respostas. O método estatístico mais adequado a ser utilizado é o teste de contraste de sinais, este método
é escolhido porque a tabela de resultados mostra as diferenças com os sinais. Posteriormente será
demonstrado por que é considerado o mais indicado.
5ª semana

Introdução

a) Que tipo de análise estatística você deve realizar para informar ao Gerente de Publicidade se há alguma
relação entre os gastos com publicidade e a receita de vendas? Se houvesse um relacionamento, que tipo
seria? Fundamente sua resposta. Para a análise dos dados apresentados, deve-se utilizar o método de
análise de correlação e regressão simples. Se uma relação é encontrada pela análise dos dados pelo método
indicado, o tipo de relação seria uma correlação simples.

b) Você deseja prever as vendas com base nas despesas de publicidade. O que é a variável independente? O
que é a variável dependente? Fundamente sua resposta. A variável dependente é a receita de vendas. A
variável independente são os gastos com publicidade.

c) Faça o gráfico de dispersão.

d) Determina o coeficiente de correlação.

e) Interpreta a força da relação entre as variáveis. A relação entre as variáveis pode ser descrita como alta e
perfeitamente positiva.

f) Determinar a equação da reta de regressão linear e explicar o que significam os valores calculados.

g) Faça o diagrama com a reta de regressão linear.

h) Explique como as mudanças nos gastos com publicidade influenciarão a receita de vendas. Os gastos com
publicidade são proporcionais à receita.

i) Prevê quanto será a receita de vendas se os gastos com publicidade forem de 15, 25 e 9,5 milhões de
pesos, respectivamente. Fundamente sua resposta e realize os cálculos correspondentes. Ao fazer os
cálculos correspondentes aos gastos publicitários indicados, observa-se que há uma relação direta, quanto
maior o gasto publicitário, maiores são os lucros. Para o desenvolvimento das alíneas c, d, e, f, g e i; Você
tem o que é mostrado abaixo.
Desenvolvimento

A empresa Alerce Austral, para manter sua posição no mercado nacional, anuncia profusamente na internet,
televisão e rádio, destacando seus baixos preços e suas facilidades de crédito. O gerente financeiro quer
estudar a relação entre o dinheiro gasto em campanhas publicitárias e a receita de vendas entre janeiro e
junho de 2014. As informações coletadas estão apresentadas na Tabela 4.

Tabela 4
Mês Janei Feverei Març Abril Maio Junho
ro ro o
Gastos com publicidade (milhões de 4 2 6 8 12 10
pesos)
Receita de vendas (milhões de pesos) 14 6 16 20 24 22

Agora responda aos seguintes pontos:

Despesas com Receita de venda X*y X2 Y2


publicidade
x e
4 14 56 16 196
2 6 12 4 36
6 16 96 36 256
8 20 160 64 400
12 24 288 144 576
10 22 220 100 484
Σ 42 Σ 102 Σ 832 Σ 364 Σ 1948
X7 Y17

Grafando os dados necessários para obter o gráfico de dispersão.

0 2 4 6 8 10 12 14
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14
0
5
10
15
20
25
30
Para o coeficiente de correlação.

Para encontrar a equação da reta de regressão linear, apoiamo-nos na equação da reta, realizando os
cálculos correspondentes.
Por fim, e para entender a relação com a estatística, realizando o cálculo do desvio padrão temos:
CONCLUSÃO

Para o desenvolvimento deste relatório observei a importância e a diferença de cada um dos métodos
utilizados para responder a cada uma das questões levantadas pela empresa. Atualmente, há um grande
número de fontes de informação para os testes de hipóteses utilizados, mas a importância de analisá-los de
acordo com os dados disponíveis, é o que faz a diferença na aplicação e interpretação dos resultados. A
maioria das fontes bibliográficas são aplicações em estatística sem vinculá-las a processos de negócios ou à
vida cotidiana; A bibliografia utilizada ajuda a compreender os problemas, pois é desenvolvida do ponto de
vista administrativo e, assim, facilita a compreensão e aplicação.

Acredito que o assunto é muito promissor para o desenvolvimento do trabalho, pois é de vital importância
saber fazer estatística em qualquer área, mesmo muitos problemas de engenharia, ciência e administração,
exigem que se tome uma decisão entre aceitar ou rejeitar uma proposição sobre algum parâmetro da
população.

Referências

Ribeiro, M.; (2013). Estatística (11ª ed.). México: Pearson Education.

Capítulo 12, "Análise de Variância"

Ribeiro, M.; (2013). Estatística (11ª ed.). México: Pearson Education.

Capítulo 13. Estatística não paramétrica

Ribeiro, M.; (2013). Estatística (11ª ed.). México: Pearson Education.

Capítulo 10, "Correlação e Regressão.

Você também pode gostar