Você está na página 1de 25

ETAPA 2

ANÁLISE DE
DADOS NO R
Autor

Everaldo Freitas Guedes

Reitor da UNIASSELVI

Prof. Hermínio Kloch

Pró-Reitora do EAD

Prof.ª Francieli Stano Torres

Edição Gráfica e Revisão

UNIASSELVI
ETAPA 2
ANÁLISE DE
DADOS NO R

1 AMOSTRAGEM
A amostragem é o processo de seleção de uma amostra, que possibilita
o estudo de características de uma população e tem por objetivo produzir
estimadores para parâmetros populacionais desconhecidos (BOLFARINE;
BUSSAB, 2005).

• Parâmetro: é a medida usada para descrever uma característica numérica


populacional. Genericamente representamos por 𝜃. A média (𝜇) e a variância
(𝜎 2) são alguns exemplos de parâmetros populacionais.
• Estimador: é uma característica denominada na amostra, uma função de
seus elementos. Genericamente, representaremos por . A média amostral
( ) , a variância amostral ( ) são exemplos de estimadores.
• Estimativa: é o valor numérico determinado por um estimador. Por exemplo,
S 2 =20.

1.1 População
Uma população é o conjunto formado por todas as unidades elementares
(indivíduos ou objetos) que têm pelo menos uma variável comum e observável
(MORETTIN, 2010). Por exemplo:

a) População de alunos do primeiro período de uma faculdade.


b) P opulação dos operários da indústria automobilística.
c) P opulação de alturas em cm das pessoas de determinado bairro.
d) P opulação de peças fabricadas numa linha de produção.

Uma população pode ser:

• Finita: é aquela população cujo número/indivíduos (ou de objetos) é


limitado. Exemplo: a população de alunos do primeiro período de uma
faculdade.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Infinita: é aquela população cujo número/indivíduos (ou de objetos)
é ilimitado. Exemplo: a população de peças fabricadas numa linha de
produção.

Designaremos como tamanho de uma população finita o número de


elementos que a compõem. Usaremos � para designar esse número.

1.2 Amostra
Fixada uma população, qualquer subconjunto formado exclusivamente
por seus elementos é denominado amostra dessa população. Usaremos n.
para indicar o número de elementos da amostra, o seu tamanho.

Ex.: considere uma população de tamanho fixo , isto é,


Uma sequência qualquer de n. unidades de é denominada amostra de
, isto é, tal que . O rótulo é chamado de i-ésimo
componente de S.

• Amostragem Aleatória Simples (AAS)

Consideremos uma população com elemento genérico ,


com e a amostra com elemento genérico , com . Uma
amostra é dita aleatória simples quando todos os elementos da população
têm a mesma probabilidade de serem selecionados. Dada uma população,
realizamos os seguintes procedimentos:

1. Enumerar os N elementos da população.


2. Sortear, com ou sem reposição, n números compreendidos entre 1 a N.
3. Os elementos correspondentes aos números escolhidos formarão a amostra
de tamanho n.

FIGURA 1 – ILUSTRAÇÃO DE AMOSTRAGEM ALEATÓRIA SIMPLES DE UMA POPULAÇÃO (N=12)

FONTE: O autor

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


#### Utilizando a linguagem R
pop <- rnorm(1000, m=1.7, s=.3)
n <- 1/100 # percentagem da população a ser amostrada
amo <- sample(x=pop, size=n * length(pop))
boxplot(pop, amo, names=c('pop', 'amo'))

• Amostragem sistemática

Consideremos uma população com elemento genérico


e a amostra com elemento genérico , com
. Neste tipo de amostragem, os elementos que constituirão a amostra
são escolhidos segundo um fator de repetição (um intervalo fixo). A aplicação
da amostragem sistemática requer que a população esteja ordenada segundo
um critério qualquer, de modo que, cada um de seus elementos possa ser
unicamente identificado pela sua posição. Por exemplo: uma lista de todos
os elementos, uma fila de pessoas etc.

Assim, dada uma população, realizamos os seguintes procedimentos:

• Definir a quantidade de elementos da amostra.


• Obter um intervalo de amostragem .

• Sortear um número r inteiro entre 1 e .


• A amostra será composta pelos elementos na ordem:

Ex.: suponha uma população com N = 12 e n = 4, k = 3 e r = 2. Então,


n = (2,5,8,11), conforme ilustramos na imagem a seguir.

FIGURA 2 – ILUSTRAÇÃO DE AMOSTRAGEM SISTEMÁTICA

FONTE: O autor

#### Utilizando a linguagem R


#. AMOSTRAGEM SISTEMÁTICA - AS
## x = População (vetor)
## p = Percentagem da população a ser amostrada
## r = Número inteiro entre 1 e k: primeiro elemento a ser sorteado
a_sis <- function(x, p=20, r=NULL){

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


k <- round(1/p * 100)
if (is.null(r))
r <- sample(1:k, 1) # Elemento de aleatoriedade!
n <- 0:round((p / 100 * length(x)) - 1)
idx <- (n * k) + r
res <- x[idx]
return(res)}

pop <- rnorm(1000, m=1.7, s=.3)


a_sis(pop, r=3)

2 INFERÊNCIA
A Inferência estatística é um conjunto de técnicas que objetiva estudar
a população através de evidências fornecidas por uma amostra (MAGALHÃES;
LIMA, 2002).

O processo de generalização, que é característico do método indutivo,


está associado a uma margem de incerteza. A medida da incerteza é
tratada mediante técnicas e métodos que se fundamentam na Teoria das
Probabilidades.

FIGURA 3 – VISÃO ESQUEMÁTICA DO PROCESSO DE INFERÊNCIA ESTATÍSTICA

FONTE: O autor

A inferência estatística consiste em, através de uma amostra, estimar


os valores dos parâmetros, ou também testar se algumas hipóteses são
válidas sobre determinados parâmetros. Estes são os problemas da inferência
paramétrica conhecidos como problemas de estimação e testes de hipóteses,
respectivamente.

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


2.1 ESTIMAÇÃO PONTUAL
Procura encontrar um valor numérico único que esteja bastante próximo
do verdadeiro valor do parâmetro. Uma forma de obter estimadores pontuais é
através do método dos momentos, que preconiza a estimação de momentos
populacionais por seus equivalentes momentos amostrais. Seja ,o
k-ésimo momento populacional e , o k-ésimo ( ) momento
amostral de uma amostra aleatória . O método dos momentos
consiste na obtenção de estimadores para resolvendo-se as
equações .

Demonstração: k = 1 (momento natural)


, em que e

(é um estimador viesado)
multiplicando pelo fator de correção de

Bessel temos:

(é um estimador não viesado)

Logo, o 2º momento é a variância amostral.

Existem outros métodos de estimação, tais como, método dos mínimos


quadrados e da máxima verossimilhança, que não serão abordados nesta
apostila.

Exemplo de aplicação utilizando a linguagem R:

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


library(fitdistrplus)
y <- rnorm(1000)
hist.(y, prob=TRUE)
fit <- fitdist(y, distr = "norm", method = "mle")
summary(fit)

2.2 ESTIMAÇÃO INTERVALAR


Procura determinar um intervalo que contenha o verdadeiro valor
do parâmetro, com alto grau de confiança (margem de segurança), que
é a probabilidade do intervalo de confiança conter o verdadeiro valor do
parâmetro. Este procedimento permite julgar a magnitude do erro que
podemos estar cometendo.

Formalizando um pouco, se denotarmos o parâmetro de interesse por


, desejamos obter um intervalo com limite inferior LI e limite superior LS,
tal que

Em que (nível de significância) é um valor pequeno e 1 - é próximo


de 1. Os limites deste intervalo são variáveis aleatórias, pois dependem da
amostra selecionada. Um intervalo deste tipo é denominado intervalo de 1 -
(x 100)% confiança para o parâmetro .

2.2.1 Intervalo de confiança para a média de uma população


A média é uma importante característica da população. Vejamos como
obter intervalos de confiança para este parâmetro populacional. Temos que
distinguir algumas situações que podem surgir na prática:

• Amostras grandes

Se n é suficientemente grande (em geral, n > 30), mesmo sem


conhecermos a distribuição da população, os limites do Intervalo de
Confiança para a média (µ) poderão ser calculados com base na distribuição
Normal padrão. Neste caso, o Intervalo de Confiança de 1 - ( X 100)% para
a média µ de uma população normal é dado por:

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


Obs.: se população for não normal, podemos utilizar o desvio
padrão amostral S no lugar de (desvio-padrão populacional). Note que
.

• Amostras pequenas – população normal

Se n é pequeno (n ≤ 30) e o desvio-padrão populacional for conhecido,


o Intervalo de Confiança de 1 - ( X 100)% para a média µ de uma população
normal é dado por:

• Amostras pequenas – população não normal

Se n é pequeno (n ≤ 30) e o desvio-padrão populacional for


desconhecido, o Intervalo de Confiança de 1 - ( X 100)% para a média µ de
uma população normal é dado por:

Ex.: o consumo diário de alimentos observado em certa amostra da


população é, em calorias (x100), igual a: 10; 11; 11; 12; 13; 13; 13; 13; 13; 14;
14; 14; 15; 15; 16; 16. Construir um intervalo de confiança para a média com
um nível de confiança de 90%.

#### Utilizando a linguagem R


dados <- c(10,11,11,12,13,13,13,13,13,14,14,14,15,15,16,16)
media <- mean(dados)
S <- sd(dados)
t = 1.753 #(ver tabela T Student)
IC_LI = (media - t*(S/sqrt(n)))
IC_LS = (media + t*(S/sqrt(n)))
print(cbind(IC_LI, media, IC_LS))

2.2.2 Intervalo de confiança para uma proporção populacional

Seja x o nº de elementos de uma amostra de tamanho n e um


estimador de p. Se o tamanho da amostra for suficientemente grande, é
possível construir um intervalo de 1 - ( X 100)% de confiança para , baseado

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


em que segue uma distribuição normal padrão. Assim, o

intervalo de confiança de 1 - ( X 100)% para a proporção populacional p é


dado por:

Ex.: examinam-se 98 animais, encontrando-se 53 infectados com


determinado vírus. Construir um intervalo de 95% de confiança para a
proporção p de animais infectados.

#### Utilizando a linguagem R


n = 98
p=53/n
z = 1.96 #(ver tabela normal padronizada)
IC_LI = (p - z*sqrt(p*(1-p)/n))
IC_LS = (p + z*sqrt(p*(1-p)/n))
print(cbind(IC_LI, p, IC_LS))

2.3 TESTES DE HIPÓTESES


Os testes de hipóteses estabelecem uma regra de decisão segundo a qual
aceitaremos ou não a hipótese de interesse a partir de uma amostra aleatória
de uma população. Por exemplo, podemos estar interessados em determinar
se uma moeda é honesta, se certas quantidades são independentes, ou se
populações distintas são similares do ponto de vista probabilístico.

Denominaremos uma hipótese por H 0: “hipótese nula” e H 1: “hipótese


alternativa”. Os testes podem ser unilaterais, por exemplo, H 1 : µ > 15 ou H 1
: µ < 15 ou bilaterais, por exemplo, H 1 : µ ≠ 15. A decisão entre as hipóteses
é tomada com base no valor-p, que pode ser interpretado como o menor
nível de significância com que se rejeitaria a hipótese nula. Por exemplo, em
testes de hipótese, pode-se rejeitar a hipótese nula a 5% caso o valor-p seja
menor que 5%.

2.3.1 Teste de normalidade


O Teste Shapiro-Wilks é útil para a verificação do pressuposto de
normalidade. Testa-se as hipóteses H 0 : os dados seguem uma distribuição
normal contra H 1 : os dados não seguem uma distribuição normal.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
#### Utilizando a linguagem R
x = rnorm(100)
shapiro.test(x)

Como p-valor foi igual a 0.6816, nós não rejeitamos a hipótese H 0 : ao


nível de 95% de confiança.

2.3.2 Testes de hipóteses para média populacional


A média de uma população é uma de suas características mais
importantes e frequentemente temos que tomar decisões a seu respeito.
Vamos denotar um valor fixo qualquer por µ.

• Amostras grandes e amostras pequenas – população normal

Assim como vimos no caso dos Intervalos de Confiança, podemos


utilizar a distribuição normal para encontrar a região crítica do teste, que é
denotada por:

Obs.: se população for não normal, podemos utilizar o desvio


padrão amostral S no lugar de (desvio-padrão populacional). Note que
.

Ex.: suponha que queremos testar as hipóteses H 0 : µ = 15 e H 1 : µ ≠ 15


de uma sequência aleatória de tamanho 100.

#### Utilizando a linguagem R


library(BSDA)
x=rnorm(n=100, mean=15, sd=10)
z.test(x, alternative=”two.sided”,mu=15,sigma.x=sd(x),conf.level=0.95)
Como p-valor foi igual a 0,1255, nós não rejeitamos a hipótese H 0 : µ =
15 ao nível de 95% de confiança.

• Amostras pequenas – população não normal

Neste caso, precisamos usar o desvio padrão amostral S para estimar


, e utilizaremos a distribuição t de Student para encontrar a região crítica
do teste, que é denotada por:

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


Ex.: suponha que queremos testar as hipóteses H 0 : µ = 15 e H 1 : µ ≠ 15
de uma sequência aleatória de tamanho 25.

#### Utilizando a linguagem R


x=rnorm(n=25, mean=15, sd=10)
t.test(x, alternative=”two.sided”,mu=15,sigma.x=sd(x),conf.level=0.95)
Como p-valor foi igual a 0.1287, nós concluímos não rejeitamos a
hipótese H 0 : µ = 15 ao nível de 95% de confiança.

2.3.3 Teste para proporções


Neste caso, se é a proporção populacional e um valor fixo, a
estatística de teste é:

Ex.: a fábrica A de automóveis afirma que 60% dos consumidores


compram carros produzidos por ela. Uma fábrica concorrente deseja testar
a veracidade desta afirmação, ou seja, H 0 : = 0.6 e H 1 : ≠ 0.6. Para isso
decide realizar uma pesquisa por amostragem com 300 proprietários de
veículos.

#### Utilizando a linguagem R


prop.test(x=180,n=300,alternative = “two.sided”,conf.level = 0.95)
Como p-valor foi igual a 0.0005, nós rejeitamos a hipótese H 0 : = 0.6
ao nível de 95% de confiança.

3 CORRELAÇÃO E REGRESSÃO
Em problemas das mais diferentes áreas do conhecimento é de grande
interesse verificar se duas ou mais características (variáveis) de um fenômeno
que está sendo investigado estão, de alguma forma, relacionadas.

Algumas vezes, o interesse é apenas medir o grau de associação


(correlação) e outras vezes deseja-se obter um modelo matemático-estatístico
que descreva a relação funcional entre as variáveis (regressão).
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
3.1 DIAGRAMA DE DISPERSÃO
Para estudar a relação entre duas variáveis devemos partir da coleta
de uma amostra de pares de observações. Para isto, é necessário realizar
um experimento em que se faz simultaneamente medidas de duas variáveis
x e y para uma amplitude de diferentes condições experimentais. Sejam
os n pares de observações.

Um Diagrama de Dispersão é um procedimento para visualizarmos a


forma da relação entre as variáveis x e y. É a representação dos pares de
valores num sistema cartesiano.

FIGURA 4 – TIPOS DE RELAÇÕES ENTRE AS VARIÁVEIS

FONTE: O autor

Na figura anterior, podemos observar que em A e em B, a relação é


linear (decrescente e crescente, respectivamente). Em C, não existe relação
entre as variáveis e em D, a relação é não linear.

A presença ou ausência de relação linear pode ser investigada sob dois


pontos de vista:

• Quantificando a força dessa relação: coeficiente de correlação de pearson.


• Explicitando a forma dessa relação: regressão linear simples e múltipla.

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


3.2 COEFICIENTE DE CORRELAÇÃO DE PEARSON
O coeficiente de correlação, também chamado de Coeficiente de
Correlação de Pearson, mede o grau de associação linear entre duas variáveis
quantitativas e é calculado por:

Em que, - 1 ≤ r (x,y) ≤ + 1, de modo que, r (x,y) = -1 significa uma correlação


linear perfeita negativa, r (x,y) = 0 significa ausência de correlação linear e r (x,y)
= 1 significa uma correlação linear perfeita positiva.

O teste de hipóteses para o coeficiente de correlação de Pearson testa


as hipóteses H 0 : p = 0 contra H 0 : p ≠ 0 por meio da estatística:

#### Utilizando a linguagem R


y: Consumo de cerveja diário por mil habitantes, em litros
y <- c(290,374,393,425,406,370,365,320,269)
x: Temperatura máxima (ºC)
x <-c(16,31,38,39,37,36,36,22,10)
plot(x,y) #diagrama de dispersão
cor.test(x,y, method="pearson")

Como p-valor obtido é menor que 5%, nós rejeitamos a hipótese H 0 : p


= 0 ao nível de 95% de confiança. Logo, podemos concluir que r (x,y)= 0,9615
é diferente de zero.

3.3 ANÁLISE DE REGRESSÃO


A Análise de Regressão tem por finalidade analisar a relação entre uma
variável resposta ou dependente “y“ e uma ou mais variáveis preditoras ou
explicativas “x“, para identificar uma função que a descreva.

A escolha dessa função é, geralmente, realizada por meio da observação


do gráfico de dispersão e os modelos de regressão podem ser usados para:

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


a) Descrição dos dados: é possível construir de um modelo que relacione,
por exemplo, o efeito do ar-condicionado no consumo de energia elétrica.
b) E stimação dos parâmetros: podemos utilizar a análise de regressão para
conhecermos qual o número médio de kilowatt/hora consumido usando
o ar-condicionado por uma hora.
c) P redição: é possível utilizar regressão para predizer valores para a variável
resposta.

3.3.1 Regressão linear simples


Quando estamos estudando o comportamento de apenas duas variáveis
x e y que supostamente se relacionam através de uma função linear, devemos
considerar a seguinte equação:

Em que é o intercepto e é o incremento em y resultante do


incremento de uma unidade em x e é chamado de inclinação da reta. O erro
aleatório é geralmente pensado como uma “falha” da equação linear em
se ajustar aos dados exatamente.

• Método de mínimos quadrados

A determinação das estimativas dos parâmetros dessa reta é denominada


ajustamento. O método mais usado para ajustar uma reta usa um princípio
chamado de Mínimos Quadrados, que é baseado na soma dos quadrados
dos resíduos, , ou seja:

Os candidatos a ponto de mínimo da função E são aqueles para os


quais são nulas as derivadas parciais de E em relação a cada um de seus
parâmetros, isto é:

Tendo em vista que:


CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
e que:

Obtemos o seguinte sistema de equações, denominado equações


normais, cujas incógnitas são os parâmetros e da equação:

Ex.: determine pelo Método dos Quadrados Mínimos a equação da reta


que melhor se ajusta aos pontos: x i = {-1; -0,1; 0,2; 1} e y i = {1; 1,099; 0,808; 1}.
Como são n = 4, =0,1, =2,05, =3,907 , e =0,0517 , as
equações normais do problema são, de acordo com

A solução deste sistema é = 0,9773 e = 0,0224.

#### Utilizando a linguagem R


x =c(-1,-0.1,0.2,1)
y =c(1,1.099, 0.808, 1)
model = lm(y~x)#a função lm significa linear model
summary(model)

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


FIGURA 5 – ILUSTRAÇÃO DA SAÍDA DO R

FONTE: O autor

Assim, a reta que melhor se ajusta à tabela de pontos dada é:


.

• Observações

É provável que ao ajustarmos uma reta de regressão haja alguma


diferença entre o valor observado y e o valor estimado , isto é, .É
esperado os erros do modelo estimado atenda as seguintes suposições:

1. O erro tem média zero.


2. O erro tem variância constante.
3. Os erros são não correlacionados.
4. O erro tem distribuição normal, isto é, .

A qualidade da reta de regressão pode ser medida pelo Coeficiente de


Determinação (R 2), que é uma medida sintética que diz quão bem a reta de
regressão da amostra se ajusta aos dados. Este coeficiente varia entre 0 e 1,
e será denotado por:

Quanto mais próximo de 1 melhor será a reta de regressão. O coeficiente


de determinação deve ser interpretado como a proporção entre a variação
total da variável dependente Y e a variação de Y que é explicada pela da
variável independente X.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
#### Utilizando a linguagem R
x =c(-1,-0.1,0.2,1)
y =c(1,1.099, 0.808, 1)
model = lm(y~x)
summary(model)
summary(model)$r.squared # exibe o R 2
plot(x,y)
abline(model, col="red")
plot(model$residuals, col="red", pch=19)#exibe os erros graficamente

3.3.2 Regressão linear múltipla


É um modelo mais geral quando a variável resposta pode ser relacionada
a k variáveis preditoras, x 1, x 2, ..., x n e, neste caso, o modelo é denotado por:

Ex.: utilizando o banco de dados USArrests, ajuste um modelo de


regressão linear múltipla para predizer Y “UrbanPop”. Veja essa relação no
diagrama de dispersão e estime os coeficientes do modelo.

#### Utilizando a linguagem R


library(datasets)
dados <- head(USArrests) #data set do R
View(dados)
str(dados)
attach(dados)
### diagrama de dispersão
plot(UrbanPop,Murder)
plot(UrbanPop,Assault)
plot(UrbanPop,Rape)
pairs(dados, col = 2, pch = 19)
###correlação
cor(dados)
###o modelo
model <- lm(UrbanPop ~ Murder + Assault + Rape, data=dados)
summary(model)
shapiro.test(model$residuals) # testa a normalidade dos resíduos
library(car) # testa a multicolinearidade
vif(model)

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


FIGURA 6 – ILUSTRAÇÃO DA SAÍDA DO R

FONTE: O autor

Assim, o modelo que melhor se ajusta à tabela de pontos dada é:


.

6 ANÁLISE DE VARIÂNCIA DE FATOR ÚNICO


Em muitos experimentos, o pesquisador se defronta com a situação de
comparar mais de duas populações simultaneamente. Por exemplo, deseja-
se comparar a eficiência de diversas marcas de remédios para o tratamento
de uma mesma doença ou deseja-se comparar o consumo em km/litro de
um modelo de carro abastecido com combustíveis do mesmo tipo, porém
de marcas diferentes.

Questões como esta podem ser resolvidas utilizando-se uma importante


técnica conhecida como Análise de Variância.

Suponha um procedimento experimental com k tratamentos1


(populações) ou diferentes níveis de um único fator 2. A variável resposta para
cada k tratamento é uma variável aleatória. Conforme ilustramos na figura
5, y ij é a observação da j-ésima unidade experimental no i-ésimo tratamento
ou fator. Existem n observações no i-ésimo tratamento.
1 Um tratamento é uma condição imposta ou objeto que se deseja medir ou avaliar em um experimento.
2 Fator é uma variável independente obtida quando é realizado um estudo de investigação e o nível é a forma particular deste
fator. Por exemplo, em um estudo sobre os efeitos da presença de três tipos de diferentes soluções de açúcar (glicose, sacarose e
frutose) no crescimento de bactérias, o fator é o açúcar e cada tipo de solução é um nível em estudo.

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


FIGURA 7 – DADOS PARA EXPERIMENTO COM UM ÚNICO FATOR

FONTE: Adaptado de Silva et al. (2016)

Observe que y i. representa a soma total das observações do i-ésimo


tratamento, . representa a média das observações do i-ésimo tratamento,
y.. é a soma de todas as observações e .. representa a média de todas as
observações, isto é, a média global amostral. Simbolicamente essas medidas
são expressas por:

Em que N = n X k, número total de observações. Observe que o “ponto”


subscrito na notação matemática representa a soma.

6.1 O MODELO
Um modelo para descrever os dados é denotado por:

De modo que é a observação do i-ésimo tratamento na j-ésima


unidade experimental; é a média do i-ésimo nível do fator ou tratamento,
sendo um valor fixo e desconhecido, é o erro aleatório associado ao i-ésimo
tratamento na j-ésima unidade experimental assumido como: ,
independentes e identicamente distribuído. A variância é assumida como
constante para todos nos níveis de fator. Isto implica que . Assim,
é a parte sistemática que representa a média da população i, que é fixa,

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


e é a parte aleatória, a informação referente a outros fatores que podem
influenciar as observações, mas não são incorporadas em .

O interesse é testar a igualdade média dos tratamentos. Assim, as


hipóteses apropriadas são:

A hipótese nula supõe que as observações amostrais dentro de cada


tratamento podem ser vistas como provenientes de populações com médias

iguais. Reescrevendo . A média é a média


geral.

Ao realizar a análise de variância, a ideia básica é de que existe uma


distribuição de probabilidade para a variável resposta em cada nível do
fator. Para efeito de inferências sobre o modelo é necessário assumir que:

• são variáveis aleatórias independentes.


• tem distribuição normal com média .
• a variância deve ser constante para todos nos níveis de fator.

6.2 DECOMPOSIÇÃO DA SOMA TOTAL DE QUADRADO


O nome análise de variância é atribuído devido a uma decomposição
da variabilidade total das suas componentes. A soma total de quadrado (SQT)
é dada por:

É uma medida de variabilidade total dos dados. A soma total entre os


tratamentos (SQE) é dada por:

A soma total dentre os tratamentos (SQD) pode ser obtida a partir da


diferença entre SQT e SDE, isto é,

.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
Análise de Variância pode ser resumida através da Tabela ANOVA (Análise
da Variância) e esta será utilizada para testar as hipóteses de interesse, por
meio da estatística F cuja distribuição de Fisher-Snedecor com (k - 1) e (N -
k) graus de liberdade.

QUADRO 1 – ANOVA

FONTE: O autor

Ex.: o tempo de resposta em milissegundos foi determinado para três tipos


diferentes de circuitos em uma calculadora eletrônica. Os resultados foram:

Construa a ANOVA.

#### Utilizando a linguagem R


maquinas <- c(rep("A",5),rep("B",5),rep("C",5))
##dados
dadosA <- c(19,22,20,18,25)
dadosB <- c(20,21,33,27,40)
dadosC <- c(16,15,18,26,17)
amostras <- c(dadosA,dadosB,dadosC)
### JUNTA OS OBJETOS
dados = data.frame(maquinas,amostras)
##CALCULA MÉDIAS E VARIANCIAS
medias <- aggregate(amostras ~ maquinas, data = dados, mean)
variancias <- aggregate(amostras ~ maquinas, data = dados, var)

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


print(cbind(medias, variancias))
###EXIBE O BOXPLOT
boxplot(amostras ~ maquinas, data = dados)
##EXIBE A ANOVA
anova(lm(amostras ~ maquinas, data = dados))

FIGURA 8 – ILUSTRAÇÃO DA SAÍDA DO R

FONTE: O autor

Como p-valor foi igual a 0.04648, nós não rejeitamos a hipótese


ao nível de 95% de confiança. Isso significa que existe pelo
menos uma diferença entre os pares de médias.

REFERÊNCIAS
ASSUNÇÃO, R. Fundamentos Estatísticos de ciência de Dados. BOOK-
WEBSITE.COM, 2017. Disponível em: https://homepages.dcc.ufmg.
br/~assuncao/EstatCC/FECD.pdf. Acesso em: 7 jun. 2021.

BOLFARINE, H.; BUSSAB, W. O. Elementos de Amostragem. São Paulo:


Edgard Blucher, 2005.

BOLFARINE, H.; SANDOVAL, M. C. Introdução à Inferência Estatística.


Coleção Matemática Aplicada – Sociedade Brasileira de Matemática, 2001.

BOSCHETTI, A.; MASSARON, L. Python Data Science Essentials. 2. ed.


Birmingham – UK: Editora Packt, 2016.

BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 7. ed. São Paulo:


Saraiva, 2012.

BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados. O'


Reilly, Rio de Janeiro: Alta Books, 2019.

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


CASELLA, G.; BERGER, L. R. Inferência Estatística. Estados Unidos:
Cengage Learning, 2011.

CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados:


conceitos básicos, algoritmos e aplicações. São Paulo: Editora Saraiva,
2016.

COCHRAN, W. G. Sampling Techniques. Wiley,


1977. Disponível em: https://www.wiley.com/en-us/
Sampling+Techniques%2C+3rd+Edition-p-9780471162407. Acesso em: 7
jun. 2021.

DAMIANI, A. et al. Ciência de Dados em R. 2021. Disponivel em: https://


livro.curso-r.com/. Acesso em: 7 jun. 2021.

EMC EDUCATION SERVICES. Data Science and Big Data Analytics:


Discovering, Analyzing, Visualizing and Presenting Data. Wiley, 2015.

GROLEMUND, G. Hands-On Programming with R. Rio de Janeiro: ed


O’Reilly, 2014.

GRUS, J. Data Science do Zero. Rio de Janeiro: Alta Books, 2016.

LOH, S. BI na era do big data para cientistas de dados: indo além de


cubos e dashboards na busca pelos porquês, explicações e padrões. Porto
Alegre, 2014.

MASSARON, L; MUELLER, J.P. Python for Data Science For Dummies. Nova
Jersey: Wiley, 2015.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de Probabilidade e Estatística.


São Paulo: EDUSP, 2002.

MILONE, G. Estatística Geral e Aplicada. São Paulo: Thomson Learning,


2006.

MORETTIN, L. G. Estatística básica: Probabilidade e Inferência volume


único. 7. ed. São Paulo: Pearson, 2010.

MORETTIN, P. A.; SINGER, J. M. Introdução à Ciência de Dados


Fundamentos e Aplicações. São Paulo: Departamento de Estatística
Universidade de São Paulo, 2019.

MONTGOMERY, D. C. Design and Analysis of Experiments. 5. Ed. São


Paulo: Jhon Wiley & Sons, 2001.

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R


OLIVEIRA, P. F.; GUERRA, S.; MCDONNELL, R. Ciência de dados com R -
Introdução. ed IBPAD, 2018. Disponível em: https://cdr.ibpad.com.br/cdr-
intro.pdf. Acesso em: 7 jun. 2021.

PINHEIRO, H. P. O Que São Dados? Disponível em: https://www.ime.


unicamp.br/~hildete/dados.pdf. Acesso em: 3 abr. 2021.

RStudio Team (2020). RStudio: Integrated Development for R. RStudio,


PBC, Boston, MA URL. Disponível em: http://www.rstudio.com/. Acesso
em: 7 jun. 2021.

SILVA, G. et al. Notas de aula MAT236 - métodos estatísticos. Bahia:


Universidade Federal da Bahia, 2016.

TOLEDO, G. L.; OVALLE, I. I. Estatística Básica. 2. ed. São Paulo: Atlas,


1985.

TORGO, L. Data Mining with R- Learning with Case Studies. Estados


Unidos: CRC Press, 2011.

USUELLI, M. R Machine Learning Essentials. Reino Unido: Packt Publishing,


2014.

WICKHAM, H. Advanced R. Estados Unidos: CRC Press, 2015.

WICKHAM, H.; GROLEMUND, G. R for data Science. Rio de Janeiro: Ed.


O’Reilly, 2017.

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R

Você também pode gostar