Análise de Dados No R

ETAPA 2
ANÁLISE DE
DADOS NO R
Autor
Everaldo Freitas Guedes
Reitor da UNIASSELVI
Prof. Hermínio Kloch
Pró-Reitora do EAD
Prof.ª Francieli Stano Torres
Edição Gráfica e Revisão
UNIASSELVI
ETAPA 2
ANÁLISE DE
DADOS NO R
1 AMOSTRAGEM
A amostragem é o processo de seleção de uma amostra, que possibilita
o estudo de características de uma população e tem por objetivo produzir
estimadores para parâmetros populacionais desconhecidos (BOLFARINE;
BUSSAB, 2005).
• Parâmetro: é a medida usada para descrever uma característica numérica

populacional. Genericamente representamos por 𝜃. A média (𝜇) e a variância
(𝜎 2) são alguns exemplos de parâmetros populacionais.
• Estimador: é uma característica denominada na amostra, uma função de
seus elementos. Genericamente, representaremos por . A média amostral
( ) , a variância amostral ( ) são exemplos de estimadores.
• Estimativa: é o valor numérico determinado por um estimador. Por exemplo,
S 2 =20.
1.1 População
Uma população é o conjunto formado por todas as unidades elementares
(indivíduos ou objetos) que têm pelo menos uma variável comum e observável
(MORETTIN, 2010). Por exemplo:
a) População de alunos do primeiro período de uma faculdade.

b) P opulação dos operários da indústria automobilística.
c) P opulação de alturas em cm das pessoas de determinado bairro.
d) P opulação de peças fabricadas numa linha de produção.
Uma população pode ser:
• Finita: é aquela população cujo número/indivíduos (ou de objetos) é

limitado. Exemplo: a população de alunos do primeiro período de uma
faculdade.
CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R
• Infinita: é aquela população cujo número/indivíduos (ou de objetos)
é ilimitado. Exemplo: a população de peças fabricadas numa linha de
produção.
Designaremos como tamanho de uma população finita o número de

elementos que a compõem. Usaremos � para designar esse número.
1.2 Amostra
Fixada uma população, qualquer subconjunto formado exclusivamente
por seus elementos é denominado amostra dessa população. Usaremos n.
para indicar o número de elementos da amostra, o seu tamanho.
Ex.: considere uma população de tamanho fixo , isto é,

Uma sequência qualquer de n. unidades de é denominada amostra de
, isto é, tal que . O rótulo é chamado de i-ésimo
componente de S.
• Amostragem Aleatória Simples (AAS)
Consideremos uma população com elemento genérico ,

com e a amostra com elemento genérico , com . Uma
amostra é dita aleatória simples quando todos os elementos da população
têm a mesma probabilidade de serem selecionados. Dada uma população,
realizamos os seguintes procedimentos:
1. Enumerar os N elementos da população.

2. Sortear, com ou sem reposição, n números compreendidos entre 1 a N.
3. Os elementos correspondentes aos números escolhidos formarão a amostra
de tamanho n.
FIGURA 1 – ILUSTRAÇÃO DE AMOSTRAGEM ALEATÓRIA SIMPLES DE UMA POPULAÇÃO (N=12)
FONTE: O autor

#### Utilizando a linguagem R
pop <- rnorm(1000, m=1.7, s=.3)
n <- 1/100 # percentagem da população a ser amostrada
amo <- sample(x=pop, size=n * length(pop))
boxplot(pop, amo, names=c('pop', 'amo'))
• Amostragem sistemática
Consideremos uma população com elemento genérico

e a amostra com elemento genérico , com
. Neste tipo de amostragem, os elementos que constituirão a amostra
são escolhidos segundo um fator de repetição (um intervalo fixo). A aplicação
da amostragem sistemática requer que a população esteja ordenada segundo
um critério qualquer, de modo que, cada um de seus elementos possa ser
unicamente identificado pela sua posição. Por exemplo: uma lista de todos
os elementos, uma fila de pessoas etc.
Assim, dada uma população, realizamos os seguintes procedimentos:
• Definir a quantidade de elementos da amostra.

• Obter um intervalo de amostragem .
• Sortear um número r inteiro entre 1 e .

• A amostra será composta pelos elementos na ordem:
Ex.: suponha uma população com N = 12 e n = 4, k = 3 e r = 2. Então,

n = (2,5,8,11), conforme ilustramos na imagem a seguir.
FIGURA 2 – ILUSTRAÇÃO DE AMOSTRAGEM SISTEMÁTICA
FONTE: O autor

#. AMOSTRAGEM SISTEMÁTICA - AS
## x = População (vetor)
## p = Percentagem da população a ser amostrada
## r = Número inteiro entre 1 e k: primeiro elemento a ser sorteado
a_sis <- function(x, p=20, r=NULL){

k <- round(1/p * 100)
if (is.null(r))
r <- sample(1:k, 1) # Elemento de aleatoriedade!
n <- 0:round((p / 100 * length(x)) - 1)
idx <- (n * k) + r
res <- x[idx]
return(res)}
pop <- rnorm(1000, m=1.7, s=.3)

a_sis(pop, r=3)
2 INFERÊNCIA
A Inferência estatística é um conjunto de técnicas que objetiva estudar
a população através de evidências fornecidas por uma amostra (MAGALHÃES;
LIMA, 2002).
O processo de generalização, que é característico do método indutivo,

está associado a uma margem de incerteza. A medida da incerteza é
tratada mediante técnicas e métodos que se fundamentam na Teoria das
Probabilidades.
FIGURA 3 – VISÃO ESQUEMÁTICA DO PROCESSO DE INFERÊNCIA ESTATÍSTICA
FONTE: O autor
A inferência estatística consiste em, através de uma amostra, estimar

os valores dos parâmetros, ou também testar se algumas hipóteses são
válidas sobre determinados parâmetros. Estes são os problemas da inferência
paramétrica conhecidos como problemas de estimação e testes de hipóteses,
respectivamente.

2.1 ESTIMAÇÃO PONTUAL
Procura encontrar um valor numérico único que esteja bastante próximo
do verdadeiro valor do parâmetro. Uma forma de obter estimadores pontuais é
através do método dos momentos, que preconiza a estimação de momentos
populacionais por seus equivalentes momentos amostrais. Seja ,o
k-ésimo momento populacional e , o k-ésimo ( ) momento
amostral de uma amostra aleatória . O método dos momentos
consiste na obtenção de estimadores para resolvendo-se as
equações .
Demonstração: k = 1 (momento natural)

, em que e
(é um estimador viesado)
multiplicando pelo fator de correção de
Bessel temos:
(é um estimador não viesado)
Logo, o 2º momento é a variância amostral.
Existem outros métodos de estimação, tais como, método dos mínimos

quadrados e da máxima verossimilhança, que não serão abordados nesta
apostila.
Exemplo de aplicação utilizando a linguagem R:

library(fitdistrplus)
y <- rnorm(1000)
hist.(y, prob=TRUE)
fit <- fitdist(y, distr = "norm", method = "mle")
summary(fit)
2.2 ESTIMAÇÃO INTERVALAR

Procura determinar um intervalo que contenha o verdadeiro valor
do parâmetro, com alto grau de confiança (margem de segurança), que
é a probabilidade do intervalo de confiança conter o verdadeiro valor do
parâmetro. Este procedimento permite julgar a magnitude do erro que
podemos estar cometendo.
Formalizando um pouco, se denotarmos o parâmetro de interesse por

, desejamos obter um intervalo com limite inferior LI e limite superior LS,
tal que
Em que (nível de significância) é um valor pequeno e 1 - é próximo

de 1. Os limites deste intervalo são variáveis aleatórias, pois dependem da
amostra selecionada. Um intervalo deste tipo é denominado intervalo de 1 -
(x 100)% confiança para o parâmetro .
2.2.1 Intervalo de confiança para a média de uma população

A média é uma importante característica da população. Vejamos como
obter intervalos de confiança para este parâmetro populacional. Temos que
distinguir algumas situações que podem surgir na prática:
• Amostras grandes
Se n é suficientemente grande (em geral, n > 30), mesmo sem

conhecermos a distribuição da população, os limites do Intervalo de
Confiança para a média (µ) poderão ser calculados com base na distribuição
Normal padrão. Neste caso, o Intervalo de Confiança de 1 - ( X 100)% para
a média µ de uma população normal é dado por:

Obs.: se população for não normal, podemos utilizar o desvio
padrão amostral S no lugar de (desvio-padrão populacional). Note que
.
• Amostras pequenas – população normal
Se n é pequeno (n ≤ 30) e o desvio-padrão populacional for conhecido,

o Intervalo de Confiança de 1 - ( X 100)% para a média µ de uma população
normal é dado por:
• Amostras pequenas – população não normal
Se n é pequeno (n ≤ 30) e o desvio-padrão populacional for

desconhecido, o Intervalo de Confiança de 1 - ( X 100)% para a média µ de
uma população normal é dado por:
Ex.: o consumo diário de alimentos observado em certa amostra da

população é, em calorias (x100), igual a: 10; 11; 11; 12; 13; 13; 13; 13; 13; 14;
14; 14; 15; 15; 16; 16. Construir um intervalo de confiança para a média com
um nível de confiança de 90%.

dados <- c(10,11,11,12,13,13,13,13,13,14,14,14,15,15,16,16)
media <- mean(dados)
S <- sd(dados)
t = 1.753 #(ver tabela T Student)
IC_LI = (media - t*(S/sqrt(n)))
IC_LS = (media + t*(S/sqrt(n)))
print(cbind(IC_LI, media, IC_LS))
2.2.2 Intervalo de confiança para uma proporção populacional
Seja x o nº de elementos de uma amostra de tamanho n e um

estimador de p. Se o tamanho da amostra for suficientemente grande, é
possível construir um intervalo de 1 - ( X 100)% de confiança para , baseado

em que segue uma distribuição normal padrão. Assim, o
intervalo de confiança de 1 - ( X 100)% para a proporção populacional p é

dado por:
Ex.: examinam-se 98 animais, encontrando-se 53 infectados com

determinado vírus. Construir um intervalo de 95% de confiança para a
proporção p de animais infectados.

n = 98
p=53/n
z = 1.96 #(ver tabela normal padronizada)
IC_LI = (p - z*sqrt(p*(1-p)/n))
IC_LS = (p + z*sqrt(p*(1-p)/n))
print(cbind(IC_LI, p, IC_LS))
2.3 TESTES DE HIPÓTESES

Os testes de hipóteses estabelecem uma regra de decisão segundo a qual
aceitaremos ou não a hipótese de interesse a partir de uma amostra aleatória
de uma população. Por exemplo, podemos estar interessados em determinar
se uma moeda é honesta, se certas quantidades são independentes, ou se
populações distintas são similares do ponto de vista probabilístico.
Denominaremos uma hipótese por H 0: “hipótese nula” e H 1: “hipótese

alternativa”. Os testes podem ser unilaterais, por exemplo, H 1 : µ > 15 ou H 1
: µ < 15 ou bilaterais, por exemplo, H 1 : µ ≠ 15. A decisão entre as hipóteses
é tomada com base no valor-p, que pode ser interpretado como o menor
nível de significância com que se rejeitaria a hipótese nula. Por exemplo, em
testes de hipótese, pode-se rejeitar a hipótese nula a 5% caso o valor-p seja
menor que 5%.
2.3.1 Teste de normalidade

O Teste Shapiro-Wilks é útil para a verificação do pressuposto de
normalidade. Testa-se as hipóteses H 0 : os dados seguem uma distribuição
normal contra H 1 : os dados não seguem uma distribuição normal.
x = rnorm(100)
shapiro.test(x)
Como p-valor foi igual a 0.6816, nós não rejeitamos a hipótese H 0 : ao

nível de 95% de confiança.
2.3.2 Testes de hipóteses para média populacional

A média de uma população é uma de suas características mais
importantes e frequentemente temos que tomar decisões a seu respeito.
Vamos denotar um valor fixo qualquer por µ.
• Amostras grandes e amostras pequenas – população normal
Assim como vimos no caso dos Intervalos de Confiança, podemos

utilizar a distribuição normal para encontrar a região crítica do teste, que é
denotada por:
Obs.: se população for não normal, podemos utilizar o desvio

padrão amostral S no lugar de (desvio-padrão populacional). Note que
.
Ex.: suponha que queremos testar as hipóteses H 0 : µ = 15 e H 1 : µ ≠ 15

de uma sequência aleatória de tamanho 100.

library(BSDA)
x=rnorm(n=100, mean=15, sd=10)
z.test(x, alternative=”two.sided”,mu=15,sigma.x=sd(x),conf.level=0.95)
Como p-valor foi igual a 0,1255, nós não rejeitamos a hipótese H 0 : µ =
15 ao nível de 95% de confiança.
• Amostras pequenas – população não normal
Neste caso, precisamos usar o desvio padrão amostral S para estimar

, e utilizaremos a distribuição t de Student para encontrar a região crítica
do teste, que é denotada por:

Ex.: suponha que queremos testar as hipóteses H 0 : µ = 15 e H 1 : µ ≠ 15
de uma sequência aleatória de tamanho 25.

x=rnorm(n=25, mean=15, sd=10)
t.test(x, alternative=”two.sided”,mu=15,sigma.x=sd(x),conf.level=0.95)
Como p-valor foi igual a 0.1287, nós concluímos não rejeitamos a
hipótese H 0 : µ = 15 ao nível de 95% de confiança.
2.3.3 Teste para proporções

Neste caso, se é a proporção populacional e um valor fixo, a
estatística de teste é:
Ex.: a fábrica A de automóveis afirma que 60% dos consumidores

compram carros produzidos por ela. Uma fábrica concorrente deseja testar
a veracidade desta afirmação, ou seja, H 0 : = 0.6 e H 1 : ≠ 0.6. Para isso
decide realizar uma pesquisa por amostragem com 300 proprietários de
veículos.

prop.test(x=180,n=300,alternative = “two.sided”,conf.level = 0.95)
Como p-valor foi igual a 0.0005, nós rejeitamos a hipótese H 0 : = 0.6
ao nível de 95% de confiança.
3 CORRELAÇÃO E REGRESSÃO
Em problemas das mais diferentes áreas do conhecimento é de grande
interesse verificar se duas ou mais características (variáveis) de um fenômeno
que está sendo investigado estão, de alguma forma, relacionadas.
Algumas vezes, o interesse é apenas medir o grau de associação

(correlação) e outras vezes deseja-se obter um modelo matemático-estatístico
que descreva a relação funcional entre as variáveis (regressão).
3.1 DIAGRAMA DE DISPERSÃO
Para estudar a relação entre duas variáveis devemos partir da coleta
de uma amostra de pares de observações. Para isto, é necessário realizar
um experimento em que se faz simultaneamente medidas de duas variáveis
x e y para uma amplitude de diferentes condições experimentais. Sejam
os n pares de observações.
Um Diagrama de Dispersão é um procedimento para visualizarmos a

forma da relação entre as variáveis x e y. É a representação dos pares de
valores num sistema cartesiano.
FIGURA 4 – TIPOS DE RELAÇÕES ENTRE AS VARIÁVEIS
FONTE: O autor
Na figura anterior, podemos observar que em A e em B, a relação é

linear (decrescente e crescente, respectivamente). Em C, não existe relação
entre as variáveis e em D, a relação é não linear.
A presença ou ausência de relação linear pode ser investigada sob dois

pontos de vista:
• Quantificando a força dessa relação: coeficiente de correlação de pearson.

• Explicitando a forma dessa relação: regressão linear simples e múltipla.

3.2 COEFICIENTE DE CORRELAÇÃO DE PEARSON
O coeficiente de correlação, também chamado de Coeficiente de
Correlação de Pearson, mede o grau de associação linear entre duas variáveis
quantitativas e é calculado por:
Em que, - 1 ≤ r (x,y) ≤ + 1, de modo que, r (x,y) = -1 significa uma correlação

linear perfeita negativa, r (x,y) = 0 significa ausência de correlação linear e r (x,y)
= 1 significa uma correlação linear perfeita positiva.
O teste de hipóteses para o coeficiente de correlação de Pearson testa

as hipóteses H 0 : p = 0 contra H 0 : p ≠ 0 por meio da estatística:

y: Consumo de cerveja diário por mil habitantes, em litros
y <- c(290,374,393,425,406,370,365,320,269)
x: Temperatura máxima (ºC)
x <-c(16,31,38,39,37,36,36,22,10)
plot(x,y) #diagrama de dispersão
cor.test(x,y, method="pearson")
Como p-valor obtido é menor que 5%, nós rejeitamos a hipótese H 0 : p

= 0 ao nível de 95% de confiança. Logo, podemos concluir que r (x,y)= 0,9615
é diferente de zero.
3.3 ANÁLISE DE REGRESSÃO

A Análise de Regressão tem por finalidade analisar a relação entre uma
variável resposta ou dependente “y“ e uma ou mais variáveis preditoras ou
explicativas “x“, para identificar uma função que a descreva.
A escolha dessa função é, geralmente, realizada por meio da observação

do gráfico de dispersão e os modelos de regressão podem ser usados para:

a) Descrição dos dados: é possível construir de um modelo que relacione,
por exemplo, o efeito do ar-condicionado no consumo de energia elétrica.
b) E stimação dos parâmetros: podemos utilizar a análise de regressão para
conhecermos qual o número médio de kilowatt/hora consumido usando
o ar-condicionado por uma hora.
c) P redição: é possível utilizar regressão para predizer valores para a variável
resposta.
3.3.1 Regressão linear simples

Quando estamos estudando o comportamento de apenas duas variáveis
x e y que supostamente se relacionam através de uma função linear, devemos
considerar a seguinte equação:
Em que é o intercepto e é o incremento em y resultante do

incremento de uma unidade em x e é chamado de inclinação da reta. O erro
aleatório é geralmente pensado como uma “falha” da equação linear em
se ajustar aos dados exatamente.
• Método de mínimos quadrados
A determinação das estimativas dos parâmetros dessa reta é denominada

ajustamento. O método mais usado para ajustar uma reta usa um princípio
chamado de Mínimos Quadrados, que é baseado na soma dos quadrados
dos resíduos, , ou seja:
Os candidatos a ponto de mínimo da função E são aqueles para os

quais são nulas as derivadas parciais de E em relação a cada um de seus
parâmetros, isto é:
Tendo em vista que:

e que:
Obtemos o seguinte sistema de equações, denominado equações

normais, cujas incógnitas são os parâmetros e da equação:
Ex.: determine pelo Método dos Quadrados Mínimos a equação da reta

que melhor se ajusta aos pontos: x i = {-1; -0,1; 0,2; 1} e y i = {1; 1,099; 0,808; 1}.
Como são n = 4, =0,1, =2,05, =3,907 , e =0,0517 , as
equações normais do problema são, de acordo com
A solução deste sistema é = 0,9773 e = 0,0224.

x =c(-1,-0.1,0.2,1)
y =c(1,1.099, 0.808, 1)
model = lm(y~x)#a função lm significa linear model
summary(model)

FIGURA 5 – ILUSTRAÇÃO DA SAÍDA DO R
FONTE: O autor
Assim, a reta que melhor se ajusta à tabela de pontos dada é:

.
• Observações
É provável que ao ajustarmos uma reta de regressão haja alguma

diferença entre o valor observado y e o valor estimado , isto é, .É
esperado os erros do modelo estimado atenda as seguintes suposições:
1. O erro tem média zero.

2. O erro tem variância constante.
3. Os erros são não correlacionados.
4. O erro tem distribuição normal, isto é, .
A qualidade da reta de regressão pode ser medida pelo Coeficiente de

Determinação (R 2), que é uma medida sintética que diz quão bem a reta de
regressão da amostra se ajusta aos dados. Este coeficiente varia entre 0 e 1,
e será denotado por:
Quanto mais próximo de 1 melhor será a reta de regressão. O coeficiente

de determinação deve ser interpretado como a proporção entre a variação
total da variável dependente Y e a variação de Y que é explicada pela da
variável independente X.
x =c(-1,-0.1,0.2,1)
y =c(1,1.099, 0.808, 1)
model = lm(y~x)
summary(model)
summary(model)$r.squared # exibe o R 2
plot(x,y)
abline(model, col="red")
plot(model$residuals, col="red", pch=19)#exibe os erros graficamente
3.3.2 Regressão linear múltipla

É um modelo mais geral quando a variável resposta pode ser relacionada
a k variáveis preditoras, x 1, x 2, ..., x n e, neste caso, o modelo é denotado por:
Ex.: utilizando o banco de dados USArrests, ajuste um modelo de

regressão linear múltipla para predizer Y “UrbanPop”. Veja essa relação no
diagrama de dispersão e estime os coeficientes do modelo.

library(datasets)
dados <- head(USArrests) #data set do R
View(dados)
str(dados)
attach(dados)
### diagrama de dispersão
plot(UrbanPop,Murder)
plot(UrbanPop,Assault)
plot(UrbanPop,Rape)
pairs(dados, col = 2, pch = 19)
###correlação
cor(dados)
###o modelo
model <- lm(UrbanPop ~ Murder + Assault + Rape, data=dados)
summary(model)
shapiro.test(model$residuals) # testa a normalidade dos resíduos
library(car) # testa a multicolinearidade
vif(model)

FONTE: O autor
Assim, o modelo que melhor se ajusta à tabela de pontos dada é:

.
6 ANÁLISE DE VARIÂNCIA DE FATOR ÚNICO

Em muitos experimentos, o pesquisador se defronta com a situação de
comparar mais de duas populações simultaneamente. Por exemplo, deseja-
se comparar a eficiência de diversas marcas de remédios para o tratamento
de uma mesma doença ou deseja-se comparar o consumo em km/litro de
um modelo de carro abastecido com combustíveis do mesmo tipo, porém
de marcas diferentes.
Questões como esta podem ser resolvidas utilizando-se uma importante

técnica conhecida como Análise de Variância.
Suponha um procedimento experimental com k tratamentos1

(populações) ou diferentes níveis de um único fator 2. A variável resposta para
cada k tratamento é uma variável aleatória. Conforme ilustramos na figura
5, y ij é a observação da j-ésima unidade experimental no i-ésimo tratamento
ou fator. Existem n observações no i-ésimo tratamento.
1 Um tratamento é uma condição imposta ou objeto que se deseja medir ou avaliar em um experimento.
2 Fator é uma variável independente obtida quando é realizado um estudo de investigação e o nível é a forma particular deste
fator. Por exemplo, em um estudo sobre os efeitos da presença de três tipos de diferentes soluções de açúcar (glicose, sacarose e
frutose) no crescimento de bactérias, o fator é o açúcar e cada tipo de solução é um nível em estudo.

FIGURA 7 – DADOS PARA EXPERIMENTO COM UM ÚNICO FATOR
FONTE: Adaptado de Silva et al. (2016)
Observe que y i. representa a soma total das observações do i-ésimo

tratamento, . representa a média das observações do i-ésimo tratamento,
y.. é a soma de todas as observações e .. representa a média de todas as
observações, isto é, a média global amostral. Simbolicamente essas medidas
são expressas por:
Em que N = n X k, número total de observações. Observe que o “ponto”

subscrito na notação matemática representa a soma.
6.1 O MODELO
Um modelo para descrever os dados é denotado por:
De modo que é a observação do i-ésimo tratamento na j-ésima

unidade experimental; é a média do i-ésimo nível do fator ou tratamento,
sendo um valor fixo e desconhecido, é o erro aleatório associado ao i-ésimo
tratamento na j-ésima unidade experimental assumido como: ,
independentes e identicamente distribuído. A variância é assumida como
constante para todos nos níveis de fator. Isto implica que . Assim,
é a parte sistemática que representa a média da população i, que é fixa,

e é a parte aleatória, a informação referente a outros fatores que podem
influenciar as observações, mas não são incorporadas em .
O interesse é testar a igualdade média dos tratamentos. Assim, as

hipóteses apropriadas são:
A hipótese nula supõe que as observações amostrais dentro de cada

tratamento podem ser vistas como provenientes de populações com médias
iguais. Reescrevendo . A média é a média

geral.
Ao realizar a análise de variância, a ideia básica é de que existe uma

distribuição de probabilidade para a variável resposta em cada nível do
fator. Para efeito de inferências sobre o modelo é necessário assumir que:
• são variáveis aleatórias independentes.

• tem distribuição normal com média .
• a variância deve ser constante para todos nos níveis de fator.
6.2 DECOMPOSIÇÃO DA SOMA TOTAL DE QUADRADO

O nome análise de variância é atribuído devido a uma decomposição
da variabilidade total das suas componentes. A soma total de quadrado (SQT)
é dada por:
É uma medida de variabilidade total dos dados. A soma total entre os

tratamentos (SQE) é dada por:
A soma total dentre os tratamentos (SQD) pode ser obtida a partir da

diferença entre SQT e SDE, isto é,
.
Análise de Variância pode ser resumida através da Tabela ANOVA (Análise
da Variância) e esta será utilizada para testar as hipóteses de interesse, por
meio da estatística F cuja distribuição de Fisher-Snedecor com (k - 1) e (N -
k) graus de liberdade.
QUADRO 1 – ANOVA
FONTE: O autor
Ex.: o tempo de resposta em milissegundos foi determinado para três tipos

diferentes de circuitos em uma calculadora eletrônica. Os resultados foram:
Construa a ANOVA.

maquinas <- c(rep("A",5),rep("B",5),rep("C",5))
##dados
dadosA <- c(19,22,20,18,25)
dadosB <- c(20,21,33,27,40)
dadosC <- c(16,15,18,26,17)
amostras <- c(dadosA,dadosB,dadosC)
### JUNTA OS OBJETOS
dados = data.frame(maquinas,amostras)
##CALCULA MÉDIAS E VARIANCIAS
medias <- aggregate(amostras ~ maquinas, data = dados, mean)
variancias <- aggregate(amostras ~ maquinas, data = dados, var)

print(cbind(medias, variancias))
###EXIBE O BOXPLOT
boxplot(amostras ~ maquinas, data = dados)
##EXIBE A ANOVA
anova(lm(amostras ~ maquinas, data = dados))
FONTE: O autor
Como p-valor foi igual a 0.04648, nós não rejeitamos a hipótese

ao nível de 95% de confiança. Isso significa que existe pelo
menos uma diferença entre os pares de médias.
REFERÊNCIAS
ASSUNÇÃO, R. Fundamentos Estatísticos de ciência de Dados. BOOK-
WEBSITE.COM, 2017. Disponível em: https://homepages.dcc.ufmg.
br/~assuncao/EstatCC/FECD.pdf. Acesso em: 7 jun. 2021.
BOLFARINE, H.; BUSSAB, W. O. Elementos de Amostragem. São Paulo:

Edgard Blucher, 2005.
BOLFARINE, H.; SANDOVAL, M. C. Introdução à Inferência Estatística.

Coleção Matemática Aplicada – Sociedade Brasileira de Matemática, 2001.
BOSCHETTI, A.; MASSARON, L. Python Data Science Essentials. 2. ed.

Birmingham – UK: Editora Packt, 2016.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 7. ed. São Paulo:

Saraiva, 2012.
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados. O'

Reilly, Rio de Janeiro: Alta Books, 2019.

CASELLA, G.; BERGER, L. R. Inferência Estatística. Estados Unidos:
Cengage Learning, 2011.
CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados:

conceitos básicos, algoritmos e aplicações. São Paulo: Editora Saraiva,
2016.
COCHRAN, W. G. Sampling Techniques. Wiley,

1977. Disponível em: https://www.wiley.com/en-us/
Sampling+Techniques%2C+3rd+Edition-p-9780471162407. Acesso em: 7
jun. 2021.
DAMIANI, A. et al. Ciência de Dados em R. 2021. Disponivel em: https://

livro.curso-r.com/. Acesso em: 7 jun. 2021.
EMC EDUCATION SERVICES. Data Science and Big Data Analytics:

Discovering, Analyzing, Visualizing and Presenting Data. Wiley, 2015.
GROLEMUND, G. Hands-On Programming with R. Rio de Janeiro: ed

O’Reilly, 2014.
GRUS, J. Data Science do Zero. Rio de Janeiro: Alta Books, 2016.
LOH, S. BI na era do big data para cientistas de dados: indo além de

cubos e dashboards na busca pelos porquês, explicações e padrões. Porto
Alegre, 2014.
MASSARON, L; MUELLER, J.P. Python for Data Science For Dummies. Nova
Jersey: Wiley, 2015.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de Probabilidade e Estatística.

São Paulo: EDUSP, 2002.
MILONE, G. Estatística Geral e Aplicada. São Paulo: Thomson Learning,

2006.
MORETTIN, L. G. Estatística básica: Probabilidade e Inferência volume

único. 7. ed. São Paulo: Pearson, 2010.
MORETTIN, P. A.; SINGER, J. M. Introdução à Ciência de Dados

Fundamentos e Aplicações. São Paulo: Departamento de Estatística
Universidade de São Paulo, 2019.
MONTGOMERY, D. C. Design and Analysis of Experiments. 5. Ed. São

Paulo: Jhon Wiley & Sons, 2001.

OLIVEIRA, P. F.; GUERRA, S.; MCDONNELL, R. Ciência de dados com R -
Introdução. ed IBPAD, 2018. Disponível em: https://cdr.ibpad.com.br/cdr-
intro.pdf. Acesso em: 7 jun. 2021.
PINHEIRO, H. P. O Que São Dados? Disponível em: https://www.ime.

unicamp.br/~hildete/dados.pdf. Acesso em: 3 abr. 2021.
RStudio Team (2020). RStudio: Integrated Development for R. RStudio,

PBC, Boston, MA URL. Disponível em: http://www.rstudio.com/. Acesso
em: 7 jun. 2021.
SILVA, G. et al. Notas de aula MAT236 - métodos estatísticos. Bahia:

Universidade Federal da Bahia, 2016.
TOLEDO, G. L.; OVALLE, I. I. Estatística Básica. 2. ed. São Paulo: Atlas,

1985.
TORGO, L. Data Mining with R- Learning with Case Studies. Estados

Unidos: CRC Press, 2011.
USUELLI, M. R Machine Learning Essentials. Reino Unido: Packt Publishing,

2014.
WICKHAM, H. Advanced R. Estados Unidos: CRC Press, 2015.
WICKHAM, H.; GROLEMUND, G. R for data Science. Rio de Janeiro: Ed.

O’Reilly, 2017.

Análise de Dados No R

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Dados No R

Enviado por

Direitos autorais:

Formatos disponíveis

ETAPA 2

Everaldo Freitas Guedes

Prof. Hermínio Kloch

Prof.ª Francieli Stano Torres

Edição Gráfica e Revisão

• Parâmetro: é a medida usada para descrever uma característica numérica

a) População de alunos do primeiro período de uma faculdade.

Uma população pode ser:

• Finita: é aquela população cujo número/indivíduos (ou de objetos) é

Designaremos como tamanho de uma população finita o número de

Ex.: considere uma população de tamanho fixo , isto é,

• Amostragem Aleatória Simples (AAS)

Consideremos uma população com elemento genérico ,

1. Enumerar os N elementos da população.

FIGURA 1 – ILUSTRAÇÃO DE AMOSTRAGEM ALEATÓRIA SIMPLES DE UMA POPULAÇÃO (N=12)

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R

Consideremos uma população com elemento genérico

Assim, dada uma população, realizamos os seguintes procedimentos:

• Definir a quantidade de elementos da amostra.

• Sortear um número r inteiro entre 1 e .

Ex.: suponha uma população com N = 12 e n = 4, k = 3 e r = 2. Então,

FIGURA 2 – ILUSTRAÇÃO DE AMOSTRAGEM SISTEMÁTICA

#### Utilizando a linguagem R

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R

pop <- rnorm(1000, m=1.7, s=.3)

O processo de generalização, que é característico do método indutivo,

FIGURA 3 – VISÃO ESQUEMÁTICA DO PROCESSO DE INFERÊNCIA ESTATÍSTICA

A inferência estatística consiste em, através de uma amostra, estimar

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R

Demonstração: k = 1 (momento natural)

(é um estimador não viesado)

Logo, o 2º momento é a variância amostral.

Existem outros métodos de estimação, tais como, método dos mínimos

Exemplo de aplicação utilizando a linguagem R:

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R

2.2 ESTIMAÇÃO INTERVALAR

Formalizando um pouco, se denotarmos o parâmetro de interesse por

Em que (nível de significância) é um valor pequeno e 1 - é próximo

2.2.1 Intervalo de confiança para a média de uma população

Se n é suficientemente grande (em geral, n > 30), mesmo sem

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R

• Amostras pequenas – população normal

Se n é pequeno (n ≤ 30) e o desvio-padrão populacional for conhecido,

• Amostras pequenas – população não normal

Se n é pequeno (n ≤ 30) e o desvio-padrão populacional for

Ex.: o consumo diário de alimentos observado em certa amostra da

#### Utilizando a linguagem R

2.2.2 Intervalo de confiança para uma proporção populacional

Seja x o nº de elementos de uma amostra de tamanho n e um

CURSO LIVRE – ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R

intervalo de confiança de 1 - ( X 100)% para a proporção populacional p é

Ex.: examinam-se 98 animais, encontrando-se 53 infectados com

#### Utilizando a linguagem R

2.3 TESTES DE HIPÓTESES

Denominaremos uma hipótese por H 0: “hipótese nula” e H 1: “hipótese

2.3.1 Teste de normalidade

Como p-valor foi igual a 0.6816, nós não rejeitamos a hipótese H 0 : ao

2.3.2 Testes de hipóteses para média populacional

• Amostras grandes e amostras pequenas – população normal

Assim como vimos no caso dos Intervalos de Confiança, podemos

Obs.: se população for não normal, podemos utilizar o desvio

Ex.: suponha que queremos testar as hipóteses H 0 : µ = 15 e H 1 : µ ≠ 15

#### Utilizando a linguagem R