Escolar Documentos
Profissional Documentos
Cultura Documentos
aplicada à engenharia
Lavras
Minas Gerais – Brasil
2022
Trabalho de GES104 – Estatística aplicada à engenharia
Roberto Lopes da Rocha Júnior
Turma: 30B
Os dados a seguir referem-se a medidas da profundidade máxima de corrosão por pites (em
mm) em 114 tanques de armazenamento de GLP condenados da Refinaria de Paulínia
(REPLAN/PETROBRAS):
1) 2,85 16) 3,51 31) 3,81 46) 4,00 61) 4,09 76) 4,30 91) 4,53 106) 4,92
2) 2,85 17) 3,52 32) 3,85 47) 4,00 62) 4,10 77) 4,30 92) 4,54 107) 4,94
3) 2,89 18) 3,55 33) 3,87 48) 4,00 63) 4,10 78) 4,31 93) 4,59 108) 4,96
4) 2,97 19) 3,56 34) 3,90 49) 4,00 64) 4,13 79) 4,35 94) 4,60 109) 5,02
5) 3,16 20) 3,62 35) 3,90 50) 4,01 65) 4,14 80) 4,36 95) 4,63 110) 5,09
6) 3,16 21) 3,65 36) 3,91 51) 4,01 66) 4,16 81) 4,40 96) 4,65 111) 5,13
7) 3,19 22) 3,67 37) 3,91 52) 4,02 67) 4,19 82) 4,44 97) 4,73 112) 5,15
8) 3,24 23) 3,68 38) 3,92 53) 4,04 68) 4,20 83) 4,45 98) 4,74 113) 5,16
9) 3,34 24) 3,71 39) 3,92 54) 4,05 69) 4,21 84) 4,48 99) 4,75 114) 5,18
10) 3,44 25) 3,72 40) 3,95 55) 4,06 70) 4,22 85) 4,50 100) 4,76
11) 3,45 26) 3,73 41) 3,96 56) 4,07 71) 4,22 86) 4,50 101) 4,77
12) 3,46 27) 3,76 42) 3,98 57) 4,08 72) 4,23 87) 4,51 102) 4,79
13) 3,46 28) 3,77 43) 3,99 58) 4,08 73) 4,23 88) 4,51 103) 4,81
14) 3,49 29) 3,77 44) 3,99 59) 4,08 74) 4,25 89) 4,52 104) 4,87
15) 3,50 30) 3,81 45) 3,99 60) 4,09 75) 4,26 90) 4,53 105) 4,90
Dados 1: Medidas da profundidade máxima de corrosão por pites (em mm) em 114 tanques de
armazenamento de GLP condenados da Refinaria de Paulínia (REPLAN/PETROBRAS)
Chamaremos este conjunto de “X” e usaremos estes dados para responder as perguntas a seguir.
1)Qual é a população em estudo?
Resposta) A população em estudo foi os tanques de armazenamento de GLP condenados.
x=read.table("pites.txt",h=T)
x
Como só usaremos os dados da coluna “corrosao” para fazer os cálculos e análises estatísticas,
usamos os comandos abaixo para isolá-los:
corr=x$corrosao
corr
Por fim, encontramos os intervalos e frequências absolutas dos dados do conjunto X por meio
do seguinte comando:
𝐹𝑖
𝐹𝑟𝑖 = (Equação 2)
𝑁
no qual N é o número de observações, que nos dados analisados é a quantidade de tanques (N=114).
Com isso podemos montar a TDF abaixo:
Na figura 1 observamos que o eixo x indica os intervalos da variável corr, que é referente aos
intervalos da profundidade máxima de corrosão por pites nos tanques. Já o eixo y indica os valores das
frequências absolutas que estes dados de corrosão aparecem para determinado intervalo.
a) Em que posição do histograma os dados estão mais concentrados?
Resposta) Como foi discutido na questão anterior e também é observado na figura 1, os dados de
profundidade máxima de corrosão por pites estão mais concentrados no centro do histograma, ou seja,
nos intervalos intermediários.
∑𝑁
𝑖=1 𝑥𝑖
𝑥̅ = (Equação 4)
𝑁
𝑚𝑑 = 𝜒(𝑁+1) (Equação 5)
2
onde 𝜒(𝑖) é o valor da variável “χ” que aparece na posição “i” após ordenar os dados. Já quando N é
par, a mediana é dada por:
𝜒 𝑁 +𝜒 𝑁+2
( ) ( )
2 2
𝑚𝑑 = (Equação 6)
2
Para os dados de profundidade máxima de corrosão por pites calculamos a mediana por meio
do software R usando o comando median(corr), obtendo-se o valor de 4,08mm.
Como os dados de profundidade máxima de corrosão por pites estão distribuídos de forma
relativamente simétrica, como mostrado no histograma da figura 1, os valores da média e mediana
devem ser próximos e tendem a ficar no centro da distribuição de dados. Isto foi confirmado com os
valores próximos encontrados de 4,10807mm para a média e 4,08mm para a mediana. Com isso, nesta
amostra analisada podemos usar tanto a média quanto a mediana.
Porém, quando temos uma distribuição de dados de forma não simétrica, a mediana e a média
tem valores bem diferentes, sendo a mediana a mais apropriada para se usar como medida de posição.
Resposta) Para se analisar qual conjunto de dados é mais variável, devemos analisar a variabilidade. A
variabilidade é medida do grau de dispersão dos dados. A medida de variabilidade que melhor descreve
esta dispersão de dados é o coeficiente de variabilidade (CV) pois ela é uma medida que não tem
unidades (medida relativa). Ele é definido como:
𝑆
𝐶𝑉 = . 100% (Equação 7)
𝑥̅
no qual 𝑥̅ é a média dos dados e S é o desvio padrão. O desvio padrão é outra medida de variabilidade,
sendo definida como:
𝑠 = √𝑠 2 (Equação 8)
onde xi são os dados da variável e n é o número total de dados. O desvio padrão tem a desvantagem de
que conjuntos de dados com magnitudes maiores tendem a ter valores maiores de desvio padrão. Já a
variância tem a desvantagem de fornecer unidades elevadas ao quadrado. Portanto o coeficiente de
variabilidade descreve melhor a dispersão dos dados.
Para os dados de profundidade máxima de corrosão por pites calculamos o coeficiente de
variabilidade usando no programa R os seguintes comandos:
var(corr) #VARIÂNCIA
sd(corr) #DESVIO PADRÃO
cvcorr=sd(corr)/mean(corr)*100 #COEFICIENTE DE VARIABILIDADE
cvcorr
10) Usando a notação adequada, escreva a fórmula (expressão algébrica) para calcular a média e a
variância populacional.
Resposta) Como foi apresentado anteriormente, a média é definida como soma dos dados da variável
divididos pelo número total de dados:
∑𝑁
𝑖=1 𝑥𝑖
𝑥̅ = (Equação 10)
𝑁