Você está na página 1de 7

Trabalho de GES104 – Estatística

aplicada à engenharia

Roberto Lopes da Rocha Júnior


Curso: ABI-engenharia
Turma: 30B

Lavras
Minas Gerais – Brasil
2022
Trabalho de GES104 – Estatística aplicada à engenharia
Roberto Lopes da Rocha Júnior
Turma: 30B

Os dados a seguir referem-se a medidas da profundidade máxima de corrosão por pites (em
mm) em 114 tanques de armazenamento de GLP condenados da Refinaria de Paulínia
(REPLAN/PETROBRAS):
1) 2,85 16) 3,51 31) 3,81 46) 4,00 61) 4,09 76) 4,30 91) 4,53 106) 4,92
2) 2,85 17) 3,52 32) 3,85 47) 4,00 62) 4,10 77) 4,30 92) 4,54 107) 4,94
3) 2,89 18) 3,55 33) 3,87 48) 4,00 63) 4,10 78) 4,31 93) 4,59 108) 4,96
4) 2,97 19) 3,56 34) 3,90 49) 4,00 64) 4,13 79) 4,35 94) 4,60 109) 5,02
5) 3,16 20) 3,62 35) 3,90 50) 4,01 65) 4,14 80) 4,36 95) 4,63 110) 5,09
6) 3,16 21) 3,65 36) 3,91 51) 4,01 66) 4,16 81) 4,40 96) 4,65 111) 5,13
7) 3,19 22) 3,67 37) 3,91 52) 4,02 67) 4,19 82) 4,44 97) 4,73 112) 5,15
8) 3,24 23) 3,68 38) 3,92 53) 4,04 68) 4,20 83) 4,45 98) 4,74 113) 5,16
9) 3,34 24) 3,71 39) 3,92 54) 4,05 69) 4,21 84) 4,48 99) 4,75 114) 5,18
10) 3,44 25) 3,72 40) 3,95 55) 4,06 70) 4,22 85) 4,50 100) 4,76
11) 3,45 26) 3,73 41) 3,96 56) 4,07 71) 4,22 86) 4,50 101) 4,77
12) 3,46 27) 3,76 42) 3,98 57) 4,08 72) 4,23 87) 4,51 102) 4,79
13) 3,46 28) 3,77 43) 3,99 58) 4,08 73) 4,23 88) 4,51 103) 4,81
14) 3,49 29) 3,77 44) 3,99 59) 4,08 74) 4,25 89) 4,52 104) 4,87
15) 3,50 30) 3,81 45) 3,99 60) 4,09 75) 4,26 90) 4,53 105) 4,90
Dados 1: Medidas da profundidade máxima de corrosão por pites (em mm) em 114 tanques de
armazenamento de GLP condenados da Refinaria de Paulínia (REPLAN/PETROBRAS)

Chamaremos este conjunto de “X” e usaremos estes dados para responder as perguntas a seguir.
1)Qual é a população em estudo?
Resposta) A população em estudo foi os tanques de armazenamento de GLP condenados.

2) Qual é a amostra em estudo?


Resposta) A amostra em estudo foi os 114 tanques de armazenamento de GLP condenados da Refinaria
de Paulínia (REPLAN/PETROBRAS).

3) Qual é a variável estudada?


Resposta) A variável estudada foi a profundidade máxima de corrosão por pites (em mm) nos tanques.
4) Qual é o tipo da variável estudada?
Resposta) A variável estudada é do tipo quantitativa contínua.

5) Organize e apresente os dados em uma Tabela de Distribuição de Frequências.


Resposta) Para se realizar uma tabela de distribuição de frequências (TDF), devemos fazer uma tabela
de duas colunas. A primeira coluna é referente a variável em estudo, que neste caso é a profundidade
máxima de corrosão por pites (em mm) nos tanques. Já a segunda coluna está relacionada a frequência
com que os dados aparecem, ou seja, é o número de vezes que um mesmo dado ocorre na amostra
analisada. Cada linha desta tabela será chamada de classe.
Como neste trabalho estamos tratando de uma variável quantitativa, devemos agrupar os dados
em intervalos de classe. Para isso usamos a regra de Sturges, em que determinamos o número de classes
(k) por meio da seguinte equação:

𝑘 = 1 + 3,322 log(𝑁) (Equação 1)

no qual N é o número de dados da amostra analisada.


Para encontrar estes intervalos e frequências de forma mais simplificada usamos o software R.
Para isso, organizamos os dados do início deste trabalho em um arquivo texto (pites.txt) com duas
colunas, sendo a primeira referente a numeração dos tanques (denominada de tanque) e outra referente
a variável profundidade máxima de corrosão por pites (denominada de corrosao). Então abrimos esta
tabela no software R indicando onde está este arquivo e posteriormente usando os seguintes comandos
no script:

x=read.table("pites.txt",h=T)
x

Como só usaremos os dados da coluna “corrosao” para fazer os cálculos e análises estatísticas,
usamos os comandos abaixo para isolá-los:

corr=x$corrosao
corr

Por fim, encontramos os intervalos e frequências absolutas dos dados do conjunto X por meio
do seguinte comando:

hist(corr, breaks = "Sturges",freq = TRUE, right = FALSE, plot = FALSE)

Por meio destes dados, montamos a tabela de distribuição de frequências abaixo:

Profundidade máxima de corrosão por pites em Quantidade de tanques (frequência absoluta)


tanques de GLP (em mm)
2,5 ˫ 3,0 4
3,0 ˫ 3,5 10
3,5 ˫ 4,0 31
4,0 ˫ 4,5 39
4,5 ˫ 5,0 24
5,0 ˫ 5,5 6
Tabela 1: Tabela de distribuição de frequências da profundidade máxima de corrosão por pites em
tanques de GLP em frequência absoluta.
Também podemos escrever as frequências absolutas de cada classe (𝐹𝑖 ) em termos das
frequências relativas (𝐹𝑟𝑖 ) usando a seguinte relação:

𝐹𝑖
𝐹𝑟𝑖 = (Equação 2)
𝑁

no qual N é o número de observações, que nos dados analisados é a quantidade de tanques (N=114).
Com isso podemos montar a TDF abaixo:

Profundidade máxima de corrosão por pites em Proporção de tanques (frequência relativa)


tanques de GLP (em mm)
2,5 ˫ 3,0 0,035
3,0 ˫ 3,5 0,088
3,5 ˫ 4,0 0,272
4,0 ˫ 4,5 0,342
4,5 ˫ 5,0 0,211
5,0 ˫ 5,5 0,053
Tabela 2: Tabela de distribuição de frequências da profundidade máxima de corrosão por pites em
tanques de GLP em frequência relativa.

Temos também as frequências percentuais (𝐹𝑃𝑖 ) que são definidas como:

𝐹𝑃𝑖 = 𝐹𝑟𝑖 . 100% (Equação 3)

Com isso podemos montar outra TDF:


Profundidade máxima de corrosão por pites em Porcentagem de tanques (frequência percentual)
tanques de GLP (em mm)
2,5 ˫ 3,0 3,5%
3,0 ˫ 3,5 8,8%
3,5 ˫ 4,0 27,2%
4,0 ˫ 4,5 34,2%
4,5 ˫ 5,0 21,1%
5,0 ˫ 5,5 5,3%
Tabela 3: Tabela de distribuição de frequências da profundidade máxima de corrosão por pites em
tanques de GLP em frequência percentual.

6) Interprete a Tabela de Distribuição de Frequências.


Resposta) Como foi mencionado anteriormente, na tabela de distribuição de frequências (TDF) temos
duas colunas. A primeira coluna é referente a variável em estudo, que neste caso é a profundidade
máxima de corrosão por pites (em mm) nos tanques. Já na segunda coluna temos as frequências
(absoluta, relativa ou percentual) com que os dados aparecem, ou seja, está relacionada a quantidade
de vezes que um dado ocorre na amostra analisada.
Dessa forma, podemos interpretar pela tabela 3 que 61,4% dos tanques de GLP condenados da
Refinaria de Paulínia (REPLAN/PETROBRAS) possuem profundidade máxima de corrosão por pites
(em mm) com valores no intervalo 3,5 ˫ 4,5. Já 82,5% dos tanques de GLP condenados da Refinaria
de Paulínia (REPLAN/PETROBRAS) possuem profundidade máxima de corrosão por pites (em mm)
com valores no intervalo 3,5 ˫ 5,0. Isto mostra que há grande concentração de valores de profundidade
máxima de corrosão por pites nas classes intermediárias das tabelas 1,2 e 3, com pouca concentração
de valores nos extremos.
7) Construa e apresente o histograma.
Resposta) Os histogramas são gráficos de retângulos cujas bases são proporcionais as larguras dos
intervalos e as alturas são proporcionais às frequências (absoluta, relativa ou percentuais). Construímos
um histograma referente aos dados da tabela 1 usando o software R por meio do seguinte comando:

hist(corr, breaks = "Sturges",freq = TRUE, right = FALSE, plot = TRUE, col=2)

Dessa forma obtemos o seguinte histograma:

Figura 1: Histograma referente à tabela 1

Na figura 1 observamos que o eixo x indica os intervalos da variável corr, que é referente aos
intervalos da profundidade máxima de corrosão por pites nos tanques. Já o eixo y indica os valores das
frequências absolutas que estes dados de corrosão aparecem para determinado intervalo.
a) Em que posição do histograma os dados estão mais concentrados?
Resposta) Como foi discutido na questão anterior e também é observado na figura 1, os dados de
profundidade máxima de corrosão por pites estão mais concentrados no centro do histograma, ou seja,
nos intervalos intermediários.

b) Segundo a sua resposta dada em (a), como se distribuem os dados?


Resposta) Como os dados de profundidade máxima de corrosão por pites estão mais concentrados no
centro do histograma, podemos afirmar que os dados estão distribuídos de forma relativamente
simétrica.

8) Mencione e calcule a medida de posição mais apropriada para os dados.


Resposta) As medidas de posição sintetizam um conjunto de dados em somente um valor e identificam
a tendência central destes dados. Há dois tipos de medidas de posição, sendo elas a média e a mediana.
A média é definida como soma dos dados da variável divididos pelo número total de dados:

∑𝑁
𝑖=1 𝑥𝑖
𝑥̅ = (Equação 4)
𝑁

onde xi são os dados da variável e N é o número total de dados.


Para os dados de profundidade máxima de corrosão por pites calculamos a média por meio do
software R usando o comando mean(corr), obtendo-se o valor de 4,10807mm.
Já a mediana é o valor central de um conjunto de dados após serem ordenados de forma
ascendente ou descendente. Se N for ímpar, temos que a mediana é dada por:

𝑚𝑑 = 𝜒(𝑁+1) (Equação 5)
2

onde 𝜒(𝑖) é o valor da variável “χ” que aparece na posição “i” após ordenar os dados. Já quando N é
par, a mediana é dada por:
𝜒 𝑁 +𝜒 𝑁+2
( ) ( )
2 2
𝑚𝑑 = (Equação 6)
2

Para os dados de profundidade máxima de corrosão por pites calculamos a mediana por meio
do software R usando o comando median(corr), obtendo-se o valor de 4,08mm.
Como os dados de profundidade máxima de corrosão por pites estão distribuídos de forma
relativamente simétrica, como mostrado no histograma da figura 1, os valores da média e mediana
devem ser próximos e tendem a ficar no centro da distribuição de dados. Isto foi confirmado com os
valores próximos encontrados de 4,10807mm para a média e 4,08mm para a mediana. Com isso, nesta
amostra analisada podemos usar tanto a média quanto a mediana.
Porém, quando temos uma distribuição de dados de forma não simétrica, a mediana e a média
tem valores bem diferentes, sendo a mediana a mais apropriada para se usar como medida de posição.

9) Temos outro conjunto de dados:


Y: peso em quilogramas de 3 carregamentos de areia. Y = {1000, 2000, 3000}
Que conjunto de dados é mais variável “X” ou “Y”? Justifique.

Resposta) Para se analisar qual conjunto de dados é mais variável, devemos analisar a variabilidade. A
variabilidade é medida do grau de dispersão dos dados. A medida de variabilidade que melhor descreve
esta dispersão de dados é o coeficiente de variabilidade (CV) pois ela é uma medida que não tem
unidades (medida relativa). Ele é definido como:
𝑆
𝐶𝑉 = . 100% (Equação 7)
𝑥̅

no qual 𝑥̅ é a média dos dados e S é o desvio padrão. O desvio padrão é outra medida de variabilidade,
sendo definida como:
𝑠 = √𝑠 2 (Equação 8)

e 𝑠 2 é a variância amostral, outra medida de variabilidade. Ela é definida como:


1
𝑠2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 (Equação 9)
𝑛−1

onde xi são os dados da variável e n é o número total de dados. O desvio padrão tem a desvantagem de
que conjuntos de dados com magnitudes maiores tendem a ter valores maiores de desvio padrão. Já a
variância tem a desvantagem de fornecer unidades elevadas ao quadrado. Portanto o coeficiente de
variabilidade descreve melhor a dispersão dos dados.
Para os dados de profundidade máxima de corrosão por pites calculamos o coeficiente de
variabilidade usando no programa R os seguintes comandos:

var(corr) #VARIÂNCIA
sd(corr) #DESVIO PADRÃO
cvcorr=sd(corr)/mean(corr)*100 #COEFICIENTE DE VARIABILIDADE
cvcorr

Com isso, obtemos o valor do coeficiente de variabilidade do conjunto X de 12,90381%.


Utilizando-se os dados do conjunto Y nas equações 4, 8 e 9, obtemos respectivamente a média 𝑥̅ =
2000𝑘𝑔 e o desvio padrão 𝑠 = 1000𝑘𝑔. Então substituindo estes valores na equação 7 obtemos o
valor de 50% para o coeficiente de variabilidade do conjunto Y. Como o conjunto Y possui maior CV,
podemos afirmar que seus dados são mais variáveis que o conjunto X.

10) Usando a notação adequada, escreva a fórmula (expressão algébrica) para calcular a média e a
variância populacional.

Resposta) Como foi apresentado anteriormente, a média é definida como soma dos dados da variável
divididos pelo número total de dados:

∑𝑁
𝑖=1 𝑥𝑖
𝑥̅ = (Equação 10)
𝑁

onde xi são os dados da variável e N é o número total de dados.


Já a variância populacional é definida como:
1
𝜎2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 (Equação 11)
𝑛

Podemos observar que a equação 11 referente a variância populacional é diferente da equação


9, que se refere a variância amostral.

Você também pode gostar