Escolar Documentos
Profissional Documentos
Cultura Documentos
Faculdade de Tecnologia
Dept. Engenharia Civil & Ambiental
Prog. de Pós-Graduaçõa em Geotecnia
MÉTODOS ESTATÍSTICOS
E PROBABILÍSTICOS
EM GEOTECNIA
ÍNDICE
Página
1 – INTRODUÇÃO............................................................................................................... 1.1
1 - INTRODUÇÃO
distribuição estatística. Desta forma os resultados das análises passam a refletir a variabilidade
dos parâmetros geotécnicos, conduzindo a métodos probabilísticos de projeto e suas
respectivas análises de confiabilidade. Análises de confiabilidade são de suma importância,
pois permitem a escolha adequada do valor de FS de projeto em função dos riscos de ruptura
de cada tipo de estrutura geotécnica.
2. ESTATÍSTICA DESCRITIVA
2.1. CONCEITO
POPULAÇÃO
AMOSTRA
A
AMOSTRA
AMOSTRA
C
B
Os dados estatísticos coletados são agrupados de forma que seu manuseio, visualização e
compreensão sejam simplificados. A princípio tem-se os dados não submetidos a qualquer
tipo de tratamento, ou seja, dados brutos. Inicia-se o agrupamento com uma ordenação destes
dados, seja em ordem crescente ou decrescente e, a seguir estima-se a amplitude, ou seja, a
diferença entre o maior e o menor valor existente.
Uma forma de determinar um número razoável de classes (k), consiste em aplicar a lei de
Sturges:
log n
k = 1 + log 2 n = 1+ (2.1)
log 2
A partir das classes são construídas as distribuições de freqüência para uma melhor
visualização e aproveitamento dos dados. O número de vezes que um valor aparece no
domínio de uma classe é denominado freqüência. Além da freqüência especificamente, outros
valores são de extrema importância na composição de uma distribuição completa de
freqüência. Um quadro completo de distribuição de freqüência é composto pelas seguintes
colunas, sendo n a quantidade total de observações:
Classe xi ni fi Ni Fi
Onde:
xi é o ponto médio de i-ésima classe, ou seja, é a média dos pontos extremos da classe;
ni é a quantidade de observações, ou freqüência, da i-ésima classe (que se supõem
concentradas no respectivo ponto médio);
Exemplo 2.1:
• A partir de campanhas de ensaio de campo foram determinadas as massas específicas
secas de um aterro hidráulico constituído por rejeito de minério de ferro. Os valores se
encontram na sua forma bruta dispostos abaixo. Obter o quadro de distribuição de
freqüência completo.
Solução:
Os dados brutos devem ser ordenados (neste exemplo será em ordem crescente):
1,75 1,77 1,78 1,79 1,79 1,80 1,83 1,85 1,87 1,87 1,87 1,88 1,89 1,89 1,89
1,91 1,91 1,91 1,91 1,92 1,92 1,92 1,92 1,93 1,93 1,93 1,94 1,95 1,96 1,96
Trata-se de 30 valores de massa específica seca, sendo o menor igual a 1,75 e o maior 1,96,
logo a amplitude é 0,21 (diferença entre 1,96 e 1,75).
A partir deste valor adotou-se o número de classes igual a 5 (poderia ter sido 6, pois a Lei de
Sturges é apenas um indicativo do número de classes).
Dividindo-se a amplitude 0,21 por 5 (o número de classes) tem-se 0,042 que corresponderia
ao tamanho de cada classe. Optou-se trabalhar com o valor adotado de 0,05.
Classe xi ni fi Ni Fi
1,75 - 1,80 1,775 05 0,16 5 0,16
1,80 - 1,85 1,825 02 0,07 7 0,23
1,85 - 1,90 1,875 08 0,27 15 0,50
1,90 - 1,95 1,925 12 0,40 27 0,90
1,95 - 2,00 1,975 03 0,10 30 1,00
Observação: Neste caso optou-se por definir as classes a partir do limite inferior (menor valor
observado) da amostra. Como o número e a amplitude das classes são arbitrados, isto pode
desbalancear uma das classes dos extremos. Para evitar este desbalanceamento, deve-se
definir as classes a partir do valor da média da amostra em direção aos extremos inferior e
superior.
A análise dos dados estatísticos levantados na observação de um fenômeno pode ser feita
separando-os em variáveis e atributos, sendo:
Este é muito utilizado na representação gráfica de dados não agrupados em classes, o que
ocorre normalmente com dados discretos. Diz-se, neste caso, que não há perda de informação,
pois os valores da variável aparecem individualmente como constam da amostra.
ni
30
20
10
1 2 3 4 5
xi
2.4.2. Histograma
Tabela 2.2 - Dados referentes a valores de coesão efetiva (kPa) de uma areia
Classes ni
02 – 04 3
04 – 06 5
06 – 08 8
08 – 10 4
10 – 12 2
ni
0
2 4 6 8 10 12 Classes
fi
0
2 4 6 8 10 12 Classes
fi
2.4.5. Ogiva
Classe xi ni fi Ni Fi
1,75 - 1,80 1,775 05 0,16 5 0,16
1,80 - 1,85 1,825 02 0,07 7 0,23
1,85 - 1,90 1,875 08 0,27 15 0,50
1,90 - 1,95 1,925 12 0,40 27 0,90
1,95 - 2,00 1,975 03 0,10 30 1,00
14 100 %
Distribuição de frequência
12
Frequência acumulada 80 %
10
8 60 %
ni Fi
6 40 %
4
20 %
2
0 0%
75 25 75 25 75
1,7 1,8 1 ,8 1 ,9 1 ,9
xi
É aplicável quando as categorias básicas são quantificáveis. Toma-se um círculo (360º) que se
divide em setores com áreas proporcionais às freqüências das diversas categorias. Uma
ilustração deste tipo de gráfico pode ser dada a partir do cálculo das % de freqüência de cada
classe das massas específicas secas do Exemplo 2.1 (Tabela 2.4).
1
2
5 16,70 %
6,70 %
10 %
26,60 %
40 %
3
x + x + ... + xn ∑x i
X= 1 2 = i =1
(2.2)
n n
É utilizada quando os números que se quer sintetizar têm graus de importância diferenciados.
A média aritmética ponderada dos números x1 , x2 , ..., xn , com pesos p1 , p2 ,..., pn
representada por X p , é definida como:
Xp =
( x1 p1 + x2 p2 + ... + xn p n )
n
(2.3)
∑p
i =1
i
Define-se como Mediana de um conjunto de “n” observações, X1, X2,..., Xn o valor do "meio"
do conjunto, quando os dados estão dispostos em ordem crescente. Quando "n" é ímpar, este
valor é único; se "n" é par, a mediana é a média aritmética simples dos dois valores centrais.
É uma medida de tendência central que se caracteriza pelo valor mais freqüente (maior
freqüência absoluta simples).
Exemplo 2.2:
• Para o conjunto X1 = {2, 4, 5, 5, 5, 6, 6, 7, 8, 9}, temos: ü a moda – Mo = 5
ü a média – X = 5,70
ü a mediana – Me = 5,50
Exemplo 2.3:
• X2 = {2, 2, 3, 3, 4, 4}, é um conjunto amodal;
• X3 = {1, 2, 2, 3, 4, 5, 5, 6}, é um conjunto bimodal, onde as modas são Mo = 2 e Mo = 5.
Suponha-se que se queira sintetizar em um único número os salários das pessoas que
trabalham numa determinada obra (engenheiros, mestres, pedreiros, ajudantes, estagiários
etc.). São encontrados os seguintes números (em ordem crescente):
A média aritmética destes valores corresponde a 564,30. Este é um valor que representa
razoavelmente aquele conjunto de observações. Se, entretanto o conjunto de dados fosse o
seguinte:
A média seria 878,60. Neste caso, já não se pode dizer que a média sintetiza adequadamente o
conjunto, pois apenas um valor é maior do que ela.
Convém, então, observar que em alguns casos é preferível utilizar a mediana como medida
sintetizadora, como por exemplo na situação em que o histograma do conjunto de valores é
assimétrico, isto é, quando há predominância de valores elevados em uma das caudas.
A representação de uma distribuição somente através de sua média não permite uma
conclusão correta a respeito da mesma, visto que uma mesma média possa possuir extremos
diferenciados. Assim, para a representação adequada de um fenômeno é necessário associar
uma medida de dispersão a sua média, que irá expressar com que grau as observações
individuais diferem do valor médio representativo da população.
As medidas de dispersão mais utilizadas são a variância (s2) e o desvio padrão (s), sendo:
n 2
∑ ( x − x)
i
s = 2 i =1
(2.4)
n −1
s = s2 (2.5)
Exemplo 2.4:
• Amostras retiradas do campo experimental a uma mesma profundidade apresentaram
diferentes teores de umidade: 10,30%; 4,90%; 8,90%; 11,70%; 6,30% e 7,70%. Obtenha a
média( X ), a variância (s2) e o desvio padrão (s).
Solução:
ü a média – X = 8,30%
ü a variância – s2 = 6,36%
n
Uma vez que nas Eqs. 2.4 e 2.5 estamos elevando ao quadrado as diferenças ∑ ( X i − X )2 ,
i =1
2
a variância ou o desvio padrão nunca podem ser negativos. A única ocasião em que s e s
podem ser zero é quando não existe variação nos dados, ou seja, quando cada observação na
amostra é exatamente a mesma ( X = X 1 , X 2 ,..., X n ) .
• Cada estação deverá constar de uma superfície de avaliação correspondente a 15% da área
total do pavimento;
• O operador deverá anotar em uma ficha de campo a presença de cada tipo de falha,
seguindo a codificação normalizada pelo DNER, como também a flecha nas trilhas de
roda externa e interna, expressa em milímetros;
A partir do valor encontrado para IGG é possível fazer uma primeira avaliação do pavimento.
Com certeza outras avaliações são necessárias para um projeto final de restauração, no entanto
apenas com este procedimento pode-se verificar o quanto a Estatística Descritiva é capaz de
fornecer subsídios para uma pesquisa aplicada ao amplo universo da Geotecnia. Os métodos
de classificação geomecânica de maciços rochosos são outros exemplos muito similares deste
tipo de aplicação da Estatística Descritiva.
3 - PROBABILIDADE
Mesmo para os especialistas de cada área de atuação, é muito difícil prever com certeza uma
inferência sobre a população (universo estatístico) a partir de informações obtidas em
amostras. Raramente uma amostra representará exatamente o universo estatístico de onde ela
foi coletada, ou seja, haverá sempre uma incerteza. O conceito de probabilidade é fundamental
para os estudos de situações onde os resultados são variáveis, mesmo quando mantidas
inalteradas as condições de sua realização. Nestes estudos não se pode afirmar de antemão
qual resultado particular ocorrerá, porém existem condições para descrever o conjunto de
todos os resultados possíveis.
Podem-se estabelecer algumas operações entre dois ou mais eventos, pertencentes ao mesmo
espaço amostral:
• A operação de união entre eventos gera um novo evento contendo todos os elementos
existentes nos eventos que foram unidos. Se a união entre eventos formar o próprio espaço
amostral, estes são chamados de eventos coletivamente exaustivos, ou seja, um dos
eventos deve necessariamente ocorrer.
n (A) (3.1)
P (A) =
n (S)
onde:
P(A) – probabilidade de ocorrer o evento A
n(A) – número de elementos do evento A
n(S) – número de elementos do espaço amostral S
Exemplo 3.1 – Numa análise paramétrica de estabilidade de taludes com resultados do fator
de segurança para a poropressão variando de 0,1 a 0,4 (Tabela 3.1), qual a
probabilidade do fator de segurança (FS) ser menor do que 1,5?
Solução:
O evento A com valores de FS menores do que 1,50 tem apenas um elemento (1 valor de FS):
A Probabilidade pode ser definida como o número associado a um acontecimento e que goza
de certas propriedades chamadas axiomas do cálculo das probabilidades. Representando por P
a função de probabilidade tem-se as seguintes definições:
Solução:
Pela Tabela 3.2, os eventos A e B correspondem a:
A = {1,857; 2,019}
B = {1,697; 1,608; 1,475; 1,538; 1,251}
• ou rei ou espada
• simultaneamente rei e espada
Solução:
Num baralho dentre as 52 cartas, existem 4 cartas rei e 13 cartas espada. Representando por R
o evento de obter cartas rei e por E o de obter cartas espada, a probabilidade de ocorrência do
primeiro evento é:
Este cálculo se justifica por serem os eventos R e E quaisquer e não mutuamente excludentes,
pois podem ocorrer simultaneamente. Já a probabilidade de ocorrência do segundo evento é:
P(R ∩ E) = 1/52
Exemplo 3.4 – Uma gaveta contém 50 parafusos e 150 porcas. Metade dos parafusos e das
porcas está enferrujada. Se uma peça for escolhida ao acaso, qual a
probabilidade de que seja um parafuso ou uma peça enferrujada?
Solução:
Assim:
Convém ressaltar que existem, entretanto, situações nas quais saber que o evento B ocorreu
nada influencia na ocorrência da A. Isto pode ser exemplificado através do seguinte caso: um
dado não-viciado é jogado duas vezes. Definindo A: {o primeiro lançamento mostra um
número par} e B: {o segundo lançamento mostra um 5 ou 6}, intuitivamente pode-se ver que
os eventos A e B são completamente não-relacionados. O evento A não interfere sobre B, os
quais são chamados de eventos independentes.
Deste modo, desde que P(A) > 0 e P(B) > 0 e que P(A) = P(A/B) , P(B) = P(B/A) , tem-se
que:
Pode-se, então, definir que A e B serão eventos independentes se, e somente se:
Solução:
Neste caso os eventos não são independentes. A probabilidade do segundo evento depende do
resultado do primeiro.
Exemplo 3.6 - Considere o Exemplo 3.5, porém com reposição da primeira carta extraída.
Solução:
Aqui o espaço amostral se mantém inalterado após a primeira extração, como também
inalterada permanece a probabilidade de extração de um “ás” : 4/52.
Para uma melhor visualização das propriedades de cálculos das probabilidades, apresenta-se o
seguinte resumo:
DOIS EVENTOS A e B
INDEPENDENTES DEPENDENTES
P(A ∩ B) = P(A) P(B) P(A ∩ B) = P(A) P(B/A)
Para entender uma variável aleatória é necessário associar a cada valor a sua probabilidade,
obtendo o que se chama uma distribuição de probabilidades, que fica caracterizada pelos
valores da variável aleatória e pela regra, ou função, que associa a cada valor sua
probabilidade. Esta função, chamada função de probabilidade, é representada por f(x).
Para estudar e tomar decisões em situações onde está presente a incerteza, deve-se identificar
a variável aleatória de interesse e obter sua distribuição de probabilidade, obtendo, a partir daí,
os elementos necessários para a tomada de decisão.
Convém ressaltar que associada a toda variável aleatória se encontra uma distribuição de
probabilidade que lhe fornece características próprias. Ao conhecer a função de probabilidade
de uma variável X, pode-se determinar a sua probabilidade de ocorrência. As distribuições de
probabilidade se encontram especificadas no Capítulo 4 desta apostila.
4 - DISTRIBUIÇÃO DE PROBABILIDADE
Se uma variável X pode assumir um conjunto discreto de valores X1, X2, X3,..., Xk, com
probabilidade P1, P2, P3,..., Pk, respectivamente, sendo que P1+P2+P3+...+Pk = 1, diz-se que
está definida uma probabilidade discreta de X. A função P(X) que assume os valores P1, P2,
P3,..., Pk, respectivamente para X = X1, X2, X3,... Xk, é denominada função de probabilidade
ou freqüência de X. Como X pode assumir certos valores com dadas probabilidades, ele é
freqüentemente denominado variável aleatória discreta.
E = {VV, VF, FV, FF}, a cada evento simples pode-se associar um número, conforme abaixo:
Evento VV VF FV FF
X 2 1 1 0
X 2 1 0
P(X) ¼ ½ ¼
A distribuição de uma variável aleatória contínua pode ser encarada como um refinamento de
uma distribuição discreta. Inicia-se o trabalho como se as mensurações tivessem sido feitas em
uma escala bastante grosseira. A medida que se aumenta a precisão das medidas, pode-se
trabalhar com um número cada vez maior de classes até que, no limite, tem-se uma curva
contínua. É a função da densidade de probabilidade, usualmente designada por ƒ(x).
Vale comentar a última propriedade. Numa distribuição contínua, só faz sentido falar da
probabilidade de uma variável aleatória X, caso esta esteja em um intervalo. A probabilidade
de ela se reduzir a um ponto é rigorosamente zero. Intuitivamente, basta considerar a segunda
propriedade e, em seguida, fazer a e b coincidirem. Tem-se um retângulo de base zero e,
conseqüentemente, de área zero.
Na prática, isto pode parecer contraditório. Por exemplo, então a probabilidade da massa
específica seca de um solo ser exatamente 1,75 g/cm3 é zero? É impossível existir um solo
com essa massa específica seca? Deve-se admitir que a precisão dos instrumentos de medida é
limitada e conseqüentemente 1,75 se não distingue de qualquer outro valor no intervalo, como
por exemplo [1,745; 1,755] ou [1,7495; 1,7505]. O que interessa é, na realidade, a
probabilidade da variável aleatória estar num intervalo, por menor que este seja, e então a
probabilidade correspondente já não mais será igual a zero.
E ( X ) = µ = ∑ xi pi (4.1)
i
+∞
E( X ) = µ = ∫ xf ( x ) dx (4.2)
−∞
Para a distribuição contínua, por exemplo, supondo que na determinação da dureza de um aço
particular, a medida de Rockwell (da dureza) varia uniformemente entre 50 e 70. A função de
densidade pode ser representado da seguinte forma:
1
para 50 ≤ x ≤ 70
ƒ(X) 20
0 para 50 > x > 70
=∞
E ( X ) = ∫ xf ( x)dx =
1 70
20 ∫50
xdx = 60
−∞
4.4 - MOMENTOS
Se X for contínuo:
+∞
V(X) = σ2 = E(X - µ)2 = ∫−∞ ( x − µ) f ( x) dx
2
(4.4)
1 70 2
V(X) = ∫ x dx − (60) = 3600,333 − 3600 = 33,33
2
20 50
Generalizando para X discreto, o momento de ordem j é representado por:
E ( X − µ ) = ∑ (x i − µ ) p i
j j
(4.7)
i
E(X − µ ) = ∫ (x − µ ) j f (x )dx
j +∞
(4.8)
−∞
Mas como só interessa o número de sucessos e insucessos, e não a ordem em que ocorrem, há
n
disposições possíveis daquelas ocorrências. Donde, finalmente obtém-se a função de
x
probabilidade de X:
n n!
ƒ(X) = p (X = x) = p x q n - x = px qn - x (4.9)
x x! (n - x)!
Onde x = 0, 1, 2, ..., n
n
A distribuição (4.9) é denominada Binomial ou de Bernoulli, visto que os coeficientes
x
n
são os termos do desenvolvimento binomial das potências de (a + b) . Isto é:
A probabilidade de acertar ao menos seis tipos de solo é a soma das probabilidades de acertar
6, 7, 8, 9 ou 10 tipo de solo:
10
10
10 10
P = ∑ (0,5) (0,5) = ∑ (0,5) =
x 10− x 10
x =6 x x =6 x
O cálculo das probabilidades binomiais vai-se tornando cada vez mais trabalhoso na medida
em que n cresce. Não é possível calcular diretamente tais probabilidades, mesmo com o
auxílio de calculadoras. Felizmente, para tais casos e certos valores de p, existem tabelas de
probabilidades binomiais bastante extensas que fornecem diretamente o valor da
probabilidade desejada. E no caso de p não constar da tábua, pode-se usar, com boa
aproximação, a distribuição (contínua) normal, ou de Gauss, que será estudada no Item 4.6.1.
Existem tabelas que dão as probabilidades P(X = X0) e P(X ≤ X0) para diversos valores de n e
os principais valores de p. São, respectivamente, as tabelas de probabilidades simples e
acumuladas. O uso apenas da tabela de probabilidades acumuladas é suficiente, pois para um
dado valor x0:
O Exemplo 4.2 também pode ser solucionado através da tabela de probabilidades binomiais
acumuladas, considerando que P(X ≥ 6) = 1 - P(X ≤ 5). Na interseção da linha n = 10, x = 5,
com a coluna p = 0,5, lê-se o valor 0,623, que é a probabilidade P(X ≤ 5). Logo, a
probabilidade procurada é P = 1 - 0,623 = 0,377.
Exemplo 4.3: Suponha que numa série de ensaios de limite de liquidez (LL), 5% dos ensaios
precisem ser refeitos, sendo que a qualidade de um ensaio é independente da qualidade dos
P(0) = 0,599
P(1) = P(X ≤ 1) - P(0) = 0,9139 - 0,599 = 0,315
P(2) = P(X ≤ 2) - P(X ≤ 1) = 0,9885 - 0,9139 = 0,074
P(3) = P(X ≤ 3) - P(X ≤ 2) = 0,9990 - 0,9885 = 0,011
P(4) = P(X ≤ 4) - P(X ≤ 3) = 0,9999 - 0,9990 = 0,001
P(5) = P(6) = ... = P(10) ≅ 0.
Se x é uma variável aleatória com distribuição de Bernoulli, então a Média e a Variância são:
E(x) = np (4.10)
λx e -λ
p( x) = (4.12)
x!
Onde x = 1, 2, ...
x = x0
e - λ . λx
ƒ(x) = P(x ≤ x0) = ∑
x =0 x!
(4.13)
E(x) = λ (4.14)
V(x) = λ (4.15)
A distribuição de Poisson tem grande número de aplicações porque pode ser vista como uma
aproximação da distribuição binomial com parâmetros n e p, quando n é grande e p é
pequeno, de modo que np que é igual a λ seja de tamanho moderado.
Exemplo 4.4: Considere um experimento binomial com n = 200, p = 0,04, em que se pede a
probabilidade de, no máximo, cinco sucessos.
x = 5 200
P( X ≤ 5) = ∑ (0,04)x (0,96)5− x
x = 0 x
Tal probabilidade ultrapassa de muito o âmbito das tabelas binomiais usuais, em vista do
elevado valor de n (200). Como o cálculo direto é impraticável, pode-se usar a aproximação
de Poisson:
n = 200 p = 0,04 λ = np = 8
Exemplo 4.5: A probabilidade de uma estrutura romper é estimada como sendo 0,001. Se
1000 estruturas iguais estão sendo construídas, qual a probabilidade de que 2 rompam?
1000
(0,001)2 (0,999)998 = 0,1842
2
λ = 1000 (0,001) = 1
12 e -1
ƒ(2) = = 0,1839
2!
Exemplo 4.6: Qual a probabilidade de existirem 2 ou menos rupturas nas 1000 estruturas do
exemplo 4.5.
Solução:
2
12 e -1 2,5
ƒ(2) = ∑ = = 0,92
x i =0 xi ! e
26 26
P = = 0,3251
3 2
52
5
No exemplo acima, pode-se considerar (arbitrariamente) vermelha como sucesso e preta como
falha, numa população de tamanho N:
• N = 52 • n=5
• k = 26 • x=3
• N - k = 26 • n-x=2
k N-k
x n-x
(4.16)
N
n
Os cálculos diretos em geral são longos. Mas quando n é pequeno em relação a N, não há
diferença prática entre extração sem reposição e extração com reposição. Então, a distribuição
hipergeométrica pode ser satisfatoriamente aproximada pela binomial com:
k N-k
p= e q=
N N
E(x) = np (4.17)
( x - µ )2
1 2σ 2
ƒ(x) = e (4.19)
σ 2π
• A média da distribuição é µ;
• O desvio padrão é σ;
• A moda ocorre em x = µ;
• A curva é simétrica em relação a um eixo vertical passando por x = µ;
• A curva tem inflexões nos pontos x = µ ± σ; é côncava para baixo se µ-σ < x < µ+σ e
côncava para cima em caso contrário;
• A curva normal é assintótica ao eixo horizontal em ambas as direções;
• A área total sob a curva normal e acima do eixo horizontal é 1 (o eixo horizontal é o eixo
dos valores da variável aleatória X).
A área total limitada pela curva de Gauss e pelo eixo dos x é igual a 1; portanto, a área sob a
curva, compreendida entre as duas coordenadas x = a e x = b, em que a<b, representa a
probabilidade de x estar situado entre a e b, conforme a Figura 4.2.
X-µ
Z= (4.20)
σ
Esta nova variável chama-se variável normal padronizada, ou reduzida. Sua média é 0 e seu
desvio padrão, 1. Mediante tal transformação, basta uma única tabela (da variável normal
reduzida). A Fig. 4.3 ilustra esta transformação.
Essa transformação não altera a forma da distribuição; apenas refere-se a uma nova escala. A
tabela da distribuição normal fornece a probabilidade de Z tomar um valor não superior a z0:
P(Z ≤ Z0). Costuma-se denotar esta probabilidade por φ (Z0). Tal probabilidade é a área
hachurada na Figura 4.4.
Exemplo 4.7: Determinar a área sob a curva normal padronizada à esquerda de 1,72.
P(0,70 ≤ Z ≤ 1,35) = P(Z ≤ 1,35) - P(Z ≤ 0,70) = 0,9115 - 0,7580 = 0,1535 = 15,35%.
Solução: A área total é 1, logo a área à direita (acima) de 1,80 é igual 1 menos a área à
esquerda (abaixo) de 1,80:
Exemplo 4.10: O Índice de Suporte Califórnia (ISC) de um subleito segue uma distribuição
normal com média 12 e desvio padrão 1. Qual a probabilidade de encontrar um valor de ISC
superior a 15?
Solução:
15 - 12
⇒ Z= =3
1
P(x > 15) = P(Z > 3) = 1 - P(Z < 3) = 1- 0,99865 = 0,00135 = 0,135%.
Exemplo 4.11: Uma distribuição normal tem média µ = 62,4. Determinar o desvio padrão σ
se 0,33 da área sob a curva estão à direita de 79,2 (Figura 4.6).
Solução: Se 0,33 da área estão à direita, então 0,67 estão à esquerda de 79,2. Deve-se
procurar na tabela o valor z ao qual corresponde a área 0,67. Tal valor é z = 0,44. Então:
Quando n é grande e p não está muito próximo nem de 0 nem de 1, a distribuição normal
constitui boa aproximação da binomial, o que permite tratar uma variável aleatória binomial
b(n; p) como uma variável aleatória normal. Como na distribuição binomial a média é np e o
desvio padrão é npq , sendo n o número de provas, p a probabilidade de sucesso e q = 1-p a
probabilidade de insucesso, padroniza-se X da seguinte maneira:
X - np a - np b - np
Z= P (a ≤ X ≤ b) = P ≤ Z≤ (4.21)
npq npq npq
n
∑ x x p x
qn- x (4.22)
Exemplo 4.14: Considere uma variável aleatória X com n = 15, p = 0,4 e calcule P(7 ≤ X ≤
10) pela aproximação normal.
Solução:
µ = np = 6
7-6 10 - 6
= P(0,53 ≤ Z ≤ 2,11) =
x -6
Z= P ≤Z≤
1,9 1,9 1,9
O cálculo binomial direto, com auxílio das tabelas binomiais, dá P = 0,38. A aproximação
normal dá resultado bastante diferente do resultado exato, não só porque n é pequeno, mas,
principalmente, porque é necessário introduzir uma correção quando se pretende aproximar
uma distribuição discreta por uma distribuição contínua. Tal correção, chamada correção de
continuidade, consiste em subtrair 0,5 do valor inferior e somar 0,5 ao valor superior. Então:
6,5 - 6 10,5 - 6
P(7 ≤ X ≤ 10) = P ≤ Z≤ =
1,9 1,9
Este novo valor da aproximação constitui uma excelente aproximação do valor exato. Para
justificar a correção de continuidade, basta atentar para a Figura 4.7. A porção da curva
normal que corresponde aos retângulos 7, 8, 9, 10 da distribuição discreta (binomial) na
realidade se estende de x = 6,5 a x = 10,5.
1
ƒ(x) = , para α < x < β sendo 0 < α < β < ∞
β −α
= 0, em caso contrário.
Solução:
α = 100 β = 125 β - α = 25
[1]
ƒ(x) = , 100 ≤ x ≤ 125
25
= 0 em caso contrário.
5 1
p= = = 20%
25 5
A distribuição uniforme, embora apresentada como contínua, pode também abranger casos
discretos. Suponha que uma variável aleatória X que tome os valores x1, x2, ..., xk com igual
probabilidade. Então X tem distribuição uniforme discreta e sua função de densidade de
probabilidade é dada por:
1
ƒ(x) = , x = x1, x2, ..., xk
k
= 0 em caso contrário.
• Caso discreto
k k
1
µ = ∑ xi ƒ(x i ) = ∑x i
i =1 k i =1
1
σ = ∑ x i -
2 2
(∑ xi )
2
k k
• Caso contínuo
µ=
α +β
σ2 =
(β - α )2 (4.22)
2 12
= 0 em caso contrário.
1 1
µ= σ2 = (4.24)
λ λ2
Uma variável aleatória X tem distribuição lognormal quando seu logaritmo tem densidade
normal de probabilidade. Ou seja, se X é lognormal, ln X é N(α; β). Sua densidade de
probabilidade é dada por:
1 2
exp 2 (lnx - α ) , x > 0, β > 0,
1
ƒ(x) =
x ⋅ β 2π 2β
-∞ <α < ∞
= 0 em caso contrário.
β2
E ( X ) = exp α + (4.27)
2
Mediana: eα
ln a - α ln X - α ln b - α
P < < =
β β β
ln b - α ln a - α
φ - φ
β β
Exemplo 4.14 - Para determinar a altura adequada dos controles (volante etc.) de um veículo,
mediram-se as alturas de um conjunto típico de operadores. Constatou-se que essas alturas
têm distribuição lognormal com parâmetros α = 5,11 e β = 1. Qual a percentagem de
operadores com altura inferior a 164 cm?
Solução:
ln 164 - 5,11
=φ = φ (- 0,010) = 0,496
1
Ns 2 ( x1 − x ) + ( x 2 − x ) + L + (x N − x )
2 2 2
χ2 = = , (4.29)
σ2 σ2
( )(
1 1
υ −2 ) - χ2
ƒ(χ2) = Y0 χ 2 2 e 2 (4.30)
Onde:
υ = N - 1 é o número de graus de liberdade;
Y0 é uma constante dependente de υ, de modo que a área total subtendida pela curva seja
igual a 1.
A distribuição de Ficher pode ser definida da seguinte maneira: se χ21 e χ22 forem variáveis
aleatórias independentes, que seguem uma distribuição Qui Quadrado com υ1 e υ2 graus de
liberdade, respectivamente, então, a variável aleatória:
χ 12 / υ1
Fα ; υ1 ; υ 2 = 2 (4.31)
χ 2 /υ 2
Figura 4.13 - Representação gráfica de uma distribuição de Ficher para diversos valores de υ1
e υ2
A probabilidade de F ser igual ou maior que uma determinada constante é dada por:
∞
(
P F ≥ Fα ;υ1 ;υ 2 = ) ∫ f ( F )dF = α (4.32)
Fα ;υ1 ;υ 2
Os valores da distribuição de F para a Eq. 4.32 encontram-se nas tabelas anexas para valores
de α de 0,10, 0,05, 0,025, 0,01, 0,005 e 0,001. As tabelas também podem ser usadas para
valores de α igual a 0,90, 0,95, 0,975, 0,99, 0,995 e 0,999 desde que seja feito a seguinte
transformação de variável.
1
Fα ;υ1 ;υ 2 =
F1−α ;υ1 ;υ 2
F0,05; 6; 8 = 3,50
1 1
F0,05; 6; 8 = = = 0,241
F0,05; 6; 8 = 3,50 4,15
(4.32)
Onde:
Y0 é uma constante que depende de υ
υ=N-1
N é o tamanho da amostra
Para valores de -∞ < t < ∞.
Alguns fenômenos físicos podem ser aproximados a uma distribuição t, mas raramente isso é
feito devido à dificuldade de trabalhar com essa distribuição. Sua principal aplicação é
auxiliar na tomada de decisão em relação à média de uma Distribuição Normal quando sua
variância é desconhecida. Assim, se X for uma variável aleatória normalmente distribuída
com média nula e variância unitária e χ2 for uma variável aleatória correspondente a uma
Distribuição Qui Quadrado com υ graus de liberdade, então a variável aleatória
x υ
= tα ;υ (4.33)
x2
segue uma distribuição t com υ graus de liberdade. A curva representativa desta distribuição é
simétrica em torno de t = 0 e varia conforme o valor de υ.
∞
P(t ≥ tα ;υ ) = ∫ f (t )dt = α
tα ;υ
Para ilustrar, supõe-se que t siga uma Distribuição d Student com υ = 5 graus de liberdade e
quer-se determinar o valor de tα; υ tal que
ou seja,
Para valores de υ > 30, a Distribuição Normal pode ser utilizada como aproximação da
Distribuição Student.
5 – AMOSTRAGEM E ESTIMAÇÃO
5.1 – AMOSTRAGEM
Existem duas alternativas para obter informações sobre uma população ou universo
estatístico:
Define-se então Amostragem como a seleção e escolha dos elementos de uma população ou
universo para constituir uma amostra.
As amostras estatísticas são aquelas cujo processo de escolha é aleatório, ou seja elas têm a
mesma probabilidade de serem escolhidas, garantindo que toda a variabilidade presente na
população estará refletida na amostra. Outra característica da escolha aleatória é que o
conhecimento de um elemento qualquer não indica valores de outros elementos. Os métodos
mais comuns de amostragem são: Amostragem Aleatória Simples, Amostragem por
Conglomerado, Amostragem Estratificada e Amostragem Sistemática.
Uma amostra aleatória simples de tamanho "n", extraída de uma população finita com "N"
elementos, é uma amostra selecionada de tal forma que cada amostra possível de tamanho "n"
tenha a mesma probabilidade de ser escolhida.. A retirada dos "n" elementos que compõe a
Amostras 1 2 3 4 5 6 7 8 9 10
Espessura 2,0 2,1 2,1 2,2 2,2 2,3 2,5 2,5 2,0 2,1
Amostras 11 12 13 14 15 16 17 18 19 20
Espessura 2,3 2,3 2,5 2,5 2,7 2,8 1,3 1,3 1,5 1,6
Amostras 21 22 23 24 25 26 27 28 29 30
Espessura 1,9 1,9 2,0 2,0 2,2 2,1 1,9 2,3 2,2 2,1
Solução:
Partindo de uma Tabela de Números Aleatórios (TNA), obtemos cinco números não
superiores a 30. Então a amostra será:
Leitura na TNA 26 15 03 07 06
Espessura 2,1 2,7 2,1 2,5 2,3
A expectância: µ = 2,11
• Os dados são geralmente mais homogêneos dentro de cada estrato do que na população
como um todo;
• O custo de coleta e análise dos dados é freqüentemente menor do que na aleatória simples;
• Pode-se obter estimativas separadas dos parâmetros populacionais para cada estrato sem
selecionar outra amostra e, portanto, sem custo adicional.
Assim:
N = N1 + N2 + ... + NL (5.1)
n
f= (5.2)
N
GEOSSINTÉTICO - E
Amostras 1 2 3 4 5 6
-3
Permeabilidade (10 cm/s) 1,9 1,6 1,7 1,8 1,7 1,8
GEOSSINTÉTICO - F
Amostras 1 2 3 4 5 6 7 8
-3
Permeabilidade (10 cm/s) 6,1 4,1 6,7 5,4 4,3 6,4 6,2 5,1
Amostras 9 10 11 12 13 14 15 16
-3
Permeabilidade (10 cm/s) 5,9 5,8 5,9 6,5 3,9 5,5 4,2 3,4
Amostras 17 18 19 20 21 22 23 24
-3
Permeabilidade (10 cm/s) 4,3 4,4 3,6 4,3 4,8 6,8 5,2 4,8
Solução:
f = 8/30 = 0,27
Lendo os dois últimos algarismos a partir do início da quarta coluna da TNA, inferiores a 6
para o geossintético E e 24 para o geossintético F, obtem-se o seguinte resultado:
Estrato E F
Leitura na TNA 03 01 20 03 18 17 24 12
Permeabilidades(10-3 cm/s) 1,7 1,9 4,3 6,7 4,4 4,3 4,8 6,5
Uma amostra por Conglomerado é uma amostra simples na qual cada unidade da amostragem
é um grupo, ou conglomerado de elementos. Para este tipo de amostragem, a população é
dividida em conglomerados, sendo que cada elemento da população pertença a um e somente
um conglomerado.
Exemplo 5.3 – Para estimar o rendimento familiar em uma grande cidade, como deve ser
escolhida a amostra.
Solução:
A amostragem aleatória simples é inviável. pois pressupõe uma listagem de todas as famílias
da cidade, o que é praticamente impossível de obter. A alternativa da amostragem estratificada
é também inviável, já que aqui também é necessária uma listagem dos elementos por estrato.
A melhor escolha é a amostragem por conglomerado. O sistema de referência pode ser
constituído por todos os quarteirões da cidade. Cada quarteirão é um conglomerado. Extrai-se
uma amostra aleatória simples dos quarteirões da cidade e neles pesquisa-se a renda familiar
em todas as casas.
Exemplo 5.4 – Escolha a técnica adequada para extrair uma amostra de 50 compradores de
uma loja.
Solução:
A amostragem aleatória simples não pode ser empregada neste caso, pois não se pode
determinar quais resultados serão incluídos na amostra, uma vez que não se conhece o
tamanho N da população, até que todos os compradores tenham ido à loja. Assim, pode-se
usar a amostragem sistemática (p.ex., 1 em cada 20 compradores) até obter a amostra do
tamanho desejado.
A média amostral ( X ) é utilizada para fazer inferências sobre a média da população (µ)
quando esta não é conhecida. A distribuição amostral de X é a distribuição de probabilidade
para todos os valores possíveis da média amostral.
→ Valor esperado de X : E( X ) = µ
Quando uma variância da população (σ2 ) é desconhecida, a variância amostral (s2 ) é utilizada
para fazer inferências sobre a variância da população, a qual é dada por:
s 2
=
∑( X − X )2
i
(5.4)
n −1
onde:
Exemplo 5.5 – Seja uma população formada por 5 bolas numeradas com os números 2, 4, 6,
8, 10 colocadas dentro de uma caixa da qual retira-se amostras. O grupo das 5
bolas representam uma população cuja média é µx = 6. Calcular o valor
esperado das médias amostrais X referentes as amostras de tamanho n = 2
retiradas da população.
Solução:
As cinco bolas têm a mesma probabilidade de serem escolhidos, logo a probabilidade de cada
uma é 20%. A distribuição de freqüências relativas da população é uma distribuição discreta e
uniforme cuja média é igual a 6. Como as bolas retornam para a caixa após cada amostragem,
esta se denomina amostragem com reposição. A seguir extrai-se todas as possíveis amostras
de tamanho 2 e calcula-se o valor de suas médias:
Amostras 2,4 2,6 2,8 2,10 4,6 4,8 4,10 6,8 6,10 8,10
Média X 3 4 5 6 5 6 7 7 8 9
Média X 3 4 5 6 7 8 9
ρ( X ) 0,1 0,1 0,2 0,2 0,2 0,1 0,1
O valor esperado das médias amostrais X é calculado à partir das distribuições de freqüências
das médias amostrais:
Conclui-se que o valor esperado das médias amostrais coincide com o valor da média da
população.
5.2 - ESTIMAÇÃO
Estimação é o processo que consiste no uso de dados da amostra (dados amostrais) para
estimar valores de parâmetros populacionais desconhecidos, tais como média, desvio padrão
etc. Quando é de interesse o conhecimento de determinado parâmetro de uma população,
extrai-se uma amostra dessa população e através do estudo de seus elementos, estima-se o
parâmetro populacional. Os tipos clássicos de estimação onde utiliza-se dados estatísticos da
amostra como estimadores dos parâmetros populacionais são: estimação pontual e intervalar.
Existem muitos estimadores para um mesmo parâmetro de uma população, sendo preciso
distingui-los uns dos outros por algumas propriedades como não-tendenciosidade e variância
mínima. A não-tendenciosidade significa que o valor médio da estimativa deverá ser próximo
do verdadeiro valor do parâmetro. Diz-se que uma estimativa é não-tendenciosa de θ se:
∧
E(θ ) = θ (5.5)
∧
A não-tendenciosidade implica que os diversos valores de θ se distribuam em torno do
verdadeiro valor θ sem ocasionar subestimação ou sobrestimação sistemática de θ como
ilustrado na Figura 5.1.
θ
θ θ
θ θ θ
Não-Tendencioso Tendencioso Tendencioso
Figura 5.1 - Tipos de estimativas
∧ ∧
Quando os dois estimadores θ 1 e θ 2 não-tendenciosos de θ acusarem dispersões diferentes
em torno do verdadeiro valor de θ, escolhe-se aquele que tenha menor variância. Este
estimador é denominado estimador não-tendencioso de variância mínima de θ. Uma medida
de variabilidade da distribuição de um estimador de θ é dada por seu desvio-padrão, chamado
∧ ∧
aqui de erro-padrão de θ : EP(θ ). A Figura 5.2 ilustra dois estimadores de θ, não-
tendenciosos, mas com erros-padrão diferentes.
Exemplo 5.6 – Numa pesquisa deseja-se estimar a produção média de um processo físico-
químico com base nas observações da produção de três realizações X1, X2,
X3 de um experimento. Os dois estimadores da média, são:
( X + X2 + X3 )
θˆ 1 = 1 (média amostral)
3
( X + 2X 2 + X3 )
θˆ 2 = 1 (média ponderada)
4
Solução:
Analisando a não-tendenciosidade:
∧
E(θ 1) = 1/3[E(X1) + E(X2) + E(X3)] = 1/3 [µ+µ+µ] = µ
∧
E(θ 2) = 1/4[E(X1) + 2E(X2) + E(X3)] = 1/4[µ+2µ+µ] = µ
∧
Var(θ 2) = (1/4)2 [Var(X1) + 4Var(X2) + Var(X3)] = 1/16 (6σ2) = 3σ2/8
∧ ∧ ∧ ∧ ∧
Como 1/3 < 3/8, Var(θ 1) < Var(θ 2), conseqüentemente EP(θ 1) < EP(θ 2). Logo, θ 1 é melhor
∧
estimador do que θ 2.
θ1
θ2
A distribuição normal que é um modelo estatístico para um grande número de fenômenos, tem
como parâmetros a média µ e a variância σ2, os quais devem ser estimados.
1
X= ( X + X 2 +.....+ X n ) (5.6)
n 1
Em uma amostra aleatória, as variáveis X1, X2,..., Xn são independentes, logo cada uma delas
tem a mesma distribuição da população. Então:
E(Xi) = µ
1 1
E( X ) = E ( X 1 + X 2 + ... + X n ) = [ E ( X 1 ) + E ( X 2 ) + ... + E ( X n )] =
n n
(5.7)
1 nµ
E ( X ) = [ µ + µ + ... + µ ] = =µ
n n
1 1
Var( X ) = 2
Var( X1 + X 2 + ... + X n ) = 2 [Var( X1 ) +Var( X 2 ) + ... +Var( X n )] =
n n
(5.8)
1 nσ σ 2
2
Var( X ) = 2 (σ 2 + σ 2 + ... + σ 2 ) = 2 =
n n n
s2 =
∑( X i − X )2
n −1
O denominador deve ser (n-1) para que s2 seja um estimador não-tendencioso de σ2. O valor n
no denominador, mesmo sendo um estimador razoável, faria com que se perdesse a
característica de não-tendenciosidade. Os estimadores X e s2, são as melhores opções para
estimar os parâmetros µ e σ2 de uma distribuição normal.
Exemplo 5.7 – De uma população normal se extrai uma amostra cujos valores são: 1,1; 0,9;
0,3; -0,2; -3,1; 1,5; -2,7; 0,5; -1,5; 2,1. Obtenha as estimativas para µ, σ2.
Solução:
Estimativa de µ:
X = 1/10[1,1+0,9+0,3-0,2-3,1+1,5-2,7+0,5-1,5+2,1] = -0,11
Estimativa de σ2:
s = 1,77
• Para uma população não normal com média µ e desvio padrão σ, a distribuição da média
amostral X para grandes amostras (n > 30) é aproximadamente normal com média µ e
σ
desvio padrão , que constitui o Teorema Central do Limite, ou seja:
n
X−µ
≅ N (0,1) (5.9)
σ/ n
Sabe-se que uma estimativa por ponto tem pouca possibilidade de representar exatamente o
parâmetro desconhecido, então utiliza-se a estimativa através de um intervalo. A estimação
intervalar é aquela que procura determinar intervalos com limites aleatórios, que abrangem o
valor do parâmetro populacional com uma margem de segurança prefixada. Assim, quando se
quer considerar, conjuntamente, o estimador e a precisão com que se estima o parâmetro, a
forma usual utilizada é através dos intervalos de confiança.
∧ ∧
Sendo X1, X2,..., Xn uma amostra aleatória de uma população e θ 0 e θ 1 as estatísticas do
parâmetro de interesse θ, vem:
∧ ∧
P(θ 0 < θ < θ 1 ) = 1- α (5.10)
∧ ∧
Define-se como intervalo de confiança de nível 100(1-α)% ao intervalo [θ 0 , θ 1 ] , dentro do
qual se encontra o parâmetro desconhecido. A confiança 100(1-α) é representada por um
coeficiente de probabilidade. Usualmente, toma-se 1-α com o valor 0,95 ou 0,99, ou seja, 95
∧ ∧
ou 99% de o parâmetro desconhecido estar contido no intervalo [θ 0 , θ 1 ] .
Exemplo 5.9 – Para uma amostra de 50 observações de uma população normal com média
desconhecida, desvio padrão σ = 6 e média amostral X de 20,5, construir um
intervalo de 95% de confiança para a média populacional.
Solução:
Considerando X = 20,5, n = 50 e σ = 6
Usando o resultado da Equação 5.9 e tendo 1-α = 0,95, a Tabela da Distribuição Normal
Padronizada fornece:
isto é,
X−µ
P[-1,96 < <1,96]
σ n
6 6
[ 20,5 − 1,96 ; 20,5 + 1,96 ]=
50 50
(18,84; 22 ,16)
A média é uma importante característica da população e, por isso, é de interesse sua estimação
via intervalo de confiança. O método a ser utilizado leva em consideração se o desvio padrão
da população é ou não conhecido. Chamar-se-á de Zα/2 ao valor de Z, dado pela Equação 5.11
e ilustrado na Figura 5.3:
Seja X uma variável aleatória normalmente distribuída com média µ e desvio padrão σ
conhecido. Seja X a média aritmética da amostra aleatória n. Sabe-se que a distribuição
(X − µ)
é normalmente distribuída com média nula e variância unitária.
σ n
1-α
α/2 α/2
-zα/2 -zα/2
X−µ
P(−zα 2 _ < _ _ < _zα 2 ) = 1 − α
σ n
P[X − zα 2 (σ n) _ ≤ _ µ_ ≤ _ X + zα 2 (σ n)] = 1 − α
Assim, fazendo:
σ σ
L.=.X − zα 2 e U.=.X + zα 2
n n
Este é o caso mais comum pois normalmente não se conhecem os parâmetros da população e
sim da amostra. Neste caso:
X−µ
T= (5.13)
s n
A distribuição desta estatística é conhecida como "t" ou de Student com ν = n-1 graus de
liberdade, sendo o "n" o tamanho da amostra. Para pequenas amostras, a distribuição
apresenta valores menos precisos, o que leva a utilização da distribuição "t" ou de Student. A
forma desta distribuição é simétrica em relação a θ, semelhante à da Normal, mas
apresentando maior variância do que a Normal. Aumentando-se "n", a distribuição "t" tende à
Normal, conforme ilustrado na Figura 5.4.
normal
"t"
Como tem-se distribuições diferentes para cada valor de ν, apresenta-se uma situação
intermediária, tal que:
Existe um valor de t para cada amostra sendo que à medida que a amostra "n" cresce a
distribuição "t" aproxima-se da distribuição Normal. Para calcular o valor de "t" a ser usado é
necessário ter:
Exemplo 5.10 – Sabendo-se que uma amostra tem 25 elementos e que a sua média é 30 e
possui um desvio padrão igual a 10, represente um intervalo de confiança de
nível de 90%.
Solução:
90%
5% 5%
Para 90% de confiança e grau de liberdade de 25-1 = 24, obtem-se t = 1,71 (tabela na coluna
referente ao grau de liberdade ν = 24 e t0,90). Assim:
s 10
X +t = 30 + 1,71 × = 33,42
n 25
ààà (26,58 ; 33.42)
s 10
X−t = 30 - 1,71 × = 26,58
n 25
Nível de s s Intervalo de
α (%) t X −t X +t
Confiança (%) n n Confiança
Exemplo 5.11 – Num ensaio de permeabilidade com uma manta sintética obteve-se as
seguintes medidas para o volume de água coletado em litros:
0,68 0,65 0,59 0,64 0,66 0,61 0,62 0,64 0,63 0,61
Solução:
X − t α s
2
( )
n ; X + tα2 s ( )
n
( )
2
∑ Xi − X
sendo s= = 0, 0267
n −1
s 0, 0267
= = 0, 00844
n 10
(
X − tα2 s )
n = 0, 633 − (0, 00844 × 2, 262) = 0, 633 − 0, 01909 = 0, 61391
(
X + tα2 s )
n = 0, 633 + 0, 01909 = 0,65209
(0,61391 ≤ µ ≤ 0,65209)
Nos casos anteriormente estudados conhecia-se a distribuição da estatística, com base na qual
se obteve o intervalo. Aqui não ocorre o mesmo e deve-se usar o Teorema Central do Limite
(X − µ)
para afirmar que, se "n" é suficientemente grande, tem distribuição
σ n
aproximadamente normal N(0; 1), e portanto um intervalo de confiança para a média com
nível aproximado de 100(1-α)% é dado por:
s s
X − zα 2 ; X + zα 2 (5.15)
n n
131 132 134 135 135 138 138 139 139 140
142 143 144 144 145 146 147 148 149 150
Solução:
X = 141
s = 5,73
s s
X − z , X + z
n
α α
2
n 2
Erro de estimação ou erro admitido em uma estimação é a diferença entre a média da amostra
e a verdadeira média da população. Como o intervalo de confiança tem centro na média da
amostra, o erro máximo provável que está sendo admitido é igual a metade da amplitude do
intervalo. Assim, o erro de estimação "d" pode ser escrito por:
s
d = Zα2 (5.16)
n
s
X ± Z α2 (5.17)
n
Pode-se calcular, para algumas situações especiais, o tamanho da amostra necessário para as
inferências. Se o objetivo é estimar a média, utiliza-se os intervalos de confiança
anteriormente estabelecidos, fixando-se o maior erro aceitável e o nível de confiança desejado.
Assim, pode-se obter "n", o tamanho da amostra. Para o caso da média, aceitando-se um erro
máximo de tamanho "d", com probabilidade 1-α, o intervalo de confiança de nível 100(1-
α)%, o tamanho da amostra é será rearranjando a Equação 5.16:
Zα2 × s
2
n = (5.18)
d
Note que é necessário uma estimativa de "s" para obter o tamanho da amostra. Nos casos em
que se desconhece por completo este valor, o problema é resolvido em duas etapas. Usa-se
uma amostra preliminar para fornecer "s" e partir deste valor, pode-se calcular o tamanho
necessário da amostra.
Exemplo 5.13 – Numa amostra de peso específico dos grãos dos solos de Brasília com
X = 2,6 e s = 0,3, qual deve ser o tamanho da amostra para que tenha-se
95% de confiança em que o erro d = X - µ da estimativa de µ não supere
0,05?
Solução:
Como α = 0,05, a Tabela da Distribuição Normal Padronizada fornece zα/2 = z0,025 = 1,96.
Utilizando "s" como estimativa de σ, vem:
( z ) × s (1,96) × 0,3 2
2
α /2
n= = = 138,3 = 139
d 0,05
6 – TESTES DE HIPÓTESES
6.1 - INTRODUÇÃO
Quando se deve decidir entre duas hipóteses, usualmente uma é mais específica a respeito do
valor do parâmetro e a outra mais geral. A primeira se chama hipótese nula (H0), que
corresponde àquela a ser testada, e a segunda hipótese, contrária à H0, é denominada hipótese
alternativa (H1). A análise acurada de cada situação específica indicará qual deve ser
considerada a hipótese nula e qual a hipótese alternativa.
Uma hipótese nula pode ser falsa ou verdadeira. Convém, porém, ressaltar que o processo de
sua rejeição ou não-rejeição é diferente daquele utilizado para provar se uma proposição
matemática é falsa ou verdadeira. No caso da matemática a certeza é total; ou se prova a
proposição, ou se apresenta um contra-exemplo. Já numa hipótese estatística sempre há um
grau de incerteza na tomada de decisão, já que se trata de uma situação onde a variabilidade é
inerente.
• H0 : µ = µ0
• H1 : µ > µ0
• H1 : µ < µ0
• H1 : µ # µ0
RA RR
(a)
− α µ 0 C + α
RR R A
(b)
− α C µ 0 + α
RR R A RR
(c)
− α C1 µ 0 C2 + α
Existem dois possíveis tipos de erros na tomada de decisão baseada no teste de hipótese.
Pode-se rejeitar H0 quando na verdade ela é verdadeira. Este erro é denominado erro tipo I e a
probabilidade de ocorrência é representado por α. Ao contrário, pode-se aceitar H0 quando na
realidade esta hipótese é falsa. Este segundo erro é chamado erro do tipo II e a probabilidade
de ocorrência é representada por β. A Figura 6.2 representa graficamente os erros α e β.
Através da Figura 6.2 pode-se verificar que para diminuir o valor de α, C deve ser deslocado
para direita, o que faz com que β aumente. O inverso também é verdadeiro. A única maneira
Tabela 6.1 - Probabilidade de uma decisão correta ou incorreta num teste de hipótese
Hipótese
Solução:
Neste caso o erro tipo I é afirmar que µ < 60 (Rejeitar H0), quando na realidade, µ ≥ 60, ou
seja, dizer que não há poluição sonora quando o ruído é superior a 60 decibéis. O erro tipo II
consiste em afirmar que há poluição sonora quando o ruído é inferior a 60 decibéis. Do ponto
de vista do operador, que tem de suportar o barulho, o erro tipo I é muito mais grave.
Um problema de teste de hipótese começa pela análise da situação e formulação das hipóteses
H0 e H1. A teoria do teste de hipótese é elaborada de forma que H0 só é rejeitada se houver
clara evidência contra ela, ou seja, H0 é a hipótese preferencial. Como em testes de hipótese
não é possível controlar os dois erros, existe uma preferência em controlar o erro tipo I, que
deve ser o mais sério. Por existir esta preferência fala-se em rejeição de H0, e não em
aceitação de H0, visto estar buscando evidência para rejeitar H0. A partir destas considerações
serão enunciados os estágios de um teste de hipótese sobre um parâmetro populacional θ:
Considere-se um experimento composto por n observações, x1, x2, ..., xn, onde cada xi
corresponde a uma variável aleatória independente e normalmente distribuída com média
desconhecida µ e variância σ2. O melhor procedimento para testar a hipótese de que a média
da distribuição normal possui um valor específico µ = µ0 baseia-se sobre a variável aleatória
U:
U =
(x − µ )
0 n
σ
Exemplo 6.2 – Uma indústria utiliza um aço especial que apresenta uma resistência média de
36 kg/mm2, sendo que esta medida é considerada normalmente distribuída. O
engenheiro responsável pela produção aventou a hipótese de que uma
mudança na liga deste aço aumentaria esta resistência. De experiências
passadas sabe-se que o desvio-padrão é de 4,0 kg/mm2, acreditando-se que o
mesmo não se modifica com a mudança da liga. Caso a modificação da liga
não altere a resistência, o engenheiro deseja chegar a esta conclusão com uma
probabilidade mínima de 99% (α = 0,01). Se a resistência média aumentar 5,0
kg/mm2 ou mais, o engenheiro tolerará um risco máximo de 10% em não
detectar tal mudança (β = 10%). A hipótese da resistência diminuir com a
mudança da liga deve ser desconsiderada (teste unilateral).
Solução:
onde µ0 = 36 kg/mm2
Após o estabelecimento das hipóteses nula e alternativa, o procedimento correto indica que
deve-se verificar que tipo de teste deve ser aplicado. Como se quer testar a média de uma
distribuição normal com desvio-padrão conhecido, o teste a ser utilizado é o U baseado sobre
a distribuição normal. A próxima etapa será estabelecer os riscos máximos tolerados que são
α = 1% e β = 10%.
Para o estabelecimento do tamanho da amostra, verifica-se na Tabela 6.3 (para µ > µ0) que
deve-se utilizar a Tabela 6B (ver Apêndice). Assim para d = (µ1 - µ0) / σ = 5 / 4 = 1,25, α =
0,01 e β = 0,10 tem-se na Tabela 6B que n = 8.
Supondo que ao ser medida a resistência das 8 peças de aço modificada encontrou-se o
seguinte valor para a média:
x = 45,52 kg/mm2
U =
(x − µ )
0 n
= [ (42,52 - 36) √8 ] / 4= 4,61
σ
O melhor procedimento para testar a hipótese de que a média de uma distribuição normal
possui um valor específico µ = µ0, quando o desvio-padrão é desconhecido, baseia-se na
distribuição de Student e no seguinte teste estatístico:
t=
(x − µ ) 0 n
s
Exemplo 6.3 – Numa fábrica de tintas o produto é acondicionado em latas com peso líquido
nominal de 10 kg. O enchimento é executado por uma máquina cuja precisão
se deseja testar. Embora não conhecendo exatamente o valor de σ,
experiências anteriores têm indicado um desvio-padrão de aproximadamente
0,05 kg. O atual processo de enchimento será considerado insatisfatório se a
máquina encher as latas com peso superior a 10,1 ou inferior a 9,9 kg. Para
estes casos, a probabilidade de detectar esta diferença não deverá ser menor
que 0,90 (β = 0,10). É tolerado um nível de significância de 5%.
Solução:
a) Hipóteses:
• H0 : µ = µ0
• H1 : µ ≠ µ0
onde µ0 = 10 kg
c) Riscos: α = 5% e β = 10%
d) Determinação de n
t=
(x − µ ) 0 n
= [(10,022 -10) √5] / 0,0632 = 0,7784
s
Pela Tabela de Distribuição de Student (Apêndice): RA: (-t0,025, 4; t0,025, 4) = (-2,776; 2,776)
Conclusão: Como o valor do teste estatístico está dentro da RA, se aceita a hipótese H0: µ
= µ0 = 10 kg, ou seja, a máquina está enchendo as latas satisfatoriamente e com uma diferença
de peso inferior a 100 g. Com esta conclusão pode-se estar cometendo um erro máximo de β =
10%.
Um problema que ocorre com certa freqüência é o da utilização das médias amostrais de dois
processos diferentes para a comparação dos mesmos. Se o experimento consistir, por
exemplo, da verificação do efeito da utilização de determinado método, por exemplo, estacas
de areia para aumentar a resistência de um solo, o resultado pode ser obtido pela análise do
aumento da resistência média em um solo x e do aumento da resistência média em um solo y.
O teste de hipótese de as médias de duas distribuições normais µx e µy serem iguais, quando
ambos os desvios-padrão σx e σy são conhecidos, baseia-se na diferença das médias amostrais
e utiliza a seguinte variável aleatória:
x−y
U=
σ2x σy
2
+
nx ny
Para a determinação da regra de decisão para procedimentos uni e bilaterais com utilização de
gráficos, as seguintes etapas devem ser seguidas na realização de um teste de hipótese sobre
dois parâmetros:
σ 2x + σ 2y
n=
σ 2x σ y
2
+
nx ny
Tabela 6.5 - Teste de hipótese de as médias de duas distribuições normais serem iguais
quando ambos os desvios-padrão são conhecidos
Teste estatístico
Gráfico para
x−y RA
H1 U= obtenção de n
(Distribuição
σ2x σy
2
nx = ny = n
+ Normal)
nx ny
µx ≠ µy d = | µx - µy | / √h 6A (-Zα/2; Zα/2)
µx > µy d = (µx - µy) / √h 6B (-∝; Zα)
µx < µy d = (µx - µy) / √h 6B (-Zα; ∝)
Onde h = σx 2 + σy 2
Exemplo 6.4 – Uma fábrica de automóveis está estudando duas marcas de pneus para uso
num modelo a ser lançado. Na realização de um teste, equipou 4 carros com
pneus da marca A e 3 carros com pneus da marca B, que apresentaram os
seguintes resultados: x A = 35800 km e x B = 36200 km. O desvio-padrão da
durabilidade média não é diferente para as duas marcas e é igual a 520 km,
conhecido de outros modelos. Será optado por uma determinada marca se a
mesma apresentar uma quilometragem significativamente superior que a
outra. É considerada significativa uma diferença de 1500 km ou mais. Se uma
marca não for superior à outra, o fato deve ser detectado com uma
probabilidade igual ou superior que 0,95 (α = 0,05).
Solução:
• H0 : µA = µB
• H1 : µA ≠ µB
d) Teste estatístico
e) Região de aceitação
Conclusão: Como o valor de U está fora da RA, aceita-se H1: µA ≠ µB , ou seja, os pneus da
marca A não têm a mesma durabilidade média dos pneus da marca B. A diferença na
quilometragem média não é aleatória, por isso a escolha deve recair sobre os pneus da marca
B.
µx − µy 1500
d= = = 2,04
h 735,391
520 2 + 520 2
n= = 13,71
520 2 520 2
+
16 12
x+ y
t=
( ) ( )
2 2
1 1 Σ xi − x + Σ yi − y
+
nx n y nx + n y − 2
Para a determinação da regra de decisão para procedimentos uni e bilaterais com utilização de
gráficos, o procedimento a ser seguido é idêntico ao indicado no Item 6.6.1, adotando a Tabela
6.6.
Tabela 6.6 - Teste de hipótese de as médias de duas distribuições normais serem iguais
quando ambos os desvios-padrão são desconhecidos, mas iguais
Gráfico para RA
H1 Teste estatístico t obtenção de n (Distribuição
nx = ny = n’ Normal)
µx ≠ µy d = | µx - µy | / 2σ 6C (- t α/2, V ; t α/2, V)
µx > µy d = (µx - µy) / 2σ 6D (-∝; t α, V)
µx < µy d = (µy - µx) / 2σ 6D (-t α, V ; ∝)
Onde se tem
n′ + 1
n=
2
Exemplo 6.5 – Uma indústria de ferros industriais os produz em duas cidades diferentes,
fábricas A e B, sendo que ambas utilizam o mesmo fornecedor localizado na
cidade A. Na fábrica B pode ser conseguida uma economia pela aquisição do
termostato de um novo fornecedor local. Um pequeno lote foi adquirido para
a execução do teste. O termostato será testado, após montado no ferro
elétrico, a uma temperatura de 260°C, sendo que a temperatura real será
medida por um termopar com precisão de 0,5°C. Quanto ao fornecedor
antigo, sabe-se que seus termostatos nunca apresentaram diferenças maiores
que 10°C e que o desvio-padrão é de aproximadamente 8°C, não existindo
razões para acreditar que vai ser diferente para novo fornecedor. Adotar um
nível de significância de 5% e considerar um erro máximo do tipo II de 20%.
Solução:
a) Hipóteses:
• H0 : µx = µy
• H1 : µx ≠ µy
Temperatura (°C) dos ferros elétricos com Temperatura (°C) dos ferros elétricos com
termostato B (novo fornecedor) termostato A (antigo fornecedor)
257,0 260,5
263,0 256,5
265,5 262,0
260,5 257,0
262,5 268,5
250,0 251,5
260,0 260,0
269,0 263,5
264,0 258,5
262,5 265,0
270,0 259,0
x = 262,182 y = 260,182
( ) ( )
2 2
Σ = xi − x = 303,144 Σ = yi − y = 210,136
RA = (-2,086; 2,086)
Conclusão: Como o valor do teste estatístico t está dentro da RA, aceita-se a hipótese H0 :
µx = µy, ou seja, os termostatos do novo fornecedor (B) apresentam uma precisão compatível
com os de A e, por isso podem ser utilizados. A probabilidade de estar cometendo um erro é
de 5%.
( Foi − Fei )
2
χ =Σ
2 k
i =1
Fei
Esta estatística tem uma distribuição χϕ2 “qui-quadrado”, com ϕ graus de liberdade. Quanto
ao número de graus de liberdade “ϕ“ deve ser observado:
Quando se usa a estatística χϕ2 para comprovar a concordância entre valores observados e
esperados para certo fenômeno, está sendo realizado um teste de adequação do ajustamento.
Contudo, ao se usar o teste qui-quadrado para colocar à prova hipóteses referentes à forma de
distribuição da população, como a normal, a binomial, Poisson etc, está sendo realizado um
teste de aderência. Nesses testes admite-se que a distribuição da variável em estudo seja
descrita por determinado modelo teórico de probabilidade e verifica-se o grau de aderência
dos dados amostrais ao modelo.
f ( X2 )
α
RA
RC
0 2 2
X X
Tab
( Foi − Fei ) 2
χ 2
cal =Σ k
i =1
Fei
Caso existam categorias que não satisfaçam à condição Fe1 ≥ 5, estas deverão ser somadas às
classes adjacentes, originando-se novas categorias.
Conclusão: Caso χcal2 ≥ χtab2, concluir-se-á que as freqüências observadas diferem das
esperadas e rejeitar-se-á H0 ao nível de significância correspondente. Caso contrário, dever-se-
á aceitá-la.
OBS: O valor de χtab2 é obtido a partir da Tabela de Distribuição de χ2, que se encontra no
Apêndice desta apostila.
Exemplo 6.6 – Realizar um teste de aderência para verificar se a distribuição dada a seguir se
aproxima de uma distribuição normal. A tabela abaixo apresenta as massas
específicas secas de 100 amostras de solos. Adotar α = 5%.
Solução:
Média : 1,6896
Desvio-padrão : 0,0665
Valores de Z
Limites das Probabilidade Freqüências Freqüências
Classes para os
classes das classes esperadas observadas
limites
1,50 a 1,56 1,50 -2,85 0,0240 2,4 4
1,56 a 1,62 1,56 -1,94 0,1230 12,30 12
2,40+12,30=14,70 4+12 = 16
1,62 a 1,68 1,62 -1,04 0,2951 29,51 22
1,68 a 1,74 1,68 -0,14 0,3291 32,91 40
1,74 a 1,80 1,74 0,75 0,1781 17,81 20
1,80 a 1,86 1,80 1,66 0,0433 4,33 2
17,81+4,33=22,14 20+2 = 22
1,86 2,56
Dessa forma
Teste
a) H0 : a distribuição é normal
H1 : a distribuição não é normal
c) Determinação da RC e RA
f ( X2 )
RA 5%
RC
0 3,84 2
X
Evento 1,50 |----- 1,62 1,62 |-----1,68 1,68 |-----1,74 1,74 |-----1,86
Foi 16 22 40 22
Fei 14,70 29,51 32,91 22,14
χ 2
cal =Σ 4
i =1 _∴_ χ 2
cal = + + _ ⇒ _ χ 2cal = 3,55
Fei 14, 70 29,51 22,14
e) Conclusão: Como χcal2 ≤ 3,84, aceita-se H0. Isto é, com risco de 5% conclui-se que a
distribuição das massas específicas secas obedece a uma distribuição normal.
Uma importante aplicação do teste χ2 ocorre quando se quer estudar a relação entre duas ou
mais variáveis de classificação. A representação das freqüências observadas, neste caso, pode
ser feita por meio de uma tabela de contingência. Considerando-se dois critérios de
classificação, tem-se tabelas de dupla entrada (tabelas de classificação h x K), onde as
freqüências observadas ocupam h linhas e K colunas.
A cada freqüência observada em uma tabela de contingência tem-se uma freqüência esperada,
que será calculada com base na hipótese H0, de acordo com as regras das distribuições
conjuntas de probabilidade. A soma das freqüências das linhas e das colunas resulta nas
freqüências marginais.
( Foij − Feij ) 2
χ 2
cal =Σ h
i =1 Σ k
j =1
Feij
Esta estatística tem uma distribuição χϕ2 “qui-quadrado”, com ϕ graus de liberdade. Quanto
ao número de graus de liberdade “ϕ“ deve ser observado:
Para os testes de independência, as duas variáveis estão classificadas segundo atributos que
necessariamente não identificam distintas populações. Neste caso, a preocupação é em se
testar o grau de associação entre as variáveis. As hipóteses, a seguir, serão colocadas à prova:
χ 2cal
C=
χ 2cal + n
Exemplo 6.7 – Na tabela abaixo estão indicados os números de ensaios para a determinação
do limite de liquidez, considerados com repetibilidade e sem repetibilidade
por três laboratoristas. Testar ao nível de 5% a hipótese de as proporções dos
ensaios considerados sem repetibilidade pelos três laboratoristas serem iguais.
Freqüências observadas
Situação do ensaio
Laboratorista A Laboratorista B Laboratorista C Total
Com repetibilidade 10 11 12 33
Sem repetibilidade 2 2 3 7
Total 12 13 15 40
Solução:
A hipótese nula afirmará que ambas as populações (com repetibilidade e sem repetibilidade)
são homogêneas, considerando-se os três laboratoristas. Assim deveriam ser consideradas sem
repetibilidade 7 / 40 = 0,175 ou 17,5% dos ensaios. Neste caso o laboratorista A deveria
considerar 17,5% dos seus ensaios sem repetibilidade, O laboratorista B 17,5% dos seus e o
laboratorista C também 17,5%. Conseqüentemente cada um dos laboratoristas, segundo a
hipótese, deveria considerar com repetibilidade 82,5% dos seus respectivos ensaios. A seguir,
na tabela abaixo se encontram as freqüências esperadas considerando H0 verdadeira.
ϕ = (h -1) (K - 1) = (2 -1) (3 - 1) = 2
Assim:
f ( X2 )
RA 5%
RC
0 5,99 X2
( Foij − Feij ) 2
χ 2
cal =Σ 2
i =1 Σ 3
j =1
Feij
χ2
cal = + + + + + _ = _ 0,11
9,9 10,725 12,375 2,1 2,275 2, 625
Conclusão: Como χcal2 < 5,99, aceita-se H0, concluindo com um risco de 5% que há
homogeneidade nas proporções de ensaios com não repetibilidade executados pelos três
laboratoristas.
Exemplo 6.8 – A tabela abaixo exibe os resultados dos ângulos de atrito efetivos obtidos em
ensaios de cisalhamento direto com dois solos arenosos. Testar a hipótese de
que os resultados obtidos com o solo A sejam independentes dos resultados
obtidos com o solo B, ao nível de significância de 2,5%. Avaliar também o
coeficiente de contingência.
Solo A
27º ≤ φ' ≤ 30º 30º ≤ φ' ≤ 33º 33º ≤ φ' ≤ 35º Total
27º ≤ φ' ≤ 30º 75 35 13 123
30º ≤ φ' ≤ 33º 29 120 32 181
Solo B
33º ≤ φ' ≤ 35º 15 70 46 131
Total 119 225 91 435
Solução:
c) Determinação da RC e RA
f ( X2 )
RA 2,5%
% RC
0 11,1 X2
Solo A
27º ≤ φ' ≤ 30º 30º ≤ φ' ≤ 33º 33º ≤ φ' ≤ 35º Total
27º ≤ φ' ≤ 30º 33,65 63,62 25,73 123
30º ≤ φ' ≤ 33º 49,51 93,62 37,87 181
Solo B
33º ≤ φ' ≤ 35º 35,84 67,76 27,40 131
Total 119 225 91 435
( Foij − Feij ) 2
χ 2
cal =Σ 2
i =1 Σ 3
j =1
Feij
χ2
cal = + + _ L_ + + _ = _ 111,64
33,65 63, 62 67,76 27,40
Conclusão: Como χcal2 ≥ 11,1, rejeita-se H0, concluindo-se com risco de 2,5% que as
variáveis são independentes.
C=
χcal
2
_∴_ C =
(11164 ) _ ⇒ _ C = 0, 45
χcal
2
+n (111, 64 ) + ( 435)
7 - ANÁLISE DE VARIÂNCIA
Neste capítulo será apresentado a Análise de Variância, mostrando a técnica para até dois
possíveis fatores. O objetivo da Análise de Variância é comparar as médias de K amostras e
decidir se as amostras foram retiradas de populações que têm o mesmo valor da média. Como
normalmente as médias amostrais são diferentes, pode-se atribuir esta diferença a duas fontes
de variabilidade:
Como pelas premissas da Análise de Variância, as variâncias das populações são iguais, a
hipótese nula afirma que as populações são idênticas. Já a hipótese alternativa afirma que
existe alguma diferença, entre pelo menos duas das populações. Objetiva-se então, calcular a
variância de duas maneiras diferentes e independentes, obtendo o valor de F (Distribuição de
Fisher):
ˆ
Variancia _ Entre S 2
F= _ = _ E2
ˆ
Variancia _ Dentro SD
Considerando K distribuições normais com a mesma variância σ2 e médias diferentes µ1, µ2,
µ3, ..., µk, das quais extraiu-se K amostras com n observações cada. Os dados podem assumir
a forma da matriz apresentada na Tabela 7.1.
∑(x − xi )
2
ii
Si 2 = i =1
(7.1)
n −1
Como todas as distribuições são assumidas normais e com a mesma variância σ2, pode-se
considerar o conjunto de k variâncias amostrais e calcular k estimativas independentes de σ2,
igualmente válidas e extraídas de "dentro" das amostras. Em conseqüência, pode-se obter uma
estimativa conjunta SD2 dos k valores de Si2 :
S12 + S2 2 + _ L _ + Sk 2
Est ( σ2 ) = SD 2 =
k
∑∑ ( x − xi )
k n
2
ij
i =1 j=1
SD 2 = (7.2)
k ( n − 1)
O termo do numerador da Eq. 7.2 é chamado de Soma dos Quadrados dos Erros Dentro das
amostras (SQD), que é variabilidade não explicada dentro das amostras. O número de graus de
liberdade associado à SQD é k(n-1). O resultado final da Eq. 7.2 é chamado de Média da
Soma dos Quadrados dos Erros Dentro (MQD), e é uma das estimativas não-tendenciosas da
variância σ2 da população.
Por outro lado, através das k médias X i , pode-se determinar a variância das médias das
amostras em torno da média global (também chamada de grande média):
n k
∑∑ x ij
X= i j
kn
∑( )
k 2
Xi − X
=
2 i
S x
( k − 1)
(7.3)
Est ( σ2 ) = SE 2 = nSx 2
k
( )
2
∑ Xi − X
SE 2 = n i =1 (7.4)
( k − 1)
O termo no numerador é chamado de Soma dos Quadrados Entre Médias das amostras (SQE),
já que é avaliado pela variação entre as médias amostrais e a média global (variabilidade
explicada). O número de graus de liberdade associado à SQE é k-1. O resultado final da Eq.
7.4 é chamado de Média da Soma dos Quadrados Entre (MSE).
ˆ
Variancia _ Entre S 2
F= _ = _ E2 (7.5)
ˆ
Variancia _ Dentro SD
Convém salientar que SE2 deverá corresponder sempre ao numerador, porque, se cada amostra
corresponder a um tratamento diverso, afetando para mais ou para menos as respectivas
médias, o valor de SD2 se tornará superior ao esperado.
Caso o valor de F seja menor que a unidade, não há necessidade de prosseguir o teste, pois
este fato invalida qualquer suspeita de desigualdade entre as populações, ou seja as
populações são iguais. No entanto, se for muito pequeno (próximo de zero), deve-se suspeitar
de tendenciosidade nas amostras, indicando ser impróprio qualquer conclusão sobre as
amostras.
O teste de hipótese é feito comparando o valor F observado com aquele previsto para a um
certo grau de significância Fα. O valor de Fα pode ser obtido de tabelas ou de funções
estatítica do EXCEL:
Em caso em que o valor de F observado seja maior que o valor crítico de Fα, deve-se então
rejeitar a hipótese nula e aceitar a hipótese alternativa. Ou seja, as médias amostrais são
significativamente diferentes, não sendo razoável explicar as diferenças entre as médias
amostrais apenas pela variabilidade amostral. A diferença entre populações é estatisticamente
significante.
• Tabela ANOVA
N = n1 + n2 + … + nk
n
Ti = ∑ x j
j=1
∑ ( x ) = T1 + T2 + … + Tk
k n
T=∑ ij
i =1 j=1
• Termo de correção
T2
C=
N
k n
SQT = ∑∑ x ij2 − C
i j
k
T i2
SQE = ∑ −C
i ni
Logo:
SQE
( k − 1)
F=
SQD
(N − k)
SQE
Entre k-1 SQE MQE =
( k − 1)
MQE
F=
MQD
SQD
Dentro N-k SQD MQD =
( N − k)
Total N-1 SQT
Exemplo 7.1 – Considerando os dados da tabela a seguir, relativos aos resultados de ensaios
de limite de liquidez realizados por 4 laboratoristas diferentes, no mesmo dia.
Deseja-se saber, com uma confiança de 95%, se existe uma diferença
significativa entre os resultados produzidos por esses laboratoristas, com base
em 4 amostras de um mesmo solo.
Solução:
Assim, tem-se 4 laboratoristas (k = 4) e cada um analisou 4 amostras de solo (n = 4). Para este
problema, as hipóteses seriam:
• H0: µ1 = µ2 = µ3 = µ4 (α = 5%)
• H1: µ1 ≠ µ2 ≠ µ3 ≠ µ4
Amostras ─ Valores de w L
2
Laboratorista 1ª 2ª 3ª 4ª Ti Ti
1 35,00 36,00 34,00 37,00 142,00 20.164,00
2 37,00 38,00 35,00 39,00 149,00 22.201,00
3 36,00 38,00 34,00 38,00 146,00 21.316,00
4 34,00 36,00 34,00 36,00 140,00 19.600,00
Total 577,00 83.281,00
( 577 ) _ ⇒ _ C = 20.808,10
2
T2 T2
C= _∴_ C = _∴_ C =
N ( 4.laboratoristas ) × ( 4.Amostras ) 4 ( 4)
k n
SQT = ∑∑ x ij2 − C _ ∴ _ SQT = 20.849, 00 − 20.808,10 _ ⇒ _ SQT = 40,90
i j
T i2k
83.281, 00
SQE = ∑ − C _ ∴ _ SQE = − 20.808,10 _ ⇒ _ SQE = 12, 20
i ni 4
Assim:
SQE 12, 20
( k − 1) 3 _ ⇒ _ F = 1, 70
F= _∴_ F =
SQD 28, 70
12
(N − k)
Como ocorreu que o valor de F observado é menor que o F crítico (F < Fα), admite-se com
uma probabilidade de 95%, que não existe diferença significativa entre as médias, ou seja, não
há razão para acreditar que um dos laboratoristas produz resultados diferentes de ensaios dos
demais laboratoristas.
RESUMO
Grupo Contagem Soma Média Variância
Linha 1 4 142 35,50 1,66666667
Linha 2 4 149 37,25 2,91666667
Linha 3 4 146 36,50 3,66666667
Linha 4 4 140 35,00 1,33333333
ANOVA
Fonte da variação SQ gl MQ F valor-P F crítico
Entre grupos 12,1875 3 4,0625 1,69565217 0,22077906 3,4902996
Dentro dos grupos 28,75 12 2,39583333
Total 40,9375 15
Assim, sempre que possível, essas causas de variação devem ser isoladas através de um
planejamento, onde são identificados os possíveis fatores que podem afetar as observações de
cada amostra. Isso equivale a fazer, em lugar de uma ANOVA simples, uma análise dupla e
cruzada das observações, segundo os fatores. É possível fazer uma ANOVA analisando dois
fatores de cada vez, um chamado de fator das linhas (L) e o outro de fator das colunas (C).
Assim, a soma dos quadrados totais (SQT) é, agora, dividida em três componentes:
T2
C=
kn
k n
SQT = ∑∑ x ij2 − C
i j
n 2
∑ ( Tj )
SQL = j −C
k
k 2
∑ ( Ti )
SQC = i −C
n
A Tabela 7.2 sintetiza a ANOVA com fator duplo, onde se rejeita a hipótese µ1 = µ2 = µ3 ...,
ou seja, de que o fator das linhas é igual, se:
Por outro lado, rejeita-se a hipótese das colunas não se diferenciarem, ou seja, acerta-se em
isolar as causas de variação, se:
SQC MQC
Colunas k-1 SQC MQC = FC =
( k − 1) MQE
SQL MQL
Linhas n-1 SQL MQL = FL =
( n − 1) MQE
SQE
Erros (k - 1)(n - 1) SQE MQE =
( k − 1)( n − 1)
Total (kn) - 1 SQT
Exemplo 7.2 – Considerando a tabela a seguir que condensa os tempos (minutos), que quatro
laboratoristas levaram para realizar ensaios de três tipos de solos diferentes
(arenoso, siltoso e argiloso). Deseja-se saber, com uma confiança de 95% se
existe uma diferença significativa entre o desempenho dos laboratoristas e/ou
em considerar o tipo de solo.
Solução:
Segundo a ANOVA com fator duplo, os laboratoristas foram alocados nas linhas e os tipos de
solos nas colunas. Assim, tem-se que n = 4 e k = 3.
2
Laboratorista Solo 1 Solo 2 Solo 3 Ti Ti
1 45 46 51 142 20.164,00
2 42 44 50 136 18.496,00
3 36 41 48 125 15.625,00
4 49 47 54 150 22.500,00
Ti 172 178 203 553 76.785,00
2
Ti 29.584,00 31.684,00 41.209,00 102.477,00
( 553) _ ⇒ _ C = 25.484,10
2
T2
C= _∴_ C =
kn ( 3)( 4 )
k n
SQT = ∑∑ x ij2 − C _ ∴ _ SQT = 25.749, 00 − 25.484,10 _ ⇒ _ SQT = 264, 90
i j
n 2
∑ ( Tj )
SQL =
j
− C _ ∴ _ SQL = 76.785, 00 − 25.484,10 _ ⇒ _ SQL = 110,90
k 3
k 2
∑ ( Ti ) 102.477, 00
SQC = i − C _ ∴ _ SQC = − 25.484,10 _ ⇒ _ SQC = 135, 20
n 4
SQE = SQT − SQL − SQC _ ∴ _ SQE = 264,90 − 110,90 − 135, 20 _ ⇒ _ SQE = 18,80
SQE 18,80
MQE = _ ∴ _ MQE = _ ⇒ _ MQE = 3,13
( k − 1)( n − 1) ( 3 − 1)( 4 − 1)
SQC 135, 20
MQC = _ ∴ _ MQC = _ ⇒ _ MQC = 67, 60
k −1 3 −1
SQL 110,90
MQL = _ ∴ _ MQL = _ ⇒ _ MQL = 36,97
n −1 4 −1
MQL 36,97
FL = _ ∴ _ FL = _ ⇒ _ FL = 11,80
MQE 3,13
MQC 67, 60
FC = _ ∴ _ FC = _ ⇒ _ FL = 21, 60
MQE 3,13
Pela distribuição de Fischer (tabela ou Excel), tira-se os valores de F calculados para o fator
das linhas e das colunas, considerando um nível de significância de 5%:
• FLcritico = Fα ;..( k −1);..( k −1)( n −1) _ ∴ _ FLcritico = F0,01;..3;..6 _ ⇒ _ FLcritico = 4, 76
• FCcritico = Fα;..( k −1);..( k −1)( n −1) _ ∴ _ FLcritico = F0,01;..2;..6 _ ⇒ _ FLcritico = 5,14
Conclusão: Como o valor de FL (11,8) é maior que 4,76, concluiu-se pela rejeição da
igualdade das médias (µ1 ≠ µ2 ≠ µ3 ≠ µ4), ou seja, o desempenho dos laboratoristas influenciou
a velocidade do ensaio. Como FC (21,5) também resultou ser maior que 5,14, confirma que
acertou-se em medir os tempos separadamente para cada tipo de solo.
Após verificar que a opção "Ferramentas / Análise de Dados" já está instalada no Excel de seu
computador, siga a seqüência abaixo:
Coluna 1 4 172 43 30
Coluna 2 4 178 44,5 7
Coluna 3 4 203 50,75 6,25
ANOVA
Fonte da variação SQ gl MQ F valor-P F crítico
Linhas 110,9167 3 36,9722222 11,7787611 0,00631432 4,75705519
Colunas 135,1667 2 67,5833333 21,5309735 0,00182902 5,14324938
Erro 18,83333 6 3,13888889
Total 264,9167 11
8 - REGRESSÃO E CORRELAÇÃO
Na análise de regressão simples são relacionadas duas variáveis por uma equação, uma
chamada variável resposta, ou dependente, e outra chamada variável independente. As etapas
da análise de regressão simples são:
A seguir será estudado o modelo de regressão linear simples, onde existem apenas duas
variáveis envolvidas (a variável independente e a variável dependente) e o relacionamento
entre elas pode ser descrito por uma equação linear, ou seja, a equação de uma reta. Convém
ressaltar que a distinção entre as variáveis dependentes e independentes nem sempre é muito
clara, e algumas vezes depende dos objetivos envolvidos ou do significado físico das
variáveis. Entretanto, na prática, os papéis das variáveis são em geral facilmente
caracterizados.
valores observados (xi, yi). Muitas vezes os pontos observados não estão exatamente sobre
uma reta, porém a análise do gráfico pode sugerir um relacionamento aproximadamente linear
entre as duas variáveis (Figura 8.1).
y
y
=
ax
+
b
0 X
Neste caso são necessários modelos para representar o conjunto de pontos. Um dos modelos
matemáticos propostos é destacado a seguir:
yi = a xi + b + εi (8.1)
Para evitar um critério individual e discutível para o ajustamento linear dos pontos
distribuídos, torna-se necessária a definição da "melhor reta de ajustamento". Neste caso
pode-se arbitrar uma reta qualquer que se ajuste ao conjunto de pontos da Figura 8.1. Para
cada valor xi da variável independente obter-se-ia um valor predito para a variável resposta y
dado por:
∧
y = a xi + b (8.2)
∧
Seja ei, a diferença entre o valor observado yi e o valor predito y e considerando a soma dos
quadrados destas diferenças (erros) para todos os pontos, tem-se que:
∧
D = Σi ei2 = Σ (yi - y i)2 = Σi (yi - axi- b)2 (8.3)
O valor de D varia com a reta escolhida, isto é, depende dos coeficientes a e b. Quanto menor
o valor de D, mais ajustada será a equação de predição, ou seja, um bom ajuste será aquele em
que D for o menor possível. Este é o princípio básico do Método dos Mínimos Quadrados,
isto é, estimar os parâmetros a e b que minimizem D = Σe12. Determinar a e b tais que a soma
de quadrados dos resíduos seja mínima é um problema cuja resolução depende do cálculo
diferencial. A seguir são apresentados as formulações para as determinações destes
parâmetros:
a = Sxy / Sxx
b= Y -a X
Onde:
X = (Σ xi) / n
Y = (Σ yi) / n
Obtida uma certa reta de regressão, é necessário determinar sua precisão, isto é, verificar se
ela representa satisfatoriamente a tendência dos dados observados. Considere a seguinte
equação:
∧ ∧
(yi - y i) = (yi - Y ) - ( y i - Y ) (8.4)
∧
A Eq. 8.4 indica que o erro (resíduo), ei = yi - y i, é a diferença entre o desvio do valor
∧
observado yi em relação à sua média Y e o desvio do valor estimado y i em relação à sua
∧
média Y ( Y é a média tanto dos yi quanto dos y i). Reescrevendo a Eq. 8.4:
∧ ∧
(yi - Y ) = (yi - y i) + ( y i - Y )
∧ ∧
Σ(yi - Y )2 = Σ(yi - y i)2 + Σ( y i - Y )2 (8.5)
∧ ∧
O duplo produto 2Σ(yi - y i) ( y i - Y ) é igual a zero.
Analisando a Eq. 8.5 observa-se que a variação total das observações em torno de sua média,
dada por Σ(yi - Y )2, que se chama soma total dos quadrados (SQT), pode ser decomposta em
duas parcelas:
∧
• Soma dos Quadrados dos Erros (ou Resíduos) SQE = Σ(yi - y i)2, que mede a variação em
torno da reta de regressão;
• Soma dos Quadrados dos Desvios dos Valores da Regressão em relação a sua média,
∧
SQR = Σ( y i - Y )2.
Resumindo, tem-se:
Onde:
∧
SQR = Σ( y i - Y )2 = Σ[ Y + b (xi - X ) - Y ]2 = b2 Sxx
SQE é a soma dos quadrados das diferenças entre os valores observados e os previstos pela
equação de regressão, portanto é uma medida da variabilidade não explicada pela reta de
regressão. Se todos os pontos observados estiverem sobre a reta de regressão SSE será zero.
Assim, surge uma alternativa de medir o ajuste da curva, a qual é dada pela razão entre a
variância explicada pela reta de regressão (SQR) e a variância total (SQT). Esta razão é
conhecida como coeficiente de determinação ou simplesmente "r quadrado" (r2) e é dada por:
r =
SQR
2
.=.
( b 2 .Sxx )
SQT Syy
Esta razão mede a proporção da variação de Y que é explicada pela reta de regressão, ou seja é
um coeficiente de ajuste. Este coeficiente de determinação é particularmente importante se a
reta de regressão for usada para fazer previsões. Neste caso o que se quer é um r2 tão próximo
de 1 quanto possível.
Exemplo 8.1 – Relacionar os ângulos de atrito efetivos com as massas específicas secas de
um material granular.
Solução:
X = 2,125
Y = 32,083
Σxi2 = 27,169
Σxi yi = 411,234
Σyi2 = 6240,99
∧
A reta de regressão é : y = 28,97 xi – 29,48
r =
2 SQR
_∴_ r =
2 ( b 2 .Sxx )
_∴_ r =
2 ( −29, 48 ) ( 0, 075 )
2
_ ⇒ _ r 2 ≅ 1, 00
SQT Syy 65, 077
ÂNGULO DE ATRITO EFETIVO (graus)
38
36
34
32
30
28
26
1.9 1.95 2 2.05 2.1 2.15 2.2 2.25 2.3
MASSA ESPECÍFICA SECA (g/cm3)
Serão apresentados alguns tipos de transformações mais usados para linearizar a relação entre
as variáveis. A partir destas transformações todos os parâmetros estudados anteriormente
podem ser utilizados. Assim:
y = α Xβ
onde:
Z = log Y
A = log α
T = log X
β>1
α 0<β<1
0 1 X
Função Hipérbole
a) Y = αX-β
onde
Z = log Y
A = log α
T = log X
α 0<β<1
β=1
β>1
0 1 X
b) Y = α ± β X-1
Neste caso tem-se uma transformação recíproca, e a função linear resultante será:
Y = α ± βT
onde T = X-1
Y Y
α
α
0 -1 X 0 -1 X
Y= α+β X Y= α−β X
c) Y = 1 / (α + βX)
Z = α + βX
onde Z=1/Y
α > 0 X -1
β>0
0
X
Função exponencial
Y = αβX
onde
logY = Z
log α = A
log β = B
β>1
0<β<1
0 X
Regressão Linear Múltipla é o estudo do modelo de regressão com mais de uma variável
independente, visando a uma melhor compreensão do comportamento da variável dependente.
Supondo que a variável Y dependa dos valores assumidos por k variáveis independentes (X1,
X2, X3, ..., Xk) e que essa dependência seja expressa pelo modelo:
Onde:
ƒ(x) = α + β1X1 + β2X2 + ... + βkXk é a componente funcional
U1 é a componente aleatória
Como no caso da Regressão Linear Simples, pode-se assumir que esta dependência é dada por
(lê-se média de Y dados X1, X2, ... , Xk):
Considerando o caso em que a variável dependente seja postulada como função de duas
variáveis explicativas, X1 e X2, tem-se então o seguinte modelo de regressão linear múltipla:
Yi = α + β1X1 i + β2X2 i + Ui
Retirada uma amostra de n observações das variáveis Y, X1 e X2, deve-se, a partir desses
dados, determinar as estimativas "a", "b1" e "b2" dos parâmetros α, β1 e β2 e, dessa forma,
obter a estimativa do modelo adotado, compondo o estimador Y$ = a + b1X1 + b2X2.
Calculando-se a, b1, b2 de tal forma que os quadrados dos desvios dos valores observados em
relação aos calculados para Y sejam um mínimo. Isto exige que a equação de M (abaixo) seja
um mínimo:
M = ∑ (Y - Y$ )2 = ∑ (Y - a - b1X1 - b2X2)2
δM δM δM
=0 =0 =0
δa δb1 δb2
ou seja:
δM
= −2 ∑ ( Y − a − b1X1 − b2 X 2 ) = 0
δa
δM
= −2 ∑ X1 ( Y − a − b1X1 − b 2 X 2 ) = 0
δb1
δM
= −2 ∑ X 2 ( Y − a − b1X1 − b 2 X 2 ) = 0
δb 2
∑ Y = na + b1 ∑ X1 + b 2 ∑ X 2
∑ YX1 = a ∑ X1 + b1 ∑ X1 + b2 ∑ X1X 2
2
∑ YX 2 = a ∑ X 2 + b1 ∑ X1X 2 + b 2 ∑ X 2
2
∑ Y na ∑ X1 ∑ X2
= + b1 + b2
n n n n
Y = a + b1X1 + b2 X 2 ou a = Y − b1X1 − b 2 X 2
Colocando-se b1 e b2 em evidência:
( ∑ X1 )
2
∑ X1 ∑ Y ∑ X1 ∑ X 2
∑ YX1 − = b1 ∑ X1 −
2
+ b 2 ∑ X1X 2 −
n n n
∑ X1 ∑ Y
Chamando SY1 = ∑ YX1 −
n
( ∑ X1 )
2
∑ X1 ∑ X 2
S11 = ∑ X 2
1 − e S12 = ∑ X1X 2 −
n n
tem − se SY1 = b1S11 + b 2S12
a = Y − b1X1 − b 2 X 2
Lembra-se que:
∑ X1 ∑ X2 ∑Y
X1 = X2 = e Y=
n n n
SY2 SY1
−
S2 1 S11 SY2 S2 2
b2 = b1 = − b2
S2 2 S1 2 S21 S2 2
−
S1 2 S11
Uma outra alternativa interessante para a solução do sistema é o emprego de matrizes. É fácil
constatar que para K variáveis explicativas, ou seja, o modelo Y = α + β1X1 + β2X2 + β3X3 +
... + βkXk + Ui, para encontrar os estimadores b1, b2, b3, ... bk deve-se resolver o sistema:
a = Y - b1 X 1 - b2 X 2 - b3 X 3 -. . . - bK X K
∑ Y 89 ∑ X1 44
Y= = = 14,83 X1 = = = 7,33
n 6 n 6
∑ X 2 25
X2 = = = 4,17
n 6
∑ Y ∑ X1 (89) ⋅ (44)
SY1 = ∑ YX1 − = 763 − = 110,33
n 6
∑ Y ∑ X2 (89) ⋅ (25)
SY2 = ∑ YX 2 − = 453 − = 82,17
n 6
( ∑ X1 )
2
(44) 2
S11 = ∑ X 2
1 − = 374 − = 51,33
n 6
∑ X1 ∑ X 2 (44)(25)
S1 2 = S2 1 = ∑ X1X 2 − = 221 − = 37, 67
n 6
( ∑ X2 )
2
(25) 2
S2 2 = ∑ X 2
2 − = 139 − = 34,83
n 6
Resolvendo o sistema:
tem − se b1 = 2, 03 e b 2 = 0,16
Logo, a = Y − b1X1 − b 2 X 2
a = 14,83 − (2, 03) (7,33) − (0,16) (4,17)
a = −0, 72
Ŷ = a + b1X1 + b2 X 2
Ŷ = −0, 72 + 2, 03X1 + 0,16X 2
a) Variação Total - VT
(∑ Y)2
VT = ∑(Y − Y) 2 = SYY, onde SYY = ∑ Y 2 −
n
b) Variação Explicada - VE
( )
2
VE = ∑ Y
ˆ −Y
( ) = ∑ ( a + b1X1 + b2 X 2 − a − b1X1 − b 2 X 2 )
2 2
∑ Ŷ − Y
Ŷ = a + b1X1 + b 2 X 2 e Y = a + b1X1 + b 2 X 2
Então:
VE = ∑ b1 ( X1 − X1 ) + b 2 ( X 2 − X 2 )
2
= ∑ b12 ( X1 − X1 ) + ∑ b 22 ( X 2 − X 2 ) + 2 ∑ b1b 2 ( X1 − X1 )( X 2 − X 2 )
2 2
= b12 ∑ ( X1 − X1 ) b 22 ∑ ( X 2 − X 2 ) + 2b1b 2 ∑ ( X1 − X1 )( X 2 − X 2 )
2 2
VE = b1SY1 + b 2SY2
c) Variação Residual - VR
VR = (Y − Y)
ˆ 2
Para o cálculo de VR usa-se o fato também aqui válido de que VT = VE + VR, ou seja, a
variação total é igual à soma das variações explicada e residual.
b1SY1 + b 2SY2 VE
R2 = .=.
SYY VT
Para k variáveis:
∑ b SY i i
R =
2 i =1
SYY
Solução:
n=6
SY1 = 110,33
SY2 = 82,17
S11 = 51,33;
b1 = 2,03
b2 = 0,16
a = -0,72
Ŷ = −0, 72 + 2,03 X1 + 0,16 X 2 .
VE = b1SY1 + b2SY2 = 2,03 (110,33) + 0,16 (82,17) = 237,12.
(∑ Y)
2
(89) 2
SYY = ∑ Y 2
− = 1563 − = 242,83.
n 6
Todo modelo do tipo Y = α + β1X + β2X2 + β3X3 + ... + βkXk + U, constitui-se no modelo de
Regressão Polinomial de grau k em x. Um caso particular e muito aplicado surge quando K =
2, originando a parábola do 2o grau, isto é: Y = α + β1X + β2X2 + U. Para estimar os
parâmetros, neste caso, basta fazer X1 = X1 e X2 = X2 e utilizar o mesmo processo de
determinação dos estimadores utilizado na regressão linear múltipla. As equações normais
para determinação de a, b1 e b2, neste caso serão:
∑ Y = na + b1 ∑ X + b 2 ∑ X 2
∑ YX = a ∑ X + b1 ∑ X + b 2 ∑ X
2 3
∑ YX = a ∑ X + b1 ∑ X + b 2 ∑ X
2 2 3 4
Exemplo 8.4: Os dados abaixo representam o lucro bruto de uma firma de construção civil:
X i = ( t i − t ) ⋅ 2, onde t = 1965,5.
t X Y XY X2 YX2 X4
1963 -5 80 -400 25 2.000 625
1964 -3 84 -256 9 756 81
1965 -1 100 -100 1 100 1
1966 1 105 105 1 105 1
1967 3 117 351 9 1.053 81
1968 5 120 600 25 3.000 625
606 304 70 7.014 1.414
∑ Y = na + b 2 ∑ X 2
∑ YX = b1 ∑ X
2
∑ YX = a ∑ X + b 2 ∑ X
2 2 4
vem:
606 = 6a + b 2 70
304 = 70b1
7014 = 70a + 1414b
2
a = 102,05
b1 = 4,34
b2 = -0,09
8 3- CORRELAÇÃO
Dentre as análises feitas com o objetivo de obter os parâmetros geotécnicos para projetos de
engenharia é freqüente o interesse na determinação de uma grandeza partindo do
conhecimento do valor de outra, ou porque esta apresenta facilidade de medida ou porque
antecede no tempo. Concomitantemente a esta necessidade, outra situação, igualmente
importante, é a verificação da existência ou não de um relacionamento entre duas ou mais
variáveis X e Y, como elas estão associadas e medir o grau de associação. Por exemplo, a
pressão de um gás e sua temperatura conseqüente, a resistência de um aço e seu acabamento
superficial ou a permeabilidade de um filtro sintético e sua gramatura. Tais problemas se
resolvem através da Teoria da Correlação, objeto deste item.
1o Caso - Correlação Linear: se todos os pontos deste diagrama caem nas proximidades de
uma reta, como na Figura 8.12 (a) e (b).
• Se y tende a aumentar quando x cresce, Figura 8.12 (a), a correlação é denominada positiva
ou direta.
• Se y tende a diminuir quando x aumenta, Figura 8.12 (b), a correlação é denominada
negativa ou inversa.
2o Caso - Incorrelacionadas: se não há relação entre as variáveis, como na Figura 8.1 (c),
diz-se que não há correlação entre elas.
Y Y Y
X X X
(a) (b) (c)
Primeiramente, verificar-se-à quão bem uma linha reta representa a relação entre duas
variáveis. Para isto, é necessário a equação de uma reta. Para se evitar utilizar um critério
individual e discutível para o ajustamento linear dos pontos distribuídos, define-se a melhor
reta de ajustamento, que é a reta de regressão de mínimo quadrado, de Y para X, ou seja:
Y$ = a + bx (8.6)
reta será obtido por a + bxi, onde a diferença entre o valor observado yi e o valor estimado Y$
será de:
di = yi - Y$ i = yi - (a + bxi) (8.7)
As estimativas de mínimo quadrado para a e b são obtidas pela escolha de valores que
minimizem a soma dos quadrados desses desvios:
( )
2
S = ∑ d i 2 = ∑ y i − ( a + bx ii )
n n
(8.8)
i =1 i =1
A minimização é obtida pela derivação parcial de "S" em relação a "a" e "b", e pela resolução
simultânea das duas equações derivadas. Assim:
∂s
= ∑ 2 ( y i − a − bx i )( − 1 ) = 0
∂a
∂s
= ∑ 2 ( y i − a − bx i )( − x i ) = 0
∂b
o u , en tão ,
n a+ b ∑ x i = ∑ y i
a ∑ x i + b ∑ x i2 = ∑ x i y i (8.9 )
resu ltan d o,
a= Y − b x
( ( )( y )) / ( ∑ ( x ) )
2
b = ∑ xi − x i −y i −x
( )
b = ∑ x i y i − n xy / ∑ x i2 − n x ( 2
) (8.1 0 )
Solução:
Temperatura (0 C) 50 60 70 80 90 100
Calor Específico 1,60 1,63 1,67 1,70 1,71 1,71
∑ X = 450 X = 75 ∑ XY=775,6
∑ Y=10,02 ∑ Y=1,67 ∑ X 2 = 35.500
assim,
755, 6 − (6)(75)(1, 67)
b= = 0, 0023428
35.500 − (6))(75)(75)
Y = 1,49429 + 0,0023428 X
Y
1,72 di
+ bx
1,7
s t =a
1,68 Ye
1,66
1,64
1,62
1,6
1,58
40 50 60 70 80 90 100 110
X
s y.x =
∑ (y i i − Yest ) 2
(8.11)
n−2
s x.y =
∑ (x i i − X est ) 2
(8.12)
n−2
s 2
=
∑ yi 2 − a (∑ y ) − b (∑
i x i yi ) (8.13)
n−2
y.x
O erro padrão tem propriedades análogas às do desvio padrão. Da mesma forma que se
N
verificou o desvio padrão corrigido, dado por ŝ = × s , é conveniente para as pequenas
N −1
N
amostras, também o é o erro padrão corrigido, dado por ŝ x.y = s y.x .
N−2
( )
2
A variação total de Y é definida como ∑ Y − Y , isto é, a soma dos quadrados dos desvios
dos valores de y em relação à média Y . Esta expressão pode ser escrita sob a forma:
( ) ( ) ( )
2 2 2
∑ Y−Y = ∑ Y−Y
ˆ +∑ Y
ˆ −Y (8.14)
Onde:
( )
2
∑ Y−Y é a variação não-explicada
∑(Y
ˆ − Y) é a variação explicada
Estes valores são assim denominados porque os desvios (Y$ − Y ) tem um padrão definido,
enquanto que os (Y − Y$ ) comportam-se de maneira casual ou imprevisível.
σ
ρ = b× x (8.15)
σ
y
Y Y Y
X X X
(a ) (b ) (c )
Y Y
X X
(d ) (e )
Uma estimativa adequada de ρ pode ser obtida do coeficiente de correlação amostral “r”,
definido como o coeficiente da variação explicada para a variação total. Se a variação
explicada for nula, isto é, se a variação total for toda não-explicada, este quociente será igual a
zero. Se a variação total for toda explicada, o quociente será igual a 1. Nos outros casos, o
quociente terá valor entre zero e 1. Como a relação é sempre positiva, ela é representada por
“r2”, sendo a quantidade “r” denominada coeficiente de correlação, e é dada por:
∑x
2
var iação explicada
2
− nx
r=b =b i
(8.16)
∑y
2
variação total
i
2
− ny
O valor r é uma quantidade sem dimensões, que depende das unidades adotadas.
Exemplo 8.6 – Um aeroporto do interior acusou entre os anos 1968 e 1973 o movimento de
passageiros mostrado na tabela abaixo. Calcular o coeficiente de correlação.
Solução:
Representando por x = variável independente = ano (reduzido para unidades 1, 2, ..., 6), tem-
se os dados,
91 − (6)(3,5) 2
r = 142, 771448
1967383 − (6)(517,83) 2
r = 0, 99735
Para o caso de uma correlação linear, a quantidade "r" conserva-se a mesma, quer se considere
X ou Y como variável independente. Por isto, "r" é uma medida muito boa da correlação
linear entre duas variáveis. A interpretação de "r" como medida de dependência entre duas
variáveis é puramente matemática e isenta de qualquer implicação de causa e efeito. A
magnitude de "r" demonstra somente a concentração dos pontos. Quanto menor o valor de "r"
mais espalhados se encontram os pontos. De maneira prática, a interpretação de "r" poderia
ser feita da seguinte forma:
A covariância de duas variáveis é uma medida numérica da associação linear existente entre X
e Y. Se for admitida uma relação linear entre duas variáveis, tem-se:
r=
∑ xy (8.17)
( ∑ x )( ∑ y
2 2
)
em que x=X-X e y=Y-Y.
sxy =
∑xy ; sx =
∑x 2
; sy =
∑y 2
(8.18)
N N N
Onde:
sx e sy são reconhecidos como desvios padrão corrigidos das variáveis X e Y,
respectivamente
sx2 e sy2 são suas variânçias
sxy é a co-variância de X e Y.
sxy
r= (8.19)
sx sy
cov(X, Y)
corr ( X , Y ) = ρ = (8.20)
σxσ y
X 1 3 4 6 8 9 1 14
Y 1 2 4 4 5 7 8 9
Solução: As operações necessárias ao cálculo podem ser dispostas como na tabela abaixo:
X Y x=X−X y = Y −Y x2 xy y2
1 1 -6 -4 36 24 16
3 2 -4 -3 16 12 9
4 4 -3 -1 9 3 1
6 4 -1 -1 1 1 1
8 5 1 0 1 0 0
9 7 2 2 4 4 4
11 8 4 3 16 12 9
14 9 7 4 49 28 16
∑X=56 ∑Y=40
∑x2=132 ∑xy=84 ∑y2=56
X = 56 8 = 7 Y = 40 8 = 5
r=
∑ xy =
8
= 0,977
( ∑ x )( ∑ y )
2
(
2
132 )( 56 )
Esse valor mostra que há uma correlação muito forte entre as variáveis.
Obtida uma reta de regressão, o primeiro passo é verificar o sinal de a (inclinação da reta
estimada). Se for positivo, indica que quanto maior o valor de X, maior o valor de Y; se
negativo, indica que quanto maior o valor de X, menor o de Y. O sinal deve estar de acordo
com a intuição ou com o significado físico entre as variáveis. Matematicamente b representa o
intercepto da reta estimada com o eixo dos y e representa o valor inicial de y para x = 0. São
estimativas de β0 e β1, os coeficientes de regressão já definidos anteriormente.
Sy / x
b ± t α / 2;n − 2
( )
2
Σn x − x
i =1 i
2
a ± t α / 2;n − 2Sy / x 1+ X
n
( )
2
Σin=1 x i + X
Sy/x compreende uma estimativa da variabilidade em torno da reta e pode ser calculado por
intermédio de uma das seguintes expressões:
S x/ y = (Σ ( y
i i )
− Y$i / (n − 2) )
1
S y2/ x = Σy i2 − a( Σy i ) − b( Σx i y i )
n−2
Supondo que se pretenda fazer uma previsão da capacidade de um aeroporto e que a mesma
deva ser suficiente para os próximos cinco anos. Esta previsão pode ser conseguida através do
levantamento do movimento atual e passado. Em função dos dados passados, pode-se
determinar uma reta de regressão, que se ajusta aos mesmos, e através desta reta, estimar por
ponto (o ponto da reta) ou numa estimativa por intervalo. A probabilidade de (1-α) de que
uma observação futura Y correspondente a um valor X0 esteja dentro do intervalo é:
( )
2
1 X0 − X
Y ± t α / 2;n − 2Sy / x 1+ +
i (
n Σ x − X 2
)
O erro εi é uma variável aleatória sobre a qual podem ser feitas as seguintes suposições:
E(x/y) = a x + b
var(x/y) = σ2
Isto é, para cada valor de x existe uma distribuição de valores de y, e não um valor único.
Todas as distribuições têm a mesma variância σ2 e suas médias estão sobre a reta de regressão
a x + b, ainda desconhecida, e cujos parâmetros se quer determinar (Figura 8.2).
0 X
Pode-se supor que os N pares de valores (X, Y) de duas variáveis constituem uma amostra da
população de todos os pares possíveis. Esta população é denominada bidimensional pois
existe duas variáveis implicadas, e admite-se que ela apresente uma distribuição normal
bidimensional. Assim, admite-se um coeficiente de correlação de uma população teórica,
representado por "ρ", e é avaliado a partir do coeficiente de correlação amostral "r". O
conhecimento da distribuição amostral de r, permite o estudo através dos testes de
significância ou hipóteses concernentes a vários valores de ρ:
• Para ρ= 0, esta distribuição é simétrica e se utiliza uma estatística que envolve uma
distribuição de Student.
• Para ρ ≠ 0, a distribuição é assimétrica e se utiliza uma distribuição devida a Fisher, que
produz uma estatística com distribuição aproximadamente normal.
• Teste de Hipótese ρ = 0
r n−2
t= (8.23)
1− r2
• Teste de Hipótese ρ = ρ0 ≠ o
1 1+ r 1+ r
Z = log e = 1,1513 × log10 (8.24)
2 1− r 1− r
onde e = 2,71828
1 1 + ρ0 1 + ρ0
µz = log e = 1,1513 × log 10
2 1 − ρ0 1 − ρ0
1
σz =
N−3
então ,
(Z − µ z )
z=
σz
Exemplo 8.8 – Um coeficiente de correlação baseado em uma amostra de tamanho 18, foi
calculado como sendo 0,32. Pode-se concluir, nos níveis de significância a)
0,05 e b) 0,01, que o coeficiente de correlação correspondente à população é
diferente de zero?
Solução:
As hipóteses são:
H0 : ρ = 0
H1 : ρ > 0
r n−2 0,32 18 − 2
t= = = 1,35
1− r 2
1 − ( 0,32 ) 2
b) Como não se pode rejeitar H0 no nível 0,05, certamente não se pode rejeitá-lo no nível 0,01.
Exemplo 8.9 – Um coeficiente de correlação, baseado em uma amostra de tamanho 24, foi
calculado como r = 0,75. Pode-se rejeitar a hipótese do coeficiente de
correlação da população ser tão pequeno quanto a) ρ = 0,60 e b) ρ = 0,50, no
nível de significância 0,05?
Solução:
1 + 0, 75
Z = 1,1513 × log = 0,9730
1 − 0, 75
1 + 0, 60
µ z = 1,1513 × log = 0, 6932
1 − 0, 60
1 1
a) σz = = = 0, 2182
N−3 21
então,
(Z − µ z ) (0,9730 − 0, 6932)
z= = = 1, 28
σz 0, 2182
Z 1 − Z 2 − µ Z 1− Z 2
z= (8.25)
σ Z 1− Z 2
Em que:
1 1
µ z 1− z 2 = µ z1 − µ z 2 e σ z1-z2 = σ z1 2 + σ z 2 2 = +
N1 − 3 N 2 − 3
Solução:
1 + r1 1 + r2
Z1 = 1,1513 × log = 0,5493 e Z2 = 1,1513 × log =0,3095
1 − r1 1 − r2
1 1
σz1-z2 = + =0,2669
N1 − 3 N 2 − 3
Deseja-se decidir entre as hipóteses H0 :µ z1 =µ z2 e H1:µ z1 ≠ µ z2
Para a hipótese H 0 :
Z1 − Z2 − (µ z1 − µ z2 ) 0,5493 − 0,3095 − 0
z= = = 0,8985
σz1 − σ z2 0, 2669
A terceira variável, que no exemplo, causa a correlação observada entre obras civis e
contratações de operários é chamada variável intercorrente (não conhecida) e a falsa
correlação que ela origina é chamada correlação empírica. Por isto, ao utilizar um coeficiente
Em uma amostra bivariada, é possível determinar se duas variáveis aleatórias são realmente
correlacionadas ou não. Quando a população segue o modelo bivariado normal, dispõe-se de
um teste bastante simples para a hipótese nula H0 : ρ = 0 que equivale à independência das
duas variáveis. A estatística de teste é:
r n−2
t= (8.26)
1− r
Esta estatística t tem distribuição de Student com n-2 graus de liberdade; n é o tamanho da
amostra e r é o coeficiente de correlação amostrado.
Para uma alternativa bilateral H1: ρ # 0, a hipótese nula é rejeitada se o valor observado da
r n−2
estatística é maior do que tα/2 ou | |≥ t α 2
1− r2
Solução:
0,82 25
t= = 7,16
1 − (0,82) 2
Denomina-se correlação múltipla ao grau de relação existente entre três ou mais variáveis. Os
princípios fundamentais aplicados em correlação múltipla são análogos aos da correlação
simples onde para se obter generalizações relativas a grande número de variáveis é
conveniente uma notação que expressa símbolos. Representa-se por X1 , X2 , X3 ,..., os valores
assumidos pela variável X1 e por X21, X22, X23, ..., os assumidos pela variável X2, e assim por
diante. Então, uma soma como X21+X22+X23,...,X2n seria escrita sob as formas
n
∑X
i =1
2j , ∑X j
2j ou, simplesmente, ∑X 2 . Neste caso, a média de X2 será expressa por:
X2 =
∑X 2
2
s1,23
R 1,23 = 1- (8.27)
s12
Onde:
R21,23 é o coeficiente de determinação múltipla;
s1 é o desvio padrão da variável X1;
s1,23 é o erro padrão da estimativa de X1 e dado pela expressão;
S1,23 =
∑ (X 1 − X)
ˆ 2
(8.28)
n
Quando for usada uma equação de regressão linear aquela quantidade será denominada
coeficiente de correlação linear. Em função de r12, r13, r23, pode-se escrever também:
É a correlação entre uma variável dependente e uma independente partícular quando todas as
outras implicadas se conservam constantes, ou seja, quando se removem os efeitos de todas as
outras variáveis. O coeficiente de correlação parcial é definido através da Equação 8.30, com a
consideração das variações explicadas e não-explicadas que surgem, tanto com a variável
independente como sem ela. Assim, representando-se por r12,3 o coeficiente de correlação
parcial entre X1 e X2 , quando X2 é constante, tem-se:
Estes resultados mostram que qualquer coeficiente de correlação parcial pode ser tomado em
termos dos valores dos coeficientes de correlação de ordem zero, r12, r23 etc.
O caso de duas variáveis x e y, quando as duas retas de regressão têm equações Y = a0+a1X e
X=b0+b1Y, viu-se que r2 = a1b1. Este resultado pode ser generalizado. Assim, as equações de
regressão linear de X1 para X2, X3, X4 e de X4 para X1, X2 e X3, são:
X1 = b1,234+b12,34X2+b13,24X3+b14,23X4 (8.32)
X2 = b4,123+b41,23X1+b42,13X2+b43,12X3
(8.33)
E, então:
r214,23 = a14,23b41,23
Os resultados acima, referentes à regressão múltipla linear, podem ser estendidos à não-linear.
Podem, então, ser definidos coeficientes de correlação múltipla e parcial por meio de métodos
semelhantes aos expostos acima.
As primeiras considerações sobre o Método de Monte Carlo serão feitas a partir do exemplo
abaixo.
Exemplo 9.1:
a b
d
A B
w D
E C
e c
w
Solução:
Os possíveis resultados podem ser relatados a partir da localização do centro da esfera relativo
à malha. Pode ser considerado somente um quadrado, desde que todos os quadrados presentes
sejam similares. A probabilidade da esfera acertar a malha pode ser medida pela probabilidade
do centro da esfera se encontrar fora do limite ABCE. Os resultados possíveis são medidos
pela área do quadrado abce, sendo igual a (w + D)2. Então, assumindo que as esferas se
encontrem uniformemente sobre a área abce, a região favorável é medida pela área do
quadrado ABCE e o quadrado abce, ou seja, (w + D)2 - (w - d)2. A probabilidade requerida é:
( w − d) (w − d)
2 2
(0,9915)N = 0,10
Na seqüência para entender a metodologia de Monte Carlo será apresentado a seguir o cálculo
do valor numérico da integral da função limitada por 0 ≤ f(x) ≤ c, a ≤ x ≤ b.
b
∫a
f (x)dx (9.1)
Considerando o retângulo com a área (b - a)c, apresentado na Figura 9.1(a), e plotado nos
limites da integral f(x). O valor da integral seria a área (região hachurada) limitada pela curva
f(x) no intervalo [a, b]. Arremessando dardos (ou esferas) aleatoriamente na direção do
retângulo, esta a integral poderia ser assim estimada:
NH
I ≈ c(b − a) (9.2)
N
Onde:
NH = dardos que atingiram a região hachurada
NM = dardos que não atingiram a região
N = NH + NM
p = NH / N (probabilidade dos acertos)
c c
f(x) r2 f(x)
f(r1)
0 a b x 0 a r1 b x
(a) (b)
Figura 9.1 - Método de integração de Monte Carlo
No lugar dos dardos poderia se pensar em dois grandes grupos de números aleatórios
uniformemente distribuídos r1 e r2, com a ≤ r1 ≤ b e 0 ≤ r2 ≤ c. Na Figura 9.1(b) tem-se r2 >
f(r1) constituindo a área fora do alvo, e r2 < f(r1) a região do alvo. Repetindo este processo
para um grande número de pares de números aleatórios, a integral pode ser estimada pela
Equação 9.2.
Exemplo 9.2:
Solução:
O resultado desta seqüência é 1, 13, 69, 97, 61, 93, 9, 17, 21, 73, 49, 37, 81, 53, 89, 57, 41, 33,
29, 77 etc., seqüência que vai se repetindo. Os números são uniformemente distribuídos entre
0 e 99.
A faixa da distribuição uniforme aleatória se encontra entre [0, 1], Ru (0, 1), que pode ser
estendida para a faixa [a, b] por transformação:
Exemplo 9.3:
• Dados os valores da variação uniforme aleatória Ru (0, 1) = 0,31 na faixa [0, 1], obter
os correspondentes valores aleatórios para a faixa [3; 6,5].
Solução:
Convém ressaltar que a maioria das técnicas para geração de valores de distribuição faz uso de
função de distribuição de função acumulada, F(r) = P[x ≤ r]. Por definição a função
acumulada para qualquer variável contínua é distribuída uniformemente no intervalo [0, 1].
Conseqüentemente, se o valor aleatório Ru (0, 1) é gerado, o valor de x = r que satisfaz F(r) =
Ru (0, 1) seria um valor aleatório da função de distribuição de probabilidade f(x) dentro de
F(r). O procedimento é ilustrado na Figura 9.2. O primeiro passo é a geração do valor
aleatório Ru (0, 1); o segundo passo é a formação de Ru (0, 1) = F(r) e o terceiro passo é a
determinação de x = r correspondente à especificada distribuição de probabilidade F(r).
f(x)
1,0
0,8
1 2
0,4
0,2
3
0
0 x x=r
x
(a) (b)
Exemplo 9.4:
Solução:
Conseqüentemente
O número x é definido como o número de sucesso das N tentativas (se a simulação de Monte
Carlo for correta), tendo uma distribuição normal. O símbolo xα~ / 2 representa o número das
N tentativas, de forma que a probabilidade de ter valores menores não serão maiores do que
~ / 2 Conseqüentemente tem-se que:
α
~
1 α x − xα~ / 2 NR − x ~
= Ψ
α /2
− = Ψ
2 2 σ [ x ]
NR ( 1 − R )
R (1 − R ) hα~2 / 2
N= (9.5)
ε2
hα~2 / 2
N= 2 (9.6)
4ε
Quando se pretende uma simulação de Monte Carlo que não difere de mais do que 1% do
valor estimado (ε = 0,01), ou seja com 99 % de confiança:
~ ) = 0,99
(1 - α
hα~ / 2 = 2 ,58
Se fosse utilizado este método para mais do que uma variável aleatória, quantas simulações
seriam necessárias? Sendo dadas duas variáveis aleatórias, com uma constante, a Equação 9.6
seria válida. Para cada simulação de Monte Carlo e para cada variável se tem N tentativas.
Conseqüentemente para duas variáveis com α ~ constante:
2
hα2% / 2
N = 2
4ε
m
hα~2 / 2
N = 2 (9.7)
4ε
Exemplo 9.5:
• É dado que a aceleração de uma partícula a é uma variável normal com E[a] = 1,00 e
σ[a] = 0,4. A massa M da partícula varia uniformemente entre 0 e 4 (E[M] = 2,0 e
σ[M] = 1,155). Assumindo unidades compatíveis, obter o valor esperado e desvio
padrão da força gerada, F = Ma, usando a metodologia de Monte Carlo.
Solução:
O método de Monte Carlo pode ser apresentado como um método exato, pois a partir do
conhecimento das distribuições estatísticas das variáveis independentes, valores destas
variáveis poderiam ser obtidos através de um gerador de números aleatórios e valores da
variável independente serem calculados. Pode-se dizer que quando este processo fosse
Exemplo 9.6:
Solução:
Escrevendo o momento do balanço para A, com E(L1) = 100 e E(L2) = 80, σ(L1) = 10 e σ(L2)
= 8:
MA = 10L1 - 8L2
10 m 100 t
8m 80 t
p(f) =
1
−Ψ
(
C−D )
2 σ ( C − D)
1 ( 240)
p( f ) = −Ψ = 0,011
2 σ ( 155)
x = x, é
()
f" x f ( N −1) x
( )( ) ( ) ( )
2 N −1
f(x)=f x x − x + x − x + ..... + x− x + RN (9.8)
2! (N −1)
()
onde f (m) x é o m(ésimo) derivado avaliado para x=x e RN é o resto (o qual pode ou não ser zero)
E ( x ) = x,
() ( )(
E[ f ( x) ] = E f x + f ' x x − x +
f" x
) 2
( )(
x − x , que produz )
2
()
E[ f ( x) ] = f x +
f" x( ) V ( x) (9.9)
2
[ ( )] V ( x) + 14 [ f "( x)] V
V [ f ( x)] = f ' x ( x ) [ β ( 2) − 1] + β ( 1)σ 3 ( x )[ f ' ( x ) ][ f "( x ) ] (9.10)
2 2
2
()
E [ f ( x )] = f x +
f" x( ) V (x) (9.11)
2
()
V[ f ( x ) ] = f ' x V ( x ) +
2 1
4 [ ()
f " x V 2 ( x ) [ β ( 2 ) − 1]
2
]
Para a distribuição Normal β(2) = 3 e adequando a Equação 9.11:
( ) V (x)
()
f" x
E [ f ( x )] = f x + (9.12)
2
[ ( )] V ( x ) + 21 [ f "( x ) V
V[ f(x) ] = f ' x ]
2
2 2
(x)
()
E [ f ( x )] = f x (9.13)
∂F ∂F
( )
F (x, y) = F x, y +
∂x
(
x−x +
∂y
y−y) ( ) (9.14)
( )
E F ( x, y ) = F x, y
2
∂ F ∂ F ∂ F ∂ F
2
onde novamente todos as derivadas são estimadas para os valores esperados das variáveis.
Exemplo 9.7:
• Dado que a aceleração da partícula é uma variação normal com E(α) = 1,00 e σ(α) =
0,4. A massa M da partícula varia uniformemente entre 0 e 4 (E(M) = 2,0 e σ(M) =
1,155). Assumindo unidades compatíveis, obter os valores esperados para desvio-
padrão da força generalizada, F = Mα, usando a Série de Taylor.
Solução:
∂F ∂F
| = E (α ) = 1,0 ; | = E ( M ) = 2,0
∂M M ,α ∂α M ,α
cov( M ,α ) = 0
então ,
∂F ∂F
2 2
∂M ∂α
e
σ ( F ) = 1,41
Para N variáveis aleatórias não correlacionadas, F(x1, x2, ....., xN), conservando somente os
termos lineares na Série de Taylor, produz:
E ( F ) = F ( x 1 , x 2 , ....., x N ) (9 .1 6 )
2
N
∂F
V (F )= ∑ V ( xi ) (9 .1 7 )
i= 1 ∂ xi
o n d e x i = E ( xi )
A função F é avaliada para os pontos médios de todas as variáveis, bem como é a variância de
F. As expressões acima da série de Taylor foram truncadas a partir de seus termos de segunda
ordem, desprezando-se portando os efeitos dos terceiro e quarto momentos probabilísticos. No
entanto, esta aproximação é plenamente aceitável para fins práticos.
Exemplo 9.8:
Solução:
Da Equação 9.16 tem-se E(s) = 10 x 2/4. Como c = 1, constante e σ(c) = 0, são formadas e
estimadas as derivadas necessárias para os correspondentes valores esperados:
∂s c 2
= = = 0,5
∂M I 4
∂s M c − 10(2 )
=− 2 = = −1,25 e
∂I I (4 )2
σ (s ) = 0,56
O coeficiente de variação é:
Estes resultados são um efeito dos momentos de indução de forças na viga. Cada um deles
representa uma demanda.
Exemplo 9.9:
• Supor que no exemplo anterior a viga foi projetada com fator de segurança central de
1,2, E(capacidade) = 1,2 F(s). Se o coeficiente de variação de capacidade é 20%,
estimar a confiabilidade da viga.
Solução:
C−s
R = 1 − p( f ) = + ψ =
1
2
[σ ( s)] 2 + [σ (C )]
2
− 2σ ( s )σ (C ) ρ
1 6−5 = 1 + ψ (116
= + ψ , ) = 88%
2
( 0,56) 2 + (1,2) − 2( 0,56)( 1,2)( 0,75)
2
2
( )
G x1 , x 2 ,....., x N = ax1g1 x 2g 2 ........ x NgN (9.18)
( )
V 2 (G ) = g12V 2 ( x1 ) + g 22V 2 x 2 + ......+ g N2 V 2 x N ( ) (9.19)
onde V2(xi) são os quadrados dos coeficientes de variação das variáveis xi.
Combinando-se com a Equação 9.17, o desvio padrão pode ser facilmente obtido.
Exemplo 9.10:
Solução:
1 0,2
2 2
V ( s ) = V ( M ) + V ( c ) + ( −1) V ( I ) = + ( 0) + = 0,0125
2 2 2 2 2 2
10 4
V ( s ) = 0,112 = 11%
Este método é uma aplicação direta do método FOSM que tem sido muito aplicado em
Geotecnia, em especial na avaliação estatística do coeficiente de segurança de taludes. Os
procedimentos sugeridos são referenciados a seguir:
• A variância do coeficiente de segurança, V[FS], calculada através da formulação de
primeira ordem e segundo momento (FOSM). O cálculo consiste na obtenção das parcelas
de variância do FS causadas por cada um dos parâmetros (γ, c, φ, piezometria etc.)
envolvidos no cálculo de FS. A avaliação destas parcelas estabelece a importância relativa
de cada um dos parâmetros conduzindo as proposições de projeto;
• O índice de confiabilidade, β, do coeficiente de segurança, é definido pela seguinte
expressão, uma vez que o FS crítico é igual a 1,0:
{E [ FS ] − 1}
β = (9.20)
σ [ FS ]
Onde:
E[FS] é o valor usual (determinístico), do coeficiente de segurança calculado com os
parâmetros médios;
σ[FS] é o desvio-padrão do coeficiente de segurança.
O método relaciona o índice β com a probabilidade de ruptura, o que permite uma avaliação
mais consistente da estabilidade.
A probabilidade de ruptura é dada pela parcela da área sob a curva unitária de distribuição de
freqüência (função densidade de probabilidade) do FS correspondentes a valores de FS
inferiores a 1,0. A Figura 9.4 ilustra as duas situações hipotéticas: distribuição "A", que tem
coeficiente de segurança médio baixo (1,2) e desvio-padrão de FS pequeno (0,1), e
distribuição "B", cujo coeficiente de segurança médio é alto (1,5) e desvio-padrão elevado
(0.5). A probabilidade de ruptura é menor no caso A (área da zona preta) do que B (zona
hachurada), apesar do coeficiente de segurança de B ser bem superior ao de A.
NOTA
A ÁREA SOB AS CURVAS DISTRIBUIÇÃO "A"
É UNITÁRIA
E[FS] = 1,20
4
β=2 P[R]=1;50
σ=[FS]=0,1
FREQUÊNCIA RELATIVA
P[R]
PROBABILIDADE DE FS<1,
2 IGUAL A ESTA ÁREA DISTRIBUIÇÃO "B"
E[FS] = 1,50
β=1 P[R]=1;7
σ[FS]=0,5
1
COEFICIENTE DE SEGURANÇA
A probabilidade de ruptura é expressa por seu inverso, 1/P[R]. Assim, quando se fala em 1:50,
a probabilidade é de 0,02 (ou 1/50). Outra forma de apresentação, é em porcentagem,
multiplicando-se o seu valor por 100, ou seja, a probabilidade 0,02 seria expressa por 2%.
ÍN D IC E D E C O N F IA B IL ID A D E , β
Figura 9.5 - Relação entre β e P[R] para distribuição Normal do coeficiente de segurança
A Figura 9.6 mostra a relação entre FS e P[R] para valores de σ[FS] entre 0,05 e 0,25. O
desvio-padrão reflete a variabilidade dos parâmetros e pode-se observar que, dependendo do
seu valor, uma mesma probabilidade de ruptura pode corresponder a uma ampla gama de
valores de coeficientes de segurança.
P [R ] (% )
COEFICIENTE DE SEGURANÇA
1 /P [R ]
Figura 9.6 - Relação entre P[R] e coeficiente de segurança para diversos valores de desvio-
padrão de FS
Segundo Witman (1984), são quatro os aspectos que devem ser avaliados relativos à incerteza
quanto aos parâmetros (γ, c, φ, piezometria. etc.):
Os dois primeiros aspectos analisados contribuem para o que se denomina “erro sistemático”,
que atua independente da posição ou do tamanho da superfície de ruptura, afeta
principalmente a média. Aqui, o aumento do número de ensaios (para diminuir o “erro
estatístico”) deve-se aliar à experiência do engenheiro (para compensar as “bias”). Os dois
últimos aspectos contribuem principalmente para a “dispersão” dos dados. As dispersões
espacial e de ruído dos parâmetros não ocorrem em todos os pontos da superfície de ruptura,
sendo que quanto maior o comprimento da superfície, maior a redução da parcela espacial da
variância. Tang & Baecher (1994), apresentam técnicas para a redução da parte da variância
de FS devida à variância espacial dos parâmetros. A aplicação do método na prática resulta
em valores de β menores, portanto com probabilidades de ruptura maiores, do que aqueles
obtidos incluindo reduções na componente espacial da variância de FS. Deve-se ressaltar,
entretanto, que esta diferença no valor de β é tanto maior quanto mais longa for a superfície de
ruptura.
No exemplo apresentado por Sandroni & Sayão (1992), como o material do talude é arenoso,
a poropressão em qualquer ponto é obtida em função de sua distância à linha freática,
desprezando-se qualquer componente de excesso de poropressão gerada durante o
cisalhamento. Então, a poropressão em qualquer ponto se relaciona univocamente com a
geometria da linha freática, que por sua vez, foi simulada por dois trechos retos e definida por
sua cota superior.
O valor de β foi determinado apenas para a superfície de ruptura obtida com os parâmetros
geotécnicos médios. Esta não é necessariamente a superfície crítica de ruptura que poderia ser
obtida com parâmetros mais desfavoráveis, gerando FS menores. O que ocorre com o valor de
β não se pode dizer a priori.
Exemplo 9.11:
Numa primeira etapa do estudo foi feita uma análise de estabilidade convencional
(determinística) com a fixação dos parâmetros geotécnicos médios (tabela abaixo), a busca da
superfície crítica de ruptura e a conseqüente obtenção do coeficiente de segurança médio,
E[FS}. Para o exemplo citado, obteve-se E[FS] = 1,341.
80+20m
34
200 m
SOLO SAPROLÍTICO DE
QUARTZITO FERRÍFERO
γ nat = 28,3+1,4 kN/m3
γ sat = 29,0+1,4 kN/m3
C = 25+24 kPa
tanφ = 0,781+0,085
SUPERFICIE CRÍTICA
E[FS] = 1,34
σ[FS] = 0,161
β = 2,12 P[R] = 1:60
2
n
δFS i
V [FS ] = ∑ × V [ X i ] (9.21)
1 δX i
Onde:
V[FS] é o quadrado do desvio-padrão;
δFsi é a variação de FS que ocorre quando se varia de δXi cada um dos “n” parâmetros Xi
(peso específico, coesão, ângulo de atrito, piezometria, inclinação e altura do talude, etc.).
V[Xi] é a variância de cada um dos Xi.
Os “n” valores de δFsi /δXi são obtidos rodando “n” vezes a superfície crítica, sendo que para
cada rodada, somente um dos parâmetros de um dos materiais é variado, para mais ou menos,
enquanto os demais são mantidos fixos.
No exemplo, considerou-se como variável também a piezometria. Com base nas informações
piezométricas obtidas no trecho em estudo e em outros pontos da mina, estimou-se o desvio
padrão da cota superior da linha freática em 20 metros. A variância correspondente é,
portanto, 400 m2.
δ FSii 2
δ FS ii
Xi δXi δ FS ii
δ Xi
V[X i ] _× _ V [ X i ]
δ Xi
γnat = 28,3 +2,83 -0,004 -0,0014 1,96 3,92E-06 (0,02%)
γsat = 29,0 +2,90 +0,022 0,0076 1,96 0,0001 (0,44%)
c = 25,0 +2,50 +0,004 0,0016 590 0,0015 (5,83%)
tanφ = 0,781 +0,113 +0,188 1,6637 0,0072 0,0199 (76,91%)
Piezometrica +10 -0,033 -0,0033 400 0,0044 (16,81%)
Total = V[FS] 0,0259 (100%)
A figura abaixo mostra estas parcelas em um diagrama de barras. Desta figura, observa-se,
que o ângulo de atrito é o fator dominante (77% da variância), que a piezometria influi em
cerca de 17%, que a coesão contribui algo como 6% e que o peso específico tem participação
inexpressiva. Sandroni & Sayão (1992) afirmam que este tipo de avaliação permite discernir a
importância relativa dos parâmetros e nutre o processo de decisão do engenheiro. No exemplo
em análise, particular atenção deva ser dada ao ângulo de atrito e à piezometria.
80%
φ
70%
60%
50%
V[FS] 40%
30%
20%
10% γnat γsat c U
0%
Parâmetros
E[ FS ] − 1
β = (9.22)
σ[ FS ]
Neste exemplo:
Para este valor de β corresponde uma probabilidade de ruptura da ordem de 1:60 (ou 1,8%). A
inclusão da variabilidade da piezometria é relativamente simples, bastando considerar como
variável a cota superior da freática, cujo desvio padrão foi estimado em 20 metros (com base
em leituras piezométricas existentes).
talude, posição dos contatos entre os materiais) e das solicitações externas (cargas externas,
vibrações etc.) considerados em seu cálculo. O valor de β refere-se apenas aos parâmetros que
foram considerados como variáveis, por exemplo, pode-se considerar os parâmetros
geotécnicos como variáveis e os demais parâmetros (piezometria, geometria e solicitações
externas) como constantes. Assim sendo, o índice de confiabilidade refere-se apenas às
incertezas quanto aos valores de (γ, c, φ). A probabilidade de ruptura obtida é menor(e o valor
de β é maior) do que a obtida caso todos os elementos fossem considerados como variáveis.
Whitman (1984) apresentou um gráfico (Figura 9.8), onde são delimitadas regiões de
probabilidade e conseqüências de ruptura que correspondem à pratica usual. O exemplo é
restrito ao ambiente de uma mina de grande porte onde muitos taludes já foram executados e
poucas rupturas foram observadas permitindo estabelecer um critério específico. As
retroanálises das rupturas indicam valores de β menores ou pouco maiores do que 1,0
(probabilidade de ruptura na faixa de 1:4 a 1:20). As análises de diversos taludes estáveis
produziram valores de β entre 1,8 e 3,0, indicando uma probabilidade de ruptura entre 1:30 e
1:1000. Assim decidiu-se por um valor de β = 2,0, ou seja, probabilidade de ruptura menor
que 1:50.
10
1/P[R]
"Marginalmente Aceito"
1E-1
taludes
10
PROBABILIDADE ANUAL DE RUPTURA, P[R]
de
Minas Plataformas
Móveis
1E-2
1E2
Fundações
"Aceito"
1E-3
Plataformas
1E3
Fixas
1E-4
Barragens
1E4
1E-5
1E5
Barragens EUA
Estimado
1E-6
E6
CONSEQUÊNCIAS DE RUPTURA
Como principais vantagens da avaliação estatística instituída pelo método apresentado, tem-
se:
• maior clareza na apreciação geotécnica;
• padronização dos enfoques de projeto.
A clareza vem da informação obtida através das parcelas de variância, que possibilitam ao
engenheiro geotécnico localizar com objetividade, os fatores mais ou menos importantes para
a resolução do problema. A padronização é obtida através da utilização do valor de β
associado com o coeficiente de segurança. Assim, o engenheiro geotécnico passa a dispor de
uma base sólida para a comparação entre diferentes pontos de uma obra, entre diferentes obras
do mesmo tipo e entre alternativas de uma mesma obra. Por exemplo, comparações de custo
devem ser feitas para alternativas com o mesmo valor de β e não com o mesmo valor de FS,
ou ainda, taludes em diferentes trechos de uma mina, cuja ruptura traga conseqüências
semelhantes, devem se projetados com igual β e não FS.
Supondo que exista uma função bem definida que una a variável dependente às
independentes, com procedimentos simples, pode-se trabalhar com a variabilidade sem
introduzir complexidades numéricas muito grandes na análise determinística. Trata-se de
ponderar a participação de cada variável, calculando dois valores da função densidade de
probabilidade arbitrariamente escolhida para cada variável independente (Xi), o que resultará
em concentrações Pi onde se terão pontos de estimativa da variável dependente (Y), que
servirão para o cálculo dos momentos de Y.
Para o caso univariado, onde tem-se Y como função de apenas uma variável aleatória X,
Rosenblueth mostra como se pode estimar a média, o desvio padrão e o coeficiente de
assimetria, onde X tem média X, desvio padrão σx e o coeficiente de assimetria υx.
As expressões seriam:
1
p + + p− = 1, onde: p + = 1 ± 1 −
1 − ( υx / 2)
2
p− p+
x+ = x + σx , x− = x − σx
p+ p−
Y = p+ y + + p− y − , sen do: yi = f ( xi )
σY = p+p − y + − y −
υYσY = ( p+ − p− )( y + − y − )
No caso em que a variável X pode ser considerada como tendo uma distribuição simétrica, ou
seja, υx = 0, vê-se que p+ = p- = ½ e conseqüentemente:
y+ + y−
Y=
2
y+ − y−
σY =
2
M 1 = E ( y ) ≅ ∑ pi . yi = p ++ y ++ + p +− y +− + p −+ y −+ + p −− y −−
[
M 2 = E ( y − E ( y )) ]
2
= σ 2y ≅ ( p ++ y ++ + p +− y +− + p −+ y −+ + p −− y −− ) − M 12
2 2 2 2
x1+ = x1 + sx1
x1- = x1 - sx1
{
M 3 = E [ y − E ( y )]
3
}≅ p ++
y ++ + p +− y +− + p −+ y −+ + p −− y −− − 3 M 1 M 2 − M 13
3 3 3 3
{
M 4 = E [ y − E ( y )]
4
}≅ p ++
y ++ + p +− y + − + p −+ y −+ + p −− y −− − 4 M 1 M 2 − 6 M 12 M 2 − M 14
4 4 4 4
Considera-se neste caso que as coordenadas e grandezas das concentrações são independentes
da função f. Mostra-se que os pontos indicados no retângulo são definidos pelas coordenadas
X 1 ± σ1 , X 2 ± σ2 simétricas em relação as médias.
A relação entre as concentrações pode ser generalizada, como se pode ver, sendo proporcional
a 2n, onde n é o número de variáveis independentes. No caso de Y ser função de X1 , X2 , X3
obtem-se as seguintes concentrações:
P+++ = P−−− =
1
8
(1 + ρ12 + ρ23 + ρ31 )
P++− = P−−+ =
1
8
(1 + ρ12 − ρ23 − ρ31 )
P+−+ = P−+− =
1
8
(1 − ρ12 − ρ23 + ρ31 )
P+++ = P−−− =
1
8
(1 − ρ12 + ρ23 − ρ31 )
Considerando o sistema de coordenadas formado pelos eixos definidos pelas variáveis X1, X2,
X3, as concentrações correspondem aos vértices do paralelepípedo de lados 2σ1, 2σ2, 2σ3.
Pode-se então generalizar estas condições para o caso multivariado, onde Y depende de n
variáveis aleatórias. Para o caso das n variáveis poderem ser consideradas não correlacionadas
entre si, pode-se obter as estimativas da média e do desvio padrão de Y pelas fórmulas
seguintes:
1 2n
Y= ∑ yi
2n i=1
∑ ( yi − Y )
1 2n 2
σ2Y = n
2 i =1
Os valores de yi são obtidos com a aplicação da função que define a dependência entre Y e as
variáveis independentes, substituindo alternadamente os valores dessas variáveis por X j ± σj,
j = 1, 2, ..., n, obtendo-se dessa maneira os 2n valores de yi.
HARR (1987) admite uma analogia entre o método proposto e uma viga carregada. A
distribuição de probabilidade seria análoga a uma carga vertical distribuída em uma viga
rígida horizontal cuja resultante do carregamento pode ser associada à idéia da média (valor
esperado) da distribuição enquanto que o desvio padrão está associado ao raio de aplicação da
resultante. Consistirá o processo então em substituir a resultante única por duas reações P
atuando em pontos estratégicos de tal forma a manter o equilíbrio, pontos estes
necessariamente distribuídos antes (-) e após (+) o ponto de aplicação da resultante. Estas
reações p- e p+ são os pontos estimados da distribuição de ƒ(X) que pode até não ser
conhecida. Portanto, conhecendo-se, nos casos mais comuns, as médias e os desvios padrões
das variáveis independentes, e uma solução matemática que reuna estas variáveis às variáveis
dependentes, pode-se estimar a variabilidade destas através da combinação das soluções
obtidas para as variáveis somadas ou subtraídas de um desvio padrão. Resolvendo
sucessivamente o problema, e combinando estas 2n soluções, sendo n o número de variáveis
independentes que apresentam desvio padrão diferente de zero, obtem-se a estimativa da
média e do desvio padrão de cada uma das variáveis dependentes de interesse.
Este capítulo visa a apresentação de três casos-históricos de obras geotécnicas, onde métodos
estatísticos e probabilísticos tem sido utilizados, indicando grandes melhorias na qualidade
dos resultados e nas tomadas de decisão.
Este exemplo baseia-se no trabalho a ser apresentado por Farias & Assis (1998) no próximo
congresso da ABMS (XI COBRAMSEG), onde é feita uma comparação entre dois métodos
probabilísticos (Método das Estimativas Pontuais – Rosenbleuth e Método FOSM – Primeira
Ordem Segundo Momento) aplicados à análise de estabilidade de dois taludes: um baixo,
típico de obras rodoviárias em solo, no qual predominava o efeito da coesão; e outro alto,
típico de mineração em rocha, no qual predominava o efeito do ângulo de atrito.
10.1.1 - INTRODUÇÃO
Diversas métodos probabilísticos têm sido desenvolvidos para gerar a distribuição de funções
de variáveis dependentes:
• Métodos "exatos";
• Aproximações da série de Taylor da variável dependente;
• Método das Estimativas Pontuais.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.1
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
é dito de Primeira Ordem Segundo Momento (FOSM). O valor médio da variável dependente
é calculado a partir dos valores médios das variáveis independentes. O desvio padrão é
calculado a partir das variâncias dos parâmetros de entrada e das derivadas da variável
dependente em relação a cada variável independente. Estas derivadas nem sempre são de fácil
determinação. Como vantagens estes métodos possuem uma formulação matemática mais
simples, não requerem grandes esforços computacionais, e permitem quantificar a influência
de cada variável independente na variância da variável dependente. Como desvantagem, não
obtém uma distribuição completa da variável dependente devendo-se adotar hipóteses sobre
esta distribuição. Ademais, a probabilidade de ruptura máxima nem sempre está relacionada
com a superfície de ruptura com fator de segurança mínimo (Tobutt & Richards, 1979).
Numa terceira categoria está o Método das Estimativas Pontuais (Rosenbleuth, 1975). O
Método de Rosenbleuth dispensa, a priori, o conhecimento das funções de distribuição das
variáveis independentes, utilizando apenas os valores das estimativas pontuais calculados na
média mais desvio padrão e média menos desvio padrão de cada variável. A variável
dependente é calculada para estes pontos, obtendo-se uma amostra da qual se pode calcular
sua média e desvio padrão. O método é versátil e de fácil aplicação. Deve-se, entretanto,
assumir uma distribuição para a variável dependente e supõe-se que a distribuição de cada
variável independente seja simétrica.
• Coesão (c’);
• Ângulo de atrito (φ’) ou alternativamente tanφ';
• Peso específico (γ);
• Poro-pressão através do parâmetro (ru) no Caso 1 e da posição do nível d'água (NA) no
Caso 2como variável independente.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.2
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
No Caso 2, o lençol freático é simulado por dois trechos retos: um inclinado partindo do pé do
talude até um ponto verticalmente abaixo da crista e outro horizontal a partir deste ponto. O
nível de água (NA) médio se situa a 80 m abaixo da crista do talude. Os parâmetros foram
obtidos de uma campanha de laboratório composta de 50 ensaios de cisalhamento direto
(Sandroni & Sayão, 1992) e estão listados na Tabela 10.2.
O peso específico apresentado na Tabela 10.2 se refere ao material saturado abaixo do NA.
Acima do NA, o peso específico é de 28,3 kN/m3 e foi considerado constante, uma vez que as
análises de Sandroni & Sayão (1992) indicaram uma influência insignificante deste parâmetro.
• MÉTODO FOSM
E [ F] − 1
β= (10.1)
σ [ F]
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.3
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
O desvio padrão é, por definição, igual raiz quadrada da variância, V[F], a qual é calculada no
método FOSM pela seguinte expressão (Christian et al., 1992):
2
n
dF
V[F] = ∑ V[Xi ] (10.2)
i =1 dX i
As derivadas (dF/dXi) são calculadas a partir das variações no fator de segurança (dF)
causadas por "pequenas" variações nas variáveis independentes (dXi). Cada variável é
incrementada separadamente, enquanto as demais são mantidas fixas e iguais aos valores
médios. O tamanho dos incrementos (dXi) foi investigado, tomando-se valores crescentes
(1%, 5%, 10%, 20% etc) em torno dos valores médios.
O método FOSM exige pelo menos n+1 análises, para n variáveis independentes:
Para o Método de Rosenbleuth, tomam-se combinações dos valores nas estimativas pontuais
máximas (Xi+σ[Xi]) e mínimas (Xi-σ[Xi]) para cada variável independente. São, portanto,
necessárias 2n análises separadas. A cada análise é feita uma nova procura pela superfície
crítica, a qual pode diferir significativamente daquela calculada com os valores médios no
método FOSM.
Assumindo-se uma distribuição normal (Gauss) para os valores do fator de segurança (Fi)
calculados com as variáveis nos estimativas pontuais, o fator de segurança médio E[F] pode
ser calculado pelo primeiro momento da distribuição:
n
Fi
E[F] = ∑ (10.3)
i =1 n
1/ 2
n ( Fi ) 2 n F
σ[F] = ∑ −∑ i (10.4)
i =1 n i =1 n
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.4
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
dF
Tabela 10.3 - Derivadas para o Caso 1
dX i
dF dF dF dF
Método
dc dφ dru dγ
Bishop 0,0474 0,0231 -1,1452 -0,0516
FS
1,6 1,5
FS-Fell
FS-Bishop
1,5 FS-Janbu
FS-M&P
1,4
1,4
25 25,5 26 26,5 27 27,5
20 21 22 23 24 25 26
Coesão (kPa) Ângulo de Atrito
1,4
FS-Fell 1,38
1,3 FS-Bishop 1,36
FS-Janbu 1,34
FS-M&P 1,32
1,3
1,2
17 17,5 18 18,5 19
0,25 0,27 0,29 0,31 0,33 0,35
Ru
Peso específico (kN/m3)
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.5
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
A Tabela 10.4 apresenta os resultados obtidos para o fator de segurança médio (E[F]), o
desvio padrão (σ[F]), o índice de confiablidade (β) e a probabilidade de ruptura (Pr).
1 . 4 7 4
45 o
• Coesão - 14 e 26 kPa;
• Ângulo de atrito - 22,5 e 27,5o;
• Parâmetro ru - 0,15 e 0,35;
• Peso específico saturado - 15 e 19 kN/m3.
Isto perfaz um total de 24 = 16 casos, cujos resultados são apresentados na Tabela 10.5. As
superfícies críticas em cada caso foram monitoradas e estão assinaladas com um asterisco na
Tabela 10.5, quando diferem daquela encontrada no método FOSM com os valores médios.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.6
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.7
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
A Figura 10.3 mostra a variação do fator de segurança com as variáveis independentes para o
talude do Caso 2. Observa-se uma excelente correlação linear entre F e as variáveis
independentes. As primeiras derivadas de F calculadas da inclinação das curvas na Figura 10.3
são apresentadas na Tabela 10.7. Nota-se, no entanto, que para este caso há uma correlação
positiva entre F e peso específico, apesar de dF/dγ ser relativamente baixa.
dF
Tabela 10.7 - Derivadas para o Caso 2
dX i
dF dF dF dF
Método
dc dφ dru dγ
Bishop 0,0021 0,0469 -0,0045 0,0030
1,2
FS
1,3
FS-Fell
FS-Bishop
1,2
FS-Janbu
FS-M&P
1,1
1,1
38 38,5 39 39,5 40 40,5 41 41,5 42
25 26 27 28 29 30 31 32 33
Coesão (kPa) Ângulo de Atrito
1,3 1,3
1,2
FS
FS
1,2
FS-Fell FS-Fell
1,1
FS-Bishop FS-Bishop
FS-Janbu FS-Janbu
FS-M&P FS-M&P
1 1,1
0 5 10 15 20 29 29,5 30 30,5 31 31,5 32
NA
Peso específico (kN/m3)
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.8
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
A partir da comparação entre as derivadas nas Tabelas 10.3 e 10.7, pode-se também esperar
uma maior influência do ângulo de atrito e uma menor influência da coesão para o talude do
Caso 2. Os valores dos fatores de segurança médio, desvio padrão, índice de confiabilidade e
probabilidade de ruptura calculados pelo método FOSM estão resumidos na Tabela 10.8.
Diante da pequena influência do peso específico neste caso, adotou-se valores fixos de γnat e
γsat iguais aos valores médios (28,3 e 29 kN/m3). Os demais parâmetros (c', φ' e NA)
assumiram valores nas estimativas pontuais máximas e mínimas de acordo com os desvios
estabelecidos na Tabela 2. Os resultados do total de 8 casos analisados são mostrados na
Tabela 10.9.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.9
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
As superfícies críticas foram monitoradas para cada caso analisado, tendo se mostradas
bastante diferentes daquelas obtidas com os valores médios no método FOSM. As superfícies
para o Método de Bishop são mostradas na Figura 10.4. Nota-se que para as análise (5)-(8),
para as quais a coesão é praticamente nula, as superfícies críticas são bem mais superficiais.
(1)&FOSM
(2)
(3), (4)
(5),(7)
(6),(8)
Figura 10.4 - Superfícies críticas (Bishop) dos métodos Rosenbleuth e FOSM para o Caso 2
Este mesmo talude havia sido estudado pelo Método das Estimativas Pontuais por Assis et al.
(1997) os quais encontram uma probabilidade ruptura muito maior (18%) pelo Método de
Bishop. Acredita-se que esta discrepância se deva ao fato de os autores terem usado uma
maior variação para φ' (±5o) comparada a uma variação de ±3o, usada aqui e no artigo original
de Sandroni & Sayão (1992). Uma vez que este talude tem forte dependência do valor do
ângulo de atrito, um pequeno erro na variância de φ', leva uma grande variação na
probabilidade de ruptura. Ressalta-se, portanto, a importância de uma criteriosa determinação
dos coeficientes de variação das variáveis independentes do problema, preferencialmente
através de uma campanha representativa de ensaios, para uma melhor aplicação de métodos
probabilísticos.
A Tabela 10.10 apresenta um resumo dos métodos FOSM e Rosenbleuth para o talude do
Caso 2. De um modo geral o método FOSM apresentou uma maior média e um menor desvio
padrão. O efeito geral se refletiu numa menor probabilidade de ruptura para o Método FOSM.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.10
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
10.1.5 - CONCLUSÕES
• Foram analisados dois taludes: um baixo, típico de obras rodoviárias em solo, no qual
predominava o efeito da coesão; outro alto, típico de mineração em rocha, no qual
predominava o efeito do ângulo de atrito. Os taludes foram analisados por dois métodos
probabilísticos (FOSM e Estimativas Pontuais) e o cálculo do fator de segurança foi feito
através do Método de Bishop Simplificado.
• Ressalta-se a importância de determinar com precisão o desvio padrão de cada variável
envolvida no problema. Pequenos erros no coeficiente de variação de uma variável, podem
levar a erros significativos na probabilidade de ruptura em um talude que dependa
fortemente desta variável.
• A importância do peso específico não pode ser relevada a priori. Este parâmetro afeta tanto
os esforços resistivos, quanto os solicitantes. Desta forma pode afetar positivamente ou
negativamente o fator de segurança.
• Para o Método FOSM, ressalta-se a importância da determinação rigorosa da superfície
crítica uma vez que todas as demais variáveis são calculadas em torno desta superfície.
• A probabilidade de ruptura é função do efeito conjunto da média e do desvio padrão e deve
ser pensada em função destas duas variáveis inseparáveis. Quando estes parâmetros variam
na mesma direção (ambos aumentam ou diminuem), o efeito na probabilidade de ruptura
não é previsível apriori.
• Para os dois casos analisados a probabilidade de ruptura pelo Método das Estimativas
Pontuais foi maior, principalmente para o talude alto (Caso 2). No entanto, não se pode
ainda generalizar esta afirmativa. Em ambos os casos, o Método das Estimativas Pontuais
forneceu maior desvio padrão. Este fato pode estar ligado a uma maior dispersão das
superfícies de ruptura. Porém no primeiro caso a média também foi maior que a obtida pelo
FOSM, o que não implicaria necessariamente em maior Pr; enquanto que no segundo caso
a média foi menor, com conseqüente aumento na probabilidade de ruptura.
• O método FOSM apresenta a vantagem de quantificar a influência relativa de cada
parâmetro, além de exigir em princípio menos análises. No entanto, pode fornecer
probabilidades de ruptura abaixo das fornecidas pelo método de Rosenbleuth. Neste
sentido, os dois métodos podem se complementar.
• Diante da crescente disponibilidade de programas e microcomputadores eficientes, o custo
computacional de análises probabilísticas é muito pequeno, se comparado às informações
adicionais que podem fornecer. O único empecilho atual a uma maior utilização prática
destes métodos se justifica pela falta de valores de referência da probabilidade de ruptura
(Pr) para fixar critérios de projeto. Esta limitação, no entanto, tenderá a diminuir com a
aumento da utilização e confiança dos métodos probabilísticos.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.11
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Dentro desta visão encontra-se um trabalho que objetiva avaliar a qualidade de construção de
barragens de rejeito alteadas pelo método de montante (Assis & Espósito, 1995, Espósito,
1995 e Espósito et al., 1997). A seguir será feita uma breve apresentação deste trabalho, com a
finalidade de ilustrar a aplicação direta de métodos estatísticos e probabilísticos no estudo da
estabilidade de taludes de uma barragem de rejeito construída através de aterro hidráulico.
A massa específica seca do rejeito ρd foi obtida através das campanhas de ensaios de campo,
sendo verificada uma variação de ρd para o mesmo material, que foi chamado de A. Os
parâmetros efetivos de resistência, φ’ e c’, foram obtidos em laboratório para os valores
fixados de ρd, conforme Tabela 10.11.
Tabela 10.11 - Parâmetros efetivos de resistência em função das massas específicas secas
ρd (g/cm3) φ’(°) c’ (kPa)
1,85 26,5 10,2
1,95 27,0 10,6
2,04 30,1 10,2
2,08 30,5 9,8
2,18 32,7 2,6
2,23 36,0 7,9
2,27 36,2 9,0
Foi plotada a relação de ρd com φ’ (Figura 10.5), através de três trechos lineares. Vale
observar que os trechos onde aparecem retas pontilhadas são extrapolações das relações
obtidas em laboratório para cobrir toda a faixa de variabilidade encontrada em campo.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.12
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
2 a 3 φ = 29,5 ρd - 30,5
34 3
3 a 4 φ = 20,5 ρd - 10,6
29
2
1
24
1.7 1.9 2.1 2.3 2.5
Figura 10.5 - Relação entre a massa específica seca e o ângulo de atrito efetivo
A partir das equações obtidas através da relação entre ρd e φ’ para cada trecho (Figura 10.5),
foram determinados os valores de φ’ correspondentes a cada ρd encontrado no campo,
assumindo que φ’ obedece à mesma distribuição estatística de ρd (Tabela 10.14). A partir da
distribuição estatística de φ’ gerada em função da distribuição estatística de ρd foram
calculados o ângulo de atrito efetivo médio (φ’med ) e seu desvio padrão (∆φ’), que também se
encontram na Tabela 10.14. Em função da média e do desvio padrão de φ’ foram calculados
os pontos extremos, ou seja, φ’med - ∆φ’ e φ’med + ∆φ’, utilizados nas análises estatísticas que
se seguiram (Tabela 10.12).
Tabela 10.12 - Valores dos ângulos de atrito efetivos utilizados nas análises de estabilidade
φ’ (grau)
φ’med - ∆φ’ 26,2
φ’med 29,1
φ’med + ∆φ’ 32,0
Os valores da coesão efetiva (c’) também foram plotados em relação ρd (Figura 10.6), não
sendo possível definir equações que representassem a relação entre estas duas grandezas.
12
10
COESÃO EFETIVA (kPA)
2
1 .8 1 .9 2 2 .1 2 .2 2 .3
M A S S A E S P E C ÍF IC A S E C A (g /c m 3 )
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.13
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Desta forma, foi assumida uma distribuição constante, representada pela média e o desvio
padrão obtidos dos valores de c’ encontrados nos ensaios de laboratório, independentes dos
valores da massa específica seca (ρd). Foram, então, calculados a coesão efetiva média (c’med )
e o desvio padrão (∆c’), que se encontram na Tabela 10.13.
Tabela 10.13 - Valores das coesões efetivas utilizadas nas análises de estabilidade
c’ (kPa)
c’med - ∆c’ 5,78
c’med 8,60
c’med + ∆c’ 11,42
A Tabela 10.14 a seguir sintetiza os valores da distribuição do ângulo de atrito efetivo (φ‘) em
função da distribuição da massa específica seca (ρd).
No estudo de estabilidade de taludes busca-se o Fator de Segurança (FS), que pode ser
entendido como o valor numérico da relação estabelecida entre a resistência ao cisalhamento
disponível do solo e a resistência ao cisalhamento mobilizada para garantir o equilíbrio do
corpo deslizante, sob o efeito dos esforços atuantes. Um valor de FS ≥ 1 demonstra que os
esforços atuantes são menores do que os esforços resistentes.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.14
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Para executar uma análise estatística rigorosa, tendo em vista as variabilidades encontradas
nos parâmetros c’ e φ’ deveriam ser executados ensaios de resistência para cada tipo de
material encontrado, incluindo principalmente as variabilidades de granulometria e massa
específica seca ou porosidade. Com os resultados dos ensaios seria então feito um estudo das
distribuições estatísticas de c’ e φ’ sendo posteriormente aplicado no estudo probabilístico da
estabilidade da barragem. Obviamente este processo levaria a um número muito grande de
ensaios, o que não teria respaldo prático. Foram feitas, então, algumas simplificações:
1000 m
970 m
4
950 m 1
ENROCAMENTO REJEITO
CANGA
900 m
ARGILA MOLE
AREIA
AREIA ARGILOSA
SOLO RESIDUAL
ROCHA DE FUNDAÇÃO
Para a análise de estabilidade dos taludes da barragem foram utilizados métodos baseados no
princípio do equilíbrio limite para a determinação do fator de segurança FS, sendo os
reportados neste trabalho obtidos do Método de Bishop Simplificado. Também limitou-se a
análise de círculos críticos somente na região do espaldar de montante (rejeito), permitindo
círculos apenas pelas camadas superficiais da fundação, uma vez que o rejeito era o objeto
principal deste estudo.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.15
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Para as análises de estabilidade foi utilizado o parâmetro ru , por não possuir dados referentes
à poropressão. Por definição, ru é considerado um percentual entre a poropressão u e a tensão
geostática aplicada, ou seja ru = u / γ.h, sendo utilizado quando não se tem condições de
quantificar a poropressão real.
A utilização dos valores médios de c’ e φ’, juntamente com os valores estimados para ru, levou
a uma Análise Determinística em relação aos parâmetros de resistência, e Paramétrica em
relação à poropressão. Na Tabela 10.16, a seguir, são apresentados os parâmetros utilizados
nas análises e os resultados de FS obtidos. Através da Tabela 10.16, pode ser verificado que
quanto maior o valor de ru menor o valor de FS, como esperado, já que a poropressão afeta
diretamente a resistência ao cisalhamento.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.16
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Para o estudo probabilístico foi utilizado o Método das Estimativas Pontuais (Rosenblueth,
1975), que dispensa a priori o conhecimento das distribuições estatísticas das variáveis
independentes, usando somente suas médias e desvios padrão. Assim, cada variável tem dois
pontos de estimativa, média mais desvio padrão e média menos desvio padrão. Neste método
o FS é calculado em apenas alguns pontos, e com base nestes pontos se torna possível obter os
parâmetros estatísticos (momentos) da distribuição probabilística de FS. Segundo Rosenblueth
(1975) o número de casos a ser estudado corresponde a 2n, onde n é o número de variáveis
independentes. Neste estudo trabalhou-se com os parâmetros c’, φ’ e γsat, do rejeito, sendo c’ e
φ’ considerados variáveis independentes e, φ’ e γsat considerados variáveis dependentes entre
si. Desta forma, foi utilizado n = 2 (coesão e ângulo de atrito), logo, 4 casos foram analisados.
Para cada caso, por não ter dados referentes a poropressão, foi também realizado uma análise
paramétrica acoplada, com ru assumindo os valores de 10, 20, 30 e 40%. Assim, foram
analisadas 16 situações probabilísticas/paramétricas, sendo 4 paramétricas para cada análise
probabilísticas. Os resultados se encontram na Tabela 10.17.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.17
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
M1 = ∑ pi FSi (10.5)
M2 = ∑ pi (FSi)2 - M1 2 (10.6)
Onde:
pi = probabilidade de ocorrência de cada caso; como são 4 análises independentes, pi = 0,25;
FSi = valor do FS de cada análise.
1 FS − FSmed
2
No estudo em questão, para obter as curvas gaussianas fez-se FS variar de 0 até duas vezes o
valor de FSmed . Assim, foram determinadas as distribuições gaussianas para cada valor de ru ,
que se encontram apresentadas na Figura 10.8.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.18
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
4.0
ru = 0.1
3.0
ru = 0.2
ru = 0.3
f (FS)
2.0
ru = 0.4
1.0
0.0
0.0 1.0 2.0 3.0
FS
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.19
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.20
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Para cada caso de ru analisado, foi plotada uma curva de áreas integradas, denominada curva
de confiabilidade. Os valores das tabelas anteriores foram plotados, e se encontram na Figura
10.9.
1.0
0.8 ru = 0.1
ru = 0.2
CONFIABILIDADE
0.6
ru = 0.3
ru = 0.4
0.4
0.2
0.0
0.0 1.0 2.0 3.0 4.0
FS
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.21
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Por se tratar de uma metodologia recente, ainda não se tem experiência suficiente para
determinar a probabilidade de ruptura aceitável. A partir de que probabilidade de ruptura seria
conveniente indicar que um talude de barragem de rejeito não é confiável? Whitman (1986)
apresentam esta questão filosófica em torno da análise probabilística. Citam situações de
confiabilidade de 1/100000 ou menores para barragens de terra convencionais, e de 1/10 a
1/100 para casos de taludes de minas. Neste trabalho, devido a falta de referências para
barragens de rejeitos, optou-se por um valor aceitável da probabilidade de ruptura entre
1/10000 a 1/100000, dependendo dos riscos e danos envolvidos (materiais, ecológicos e
humanos). Dentro deste critério, no caso-estudo para a condição analisada, poderia ser
considerada uma otimização dos taludes, caso fosse constatada, através de piezômetros, uma
poropressão construtiva de apenas 0,1, uma vez que a probabilidade de ruptura é praticamente
zero. Por outro lado, para ru = 0,4 a probabilidade de ruptura seria de 1/10000, portanto não
aceitável. Assim será de fundamental importância o conhecimento das poropressões durante o
processo construtivo, para certificar a real probabilidade de risco desta barragem de rejeito.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.22
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
As amostragens para realização dos ensaios e as aferições “in situ” para o controle tecnológico
das obras de pavimentação devem ser executadas por um processo de escolha (sorteio)
aleatório, que apresente as seguintes vantagens principais:
• Todos os pontos da superfície de uma determinada camada de pavimento, que está sendo
verificada para aceitação, devem ter chance de serem escolhidos.
• As equipes de controle e os executantes dos serviços só devem tomar conhecimento dos
locais de verificação no momento de sua realização.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.23
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Qualquer sistema de controle de qualidade de obras, para ser útil e eficiente, deve ser de
simples realização e permitir que, a qualquer momento, o controlador visualize as falhas, que,
porventura, apareçam e tome a decisão acertada de corrigi-las, sem atrasar o andamento da
obra.
O cálculo dos valores das médias e/ou desvios padrões prováveis para assegurar os índices de
qualidade de cada serviço de acordo com as especificações, é feito através do que foi
estabelecido nas Etapas I e II.
σ σ
P = z0 ou P = t 0 (10.9)
n n
Onde:
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.24
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
especificações, o que não impediu no entanto que em momento algum ela não estivesse de
posse de todos os elementos para um julgamento correto para aceitação ou não dos serviços.
Etapa I
Etapa II
Etapa III
• A fiscalização decidiu verificar a qualidade dos serviços nos segmentos dados como
concluídos pela Construtora através de 3 ensaios no mínimo, portanto, n = 3.
• Fórmulas do limite inferior quando s é conhecido e o valor mínimo da especificação.
_
x - z0 σ ≤ µ
100 ≤ µ
Pela tabela da curva Normal, para uma probabilidade de ocorrências de apenas 5% de valores
abaixo do especificado, tem-se:
P (Z ≥ 0,05) ∴ z0 = 1,64
Sabendo-se que pela estatística X é o melhor valor estimativo da média µ, e de acordo com o
valor mínimo da especificação tem-se:
Etapa IV
• Com o aumento do tamanho da amostra (n = 17), como foi feito pela Construtora, o valor
do desvio padrão mostrou uma tendência de uma dispersão levemente maior do que foi
previsto, isto é, σ > 2,5.
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.25
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
• A Média do total dos resultados Construtora + Fiscalização foi a prevista e o valor mínimo
absoluto calculado pela fórmula do Limite Inferior (X - z0 = 104 - 1,64 x 2,6 = 99,74 ≈
100).
• A decisão da Fiscalização de realizar somente 3 ensaios, para verificação dos resultados,
parece ser perfeitamente aceitável, conforme pode verificar-se para os seguintes valores de n
de acordo com a Equação 10.5.
P = z0 + σ n em que z 0 = 1, 64 e σ = 2,5
n=1 P = 4,1
n=2 P = 3,0
n=3 P = 2,4
n=4 P = 2,1
n=5 P = 1,8
n=6 P = 1,7
n=7 P = 1,6
5
4
3
P
2
1
0
0 1 2 3 4 5 6 7
n
Figura 10.9 - Curva de limites de acurácia.
Etapa I
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.26
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
Etapa II
Etapa III
• A Fiscalização decidiu que vai verificar a qualidade dos serviços através de 3 ensaios no
mínimo, portanto n=3.
• Fórmulas do limite inferior quando σ e/ou C.V. é conhecido e o valor mínimo especificado.
•
X - z0 σ ≤ µ
10 ≤ µ
• Pela tabela da curva normal, para uma probabilidade de ocorrência de apenas 10% de
valores abaixo do especificado tem-se:
Pr (z ≥ 0,10) ∴ z0 = 1,28
σ = 3,68 ≈ 3,7
Etapa IV
• O valor mínimo encontrado com o total dos resultados reais das amostragens de campo foi:
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.27
Universidade de Brasília
Departamento de Engenharia Civil / FT
Programa de Pós-Graduação em Geotecnia
______________________________________________________________________________________
LI = X - Z0 σ = 14 - 1,28 x 3 = 10,16 ≈ 10
• A média X e o desvio padrão s, calculados com o total dos resultados reais de campo,
confirmaram praticamente as previsões estatísticas para estes valores.
• Os três ensaios aleatórios da fiscalização atestaram boa qualidade dos serviços com respeito
a este parâmetro.
• A curva da acurácia com σ = 3,6 e diversos valores de n indica também que para n > 3 a
acurácia não é substancialmente melhorada conforme se pode verificar na Figura 10.4.
P = z 0 + σ n ∴ P = 1, 28 + 3, 7 / n
n=1 P = 5,0
n=2 P = 3,9
n=3 P = 3,4
n=4 P = 3,1
n=5 P = 2,9
n=6 P = 2,8
5
4
3
P
2
1
0
0 1 2 3 4 5 6
n
Figura 10.10 - Curva de limites de acurácia
______________________________________________________________________________________
Métodos Estatísticos e Probabilísticos em Geotecnia - Capítulo 10 10.28
Universidade de Brasília
Departamento de Engenharia Civil e Ambiental / FT
Programa de Pós-Graduação em Geotecnia
BIBLIOGRAFIA
ANG, A.H.S. & TANG, W. (1975). Probability Concepts in Engineering Planning and
Design: Basic Principles. John Wiley & Sons, New York, USA, vol. 1, 422p.
ABPv (1985). Manual de Pavimentação Urbana: Controle Estatístico de Qualidade. ABPv,
Rio de Janeiro, RJ, III(4): 64 p.
Alonso, E.E. (1976). Risk analyses of slopes and its application to slopes in Canadian
sensitive clays. Geotechnique, 26(3): 453-472.
Arias, F.J. & Auvinet, G. (1999). Confiabilidad de trincheras estabilizadas com lodo. XI Pan-
American Conference on Soil Mechanics and Geotechnical Engineering, ISSMGE / ABMS
/ SAMS / SPG, Foz do Iguassu, Brazil, 1: 35-41.
Assis, A.P. & Espósito, T.J. (1995). Construção de barragens de rejeito sob uma visão
geotécnica. III Simpósio sobre Barragens de Rejeitos e Disposição de Resíduos, REGEO
'95, ABMS & ABGE, Ouro Preto, MG, pp. 259-273.
Assis, A.P., Espósito, T.J. & Gardoni, M.G. (1997). Comparação entre dois métodos
probabilísticos na análise da estabilidade de um talude de mina. 2a Conferência Brasileira
sobre Estabilidade de Encostas (COBRAE) e 2nd Pan-American Symposium on
Landslides, ABMS, ABGE & ISSMGE, Rio de Janeiro, Brazil, pp. 347-352.
Bowles, D.S. & Ko, H-Y (1984). Probabilistic Characterization of Soil Properties: Bridge
Between Theory and Practice. ASCE, New York, USA, 185 p.
Chowdhury, R.N. (1992). Simulation of risk of progressive slope failure. Canadian
Geotechnical Journal, 29: 94-102.
Chowdhury, R.N. (1993). Rational polynomial technique in slope-reliability analysis. Journal
of Geotechnical Engineering, ASCE, 119(12): 1910-1928.
Christian, J.T. (1999). Factors affecting the calculated reliability of slopes. XI Pan-American
Conference on Soil Mechanics and Geotechnical Engineering, ISSMGE / ABMS / SAMS /
SPG, Foz do Iguassu, Brazil, 3: 1225-1231.
Christian, J.T.; Ladd, C.C. & Baecher, G.B. (1992). Reliability and probability in stability
analysis. Stability and Performance of Slopes and Embankments II, Geotechnical Special
Publication No. 31, ASCE, New York, USA, 2: 1071-1111.
Davis, J.C. (1973). Statistic and Data Analysis in Geology. John Wiley & Sons, New York,
USA, 646 p.
D'Andrea, R.A. & Sangrey, D.A. (1982). Safety factors for probabilistic slope design. Journal
of the Geotechnical Engineering Division, ASCE, 108(GT9): 1101-1118.
Dell'Avanzi, E. (1995). Confiabilidade e Probabilidade em Análises de Estabilidade de
Taludes. Dissertação de Mestrado, Departamento de Engenharia Civil, PUC-Rio, Rio de
Janeiro, RJ, 135 p.
Dell'Avanzi, E. & Sayão, A.S.F.J. (1998). Avaliação da probabilidade de ruptura de taludes.
XI Congresso Brasileiro de Mecânica dos Solos e Engenharia Geotécnica, COBRAMSEG,
ABMS, Brasília, DF, 2: 1289-1295.
Espósito, T.J. (1995). Controle Geotécnico da Construção de Barragens de Rejeito - Análise
da Estabilidade de Taludes e Estudos de Percolação. Dissertação de Mestrado, Publicação
G.DM-021A/95, Departamento de Engenharia Civil, Universidade de Brasília, Brasília,
DF, 187 p.
Espósito, T.J. & Assis, A.P. (1998). Análise comparativa da variabilidade de parâmetros
geotécnicos entre diferentes alteamentos de uma barragem de rejeitos. XI Congresso
Brasileiro de Mecânica dos Solos e Engenharia Geotécnica, COBRAMSEG, ABMS,
Brasília, DF, 3: 1797-1804.
Espósito, T.J., Assis, A.P. & Ribeiro, L.F.M. (1997). Una alternativa de control de la calidad
de la construcción de represas de relaves. 4o Congreso Chileno de Ingenieria Geotecnica,
SOCHIGE, Valparaíso, Chile, pp. 455-468.
Farias, M.M. & Assis, A.P. (1998). Uma comparação entre métodos probabilísticos aplicados
a estabilidade de taludes”. XI Congresso Brasileiro de Mecânica dos Solos e Engenharia
Geotécnica, COBRAMSEG, ABMS, Brasília, DF, 2: 1305-1314.
Haldar, A. & Mahadavam, S. (1999). Probability, Reability and Statistical Methods in
Engineering Desing. John Wiley & Sons, New York, USA, 304 p.
Harr, M.E. (1985). Reliability – Based Design in Civil Engineering. McGraw-Hill Publishing
Company, New York, USA, 291 p.
Huamán, E.A.O., Campos, T.M.P. & Vargas, E.A. (1992). Análise de estabilidade de taludes
considerando ruptura progressiva. 1a Conf. Brasileira sobre Encostas, COBRAE, ABMS,
Rio de Janeiro, RJ, pp. 537-557.
Kottegoda, N.T. & Rosso, R. (1997). Statistics, Probability, and Reliability for Civil and
Environmental Engineers. McGraw-Hill Publishing Company, New York, USA,
735 p.
Lapponi, J.C. (1997). Estatística Usando Excel Versões 5 e 7. Lapponi, São Paulo, SP, 401 p.
Levine, D.M., Berenson, M.L. & Stephan, D. (1998). Estatística: Teoria e Aplicações. Livros
Técnicos e Científicos Editora S.A., Rio de Janeiro, RJ, 811 p.
Li, K.S. & Lo, S-C.R. (1993). Probabilistic Methods in Geotechnical Engineering. Balkema,
Rotterdam, Netherlands, 333 p.
Mello Franco, J.A. (1997). The coupling of Monte Carlo techniques with the fuzzified
determination of safety factors of slopes, aiming at the assessment of its overall stability
conditions. 2a Conferência Brasileira sobre Estabilidade de Encostas (COBRAE) e 2nd
Pan-American Symposium on Landslides, ABMS, ABGE & ISSMGE, Rio de Janeiro,
Brazil, pp. 545-556.
Mendonça, R.M.G., Silva, L.J.R.O.B. & Barroso, E.V. (1997). Um estudo sobre a
variabilidade da rugosidade de juntas de alívio em gnaisse facoidal do município do Rio de
Janeiro. 2a Conferência Brasileira sobre Estabilidade de Encostas (COBRAE) e 2nd Pan-
American Symposium on Landslides, ABMS, ABGE & ISSMGE, Rio de Janeiro, Brazil,
pp. 521-526.
Pacheco, M. (1990). Conceitos de probabilidade e análise de risco em estudos e projetos de
geotecnia. IX COBRAMSEF, ABMS, Salvador, BA, pp. 35-56.
Rétháti, L. (1988). Probabilistic Solutions in Geotechnics. Elsevier, Amsterdam, Netherlands,
451 p.
Riela, J., Urzúa, A., Christian, J.T., Karzulovic, A. & Flores, G. (1999). Slide rock wedge
reliability analysis of Chuquicamata mine slopes. XI Pan-American Conference on Soil
Mechanics and Geotechnical Engineering, ISSMGE / ABMS / SAMS / SPG, Foz do
Iguassu, Brazil, 3: 1289-1296.
Riela, J., Urzúa, A., Christian, J.T. & Troconis, M. (1999). Reliability analysis of slopes in a
fuel-oil storage reservoir. XI Pan-American Conference on Soil Mechanics and
Geotechnical Engineering, ISSMGE / ABMS / SAMS / SPG, Foz do Iguassu, Brazil, 3:
1165-1170.
Rosenblueth, E. (1975). Point estimates for probability moments. Proc. Nacional Academy of
Sciences, 72(10): 3812-3814.
Sandroni, S.S. & Sayão, A.S. (1992). Avaliação estatística do coeficiente de segurança de
taludes. 1a Conf. Brasileira sobre Encostas, COBRAE, ABMS, Rio de Janeiro, RJ, pp. 523-
536.
Sandroni, S.S. & Sayão, A.S. (1993). The use of relative probability of failure in the design of
open pit mine slopes. Innovative Mine Design for the 21st Century, Balkema, Rotterdam,
The Netherlands, pp. 21-24.
Santos da Silva, L., Sahlit, C.L. & Farias, M.M. (1999). Aplicação da análise plástica limite
aos métodos probabilísticos em Geotecnia”. XX Congresso Ibero-Latino Americano de
Métodos Computacionais em Engenharia, CILAMCE, São Paulo, SP.
Silveira, A. (1965). An analysis of the problem of washing through in protective filters. 6th
ICSMFE, ISSMFE, Montreal, Canada, pp. 551-555.
Soares, E.P., Lima, D.C., Bueno, B.S. & Virgili, J.C. (1997). Análise de estabilidade de um
talude da Mina de Águas Claras - MBR: Uma visão probabilística. 2a Conferência
Brasileira sobre Estabilidade de Encostas (COBRAE) e 2nd Pan-American Symposium on
Landslides, ABMS, ABGE & ISSMGE, Rio de Janeiro, Brazil, pp. 469-473.
Trueba, V. & Rodea, A. (1999). Análisis de la probabilidad de falla de presas. XI Pan-
American Conference on Soil Mechanics and Geotechnical Engineering, ISSMGE / ABMS
/ SAMS / SPG, Foz do Iguassu, Brazil, 3: 1027-1034.
Wackernagel, H. (1998). Multivariate Geostatistic: An Introduction with Applications.
Springer-Verlag, Berlin, Germany.
Whitman, R.V. (1984). Evaluating calculated risk in geothechnical engineering. Journal of
Geothecnical Engineering, ASCE, 110(2): 145-189.