Você está na página 1de 19

MAT

ERI
ALS
UPL
EME
NTARP
ARAACOMP
ANHAR
Breves Destaques para o
Capítulo Mãos à Obra
Para “Você Não Tem como Escapar dos Dados”
Não ter nenhum tipo de conhecimento sobre números resumidos que você recebe em um relatório
financeiro pode ser algo a lamentar. O exemplo “você poderia direcionar seu dinheiro para uma
empresa especializada em investimentos e prestar atenção somente em quão “mais rico” você está
ficando em razão das maravilhosas e constantes taxas de retorno” faz alusão aos investidores que
utilizaram os serviços da Bernard L. Madoff Investment Securities LLC. Ao longo das oscilações
ascendentes e descendentes da economia e do mercado acionário, esse fundo de investimentos
informou “maravilhosas e consistentes” taxas de retorno. Muitos investidores ficavam felizes em
ver os saldos de suas contas de investimentos crescerem, e deixaram de se ater ao ceticismo com
relação ao fato de como um homem, Bernard Madoff, podia estar se saindo tão bem investindo
em benefício deles. Recentemente, em dezembro de 2008, foi descoberto que Madoff estava con-
duzindo um fraudulento esquema Ponzi,* de longa data, com retornos fictícios.
Você pode ler tudo sobre a fraude e os esforços no sentido de recuperar o dinheiro das vítimas
dessa fraude no endereço www.madoff.com. Uma das questões que surgiram nos desdobramen-
tos dessa fraude é até que ponto outros investidores profissionais que investiram junto a Madoff
deveriam ser responsabilizados pela fraude. Algumas pessoas, incluindo o administrador legal
designado pela corte judicial norte-americana para supervisionar o caso, argumentaram que esses
investidores profissionais devessem ter percebido, por vários meios, incluindo análises estatísticas,
quão improváveis eram os retornos informados por Madoff em seus relatórios.

*Esquema Ponzi deriva seu nome de Charles Ponzi, um dos pioneiros em um tipo sofisticado de operação fraudulenta
de investimento do tipo “Pirâmide”, que envolve o pagamento de rendimentos anormalmente altos aos investidores, à
custa do dinheiro pago por investidores que chegam em um momento posterior, não caracterizando uma receita gerada
por negócios reais. (N.T.)

1
Breves Destaques para o
Capítulo 1
Para 1.1  Definindo Variáveis
Para determinar se uma variável é categórica ou numérica, indique se a variável pode unicamente
ser colocada em uma categoria, ou se ela pode ser contada ou mensurada. Caso você não consiga
contar ou medir a variável, então essa variável será categórica. Se você for capaz de contar ou
medir a variável, ela será, então, numérica.
“Ter uma conta no Twitter” é uma variável categórica, uma vez que a resposta pode ser apenas
Sim ou Não. O número de tweets que você fez durante o mês passado é uma variável numérica
discreta, uma vez que você está contando o número de tweets. A quantidade de tempo que você
gastou no Twitter.com durante o mês passado é um exemplo de uma variável contínua, uma vez
que você está medindo o tempo gasto no referido portal.

Para 1.2  Escalas de Mensuração


Para Escala Nominal e Escala Ordinal
Qualquer variável cujos valores possam ser posicionados em ordem crescente ou decrescente tem
uma escala ordinal. Caso os valores de uma variável possam apenas ser colocados em categorias,
a variável tem uma escala nominal. A variável “Ter uma conta no Twitter” tem uma escala nominal
rica, uma vez que a resposta pode ser colocada tão somente na categoria Sim ou na categoria Não.
A variável “Como você classifica o seu nível de satisfação para com o portal do Twitter?” tem
uma escala ordinal, uma vez que as respostas potenciais, como Muito Insatisfeito, Relativamente
Insatisfeito, Neutro, Relativamente Satisfeito, e Muito Satisfeito, representam categorias que estão
ordenadas desde pouco satisfeito até muito satisfeito.

Para Escala Intervalar e Escala de Proporcionalidade


Uma variável numérica terá uma escala intervalar ou uma escala de proporcionalidade, e não uma
escala nominal ou uma escala ordinal. Caso ela não tenha um ponto zero verdadeiro, ela terá
uma escala intervalar. Variáveis que não podem ser medidas ao longo de uma escala física, como
ocorre com tempo, peso ou comprimento, são medidas em escalas de proporcionalidade, uma vez
que possuem um ponto zero verdadeiro, e existe uma proporção real entre um valor e outro (por
exemplo, o valor de 20 libras corresponde a duas vezes o valor de 10 libras). Variáveis, como a
média geral acumulada nas escolas norte-americanas (GPA – Grade Point Average) ou o resultado
correspondente a um teste de conhecimento ou de aptidão, são medidas em escalas intervalares, uma
vez que representam variáveis em que não existe um ponto zero verdadeiro, e você não consegue
interpretar verdadeiramente a proporção entre dois valores. Por exemplo, uma média geral acumulada
correspondente a 3,0 não pode ser considerada como duas vezes uma média acumulada de 1,50.

Para 1.3  Coletando Dados


Para Fontes de Dados
Organizações, agências governamentais e indivíduos que coletam dados para seu próprio uso como
uma fonte primária geralmente distribuem esses dados para que terceiros façam uso deles como uma
fonte secundária. Por exemplo, o U.S. Bureau of Labor Statistics coleta seus próprios dados mensais
sobre variações nos preços pagos por consumidores das áreas urbanas dos Estados Unidos para uma
cesta representativa de mercadorias e, depois disso, distribui o índice mensal de preços ao consumidor
para uso de terceiros. O U.S. Census Bureau coleta dados dos cidadãos para seu censo decenal e,
depois disso, distribui grande parte dos dados que coleta para que terceiros façam uso deles.

2
Breves Destaques para o Capítulo 1 3

A coleta de dados baseada na Grande Rede mundial pode ilustrar vários tipos de fontes de dados.
Habitualmente, um processo automatizado em um portal da Grande Rede coleta a quantidade de
tempo que cada visitante gasta visitando o portal. Isso representa uma fonte primária de dados,
uma vez que o próprio portal coleta os dados. Caso os projetistas de um portal na Grande Rede
desejem avaliar diferentes formatos em uma página da rede, eles podem coletar conduzindo um
experimento projetado no qual alguns visitantes visualizam um tipo de formato e outros visitantes
visualizam diferentes formatos. Muitas vezes, visitantes de um portal ou pessoas que compraram
produtos ou serviços no portal são convidados a completar um questionário de pesquisa depois
de fazerem a compra. As respostas da pesquisa ilustram outro método de coleta de dados. Uma
pesquisa geralmente consiste em uma série de perguntas, algumas categóricas e outras numéricas,
que os visitantes são convidados a responder. Algumas vezes, uma pesquisa pode perguntar aos
visitantes do portal o modo como eles navegam ao longo do portal. Esse tipo de coleta de dados
é frequentemente conduzido como um estudo observacional, como parte de um grupo de foco no
qual os participantes podem expressar suas opiniões em um estilo de formato livre.

Para GE1.3 Coletando Dados


Para Limpeza nos Dados
Você pode utilizar o Excel para analisar seus dados com relação aos seguintes tipos de irregula-
ridades:
• Valores de dados não numéricos para uma variável numérica
• Valores faltantes em determinadas células
• Valores categóricos inválidos de uma variável categórica
• Valores numéricos que estejam fora de um intervalo definido
Você pode apontar esses tipos de irregularidades acrescentando vários tipos de fórmulas à planilha
que contém os dados coletados por você. Você pode examinar essas fórmulas abrindo as várias
planilhas da pasta de trabalho Limpeza nos Dados, conforme discutido nos parágrafos a seguir.
Valores Faltantes em Determinadas Células  Para descobrir se qualquer uma das
células em uma coluna com variáveis está vazia, insira CONT.VALORES(intervalo de células de
valores de dados) na linha subsequente à última linha de dados, para contar o número de células
não vazias no intervalo de células correspondente aos dados.
Abra a planilha DadosSujos da pasta de trabalho Limpeza nos Dados. Fórmulas que utilizam
a função apropriada CONT.NÚM ou CONT.VALORES foram inseridas na linha 64, e fórmulas
que utilizam a função CONT.VALORES foram inseridas na linha 64 para as duas variáveis nu-
méricas, Idade e Média Geral Acumulada (GPA), nas colunas C e G, respectivamente. O valor
61 na célula B64 indica que uma célula na coluna B está vazia – faltando um valor. (Um rápido
exame na coluna B revela que a célula B43 está vazia e não contém o valor Feminino, conforme
pretendido, mas a célula vazia B43 pode ser descoberta por outros meios, conforme explicado
posteriormente nesta seção.)
Valores de Dados Não Numéricos para uma Variável Numérica  A irregulari-
dade talvez mais comum em uma planilha do Excel diz respeito a dados não numéricos para uma
variável numérica. Em algumas situações, os dados não numéricos podem ser facilmente detecta-
dos, como é o caso no valor k20 da célula C2, embora mais frequentemente esse tipo de erro seja
difícil de identificar. Reserve um tempo para examinar a coluna C. Você consegue enxergar outro
valor não numérico? Existe um em algum lugar nas primeiras 20 linhas!
Utilize conjuntamente as funções SE e ÉNÚM para identificar valores não numéricos. Insira
fórmulas no formato =SE(ÉNÚM(célula da variável numérica), “Numérico”, Não numérico”)
em uma nova coluna. Na planilha DadosSujos, essas fórmulas foram inseridas na coluna I
para verificar Idade e na coluna J para verificar GPA. A fórmula na célula I12 revela que a entra-
da para a célula C12, que se assemelha ao valor numérico 23, não é um valor numérico. (A en-
trada tem espaços anteriores e posteriores, o que faz com que o Excel trate a entrada como um
dado não numérico.)
Valores Categóricos Inválidos  Utilize a função PROCV para verificar que todos os va-
lores categóricos sejam válidos (conforme fornecido na definição operacional da variável). Insira
fórmulas no formato = PROCV(célula da variável numérica, tabela da procura, 1, Falso) para
exibir um valor válido ou o valor de erro do Excel, #N/D, para valores inválidos. Observe que essa
função requer uma tabela de procura, que é, em seu modo de uso, um intervalo de células de uma
coluna que contém todos os valores válidos para uma variável categórica, seguidos por uma célula
4  Breves Destaques para o Capítulo 1

em branco. Na planilha DadosSujos, as tabelas de procura, uma para cada variável categórica,
estão localizadas na coluna Q nos intervalos Q3:Q4, Q7:Q10, Q13:Q20 e Q23:Q25. (Observe que
os intervalos não incluem a linha correspondente ao cabeçalho para cada uma das listas.)
Entre as irregularidades de dados detectadas, na coluna K, as fórmulas não somente detectam o
erro de digitação na palavra Masculino que aparece como Masculine, como também a célula que não
contém um valor, a Célula B24. Na coluna M, as fórmulas detectam um espaço incorporado em um
valor que deveria corresponder a Economia/Finanças na linha 12, enquanto na coluna N as fórmulas
detectam as versões truncadas ou com erro de digitação para Não Decidido, nas linhas 17, 19 e 21.
Valores Numéricos que Estejam Fora de um Intervalo Definido  Caso uma
variável numérica tenha um intervalo bem definido para os valores possíveis, utilize as funções
SE e OU, conjuntamente, para que sejam apontados valores que estejam fora do intervalo. Insira
fórmulas no formato =SE(OU(célula da variável numérica < valor mínimo, célula da variável
numérica > valor máximo), “Fora do intervalo”, “No intervalo”) para exibir uma entre duas
mensagens que indicam se o valor está dentro do intervalo ou fora do intervalo. Na coluna O da
planilha DadosSujos, essas fórmulas utilizam um intervalo que abrange desde um mínimo de 0
(zero) até um máximo de 4 para a variável GPA (média geral acumulada), e identificam o valor de
–3,0 em G53 e o valor de 7,3 em G54 como se posicionando fora do intervalo.

Para Variáveis Recodificadas


Utilize a função PROCV para recodificar uma variável numérica em múltiplas categorias. Insira
PROCV(célula contendo o valor numérico, tabela de procura, 2) para recodificar o valor nu-
mérico. Observe que essa função requer uma tabela de procura, um intervalo de células de duas
colunas em que a primeira coluna contém um intervalo implícito de valores numéricos e a segunda
coluna contém o valor categórico para aquele intervalo.
Utilize a planilha AVANÇADO para a pasta de trabalho Recodificada como modelo para
recodificar uma variável numérica em múltiplas variáveis. Na coluna H, essa planilha utiliza
=PROCV(G2,$J$3:$K$6, 2) para recodificar os valores da variável numérica GPA na coluna G,
utilizando a tabela de procura nas colunas J e K (ilustrada a seguir).

Os números na coluna J devem ser inseridos em ordem ascendente e representam estes intervalos
implícitos de valores numéricos: igual ou maior do que 0, porém menor do que 3,0; igual ou maior
do que 3,0, porém menor do que 3,3; igual ou maior do que 3,3, porém menor do que 3,7; igual ou
maior do que 3,7. Esses quatro intervalos, por sua vez, definem as categorias Sem Honras, Lista
de Honra, Lista do Decano e Lista do Presidente.
Observe que, ao inserir o intervalo de células correspondente à tabela de procura, a linha que
contém os cabeçalhos para as colunas (2 no exemplo) não está incluída. Caso um valor de GPA
inferior a 0 (presumidamente um valor inválido para a variável GPA) ocorra, a função retornará
um valor que no Excel corresponde a um erro, #N/D.

Para GE1.4 Tipos de Métodos de Amostragem


Para Amostra Aleatória Simples
Utilize a planilha AVANÇADO da pasta de trabalho Aleatória como um modelo para criar uma
amostra aleatória simples que identifica valores duplicados que tenham sido selecionados. Essa
planilha contém uma fórmula no formato =SE(CONT.SE(B:B, número inteiro aleatório na célula
da coluna B) > 1, CONT.SE(B:B, número inteiro aleatório na célula da coluna B, “Único”)
que utiliza a função CONT.SE para contar as ocorrências do número inteiro aleatório na célula da
coluna B na coluna B (B:B). Caso a contagem seja maior do que 1, a função SE exibe o número
de vezes em que o valor ocorre; caso contrário, exibirá a palavra Único.
Breves Destaques para o
Capítulo 2
Para 2.5  Visualizando Duas Variáveis Numéricas
De acordo com dados coletados pela Organization for Economic Cooperation and Development
(OECD), existe uma relação negativa entre os recursos de uma nação e o conhecimento e as ap-
tidões de sua respectiva população de estudantes nas instituições de ensino de nível secundário.
Especificamente, a OECD descobriu, em dados coletados a partir de 65 países, que existe uma
relação negativa entre os recursos financeiros que o país extrai de seus recursos naturais e o conhe-
cimento e aptidões de suas respectivas populações de estudantes nas instituições de ensino de nível
secundário. (Veja o mapa de dados no endereço http://www.oecd.org/dataoecd/43/9/49881940.
pdf, e em T. Friedman, Pass the Books, Hold The Oil, The New York Times, 11 de março de 2012,
p. SR1, SR11.) Essa relação negativa significa que países que extraem maior quantidade de seus
respectivos recursos naturais apresentam pontuação mais baixa em termos de um teste que meça
o conhecimento e as aptidões de suas respectivas populações de estudantes nas instituições de
ensino de nível secundário do que países que extraiam menor quantidade de seus recursos naturais.

5
Breves Destaques para o
Capítulo 3
Para 3.2  Variação e Formato
Para o Coeficiente de Variação
O índice de Sharpe (Sharpe ratio) mede o retorno de um investimento com relação ao retorno para
um investimento isento de risco padronizado com base em sua respectiva variação. O índice de
Sharpe corresponde à fração entre a média aritmética e o desvio-padrão. O índice de Sharpe para
um investimento i é


em que

Xi 5 a média aritmética do retorno para o investimento i

Ri 5 a média aritmética do retorno para um ativo isento de risco, tal como o
Treasury bill (T-bill)
Si 5 o desvio-padrão para o investimento i

Para o Formato: Assimetria e Curtose


A estatística da assimetria mede a diferença entre cada um dos valores e a média aritmética da
amostra, dividida pelo desvio-padrão elevado à terceira potência, e somada ao longo de todos os
valores. Nas versões atuais do Excel, a função DISTORÇÃO calcula essa estatística do seguinte
modo:


A estatística da curtose mede a diferença entre cada um dos valores e a média aritmética da amostra,
dividida pelo desvio-padrão elevado à quarta potência, e somada ao longo de todos os valores. Nas
versões atuais do Excel, a função CURT calcula essa estatística do seguinte modo:

Para GE3.3  Explorando Dados Numéricos


Para Quartis
A planilha CÁLCULO da pasta de trabalho Quartil utiliza um sistema de fórmulas nas linhas
4 a 13 nas colunas A a C, para substituir os cálculos da função QUARTIL para o primeiro e o
terceiro quartis. Na coluna A (veja a seguir), a planilha utiliza as funções SE (veja a Seção F.4 do
Apêndice F) para exibir as legendas apropriadas nas células A6, A7, A11 e A12. Essas funções
SE nas células A6 e A7 utilizam o valor em B5 como a base para fins de comparação, enquanto as
funções SE nas células A11 e A12 utilizam o valor em B10. Por sua vez, os valores em B5 e B10
são determinados por outras funções SE naquelas células, conforme explicado posteriormente.

6
Breves Destaques para o Capítulo 3 7

O cálculo real para o primeiro e o terceiro quartis ocorre nas colunas B e C (veja a seguir). A
fórmula na célula B4 implementa a Regra 1 discutida na Seção 3.3 dividindo um a mais do que
o número de valores de dados por quatro. A função SE na célula B5 determina se o resultado na
célula B4 é um número inteiro; em caso afirmativo, “A Regra 1 se aplica”.
Caso o resultado em B4 não corresponda a um número inteiro, então uma função SE embutida
pergunta se o resultado de B4 contém uma metade fracional. Caso contenha, então “A Regra 2 se
aplica”; caso contrário, “A Regra 3 se aplica”. A função SE embutida utiliza a função TETO para
arredondar para cima o resultado de B4, até o múltiplo mais próximo de 0,5. Isso significa que
a comparação B4=TETO(B4, 0,5) se manterá verdadeira somente se B4 contiver um valor com
uma metade fracional.
A fórmula na célula B6 aplica a Regra 2 arredondando para baixo (utilizando a função ARRE-
DMULTB) o resultado de B4, ou a Regra 3 arredondando para cima (utilizando a função ARRED)
o resultado de B4. A fórmula da célula C6 calcula o número correspondente à segunda classifica-
ção, caso a Regra 2 se aplique. As fórmulas na linha 7 determinam os valores a serem utilizados
adotando o k-ésimo menor valor ou valores.
As fórmulas nas linhas 9 a 13 operam com base no mesmo princípio, mas baseiam suas decisões
no número da classificação do terceiro quartil que é calculado na célula B9.

Para o Resumo de Cinco Números e o Box-Plot


Uma vez que o Microsoft Excel não inclui um gráfico do tipo box-plot, a pasta de trabalho Box-
plot criativamente “utiliza indevidamente” oito gráficos de linha em um único gráfico de linha
com o objetivo de formar uma réplica de um box-plot.
A planilha GRÁFICO_DADOS inicialmente calcula o resumo de cinco números utilizando as
funções MÍNIMO, MED e MÁXIMO e os mesmos cálculos para quartis utilizados pela planilha
CÁLCULO da pasta de trabalho QUARTIL (veja a seção anterior). Os verdadeiros dados de gráfico
para os oito gráficos de linha estão ocultos na parte posterior do box-plot, mas estão revelados na
ilustração apresentada a seguir.
8  Breves Destaques para o Capítulo 3

Para GE3.5  A Covariância e o Coeficiente de Correlação


Para a Covariância
A pasta de trabalho Covariância utiliza fórmulas tanto na planilha DADOS quanto na plani-
lha CÁLCULO para calcular a covariância. Nas colunas C e D, a planilha DADOS calcula a
diferença entre cada um dos valores e a média aritmética correspondente às duas variáveis nu-
méricas, calculada nas células B4 e B5 da planilha CÁLCULO. Por sua vez, a célula B6 utiliza
a função SOMARPRODUTO (veja a Seção F.4 do Apêndice F) para calcular a soma dos pro-
dutos das diferenças correspondentes às duas variáveis. Embora esse cálculo não seja necessá-
rio para calcular a covariância na célula B9, utilizando a função COVARIAÇÃO.S, o cálculo
para SOMARPRODUTO permite que a fórmula alternativa =F6/F7 seja inserida na célula B9
para uso com versões mais antigas do Excel que não suportam a função COVARIAÇÃO.S.
Abra as planilhas DADOS_FÓRMULAS e CÁLCULO_FÓRMULAS para visualizar todas
as fórmulas utilizadas na pasta de trabalho.
Breves Destaques para o
Capítulo 5
Para GE5.1 A Distribuição de Probabilidades para uma
Variável Discreta
Tanto a planilha DADOS quanto a planilha CÁLCULO da pasta de trabalho Variável Dis-
creta contêm fórmulas, diferentemente da maior parte das pastas de trabalho dos Guias do Excel
discutidas neste livro.
A planilha DADOS contém os dados correspondentes ao problema que você fornece nas colunas
A e B e as fórmulas nas colunas C, D e E, conforme ilustrado a seguir.


Os cálculos na coluna D são utilizados na planilha CÁLCULO com o objetivo de calcular o valor
esperado e a variância, conforme explicado adiante. Os cálculos apresentados na coluna C e E
não são necessários para a planilha CÁLCULO, mas são apresentados, com o intuito de simular
os cálculos ilustrados na Tabela 5.3 da Seção 5.1.
A planilha CÁLCULO utiliza a função SOMARPRODUTO (discutida na Seção F.4 do Apêndice
F) para calcular o valor esperado e a variância, conforme demonstrado a seguir.


Na célula B4, a planilha utiliza os valores correspondentes a X e P(X) com base na planilha DADOS
para calcular o valor esperado. Na célula B5, a planilha utiliza o valor calculado de [X – E(X)]2 e
o valor correspondente a P(X) para calcular a variância.

Para GE5.3  A Distribuição Binomial


Conforme ilustrado a seguir, a planilha ACUMULADA da pasta de trabalho Binomial utiliza
a função DIST.BINOM(número de eventos de interesse, tamanho da amostra, probabilidade
de um evento de interesse, VERDADEIRO) para calcular a probabilidade acumulada na coluna
C da Tabela de Probabilidades Binomiais. A planilha utiliza, depois disso, fórmulas aritméticas
nas colunas D, E e F dessa tabela para calcular os valores correspondentes a P(, 5 X), P(, X),
P(. X) e P(. 5 X).
9
10  Breves Destaques para o Capítulo 5

A planilha ACUMULADA_ANTIGO utiliza a função mais antiga DISTRBINOM nas colu-


nas B e C e as mesmas fórmulas aritméticas nas colunas D, E e F para calcular probabilidades
binomiais.

Para GE5.4  Distribuição de Poisson


Conforme ilustramos a seguir, a planilha ACUMULADA da pasta de trabalho Poisson utiliza
a função DIST.POISSON(número de eventos de interesse, a média ou número esperado de
eventos de interesse, VERDADEIRO) para calcular a probabilidade acumulada na coluna C da
Tabela de Probabilidades de Poisson. A planilha utiliza, depois disso, fórmulas aritméticas nas
colunas D, E e F dessa tabela, com o objetivo de calcular os valores correspondentes a P(, 5 X),
P(, X), P(. X) e P(. 5 X).

A planilha ACUMULADA_ANTIGO utiliza a função mais antiga POISSON nas colunas


B e C e as mesmas fórmulas aritméticas nas colunas D, E e F para calcular probabilidades
de Poisson.

Para GE5.5  Distribuição Hipergeométrica


Conforme ilustrado a seguir, a planilha ACUMULADA da pasta de trabalho Hipergeométrica
utiliza a função DIST.HIPERGEOM(número de eventos de interesse, a média ou o número
esperado de eventos de interesse, VERDADEIRO) para calcular a probabilidade acumulada na
coluna C da Tabela de Probabilidades Hipergeométricas. A planilha utiliza, depois disso, fórmulas
aritméticas nas colunas D, E e F dessa tabela para calcular os valores correspondentes a P(, 5 X),
P(, X), P(. X) e P(. 5 X).
Breves Destaques para o Capítulo 5 11

A planilha ACUMULADA_ANTIGO utiliza a função mais antiga DIST.HIPERGEOM(X,


tamanho da amostra, número de eventos de interesse na população, tamanho da população) que
não inclui um valor de VERDADEIRO ou FALSO para indicar se devem ou não ser calculadas as
probabilidades acumuladas. Para calcular probabilidades acumuladas, ACUMULADA_ANTIGO
utiliza fórmulas aritméticas na coluna C. Com esta exceção, a planilha utiliza o mesmo modelo
da planilha ACUMULADA, incluindo o uso de fórmulas aritméticas nas colunas D, E e F, para
calcular probabilidades hipergeométricas.
Breves Destaques para o
Capítulo 6
Para GE6.2  A Distribuição Normal
A maior parte das fórmulas na planilha CÁLCULO da pasta de trabalho Normal utiliza opera-
ções aritméticas básicas ou uma entre três funções técnicas fundamentais: DIST.NORM.N, INV.
NORMP.N ou PADRONIZAR. Diferentemente da maior parte das outras planilhas CÁLCULO
correspondentes ao Guia do Excel, essa planilha utiliza as fórmulas na coluna A para criar dina-
micamente legendas, com base nos valores de dados que você insere.
Por exemplo, a fórmula na célula A10 5 “P(X , 5 “&B8&”)” resulta na exibição de P(X , 5 7),
uma vez que o conteúdo inicial da célula B8, 7, está combinado com “P(X , 5 “e”)”. Se você
inserisse o valor 9 na célula B8, a legenda na célula A!0 se modificaria para P(X , 5 9).

12
Breves Destaques para o
Capítulo 7
Para 7.2 A Distribuição de Amostragens para a Média
Aritmética
Para a Propriedade de Ausência de Viés
da Média Aritmética da Amostra
A propriedade de ausência de viés pode ser expressa sob a forma

Valor esperado(estatística da amostra) 5 parâmetro da população


Lembre-se, com base no Capítulo 3, de que, ao calcular a variância da amostra, você divide


por n 2 1. A divisão por n 2 1 permite que a variância da amostra, S 2, seja uma estimativa isenta
de viés para a variância da população, s 2.

13
Breves Destaques para o
Capítulo 9
Para GE9.1 
Fundamentos da Metodologia de Testes de
Hipóteses
Nas células B15 e B16 da planilha CÁLCULO da pasta de trabalho Z para Média Aritméti-
ca, INV.NORMP.N (nível de significância/2) e INV.NORMP.N (1 – nível de significância/2)
calculam os valores críticos inferior e superior. A expressão 2 * (1 – DIST.NORMP.N (valor
absoluto da estatística do teste Z, Verdadeiro) calcula o valor-p para o teste bicaudal na célula
B17. Na célula A18, SE(valor-p , nível de significância, exibir mensagem de rejeição, exibir
mensagem de não rejeição) determina qual mensagem exibir na célula.

Para GE9.2 Teste t de Hipóteses para a Média Aritmética


(s Desconhecido)
Nas células B16 e B17 da planilha CÁLCULO da pasta de trabalho T para Média Aritmética,
INV.T.BC(nível de significância, graus de liberdade) e INV.T.BC(nível de significância, graus
de liberdade) calculam os valores críticos inferior e superior, respectivamente. Na célula B18,
a planilha utiliza DIST.T.BC(valor absoluto da estatística do teste t, graus de liberdade) para
calcular o valor-p. A planilha também utiliza uma função SE para determinar qual mensagem
exibir na célula A19.

Para GE9.3 Testes Unicaudais


Na pasta de trabalho Z para Média Aritmética, INV.NORMP.N(nível de significância) e INV.
NORMP.N(1 – nível de significância) calculam o valor crítico inferior e o valor crítico superior na
célula B15 das planilhas CÁLCULO_INFERIOR e CÁLCULO_SUPERIOR, respectivamente.
DIST.NORMP.N(estatística do teste Z) e 1 – DIST.NORMP.N(valor absoluto da estatística do
teste Z, Verdadeiro) calculam, respectivamente, os valores-p correspondentes à cauda inferior e
à cauda superior, na célula B16 das duas planilhas ora mencionadas.
Na pasta de trabalho T para Média Aritmética, INV.T.BC(2 * nível de significância, graus
de liberdade) ou INV.T.BC(2 * nível de significância, graus de liberdade) calculam o valor
crítico inferior e o valor crítico superior na célula B16 das planilhas CÁLCULO_INFERIOR e
CÁLCULO_SUPERIOR, respectivamente.
O cálculo dos valores-p é mais complexo na pasta de trabalho T para a Média Aritmética. Na
planilha CÁLCULO_INFERIOR, caso a estatística do teste t seja menor do que zero, o valor-p da
cauda inferior é igual a DIST.T.CD(valor absoluto da estatística do teste t, graus de liberdade)
e o valor-p da cauda superior é igual a 1 – DIST.T.CD(valor absoluto da estatística do teste t,
graus de liberdade). (Essas funções aparecem nas células E11 e E12, respectivamente.) Na célula
B17, a fórmula que utiliza a função SE testa, no intuito de verificar se a estatística do teste t é
menor do que zero.
A planilha CÁLCULO_SUPERIOR utiliza um modelo semelhante, mas reverte os resultados na
fórmula da célula B17 porque, como ocorre em um teste da cauda superior, caso a estatística do
teste t seja menor do que zero, o valor-p é igual a 1 – DIST.T.CD(valor absoluto da estatística
do teste t, graus de liberdade) e, caso a estatística do teste t seja igual ou maior do que zero, o valor-p
é igual a DIST.T.CD(valor absoluto da estatística do teste t, graus de liberdade).

14
Breves Destaques para o
Capítulo 11
Para GE11.1 O Modelo Completamente Aleatório: Análise
da Variância de Fator Único
Para o Teste F de ANOVA de Fator Único para
Diferenças entre Mais de Duas Médias Aritméticas
Além das funções discutidas na Seção GE11.1, a planilha CÁLCULO utiliza a função DIST.F.CD
para calcular o valor-p na célula F13 e a função INV.F.CD para calcular a estatística do teste F
na célula G13.

Para Múltiplas Comparações: O


Procedimento de Tukey-Kramer
A maior parte das fórmulas nas planilhas TK copia valores da planilha CÁLCULO ou realiza
operações aritméticas. Merecedoras de observação são as fórmulas na última coluna (por exemplo,
a coluna I na planilha TK4) que utiliza a função SE para determinar qual das duas mensagens
deve ser apresentada.

Para GE11.2 O Modelo Fatorial: Análise da Variância de


Dois Fatores
Além das funções discutidas na Seção GE11.2, a planilha CÁLCULO utiliza as funções DIST.F.CD
na coluna F para calcular os valores-p e as funções INV.F.CD na coluna G para calcular as esta-
tísticas do teste F.

15
Breves Destaques para o
Capítulo 12
Para GE12.1 Teste Qui-Quadrado para a Diferença entre
Duas Proporções
A planilha CÁLCULO da pasta de trabalho Qui-Quadrado utiliza as funções INV.QUIQUA.
CD para calcular o valor-p na célula B24 e utiliza as funções DIST.QUIQUA.CD para calcular
o valor-p na célula B26. Fórmulas nas tabelas Frequências Observadas e Frequências Esperadas
utilizam fórmulas aritméticas. A fórmula que utiliza a função SE na célula A30 determina se o
pressuposto da frequência esperada foi atendido ou violado.

16
Breves Destaques para o
Capítulo 13
Para 13.2 
Determinando a Equação da Regressão Linear
Simples
Esta é a visualização de fórmulas da Figura 13.4:

Para GE13.2 Determinando a Equação da Regressão Linear


Simples
Não ilustrada na Figura 13.4 está a área de Cálculos nas colunas K a M. Essa área contém uma
fórmula para disposição ordenada no intervalo de células L2:M6 que contém a expressão PROJ.
LIN(intervalo de células da variável Y, intervalo de células da variável X, Verdadeiro, Verda-
deiro) para calcular os coeficientes b1 e b0 nas células L2 e M2, e os erros-padrão de b1 e b0 nas
células L3 e M3, r2 e o erro-padrão da estimativa nas células L4 e M4, a estatística do teste F e os
gl para o erro nas células L5 e M5, e SQReg e SQR nas células L6 e M6. Na célula L9, a expressão
INV.T(1 – nível de confiança, graus de liberdade do erro) calcula o valor crítico para o teste t.
Abra a planilha CÁLCULO_FÓRMULAS para examinar todas as fórmulas na planilha, algumas
das quais serão discutidas em seções posteriores neste Guia do Excel.

17
Breves Destaques para o
Capítulo 14
Para GE14.1 Desenvolvendo um Modelo de Regressão
Múltipla
Para Interpretar Coeficientes da Regressão
A Figura 14.1, da Seção 14.1, não mostra as colunas de K a N da planilha CÁLCULO. Essas
colunas contêm a fórmula para disposição ordenada no intervalo de células L2:N6 e os cálculos
correspondentes ao teste t para a inclinação (veja a Seção 13.7), no intervalo de células K8:L12.
A fórmula para disposição ordenada calcula os coeficientes b2, b1 e b0 nas células L2, M2 e
N2; o erro-padrão para b2, b1 e b0 nas células L3, M3 e N3; r 2 e o erro-padrão da estimativa nas
células L4 e M4; a estatística do teste F e os gl para o erro nas células L5 e M5; e SQReg e SQR
nas células L6 e M6. O restante do intervalo de células, N4, N5 e N6, exibe uma mensagem #N/D.
Isto não corresponde a um erro.
A célula L9 utiliza a função INV.T.BC (veja a Seção F.4 no Apêndice F) para calcular o valor
crítico correspondente ao teste t, utilizando os valores 1 – nível de confiança e Graus de liberdade
para o erro. Seguindo-se a isso, as células subsequentes multiplicam esse valor pelo erro-padrão de
um coeficiente, de modo a calcular as metades das amplitudes para cada um dos coeficientes. Esses
valores, por sua vez, são usados para calcular o valor Inferior e o valor Superior, nas colunas F e G.
A planilha CÁLCULO também utiliza a função DIST.F.BC(estatística do teste F, graus de
liberdade da regressão, graus de liberdade do erro) para o teste F na célula F12 e a função
DIST.T.BC(valor absoluto da estatística do teste t, graus de liberdade do erro) na coluna E, para
calcular os valores-p.

Para GE14.3 Análise de Resíduos para o Modelo de


Regressão Múltipla
Na coluna D, a planilha RESÍDUOS calcula os valores previstos para Y, multiplicando os valo-
res de X1 pelo coeficiente b1 e os valores de X2 pelo coeficiente b2, e somando esses produtos ao
coeficiente b0. Para a primeira observação na linha 2, essa fórmula é =CÁLCULO!B18*B2 +
CÁLCULO!B19*C2 + CÁLCULO!B$17. Na coluna F, a planilha calcula os resíduos subtraindo
os valores previstos para Y dos valores reais de Y (=E2 – D2 para a primeira observação).

18

Você também pode gostar