Escolar Documentos
Profissional Documentos
Cultura Documentos
ERI
ALS
UPL
EME
NTARP
ARAACOMP
ANHAR
Breves Destaques para o
Capítulo Mãos à Obra
Para “Você Não Tem como Escapar dos Dados”
Não ter nenhum tipo de conhecimento sobre números resumidos que você recebe em um relatório
financeiro pode ser algo a lamentar. O exemplo “você poderia direcionar seu dinheiro para uma
empresa especializada em investimentos e prestar atenção somente em quão “mais rico” você está
ficando em razão das maravilhosas e constantes taxas de retorno” faz alusão aos investidores que
utilizaram os serviços da Bernard L. Madoff Investment Securities LLC. Ao longo das oscilações
ascendentes e descendentes da economia e do mercado acionário, esse fundo de investimentos
informou “maravilhosas e consistentes” taxas de retorno. Muitos investidores ficavam felizes em
ver os saldos de suas contas de investimentos crescerem, e deixaram de se ater ao ceticismo com
relação ao fato de como um homem, Bernard Madoff, podia estar se saindo tão bem investindo
em benefício deles. Recentemente, em dezembro de 2008, foi descoberto que Madoff estava con-
duzindo um fraudulento esquema Ponzi,* de longa data, com retornos fictícios.
Você pode ler tudo sobre a fraude e os esforços no sentido de recuperar o dinheiro das vítimas
dessa fraude no endereço www.madoff.com. Uma das questões que surgiram nos desdobramen-
tos dessa fraude é até que ponto outros investidores profissionais que investiram junto a Madoff
deveriam ser responsabilizados pela fraude. Algumas pessoas, incluindo o administrador legal
designado pela corte judicial norte-americana para supervisionar o caso, argumentaram que esses
investidores profissionais devessem ter percebido, por vários meios, incluindo análises estatísticas,
quão improváveis eram os retornos informados por Madoff em seus relatórios.
*Esquema Ponzi deriva seu nome de Charles Ponzi, um dos pioneiros em um tipo sofisticado de operação fraudulenta
de investimento do tipo “Pirâmide”, que envolve o pagamento de rendimentos anormalmente altos aos investidores, à
custa do dinheiro pago por investidores que chegam em um momento posterior, não caracterizando uma receita gerada
por negócios reais. (N.T.)
1
Breves Destaques para o
Capítulo 1
Para 1.1 Definindo Variáveis
Para determinar se uma variável é categórica ou numérica, indique se a variável pode unicamente
ser colocada em uma categoria, ou se ela pode ser contada ou mensurada. Caso você não consiga
contar ou medir a variável, então essa variável será categórica. Se você for capaz de contar ou
medir a variável, ela será, então, numérica.
“Ter uma conta no Twitter” é uma variável categórica, uma vez que a resposta pode ser apenas
Sim ou Não. O número de tweets que você fez durante o mês passado é uma variável numérica
discreta, uma vez que você está contando o número de tweets. A quantidade de tempo que você
gastou no Twitter.com durante o mês passado é um exemplo de uma variável contínua, uma vez
que você está medindo o tempo gasto no referido portal.
2
Breves Destaques para o Capítulo 1 3
A coleta de dados baseada na Grande Rede mundial pode ilustrar vários tipos de fontes de dados.
Habitualmente, um processo automatizado em um portal da Grande Rede coleta a quantidade de
tempo que cada visitante gasta visitando o portal. Isso representa uma fonte primária de dados,
uma vez que o próprio portal coleta os dados. Caso os projetistas de um portal na Grande Rede
desejem avaliar diferentes formatos em uma página da rede, eles podem coletar conduzindo um
experimento projetado no qual alguns visitantes visualizam um tipo de formato e outros visitantes
visualizam diferentes formatos. Muitas vezes, visitantes de um portal ou pessoas que compraram
produtos ou serviços no portal são convidados a completar um questionário de pesquisa depois
de fazerem a compra. As respostas da pesquisa ilustram outro método de coleta de dados. Uma
pesquisa geralmente consiste em uma série de perguntas, algumas categóricas e outras numéricas,
que os visitantes são convidados a responder. Algumas vezes, uma pesquisa pode perguntar aos
visitantes do portal o modo como eles navegam ao longo do portal. Esse tipo de coleta de dados
é frequentemente conduzido como um estudo observacional, como parte de um grupo de foco no
qual os participantes podem expressar suas opiniões em um estilo de formato livre.
em branco. Na planilha DadosSujos, as tabelas de procura, uma para cada variável categórica,
estão localizadas na coluna Q nos intervalos Q3:Q4, Q7:Q10, Q13:Q20 e Q23:Q25. (Observe que
os intervalos não incluem a linha correspondente ao cabeçalho para cada uma das listas.)
Entre as irregularidades de dados detectadas, na coluna K, as fórmulas não somente detectam o
erro de digitação na palavra Masculino que aparece como Masculine, como também a célula que não
contém um valor, a Célula B24. Na coluna M, as fórmulas detectam um espaço incorporado em um
valor que deveria corresponder a Economia/Finanças na linha 12, enquanto na coluna N as fórmulas
detectam as versões truncadas ou com erro de digitação para Não Decidido, nas linhas 17, 19 e 21.
Valores Numéricos que Estejam Fora de um Intervalo Definido Caso uma
variável numérica tenha um intervalo bem definido para os valores possíveis, utilize as funções
SE e OU, conjuntamente, para que sejam apontados valores que estejam fora do intervalo. Insira
fórmulas no formato =SE(OU(célula da variável numérica < valor mínimo, célula da variável
numérica > valor máximo), “Fora do intervalo”, “No intervalo”) para exibir uma entre duas
mensagens que indicam se o valor está dentro do intervalo ou fora do intervalo. Na coluna O da
planilha DadosSujos, essas fórmulas utilizam um intervalo que abrange desde um mínimo de 0
(zero) até um máximo de 4 para a variável GPA (média geral acumulada), e identificam o valor de
–3,0 em G53 e o valor de 7,3 em G54 como se posicionando fora do intervalo.
Os números na coluna J devem ser inseridos em ordem ascendente e representam estes intervalos
implícitos de valores numéricos: igual ou maior do que 0, porém menor do que 3,0; igual ou maior
do que 3,0, porém menor do que 3,3; igual ou maior do que 3,3, porém menor do que 3,7; igual ou
maior do que 3,7. Esses quatro intervalos, por sua vez, definem as categorias Sem Honras, Lista
de Honra, Lista do Decano e Lista do Presidente.
Observe que, ao inserir o intervalo de células correspondente à tabela de procura, a linha que
contém os cabeçalhos para as colunas (2 no exemplo) não está incluída. Caso um valor de GPA
inferior a 0 (presumidamente um valor inválido para a variável GPA) ocorra, a função retornará
um valor que no Excel corresponde a um erro, #N/D.
5
Breves Destaques para o
Capítulo 3
Para 3.2 Variação e Formato
Para o Coeficiente de Variação
O índice de Sharpe (Sharpe ratio) mede o retorno de um investimento com relação ao retorno para
um investimento isento de risco padronizado com base em sua respectiva variação. O índice de
Sharpe corresponde à fração entre a média aritmética e o desvio-padrão. O índice de Sharpe para
um investimento i é
em que
–
Xi 5 a média aritmética do retorno para o investimento i
–
Ri 5 a média aritmética do retorno para um ativo isento de risco, tal como o
Treasury bill (T-bill)
Si 5 o desvio-padrão para o investimento i
A estatística da curtose mede a diferença entre cada um dos valores e a média aritmética da amostra,
dividida pelo desvio-padrão elevado à quarta potência, e somada ao longo de todos os valores. Nas
versões atuais do Excel, a função CURT calcula essa estatística do seguinte modo:
6
Breves Destaques para o Capítulo 3 7
O cálculo real para o primeiro e o terceiro quartis ocorre nas colunas B e C (veja a seguir). A
fórmula na célula B4 implementa a Regra 1 discutida na Seção 3.3 dividindo um a mais do que
o número de valores de dados por quatro. A função SE na célula B5 determina se o resultado na
célula B4 é um número inteiro; em caso afirmativo, “A Regra 1 se aplica”.
Caso o resultado em B4 não corresponda a um número inteiro, então uma função SE embutida
pergunta se o resultado de B4 contém uma metade fracional. Caso contenha, então “A Regra 2 se
aplica”; caso contrário, “A Regra 3 se aplica”. A função SE embutida utiliza a função TETO para
arredondar para cima o resultado de B4, até o múltiplo mais próximo de 0,5. Isso significa que
a comparação B4=TETO(B4, 0,5) se manterá verdadeira somente se B4 contiver um valor com
uma metade fracional.
A fórmula na célula B6 aplica a Regra 2 arredondando para baixo (utilizando a função ARRE-
DMULTB) o resultado de B4, ou a Regra 3 arredondando para cima (utilizando a função ARRED)
o resultado de B4. A fórmula da célula C6 calcula o número correspondente à segunda classifica-
ção, caso a Regra 2 se aplique. As fórmulas na linha 7 determinam os valores a serem utilizados
adotando o k-ésimo menor valor ou valores.
As fórmulas nas linhas 9 a 13 operam com base no mesmo princípio, mas baseiam suas decisões
no número da classificação do terceiro quartil que é calculado na célula B9.
Os cálculos na coluna D são utilizados na planilha CÁLCULO com o objetivo de calcular o valor
esperado e a variância, conforme explicado adiante. Os cálculos apresentados na coluna C e E
não são necessários para a planilha CÁLCULO, mas são apresentados, com o intuito de simular
os cálculos ilustrados na Tabela 5.3 da Seção 5.1.
A planilha CÁLCULO utiliza a função SOMARPRODUTO (discutida na Seção F.4 do Apêndice
F) para calcular o valor esperado e a variância, conforme demonstrado a seguir.
Na célula B4, a planilha utiliza os valores correspondentes a X e P(X) com base na planilha DADOS
para calcular o valor esperado. Na célula B5, a planilha utiliza o valor calculado de [X – E(X)]2 e
o valor correspondente a P(X) para calcular a variância.
12
Breves Destaques para o
Capítulo 7
Para 7.2 A Distribuição de Amostragens para a Média
Aritmética
Para a Propriedade de Ausência de Viés
da Média Aritmética da Amostra
A propriedade de ausência de viés pode ser expressa sob a forma
por n 2 1. A divisão por n 2 1 permite que a variância da amostra, S 2, seja uma estimativa isenta
de viés para a variância da população, s 2.
13
Breves Destaques para o
Capítulo 9
Para GE9.1
Fundamentos da Metodologia de Testes de
Hipóteses
Nas células B15 e B16 da planilha CÁLCULO da pasta de trabalho Z para Média Aritméti-
ca, INV.NORMP.N (nível de significância/2) e INV.NORMP.N (1 – nível de significância/2)
calculam os valores críticos inferior e superior. A expressão 2 * (1 – DIST.NORMP.N (valor
absoluto da estatística do teste Z, Verdadeiro) calcula o valor-p para o teste bicaudal na célula
B17. Na célula A18, SE(valor-p , nível de significância, exibir mensagem de rejeição, exibir
mensagem de não rejeição) determina qual mensagem exibir na célula.
14
Breves Destaques para o
Capítulo 11
Para GE11.1 O Modelo Completamente Aleatório: Análise
da Variância de Fator Único
Para o Teste F de ANOVA de Fator Único para
Diferenças entre Mais de Duas Médias Aritméticas
Além das funções discutidas na Seção GE11.1, a planilha CÁLCULO utiliza a função DIST.F.CD
para calcular o valor-p na célula F13 e a função INV.F.CD para calcular a estatística do teste F
na célula G13.
15
Breves Destaques para o
Capítulo 12
Para GE12.1 Teste Qui-Quadrado para a Diferença entre
Duas Proporções
A planilha CÁLCULO da pasta de trabalho Qui-Quadrado utiliza as funções INV.QUIQUA.
CD para calcular o valor-p na célula B24 e utiliza as funções DIST.QUIQUA.CD para calcular
o valor-p na célula B26. Fórmulas nas tabelas Frequências Observadas e Frequências Esperadas
utilizam fórmulas aritméticas. A fórmula que utiliza a função SE na célula A30 determina se o
pressuposto da frequência esperada foi atendido ou violado.
16
Breves Destaques para o
Capítulo 13
Para 13.2
Determinando a Equação da Regressão Linear
Simples
Esta é a visualização de fórmulas da Figura 13.4:
17
Breves Destaques para o
Capítulo 14
Para GE14.1 Desenvolvendo um Modelo de Regressão
Múltipla
Para Interpretar Coeficientes da Regressão
A Figura 14.1, da Seção 14.1, não mostra as colunas de K a N da planilha CÁLCULO. Essas
colunas contêm a fórmula para disposição ordenada no intervalo de células L2:N6 e os cálculos
correspondentes ao teste t para a inclinação (veja a Seção 13.7), no intervalo de células K8:L12.
A fórmula para disposição ordenada calcula os coeficientes b2, b1 e b0 nas células L2, M2 e
N2; o erro-padrão para b2, b1 e b0 nas células L3, M3 e N3; r 2 e o erro-padrão da estimativa nas
células L4 e M4; a estatística do teste F e os gl para o erro nas células L5 e M5; e SQReg e SQR
nas células L6 e M6. O restante do intervalo de células, N4, N5 e N6, exibe uma mensagem #N/D.
Isto não corresponde a um erro.
A célula L9 utiliza a função INV.T.BC (veja a Seção F.4 no Apêndice F) para calcular o valor
crítico correspondente ao teste t, utilizando os valores 1 – nível de confiança e Graus de liberdade
para o erro. Seguindo-se a isso, as células subsequentes multiplicam esse valor pelo erro-padrão de
um coeficiente, de modo a calcular as metades das amplitudes para cada um dos coeficientes. Esses
valores, por sua vez, são usados para calcular o valor Inferior e o valor Superior, nas colunas F e G.
A planilha CÁLCULO também utiliza a função DIST.F.BC(estatística do teste F, graus de
liberdade da regressão, graus de liberdade do erro) para o teste F na célula F12 e a função
DIST.T.BC(valor absoluto da estatística do teste t, graus de liberdade do erro) na coluna E, para
calcular os valores-p.
18