Evidence-Based Technical Analysis Pag-1-300 Port

Machine Translated by Google
Baseado em evidências
Técnico
Análise
Aplicando o Científico
Método e
Inferência estatística
para sinais de negociação
DAVID R. ARONSON
John Wiley & Sons, Inc.

Copyright © 2007 por David R. Aronson. Todos os direitos reservados.
Publicado por John Wiley & Sons, Inc., Hoboken, Nova Jersey.
Publicado simultaneamente no Canadá.
Dados de Catalogação na Publicação da Biblioteca do Congresso:
Aronson, David R., 1945–

Análise técnica baseada em evidências: aplicando o método científico e
inferência estatística para sinais de negociação / David R. Aronson.
pág. cm.—(Série de negociação Wiley)
Inclui referências bibliográficas e índice.
ISBN-13: 978-0-470-00874-4 (pano)
ISBN-10: 0-470-00874-1 (pano)
1. Análise de investimentos. I. Título. II. Series.
HG4529.A77 2007
332,63'2042—dc22
2006014664
Impresso nos Estados Unidos da América

Conteúdo
Agradecimentos ix
Sobre o autor XI
Introdução 1
PARTE I Metodológico, Psicológico,

Filosófica e Estatística
Fundações
CAPÍTULO 1 Regras objetivas e sua avaliação 15
CAPÍTULO 2 A Validade Ilusória do Subjetivo

Análise técnica 33
CAPÍTULO 3 O Método Científico e Técnico

Análise 103
CAPÍTULO 4 Análise Estatística 165
CAPÍTULO 5 Testes de Hipóteses e Intervalos de Confiança 217
CAPÍTULO 6 Viés de mineração de dados: o ouro dos tolos da AT

objetiva 255
CAPÍTULO 7 Teorias de movimento de preços não aleatórios 331
PARTE II Estudo de caso: regras de

sinalização para o índice S&P 500
CAPÍTULO 8 Estudo de caso de mineração de dados de regras

para o S&P 500 389
CAPÍTULO 9 Resultados do Estudo de Caso e o Futuro do TA 441

APÊNDICE Prova de que a redução é equivalente a

Benchmarking com base no viés de posição 475
Notas 477
Índice 517
Introdução
A análise técnica (TA) é o estudo de padrões recorrentes em
T dados de mercado com a intenção de prever movimentos futuros de preços.1

É composto por vários métodos de análise, padrões, sinais, indicadores e estratégias
de negociação, cada um com seus próprios líderes de torcida, alegando que sua abordagem
funciona.
Grande parte da AT popular ou tradicional está onde a medicina estava antes de evoluir
de uma arte folclórica baseada na fé para uma prática baseada na ciência. Suas alegações
são apoiadas por narrativas coloridas e anedotas cuidadosamente escolhidas (escolhidas a
cereja) em vez de evidências estatísticas objetivas.
A alegação central deste livro é que a AT deve evoluir para uma ciência observacional
rigorosa se quiser cumprir suas reivindicações e permanecer relevante.
O método científico é a única maneira racional de extrair conhecimento útil dos dados de
mercado e a única abordagem racional para determinar quais métodos de AT têm poder
preditivo. Eu chamo isso de análise técnica baseada em evidências (EBTA). Baseada em
observação objetiva e inferência estatística (ou seja, o método científico), a EBTA traça um
curso entre o pensamento mágico e a credulidade de um verdadeiro crente e a dúvida
implacável de um andarilho aleatório.
Abordar a AT, ou qualquer outra disciplina, de maneira científica não é fácil. Conclusões
científicas frequentemente entram em conflito com o que parece intuitivamente óbvio. Para os
primeiros humanos, parecia óbvio que o sol circulava a Terra. Foi necessária a ciência para
demonstrar que essa intuição estava errada. Uma abordagem informal e intuitiva para a
aquisição de conhecimento provavelmente resultará em crenças errôneas quando os
fenômenos são complexos ou altamente aleatórios, duas características proeminentes do
comportamento do mercado financeiro.
Embora não seja garantido que o método científico extraia ouro das montanhas de dados de
mercado, uma abordagem não científica quase certamente produzirá ouro de tolo.
A segunda afirmação deste livro é que grande parte da sabedoria que compreende
a versão popular da AT não se qualifica como conhecimento legítimo.
2 INTRODUÇÃO
DEFINIÇÕES CHAVE: PROPOSIÇÕES E REIVINDICAÇÕES,

CRENÇA E CONHECIMENTO
Já usei os termos conhecimento e crença , mas não os defini com rigor. Esses e vários outros
termos-chave serão usados repetidamente neste livro, portanto, algumas definições formais
são necessárias.
O bloco de construção fundamental do conhecimento é uma declaração declarativa,
também conhecida como afirmação ou proposição. Uma declaração declarativa é
um dos quatro tipos de enunciados que também incluem exclamações, perguntas,
e comandos. As declarações declarativas são diferenciadas das demais
em que eles têm valor de verdade. Ou seja, podem ser caracterizados como
verdadeiro ou falso ou provavelmente verdadeiro ou provavelmente falso.
A declaração “As laranjas estão à venda no supermercado por cinco centavos o
dúzia” é declarativa. Ele faz uma afirmação sobre um estado de coisas existente em
o mercado local. Pode ser verdadeiro ou falso. Em contrapartida, a exclamação
declaração “Caramba, que negócio”, o comando “Vá me comprar uma dúzia” ou
a pergunta “O que é uma laranja?” não pode ser chamado de verdadeiro ou falso.
A nossa investigação sobre a AT estará relacionada com declarações declarativas,
como, “A regra X tem poder preditivo”. Nosso objetivo é determinar qual
essas declarações declarativas garantem nossa crença.
O que significa dizer “eu acredito em X.”? “No que diz respeito aos estados de coisas
em geral (ou seja, 'questões de fato' ou 'o que acontecerá') acreditar X
equivale a esperar experimentar X se e quando estivermos em posição de
fazê-lo.”2 Portanto, se eu acredito na afirmação de que as laranjas estão à venda por cinco
centavos a dúzia, significa que espero poder comprar laranjas por cinco
centavos a dúzia se eu for à loja. No entanto, o comando para comprar alguns ou anges ou a
exclamação de que estou feliz com a oportunidade, não configura
tal expectativa.
O que tudo isso significa para nós? Para que qualquer afirmação seja considerada como
candidata à crença, ela deve “afirmar algum estado de coisas que
pode ser esperado.3 Diz-se que tais declarações têm conteúdo cognitivo—
eles transmitem algo que pode ser conhecido. “Se a declaração contém
nada para saber, então não há nada para se acreditar.”4
Embora todas as declarações declarativas tenham presumivelmente conteúdo cognitivo,
nem todas realmente têm. Isso não é um problema se a falta de capacidade cognitiva
conteúdo é óbvio, por exemplo, a declaração “A raiz quadrada de
Terça-feira é um número primo.”5 Esse enunciado é, à primeira vista, um absurdo.
Existem outros enunciados declarativos, porém, cuja falta de conteúdo cognitivo não é tão
óbvia. Isso pode ser um problema, porque tais
declarações podem nos levar a pensar que foi feita uma afirmação que cria uma expectativa,
quando, na verdade, nenhuma afirmação foi realmente apresentada. Essas declarações
pseudo-declarativas são essencialmente sem sentido
afirmações ou proposições vazias.
Introdução 3
Embora afirmações sem sentido não sejam candidatas válidas para crença, isso
não impede muitas pessoas de acreditar neles. As vagas previsões
feitas na coluna diária de astrologia ou as nebulosas promessas feitas por
promotores de falsas curas de saúde são exemplos de alegações sem sentido.
Aqueles que acreditam nessas proposições vazias simplesmente não percebem que
o que lhes foi dito não tem conteúdo cognitivo.
Uma maneira de saber se um enunciado tem conteúdo cognitivo e é, portanto, um
candidato para crença é o teste de diferença discernível6 descrito por Hall.
“Enunciados com conteúdo cognitivo fazem afirmações que são verdadeiras ou
falso; e se eles são verdadeiros ou falsos faz uma diferença que pode ser
discernido. É por isso que esses enunciados oferecem algo em que acreditar e
por que não há sentido em tentar acreditar em um enunciado que não faz tal
oferta”7 Em outras palavras, uma proposição que passa pela diferença-discernível
teste estabelece uma expectativa tal que o estado de coisas, se a declaração
fosse verdadeira, é reconhecidamente diferente do estado de coisas, se a afirmação fosse
falsa.
O critério da diferença discernível pode ser aplicado a declarações que pretendem ser
previsões. Uma previsão é uma afirmação de saber algo sobre
o futuro. Se uma previsão tiver conteúdo cognitivo, será claramente discernível no resultado
se a previsão foi precisa ou não. Muitos, se não
maioria, das previsões emitidas por praticantes de AT popular são desprovidas de
conteúdo cognitivo por esses motivos. Em outras palavras, as previsões são
normalmente muito vagos para determinar se eles estavam errados.
A verdade ou falsidade da alegação de que as laranjas estão à venda por cinco centavos o
dúzia fará uma diferença perceptível quando eu chegar ao mercado. Isso é
essa diferença discernível que permite que a afirmação seja testada. Como será descrito no
Capítulo 3, testar uma afirmação com base em uma diferença discernível é central para o
método científico.
Hall, em seu livro Praticamente Profundo, explica por que acha
A psicanálise freudiana não tem sentido quando examinada à luz da
teste de diferença discernível.
“Certas afirmações freudianas sobre o desenvolvimento sexual humano são compatíveis
com todos os estados de coisas possíveis. Não há como confirmar ou desmentir a 'inveja do
pênis' ou o 'complexo de castração' porque não há
diferença distinguível entre evidências que afirmam e evidências que negam essas
interpretações de comportamento. Comportamentos exatamente opostos são
igualmente previsível, dependendo se o suposto psicossexual
o estresse é evidente ou reprimido”. A exigência de “regras de conteúdo cognitivo
todos os enunciados que são tão soltos, mal formados ou obsessivamente mantidos
(por exemplo, teorias da conspiração) de que não há diferença reconhecível entre o que
seria o caso se fossem assim, e qual seria o caso
se não fossem.”8 Na mesma linha, a Teoria do Design Inteligente não carrega
carga cognitiva no sentido de que não importa qual forma de vida é observada, é
4 INTRODUÇÃO
consistente com a noção de que ela manifesta uma forma subjacente especificada
por algum designer inteligente.9
O que é então o conhecimento? O conhecimento pode ser definido como verdadeiro justificado
crença. Assim, para que um enunciado declarativo se qualifique como conhecimento, não
só deve ser um candidato a crença, porque possui
conteúdo, mas também deve atender a duas outras condições. Primeiro, deve ser
verdadeiro (ou provavelmente verdadeiro). Em segundo lugar, a afirmação deve ser
acreditada com justificação. Uma crença é justificada quando é baseada em inferências sólidas de
Evidência sólida.
Os humanos pré-históricos tinham a falsa crença de que o sol se movia
o céu porque o sol orbitava a terra. Claramente eles não estavam em posse de
conhecimento, mas suponha que houvesse uma pessoa pré-histórica
que acreditavam corretamente que o sol se movia no céu por causa de
a rotação da Terra. Embora essa crença fosse verdadeira, esse indivíduo poderia
não pode ser descrito como possuidor de conhecimento. Mesmo que eles acreditassem
o que os astrônomos finalmente provaram ser verdade, não havia evidência
ainda para justificar essa crença. Sem justificação, uma crença verdadeira não atinge o
status de conhecimento. Esses conceitos são ilustrados em
Figura I.1.
eueu
UMA St t e ment s
uma
Reivindicações vazias
Perguntas
Comandos
Bem formado
Declarações Declarativas
(Verdadeiro ou falso)
Verdadeiro
Declarações
Verdadeiro
Crenças
Justificado Conhecimento
por Evidência
& Inferência
FIGURA I.1 Conhecimento: crença verdadeira justificada.

Introdução 5
Disto segue-se que crenças errôneas ou falsos conhecimentos falham em

satisfazer uma ou mais das condições necessárias de conhecimento. Assim, uma crença
errônea pode surgir porque diz respeito a uma afirmação sem sentido ou
porque se trata de uma afirmação que, embora significativa, não é justificada por
inferências válidas a partir de evidências sólidas.
Ainda assim, mesmo quando fizemos tudo certo, desenhando o melhor
possível inferência a partir de evidências sólidas, ainda podemos acabar adotando
crenças errôneas. Em outras palavras, podemos ser justificados em acreditar em um
falsidade, e honestamente afirmam saber alguma coisa, se parece ser
verdade de acordo com inferências logicamente sólidas da preponderância de
evidências disponíveis. “Temos o direito de dizer 'eu sei' quando o alvo dessa alegação é
suportado além de qualquer dúvida razoável na rede de evidências bem testadas. Mas isso
não é suficiente para garantir que sabemos.”10
Falsidades são um fato inevitável da vida quando tentamos saber

coisas sobre o mundo com base em evidências observadas. Assim, o conhecimento
baseado no método científico é inerentemente incerto e provisório,
embora menos incerto do que o conhecimento adquirido por métodos menos formais.
No entanto, com o passar do tempo, o conhecimento científico melhora, pois passa a
descrever a realidade de forma progressivamente mais precisa. É uma contínua
trabalho em progresso. O objetivo do EBTA é um corpo de conhecimento sobre o mercado
comportamento que é o melhor possível, dados os limites da coleta de evidências e os
poderes de inferência.
CONHECIMENTO ERRO: O CUSTO

DE ANÁLISE INDISCIPLINADA
Entender por que o conhecimento produzido pela versão popular da AT

não é confiável, devemos considerar duas formas distintas de AT: subjetiva
e objetivo. Ambas as abordagens podem levar a crenças errôneas, mas
assim de maneiras distintas.
Os métodos objetivos de AT são procedimentos repetíveis bem definidos que processam
sinais inequívocos. Isso permite que eles sejam implementados como algoritmos
computadorizados e testados em dados históricos. Resultados produzidos por
um backtest pode ser avaliado de forma quantitativa rigorosa.
Os métodos subjetivos de AT não são procedimentos de análise bem definidos. Por
causa de sua imprecisão, as interpretações particulares de um analista são necessárias.
Isso impede a informatização, o backtesting e o desempenho objetivo
avaliação. Em outras palavras, é impossível confirmar ou negar uma
eficácia do método subjetivo. Por esta razão, eles são isolados do desafio probatório.
6 INTRODUÇÃO
Do ponto de vista da EBTA, os métodos subjetivos são os mais problemáticos.

São afirmações essencialmente sem sentido que dão a ilusão de
transmitir conteúdo cognitivo. Porque os métodos não especificam como
eles devem ser aplicados, diferentes analistas aplicando-o ao mesmo conjunto de
dados de mercado podem chegar a conclusões diferentes. Isso impossibilita
determinar se o método fornece previsões úteis. Análise clássica de padrões
gráficos,11 linhas de tendência desenhadas à mão, Princípio Elliott Wave,12 padrões
de Gann, Magic Ts e vários outros métodos subjetivos se enquadram nisso
categoria.13 AT subjetiva é religião – é baseada na fé. Nenhuma quantidade de
exemplos escolhidos a dedo mostrando onde o método bem-sucedido pode curar
essa deficiência.
Apesar de sua falta de conteúdo cognitivo e da impossibilidade de
sendo apoiado por evidências sólidas, não faltam crentes fervorosos em vários
métodos subjetivos. O Capítulo 2 explica como as falhas na vida humana
pensamento pode produzir crenças fortes na ausência de evidências ou mesmo em
diante de provas contraditórias.
A AT objetiva também pode gerar crenças errôneas, mas elas surgem
diferente. Eles são rastreáveis a inferências errôneas de evidências objetivas. O
simples fato de um método objetivo ter sido lucrativo em um
backtest não é motivo suficiente para concluir que tem mérito. Passado
desempenho pode nos enganar. O sucesso histórico é uma condição necessária, mas
não suficiente para concluir que um método tem poder preditivo e,
portanto, é provável que seja lucrativo no futuro. O desempenho passado favorável
pode ocorrer por sorte ou por causa de um viés ascendente produzido por um
forma de backtesting chamada mineração de dados. Determinando quando o back-test
os lucros são atribuíveis a um bom método e não à boa sorte é uma questão que só
pode ser respondida por inferência estatística rigorosa. Isto é
discutido nos Capítulos 4 e 5. O Capítulo 6 considera o problema do viés de mineração
de dados. Embora eu afirme que a mineração de dados, quando feita corretamente,
é o melhor método do técnico moderno para descoberta de conhecimento, testes
estatísticos especializados devem ser aplicados aos resultados obtidos com dados
mineração.
COMO O EBTA É DIFERENTE
O que diferencia o EBTA da forma popular de AT? Primeiro, é restrito

a alegações significativas – métodos objetivos que podem ser testados em
dados. Em segundo lugar, ele utiliza formas avançadas de inferência estatística para
determinar se um backtest lucrativo é indicativo de um método eficaz. Desta forma,
Introdução 7
o foco principal do EBTA é determinar quais métodos objetivos são dignos de uso real.
A EBTA rejeita todas as formas de AT subjetivas. A AT subjetiva não é sequer

errado. É pior do que errado. Afirmações que podem ser qualificadas como erradas
(falso) pelo menos transmitem conteúdo cognitivo que pode ser testado. As proposições da AT
subjetiva não oferecem tal coisa. Embora, à primeira vista, eles
parecem transmitir conhecimento, quando são examinados criticamente, torna-se
claro que são reivindicações vazias.
Os promotores das curas de saúde da Nova Era se destacam em alegações vazias. Eles dizem
você que usar sua pulseira mágica de cobre fará você se sentir melhor e colocar mais salto em
seu passo. Eles sugerem que seu jogo de golfe
melhorar e talvez até sua vida amorosa. No entanto, a falta de especificidade da alegação torna
impossível definir exatamente o que está sendo prometido ou
como pode ser testado. Tais alegações nunca podem ser confirmadas ou contrariadas
com provas objetivas. Por essas mesmas razões, pode-se dizer que a
proposições de AT subjetivas são vazias e, portanto, isoladas do empírico.
desafio. Eles devem ser tomados pela fé.
Em contraste, uma afirmação significativa é testável porque faz promessas mensuráveis.
Afirma especificamente o quanto seu jogo de golfe irá melhorar ou quão saltitantes serão seus
passos. Essa especificidade abre a reivindicação
ser contrariado com a evidência empírica.
Do ponto de vista da EBTA, os defensores dos métodos subjetivos são
diante de uma escolha: eles podem reformular o método para ser objetivo,
um praticante do Princípio da Onda Elliott fez,14 expondo-o assim
à refutação empírica, ou eles devem admitir que o método deve ser aceito
na fé. Talvez as linhas de Gann realmente forneçam informações úteis. Em seu
presente forma, nos é negado este conhecimento.
No que diz respeito à AT objetiva, a EBTA não recupera lucros
testes pelo valor de face. Em vez disso, eles são submetidos a rigorosas estatísticas
avaliação para determinar se os lucros foram devidos à sorte ou pesquisa tendenciosa.
Como será apontado no Capítulo 6, em muitos casos, o retorno lucrativo
testes podem ser ouro de tolo de um minerador de dados. Isso pode explicar por que muitos
métodos objetivos de AT que funcionam bem em um backtest têm um desempenho pior quando
aplicada a novos dados. A análise técnica baseada em evidências usa métodos estatísticos
intensivos em computador que minimizam os problemas decorrentes da
viés de mineração de dados.
A evolução da AT para EBTA também tem implicações éticas. É o
responsabilidade ética e legal de todos os analistas, qualquer que seja a forma de análise
praticam, fazer recomendações que tenham uma base razoável
e não fazer alegações injustificadas.15 A única base razoável para que um método de análise
tenha valor é a evidência objetiva. Subjetivo
8 INTRODUÇÃO
Os métodos TA não podem atender a esse padrão. AT objetiva, conduzida de acordo com as
normas da EBTA can.
RESULTADOS EBTA DA ACADEMIA
A análise técnica baseada em evidências não é uma ideia nova. Nos últimos dois
décadas, numerosos artigos em revistas acadêmicas respeitadas16 abordaram a AT da maneira
rigorosa preconizada por este livro.17 As evidências não são uniformes. Alguns estudos mostram
que a AT não funciona, mas alguns
mostre que sim. Porque cada estudo está confinado a um aspecto particular da
AT e um corpo de dados específico, é possível que os estudos alcancem diferentes
conclusões. Este é frequentemente o caso da ciência.
A seguir estão algumas das descobertas da AT acadêmica. Isto mostra
que, quando abordado de forma rigorosa e intelectualmente honesta, a TA
é uma área de estudo que vale a pena.
• Os grafistas especialistas são incapazes de distinguir gráficos de preços reais de ações

a partir de gráficos produzidos por um processo aleatório.18
• Há evidências empíricas de tendências em commodities19 e mercados de câmbio que podem
ser exploradas com a simples tendência objetiva
indicadores. Além disso, os lucros auferidos pelos especuladores seguidores de tendências
podem ser justificados pela teoria econômica20 porque suas atividades
fornecer aos hedgers comerciais um serviço econômico valioso, o
transferência do risco de preço do hedger para o especulador.
• Regras técnicas simples usadas individualmente e em combinações podem
geram lucros estatisticamente e economicamente significativos quando aplicados a
médias do mercado de ações compostas por empresas relativamente jovens (Rus sell 2000
e NASDAQ Composite).21
• As redes neurais foram capazes de combinar sinais de compra/venda de simples
regras de média móvel em modelos não lineares que apresentaram bom desempenho
preditivo no Dow Jones Average durante o período de 1897
para 1988,22
• As tendências nos grupos e setores da indústria persistem por tempo suficiente após a
detecção por indicadores simples de impulso para obter retornos excedentes.23
• As ações que exibiram força relativa anterior e fraqueza relativa continuam a apresentar
desempenho acima da média e abaixo da média em horizontes de 3 a 12 meses.24
• As ações dos Estados Unidos, vendendo perto de suas máximas de 52 semanas, superam
outras ações. Um indicador definido como o diferencial entre um
o preço atual da ação e sua alta de 52 semanas é um preditor útil de fu
Introdução 9
tura desempenho relativo.25 O indicador é um preditor ainda mais potente para ações
australianas.26
• O padrão gráfico de cabeça e ombros tem poder de previsão limitado
quando testado de forma objetiva em moedas. Melhores resultados podem
ser tido com regras de filtro simples. O padrão cabeça e ombros, quando
testado objetivamente em ações, não fornece informações úteis.27
Os comerciantes que agem em tais sinais seriam igualmente servidos seguindo
um sinal aleatório.
• As estatísticas de volume de negociação de ações contêm informações preditivas
úteis28 e melhoram a lucratividade dos sinais com base em grandes preços
alterações após um anúncio público.29
• Redes neurais de modelagem de dados com uso intensivo de computador, algoritmos
genéticos e outros métodos de aprendizado estatístico e inteligência artificial
encontraram padrões lucrativos em indicadores técnicos.30
QUEM SOU EU PARA CRITICAR TA?
Meu interesse pela AT começou em 1960, aos 15 anos.

e anos de faculdade, acompanhei um grande grupo de ações usando o Chartcraft
método ponto e figura. Tenho usado AT profissionalmente desde 1973, primeiro
como corretor da bolsa, depois como sócio-gerente de uma pequena empresa de software,
Raden Research Group Inc. - um dos primeiros a adotar o aprendizado de máquina
e mineração de dados em aplicações do mercado financeiro – e finalmente como um
trader proprietário de ações para Spear, Leeds & Kellogg.31 Em 1988, ganhei o
Designação de Técnico de Mercado credenciado pelos Técnicos de Mercado
Associação. Minha biblioteca pessoal de AT tem mais de 300 livros. Publiquei
aproximadamente uma dúzia de artigos e falei várias vezes
sobre o assunto. Atualmente leciono um curso de pós-graduação em TA na
Zicklin School of Business, Baruch College, City University of New York.
Admito livremente que meus escritos e pesquisas anteriores não atendem aos padrões da
EBTA, em particular no que diz respeito à significância estatística e ao viés de mineração
de dados.
Minha fé de longa data na AT começou a se desgastar em resposta a um
desempenho medíocre em um período de cinco anos negociando capital para Spear,
Leeds e Kellog. Como poderia aquilo em que eu acreditava com tanto fervor não funcionar?
Fui eu ou algo a ver com TA em geral? Minha formação acadêmica em
a filosofia forneceu terreno fértil para minhas dúvidas crescentes. Minhas preocupações
cristalizou em ceticismo completo como resultado da leitura de dois livros:
Como sabemos o que não é assim por Thomas Gilovich e Por que as pessoas acreditam
Coisas estranhas, de Michael Shermer. Minha conclusão: analistas técnicos,
10 INTRODUÇÃO
inclusive eu, sei muitas coisas que não são assim e acredito em muitas
coisas estranhas.
ANÁLISE TÉCNICA: ARTE, CIÊNCIA OU

SUPERSTIÇÃO?
Há um debate na comunidade de AT: é uma arte ou uma ciência? A pergunta foi formulada
incorretamente. É mais apropriadamente declarado como: A AT deve ser
baseado em superstição ou ciência? Enquadrado desta forma, o debate evapora.
Alguns dirão que a AT envolve muitas nuances e interpretações para tornar seu
conhecimento na forma de afirmações cientificamente testáveis. A isso eu retruco: AT que não
é testável pode soar como conhecimento, mas não é. Isso é
superstição que pertence ao reino da astrologia, numerologia e outras
práticas não científicas.
A criatividade e a inspiração desempenham um papel crucial na ciência. Eles serão
importante no EBTA também. Todas as investigações científicas começam com uma hipótese,
uma nova ideia ou um novo insight inspirado por uma misteriosa mistura de
conhecimento, experiência e um salto de intuição. No entanto, a boa ciência equilibra
criatividade com rigor analítico. A liberdade de propor novas ideias deve
casar com uma disciplina inflexível que elimina ideias que provam
inútil no cadinho do teste objetivo. Sem essa âncora na realidade, as pessoas se apaixonam
por suas ideias, e o pensamento mágico substitui o pensamento crítico.
É improvável que a AT venha a descobrir regras que prevejam com a precisão das leis
da física. A complexidade inerente e aleatoriedade de
mercados financeiros e a impossibilidade de experimentação controlada
impedir tais achados. No entanto, a precisão preditiva não é a definição
exigência da ciência. Em vez disso, é definida por uma abertura intransigente para reconhecer
e eliminar ideias erradas.
Tenho quatro esperanças para este livro: Primeiro, que estimule um diálogo
entre os analistas técnicos que acabarão por colocar nosso campo em uma base intelectual
mais firme; segundo, que irá encorajar mais pesquisas ao longo
as linhas aqui preconizadas; terceiro, que irá encorajar os consumidores de AT
exigir mais “carne” de quem vende produtos e serviços
mediante AT; e quarto, que irá encorajar os praticantes de AT, profissionais
e de outra forma, entender seu papel crucial em uma parceria homem-máquina que tem o
potencial de acelerar o crescimento de AT legítimos
conhecimento.
Sem dúvida, alguns colegas praticantes de AT ficarão irritados com essas
Ideias. Isso pode ser uma coisa boa. Uma ostra irritada por um grão de areia
às vezes dá uma pérola. Convido meus colegas a gastarem seus
Introdução 11
energias agregando ao conhecimento legítimo ao invés de defender o

indefensável.
Este livro está organizado em duas seções. A Parte Um estabelece os
fundamentos metodológicos, filosóficos, psicológicos e estatísticos da EBTA. A
Parte Dois demonstra uma abordagem ao EBTA: teste de 6.402 regras binárias
de compra/venda no S&P 500 em 25 anos de dados históricos. As regras são
avaliadas quanto à significância estatística usando testes projetados para lidar
com o problema de viés de mineração de dados.
Metodológico,
Psicológico,
Filosófica e
Estatística
Fundações
Regras objetivas e
suas
Avaliação
seu capítulo introduz a noção de regras objetivas de sinalização binária
T e uma metodologia para sua avaliação rigorosa. Ele define uma avaliação
ção de referência com base na rentabilidade de um sinal não informativo.
Também estabelece a necessidade de descompensar os dados de mercado para que os
desempenhos de regras com diferentes vieses de posição comprada/vendida possam ser comparados.
A GRANDE DIVISÃO: OBJETIVO VERSUS SUBJETIVO

ANÁLISE TÉCNICA
A análise técnica (AT) divide-se em duas grandes categorias: objetiva e subjetiva. A AT subjetiva
é composta por métodos e padrões de análise que não são definidos com precisão. Como
consequência, uma conclusão derivada de um método subjetivo reflete as interpretações
particulares do analista que aplica o método. Isso cria a possibilidade de que dois analistas que
aplicam o mesmo método ao mesmo conjunto de dados de mercado possam chegar a conclusões
totalmente diferentes. Portanto, os métodos subjetivos não são testáveis e as alegações de que
são eficazes estão isentas de contestação empírica. Este é um terreno fértil para os mitos
florescerem.
Em contraste, os métodos objetivos são claramente definidos. Quando um método de

análise objetivo é aplicado aos dados de mercado, seus sinais ou previsões são inequívocos.
Isso torna possível simular o método em dados históricos e determinar seu nível preciso de
desempenho. Isso é chamado de teste de volta. O backtesting de um método objetivo é, portanto,
um
16 FUNDAMENTOS METODOLÓGICOS, PSICOLÓGICOS, FILOSÓFICOS E ESTATÍSTICOS
experimento que permite que as alegações de lucratividade sejam testadas e possivelmente

refutadas com evidências estatísticas. Isso torna possível descobrir quais métodos objetivos
são eficazes e quais não são.
O teste decisivo para distinguir um método objetivo de um método subjetivo é o critério
de programabilidade: um método é objetivo se e somente se puder ser implementado como
um programa de computador que produza ambiguidade ou neutralidade3 ). Todos os métodos
1 2
curto,
(longas, reduzidas a tal programa são, por padrão,
que não
subjetivos.
podem ousar posições de mercado
REGRAS DA AT
Os métodos objetivos de AT também são chamados de regras mecânicas de negociação ou

sistemas de negociação. Neste livro, todos os métodos objetivos de AT são referidos
simplesmente como regras.
Uma regra é uma função que transforma um ou mais itens de informação, referidos
como entrada da regra, na saída da regra, que é uma posição de mercado recomendada
(por exemplo, comprada, vendida, neutra). A(s) entrada(s) consiste(m) em uma ou mais
séries temporais do mercado financeiro. A regra é definida por um ou mais operadores
matemáticos e lógicos que convertem a série temporal de entrada em uma nova série
temporal que consiste na sequência de posição de mercado recomendada (longa, curta, fora
do mercado). A saída é tipicamente representada por um número com sinal (por exemplo, +1
ou –1). Este livro adota a convenção de atribuir valores positivos para indicar posições
compradas e valores negativos para indicar posições vendidas. O processo pelo qual uma
regra transforma uma ou mais séries de entrada em uma série de saída é ilustrado na Figura
1.1.
Diz-se que uma regra gera um sinal quando o valor da série de saída muda. Um sinal
pede uma mudança em uma posição de mercado previamente recomendada. Por exemplo,
uma mudança na saída de +1 para –1 exigiria o fechamento de uma posição longa
anteriormente mantida e o início de uma nova posição curta. Os valores de saída não
precisam ser limitados a {+1, –1}. Uma regra complexa, cuja saída abrange o intervalo {+10,
–10}, é capaz de recomendar posições que variam em tamanho. Por exemplo, uma saída de
+10 pode indicar que 10 posições longas são garantidas, como 10 contratos longos de cobre.
Uma mudança na produção de +10 para +5 exigiria uma redução na posição comprada de
10 contratos para 5 (ou seja, vender 5).
Regras Binárias e Limites

A regra mais simples é aquela que tem uma saída binária. Em outras palavras, sua saída
pode assumir apenas dois valores, por exemplo, +1 e –1. Uma regra binária
Regras objetivas e sua avaliação 17
ENTRADA RESULTADO
Mercado Série Temporal
Tempo de
Series Posição de mercado
Tempo Regra
Matemática e
Grandes
Lógico
Tempo
Tempo Operadores Curto
etc.
FIGURA 1.1 A regra TA transforma as séries temporais de entrada em séries temporais de posição de
mercado.
também pode ser projetado para recomendar posições longas/neutras ou posições

curtas/neutras. Todas as regras consideradas neste livro são binárias longas/curtas
{+1, –1}.
Uma estratégia de investimento baseada em uma regra binária longa/curta está
sempre em uma posição longa ou curta no mercado que está sendo negociado. As
regras desse tipo são chamadas de regras de reversão porque os sinais exigem uma
reversão de longa para curta ou curta para longa. Ao longo do tempo, uma regra de
reversão produz uma série temporal de +1s e –1s que representam uma sequência
alternada de posições longas e curtas.
Os operadores matemáticos e lógicos específicos que são usados para definir
regras podem variar consideravelmente. No entanto, existem alguns temas comuns.
Um tema é a noção de limiar, um nível crítico que distingue as mudanças informativas
na série temporal de entrada de suas flutuações irrelevantes. A premissa é que a série
temporal de entrada é uma mistura de informação e ruído. Assim, o limiar atua como
um filtro.
As regras que empregam limites geram sinais quando a série temporal cruza o
limite, seja subindo acima dele ou caindo abaixo dele.
Esses eventos críticos podem ser detectados com operadores lógicos chamados em
igualdades como maior que (>) e menor que (<). Por exemplo, se o
a série temporal for maior que o limite, então a saída da regra = +1, caso contrário, a saída da
regra = –1.
Um limite pode ser definido em um valor fixo ou seu valor pode variar ao longo do tempo
como resultado de mudanças na série temporal que está sendo analisada. Os limites variáveis
são apropriados para séries temporais que exibem tendências, que são grandes mudanças de
longa duração no nível da série. As tendências, que tornam impraticáveis as regras de limite
fixo, são comumente observadas em preços de ativos (por exemplo, índice S&P 500) e
rendimentos de ativos (rendimento de títulos AAA). A média móvel e o filtro de reversão
Alexander, também conhecido como filtro ziguezague, são exemplos de operadores de séries
temporais comumente usados para definir limites de variáveis. Os operadores usados nas
regras discutidas neste livro são detalhados no Capítulo 8.
A regra de cruzamento de média móvel é um exemplo de como um limite variável é usado

para gerar sinais em uma série temporal que exibe tendências.
Esse tipo de regra produz um sinal quando a série temporal cruza de um lado de sua média
móvel para o outro. Por exemplo; Se a série temporal estiver acima de sua média móvel, a
saída da regra
valor = +1, caso contrário, o valor de saída da regra = –1.
Isso é ilustrado na Figura 1.2.
Por empregar um único limiar, os sinais gerados pela regra de cruzamento de média
móvel são, por definição, mutuamente exclusivos. Dado um único limite, existem apenas duas
condições possíveis – a série temporal está acima ou abaixo4 do limite. As condições também
são exaustivas (sem outras possibilidades).5 Assim, é impossível que os sinais da regra estejam
em conflito.
Preço
Nível Série Temporal
Mudança
Média
Regra Tempo
Resultado
+1
-1
FIGURA 1.2 Regra de cruzamento de média móvel.

As regras com limites de valor fixo são apropriadas para séries temporais de mercado que
não exibem tendências. Tais séries temporais são ditas estacionárias.
Existe uma definição matemática estrita de uma série temporal estacionária, mas
aqui estou usando o termo em um sentido mais amplo para significar que uma série tem um
valor médio relativamente estável ao longo do tempo e tem flutuações que são confinadas a um
intervalo aproximadamente horizontal. Os praticantes de análise técnica muitas vezes
referem-se a essas séries como osciladores.
As séries temporais que exibem tendências podem ser eliminadas. Em outras palavras, eles
pode ser transformada em uma série estacionária. A eliminação de tendências, que é descrita
com mais detalhes no Capítulo 8, frequentemente envolve tomar diferenças ou proporções. Por
exemplo, a razão de uma série temporal para seu movimento
average produzirá uma versão estacionária da série temporal original. Uma vez
destendida, a série será vista flutuando dentro de uma faixa horizontal relativamente bem
definida em torno de um valor médio relativamente estável. Uma vez o
as séries temporais foram tornadas estacionárias, regras de limite fixo podem ser empregadas.
Um exemplo de regra de limite fixo usando um limite de valor de
75 é ilustrado na Figura 1.3. A regra tem um valor de saída de +1 quando
a série é maior que o limite e um valor de –1 em outros momentos.
Regras binárias de vários limites

Como apontado anteriormente, as regras binárias são derivadas, muito naturalmente, de um
único limiar porque o limiar define dois limites mutuamente exclusivos e
condições exaustivas: a série temporal está acima ou abaixo do limite.
No entanto, as regras binárias também podem ser derivadas usando vários limites, mas
empregar mais de um limiar cria a possibilidade de que a entrada
100
75
50
25
0
+1
Regra
Resultado
-1
FIGURA 1.3 Regra com um único limiar fixo.

séries temporais podem assumir mais de duas condições. Consequentemente, vários

as regras de limiar requerem um operador lógico mais sofisticado do que o operador
de desigualdade simples (maior que ou menor que), que é suficiente para regras de
limiar simples.
Quando há dois ou mais limites, há mais de duas condições possíveis. Por
exemplo, com dois limites, um superior e um inferior,
existem três condições possíveis para a série temporal de entrada. Pode ser
acima do superior, abaixo do inferior ou entre os dois limiares. Para criar uma regra
binária nesta situação, a regra é definida em termos de dois eventos mutuamente
exclusivos. Um evento é definido pela série temporal que cruza um
determinado limiar em uma determinada direção. Assim, um evento desencadeia um
dos valores de saída da regra, que é mantida até um segundo evento,
que é mutuamente exclusivo do primeiro, aciona o outro valor de saída.
Por exemplo, um cruzamento para cima do limite superior aciona um +1 e
um cruzamento para baixo do limite inferior aciona um –1.
Um operador lógico que implementa esse tipo de regra é chamado de
chinelo de dedo. O nome deriva do fato de que o valor de saída da regra muda
uma maneira, na ocorrência de um evento, e depois flopa na outra,
na ocorrência do segundo evento. A lógica do flip-flop pode ser usada com
regras de limite variável ou fixa. Um exemplo de uma regra baseada em dois
limites variáveis é a regra de banda de média móvel. Consulte a Figura 1.4. Aqui,
a média móvel é cercada por uma banda superior e inferior. As bandas
pode ser um percentual fixo acima e abaixo da média móvel, ou o desvio das bandas
pode variar com base na volatilidade recente do
vezes, como é o caso da Bollinger Band.6 Um valor de saída de +1 é acionado por
uma perfuração para cima do limite superior. Este valor é retido
Preço
Preço
Faixa Superior Média móvel
Banda inferior
Regra
Resultado
+1
-1
FIGURA 1.4 Regra de bandas de média móvel.

até que o limiar inferior seja penetrado na direção descendente, causando

o valor de saída para mudar para –1.
Obviamente, existem muitas outras possibilidades. A intenção aqui tem
Foi ilustrar algumas das maneiras pelas quais as séries temporais de entrada podem ser
transformadas em séries temporais de posições de mercado recomendadas.
Hayes7 adiciona outra dimensão às regras de limite com direcional
modos. Ele aplica vários limites a uma série temporal estacionária, como um
indicador de difusão8 . Em um determinado momento, o modo do indicador é definido pela zona
que ocupa e sua direção recente de mudança (por exemplo, para cima ou
para baixo nas últimas cinco semanas). Cada zona é definida por um
e limiar inferior (por exemplo, 40 e 60). Hayes aplica isso a um proprietário
indicador de difusão chamado Big Mo. Com dois limites e duas possibilidades
modos direcionais (para cima/para baixo), são definidas seis condições mutuamente exclusivas.
Uma regra binária pode ser derivada de tal análise atribuindo
um valor de saída (por exemplo, +1) para uma das seis condições e, em seguida, atribuir
o outro valor de saída (ou seja, –1) para as outras cinco possibilidades. Hayes afirma que um
dos modos, quando o indicador de difusão está acima de 60 e
sua direção é ascendente, está associada aos retornos do mercado de ações (Valor
Índice Composto de Linha) de 50 por cento ao ano. Esta condição ocorreu cerca de 20 por
cento do tempo entre 1966 e 2000. No entanto,
quando o indicador de difusão é > 60, e sua variação recente é negativa, o
o retorno anualizado do mercado é zero. Esta condição ocorreu cerca de 16
por cento do tempo.9
REGRAS TRADICIONAIS E REGRAS INVERSAS
A Parte Dois deste livro é um estudo de caso que avalia a lucratividade de aproximadamente
6.400 regras binárias longas/curtas aplicadas ao índice S&P 500.
Muitas das regras geram posições de mercado consistentes com os princípios tradicionais de
análise técnica. Por exemplo, sob TA tradicional
princípios, uma regra de cruzamento de média móvel é interpretada como otimista (saída
valor +1) quando a série temporal analisada estiver acima de sua média móvel, e
bearish (valor de saída de -1) quando está abaixo da média móvel. eu me refiro
a estes como regras tradicionais de AT.
Dado que a veracidade da AT tradicional pode ser questionável, é desejável testar regras
contrárias à interpretação tradicional. Dentro
Em outras palavras, é inteiramente possível que os padrões que são tradicionalmente
considerados para prever o aumento dos preços possam realmente ser preditivos de queda
preços. Alternativamente, é possível que nenhuma configuração tenha qualquer valor preditivo.
Isso pode ser feito criando um conjunto adicional de regras cujas

Preço
Mudança
Média
Regra Tradicional
+1
Tempo
-1
+1
-1
Regra Inversa
FIGURA 1.5 Regras tradicionais e regras inversas.
saída é simplesmente o oposto de uma regra TA tradicional. Eu me refiro a elas como regras
inversas . Isso é ilustrado na Figura 1.5. O inverso da regra de cruzamento de média móvel
produziria um valor de –1 quando a série temporal de entrada estiver acima de sua média móvel
e +1 quando a série estiver abaixo de sua média móvel.
Há ainda outra razão para considerar regras inversas. Muitas das regras testadas na Parte
Dois utilizam séries de entrada diferentes do S&P 500, por exemplo, o diferencial de rendimento
entre títulos corporativos BAA e AAA. Não é óbvio como esta série deve ser interpretada para
gerar sinais.
Portanto, tanto as tendências de alta quanto as tendências de baixa no diferencial de rendimento
foram consideradas como possíveis sinais de compra. Os detalhes dessas regras são retomados
no Capítulo 8.
O USO DE BENCHMARKS NA AVALIAÇÃO DE REGRAS
Em muitos campos, o desempenho é uma questão relativa. Ou seja, é o desempenho relativo

a um benchmark que é informativo e não um nível absoluto de desempenho. No atletismo, os
competidores no arremesso de peso são comparados a um benchmark definido como a melhor
distância daquele dia ou a melhor já registrada no estado ou no mundo. Dizer que alguém
colocou o tiro a 43 pés não revela a qualidade do desempenho, porém se o melhor esforço
anterior foi de 23 pés, 43 pés é uma conquista significativa!
Isso se refere à avaliação de regras. Os números de desempenho são apenas informativos

quando comparados com um benchmark relevante. O isolado
o fato de uma regra ter obtido uma taxa de retorno de 10% em um teste de retorno não significa
nada. Se muitas outras regras ganharam mais de 30% com os mesmos dados, 10
por cento indicaria inferioridade, ao passo que se todas as outras regras mal fossem
lucrativo, 10% pode indicar superioridade.
Qual é então uma referência apropriada para o desempenho da regra de AT?
Que padrão uma regra deve superar para ser considerada boa? Há uma série de padrões
razoáveis. Este livro define esse padrão como o desempenho de uma regra sem poder preditivo
(ou seja, um padrão gerado aleatoriamente
sinal). Isso é consistente com a prática científica em outros campos. Na medicina, um novo
medicamento deve superar de forma convincente um placebo (pílula de açúcar) para
ser considerado útil. É claro que os investidores racionais podem razoavelmente
escolha um padrão mais alto de desempenho, mas não um menor. Algum outro
benchmarks que poderiam fazer sentido seriam a taxa de retorno sem risco,
o retorno de uma estratégia buy-and-hold, ou a taxa de retorno da regra atualmente em uso.
De fato, para ser considerada boa, não basta que uma regra simplesmente
bater o ponto de referência. Deve vencê-lo por uma margem suficientemente ampla para excluir
a possibilidade de que sua vitória tenha sido meramente por acaso (boa sorte). Isso é
perfeitamente possível que uma regra sem poder preditivo supere seu benchmark
em uma determinada amostra de dados por pura sorte. A margem de vitória que é suficiente para
excluir a sorte como explicação provável relaciona-se à questão da significância estatística. Isso
é retomado nos Capítulos 4, 5 e 6.
Tendo agora estabelecido que o benchmark que usaremos é o retorno que poderia ser
obtido por uma regra sem poder preditivo, agora enfrentamos
outra pergunta: quanto pode ganhar uma regra sem poder preditivo?
À primeira vista, pode parecer que um retorno de zero é uma expectativa razoável. No entanto,
isso só é verdade sob um conjunto específico e bastante limitado de
condições.
De fato, o retorno esperado de uma regra sem poder preditivo pode ser
dramaticamente diferente de zero. Isso porque o desempenho de um
regra pode ser profundamente afetada por fatores que nada têm a ver com sua
poder preditivo.
O efeito conjunto do viés de posição e

Tendência do mercado no desempenho do back-test
Na realidade, o desempenho comprovado de uma regra é composto por dois componentes

independentes. Um componente é atribuível à predição da regra
poder, se houver. Este é o componente de interesse. O segundo, e indesejado, componente de
desempenho é o resultado de dois fatores que
nada a ver com o poder preditivo da regra: (1) o viés de posição comprada/vendida da regra e
(2) a tendência líquida do mercado durante o período de back-test.
Este componente indesejável de desempenho pode influenciar drasticamente
resultados de back-test e dificultam a avaliação de regras. Pode fazer com que uma regra sem
poder preditivo gere um retorno médio positivo ou pode fazer com que uma regra com poder
preditivo genuíno produza um retorno médio negativo. A menos que este componente de
desempenho seja removido, a avaliação precisa da regra é impossível. Vamos considerar os
dois fatores que impulsionam esse componente.
O primeiro fator é o viés de posição comprada/ vendida de uma regra. Isso se refere à
quantidade de tempo que a regra gastou em um estado de saída +1 em relação à quantidade
de tempo gasto em um estado de saída –1 durante o backtest. Se um dos estados de saída
dominou durante o teste de retorno, diz-se que a regra tem um viés de posição. Por exemplo,
se mais tempo foi gasto em posições longas, a regra tem um viés de posição longa.
O segundo fator é a tendência líquida do mercado ou a variação média diária do preço do

mercado durante o período do back test. Se a tendência líquida do mercado for diferente de
zero e a regra tiver um viés de posição comprada ou vendida, o desempenho da regra será
afetado. Em outras palavras, o componente indesejável do desempenho distorcerá os resultados
do back-test, seja adicionando ou subtraindo do componente de desempenho que é devido ao
poder preditivo real da regra. Se, no entanto, a tendência líquida do mercado for zero ou se a
regra não tiver viés de posição, a lucratividade passada da regra será estritamente devida ao
poder preditivo da regra (variação aleatória mais ou menos). Isso é demonstrado
matematicamente mais tarde.
Para esclarecer, imagine uma regra de AT que tenha um viés de posição longa, mas que
sabemos não ter poder preditivo. Os sinais de tal regra podem ser simulados por uma roleta.
Para criar o viés de posição longa, a maioria dos slots da roda seria alocada para posições
longas (+1). Suponha que cem slots sejam alocados da seguinte forma; 75 são +1 e 25 são –1.
A cada dia, durante um período de dados históricos, a roda é girada para determinar se uma
posição longa ou curta deve ser mantida para aquele dia. Se a variação média diária do
mercado durante esse período fosse maior que zero (ou seja, tendência líquida de alta), a regra
teria uma taxa de retorno esperada positiva, mesmo que os sinais não contenham informações
preditivas. A taxa de retorno esperada da regra pode ser calculada usando a fórmula usada
para calcular o valor esperado de uma variável aleatória (discutida posteriormente).
Assim como é possível que uma regra sem poder preditivo produza uma taxa de retorno
positiva, é igualmente possível que uma regra com poder preditivo produza uma taxa de retorno
negativa. Isso pode ocorrer se uma regra tiver um viés de posição contrário à tendência do
mercado. O efeito combinado da tendência do mercado e do viés de posição da regra pode ser
suficiente para compensar qualquer retorno positivo atribuível ao poder preditivo da regra. A
partir da discussão anterior, deve ficar claro que o componente de desempenho devido à
interação do viés de posição com a tendência do mercado deve ser eliminado para desenvolver
um benchmark de desempenho válido.
À primeira vista, pode parecer que uma regra que tem um viés de posição comprada
durante uma tendência de alta do mercado é uma evidência do poder preditivo da regra.
No entanto, isso não é necessariamente assim. O viés de alta da regra pode ser
simplesmente devido à forma como suas condições longas e curtas são definidas. Se a
condição comprada da regra for mais facilmente satisfeita do que sua condição vendida,
todas as outras coisas sendo iguais, a regra tenderá a manter as posições longas uma
proporção maior do tempo do que as posições curtas. Essa regra receberia um aumento
de desempenho quando testada em dados históricos com uma tendência de mercado crescente.
Por outro lado, uma regra cuja condição vendida é mais facilmente satisfeita do que sua
condição comprada seria tendenciosa para posições vendidas e obteria um aumento de
desempenho se simulada durante um mercado de tendência descendente.
O leitor pode estar se perguntando como a definição de uma regra pode induzir um
viés para posições longas ou curtas. Isso merece alguma explicação. Lembre-se de que as
regras de reversão binária, do tipo testado neste livro, estão sempre em uma posição
comprada ou vendida. Dado isso, se a condição longa (+1) de uma regra é relativamente
fácil de satisfazer, segue-se que sua condição curta (–1) deve ser relativamente difícil de
satisfazer. Em outras palavras, a condição necessária para o estado de saída –1 é mais
restritiva, tornando provável que, com o tempo, a regra gaste mais tempo longo do que
curto. É igualmente possível formular regras onde a condição longa é mais restritiva do que
a condição curta. Todas as outras coisas sendo iguais, tal regra recomendaria posições
curtas com mais frequência do que longas. Seria contrário ao nosso propósito permitir que
a avaliação do poder preditivo de uma regra fosse impactada pelo relativo rigor ou frouxidão
da forma como suas condições longas e curtas são definidas.
Para ilustrar, considere a seguinte regra, que tem uma condição curta altamente
restritiva e, portanto, uma condição longa relativamente relaxada. A regra, que gera
posições no índice S&P 500, é baseada no Dow Jones Transportation Average.10 Suponha
que uma média móvel com bandas definidas em +3% e –3% seja aplicada ao DJTA. A
regra é estar curto no S&P 500 enquanto o DJTA estiver abaixo da banda inferior, por
definição uma condição relativamente rara, e longo em todos os outros momentos. Consulte
a Figura 1.6.
Claramente, tal regra se beneficiaria se o S&P estivesse em tendência de alta durante o
período de back-test.
Agora vamos considerar o backtest de duas regras de reversão binária que são
chamadas de regra 1 e regra 2. Elas são testadas nos dados do S&P 500 durante o período
de 1º de janeiro de 1976 a dezembro de 2004. Durante esse período de aproximadamente
7.000 dias, o S&P 500 tiveram um retorno médio diário de +0,035% ao dia composto, ou
+9,21897% anualizado. Suponha que a regra 1 estivesse em um estado longo 90% do
tempo e a regra 2 estivesse em um estado longo 60% do tempo. Além disso, suponha que
nenhuma regra tenha poder preditivo - como se seus valores de saída fossem determinados
por uma roleta com 100 slots. A saída para a regra 1 é baseada em uma roleta
Preço
DJTA
Média móvel
Mais baixo
Banda
Regra Tempo
Resultado
+1
-1
FIGURA 1.6 Regra com condição curta restritiva e viés de posição longa.
com 90 slots atribuídos a um valor de +1 e os 10 restantes atribuídos a um valor de –1. A saída

para a regra 2 é baseada em uma roda com 60 slots atribuídos a um valor +1 e 40 a um valor
de –1. Pela Lei dos Grandes Números,11 é razoável esperar que ao longo dos 7.000 dias, a
regra 1 seja longa muito perto de 90% das vezes e a regra 2 seja longa aproximadamente 60%
das vezes. Embora as regras tenham diferentes vieses longos/curtos, elas têm o mesmo poder
preditivo – nenhum. No entanto, suas taxas de retorno esperadas serão bastante diferentes
neste segmento da história do mercado.
O retorno esperado de uma regra depende de três quantidades; (1) a proporção de tempo
que a regra passou em posições compradas, (2) a proporção de tempo gasto em posições
vendidas (1 menos a proporção de tempo comprada) e (3) a variação média diária do preço do
mercado durante o período de teste histórico.
O retorno esperado (ER) é dado pela equação a seguir.
Retorno esperado
ER = [p(L) × ADC] – [p(S) × ADC]

Onde
p(L) – probabilidade de posição comprada (proporção
comprada) p(S) – probabilidade de posição vendida (proporção vendida)
ADC: variação média diária no mercado negociado
Com base nesse cálculo, o retorno esperado para a regra 1 é 0,028% ao dia ou 7,31%
anualizado.12 O retorno esperado para a regra 2 é
0,007 por cento ao dia ou 1,78 por cento anualizado.13 Isso demonstra que
o desempenho histórico das regras nos engana de duas maneiras. Primeiro, ambos
as regras geram retornos positivos, mas sabemos que nenhuma delas tem poder preditivo.
Em segundo lugar, a regra 1 parece ser superior à regra 2, embora
sabem que eles têm o mesmo poder preditivo — nenhum.
Ao testar as regras reais de negociação, uma maneira de remover o efeito enganoso
devido à interação do viés de posição e a tendência do mercado seria
faça o seguinte: Subtraia o retorno esperado de uma regra não preditiva
com o mesmo viés de posição que a regra testada a partir do retorno observado de
a regra testada. Por exemplo, suponha que não conhecemos as regras 1 e 2
não tinha poder preditivo. Simplesmente por conhecer seu viés de posição histórica,
90% para a regra 1 e 60% para a regra 2, e conhecendo o retorno médio diário do mercado
durante o período de back-test, poderíamos
calcular os retornos esperados para regras sem poder preditivo tendo
esses vieses de posição usando a equação para o retorno esperado já
mostrando. Os retornos esperados para cada regra e seriam então subtraídos
do desempenho observado de cada regra. Portanto, do retorno testado da regra 1, que foi de
7,31%, subtrairíamos 7,31%,
dando resultado zero. O resultado reflete adequadamente a falta de poder preditivo da regra
1. Do retorno de 1,78% da regra 2, subtraímos um valor
de 1,78 por cento, dando também um valor de zero, revelando também a sua falta de poder
preditivo.
A linha inferior é esta: ajustando o desempenho testado (observado) pelo retorno
esperado de uma regra sem poder preditivo com um viés de posição equivalente, o
componente enganoso do desempenho
pode ser removido. Em outras palavras, pode-se definir o benchmark para qualquer
regra como o retorno esperado de uma regra não preditiva com um viés de posição equivalente.
Uma solução mais simples para benchmarking:

Reduzindo os dados de mercado
O procedimento que acabamos de descrever pode ser bastante oneroso quando muitas regras
estão sendo testados. Exigiria que um benchmark separado fosse calculado
para cada regra com base em seu viés de posição específico. Felizmente existe um
maneira mais fácil.
O método mais fácil requer apenas que os dados históricos para o

mercado que está sendo negociado (por exemplo, índice S&P 500) seja removido antes do
teste de regras. É importante ressaltar que os dados sem tendência são usados apenas para o
propósito de calcular os retornos diários da regra. Não é usado para geração de sinal se a
série temporal do mercado que está sendo negociado também estiver sendo usada como
série de entrada de regra. Os sinais seriam gerados a partir de dados de mercado reais (não
descompensado).
Detrending é uma transformação simples, que resulta em um novo mercado

série de dados cuja variação média diária do preço é igual a zero. Como apontado
Se o mercado que está sendo negociado tiver uma tendência líquida de zero durante o período
de teste de retorno, o viés de posição de uma regra não terá efeito de distorção no desempenho.
Assim, o retorno esperado de uma regra sem poder preditivo, o
benchmark, será zero se seus retornos forem calculados a partir de dados de mercado sem
tendência. Consequentemente, o retorno esperado de uma regra que tem poder preditivo será
maior que zero quando seus retornos forem calculados
a partir de dados descompensados.
Para realizar a transformação de descompressão, primeiro determina-se o

variação média diária do preço do mercado que está sendo negociado ao longo do histórico
período de teste. Este valor médio é então subtraído do preço de cada dia
mudança.
A equivalência matemática entre os dois métodos discutidos,
(1) diminuir os dados de mercado e (2) subtrair um benchmark com um
viés de posição equivalente, pode não ser imediatamente óbvio. Uma detalhada
prova matemática é dada no Apêndice, mas se você pensar sobre isso, você
verá que, se a variação diária média do preço do mercado durante o período de teste histórico
for igual a zero, então regras desprovidas de poder preditivo
devem ter um retorno esperado de zero, independentemente de seu viés de posição comprada/
vendida.
Para ilustrar esse ponto, voltemos à fórmula para calcular o valor esperado de uma variável
aleatória. Você notará que se a média diária
mudança de preço do mercado que está sendo negociado é zero, não importa o que
p(longo) ou p(curto) são. O retorno esperado (ER) será sempre zero.
ER = [p (longo) × méd. retorno diário] – [p (curto) × avg. retorno diário]
Por exemplo, se os vieses de posição forem 60% longos e 40% vendidos, o retorno
esperado é zero.
0 = [0,60) × 0] – [0,40 × 0] Viés de posição: 60% comprado, 40% vendido
Se, por outro lado, uma regra tem poder preditivo, sua expectativa
o retorno dos dados descontinuados será maior que zero. Esse retorno positivo reflete o fato de
que as posições compradas e vendidas da regra são inteligentes e não
do que aleatório.
Usando logs de razão de preço diária em

vez de porcentagens
Até agora, os retornos das regras e do mercado negociado foram discutidos em termos
percentuais. Isso foi feito para facilitar a explicação. Quão
sempre, há problemas com o cálculo de retornos como porcentagens. Esses

problemas podem ser eliminados calculando os retornos diários como os logs de
rácios de preços que é definido como:
ÿ preço do dia atual ÿ

Entrar ÿ ÿ
ÿ preço do dia anterior ÿ
Os retornos de mercado baseados em log são eliminados exatamente da mesma maneira

medida que a porcentagem muda. O log da relação diária de preços para o mercado
sendo negociado é calculado para cada dia durante o período de back-test. A média é
encontrada e, em seguida, essa média é deduzida de cada dia. Isso elimina qualquer tendência
nos dados de mercado.
OUTROS DETALHES: A VISÃO DE OLHAR PARA A FRENTE E

CUSTOS DE NEGOCIAÇÃO
Dizem que o diabo mora nos detalhes. Quando se trata de testar regras, isso
verdade se aplica. Há mais dois itens que devem ser considerados para garantir
testes históricos precisos. Eles são (1) o viés de antecipação e a emissão relacionada, preços
de execução assumidos e (2) custos de negociação.
Viés de Previsão e Preços de Execução Presumidos
O viés de antecipação,14 também conhecido como “vazamento de informações futuras”, ocorre

no contexto de testes históricos quando informações que não eram verdadeiramente
disponível em um determinado momento foi assumido como conhecido. Em outros
palavras, a informação que seria necessária para gerar um sinal era
não estava realmente disponível no momento em que o sinal ocorreu.
Em muitos casos, esse problema pode ser sutil. Se não for reconhecido,
pode superestimar seriamente o desempenho de testes de regras. Por exemplo, suponha que
uma regra use o preço de fechamento do mercado ou qualquer série de entrada que apenas
torna-se conhecido no momento do fechamento. Quando este for o caso, seria
não é legítimo supor que alguém possa entrar ou sair de uma posição na
preço de fechamento do mercado. Supondo que isso infectaria os resultados com
viés de antecipação. Na verdade, a primeira oportunidade de entrar ou sair seria
ser o preço de abertura do dia seguinte (assumindo informação de frequência diária). Todas
as regras testadas na Parte Dois deste livro são baseadas em dados de mercado conhecidos
no fechamento de cada dia de negociação. Portanto,
os testes de regra assumem a execução ao preço de abertura no seguinte
dia. Isso significa que o retorno diário de uma regra para o dia atual (day0 ) é
igual ao valor de saída da regra (+1 ou –1) no fechamento do dia0 multi
plicado pela mudança do mercado do preço de abertura do preço do dia seguinte

(dia de abertura +1) para o preço de abertura do dia seguinte ( dia de abertura+2).
Essa mudança de preço é dada como o logaritmo da razão definida como preço de abertura do
dia+2 dividido pelo preço de abertura do dia+1, conforme mostrado na seguinte equação:
O+2
Pos0 × Log
O+1
Onde:
PDV 0 = Posição de mercado da regra no fechamento do dia0
O+1 = Abrir S&P 500 no dia+1
Esta equação não mostra a versão sem tendência dos retornos de regra, pois
mostrado aqui:
O+2
Pos0× Log – ALR
O+1
Onde:
PDV 0 = Posição de mercado da regra no fechamento do dia0
O +2 = Abrir S&P 500 no dia +2
ALR = Retorno de log médio sobre o teste de retorno
O viés de antecipação também pode infectar resultados de testes anteriores quando uma
regra usa uma série de dados de entrada que é relatada com um atraso ou que está sujeita a revisão.
Por exemplo, o back-test de uma regra que usa estatísticas de caixa de fundos mútuos,15 que é
divulgada ao público com um atraso de duas semanas, deve levar em conta esse atraso por sinais
de atraso para refletir a verdadeira disponibilidade dos dados.
Nenhuma das regras testadas neste livro usa informações relatadas com atraso ou que estão
sujeitas a revisão.
Custos de negociação
Os custos de negociação devem ser levados em consideração nos back-tests de regras?

Se a intenção é usar a regra de forma independente para negociação, a resposta é
claramente sim. Por exemplo, regras que sinalizam reversões com frequência incorrerão
em custos de negociação mais altos do que regras que sinalizam com menos frequência
e isso deve ser levado em consideração ao comparar seus desempenhos. Os custos de
negociação incluem comissões de corretores e derrapagens. A derrapagem é devido ao
spread solicitado pelo lance e ao valor que a ordem do investidor empurra o preço do
mercado - para cima na compra ou para baixo na venda.
Se, no entanto, o objetivo do teste de regras for descobrir sinais que contenham
informações preditivas, os custos de negociação podem obscurecer o valor de uma regra
que reverte com frequência. Uma vez que a intenção dos estudos de regras conduzidos
neste livro visam encontrar regras que tenham poder preditivo em vez de encontrar regras
que possam ser usadas como estratégias de negociação independentes, foi decidido não
impor custos de negociação.
O Ilusório
Validade de
Subjetivo
Técnico
Análise
A diferença entre um excêntrico e um charlatão é que o

charlatão sabe que está negociando com óleo de cobra,
o excêntrico não.
—Martin Gardner
capítulo tem dois propósitos. Em primeiro lugar, pretende-se encorajar uma
T atitude de ceticismo em relação à AT subjetiva, um corpo de proposições

que não são testáveis porque carecem de conteúdo cognitivo. Em segundo
lugar, ressalta a necessidade de uma abordagem rigorosa e objetiva da aquisição
do conhecimento, para combater a tendência humana de formar e manter crenças
fortes na ausência de evidências sólidas ou mesmo diante de evidências
contraditórias.
Além do que consideramos como fé, a maioria de nós tem a impressão de
que nossas crenças são justificadas por um raciocínio sólido a partir de boas
evidências. Pode-se dizer que sabemos algo quando temos uma crença que é
verdadeira e a mantemos porque extraímos uma inferência correta da evidência
correta.1 Sabemos que o sorvete é gelado, a gravidade é real e alguns cães
mordem, com base na experiência de primeira mão, mas sem tempo ou
experiência para adquirir diretamente todo o conhecimento necessário, aceitamos
de bom grado a sabedoria de fontes de segunda mão que consideramos
confiáveis. Seja como for, não adotamos o conhecimento à toa, ou assim acreditamos.
Infelizmente, essa crença e muitas outras que temos são errôneas.
Sem perceber, por um processo tão automático quanto respirar, adotamos todos
os tipos de crenças sem pensamento racional ou evidência confiável. De acordo
com um crescente corpo de pesquisas, isso se deve a uma variedade de erros
cognitivos, vieses e ilusões. Esta é uma responsabilidade séria, porque uma vez
UMA
FIGURA 2.1 Os sentidos podem nos enganar.
falsidade é adotada, ela tende a persistir mesmo quando novas evidências mostram que ela
está errada. Essa longevidade também é atribuível a vários erros cognitivos que nos levam a
defender as crenças existentes.
Uma ilusão visual é um exemplo de crença errônea que persiste mesmo depois de
apontada. Na Figura 2.1, o segmento de linha A parece mais longo que o segmento B, mas se
você aplicar uma régua, verá que eles têm o mesmo comprimento. No entanto, esse
conhecimento não desfaz a ilusão. Ver pode enganar, e o engano dura.
A Figura 2.22 mostra outra ilusão visual. O tampo da mesa à direita parece mais alongado.
Se você compará-los, verá que eles têm as mesmas dimensões.
Em circunstâncias normais, as impressões sensoriais interpretadas pelo cérebro produzem

crenças precisas sobre o mundo. As pressões seletivas da evolução asseguraram o
desenvolvimento de uma capacidade tão vital.
No entanto, por mais adaptado que seja o sistema olho/cérebro, ele não é perfeito. Em
condições adversas, fora daquelas que moldaram sua evolução, o sistema pode ser enganado.
Assim como há percepções ilusórias, há conhecimento ilusório. Parece válido, mas não é,
e semelhante às ilusões perceptivas, o falso conhecimento tende a ocorrer em situações além
daquelas que moldaram a evolução
FIGURA 2.2 Ambos os tampos de mesa têm o mesmo tamanho e forma.

“Turning the Tables” de MIND SIGHTS por Roger N. Shepard. Copyright © 1990 por Roger N. Shepard.
Reproduzido com permissão de Henry Holt and Company, LLC.
A Validade Ilusória da Análise Técnica Subjetiva 35
de nossas habilidades cognitivas. Sob tais condições adversas, nossos

estratégias de aprendizagem bem-sucedidas falham, e passamos a “saber” o que não é assim.3
Nos últimos 30 anos, psicólogos cognitivos descobriram que
conhecimento errôneo é muitas vezes o resultado de erros sistemáticos (viés) na
a maneira como processamos informações sobre situações complexas e incertas. O
comportamento do mercado financeiro é complexo e incerto, por isso deve
não é surpresa que a análise informal (subjetiva) produza conhecimento ilusório.
Um erro sistemático, ao contrário de um erro aleatório, ocorre repetidamente

em situações semelhantes. Esta é uma boa notícia porque significa que o erro é previsível e
que medidas podem ser tomadas para evitá-lo. O primeiro passo é perceber que
tais erros são comuns.
TA SUBJETIVA NÃO É CONHECIMENTO LEGÍTIMO
Conforme definido no Capítulo 1, TA subjetiva é qualquer método de análise que, por causa de
imprecisão, não pode ser definido como um algoritmo que pode ser
testado por computador. Embora o domínio subjetivo da AT seja composto por
muitos métodos diferentes, eles compartilham a crença de que o conhecimento válido sobre os
mercados financeiros pode ser descoberto de maneira informal e não científica. Eu afirmo que
essa fé é equivocada.
Conforme discutido na Introdução, a AT subjetiva não pode ser chamada de
errado, porque chamar um método de errado implica que ele foi testado e contrariado por
evidências objetivas. A AT subjetiva é imune a
desafio porque não é testável. Assim, é pior do que errado; é insignificante.
Crenças que não podem ser testadas devem ser aceitas com base na fé, evidência
anedótica ou pronunciamento autoritário. Desta forma, a AT subjetiva é semelhante
a práticas como a medicina da Nova Era, a astrologia, a numerologia e uma
host de outras afirmações não testáveis, nenhuma das quais pode ser legitimamente classificada
como conhecimento.
No entanto, muitos praticantes e consumidores de AT acreditam fortemente na
a validade dos métodos subjetivos e, se perguntados, sem dúvida cada um afirmaria que sua
crença é justificada e apoiada por evidências. eu defendo isso
é uma consequência das mesmas falhas cognitivas que fundamentam as crenças errôneas em
geral e da maneira não científica pela qual a AT tradicional é
praticado.
A AT certamente não é o único campo a sofrer os efeitos nocivos de métodos não
científicos. Medicina e psicologia, onde as penalidades para
sabedoria são muito maiores, também estão sobrecarregados com conhecimentos errôneos.
Isso gerou um movimento emergente chamado medicina baseada em evidências
que apela aos médicos para que se restrinjam a práticas com eficácia comprovada. Há um
movimento semelhante na psicoterapia. Uma revista chamada Scientific Review of Mental
Health Practice4 descreve sua missão como livrar o campo de tratamentos infundados e não
testados. Infelizmente, é improvável que médicos e psicoterapeutas tradicionais abandonem
seus caminhos arraigados. Velhas crenças são difíceis de mudar. No entanto, novos praticantes
podem ser persuadidos, e são seus pacientes que se beneficiarão de métodos com eficácia
comprovada.
Embora este capítulo seja uma crítica à AT subjetiva, a AT objetiva também é vulnerável
ao conhecimento errôneo. No entanto, isso acontece de uma maneira totalmente diferente.
Enquanto a AT subjetiva sofre de falta de evidências quantitativas, a AT objetiva sofre de
inferências erradas extraídas de evidências quantitativas. Este problema e possíveis soluções
são explorados no Capítulo 6.
UMA ANEDOTA PESSOAL: PRIMEIRO UM VERDADEIRO TA CRENTE,

ENTÃO UM CÉTICO
Um livro sobre a necessidade de evidência objetiva quantitativa pode ser um lugar estranho
para anedotas pessoais. Não obstante, ofereço um relato em primeira mão de minha conversão
inicial a um verdadeiro crente em AT, minha queda da fé e meu renascimento como um cético
científico que acredita que AT pode oferecer valor quando pesquisado de maneira disciplinada.
Soube da TA pela primeira vez na adolescência e queria acreditar que suas afirmações
eram verdadeiras. Ganhar dinheiro com padrões gráficos parecia mágico, mas plausível. Até
aquela época, meus ganhos vinham dos verões que passava cuidando de gramados, cavando
mariscos na costa norte de Long Island e trabalhando em um caminhão de lixo em um resort
local. Embora eu nunca tenha evitado o trabalho físico, a ideia de ganhar dinheiro sem suor
tinha um grande apelo.
Como a maioria dos verdadeiros crentes da TA, minhas convicções iniciais vieram de
segunda mão, lendo a sabedoria revelada das autoproclamadas autoridades do campo. Nunca
me ocorreu que suas alegações não pudessem ser fundamentadas em pesquisas sólidas. O
próprio termo análise técnica tinha um tom científico. Mais tarde, ficou claro que, em muitos
casos, as autoridades não estavam baseando suas alegações em pesquisas de primeira mão,
mas apenas regurgitando o que haviam lido de especialistas autoproclamados anteriores. O
humorista e filósofo Artemus Ward disse: “Não são tanto as coisas que não sabemos que nos
colocam em apuros, mas as coisas que sabemos que simplesmente não são assim”.
Minha primeira leitura foi How I Made Two Million Dollars in the Stock Market , de Nicholas
Darvas, um dançarino profissional. Ele atribuiu seu sucesso a
um método de gráficos chamado Teoria da Caixa. Como minha primeira exposição à AT, o
ideia de que os sinais de compra e venda podem ser derivados do comportamento de uma ação
era inteiramente novo e excitante. Darvas baseou sua análise em uma escada como o arranjo
de faixas de preço que ele chamou de caixas. Logo aprendi isso
era vinho velho em garrafa nova — as boas e velhas zonas de suporte e resistência da AT. Meu
entusiasmo foi inabalável. Em seguida, estudei o Método de Ponto e Figura do ofício cartográfico
e comecei a manter gráficos em um grande
estável dos estoques. No meu aniversário de dezesseis anos meus pais me deram a bíblia,
Análise Técnica de Tendências de Ações, por Edwards e Magee, e minha versão con foi completa.
Em pouco tempo, eu estava dando dicas de ações para meu professor de química, Sr. Corn.
Meu sucesso inicial com uma ação chamada Cubic fez com que vários outros professores
fãs dos meus gráficos misteriosos. Eu escolhi vários outros vencedores. Ninguém, não
mesmo eu, considerei a possibilidade de que esses primeiros sucessos pudessem ter
sido nada mais do que uma corrida de boa sorte. Não havia razão para isso. Nenhum
dos livros de AT que estudei já discutiam os papéis da aleatoriedade no comportamento do
mercado ou da sorte no desempenho de um método de investimento. Meu
as primeiras pontuações eram plausíveis porque eram consistentes com as anedotas que
enchiam os livros, mas não durou muito. Minha trajetória começou a
defeito e meus fãs desapareceram. No entanto, o meu entusiasmo pela AT continuou a
crescer porque sempre foi possível explicar meus fracassos. Depois
o fato, eu sempre podia ver onde eu tinha interpretado mal o gráfico. eu acertaria
próxima vez.
No ensino médio eu era um bom aluno de ciências, embora agora perceba que
era cientificamente analfabeto. Mais tarde, cursos universitários de filosofia da ciência me
ensinaram que a ciência é mais do que um conjunto de fatos. Em primeiro lugar,
é um método para distinguir o conhecimento real do ilusório. Seria
levem-me a maior parte de 40 anos para ver a conexão entre a filosofia da ciência e a AT.
Meu ceticismo surgiu da minha experiência como proprietário ou “prop”

comerciante para a empresa de Spear, Leeds & Kellogg desde o outono de 1996
até a primavera de 2002. Os corretores de prop têm o melhor trabalho divertido. Elas
têm a liberdade de especular com o capital de uma empresa. Minha estratégia de negociação foi
baseada no que aprendi sobre AT nos 35 anos anteriores. EU
obteve lucros durante os primeiros três anos e meio, outubro de 1996
até fevereiro de 2000. Como meus métodos de negociação eram subjetivos,
não está claro se esses ganhos foram o resultado de minhas habilidades com TA ou meu
tendência de alta sempre coincidindo com um mercado de tendência ascendente. eu suspeito
foi o último porque uma análise dos meus retornos mensais em relação a um
referência de mercado indicava que eu não estava batendo o mercado, mas apenas
combinando. Em outras palavras, eu não havia gerado um resultado significativamente positivo
alpha.5 Também sugestivo foi o fato de eu ter devolvido todos os meus ganhos no
dois anos depois que a tendência do mercado caiu em março de 2000.
período completo de cinco anos e meio, meus resultados, para ser generoso, foram
sem brilho.
Antes de ingressar na Spear, Leeds & Kellogg, eu era um defensor da
métodos de negociação objetivos, então, enquanto na Spear, fiz esforços para desenvolver
um programa sistemático de negociação na esperança de melhorar meu desempenho. No entanto,
com tempo e capital de desenvolvimento limitados, esses
planos nunca se concretizaram. Assim, continuei a confiar na análise clássica de gráficos de
barras, complementada com vários indicadores que interpretei
subjetivamente.
No entanto, fui objetivo de várias maneiras. No início da minha carreira comercial
com Spear, comecei a manter um diário detalhado. Antes de cada negociação, eu
observe sua justificativa de AT. Além disso, cada comércio foi baseado em um objetivo
previsão falsificável - um ponto definido de adversidade onde eu admitiria
o comércio estava errado. Meus gerentes insistiram nisso. Eu mantive o diário diariamente ao
longo dos mais de cinco anos de negociação. Depois que cada transação foi
concluído, fiz uma análise post-mortem. Esta prática tornou difícil para mim
racionalizar meus fracassos. Lá eles estavam me encarando. Isso acelerou minha queda da fé na
AT subjetiva.
Como meus resultados foram para apenas uma pessoa, considerei a possibilidade de não
estar implementando adequadamente os ditames dos textos de AT que eu tinha
estudo há mais de 30 anos. No entanto, também comecei a me perguntar se o que
eles disseram que estava correto ou se o que eles disseram era mesmo substantivo.
Quando discuti meu crescente ceticismo com os colegas, a resposta deles foi que a AT era
obviamente válida. Tendências e padrões na história
os gráficos eram simplesmente evidentes demais para serem ilusórios. Um texto de AT
amplamente utilizado6 afirma que a AT é válida por esses motivos. Isso não me satisfez. Quando eu
aprendeu que os mesmos padrões e tendências,7 aos quais a AT atribui tais
significado, também aparecem com regularidade em dados puramente aleatórios, minha fé em
análise de gráficos foi abalada ao núcleo. Além disso, chamou minha atenção
que os estudos mostraram que os leitores de gráficos especializados não conseguem distinguir
de forma confiável os gráficos de mercado reais dos gráficos produzidos por um processo aleatório.8
Esses gráficos, que são gerados por sorteios aleatórios de uma amostra de mudanças reais de
preços, são, por design, desprovidos de tendências e padrões autênticos.
e, portanto, impossíveis de prever, mas, para grafistas experientes, eles
parecia com gráficos de preços autênticos. Com base nisso, parece que
previsões baseadas em gráficos autênticos não podiam ser confiáveis. Claramente, “validade
óbvia” é um padrão inadequado para julgar a validade do mercado.
padrões.
Com inspiração em dois livros, Como sabemos o que não é assim , de
Thomas Gilovich,9 e Por que as pessoas acreditam em coisas estranhas , de Michael Shermer10,
cheguei à conclusão de que a AT deve ser abordada com o ceticismo e o rigor do método científico.
A MENTE: UM BUSCADOR DE PADRÕES NATURAIS
Estamos predispostos a procurar e encontrar padrões preditivos. Natureza humana

é repelido pelo imprevisível e pelo inexplicável, então nosso
maquinaria tende a perceber ordem, padrão e significado no
estímulos que recebemos do mundo, independentemente de ser verdadeiramente ou
descritivo, padronizado ou significativo. “Em muitos casos, o que experimentamos
nada mais é do que os caprichos do acaso no trabalho.”11 “A aparência
de um rosto na superfície da lua, a percepção de mensagens satânicas
quando a música rock é tocada ao contrário, ou vendo o rosto de Jesus no
grão de madeira de uma porta de hospital são exemplos da mente impondo ordem
estímulos sensoriais visuais aleatórios.”12
A tendência de perceber a ordem evoluiu porque essa habilidade era crucial para nossa
sobrevivência.13 Os primeiros humanos que eram melhores nisso produziram o
a maioria dos descendentes, e somos descendentes deles. Infelizmente, a evolução não nos
dotou da mesma capacidade de distinguir padrões válidos de padrões válidos. Como
consequência, junto com o conhecimento válido veio
muitas falsidades.
Adquirir conhecimento, seja em tempos pré-históricos ou hoje, pode falhar
de duas maneiras: aprendendo uma falsidade ou deixando de aprender uma verdade. Destes dois
erros, parecemos ser mais propensos a adotar falsidades do que
ignorar verdades vitais. Os biólogos evolucionistas especulam que a aquisição de idéias
falsas era menos prejudicial à sobrevivência dos primeiros humanos do que deixar de
aprender algo vital. A crença de que uma dança ritual
antes de uma caçada promover o sucesso é uma falsidade aprendida com um custo mínimo
- um pouco de dança desperdiçada - mas a falha em aprender a importância
de ficar a favor do vento de um animal durante uma caçada era um erro com um custo de
sobrevivência significativo.
Como resultado, nossos cérebros evoluíram para ter um apetite voraz, embora
indiscriminado, por padrões preditivos e relações causais. O falso
as crenças acumuladas ao longo do caminho eram um preço que valia a pena pagar. Algumas
vezes, uma caçada bem-sucedida seguia uma dança ritual, então os supersticiosos
prática foi reforçada. Além disso, realizar um ritual reduzia a ansiedade, dando uma sensação
ilusória de controle sobre os resultados que eram em grande parte uma questão
do acaso.
A vida civilizada moderna mudou consideravelmente esse quadro. Não somente
são decisões mais complexas hoje, mas os custos das falsidades aprendidas são
maior. Considere o debate sobre o aquecimento global. Estão subindo as temperaturas
indicativos de um perigo real a longo prazo ou são um alarme falso? Se aqueles
convencidos de que se trata de um alarme falso forem posteriormente provados errados, as
gerações futuras pagarão caro. No entanto, o custo de tratar o aquecimento global como uma
ameaça séria seria mais modesto se essa visão se mostrar equivocada.
A evolução da inteligência humana tem sido um processo lento. Nossas capacidades

intelectuais se desenvolveram ao longo de um período de vários milhões de anos, a maioria dos
quais ocorreu sob condições chamadas de ambiente ancestral de adaptação. Nesse ambiente, os
mandatos eram poucos e claros: Sobreviver e reproduzir. As capacidades intelectuais humanas e
as estratégias de pensamento foram adaptadas a essas condições, não às complexidades da
civilização moderna, que data de apenas 10 a 15 mil anos. Em outras palavras, 99% da evolução
humana ocorreu em um ambiente dramaticamente menos complexo do que o que enfrentamos
hoje. Não é surpreendente, então, que nossa inteligência seja mal adaptada às complexas tarefas
de julgamento e tomada de decisão que enfrentamos hoje. Parecemos ser tão supersticiosos hoje
quanto o morador das cavernas que acreditava em danças rituais.
A EPIDEMIA DE CRENÇAS ESTRANHAS
Um apetite voraz, mas indiscriminado por conhecimento, inevitavelmente leva a crenças estranhas.
Nossa suscetibilidade à adoção de falsas crenças foi evidenciada dramaticamente em uma
pesquisa Gallup de 1990 com 1.236 americanos adultos. A proporção de pessoas que acreditam
em todo tipo de bobagem, incluindo o paranormal, é assustadora.14 Essas são estatísticas
apresentadas por Shermer.15
Astrologia 52 por cento
Percepção extra-sensorial 46 por cento
Bruxas 19 por cento
Alienígenas do espaço pousando na Terra 22 por cento
Um continente previamente existente chamado Atlântida 33 por cento
Humanos e dinossauros vivendo ao mesmo tempo 41%
Comunicando-se com os espíritos dos mortos 42 por cento
Fantasmas 35 por cento
Experiências psíquicas pessoais 67 por cento
O astrônomo Carl Sagan16 lamentou que mais pessoas acreditem na astrologia do que na
teoria da evolução. Ele atribuiu essa irracionalidade e superstição generalizada a uma alta taxa
de analfabetismo científico, que as pesquisas estimam em mais de 95%. “Nessa atmosfera, a
pseudociência prospera. Crenças estranhas, como as práticas de saúde da Nova Era, são
apoiadas de maneiras que se pretendem científicas, mas na verdade não são. As evidências
apresentadas são insuficientes, e os fatos que apontam em outras direções recebem pouca
atenção. No entanto, as ideias que eles oferecem sobrevivem e prosperam porque falam
a poderosas necessidades emocionais que a ciência muitas vezes deixa insatisfeitas” .

Sagan disse, não é divertido ser cético. É uma atitude pesada que
deixa nossa necessidade de acreditar em ideias divertidas e reconfortantes, como a fada dos dentes
e Papai Noel, insatisfeitos.
PSICOLOGIA COGNITIVA: HEURÍSTICAS, VEZES,

E ILUSÕES
A psicologia cognitiva está preocupada com a forma como processamos a informação,

tirar conclusões e tomar decisões. Estuda os processos mentais por
qual a entrada sensorial é transformada, reduzida, elaborada, armazenada e recuperada.18
Nos últimos 30 anos, as psicologias cognitivas têm investigado

as origens do conhecimento não confiável. A boa notícia é que o bom senso
e as interpretações intuitivas da experiência são geralmente corretas. O mal
A novidade é que a inteligência humana é mal adaptada para fazer julgamentos precisos
em situações caracterizadas pela incerteza. Sob condições de incerteza, julgamentos
intuitivos e conhecimento adquirido informalmente são
muitas vezes errado. Como o comportamento do mercado financeiro é altamente incerto,
é de se esperar um conhecimento errôneo nesse domínio.
A pesquisa pioneira de Daniel Kahneman, Paul Slovic e Amos
Tversky mostrou que o conhecimento ilusório19 se origina de duas maneiras. Primeiro,
as pessoas são atormentadas por vários vieses cognitivos e ilusões que distorcem
o que experimentamos e como aprendemos com essa experiência. Segundo, para
compensar as habilidades limitadas da mente para processar informações,
a inteligência desenvolveu vários atalhos mentais chamados heurísticas de julgamento.
Essas regras de pensamento, que operam muito automaticamente sob
nossa percepção consciente, são a base de nossos julgamentos intuitivos e
avaliações de probabilidade. Eles são uma marca da inteligência humana crucial para
vida cotidiana. Embora essas regras de pensamento rápidas e sujas sejam geralmente
bem-sucedidas, em certos tipos de situação elas nos levam a tomar decisões tendenciosas.
decisões e adquirir conhecimentos errôneos.
O conhecimento errôneo é especialmente problemático por causa de sua resiliência.
Estudos mostraram que, uma vez adotada uma crença, ela pode
sobreviver ao assalto de novas provas que a contradigam ou mesmo a uma completa
descrédito da evidência original que levou à formação da crença.
As seções a seguir discutirão uma variedade de erros cognitivos responsáveis pelo
conhecimento errôneo. Para fins de apresentação, cada
serão discutidos separadamente. Na realidade, no entanto, eles operam em conjunto,
alimentando-se um ao outro, criando uma ilusão de validade para
AT subjetiva. Isso é ilustrado na Figura 2.3.
Excesso de confiança,
Autoatribuição Retrospectiva
Tendência
Otimismo, Tendência
Tendência
Conhecimento Confirmação
Ilusão Tendência
ILUSÃO
DO
Ilusão de VALIDADE
Ilusório
Ao controle Correlação
Enviesado Ilusório
Tendências
Amostra
Usado Tamanho
e
Conhecimento Negligência
Padrões
Representatividade
Viés heurístico
FIGURA 2.3 Ilusão de validade.
LIMITAÇÕES DE PROCESSAMENTO DE INFORMAÇÕES HUMANAS
Apesar de seu incrível poder, as capacidades de processamento de informações do cérebro

humano são limitadas. O Prêmio Nobel Herbert Simon chamou isso de princípio da racionalidade
limitada. “A capacidade da mente humana para formular e resolver problemas complexos é
muito pequena em comparação com o tamanho dos problemas cuja solução é necessária.”20
Conseqüentemente, atendemos apenas uma pequena fração da torrente de informações que o
mundo apresenta e processamos. de maneiras simplistas.
O número de pedaços separados de informação que podem ser mantidos na memória

consciente em um determinado momento é estimado em sete, mais ou menos dois.21 Ainda
mais limitada é a capacidade da mente de lidar com problemas que exigem pensamento
configuracional. Um problema de pensamento configuracional requer que uma multiplicidade
de fatores (variáveis) seja considerada simultaneamente como uma configuração inseparável.
Pesquisas indicam que a mente só é capaz de lidar com um máximo de três fatores quando
eles devem ser avaliados em uma configuração
moda.22 O diagnóstico médico é tipicamente um problema de pensamento configuracional. UMA

conjunto de sintomas e resultados laboratoriais, se considerados em conjunto, podem distinguir
uma doença de outra, mas tomadas isoladamente podem não ser nada mais
do que um conjunto de fatos não informativos desconexos.
O pensamento configuracional é um modo de pensamento mais exigente do que o
pensamento sequencial ou linear. Em um problema sequencial/linear, o
variáveis podem ser analisadas independentemente, portanto, mesmo que haja uma
multiplicidade de variáveis, a mensagem transmitida por cada variável não é afetada pelo que
outras variáveis estão dizendo. Portanto, uma vez que cada variável
foi interpretado por conta própria, o conjunto de mensagens individuais pode ser
combinados de forma linear (ou seja, adicionados algebricamente23), para derivar seus
significado coletivo. Suponha, por exemplo, que um problema sequencial envolva sete variáveis,
cada uma das quais pode assumir um valor de +1 ou
-1. Além disso, suponha que cinco das variáveis tenham o valor +1 e duas
tem o valor -1. A combinação linear ou aditiva24 seria igual a
+3 ou [(+5) + (–2)]. A pesquisa mostrou que, quando os especialistas tomam decisões
multifatoriais de maneira subjetiva, eles dependem principalmente de uma abordagem linear.
regra de combinação,25 embora o façam com menos eficácia do que os modelos formais de
regressão linear.26 Esses estudos mostraram que especialistas humanos são menos
eficazes do que os modelos de regressão linear porque eles não combinam os
informações da maneira consistente de um modelo matemático formal.
A combinação de informações de forma linear que satisfaça os requisitos de um problema
de pensamento sequencial fica aquém quando o problema
exige uma solução configurável. Em um problema configuracional, a informação relevante está
contida na teia de relacionamentos (interações) entre o
variáveis. Isso significa que as variáveis não podem ser avaliadas isoladamente
como eles podem em um problema sequencial/linear. Para esclarecer o que se entende por
interações, imagine um problema de configuração envolvendo apenas três variáveis, A,
B e C. Suponha ainda que cada variável possa assumir apenas duas leituras, alta ou baixa (ou
seja, as variáveis são binárias). Em um problema de configuração, um
leitura alta no fator A pode significar uma coisa quando B é baixo e C é alto,
Considerando que uma leitura alta em A pode significar algo totalmente diferente quando
B é alto e C é baixo. Em um problema sequencial/linear, uma leitura alta em
o fator A carrega a mesma mensagem independentemente das leituras em B e C.
A diferença entre as duas configurações — Configuração 1 (A alto, B-baixo, C-alto) e
Configuração 2 (A-alto, B-alto, C-baixo) — são ilustradas nas Figuras 2.4 e 2.5. As oito células
do tridimensional
espaço mostram que existem oito configurações possíveis distintamente diferentes
de três variáveis binárias. No entanto, uma combinação linear de três binários
variáveis só podem assumir quatro27 valores distintos.
O tipo de problema de pensamento enfrentado por um analista de mercado subjetivo que
tenta fazer uma previsão combinando as leituras de cinco indicadores
(variáveis), um número relativamente modesto, provavelmente será configurável em vez de
A—Alto, B—Baixo, C—Alto
Alto
C
Baixo Alto
Baixo
B
Baixo Alto
UMA
FIGURA 2.4 Configuração 1.
do que sequencial.28 A simples determinação de qual dos cinco indicadores deve

ser combinado (alguns podem ser redundantes ou irrelevantes) para produzir uma
previsão informativa é um enorme problema de configuração por si só. Com
apenas cinco indicadores, deve-se avaliar o poder preditivo de 26 combinações
possíveis (10 pares, 10 trigêmeos, 5 quádruplos e 1 quíntuplo). Então, uma vez
que uma boa combinação tenha sido identificada, a aplicação da regra dos
multiindicadores também implicaria no pensamento configuracional. Como visto
anteriormente, mesmo que os indicadores sejam binários, o mais simples possível,
3 variáveis binárias podem ter oito configurações distintas. Quatro binários têm 16
configurações distintas possíveis e 5 variáveis binárias têm 32. Analistas subjetivos que acreditam
A—Alto, B—Alto, C—Baixo
Alto
C
Baixo Alto
Baixo
B
Baixo Alto
UMA
FIGURA 2.5 Configuração 2.

podem realizar tal façanha são muito confiantes - confiantes demais! Isso não é
surpreendente. É apenas um exemplo do viés de excesso de confiança.
CERTO DEMAIS: O VIés DE EXCESSO DE CONFIANÇA
Em geral, as pessoas são muito confiantes. O viés de excesso de confiança é a tendência

documentada29 de as autoavaliações das pessoas errarem no lado alto da
a verdade. Eles tendem a ver seus atributos e habilidades pessoais como melhores do que a
evidência objetiva indicaria. As pessoas se veem como
acima da média de várias maneiras, incluindo o quanto eles sabem e com que precisão eles
sabem disso. Em outras palavras, as pessoas tendem a ser arrogantes
O conhecimento deles.
A tendência é tão difundida que os psicólogos pensam que o excesso de confiança
é inato, e eles estão bastante confiantes sobre isso. Os biólogos especularam que a alta
confiança é uma característica das estratégias de acasalamento bem-sucedidas.
provavelmente somos filhos de pais arrogantes. Alta confiança
confere benefícios à humanidade como um todo, mesmo que o indivíduo ousado que tenta algo
novo e perigoso morra. Depois de tentativas suficientes, alguém
tem sucesso, e todos nós nos beneficiamos. Além disso, o excesso de confiança é reforçado por
ainda outros vieses cognitivos que distorcem o que é aprendido com a experiência, incluindo o
viés de auto-atribuição, o viés de confirmação e a retrospectiva
preconceito, que serão discutidos mais adiante.
A psicóloga da Universidade de Columbia Janet Metcalfe resumiu
procure o excesso de confiança humana com estas palavras humilhantes:30
As pessoas pensam que conseguirão resolver problemas quando não conseguem;

eles estão altamente confiantes de que estão prestes a produzir o
resposta correta quando estão, de fato, prestes a cometer um erro;
pensam que resolveram problemas quando não resolveram; eles pensam
eles sabem as respostas às perguntas de informação quando não sabem; elas
ter a resposta na ponta da língua quando não há resposta;
eles acham que produziram a resposta correta quando não o fizeram, e
além disso, eles dizem que sabiam o tempo todo; eles acreditam ter
dominaram o material de aprendizagem quando não o fizeram; eles acham que tem
compreendidos, embora comprovadamente eles ainda estejam no escuro.”31
Algumas descobertas específicas sobre excesso de confiança:
• O excesso de confiança é mais extremo para tarefas difíceis ou impossíveis.32 Os estudos

mostraram um excesso de confiança extremo em tarefas como prever o
resultado de corridas de cavalos,33 distinguindo europeus de americanos
caligrafia e prever preços de ações em alta versus em queda. No

domínio da TA, a tarefa análoga seria a de combinar uma multiplicidade de leituras de
indicadores em uma previsão de mercado por raciocínio de configuração subjetiva.
• O excesso de confiança está relacionado à incapacidade de avaliar adequadamente a

dificuldade de várias tarefas e é mais pronunciado quanto mais difícil for o
tarefa. Os analistas de AT podem não estar cientes do raciocínio configuracional exigido
pela análise subjetiva de dados.
• A confiança aumenta à medida que o número de informações aumenta, embora a precisão
da previsão não.34 Maior confiança
só seria justificado se os bits individuais de informação fossem
não redundantes, foram úteis e puderam ser integrados com sucesso.
• A confiança aumenta à medida que o nível de concordância entre várias entradas
aumenta. Quando as entradas são independentes (não correlacionadas) e possuem
informações preditivas, o aumento da confiança pode ser justificado. Quando as entradas
são redundantes, não é. Muitos indicadores de AT que parecem ser
distintos por causa de convenções de nomenclatura e cálculos específicos realmente
medem atributos de mercado semelhantes. Isso pode encorajar uma confiança injustificada.
• Médicos que estavam 88% confiantes de que haviam diagnosticado corretamente

pneumonia estavam corretas em apenas 20 por cento dos casos.35 Os médicos
estavam igualmente confiantes no diagnóstico de fraturas de crânio.36
• Muitos outros profissionais estavam excessivamente confiantes sobre suas
áreas de experiência. Por exemplo, quando os gerentes de uma empresa química estavam
90% confiantes sobre os fatos da empresa (ou seja, esperavam estar errados apenas 10%
das vezes), eles estavam certos.
apenas 50% do tempo.37 Executivos de uma empresa de informática
estavam 95 por cento confiantes sobre os fatos gerais de negócios, mas foram
corrigir 80 por cento das vezes. No que diz respeito às especificidades sobre seus
própria empresa, eles estavam 95% confiantes, mas corretos apenas 58
por cento do tempo.38
• O excesso de confiança dos analistas de Wall Street em relação à sua capacidade de
prever lucros trimestrais é atestado pela frequência de
surpresas de ganhos. De acordo com um estudo, o erro médio de previsão
foi de 44 por cento. Esta estatística foi baseada em mais de 500.000 indivíduos
previsões de ganhos.39 As pessoas ficam surpresas quando os resultados ficam fora dos
intervalos previstos, e definir intervalos muito estreitos é um sinal de
excesso de confiança.
• Investidores individuais estão excessivamente confiantes em sua capacidade de prever
tendências de mercado de curto prazo e escolher ações que se sairão melhor do que o
mercado, conforme evidenciado pelo nível de sua atividade de negociação.40
• Os estrategistas de Wall Street exibem excesso de confiança nas previsões para o
mercado de ações em geral e são frequentemente surpreendidos por saídas reais
vem. No entanto, eles mantêm sua confiança apesar desses erros.41 Se os estrategistas
estivessem realmente aprendendo a reduzir sua confiança, eles fariam previsões
subsequentes com faixas mais amplas de incerteza, e os resultados seriam menos
propensos a ficar fora dessas faixas. Eles não parecem fazer isso.
Dada a difusão do excesso de confiança, é provável que os praticantes de AT subjetiva

também sejam afetados por ela. Parece provável que seu excesso de confiança se
manifestaria em três áreas; (1) o poder preditivo de métodos específicos, (2) a eficácia da
análise de dados subjetivos e inferência informal como meio de descoberta de conhecimento
e (3) a capacidade de realizar raciocínio configuracional como na síntese de uma previsão de
mercado a partir de uma infinidade de indicadores leitura e padrões. Tanto a complexidade
dos mercados financeiros quanto os limites conhecidos da inteligência humana sem ajuda
sugerem que a alta confiança em relação a qualquer uma dessas áreas é injustificada.
De acordo com um estudo, existem duas profissões de previsão que conseguiram evitar
o excesso de confiança: meteorologistas e deficientes em corridas de cavalos. Suas
estimativas de suas habilidades preditivas estão bem calibradas porque: “Eles enfrentam
problemas semelhantes todos os dias; fazem previsões probabilísticas explícitas (falsificáveis);
e obtêm feedback rápido e preciso sobre os resultados. Quando essas condições não são
satisfeitas, o excesso de confiança deve ser esperado tanto para especialistas quanto para
não especialistas.”42
É impossível para os praticantes de AT subjetiva obter feedback preciso no contexto da
pesquisa histórica simplesmente porque seus métodos para gerar previsões e avaliar a
precisão das previsões não estão bem definidos. O feedback só é possível com métodos
objetivos.
No entanto, no contexto da previsão em tempo real, os praticantes subjetivos poderiam obter
feedback se estivessem dispostos a fazer previsões falsificáveis.
Uma previsão falsificável é aquela que tem conteúdo cognitivo. Ou seja, estabelece uma
diferença claramente discernível entre os resultados que indicariam que a previsão estava
correta e os resultados que indicariam que a previsão estava errada. Considere o seguinte
como um exemplo de uma previsão falsificável:
O S&P 500 estará mais alto doze meses a partir de hoje e não cairá mais de 20% em
relação aos níveis atuais nesse período.
Se o mercado não estiver mais alto daqui a 12 meses ou se cair mais de 20% do nível
atual nos próximos 12 meses, é claro que a previsão estava errada. Infelizmente, previsões
falsificáveis raramente são dadas por praticantes subjetivos, impedindo assim o feedback
para eles e seus clientes. O excesso de confiança persiste.
Vai ser ótimo: viés de otimismo

A base do otimismo é o excesso de confiança que se estende a uma visão generalizada e
esperança injustificada sobre o futuro.43 Como consequência, a maioria das pessoas pensa
que suas vidas serão polvilhadas com eventos mais favoráveis e menos desfavoráveis do que
a vida de seus pares.
O viés do otimismo sugere que as crenças dos analistas de AT sobre suas proezas
preditivas persistirão mesmo que suas previsões anteriores não tenham ocorrido.
funcionou bem. Isso é confirmado pelos dados fornecidos pelo Hulbert Di gest,
44
um boletim informativo que acompanha o desempenho dos analistas de mercado por
traduzindo suas recomendações em um portfólio cujo valor pode ser
monitorados. Alguns redatores de newsletters tentaram explicar suas
classificações de desempenho ruins, alegando que os métodos de avaliação de Hulbert
são falhos. De acordo com Hulbert, essas alegações são dirigidas principalmente ao
suposições que ele é obrigado a fazer para transformar as vagas recomendações de um
boletim informativo em recomendações específicas cujo desempenho pode ser
medido. Muitos boletins rastreados por Hulbert dão conselhos claros, tornando
tais suposições desnecessárias.
Apesar de seu péssimo desempenho a longo prazo, os redatores de boletins continuam
a fazer previsões confiantes e os assinantes continuam acreditando
eles serão úteis. Ambos os grupos são otimistas. Se os assinantes
fossem realistas, eles cancelariam suas assinaturas e os escritores
não poderia continuar no negócio. Obviamente, algo além do sucesso preditivo mantém a fé
viva. Uma explicação possível é que tanto os assinantes quanto os autores de boletins
compraram uma história que explica
por que o método subjacente deve funcionar, mesmo que não funcione em
prática. Como será explicado mais adiante, uma história convincente pode superar a evidência
estatística porque a mente desenvolveu um gosto maior por histórias.
do que fatos abstratos. (Veja o viés de informação de segunda mão e o poder
de narrativas.)
Viés de Autoatribuição: Racionalizando a Falha

A tendência ao excesso de confiança é amplificada por outros preconceitos que distorcem o
que aprendemos com a experiência. O viés de autoatribuição refere-se ao
tendência a interpretar os sucessos e fracassos passados de maneira tendenciosa e egoísta.
“Numerosos estudos em uma ampla gama de situações têm
descobriram que as pessoas atribuem resultados positivos às suas habilidades enquanto
atribuem fracassos a circunstâncias externas.”45 Como resultado, saímos
com uma avaliação falsamente otimista de nossas estratégias e habilidades.
Enquanto o feedback de fracassos passados pode motivar mudanças e melhorar o
desempenho, interpretações egoístas causam um curto-circuito nesse aprendizado. Isso pode
explicar como os redatores de boletins podem manter a confiança em
a face do desempenho que, por qualquer padrão objetivo, seria considerado negativo.
Além de nos fazer sentir bem, as explicações egoístas fazem

sentido intuitivo. Quando nos esforçamos e temos sucesso, a cadeia causal que liga o esforço a
um bom resultado é fácil de entender e tem o toque de
verdade. Atribuir o sucesso à boa sorte ou a algum outro fator que não esteja sob nossa
controle não só tem menos apelo emocional, mas também parece menos plausível. Nós
todos preferem o plausível. No entanto, um fracasso, apesar de nossos melhores esforços, parece
mais provável de ser atribuível à má sorte. O senso comum tende a ignorar o papel da sorte
(aleatoriedade) em resultados favoráveis. Esse é o trabalho
do estatístico.
Estudos sobre o viés de autoatribuição entre jogadores são reveladores.46 Ao
avaliando perdas passadas de maneira tendenciosa, eles são capazes de manter uma fé
em suas habilidades diante de perdas crescentes. Surpreendentemente, as perdas passadas são
não ignorado. Na verdade, os jogadores dedicam uma grande quantidade de energia cognitiva
a falhas, reformulando-os assim sob uma luz mais favorável. As perdas são
tratados como quase vitórias ou atribuídos à má sorte. As vitórias, por outro lado, são
creditado à habilidade genuína de aposta.47 No final, tanto as vitórias quanto as perdas
alimentando o senso de competência do jogador.
Como trader, frequentemente ouvia racionalizações egoístas. eu era culpado
eu mesmo até começar a manter um registro de negociação no início da minha carreira de negociação
com pontos de saída predefinidos onde fui forçado a admitir que minha previsão anterior estava
errada. Embora minhas previsões fossem baseadas em TA subjetiva,
meus critérios de avaliação foram definidos objetivamente com antecedência. eu não comecei
questionar minhas habilidades até uma quantidade considerável de feedback negativo
abalou minha fé.
Claro, eu sei disso!: A ilusão do conhecimento

A ilusão do conhecimento é uma falsa confiança no que sabemos - tanto em
termos de quantidade e qualidade. Baseia-se na falsa premissa de que mais informação deveria
traduzir-se em mais conhecimento.48 Quando os captores de mão de corrida de cavalos recebiam
mais informações, eles se tornavam mais confiantes.
em suas previsões, mas sua precisão real não melhorou.49 Os fatos adicionais criaram a ilusão
de mais conhecimento.
A ilusão do conhecimento é relevante para a AT porque é mais provável que
ocorrem em situações caracterizadas por grandes quantidades de dados. Não apenas os
mercados financeiros geram uma torrente de séries temporais individuais, mas cada uma delas
pode ser transformado em um número muito maior de séries temporais derivadas
chamados indicadores técnicos. Isso oferece ampla oportunidade para os profissionais de AT se
verem como mais conhecedores do que realmente são.
A ilusão do conhecimento decorre em parte de um excesso de confiança na capacidade da
mente de realizar o raciocínio configuracional, a
interpretação de uma infinidade de variáveis. Na verdade, a mente sem ajuda é capaz

de lidar com apenas duas ou três variáveis de forma configurável (veja a Parte Dois).
Ao deixar de apreciar esses limites, as pessoas facilmente assumem que considerar
mais variáveis (indicadores) levará a um maior conhecimento e uma opinião mais
informada.
Eu posso lidar com isso: a ilusão do controle
A ilusão de controle é uma crença injustificada em nossa capacidade de controlar os

resultados. As pessoas que se sentem no controle são mais felizes e relaxadas do
que as que não se sentem.50 Essa distorção cognitiva é alimentada pelo viés de
autoatribuição e, por sua vez, alimenta o viés de superotimismo.
De acordo com Nofsinger, as atividades com maior probabilidade de induzir a
ilusão de controle têm as cinco características a seguir51:
1. Um alto nível de envolvimento pessoal 2. Uma

grande variedade de opções 3. Uma grande
quantidade de informações disponíveis a serem consideradas (Conhecimento
Ilusão)
4. Um alto nível de familiaridade com a tarefa 5.
Sucesso precoce na atividade
Os quatro primeiros se aplicam claramente à AT subjetiva. Um alto nível de

envolvimento pessoal é gerado pela análise frequente de dados de mercado, a criação
de novos indicadores e novas maneiras de interpretá-los, o desenho e redesenho de
linhas de tendência, a contagem e recontagem das ondas de Elliott e assim por diante.
Há também um grande grau de escolha: quais mercados seguir, quais indicadores
usar, onde colocar uma linha de tendência e assim por diante.
Os vários métodos usados tornam-se familiares à medida que são estudados e usados
regularmente. O quinto fator, o sucesso inicial, é uma questão de sorte. Alguns
experimentarão o sucesso inicial e, devido ao viés de auto-atribuição, provavelmente
o atribuirão à sua experiência e à eficácia dos métodos de AT, e não ao acaso. Todos
esses fatores podem induzir e manter uma sensação injustificada de controle e uma
capacidade de obter retornos superiores ao mercado.
O viés da retrospectiva: eu sabia que as coisas mudariam

Fora desse jeito
O viés retrospectivo cria a ilusão de que a previsão de um evento incerto é mais fácil
do que realmente é quando o evento é visto em retrospecto, depois que seu resultado
é conhecido. Uma vez que aprendemos o resultado de uma situação incerta, como
qual time ganhou um jogo de futebol ou em qual direção os preços
movidos, após um padrão de AT, tendemos a esquecer o quão incertos estávamos antes de
saber o resultado. Consulte a Figura 2.6.
Essa distorção cognitiva pode ser entendida em termos do modo como as memórias
são armazenadas no cérebro. Os eventos passados são armazenados em categorias de
eventos semelhantes (por exemplo, eventos esportivos) em vez de um registro temporal sequencial.
Por esta razão, tipos semelhantes de eventos que ocorreram em momentos diferentes se
misturam. Como resultado, após o resultado de um jogo de futebol ser conhecido, o estado
de conhecimento pré-jogo (incerteza) torna-se misturado com o conhecimento pós-jogo
definitivo. Nosso estado de conhecimento antes do jogo era incerto devido à natureza
ambígua das evidências pré-jogo. Alguém poderia ter defendido a vitória de qualquer equipe.
A mistura do conhecimento pré-jogo com o conhecimento pós-jogo acontece imediata e

inconscientemente, deixando-nos incapazes de recordar o que sabíamos antes do jogo ou
nosso estado de dúvida. Consequentemente, a evidência pré-jogo, que era de fato bastante
incerta, parece menos incerta depois que o vencedor se tornou conhecido. Isso cria uma
falsa sensação de confiança em nossa capacidade de fazer previsões. É por causa dessa
mesma armadilha que os cientistas são especialmente cuidadosos ao definir procedimentos
para fazer previsões e avaliar sua precisão.
A AT subjetiva é especialmente propensa ao viés de retrospectiva porque carece de

regras claramente definidas para identificação de padrões, geração de previsão,
Será que devo Eu sabia que os

apostar nos Jets? Jets venceriam.
Era tão óbvio!!
A outra equipe é Por que não apostei?
muito boa.
Vitória dos jatos de NY

Jogo de futebol
Outubro 1 2 de outubro 3 de outubro
Tempo
FIGURA 2.6 O viés retrospectivo.

e avaliação de previsão. Em tempo real, o praticante de AT subjetiva

enfrenta uma tarefa de avassaladora ambiguidade. Um único gráfico contém um número
incompreensível de possíveis pistas preditivas que variam do extremamente baixista ao
extremamente altista. No entanto, quando o mesmo gráfico é
vistas em retrospecto, as ambiguidades que enfrentaram o analista tentando
fazer uma previsão desaparecer porque os resultados são conhecidos. Isso cria um
falsa credibilidade para análise subjetiva de gráficos.
Vamos considerar um exemplo hipotético que ilustra como o resultado
o conhecimento pode minimizar as verdadeiras ambiguidades em um gráfico, superestimando
assim o poder preditivo da análise subjetiva de gráficos. Considere a Figura 2.7
e o que era conhecido a partir do tempo A. O padrão poderia ser interpretado como
bullish: uma tendência de alta anterior com uma consolidação de bandeira de alta interrompendo
temporariamente a tendência de alta.
Ou o mesmo gráfico pode ser interpretado como de baixa: um padrão de cabeça e ombro,
com uma quebra na linha do pescoço e, em seguida, um rali de retorno fornecendo um
momento ideal para uma venda a descoberto. Essa interpretação é ilustrada em
Figura 2.8. Observe que ambos os gráficos são idênticos até o ponto A, exceto para
as oscilações de preço que foram destacadas e a previsão feita
com base no padrão.
Preço
Tempo
UMA
FIGURA 2.7 Conjectura de alta.

Preço
H
S
Tempo
UMA
FIGURA 2.8 Conjectura de baixa.
Na realidade, no ponto A o gráfico é uma mistura ambígua de

recursos que podem suportar uma previsão de alta ou de baixa. A verdade
incerteza, que é representada na Figura 2.9, explica por que os grafistas mostrados
a mesma história muitas vezes expressará uma variedade de previsões
Agora vamos alterar a situação imaginando como os grafistas podem ver
o mesmo gráfico em um momento posterior, ponto B. Veremos dois caminhos de resultados
diferentes subsequentes ao ponto A. Isso se destina a ilustrar como o
viés de retrospectiva pode obscurecer a ambiguidade que existia no momento A,
criando uma ilusão de validade para a análise subjetiva de gráficos, independentemente de
qual caminho os preços realmente seguiram.
Primeiro, considere a impressão de um analista olhando para o gráfico pela primeira vez
tempo no tempo B na Figura 2.10. Este é o mesmo gráfico mostrado anteriormente com
uma tendência de alta após o ponto A. Este observador sabe que uma tendência de alta ocorreu
lugar entre A e B. É minha opinião que o viés de retrospectiva seria
encorajar os analistas subjetivos a notar o padrão de bandeira de alta em vez de
do que o padrão de baixa de cabeça e ombros. Em outras palavras, a posse do conhecimento
do resultado tende a criar padrões que deram resultados incorretos.
previsões menos perceptíveis ao mesmo tempo em que tornam os padrões que previam com
precisão mais perceptíveis. O que era de fato um padrão ambíguo para um observador que só
possuía conhecimento até o ponto A aparece como um
Preço
Tempo
UMA
FIGURA 2.9 A verdadeira incerteza da previsão.
Bandeira de alta
Preço Óbvio em retrospectiva
Tempo
UMA B
FIGURA 2.10 A falsa certeza da retrospectiva.

bullish bull flag para um observador olhando para trás do ponto B. Da mesma forma, o
conhecimento do resultado possuído pelo observador no ponto B torna o
padrão de cabeça e ombros de baixa menos perceptível. O observador no ponto
B fica com a impressão de que a evidência no gráfico suporta a validade da análise do gráfico.
Alternativamente, se o caminho do preço do momento A ao momento B tivesse sido uma

tendência de baixa, conforme ilustrado na Figura 2.11, eu afirmo que o viés retrospectivo seria
fazer com que um observador no ponto B perceba um padrão superior de cabeça e ombros
que previu com sucesso, mas o observador não notaria a alta
bandeira cuja previsão se revelou errônea.
Essas ilustrações foram elaboradas para mostrar um ponto. Seja qual for o resultado,
sempre é possível notar seletivamente características do gráfico que parecem preditas
corretamente, entre o que é verdadeiramente uma mistura ambígua de
sinais de alta e baixa. A maneira vaga pela qual o mapa subjetivo
padrões são definidos, a falta de critérios objetivos de avaliação e a operação do viés
retrospectivo criam uma ilusão de validade para subjetividade.
análise do gráfico.
Quem entre nós, ao aprender pela primeira vez o padrão cabeça e ombros,
S&S de baixa
Óbvio em retrospectiva
Preço H
S
Tempo
UMA B
FIGURA 2.11 A falsa certeza da retrospectiva.

não examinou gráficos históricos para encontrar exemplos do padrão cabeça-e-ombros

para ver se funcionava como alegado? E quem de nós não ficou com a impressão:
“Essa coisa realmente funciona!” Fomos meras vítimas do viés retrospectivo?
Há evidências experimentais persuasivas52 de que as pessoas sofrem de viés de

retrospectiva. Em um estudo típico, os alunos foram solicitados a avaliar a probabilidade
de vários resultados antes da viagem do presidente Nixon à China em 1972. Por
exemplo, eles foram solicitados a prever se uma reunião ocorreria entre o presidente
Nixon e o presidente Mao Tse-tung e se os Estados Unidos estabelecessem uma
missão diplomática na China, mas não concedessem o reconhecimento diplomático
que a China desejava. Ambos os eventos eram incertos antes da viagem. Duas
semanas após a viagem, quando os eventos que aconteceram foram conhecidos, os
alunos foram solicitados a relembrar o que haviam previsto anteriormente. Após um
intervalo de duas semanas, 67% dos alunos se lembravam de suas previsões como
sendo mais precisas do que realmente eram. Em outras palavras, eles foram incapazes
de recordar sua incerteza anterior.
Depois de vários meses, a porcentagem de alunos afetados pelo viés retrospectivo
saltou de 67% para 84%.
Descobriu-se que o viés de retrospectiva opera poderosamente no testemunho do
julgamento. Testemunhas acreditam que estão dando relatos precisos, mas sua
lembrança da ordem dos eventos e de detalhes específicos é alterada por saber como
as coisas realmente aconteceram.53 O viés retrospectivo infecta relatos históricos. Os
historiadores, tendo o benefício da retrospectiva, muitas vezes apontam que a
ascensão do Terceiro Reich foi bastante previsível. Eles afirmam que as sementes do
nazismo eram óbvias em vários escritos que precederam o Terceiro Reich. Na verdade,
a ascensão do Terceiro Reich foi apenas uma das inúmeras interpretações possíveis
que poderiam ser lidas nesses relatos. O resultado, a ascensão do Terceiro Reich, que
parece tão inevitável para os historiadores, quando visto em retrospectiva, foi apenas
um entre um número infinito de caminhos possíveis que a história poderia ter tomado.
Outras evidências experimentais mostram que as estratégias destinadas

especificamente a reduzir o viés retrospectivo não são eficazes.54 Mesmo quando as
pessoas são avisadas sobre o viés retrospectivo e instruídas a evitá-lo, isso ainda
ocorre. Parece estar além do controle racional. Nem mesmo a experiência profissional é útil.
Em um estudo, um grupo de médicos foi solicitado a avaliar os erros de diagnóstico
cometidos por outros médicos. Os médicos que faziam as avaliações estavam armados
com o conhecimento da doença que acabou sendo confirmado por um relatório de
patologia. Os avaliadores não conseguiram entender como tais erros poderiam ter sido
cometidos por um médico treinado. Mais uma vez, o conhecimento do resultado faz
com que o passado pareça mais previsível do que realmente foi.
Que processos cognitivos são responsáveis pelo viés de retrospectiva? No entanto

o assunto não está resolvido, parece ir além do desejo de nos vermos como inteligentes
e no controle. Uma conjectura que recebeu algum apoio sugere que tem a ver com o
modo como a memória funciona, ou melhor, deixa de funcionar.55 Em termos
simplificados, o registro de memórias pelo cérebro não é um processo passivo no qual
os eventos são armazenados na sequência temporal adequada, prontos para reprodução
nessa sequência. Em vez disso, a memória envolve uma desconstrução ativa de eventos
para armazenamento e, em seguida, uma reconstrução ativa de eventos quando eles
são lembrados. À medida que os eventos são vivenciados, eles são fatiados e
armazenados por categorias associativas, e não por tempo de ocorrência. Um encontro
com um cachorro no mês passado na casa de um amigo no campo é dissecado e
armazenado em categorias distintas e locais neurais; memórias de cães, memórias de
amigos e memórias de viagens ao campo, todas elas podem ter ocorrido em vários
momentos no passado. Quando tentamos recordar a visita do último mês ao país, a
mente reconstrói a memória juntando pedaços de informação armazenados nesses
locais associativos separados. Os psicólogos especularam que nossos cérebros
evoluíram dessa maneira porque geralmente é eficaz e eficiente.
No entanto, como o tempo de ocorrência não é uma característica importante do sistema

de armazenamento, torna-se difícil lembrar a ordem dos eventos. E é a ordem dos
eventos, como quando recebemos um pouco de conhecimento, que é mais crítica
quando avaliamos nossas habilidades preditivas.
No processo de desconstrução de eventos para armazenamento, novas experiências
se misturam com experiências antigas. Assim como uma gota de tinta em um copo de
água limpa se mistura completa e irreversivelmente, o conhecimento adquirido
recentemente, como o resultado de um evento incerto, torna-se inextricavelmente
misturado com o que era conhecido antes do resultado. O conhecimento pós-resultado
torna-se indistinguível do conhecimento pré-resultado e parece que foi conhecido desde
o início. Isso explica por que é tão difícil para as pessoas reconstruir estados anteriores
de incerteza.
Os analistas subjetivos de AT podem superar o viés de retrospectiva? Para
responder a essa pergunta, devemos considerar o analista no contexto de duas tarefas
diferentes: (1) pesquisa de padrões - a busca de padrões com poder preditivo em dados
históricos e (2) previsão em tempo real - aplicando os padrões no tempo atual para fazer
novas previsões. A tarefa da pesquisa de padrões é exemplificada pelas primeiras
investigações de Charles H. Dow, criador da teoria de Dow, ou de Ralph N. Elliott,
criador do Princípio das Ondas de Elliott.
No processo de formulação de suas ideias, eles propuseram e testaram informalmente
várias hipóteses sobre quais padrões gráficos tinham poder preditivo. A tarefa de fazer
previsões em tempo real aplicando esses padrões no tempo atual seria exemplificada
pelo teórico de Dow Richard Rus Sell aplicando a teoria de Dow hoje ou Robert Prechter,
um especialista em ondas de Elliott, fazendo uma previsão hoje.
No contexto da pesquisa de padrões históricos, afirmo que

o preconceito é inevitável porque é impossível se proteger do conhecimento resultante. O

simples conhecimento do caminho que os preços tomaram influencia a percepção do
analista sobre o poder preditivo de qualquer método que esteja sendo avaliado. Somente
métodos objetivos de AT oferecem a oportunidade de evitar viés de retrospectiva, porque
apenas informações conhecidas em um determinado momento são usadas para gerar
sinais, e os sinais são avaliados de maneira objetiva.
No contexto da previsão do tempo atual, os analistas subjetivos poderiam se proteger
do viés de retrospectiva se estivessem dispostos a fazer previsões falsificáveis. Uma
previsão é falseável se, no momento em que uma previsão é feita, o analista especifica (1)
resultados que constituiriam um erro de previsão, ou (2) o procedimento que será usado
para avaliar a previsão, bem como quando o procedimento será empregado. Por exemplo:
O mercado estará mais alto daqui a seis meses e, dentro desse prazo, o mercado não
cairá mais de 20% em relação aos níveis atuais, ou
O mercado avançará 20% em relação aos níveis atuais antes de cair 20% em relação
aos níveis atuais.
Um sinal de compra foi dado. Mantenha a posição longa até que um sinal de venda
seja dado.
As duas primeiras previsões especificam resultados que definiriam claramente um erro

de previsão. Por exemplo, se o mercado caísse 20% antes de avançar 20%, a previsão
estaria errada. Fim da história! A terceira previsão, um sinal, implica um procedimento claro
de avaliação – calcule o ganho ou perda desde a data da compra até a data do sinal de
venda.
Previsões falsificáveis forneceriam aos analistas e seus clientes um feedback valioso.
Infelizmente, poucos previsores subjetivos fazem isso.
INFORMAÇÃO DE SEGUNDA MÃO: O PODER DE

UMA BOA HISTÓRIA
Ninguém tem tempo, muito menos experiência, para obter todo o conhecimento necessário
por meio da experiência direta. Portanto, por necessidade, a maior parte do que sabemos
aprendemos em segunda mão daqueles que supostamente sabem.
Entre as inúmeras maneiras pelas quais o conhecimento é comunicado, o relato
narrativo ou história é de longe o mais popular. O biólogo Stephen Jay Gould chamou os
humanos de “o primata que conta histórias”. Temos partilhado ideias desta forma há
milhares, talvez milhões de anos. Conseqüentemente, muito do que
sabemos, incluindo até mesmo como fazer aritmética, está armazenado na mente em um
formato narrativo. 56
Por essa razão, boas histórias são persuasores mais poderosos do que fatos objetivos.
Psicólogos especulam que contos concretos, coloridos e emocionalmente interessantes
têm um impacto poderoso em nossas crenças porque
tais histórias trazem à mente roteiros mentais pré-existentes.57 Conceitos e abstrações
simplesmente não podem iluminar as redes de histórias do cérebro da maneira que um
conto animado pode. O filósofo Bertrand Russell disse que quando aprendemos
coisas informalmente (não cientificamente), somos impactados pelo
interesse das instâncias, não pelo seu número”58 .
que os cientistas se treinam para reagir exatamente da maneira oposta, ou seja,
desconsiderar histórias dramáticas e prestar atenção a fatos objetivos, de preferência
aqueles que podem ser reduzidos a números.
Nem todas as histórias são igualmente atraentes. Para chamar a atenção, uma história
deve ser interessante e compreensível, mas não nos aborrece com o que já sabemos.
Somos mais cativados por relatos vívidos sobre pessoas reais,
de preferência pessoas que conhecemos. Histórias que falam às nossas necessidades emocionais
ao ser divertido e informativo vendem o melhor. Um bom conto não só
nos anima, mas ganha vida própria, à medida que é contada e recontada
mais uma vez.
O conflito entre a verdade e o conto

Existe um conflito entre nosso desejo de conhecimento e nosso desejo de que ele
ser entregue na forma de uma boa história. O humorista HL Mencken colocou
eloquentemente; “O que aflige a verdade é que é principalmente desconfortável e muitas
vezes chato. A mente humana busca algo mais divertido e mais carinhoso.” A realidade
tende a ser cheia de inconsistências, então uma audiência deve
confiar na integridade do contador de histórias para contar como é, e não como
eles gostariam de ouvir.
Lamentavelmente, mesmo quando a intenção principal de uma conta de segunda mão
é a entrega de conhecimento, muitas vezes é tendencioso para satisfazer as necessidades do público.
apetite por uma história envolvente. Os Narradores sabem muito bem que as informações
fornecidas com muitos qualificadores não são atraentes. Consequentemente, as
consistências e ambiguidades são minimizadas enquanto os aspectos coesivos são
amplificado.59 Embora essas modificações editoriais tornem a conta
mais digerível, podem roubá-lo de sua verdade essencial. No final, o público fica com uma
impressão exagerada da
clareza e validade. Isso ocorre mesmo quando as descobertas de artigos científicos são
resumidas e comunicadas. Ao longo de inúmeras releituras, o
a verdade fica cada vez mais para trás. O que começou como resultado
com possível significância pode acabar sendo relatada como uma descoberta de
alta significância.
Especialmente persuasivos são os relatos que ligam eventos com a cadeia de

causa e efeito. A percepção de relações causais é uma capacidade cognitiva natural60
e as cadeias causais satisfazem nossa necessidade de explicar eventos em
o mundo ao nosso redor.61 Estudos de decisões do júri mostram que o melhor
narrativas causais vencem no tribunal.62 O lado que oferece a história que
melhor liga as evidências em uma sequência coerente e crível, muitas vezes leva o
dia.63
O problema é que as explicações de causa e efeito que são, de fato, falaciosas
são difíceis de detectar quando são plausíveis e apelam para um senso de
o irônico. Uma história que vem circulando desde a década de 1950 é
como segue: “Os Dez Mandamentos contêm 297 palavras. A Declaração de
Independência tem 300 palavras, o discurso de Lincoln em Gettysburg tem
266 palavras, mas uma diretriz do Escritório de Estabilização de Preços do governo
para regular o preço do repolho contém 26.911 palavras.” o
a verdade é que o Escritório de Estabilidade de Preços nunca fez tal diretiva. No
entanto, o conto teve tanto apelo, que permaneceu vivo apesar da agência
esforços para convencer o público de que era falso. Nem mesmo a dissolução do
Escritório de Estabilidade de Preços interrompeu a história. Foi apenas modificado para
que a diretiva foi descrita como uma “diretiva federal” .
não morreria por causa de sua ironia e a plausibilidade de prolixo
burocratas.
Conto de Elliott
O poder de uma boa história pode explicar o apelo duradouro do Elliott
Princípio da Onda (EWP), uma das conjecturas mais grandiosas da TA. O Princípio
das Ondas de El Liott sustenta que as ondas de preços expressam uma ordem universal e
forma que se encontra não apenas nas flutuações dos mercados financeiros, mas
todo o mundo natural, incluindo as formas de conchas do mar, galáxias,
pinhas, girassóis e inúmeros outros fenômenos naturais.
De acordo com a EWP, as tendências do mercado são fractais - uma hierarquia aninhada de
ondas compartilhando a mesma forma, mas variando em magnitude e duração
de micro-ondas que duram apenas alguns minutos a grandes macroondas milenares
que pode durar milhares de anos.65 Essa forma compartilhada, chamada de Elliott
wave, é uma configuração de oito segmentos de movimentos de preços ascendentes
e descendentes. Na verdade, esse padrão universal de crescimento e decadência
descreve não apenas a evolução dos preços nos mercados financeiros; Isso é também
manifestada na evolução das tendências da psicologia de massa, a ascensão e
queda de civilizações, modas culturais e outras tendências sociais. A teoria
afirma descrever praticamente qualquer coisa que passa por ciclos de
crescimento e mudança. Até mesmo a carreira empresarial do líder da Elliott wave
O defensor Robert Prechter, segundo o próprio Prechter, seguiu um
série de altos e baixos que estão em conformidade com o Princípio Elliott Wave. este
tudo se relaciona com uma sequência de números chamada série de Fibonacci e a

proporção áurea phi, que tem muitas propriedades matemáticas fascinantes.66 No entanto,
aquilo que pretende explicar tudo não explica nada.
O Princípio da Onda Elliott, como praticado popularmente, não é uma teoria legítima, mas
uma história, e uma história convincente que é eloquentemente contada por Robert
Prechter . história até suas flutuações mais minuciosas. Eu afirmo que isso é possível pelas
regras vagamente definidas do método e pela capacidade de postular um grande número
de ondas aninhadas de magnitude variável. Isso dá ao analista Elliott a mesma liberdade e
flexibilidade que permitiram aos astrônomos pré-copernicanos explicar todos os movimentos
observados dos planetas, mesmo que sua teoria subjacente de um universo centrado na
Terra estivesse errada. A analogia entre o astrônomo medieval ajustando epiciclo após
epiciclo aos seus dados e os analistas da EWP ajustando onda dentro de onda aninhada
para dados de mercado é forte. Assim, mesmo que a noção fundamental de EWP esteja
errada, o método de análise ainda será capaz de obter um ajuste muito bom aos dados
passados.68
De fato, qualquer modelo suficientemente flexível pode se ajustar com perfeição a

um conjunto anterior de observações. Por exemplo, uma função polinomial com um número
suficiente de termos (igual em número ao número de pontos de dados) também pode
produzir um retrofit perfeito. No entanto, um modelo ou método com uma capacidade
ilimitada de ajustar observações passadas, mas que não pode fazer previsões testáveis
(falsificáveis69) de observações futuras não é significativo nem útil.
Embora se diga que o Princípio das Ondas de Elliott mantém até os céus, onde as
galáxias obedecem à espiral logarítmica, seu desempenho aqui na Terra tem sido menos
que estelar.70 O que então explica seu apelo duradouro?
Eu afirmo que isso se deve ao fato de que o EWP é uma história abrangente de causa e
efeito que promete decifrar o passado do mercado e adivinhar seu futuro melhor do que
qualquer outro método de AT. Algumas histórias são boas demais para deixar morrer.
Histórias moldadas pelo interesse próprio
O interesse próprio pode motivar a distorção em contas de segunda mão. Pessoas com
uma posição ideológica ou teórica tendem a aguçar seletivamente alguns aspectos de uma
história e minimizar outros para alinhá-la melhor com seu ponto de vista. Os fornecedores
de métodos específicos de AT ou de AT em geral têm interesses ideológicos e financeiros
claros em jogo.
Essa acusação pode ser feita a mim71 ou a qualquer autor que defenda uma posição.
No entanto, quando o contador de histórias é constrangido por evidências objetivas e
procedimentos repetíveis, há menos margem de manobra para que os efeitos distorcidos
do interesse próprio funcionem.
VIENCIAMENTO DE CONFIRMAÇÃO: COMO AS CRENÇAS EXISTENTES FILTRAM

EXPERIMENTAR E SOBREVIVER A EVIDÊNCIAS CONTRADICIONAIS
“Uma vez que uma crença se forma, filtramos as informações de forma a sustentá-la.”72 O viés
de confirmação é a tendência de ver como novas evidências críveis que confirmam nossas
crenças anteriores, mas de ver como evidências incríveis que as contradizem.73 Essa tendência
inibe o aprendizado de novas experiências e sufoca a eliminação de ideias incorretas. O viés
de confirmação explica por que ficamos presos a crenças errôneas.
O viés de confirmação tem uma base racional
Em muitos casos, é racional dar peso e preferência a evidências que apóiam uma crença
existente e ver com ceticismo aquilo que a contradiz. As crenças seriam altamente instáveis
sem tal regra.
A utilização do conhecimento prévio como filtro interpretativo é uma marca da inteligência
humana, desde que o conhecimento prévio seja bem sustentado. Os cientistas estavam
justificadamente céticos quanto à afirmação de que a fusão nuclear havia sido alcançada à
temperatura ambiente em um aparelho construído com peças disponíveis na loja de ferragens
local.74 Suas dúvidas foram posteriormente confirmadas por testes objetivos que não
conseguiram reproduzir o chamado frio -efeito de fusão. Poucos de nós aceitariam pelo valor
nominal a manchete do tablóide de supermercado: “Elvis retorna sobre OVNIs e construirá um
parque temático alienígena”. No entanto, quando as crenças anteriores são injustificadas porque
não têm o apoio de inferências sólidas de evidências sólidas, não é racional conceder-lhes o
status de guardiões intelectuais. O problema é que as pessoas muitas vezes não estão cientes
de quais de suas crenças são injustificadas. Conseqüentemente, o viés de confirmação opera
mesmo quando não deveria.
Percepção tendenciosa
O viés de confirmação é uma consequência do modo como a percepção funciona. As crenças

moldam as expectativas, que por sua vez moldam as percepções, que então moldam as
conclusões. Assim, vemos o que esperamos ver e concluímos o que esperamos concluir. Como
disse Henry David Thoreau: “Ouvimos e apreendemos apenas o que já sabemos parcialmente”.
O truísmo, eu vou acreditar quando eu vir, pode ser melhor dito Eu vou ver quando eu acreditar.
O efeito potente das expectativas sobre a percepção foi demonstrado no experimento

seguinte. Quando os indivíduos receberam uma bebida que eles pensavam conter álcool, mas
na verdade não continham, eles experimentaram uma redução da ansiedade social. No entanto,
outros indivíduos que foram informados de que estavam recebendo bebidas não alcoólicas
quando na verdade eram alcoólatras não experimentaram redução da ansiedade em situações
sociais.75
Não apenas deixamos de perceber novas informações que estão em conflito com
crenças anteriores, também relutamos em tirar conclusões que estão em desacordo
com o que já acreditamos ser assim. Como resultado, tendemos a aceitar em
informações de valor de face que são consistentes com o pensamento pré-existente enquanto
examinamos criticamente e descontamos informações que são inconsistentes com
crenças anteriores. O viés de confirmação explica por que nossas crenças não mudam
em resposta a novas informações, tanto quanto deveriam.76
Fica pior. O viés de confirmação, operando em conjunto com
as leis do acaso, prevê que crenças errôneas se fortalecerão com
tempo e familiaridade.77 Um método TA sem poder preditivo (por exemplo, um sinal
baseado em um lançamento de moeda) terá sucesso ocasional devido ao acaso. Sobre
tempo, essas instâncias de confirmação se acumularão e, devido ao viés de confirmação,
terão maior peso do que as instâncias em que a
método falha. O resultado é um ciclo vicioso de auto-engano crescente. este
sugere que a crença na eficácia de um método falho aumentará ao longo
tempo, independentemente do seu mérito real. Implica também que os profissionais de AT
os mais experientes com um método inútil serão os menos capazes de reconhecer suas
falhas por causa da exposição mais prolongada aos sucessos baseados no acaso do método.
Fatores Motivacionais
O viés de confirmação também é impulsionado por fatores motivacionais. Os praticantes de
AT têm um grande investimento emocional e financeiro em seus
método. Isto é especialmente verdadeiro para profissionais cujas vidas profissionais
estão vinculados a um determinado método.
Há também um forte motivo para manter a consistência dentro de nossas crenças e
atitudes do sistema. A teoria da dissonância cognitiva formulada
de Festinger78 afirma que as pessoas são motivadas a reduzir ou evitar inconsistências
psicológicas.79 O desconforto provocado pela evidência de que
contradiz o que acreditamos torna difícil digerir tais evidências.
Perguntas tendenciosas e pesquisa

O viés de confirmação também inclina a forma como as perguntas são formuladas,
induzindo a busca de novas evidências. Esse viés de busca aumenta a
chance de encontrar novas evidências que apoiem a crença anterior
enquanto reduz a possibilidade de encontrar fatos não confirmatórios ou contraditórios. Isso
ocorre no contexto da pesquisa subjetiva de AT. Por
definição, limita-se à busca de exemplos anedóticos de apoio. Exemplos contraditórios são
difíceis, se não impossíveis, de encontrar porque padrões definidos subjetivamente não
especificam as condições de um
erro de previsão.
Pessoas treinadas no método científico fazem duas coisas para combater isso
tendência. Primeiro, no início de um teste, eles estabelecem critérios objetivos
para avaliar os resultados. Em segundo lugar, eles buscam ativamente evidências que possam
contradizem crenças e suposições anteriores. Os cientistas são guiados pela noção de que
ideias que podem sobreviver a uma busca vigorosa de evidências contraditórias têm maior
validade do que ideias que são meramente apoiadas por evidências contraditórias.
evidência confirmatória descoberta por uma busca direcionada exatamente a isso.
O viés de confirmação pode ocorrer no contexto da AT objetiva como
Nós vamos. Considere um analista procurando regras lucrativas com backtesting.
Se a primeira regra testada apresentar desempenho insatisfatório, a pesquisa
para uma regra com bom desempenho continua. Isso envolve testar uma sequência de regras
com parâmetros alterados, lógica, indicadores e assim por diante até que uma boa seja
encontrada. Isso é mineração de dados. Porque a decisão sobre
quando terminar este processo depende inteiramente do analista, o escopo do
a pesquisa é ilimitada. Isso garante que, em última análise, uma regra com boa
desempenho passado será descoberto. A crença inicial do pesquisador de que um
boa regra será encontrada é assim confirmada.
De fato, o desempenho passado de uma regra descoberta pela mineração de dados
indica seu provável desempenho no futuro. Esse exagero é chamado de
viés de mineração de dados e é discutido no Capítulo 6. Este problema não é de dados
mineração em si. Na verdade, quando feito corretamente, a mineração de dados é um método
de pesquisa produtivo. O erro é a falha em levar em conta o aumento
viés causado pela mineração de dados. Como será explicado no Capítulo 6, tomando
em conta a extensão da busca que levou à descoberta do bom
regra, é possível fazer inferências sólidas sobre o lucro futuro da regra
potencial.
Como os critérios de avaliação vagos

contribuem para o viés de confirmação
Como a AT subjetiva é vaga sobre como suas previsões devem ser avaliadas, a evidência de
seu sucesso e fracasso é ambígua. Isso facilita a
capacidade do analista de apontar para previsões anteriores que funcionaram (confirmação
viés) e, ao mesmo tempo, evitar a identificação de erros de previsão. Isso efetivamente
imuniza os praticantes subjetivos do feedback negativo que pode levá-los a mudar suas
crenças.80
Erros de previsão de um método subjetivo podem ser obscurecidos em vários
de maneiras. Uma é o que chamo de renomeação de padrão. Uma fuga de cabeça
padrão que falha é rotulado como uma armadilha de touros bem-sucedida. De acordo com a
doutrina da TA, alega-se que as fugas ascendentes predizem tendências ascendentes. Isso é
ilustrado na Figura 2.12.
Quando uma tendência de alta não se materializa, deve ser contada como um erro de
previsão. Se, em vez disso, o padrão for renomeado para bull trap,81 acabamos
Preço
Previsto
Resultado
Sinal de fuga
Real
Resultado
Tempo
FIGURA 2.12 Falha de breakout.
com um sinal bem sucedido de um padrão diferente como mostrado na Figura 2.13.
Definições objetivas de padrões e critérios de avaliação claramente pré-definidos
evitariam tal manipulação de evidências após o fato.
Outra maneira pela qual os erros de previsão são obscurecidos é quando as
previsões não possuem um ponto final claro. O ponto final da previsão é um tempo
ou evento futuro que exige que a previsão seja avaliada. Uma previsão ou sinal que não
Preço
Bem sucedido
Armadilha
Sinal
Tempo
FIGURA 2.13 Erro de previsão obscurecido com renomeação de padrão.

especificar ou sugerir um ponto final claro é efetivamente sem sentido. Os chefes

falantes da AT normalmente emitem previsões sem pontos finais claros: “Estou otimista
para o médio prazo”. Esse pronunciamento vago fornece ao previdente espaço de
manobra pós-previsão suficiente para evitar ser apanhado com uma decisão ruim. Um
período de tempo definido ou um evento subsequente específico, como uma certa
porcentagem de movimento de preço adverso, impede o previsor de se envolver em
uma busca após o fato, livre para todos, por qualquer evidência que retrate a previsão
de uma forma boa. leve. No entanto, a declaração “Espero que o mercado avance pelo
menos 5% em relação aos níveis atuais antes de cair 5%” não deixa espaço para
falsificações. Os métodos de sinalização objetivos implicam um ponto final claro - o
sinal subsequente para sair da posição.
A liberdade de alterar o critério de avaliação da previsão após o fato torna provável

que evidências de suporte sejam encontradas. É precisamente por isso que a ciência
tem uma dupla personalidade. É flexível e receptivo a todas as ideias testáveis, mas
rigidamente ortodoxo sobre como o teste e a avaliação devem ser realizados. De fato,
muito do que os cientistas fazem pode ser entendido como o uso de procedimentos
rígidos para determinar quando uma ideia é inútil. Se as pessoas usassem procedimentos
semelhantes em suas vidas cotidianas, seriam muito menos propensas a adotar crenças
errôneas.82 As pessoas são altamente hábeis em inventar ideias, teorias e explicações
para suas experiências que têm uma aparência de plausibilidade . não são tão bons em
testar essas crenças uma vez que elas se enraízam. Uma das maiores razões é a falha
em definir com precisão quais resultados se qualificam como evidência de apoio e quais
não. Sem critérios de avaliação objetivos, a oportunidade e a motivação para encontrar
evidências de apoio para o que já acreditamos não são verificadas e correm soltas.
O Viés de Confirmação e Evidência Vaga

A maneira precisa pela qual o viés de confirmação funciona para substanciar crenças
anteriores depende da clareza da nova evidência. Quando a nova evidência é vaga, o
viés de confirmação opera sem restrições. Como a evidência vaga pode ser interpretada
como contraditória ou de apoio, ela é simplesmente tomada como de apoio.
Os métodos subjetivos de AT são vagos em dois aspectos: com relação a como

os padrões e sinais são definidos e com relação a como as previsões baseadas nos
referidos padrões e sinais devem ser avaliadas. Isso convida à descoberta de evidências
que são fracamente sustentadoras. A evidência fraca não é forte o suficiente para
obrigar a crença de que o método funciona, mas porque a evidência fraca está aberta à
interpretação, ela pode ser interpretada como sendo consistente com a crença de que
o método funciona. A marca registrada da evidência fraca é que ela pode ser interpretada
como consistente com vários pontos diferentes
de vista. Por exemplo, a aparência de uma determinada parte de um gráfico de preços

pode ser consistente com um padrão de impulso de Elliott de cinco ondas, ou um
padrão subjetivo diferente, ou movimento de preço puramente aleatório.84 Padrões
definidos objetivamente e critérios de avaliação não permitem essa margem de manobra.
Ou os dados são um exemplo de um padrão específico ou não são. Ou o
resultado é consistente com a previsão do padrão ou não é.
O Viés de Confirmação e Claramente

Evidência Contraditória
Vamos agora considerar como o viés de confirmação opera quando há evidências que
contradizem claramente uma crença anterior. Em muitas situações, a evidência é uma
mistura. Algumas evidências confirmam claramente a crença e algumas
claramente o contradiz. Nessas situações o viés de confirmação ainda opera, mas de
forma mais complexa.
Pode-se pensar que a evidência dissonante seria simplesmente ignorada ou
distorcida para dar suporte. Mas, isso tende a não acontecer porque as pessoas
valorizam se verem como racionais e cognitivamente
consistente. “Eles estão relutantes em simplesmente desconsiderar evidências pertinentes de que
é contraditório para ver o que eles esperam ver e acreditar no que
eles esperam acreditar.”85 No entanto, o que eles fazem é alterar a dissonância
informação, a fim de reduzir seu conflito com crenças anteriores. Dentro
em outras palavras, o viés de confirmação encoraja manipulações cognitivas sutis para
a evidência claramente dissonante para reduzir sua importância e reduzir seu conflito
com a evidência de confirmação e a crença acalentada.
Uma maneira de as pessoas descontarem evidências discordantes é aplicando uma
padrão mais severo de aceitação.86 O padrão aplicado à evidência de que
suporta uma posição favorecida é a gentil exigência de que ela tenha um anel de
plausibilidade ou a possibilidade de ser válida. Em contraste, o padrão aplicado à
evidência de conflito com crenças acalentadas é que deve ser
convincente além de qualquer dúvida possível. Para os crentes na cura pela fé, um
conta corroborante colorida é aceita sem dúvida. No entanto, um
estudo científico controlado negando a eficácia da cura pela fé seria
falhou em todo e qualquer fundamento possível, razoável ou não. Ao exigir que a
evidência dissonante seja tão forte que seja convincente sem qualquer dúvida, exigindo
apenas que a evidência harmoniosa seja fracamente
consistentes, os detentores de crenças errôneas são capazes de manter sua fé viva.
Uma das descobertas mais surpreendentes sobre o viés de confirmação é que
evidência que contradiz uma crença anterior pode realmente ter o efeito de
fortalecendo essa crença. Alguém poderia pensar que uma mistura de prós e contras
a evidência deve pelo menos reduzir a força da crença anterior. Estudos
mostraram o contrário. Por exemplo, em um experimento, os sujeitos foram
apresentado com evidências claras e convincentes que eram tanto prós quanto contras
pena capital.87 Os sujeitos eram de dois tipos: aqueles com uma crença prévia de que
a pena capital era boa e aqueles com uma crença prévia de que a pena capital era ruim.
Ambos os grupos receberam resumos e críticas a dois estudos diferentes sobre a pena
capital. Um estudo apresentou evidências mostrando que a pena capital era um
impedimento eficaz contra o crime, enquanto o outro forneceu evidências mostrando
que não era eficaz . o estudo que conflitava com a visão deles foi visto como pesquisa
falha e evidência fraca. Depois de serem expostos a evidências de ambos os lados da
questão, os participantes saíram do experimento com suas crenças anteriores
fortalecidas. Em outras palavras, uma mistura de evidências pró e contra fez com que
os dois grupos se tornassem mais polarizados.
Também é informativo considerar o que os sujeitos do estudo não fizeram.

A evidência hostil não foi mal interpretada como favorável nem ignorada.
Em vez disso, foi examinado em busca de falhas, reduzindo assim sua importância. Em
outras palavras, um esforço cognitivo significativo foi gasto para explicar ou minimizar
evidências contraditórias.89
Um experimento mais próximo do TA examinou como o viés de confirmação
encorajou os apostadores malsucedidos a manter seus delírios de grandeza no jogo,
apesar das perdas crescentes. Perder dinheiro parece ser uma evidência inequívoca de
fracasso, mas os maus jogadores permaneceram otimistas. Thomas Gilovich mostrou
que eles conseguiram isso avaliando suas vitórias e derrotas de maneira tendenciosa.90
Como aconteceu com os sujeitos do estudo sobre a pena capital, os jogadores não
esqueceram ou ignoraram evidências discordantes (perdas). Em vez disso, eles
aplicaram um esforço cognitivo significativo para transformar suas perdas em evidências
menos depreciativas. Isso foi exibido em diários mantidos pelos jogadores. Verificou-se
que eles votaram mais comentários às perdas do que aos ganhos, e ganhos e perdas
foram interpretados de forma diferente. Os ganhos foram facilmente atribuídos à
perspicácia do apostador (viés de auto-atribuição), enquanto as perdas foram atribuídas
à má sorte e, com um pouco de ajuste fino no sistema de apostas, teriam sido vitórias.
Esses achados predizem como os praticantes de AT subjetivos podem reagir se

apresentados a evidências objetivas que contradizem a validade de um método
preferido.91 Por exemplo, suponha que um método subjetivo fosse transformado em um
método objetivo e os testes indicassem que o método não era eficaz. É provável que os
adeptos do método encontrem inúmeros motivos para criticar o estudo. Não há nenhum
estudo em qualquer campo da ciência que não possa ser criticado por alguns motivos.
Também é provável que o praticante subjetivo mostre exemplos escolhidos a dedo
mostrando casos em que seu método foi bem-sucedido. No final, é provável que os
praticantes saíssem do exercício mais convencidos do que
sempre no valor de seu método enquanto murmuram sobre acadêmicos de torre de marfim
que têm suas cabeças presas nas nuvens ou em algum lugar pior.
Além do viés da confirmação: o verdadeiro crente

Vimos que crenças errôneas prosperam na imprecisão e podem até
tornar-se mais forte diante de evidências que, no mínimo, exigiriam
crença reduzida. No entanto, a longevidade da crença vai além disso. Estudos
mostraram que uma vez que uma crença se enraíza, ela pode até sobreviver a uma completa
descrédito da evidência que deu origem à crença em primeiro lugar.
Foi demonstrado que, quando os sujeitos são enganados para formar
uma crença errônea, sua crença sobrevive mesmo depois de serem informados de que
havia sido enganado. Um estudo é particularmente relevante para AT porque envolve
discriminação de padrões. Os sujeitos foram solicitados a distinguir notas de suicídio
autênticas de fictícias.92 Inicialmente, os experimentadores deram a
sujeitos falsos feedback, enganando-os assim a acreditar que eles tinham
aprendeu a discriminar notas de suicídio autênticas de falsificações. Na realidade, o
sujeitos não aprenderam a realizar esta tarefa. Mais tarde, os experimentadores contaram
aos sujeitos do engano. Mesmo com um descrédito tão claro
evidência, os sujeitos continuaram a acreditar, em um grau considerável, que
eles foram capazes de discriminar notas de suicídio reais de falsas. Outros experimentos
conduzidos em linhas semelhantes encontraram o mesmo efeito: uma crença
pode sobreviver a um total descrédito de sua base original.93
Essas descobertas preveem como os crentes podem reagir se Ralph Elliott, WD
Gann ou Charles Dow voltassem do túmulo e anunciassem que
seus métodos tinham sido golpes intencionais. É provável que muitos praticantes atuais
continuem a acreditar. Dado que a análise de ondas de Elliott, ou pelo menos uma versão
dela, foi agora reduzida a um objetivo
algoritmo, será interessante ver as reações dos crentes do EWP se os testes objetivos
falharem.94
Métodos subjetivos mais propensos a

sofrer o viés de confirmação
Alguns métodos subjetivos de AT são mais propensos a encorajar o viés de confirmação do

que outros. Esses métodos terão três características:
(1) uma explicação causal elaborada ou uma história convincente sobre por que o
método funciona, (2) alto poder de retrofit - a capacidade de ajustar ou explicar
comportamento de mercado com precisão, e (3) nenhuma capacidade de gerar falsificáveis
(testáveis) previsões.
Os métodos TA que se encaixam nesse perfil incluem ondas de Elliott, ciclo de Hurst,
previsão baseada em astrologia e análise de WD Gann, entre outros.
Por exemplo, o Princípio Elliott Wave é baseado em uma elaborada
explicação invocando forças universais que moldam, não apenas o físico

mundo, mas também a psicologia de massa, a cultura e a sociedade. Além disso, tem
alto poder de retrofit. Ao empregar um grande número de ondas aninhadas que podem
variam em duração e magnitude, é possível derivar um Elliott
contagem de ondas (ou seja, ajuste) para qualquer segmento anterior de dados
históricos. No entanto, com exceção de uma versão objetiva95 das ondas de Elliott, o
método não gera previsões testáveis/falsificáveis.
Vamos considerar o primeiro elemento, uma explicação causal elaborada. AT
métodos baseados em histórias causais intrincadas são capazes de resistir
desafios empíricos porque falam da necessidade humana profundamente sentida de
dar sentido ao mundo. Porque somos compelidos a explicar nossa experiência, temos
habilidades altamente desenvolvidas para gerar histórias plausíveis após
o fato. “Viver, ao que parece, é explicar, justificar e encontrar coerência
entre diversos resultados, características e causas. Com a prática podemos
aprenderam a realizar essas tarefas de forma rápida e eficaz.”96 Estudos em
quais as pessoas são encorajadas a formar crenças errôneas e, em seguida, solicitadas
a construir justificativas para essas crenças, são mais resistentes à mudança de crença
do que indivíduos que não foram solicitados a formular explicações.97
Indivíduos que desenvolveram razões para explicar suas crenças ficaram tão presos
em suas opiniões que, mesmo depois de terem sido informados de que haviam sido
manipulados para adotar uma crença falsa, eles continuaram a acreditar.98 Na verdade, eles
continuaram a acreditar quase tão fortemente quanto outros sujeitos que foram
manipulados para formar falsas crenças, mas não foram informados da manipulação.
O segundo e terceiro elementos que tornam um método de AT imune ao desafio da
evidência é uma alta capacidade de retrofit de movimentos de mercado passados
combinados com uma incapacidade de fazer previsões testáveis (falsificáveis) de futuros
movimentos. A capacidade de trazer todos os movimentos anteriores do mercado em conformidade
com o método tem o efeito de eliminar qualquer evidência contraditória.
Quando ocorrem erros de previsão porque os resultados estão completamente fora de
Apesar das previsões de que mesmo a avaliação subjetiva é incapaz de esconder o
erro, a explicação padrão é que o erro foi causado por uma má aplicação do método e
não por uma falha no próprio método. Este falacioso
o raciocínio é então apoiado pela reaplicação do método para que ele se ajuste ao
resultado discordante. A capacidade de sempre obter um bom ajuste retrospectivo combinado
com a incapacidade de fazer previsões testáveis elimina a possibilidade de que
qualquer evidência virá à tona que contradiga o método.
Na ciência, a razão para eliminar uma teoria errônea é a
fato de que suas previsões de observações futuras são mostradas em conflito com
essas observações. Este é o sinal do cientista de que a teoria precisa
ser eliminado ou reformulado. Se este último, a nova versão da teoria
é então testado contra um conjunto subsequente de observações futuras. Esse
mecanismo essencial para eliminar teorias falsas é ilustrado na Figura 2.14
e é discutido em profundidade no Capítulo 3.
Teoria
Predição
Revisar ou
Predição Teoria do Abandono
Comparado com
Nova observação
Acordo ou conflito? Conflito
Acordo
Aceitação Provisória da Teoria
FIGURA 2.14 Como a ciência elimina teorias ruins.
Toda a motivação para revisar ou abandonar um método de AT, ou qualquer

teoria para esse assunto, vem de ver exemplos claros onde suas previsões estão
erradas. Se for fácil fazer ajustes posteriores que
eliminar todos os erros, perde-se a razão para abandonar o método.
Outras pesquisas sugerem que algumas pessoas são mais propensas ao viés
de confirmação do que outras. Estranhamente, eles são as pessoas mais inteligentes.
O psicólogo de Harvard David Perkins conduziu um estudo interessante mostrando
que quanto maior a inteligência de uma pessoa (medida em pontos de QI), melhor
ela é capaz de construir racionalidades articuladas para suas crenças e crenças.
defendê-los.99 No entanto, Perkins também descobriu que, devido à sua forte
capacidade de racionalizar crenças existentes, pessoas altamente inteligentes são menos capazes
considerar explicações e pontos de vista alternativos. Daí eles são
mais aptos a formar crenças que são resistentes à mudança. O cientista social Jay
Stuart Snelson chama isso de imunidade ideológica. Ele afirma que inteligente
e adultos bem-sucedidos raramente mudam suas pressuposições mais
fundamentais.100 Esse efeito é mais pronunciado em pessoas que acumularam
conhecimento significativo em uma determinada área. Isso sugere que os praticantes
subjetivos mais inteligentes e experientes serão os menos capazes de
abandonar um método em que antes acreditavam.
CORRELAÇÕES ILUSÓRIAS
Os estudos discutidos até este ponto trataram dos erros errôneos das pessoas.
crenças sobre si mesmo e suas habilidades. Consideremos agora os estudos que
examinou as crenças das pessoas sobre o mundo em geral, especificamente se um
existe uma relação preditiva entre um par de variáveis.101 Estas têm
mostrou que as pessoas têm uma tendência a perceber a correlação ilusória. Uma correlação
ilusória é a falsa percepção de uma relação entre um par
de variáveis. É um problema significativo para os praticantes subjetivos de AT.
Métodos TA subjetivos representados

como variáveis binárias
Diz-se que um par de variáveis está correlacionado quando uma delas, denominada
preditor, pode ser usado para prever o outro, referido como o resultado ou
variável dependente. Embora os métodos subjetivos de AT geralmente não sejam descritos
nesses termos, todos esses métodos podem ser vistos como afirmando a
existência de uma correlação entre um par de variáveis. O preditor é um
Padrão TA ou sinal, como o padrão superior de cabeça e ombros. O resultado é o movimento de
preço pós-padrão que o padrão pretende prever. Um padrão superior de cabeça e ombros deve
prever uma tendência de baixa
após a conclusão do padrão. Na verdade, todo o empreendimento da TA, tanto
objetiva e subjetiva, pode ser vista como a busca por tais correlações. Estes são então usados
individualmente, embora mais frequentemente em combinação,
para prever as tendências do mercado.
Também se pode dizer dos padrões subjetivos, que tanto o preditor quanto o
o resultado são variáveis binárias. Ou seja, eles assumem apenas dois
valores possíveis. Com relação à variável preditora, o padrão ou sinal está (1) presente no
momento ou (2) não está presente.
variável de resultado, o movimento futuro de preço que o padrão ou sinal pretende prever, ou (1)
ocorre ou (2) não ocorre.
Por exemplo, o padrão superior de cabeça e ombros é suposto ser
correlacionado com (preditivo de) uma tendência de baixa pós-padrão. Em um determinado ponto
com o tempo, um padrão superior de cabeça e ombros e um sinal de quebra de linha de pescoço
estão presentes no gráfico ou não.103 Seguindo o sinal, a tendência de baixa
ou ocorre ou não. Todos os padrões e sinais subjetivos podem ser interpretados dentro dessa
estrutura.
A afirmação central deste capítulo é que o conhecimento subjetivo da AT possui apenas
validade ilusória. Esta seção examina uma ilusão específica de validade – correlação ilusória.
Uma correlação ilusória é a
percepção de uma correlação entre duas variáveis que não estão verdadeiramente relacionadas.
Por que somos propensos a correlações ilusórias

Um corpo substancial de pesquisas indica que as pessoas são facilmente vítimas de
a ilusão de correlação.104 Essas ilusões parecem resultar de
processando informação. A falha específica está prestando muita atenção
para instâncias que confirmam a existência da correlação ao pagar
pouca atenção aos casos que ou não confirmam as supostas correlações ou que
contradizem abertamente sua existência. Em TA, confirmatório
instâncias são aqueles casos em que o padrão/sinal ocorre e o
O resultado que o padrão/sinal pretende prever também ocorre. Por
Por exemplo, o padrão de topo de cabeça e ombros ocorre e, em seguida, segue-se
uma tendência de baixa. Se você acredita na eficácia de um padrão/sinal subjetivo
específico, pergunte a si mesmo se sua crença não é total ou primordialmente
baseado em ter visto casos em que o padrão foi bem sucedido (exemplos confirmatórios).
Agora pergunte a si mesmo se você é semelhante
ciente dos exemplos em que falhou (sinais falsos positivos ou falsos negativos105).
No entanto, as instâncias confirmatórias constituem apenas um tipo de quatro

possíveis tipos de resultados que podem ocorrer entre um par de variáveis binárias. Os
outros três tipos são (2) o padrão/sinal ocorre, mas o
tendência de mercado que o padrão deveria prever não ocorre, (3) o
padrão/sinal não ocorre, mas o resultado que o padrão deve
predição ocorre de qualquer maneira, e (4) o padrão/sinal não ocorre e o
O resultado que o padrão/sinal pretende prever também não ocorre.
Os tipos um e quatro são previsões corretas. Os tipos dois e três são erros de previsão.
O tipo dois é chamado de sinal falso ou falso positivo. Digite três
é chamado de falha de sinalização ou falso negativo.
O fascínio da célula superior esquerda

Os quatro resultados possíveis entre um par de variáveis binárias podem ser ilustrados
com uma tabela de contingência dois por dois (2 × 2) (Figura 2.15). este
ferramenta de análise de dados comum é composta por quatro células, uma para cada uma das
quatro tipos de resultados possíveis. Em cada célula vai uma contagem do número de
instâncias desse tipo de resultado ocorrendo dentro de uma amostra de observações.
Tal tabela seria útil para representar padrões subjetivos de AT
e seus resultados não fossem o fato de que sua subjetividade impede a obtenção das
contagens.
Estudos mostram que as pessoas são vítimas de correlações ilusórias porque
eles prestam atenção excessiva ao número de instâncias confirmatórias,
aqueles que caem na célula superior esquerda da tabela.106 Ao mesmo tempo, eles
não ter devidamente em conta o número de casos que se enquadram nos outros
Previsto Previsto
Resultado Resultado
Ocorre Não ocorre
Correto
Padrão/Sinal Predição Erro
Ocorre Confirmatório Sinal Falso
Instâncias
Padrão/Sinal Erro Correto

NÃO Falha em Predição
Ocorrer Sinal Sem oportunidade
FIGURA 2.15 Tabela de contingência 2 × 2.
três células. Cometemos este erro por duas razões. A primeira tem a ver com a saliência das
instâncias confirmatórias, e a segunda tem a ver com uma noção intuitiva defeituosa do que
constitui evidência suficiente para concluir que existe uma correlação.
A saliência da evidência refere-se a quão perceptível, vívida ou destacada ela é. A

evidência saliente é chamar a atenção. Os exames confirmatórios são salientes porque
confirmam uma hipótese suspeita. Em outras palavras, eles são recompensadores. Quando os
técnicos subjetivos pensam que descobriram um padrão ou sinal útil, eles normalmente
examinam dados históricos para ver se sua suposição inicial estava correta. Assim, eles estão
engajados em testes informais de hipóteses. Nessa situação, instâncias confirmatórias,
exemplos em que o padrão ocorreu e fez uma previsão correta, serão altamente perceptíveis
porque recompensam a conjectura inicial do analista. Considere como poderia ter sido para RN
Elliott logo após formular seu palpite inicial de que todos os movimentos do mercado se
conformam ao mesmo padrão fundamental – uma onda de impulso de cinco segmentos seguida
por uma onda corretiva de três segmentos (padrão 5-3). Nesse ponto, sua hipótese ainda não
havia alcançado o status de uma crença forte. Era apenas uma suspeita. No entanto, uma vez
que essa hipótese nasceu na mente de Elliott, motivou uma busca por casos adicionais de
confirmação. Em outras palavras, foi a própria conjectura inicial de Elliott que tornou os casos
confirmatórios salientes.
Evidência Necessária versus Suficiente

Uma vez que as instâncias confirmatórias assumem o primeiro plano, uma intuição errônea que é
bastante comum entra em cena. Essa intuição, responsável por
produzindo a ilusão de uma correlação, diz respeito à quantidade de evidências
que é considerado suficiente para estabelecer uma correlação válida. É comum pensar que a
evidência confirmatória, por si só, é suficiente. Isto é
incorreta!
Não é que essa intuição esteja errada, mas incompleta. A intuição nos diz corretamente
que as instâncias confirmatórias (eventos no canto superior esquerdo
célula) são de fato necessárias para estabelecer a existência de uma relação correlativa. Se o
padrão de cabeça e ombros, ou qualquer padrão ou sinal para
que importa, é um preditor válido, então deve haver casos em que
o padrão ocorreu e o resultado esperado também ocorreu. No entanto,
é um erro supor que um bom número de instâncias confirmatórias
são suficientes para estabelecer uma relação correlativa. Em outras palavras, embora as
instâncias confirmatórias sejam necessárias, elas não são por si mesmas,
suficiente para estabelecer a existência de uma relação correlativa. Na realidade,
o número de instâncias que caem em todas as quatro células da tabela de contingência
devem ser levados em consideração para determinar se existe correlação válida.
É porque falhamos em perceber que uma determinada crença não é apoiada por
evidência suficiente de que assume uma ilusão de validade. Assim chegamos a
vê-lo não como uma opinião ou um artigo de fé, mas como uma inferência razoável
a partir de evidências objetivas.107 Numerosos estudos108 mostraram que, quando
as pessoas confiam na análise informal para determinar se existe uma relação entre duas
variáveis, elas tendem a cometer dois tipos de erros. Eles não conseguem
detectam correlações que são, de fato, válidas, mesmo quando a correlação é relativamente
forte109 (correlações invisíveis), e percebem falsamente correlações inválidas (correlações
ilusórias). Ambos os erros estão relacionados com a
expectativas do observador decorrentes de crenças pré-existentes.
Primeiro, vamos considerar o que acontece quando as pessoas recebem dados de
duas variáveis110 que estão de fato relacionadas, mas que não se espera que sejam
correlacionado. Experimentos mostraram que eles são incapazes de detectar o
relacionamentos, a menos que a correlação exceda aproximadamente 0,70, em um
escala de 0 a 1,0, onde 1,0 representa uma correlação perfeita e zero representa nenhuma
correlação. Uma correlação de 0,70 é muito mais forte do que qualquer coisa
provável de ser encontrado no domínio da AT.111 Esse achado sugere
que os analistas subjetivos de AT que se baseiam em análises de dados informais/intuitivas
métodos estarão propensos a perder correlações válidas que eles não esperam que existam.
O que é ainda mais relevante para o problema do conhecimento ilusório da AT

é a tendência de perceber correlações que não existem. Quando os observadores
ter uma crença prévia de que existe uma relação entre padrão e resultado,
ou há uma motivação para encontrar um, o viés de confirmação, discutido anteriormente, torna
provável que uma relação correlativa seja detectada mesmo que não exista. É difícil imaginar
um analista de AT que não seja afetado por crenças anteriores, motivação ou ambos.
Mesmo que não haja crença prévia ou motivação para acreditar, as pessoas ainda exibem
uma tendência pronunciada de perceber correlações ilusórias.
Smedslund realizou um dos primeiros experimentos mostrando essa tendência.112 As
enfermeiras viram 100 cartões que deveriam representar pacientes reais. Cada cartão indicava
se o paciente manifestou um sintoma específico ou não (o preditor binário) e se esse paciente
foi finalmente diagnosticado com uma doença específica (o resultado binário). A tarefa dos
enfermeiros era determinar se o sintoma estava realmente correlacionado com a doença. Os
dados apresentados aos enfermeiros estão resumidos na tabela de contingência da Figura 2.16.
Mais de 85 por cento dos enfermeiros disseram que o sintoma estava correlacionado com
a doença. Eles foram persuadidos pelas 37 ocorrências confirmatórias salientes que caíram na
célula superior esquerda (sintoma presente e doença presente). No entanto, sua conclusão não
foi apoiada pelos dados. Uma análise adequada desses dados, que leva em consideração
todas as contagens de células, indica que o sintoma não está correlacionado com a doença.
Diagnóstico Verdadeiro
Doença Doença
Presente Não presente
Célula A Célula B
Sintoma
Presente 37 17
instâncias instâncias
Célula C Célula D
Sintoma
Não presente
33 13
instâncias instâncias
FIGURA 2.16 Dados avaliados por enfermeiros – estudo Smedslund (1963).

Dando a todas as células o seu devido
Um teste estatístico formal que considerasse todas as contagens de células seria a maneira
rigorosa de determinar se os dados dos enfermeiros eram indicativos de uma correlação
válida. No entanto, não é preciso nem mesmo recorrer a um teste formal para ver que há
não há correlação entre o sintoma e a doença. Todas as células podem ser
levado em consideração calculando algumas razões simples da célula
conta. Por exemplo, a proporção de pacientes que manifestaram o sintoma e que finalmente
provaram ter a doença foi de aproximadamente
0,69 (célula A dividida por [célula A + célula B], 37/54 = 0,685). No entanto, a proporção de
pacientes que não apresentaram o sintoma e que acabaram sendo diagnosticados com a
doença foi quase a mesma ou 0,72 (célula C dividida por
[célula C + célula D], 33/46 = 0,717). Este cálculo rápido e sujo mostra
essa probabilidade de ter a doença era aproximadamente a mesma (0,69 e 0,72),
independentemente de o sintoma estar presente. Teve o sintoma realmente
correlacionada com a doença, as duas proporções teriam sido
bastante diferente, como 0,90 daqueles com o sintoma tinham a doença
enquanto que apenas 0,40 daqueles sem o sintoma tinham a doença. este
não necessariamente sugeriria que o sintoma era a causa da doença, mas apenas que era
um preditor válido dela.
À luz do fato de que mesmo proporções simples não mostraram correlação entre sintoma
e doença, é surpreendente que 85% dos enfermeiros
concluíram que o sintoma era um preditor confiável da doença. o
os enfermeiros também foram apresentados a outros conjuntos de dados. No geral, o fator que
melhor explicou se os enfermeiros perceberam que uma correlação era simplesmente o
número de ocorrências confirmatórias (célula A: ambos os sintomas e a doença ocorrem).
Seus julgamentos não foram afetados pelas proporções relativas que
entrou no cálculo feito anteriormente. Em outras palavras, os enfermeiros
não prestar atenção ao número de casos nas outras três células. Como observado
anteriormente, muitos estudos psicológicos apoiaram a teoria de Smedslund.
descobertas. 113
A maneira estatisticamente correta de detectar uma correlação entre duas variáveis
binárias é o teste Qui-quadrado.114 O teste determina se o
número de instâncias que caem em cada célula difere significativamente do
número que seria esperado em cada célula se não houvesse correlação
entre as variáveis. Em outras palavras, o teste determina se a contagem de células
afastam-se significativamente de uma dispersão aleatória das instâncias entre os
quatro células. Quando as contagens de células se afastam significativamente115 de um
padrão aleatório, a estatística Qui-quadrado assume um valor grande. Esta é uma evidência
legítima de uma correlação.
Na Figura 2.17, os dados do estudo dos enfermeiros foram alterados para ilustrar como
as contagens de células podem aparecer para um sintoma correlacionado
com a doença. Cada célula também contém o número de instâncias que
Diagnóstico Final
Doença Doença
Presente Não presente
Célula A Célula B
Sintoma
54
Presente 47 7
Esperado = 37,8 Esperado = 16,2
Célula C Célula D
Sintoma
Não presente 46
23 23
Esperado = 32,2 Esperado = 13,8
70 30 100
FIGURA 2.17 Evidência de correlação válida.
seria esperado se não houvesse relação preditiva entre sintoma e doença (o padrão aleatório).
Por exemplo, na célula B, houve apenas 7 ocorrências de doença com o sintoma presente (um
sinal falso). Se as instâncias obedecessem a um padrão aleatório, seria de esperar cerca de 16
sinais falsos. Assim, a proporção relativa de doença, se o sintoma estiver presente, é de 0,87
versus 0,50 quando o sintoma não está presente. A diferença nas proporções mostra que o
sintoma está correlacionado com a doença.
O Papel das Variáveis Binárias

Assimétricas na Correlação Ilusória
Correlações ilusórias são especialmente prováveis de surgir quando as variáveis envolvidas
são variáveis binárias de um tipo particular — variáveis binárias assimétricas.116 As variáveis
binárias podem ser simétricas ou assimétricas. Uma variável binária é do tipo simétrica se cada
um de seus valores possíveis estiver associado à presença de um atributo (vermelho/azul ou
republicana/democrata) ou à ocorrência de um evento (chuva/neve ou
inundação/incêndio). No entanto, no caso de uma variável binária assimétrica, uma das

os dois valores da variável retratam a ausência de um atributo ou a
não ocorrência de um evento. Por exemplo, (atributo presente/atributo não
presente) ou (evento ocorrido/evento não ocorreu). Em outras palavras, um dos
os estados da variável representam algo que não está acontecendo ou um recurso que não
estar presente.
Pesquisa117 mostra que quando ambas as variáveis preditoras e de resultado são do tipo
binário assimétrico, as instâncias confirmatórias (o padrão ocorre e o resultado esperado ocorre)
são extraordinariamente salientes e
especialmente propensos a consumir a atenção do analista de dados informal.
Essa mudança de atenção para a célula superior esquerda encoraja fortemente a percepção
de correlações ilusórias. Lembre-se que quando as variáveis são binárias assimétricas, as
outras três células da tabela de contingência contêm
instâncias em que uma ou ambas as variáveis estão registrando a ausência
do padrão, a não ocorrência do resultado esperado ou tanto a ausência do padrão quanto a
não ocorrência do resultado.
A não ocorrência de um evento, ou a ausência de um atributo, é facilmente ignorada, pois
as pessoas têm dificuldade em conceituar e avaliar esse tipo de evidência. A pesquisa a que
acabamos de aludir mostrou que é preciso
mais esforço cognitivo para avaliar instâncias em que algo não ocorre do que instâncias em
que algo ocorre. Para ilustrar o extra cognitivo
esforço necessário para processar uma declaração envolvendo a não ocorrência de um
evento ou a ausência de um atributo, considere as duas afirmações a seguir. Embora ambos
transmitam a mesma informação, o significado de
a primeira, que é dada de forma afirmativa, é intuitivamente óbvia. No entanto, o significado do
segundo, que é dado na forma negativa, requer alguma reflexão.
Declaração 1: Todos os humanos são mortais.

Declaração 2: Todos os não-mortais são não-humanos.
Muitas das proposições da AT subjetiva afirmam a existência de um

correlação entre um par de variáveis binárias assimétricas: um sinal/padrão que está ou não
presente no gráfico e um resultado que o sinal/padrão deve prever, o que ocorre ou não. Desta
forma
a pesquisa psicológica descrita anteriormente sugere que a AT subjetiva
os praticantes estarão especialmente propensos a serem vítimas de correlações ilusórias.
Eles tenderão a ficar muito impressionados com casos confirmatórios, em
qual o padrão/sinal ocorreu e o resultado esperado também ocorreu, e dão pouca atenção e
peso aos três outros tipos de
instâncias. Alguns exemplos de padrões subjetivos juntamente com seus resultados esperados
são ilustrados na Tabela 2.1.
TABELA 2.1 Padrões Subjetivos e Seus Resultados Esperados
Padrão/Sinal Resultado esperado
Top cabeça e ombros Tendência de baixa
Completou a 5ª onda Elliott Onda corretiva
Forte tendência de alta, então sinalizador Continuação da tendência de alta
Leituras de sentimento extremamente otimistas Mercado em baixa
Dados ocultos ou ausentes agravam o problema

de Correlações Ilusórias
A discussão até agora mostra como as pessoas passam a acreditar em falsas correlações
por causa de uma consideração insuficiente de todas as informações relevantes.
em uma tabela de contingência. No entanto, a situação do técnico subjetivo não
não termina aqui. Para agravar ainda mais a propensão a detectar correlações ilusórias
está o problema da falta de dados. As contagens de células necessárias para preencher
a tabela de contingência nem está prontamente disponível. Os dados ausentes
problema é mais uma consequência da análise subjetiva.
Sem sinais/padrões definidos objetivamente e sem
padrões definidos para avaliar seus resultados, é impossível obter
as contagens necessárias que são necessárias para preencher as células da contingência
tabela. Sem essas contagens, a verdadeira eficácia do sinal/padrão não pode
ser avaliado. Isso se aplica até mesmo às instâncias confirmatórias encontradas no
célula superior esquerda da tabela, embora os praticantes subjetivos pareçam nunca
faltam exemplos confirmatórios.118 As definições objetivas são as
única solução para o problema dos dados perdidos. Até que a AT adote a objetividade, ela
continuará a operar com base no pensamento mágico e no mito.
Uma vez que uma correlação ilusória é aceita como fato, dois erros cognitivos
mencionados anteriormente garantem a longevidade do equívoco. A mera crença na
relação ilusória aumenta a probabilidade de que
evidências de suporte serão notadas (viés de confirmação). Além disso, a alegada
correlação é facilmente assimilada em nosso sistema de crenças. Como
Gilovich aponta, uma vez que se suspeita de um fenômeno, as pessoas são
facilmente capaz de chegar a uma explicação sobre por que ela existe e o que
significa. Em outras palavras, os humanos são muito bons em inventar histórias após o
fato.119 Estudos mostram que quando as pessoas são falsamente informadas de que estão
acima da média ou abaixo da média em alguma tarefa, eles podem facilmente inventar
uma razão que explique o porquê.120 Parte do apelo da AT subjetiva é
a fascinante história oferecida sobre por que funciona. A história em si ajuda
sustentar a crença.
A explicação do ilusório por um behaviorista

Correlações
Até agora, a discussão explicou o nascimento e a longevidade de crenças errôneas em

termos de psicologia cognitiva. Uma subdisciplina separada de
psicologia, behaviorismo, oferece uma explicação um pouco diferente de por que
crenças errôneas quanto à eficácia da AT subjetiva devem ser tão duráveis.
A psicologia comportamental está preocupada com papéis de recompensa (reforço
positivo) e punição (reforço negativo) na aprendizagem de
comportamentos habituais. Se um pombo é colocado em uma gaiola e recompensado com um alimento
cada vez que ele bica um botão, ele eventualmente aprenderá o hábito de
apertando o botão. Uma vez adquirido este comportamento, a ave
continue apertando o botão enquanto os pellets de comida continuarem chegando.
No entanto, se a recompensa for interrompida, o pássaro eventualmente descobre que o
comportamento não compensa mais e o comportamento aprendido é extinto.
Uma área de interesse dentro da psicologia comportamental é o relacionamento
entre a força de um hábito, indicada pelo grau em que ele resiste à extinção, e o tipo
específico de esquema de reforço que
originalmente levou à formação do hábito. A questão é que tipo de esquema de reforço
produz os hábitos mais fortes. O tipo mais simples de
o reforço está recompensando cada ação – cada beijinho ganha uma bolinha. Um outro é o
reforço parcial, em que as recompensas vêm apenas em horários fixos
intervalos, como a cada 60 segundos, ou intervalos de comportamento fixo, como
cada décimo beijo. Descobriu-se que o reforço parcial
horários produzem aprendizado mais lento (o hábito leva mais tempo para se formar), mas
hábitos mais fortes.
O mais relevante para o domínio da AT é o fato de que de todos os esquemas de
reforço parcial investigados, o reforço aleatório121 produz
hábitos mais resistentes à extinção. Sob reforço aleatório,
o comportamento do organismo não está verdadeiramente associado ao recebimento de
uma recompensa. O comportamento é recompensado por acaso. Em um experimento, um pombo
bicou um botão colorido e recebeu reforço aleatório por um mero
60 segundos. No entanto, o comportamento de bicar continuou por 3,5 horas após
a recompensa foi interrompida. Em outras palavras, o pássaro patético envolvido em uma
atividade infrutífera por um período que foi 210 vezes maior do que o aleatório
período de reforço que produziu o hábito.122
O reforço aleatório é precisamente o tipo de recompensa recebida por
alguém que acredita em uma correlação de AT ilusória. De vez em quando, por
acaso, o sinal/padrão é seguido pelo resultado esperado, reforçando assim a crença. Estudos
behavioristas preveriam que tal crença
seria extremamente resistente à extinção. Superstições e compulsões
jogos de azar, dois hábitos que se baseiam em correlações ilusórias, são conhecidos por serem
extremamente difícil de curar.123
Quando trabalhei no pregão da American Stock Exchange, conheci

vários comerciantes que exibiram comportamento supersticioso. Um colega insistiu
em usar a mesma gravata todos os dias, que continha um histórico
registro de seus gostos em sopa. Outro foi inflexível quanto a entrar no pregão por uma porta
específica das várias disponíveis. Outro se recusou a usar uma caneta vermelha. Cada um
desses estranhos hábitos foi provavelmente iniciado por
um emparelhamento acidental do comportamento com um resultado desejado ou indesejável
e então perpetuado por reforço aleatório.
FÉ ERRADA NA ANÁLISE DO GRÁFICO
Os técnicos subjetivos, independentemente do método específico que pratiquem,

acreditar na eficácia da análise visual de gráficos. As tabelas de preços são presumidas
ser um método válido para detectar ordens exploráveis no mercado financeiro
dados. Os pioneiros da AT usaram gráficos para descobrir os princípios fundamentais da
disciplina, e hoje eles continuam sendo a principal ferramenta de análise. este
A seção explica por que a confiança na análise de gráficos é equivocada.
Isso não quer dizer que os gráficos não tenham papel na AT. Eles podem servir como
fonte de inspiração que leva à formação de hipóteses testáveis
sobre o comportamento do mercado. No entanto, a menos e até que essas conjecturas sejam
testados vigorosa e objetivamente, eles permanecem meras suposições, em vez de
do que o conhecimento confiável.
Uma busca informal por ordem certamente a encontrará
Os seres humanos têm a necessidade e a capacidade de encontrar ordem e significado em

sua experiência. “Pode ter sido criado em nós através da evolução por causa de sua
adaptabilidade geral: podemos capitalizar os fenômenos ordenados de maneiras que não
podemos nos que são aleatórios. A predisposição
detectar padrões e fazer conexões é o que leva à descoberta e
avançar. O problema é que a tendência é tão forte e tão automática
que às vezes detectamos coerência mesmo quando ela não existe.”124
Uma característica do pensamento intuitivo e não científico é a tendência a aceitar
sem impressões superficiais de perguntas e explicações óbvias. Infelizmente, o que é óbvio
à primeira vista não é necessariamente válido. Para o
antigos, parecia óbvio que o sol orbitava a terra. Aos pioneiros da
TA parecia óbvio que os preços do mercado financeiro formavam padrões e
tendências. Assim como os primeiros observadores dos céus perceberam figuras míticas
como Leão, o Leão e Órion, o Caçador, nos arranjos aleatórios das estrelas, os primeiros
técnicos viram cabeças e ombros, duplos
e tops triplos, e outros padrões nos movimentos sinuosos de
preços de ações e commodities. Esses padrões formam o léxico da análise subjetiva de

gráficos.
Nosso sistema nervoso parece estar conectado para ver formas, independentemente de
se são reais. Dr. John Elder,125 uma notável autoridade em predição
modelagem e mineração de dados, chama isso de efeito “coelhos nas nuvens”.
Há, no entanto, boas razões para questionar a validade da análise de gráficos,
e, por extensão, questionar a validade do conhecimento baseado nele. Sustento que
tendências e padrões em gráficos que parecem reais aos olhos podem, muitas vezes, ser
ilusões nascidas da mente voraz, embora indiscriminada,
apetite para perceber a ordem.
Isso não significa que os mercados financeiros sejam desprovidos de tendências e
padrões autênticos. De fato, há evidências empíricas sólidas de que existem padrões que têm
poder preditivo.126 Isso significa, no entanto, que
a inspeção visual de gráficos é um meio inadequado para descobrir ou verificar a autenticidade
dos padrões. Estudos127 mostraram que mesmo especialistas
grafistas não podem distinguir de forma confiável entre gráficos de ações autênticos e
gráficos simulados produzidos por um processo aleatório. Um método de análise
que não podem discriminar gráficos reais de falsificações não podem fornecer dados confiáveis
análise do real. Um joalheiro que não sabe a diferença entre diamantes autênticos e bijuterias
baratas não está em posição de elogiar um colar de diamantes.
Tendências e padrões ilusórios em dados financeiros

O estatístico Harry Roberts disse que os analistas técnicos são vítimas da ilusão de padrões
e tendências por duas razões possíveis. Em primeiro lugar, “o habitual
O método de representar graficamente os preços das ações fornece uma imagem de níveis
sucessivos (de preços) em vez de mudanças de preços e os níveis podem dar uma aparência
artificial de padrão ou tendência. Em segundo lugar, o próprio comportamento do acaso produz
padrões que convidam a interpretações espúrias.”128
Roberts mostrou que os mesmos padrões gráficos aos quais o TA atribui
importância129 aparecem com grande regularidade em passeios aleatórios. Aleatório
caminhada é, por definição, desprovida de tendências autênticas, padrões ou
ordem de qualquer tipo. No entanto, os gráficos de caminhada aleatória de Roberts exibiam
topos e fundos de cabeça e ombros, topos e fundos triangulares, topos triplos e
fundos, canais de tendência e assim por diante.
Você pode criar um gráfico de passeio aleatório a partir de uma sequência de lançamentos de moedas
começando com um preço arbitrário, digamos $ 100, e adicionando um dólar para cada
cara e subtraindo um dólar para cada cauda. Em outras palavras, o rosto de
a moeda representa uma mudança de preço e o gráfico mostra uma sequência de níveis de
preços simulados. Cada preço simulado na sequência é igual ao
soma algébrica cumulativa de todas as alterações aleatórias anteriores adicionadas ao valor
inicial. Se você realizar esse processo por mais ou menos trezentos lançamentos, você
pode se surpreender com os padrões que aparecem. Muitos serão semelhantes aos
padrões encontrados em gráficos reais de ativos financeiros. Claramente, os padrões
ou tendências que aparecem em um flip chart não podem prever sua evolução futura.
Isso levanta uma questão importante: se padrões do tipo gráfico podem aparecer
com tanta regularidade em passeios aleatórios, e se sabe que esses padrões não
podem ser preditivos, como os mesmos padrões podem ser considerados preditivos
simplesmente porque aparecem em um gráfico real?
Talvez não devêssemos confiar nos olhos de Roberts. Ele era um estatístico, não
um especialista em AT. Se um cartógrafo experiente fosse capaz de identificar os
padrões que ocorrem em gráficos de passeio aleatórios como falsos da mesma forma
que um joalheiro competente pode detectar um diamante falsificado, então o
experimento de passeio aleatório de Roberts não provaria nada além de sua falta de
experiência em gráficos. Certamente, os grafistas especialistas devem alegar que
podem dizer a diferença entre padrões que ocorrem em passeios aleatórios e aqueles
que ocorrem em gráficos reais. Afinal, se os padrões nos gráficos dos mercados reais
se formam como resultado de mudanças na oferta e demanda e/ou oscilações no
humor do mercado, como afirma TA, eles devem parecer diferentes dos meandros
acidentais em um gráfico de passeio aleatório!130
Infelizmente, os grafistas especialistas não foram capazes de dizer a diferença
entre gráficos reais e falsos. Arditti131 os colocou à prova. Quando apresentados a
uma variedade de gráficos reais misturados com gráficos de caminhada aleatória, os
grafistas examinados por Arditti não eram mais precisos em distinguir o real do falso
do que uma suposição. Esse resultado foi posteriormente confirmado em um estudo
informal132 do professor Jeremy Siegel, da Wharton Business School.133 Siegel
apresentou os gráficos mostrados na Figura 2.18 (quatro reais e quatro aleatórios) a
um grupo dos principais corretores da bolsa de Wall Street que se consideravam
competentes leitores de gráficos. Mais uma vez, os especialistas foram incapazes de
distinguir com segurança o real do aleatório. Realizei uma experiência semelhante
com estudantes de administração de pós-graduação que haviam acabado de concluir
um curso de análise técnica. Sua precisão era consistente com a adivinhação. Os
gráficos reais são indicados pelo X.
O que podemos concluir desses resultados? Primeiro, eles não implicam que os
mercados financeiros sejam aleatórios e, portanto, desprovidos de tendências e
padrões válidos. Mas eles questionam a eficácia da análise subjetiva/visual de gráficos
como meio de aquisição de conhecimento e previsão. Se a leitura de gráficos fosse
uma habilidade válida, deveria pelo menos ser possível distinguir um gráfico real de
um falso aleatório.
Evidências de tendências ilusórias nos esportes
Os mercados financeiros não são a única arena em que os observadores são

atormentados pela ilusão da ordem. Muitos fãs de esportes e atletas acreditam em
tendências de desempenho, períodos de desempenho quente e frio. Que fã de beisebol ou
FIGURA 2.18 Gráficos de ações reais e gerados aleatoriamente.

Siegel, Jeremy J., Stocks for the Long Run, 3ª Edição, Copyright 2002, 1998, 1994,
McGraw-Hill; o material é reproduzido com a permissão da The McGraw Hill Companies.
jogador não acha que as quedas de rebatidas ou sequências de rebatidas são reais? Fãs
de basquete, jogadores, treinadores e comentaristas esportivos falam da chamada mão
quente, uma tendência de precisão de arremesso acima da média.
Essas crenças são amplamente aceitas porque as tendências no desempenho
atlético parecem tão óbvias. No entanto, a análise estatística rigorosa do desempenho do
jogador134 indica que o fenômeno da mão quente é uma ilusão. Os fãs foram enganados
por sua intuição. Essa crença errônea deriva de uma noção errônea sobre como os
fenômenos aleatórios devem se comportar . processo. Em vez disso, a intuição nos diz
incorretamente que processos aleatórios devem exibir algo semelhante a um padrão
alternado de resultados positivos e negativos.
A verdade é que as tendências esportivas são, em geral, uma ilusão cognitiva.

O que parece ser uma queda de rebatidas ou uma sequência de rebatidas muitas vezes
nada mais é do que uma série de resultados semelhantes, um fenômeno bastante comum
em processos aleatórios. Uma tendência válida é uma sequência de duração mais longa
do que aquelas que são comuns em dados aleatórios. Ou seja, uma tendência real é uma
sequência de comprimento suficiente que seria rara em um processo aleatório.
Gilovich ressalta que “embora o desempenho de um jogador não apresente
sequências mais longas do que as permitidas pelo acaso, isso não significa que o
desempenho do jogador seja determinado pelo acaso. Não é. Quer um dado
o tiro é acertado ou perdido é determinado por uma série de fatores não casuais, sendo a
maioria deles a habilidade dos jogadores ofensivos e defensivos envolvidos. No entanto, um
fator que não influencia ou prediz o
resultado é a taxa de acerto recente do jogador.”136
Para entender por que fãs de esportes, atletas e analistas de gráficos são vítimas
à ilusão de tendências e padrões em dados que podem de fato ser aleatórios
devemos nos aprofundar um pouco mais na natureza do julgamento intuitivo.
O JULGAMENTO INTUITIVO E O PAPEL

DE HEURÍSTICA
“Para simplificar, existem basicamente dois tipos de processos de pensamento:

e controlado.”137 “A intuição é automática. É a nossa capacidade de dirigir
conhecimento, para insight imediato sem observação ou razão” .
semelhante à percepção, rápida e sem esforço, observa o psicólogo da Universidade de
Princeton, Daniel Kahneman. Em contraste, “o pensamento deliberado ou controlado
é raciocinador, crítico e analítico” .
pensamento é raciocínio científico. O protótipo da intuição é o brilhante
diagnosticador médico que sempre parece farejar a doença subjacente.
Os técnicos subjetivos confiam principalmente na intuição, e o fazem para seus
detrimento.
A inteligência humana tem limites. Só podemos prestar atenção a uma fração
extremamente pequena da informação que nos chega através
nossos órgãos sensoriais. Além disso, a mente não é adequada para
tarefas como estimar probabilidades e tomar decisões de maneira lógica e probabilisticamente
correta em situações caracterizadas
pela incerteza.
Para lidar, devemos simplificar. Reduzimos as complexidades de estimar
e tomada de decisão recorrendo a uma variedade de regras rápidas e sujas de
raciocínio conhecido como heurística de julgamento. Eles focam nossa atenção em um
parte limitada do quadro total de informações e utilizam formas relativamente simples de
processamento e raciocínio de informações para chegar a conclusões rapidamente. Tudo
isso é feito sem consciência ou esforço. Nós fazemos
julgamentos intuitivos tão automaticamente e sem esforço quanto reconhecemos
o rosto de alguém, tarefa para a qual a mente está muito bem adaptada.
Adquirimos heurísticas de julgamento a partir da experiência de vida. O termo
heurística refere-se à noção de descoberta por tentativa e erro, e isso é
como essas regras de pensamento são adquiridas. Além disso, eles entram em uso de modo
sutilmente que não temos consciência de como ou quando as aprendemos. E nós
adotá-los porque, em geral, eles funcionam. No entanto, eles funcionam de maneira
imperfeita e, quando falham, nosso julgamento sofre.
A boa notícia é que o julgamento heurístico tende a errar de forma consistente.

maneiras. Em outras palavras, os julgamentos são tendenciosos – eles tendem a estar errados
sempre da mesma forma.140 Essa consistência torna possível
prever as condições sob as quais os julgamentos heurísticos irão falhar e
como eles falharão - se o desvio do valor verdadeiro será positivo ou negativo.
Em geral, os julgamentos heurísticos tendem a errar em situações caracterizadas

pela incerteza.141 Os mercados financeiros são altamente incertos, de modo que os
julgamentos intuitivos nessa área provavelmente serão tendenciosos. O preconceito específico que aflige
técnicos subjetivos é a propensão a ver tendências e padrões em dados
onde tais estruturas não estão realmente presentes. Em outras palavras, há uma tendência
sistemática de perceber ordem onde existe apenas comportamento aleatório.
Isso pode explicar por que os grafistas são incapazes de distinguir gráficos reais de
pseudocharts produzidos a partir de dados aleatórios.
Nas palavras do professor Burton Malkiel, “A aleatoriedade é uma
noção para as pessoas aceitarem. Quando os eventos vêm em grupos e raias,
as pessoas procuram explicações e padrões. Eles se recusam a acreditar que
tais padrões - que ocorrem frequentemente em dados aleatórios - poderiam igualmente ser
derivado do lançamento de uma moeda. Assim também está no mercado de ações.”142 Malkeil
assume a posição extrema de que o mercado é aleatório. eu não compartilho isso
convicção, mas concordam que as pessoas percebem erroneamente a ordem nos dados que são aleatórios.
Por esta razão, a inspeção visual dos gráficos de preços não pode ser confiável.
A ilusão de tendências e padrões em dados que são verdadeiramente aleatórios pode ser
atribuível ao fracasso de uma heurística de julgamento específica chamada raciocínio por
representatividade. Ou seja, uma aplicação defeituosa da regra de representatividade
geralmente útil nos inclina para a percepção de
ordem onde ela não existe.
Viés heurístico e a heurística da disponibilidade

Para recapitular, a heurística nos ajuda a tomar decisões complexas rapidamente, apesar de
as limitações da inteligência humana, mas podem fazer com que essas decisões
ser tendencioso. A noção de viés heurístico é facilmente explicada considerando a heurística
de disponibilidade.
Contamos com a heurística de disponibilidade para estimar a probabilidade de eventos
futuros. Baseia-se na noção razoável de que quanto mais facilmente
pode trazer à mente uma classe particular de eventos, mais provável é que
tais eventos ocorrerão no futuro. Eventos que são facilmente trazidos para
mente são cognitivamente disponíveis. Por exemplo, acidentes de avião são
uma classe de eventos com alta disponibilidade cognitiva.
A heurística de disponibilidade faz um certo sentido. A capacidade
recordar uma classe de eventos está de fato relacionado com a frequência com que eles
ocorreram no passado, e também é verdade que eventos que aconteceram com frequência
frequentemente no passado são geralmente mais prováveis de ocorrer no futuro. Isto é

de acordo com uma teoria de probabilidade que afirma que a probabilidade futura de um
evento está relacionada à sua frequência histórica.143 Tomado como uma classe,
trovoadas foram mais frequentes no passado do que impactos de asteróides,
e eles realmente têm uma probabilidade futura maior.
O problema com a heurística de disponibilidade é que existem fatores
que podem aumentar a disponibilidade cognitiva de um evento que não tem nada a ver
com sua frequência histórica e são, portanto, irrelevantes para estimar
sua probabilidade futura. Consequentemente, nossos julgamentos de probabilidade são
às vezes falsamente inflado pela intrusão desses fatores irrelevantes.
Dois fatores que não têm relevância para a probabilidade de um evento, mas que aumentam
sua disponibilidade cognitiva são a atualidade e a vivacidade. Quer dizer,
quão recentemente144 ocorreu um evento do tipo em questão e quão vívido
o evento teve tanto impacto quanto facilmente podemos trazer tais eventos à mente.
Considere acidentes de avião como uma classe de eventos. Um acidente de avião que acabou
de ocorrer é vívido e recente. Como resultado, no período logo após uma
Acidente de avião bem divulgado muitas pessoas tendem a superestimar a probabilidade de
futuros acidentes de avião e têm um medo excessivo de voar. Observação
o viés no julgamento é de superestimar uma probabilidade. A heurística de disponibilidade
nunca nos faz subestimar a probabilidade de um evento.
O erro é sempre superestimar a probabilidade.
A heurística da representatividade:
Raciocínio por semelhança
A heurística da representatividade , que foi identificada pela primeira vez por Tversky
e Kahneman145 é de particular relevância para AT subjetiva. Nós usamos isso
regra para fazer julgamentos de classificação intuitivos. Em outras palavras, é usado
para estimar a probabilidade de que um objeto em particular, por exemplo, o cachorro
antes de mim, pertence a uma determinada classe de objetos, por exemplo, a classe
de poodles. A premissa subjacente da heurística da representatividade é
que cada membro de uma classe deve exibir os principais atributos comuns
que definem a classe. É bastante razoável esperar que os objetos do
mesma classe deve possuir um conjunto similar de características. Ao chegar a um
julgamento por representatividade sobre se um determinado objeto pertence a um
classe particular, inconscientemente consideramos o grau de similaridade ou
correspondência entre os atributos do objeto e o conjunto de atributos supostamente
representativos dessa classe. É por isso que essa heurística é referida como um raciocínio
por representatividade.
Nesta seção e na próxima, argumentarei que a análise de gráficos visuais é inerentemente
falha por causa de um viés para a percepção de ordem e padrão, mesmo em dados que são
verdadeiramente aleatórios. Afirmo que esse preconceito se deve a
uma má aplicação da heurística da representatividade. Em outras palavras, um
viés decorrente de uma aplicação defeituosa da heurística da representatividade pode explicar

por que os técnicos subjetivos são vítimas de uma ilusão de ordem
em gráficos que foram, de fato, produzidos por um processo aleatório.
Para explicar como os grafistas cometem esse erro, que é bastante sutil,
fará um breve desvio, considerando um caso mais fácil de entender de
viés heurístico causado pelo raciocínio da representatividade.
Como mencionado anteriormente, o raciocínio por representatividade tem como premissa
a noção de que uma classe de objetos ou eventos pode ser representada por uma classe
estereótipo — um exemplo típico que possui as principais características distintivas da classe.
Muitas vezes essa linha de raciocínio funciona bem. no entanto
falha quando as características mais visíveis de um objeto não são indicadores confiáveis
da classe do objeto. Em outras palavras, quando as características que mais
chamam a atenção não são relevantes para julgar a classe do objeto146 o raciocínio por
representatividade tende a falhar. Infelizmente, o julgamento intuitivo
tende a se basear nas características mais óbvias de um objeto ou evento, independentemente
de essas características serem indicadores realmente úteis de sua classe.
O raciocínio por representatividade estima a probabilidade do que um
objeto pertence a uma determinada classe considerando o grau de correspondência entre os
atributos mais salientes do objeto e os atributos mais salientes
do estereótipo de classe. Quanto maior o número de atributos correspondentes,
quanto maior a probabilidade julgada de que o objeto seja de fato um membro de
a classe em questão. “Psicólogos modernos levantam a hipótese de que nossos conceitos de
categorias (classes) como caixas de banco, feministas, microcomputadores, gambás e todos
os tipos de coisas são representados cognitivamente como listas de
atributos que acreditamos serem características definidoras dessas entidades.”147
Isso é ilustrado na Figura 2.19. Em muitos casos, este rápido e frugal
regra de classificação fornece resultados precisos. As pessoas não usariam tal
governá-lo se não o fez.
Vamos considerar um exemplo em que a aplicação da regra da representatividade leva a
um julgamento errôneo sobre a classe de um objeto.
Imagine que você acabou de tomar seu assento em um voo de uma companhia aérea comercial
e você fica preocupado que uma pessoa (o objeto) sentada ao seu lado
pode ser um terrorista (a classe). Sua apreensão é despertada porque o
pessoa tem as seguintes características óbvias: homem de origem aparentemente do Oriente
Médio, bigode, 25-30 anos de idade, usando turbante, lendo o Alcorão e parecendo nervoso.
Sua conclusão de que o homem pode
muito bem pertencer à classe dos terroristas ocorreu de forma bastante espontânea
porque suas características óbvias são semelhantes a um conjunto de características
que também foi possuído por (ou seja, é representativo de) os terroristas que
conduziu os ataques de 11 de setembro de 2001. Sua inferência foi baseada
na heurística da representatividade. Agora considere como você teria
reagiu se o passageiro fosse um jovem do Oriente Médio, mas estivesse vestindo jeans e uma
camiseta com um logotipo obsceno, em um carro de Nova York
CKQ
Objeto C GMQ
de
Incerto
Classe
Membro da classe estereotipada
Classe
FIGURA 2.19 Classificação por número de atributos correspondentes.
boné de beisebol Yankee em vez de um turbante, estava lendo uma cópia da

Playboy em vez do Alcorão, e estava ouvindo rock em um iPod enquanto
soprava bolas de goma de mascar. Você não estaria preocupado. Os
julgamentos intuitivos de classe baseiam-se na suposição de que as
características mais óbvias de um indivíduo são indicadores confiáveis de sua
classe.
Julgamentos baseados na representatividade podem errar porque não
levam em conta elementos estatísticos e/ou lógicos de uma situação que são
realmente relevantes para um julgamento preciso sobre sua classe. A maneira
probabilisticamente correta de estimar a classe de um evento ou objeto é
chamada de teorema de Bayes,148 que é derivado dos axiomas da teoria da probabilidade.
Se fosse aplicado ao passageiro aéreo suspeito de ser terrorista, levaria em
conta coisas como a proporção de terroristas no mundo (ou seja, a taxa básica
da classe de terroristas), a proporção de pessoas no mundo que possuem o
conjunto de características observadas (ou seja, a taxa básica do padrão) e a
proporção de terroristas que possuem esse padrão de características (ou seja,
a probabilidade condicional de que essas características estejam presentes,
dado que o indivíduo é de fato um terrorista ). Quando esses valores são
inseridos na equação que expressa o teorema de Bayes obtemos a probabilidade
condicional de que a pessoa seja um terrorista, dado que possui o padrão de
características.
Porque a intuição opera com base na representatividade, em vez de

do que a lei de Bayes, tendemos a cometer um erro chamado falácia da taxa básica.
Esta é a falha em considerar as estatísticas de taxa básica que caracterizam uma situação. Os
terroristas, felizmente, são muito raros (ou seja, têm uma taxa básica muito baixa).
Assim, entre todo o conjunto de pessoas que possuem as mesmas características salientes
dos terroristas de 11/09/01, a fração que é realmente terrorista
é extremamente pequeno. Talvez apenas uma pessoa em um milhão com essas características
é realmente um terrorista. Este fato é altamente relevante para julgar a probabilidade
que a pessoa sentada ao nosso lado é perigosa. No entanto, tendemos a negligenciar as
estatísticas de taxa básica porque o julgamento intuitivo é focado nas características que
chamam a atenção de uma situação ou objeto, em vez de fatos relevantes.
como uma taxa básica.
Um exemplo de raciocínio falacioso por representatividade foi apresentado por analistas
de mercado que previram que uma depressão deflacionária
seguiria o crash da bolsa de outubro de 1987. Eles foram cativados pela notável semelhança
entre o comportamento das ações
mercado em 1929, que levou a uma depressão deflacionária, e seu comportamento em 1987.
Ambos testemunharam quedas de mercado. Essa semelhança gritante levou
atenção dos analistas longe de diferenças significativas entre 1987 e
1929. Em outras palavras, 1987 e 1929 foram diferentes em relação a fatores
que têm alguma informação preditiva com respeito a colapsos deflacionários. Um exame das
quedas de mercado nos últimos 100 anos mostra
que uma queda de preços não é um preditor confiável de uma depressão deflacionária.
Outro erro associado ao raciocínio representativo é chamado de
falácia da conjunção, uma falha em levar em conta uma lei básica da lógica
nos dizendo que um subconjunto adequado deve conter um número menor de objetos
do que o conjunto maior ao qual pertence. O conjunto de cavalos é um subconjunto próprio de
o conjunto maior, animais. Segue-se que os cavalos devem ser em menor número
do que os animais em geral, que inclui cavalos, pássaros azuis, porcos-da-terra e
assim por diante. No entanto, quando as pessoas confiam na regra da representatividade, elas
parecem ignorar essa lei da lógica e cometer a falácia da conjunção. Dentro
um experimento conduzido por Tversky e Kahneman, 150 sujeitos foram
apresentado com a seguinte descrição:
Linda tem 31 anos, é solteira, franca e muito inteligente. Ela se formou em filosofia. Como
estudante, ela se preocupou profundamente com questões de discriminação e justiça
social, e também participou de
manifestações antinucleares. Qual possibilidade é mais provável? (1)
Linda é caixa de banco, ou (2) Linda é caixa de banco E está ativa em
o movimento feminista.
Surpreendentemente, 85 por cento dos sujeitos responderam que era mais

provável que Linda fosse uma caixa de banco E ativa no movimento feminista
do que Linda era simplesmente uma caixa de banco. Esta conclusão ignora a relação lógica
entre um conjunto e um subconjunto próprio. Os assuntos tornaram-se tão
fixado no fato de que Linda possuía um conjunto de características marcantes que
correspondia a um estereótipo intuitivo de uma feminista, que eles cometeram o
falácia da conjunção. Claramente, o conjunto de mulheres que são caixas de banco
e ativa no movimento feminista é um subconjunto de uma categoria maior que
contém todas as caixas de banco do sexo feminino, incluindo aquelas que são feministas e
aqueles que não são. Outros estudos confirmaram esses achados e levaram Tversky
e Kahneman para concluir que os julgamentos de probabilidade das pessoas são tendenciosos
pela adição de detalhes salientes. Mesmo que cada detalhe adicional descrevendo um objeto
reduza a probabilidade de que tal objeto exista,151
quando as pessoas raciocinam por representatividade, detalhes adicionais aumentam a
número de características que correspondem a um estereótipo de classe, aumentando assim
uma estimativa intuitiva de probabilidade. A falácia da conjunção é ilustrada
na Figura 2.20.
A falácia da conjunção pode ter consequências desastrosas quando
se infiltra nos veredictos do júri. Por exemplo, considere qual das duas possibilidades
pareceria mais provável152:
1. O arguido abandonou o local do crime.
2. O arguido abandonou o local do crime por receio de ser acusado de

assassinato.
kT
B n e ers
eueu
uma
Caixas de banco
Quem é
Feministas
FIGURA 2.20 A falácia da conjunção.

A segunda hipótese envolve uma conjunção de “saiu de cena” e

“medo de acusação”. Como a segunda alternativa é um subconjunto da primeira,
é, por definição, menos provável. Claramente, há razões para alguém
sair de uma cena de crime que não seja o medo de ser acusado, como ir pegar
até a limpeza a seco. No entanto, o detalhe adicional da segunda hipótese dá um tom de
plausibilidade porque aumenta um senso de correspondência com ações que seriam
representativas de uma parte culpada.
A HEURÍSTICA DA REPRESENTATIVIDADE E A
TENDÊNCIAS E PADRÕES DE ILUSÃO EM GRÁFICOS:
REAL E FALSO
Até agora, a heurística da representatividade foi discutida com respeito a

seu uso na classificação de objetos. De fato, a heurística também está envolvida em uma
tipo mais abstrato de julgamento de classificação que é central para a prática da AT subjetiva:
julgar que uma amostra de dados evidencia tendências e
padrões e é, portanto, digno de uma análise mais aprofundada ou , alternativamente, que
os dados são uma miscelânea aleatória não digna de uma análise mais aprofundada.
Tenha em mente o julgamento sobre se um conjunto de dados parece aleatório
ou não aleatório não é feito com consciência ou intenção. Ocorre tão automática e
inconscientemente quanto o julgamento envolvido no reconhecimento do rosto de um amigo.
Todos os julgamentos heurísticos, incluindo raciocínio
pela representatividade, ocorrem de forma automática e sem percepção consciente. Como
resultado, quando um grafista conclui que uma amostra do histórico de preços
contém padrões e tendências autênticos (ou seja, que os dados não são aleatórios)
e é, portanto, digno de análise, não é uma questão de pensamento controlado. Ou seja, o
cartista não coloca conscientemente a questão:
“Esses dados aparecem como se contivessem ordem e estrutura exploráveis?”
Embora os julgamentos heurísticos passem despercebidos em nosso pensamento, eles
pode ter uma profunda influência em nossas crenças. O problema é que o pensamento heurístico
não leva em conta características importantes dos dados que
são relevantes para determinar se contém padrões autênticos e
tendências que podem ser exploradas com uma análise mais aprofundada.
Em uma seção anterior, pedi que você criasse um histórico de preços artificial
(gráfico de caminhada aleatória) lançando uma moeda 300 vezes. Se você não fez isso
então, exorto-o a fazê-lo agora. Não só tornará esta seção mais
significativo, pode mudar permanentemente a maneira como você vê os gráficos. Para
citar Martha Stewart, "isso é uma coisa boa."
Se esta foi sua primeira exposição a dados gerados por um processo aleatório,
você pode se surpreender com a aparência não aleatória. Você pode não ter esperado ver
formações que se parecem com padrões gráficos (cabeça e ombros,
topo duplo, etc). A questão que devemos considerar é esta: por que essa sequência, que sabemos
ser de origem aleatória, dá a aparência de
ter padrões e tendências autênticos. Ou, dito de outra forma, por que os dados
gerados por um processo puramente aleatório aparecem como se tivessem sido gerados por
um processo regido por regras que, se descoberto, tornaria possível a previsão?
Seu gráfico pode ter parecido com a Figura 2.21.

A conclusão é esta: o que parece não ser aleatório não é
necessariamente não aleatório. Minha opinião é que a percepção de tendências
e padrões em dados gerados aleatoriamente ocorrem devido a uma aplicação defeituosa da
heurística da representatividade. Especificamente, a heurística cria uma noção intuitiva defeituosa
de como os dados aleatórios devem parecer. Este
quer dizer, produz um falso estereótipo de aleatoriedade. Assim, quando nós
visualizar dados que não parecem corresponder a esse estereótipo falso, concluímos automática
e erroneamente que os dados não são aleatórios. A partir disso
conclusão falha, é um pequeno salto para a percepção igualmente falsa de padrões e a noção
igualmente falsa de que os padrões contêm
em formação.
Uma consequência do raciocínio baseado na representatividade é a expectativa de que um
efeito se assemelhe à sua causa. Isso muitas vezes é razoável. A Terra (grande causa) é
responsável pela gravidade (grande efeito), enquanto um
mera pedrinha em nosso sapato causa apenas um pequeno aborrecimento. No entanto, o
A regra de que um efeito deve assemelhar-se à sua causa nem sempre é válida. o
A pandemia de gripe de 1918, um grande efeito, foi causada por uma criatura de proporções
submicroscópicas.
Como isso se relaciona com gráficos de preços de ativos? Um conjunto de dados em um gráfico
pode ser visto como efeito de um processo, da atividade de um mercado financeiro.
O processo é a causa, enquanto os dados são o efeito. Um gráfico do nosso
Preço
Tempo
FIGURA 2.21 Dados de um processo aleatório que parece ordenado.

a temperatura horária do corpo durante um período de 24 horas é um efeito causado por um

processo que passa a ser o metabolismo do nosso corpo.
Como o pensamento baseado na representatividade opera involuntariamente sob a
percepção consciente, quando visualizamos o gráfico do preço de um ativo
história, tendemos a tirar uma conclusão automática sobre a natureza do
processo que gerou o gráfico. Talvez, se os gráficos de ações se parecessem com o traço
da Figura 2.22, os pioneiros da AT teriam sido menos
provável ver estrutura explorável, e a prática de AT nunca
nasceram. Esses dados devem se aproximar de um tipo estéreo intuitivo de aleatoriedade:
casual, desordenado e sem qualquer indício de tendência.
Com base na heurística da representatividade, presumimos que se um
processo (a causa) é aleatório, seu efeito (os dados) também deve aparecer aleatório.
Como consequência dessa suposição, qualquer amostra de dados que se desvie do
presumido estereótipo de aleatoriedade, por se manifestar
algum senso de padrão ou tendência, conclui-se ser o produto de um processo não
aleatório. Os gráficos de ações dão a impressão de terem sido gerados por um processo
não aleatório. Em outras palavras, eles combinam com um intuitivo
noção de ordem e previsibilidade. Tenha em mente que os mercados financeiros podem
de fato, ser não-aleatória em algum grau e, portanto, passível de previsão. No entanto,
essa não é a questão aqui. Em vez disso, o problema é que a estrutura não aleatória que
é passível de previsão pode ser detectada por
inspeção e avaliação intuitiva?
Como mencionado anteriormente, as deficiências de raciocínio por representatividade
se devem a um foco excessivo em aparências óbvias e ao descaso simultâneo de
importantes características estatísticas e lógicas. Como vai
ser explicado no Capítulo 4, uma das características mais importantes de uma amostra
de dados, do ponto de vista da análise de dados, é o número de observações
que compõem a amostra. Conclusões válidas sobre uma amostra de dados devem
levar em conta o número de observações. Além disso, a estatística
Preço
Tempo
FIGURA 2.22 Estereótipo intuitivo de dados aleatórios: aleatórios, desordenados,

não tendencioso.
características de um grande número de observações são necessárias para representar com

precisão a verdadeira natureza do processo que gerou os dados
(por exemplo, aleatório ou não aleatório). Por outro lado, pequenas amostras de dados geralmente
transmitem a ilusão de padrões e tendências porque as características estatísticas de uma
pequena amostra de dados podem ser totalmente não representativas do
processo de geração de dados.
Eu afirmo que a crença de que a análise de gráficos visuais é um método válido para
detectar tendências e padrões é baseado em uma cadeia de pensamento falha que
vai algo assim:
1. Com base na heurística da representatividade, é erroneamente

achava que os dados gerados por um processo aleatório deveriam parecer aleatórios —
um flip-flop aleatório sem forma, sem qualquer indício de padrões, formas ou tendências
organizadas.
2. Este estereótipo é erroneamente assumido para se manifestar em todas as amostras de
dados aleatórios, independentemente do número de observações que compõem
a amostra.
3. Uma pequena amostra de dados é examinada e parece não corresponder ao estereótipo
intuitivo de aleatoriedade.
4. Os dados são, portanto, considerados o produto de um processo não aleatório.
5. Processos não aleatórios são passíveis de previsão, portanto, seria
razoável procurar padrões e tendências nos dados para fazer previsões.

A principal falha nessa cadeia de raciocínio é a falha em considerar
a questão do tamanho da amostra (passo 2 da lista anterior). A presunção
que uma amostra de dados pode refletir com precisão a natureza do processo de geração de
dados, independentemente do número de observações que compõem o
amostra, viola um importante princípio de análise formal de dados, a Lei de
Grandes números. Raciocínio por representatividade desrespeita a Lei
de Grandes Números. Em outras palavras, comete o crime de pequenos números
ou negligência do tamanho da amostra. A penalidade é a adesão automática ao The Fools
do clube Aleatoriedade153 .
A Lei dos Grandes Números e o Crime da

Negligência do Tamanho da Amostra
A Lei dos Grandes Números nos diz que o tamanho da amostra é de suma importância porque
determina a confiança que podemos ter nas inferências
com base em uma amostra de dados. Também conhecida como a Lei das Médias, a Lei da
Números Grandes nos diz que apenas amostras compostas por um grande número de
Os dados contêm ordem previsível?

Sim: a amostra de dados não corresponde ao estereótipo intuitivo de aleatoriedade
Aleatório
Processo
?
Estereótipo
Amostra de dados Aleatório
Dados
Não aleatório
Processo
FIGURA 2.23 Presume-se que os dados sejam passíveis de previsão porque não
não corresponde a um estereótipo intuitivo de aleatoriedade.
as observações refletem de forma confiável e precisa as características do

processo que gerou a amostra. Ou, dito de outra forma, apenas grandes amostras
pode nos informar sobre as características da população da qual o
amostra veio. Assim, quanto maior o número de lançamentos de moedas, mais
a proporção de caras na amostra refletirá uma verdade essencial sobre
moedas honestas: a probabilidade de cara é 0,50. A linha inferior é que podemos ter
maior confiança no que aprendemos com grandes amostras do que com pequenas
uns. A Lei dos Grandes Números será discutida com mais profundidade em conexão com a
estatística no Capítulo 4. Para a presente discussão, o que é
importante é a conexão entre a Lei dos Grandes Números e a
aparecimento de padrões e tendências ilusórias em pequenas amostras de dados.
Amostras pequenas podem ser enganosas porque podem manifestar características
muito diferentes das verdadeiras características do processo
que gerou a amostra. Isso explica por que um pequeno segmento de um pseudo gráfico de
ações - um que foi realmente gerado por um processo aleatório - fornece
o aparecimento de padrões e tendências autênticos. Claro que, por design,
tal gráfico não pode ter tendências e padrões reais. Assim, uma conclusão confiável sobre
se uma amostra de dados foi resultado de um processo aleatório ou não aleatório não pode
ser obtida a partir de uma amostra pequena. Isso é retratado
pelas Figuras 2.24 e 2.25. Quando as partes (pequenas amostras) do gráfico parecem
não aleatório, uma ilusão de não aleatoriedade é criada em todo o gráfico,
quando eles são colocados juntos.
Experimentos de sorteio ilustram como pequenas amostras podem produzir impressões
equivocadas. A característica estatística óbvia desta
Processo aleatório
Amostra Pequena Amostra Pequena Amostra Pequena
Tendência de alta ilusória Padrão Ilusório de S&S Tendência de baixa ilusória
FIGURA 2.24 A ilusão de tendências e padrões em pequenas amostras – dados gerados por um
processo aleatório.
processo é que existem dois resultados igualmente prováveis. Esta é a base para uma
expectativa de que a proporção de caras seja 0,50. Essa intuição é de fato correta quando o
número de jogadas é grande. Em uma amostra de 100.000 lançamentos, a proporção de caras
será extremamente próxima de 0,50. Se alguém repetisse esse experimento muitas vezes, a
proporção de caras seria sempre muito próxima de 0,50. Na verdade, seria improvável que
ficasse fora do intervalo de 0,497–0,503,154
O problema é que a intuição não presta atenção ao tamanho da amostra ou à Lei dos
Grandes Números. Portanto, também esperamos que 0,50 cabeças apareçam em todas as amostras.
Embora seja verdade que a proporção esperada de caras em qualquer amostra seja sempre
0,50, mesmo para apenas dois lançamentos, a proporção de caras que dará
Preço
Ilusório
S&S
Padrão
Tendência de alta ilusória Tendência de baixa ilusória
Tempo
FIGURA 2.25 Se pequenas partes de um gráfico parecem ordenadas, todo o gráfico assume uma
aparência não aleatória.
aparecem em uma determinada amostra pequena pode se afastar significativamente de

0,50. Em dez lances, por exemplo, três caras (0,30) ou sete caras (0,70) podem
acontecer facilmente. Em uma amostra de 100.000 lançamentos, 0,30 cara (30.000) ou
0,70 (70.000) seria praticamente impossível com uma moeda honesta.
Outra intuição errônea sobre processos aleatórios é que os resultados devem se
alternar (para cima/para baixo, cara/coroa) mais do que realmente fazem. Quando as
pessoas são solicitadas a imaginar como seria uma sequência de lançamentos de
moedas, elas tendem a imaginar sequências que mostram muito mais alternância de
cara/coroa do que realmente ocorreria em uma sequência aleatória. sequências de
resultados semelhantes (para cima, para cima, para cima) do que se acredita. Portanto,
quando um conjunto de dados não corresponde à falsa expectativa de uma sequência
alternada, dá-se a ilusão de uma tendência. Por exemplo, parece intuitivamente correto
que o lançamento de uma moeda seja mais provável de produzir a sequência
H,T,H,T,H,T do que a sequência H,H,H,H,H,H. No entanto, ambas as sequências são,
de fato, igualmente prováveis,156 de modo que ficamos com a impressão errônea de
que a primeira sequência sugere um processo aleatório, enquanto a segunda sugere
um processo que exibe uma tendência.
Como as sequências aleatórias na verdade se alternam menos e se espalham

mais do que nossa concepção intuitiva, as sequências que na verdade são aleatórias
parecem não ser aleatórias. Por exemplo, o jogador de basquete médio acerta cerca de
50% de seus arremessos, semelhante à probabilidade de tirar cara. Assim, há uma
chance razoavelmente boa de fazer quatro, cinco ou até seis arremessos seguidos se
20 arremessos forem feitos em um jogo. Em outras palavras, o acaso favorece o
aparecimento do que os fãs de esportes chamam de mão quente,157 que, na verdade,
nada mais é do que uma sequência típica de uma sequência aleatória.
A noção errônea de que os processos aleatórios deveriam se alternar mais e fazer
menos sequências é responsável por duas falsas percepções: (1) a ilusão do
agrupamento e (2) a falácia do jogador. Neste contexto, o termo cluster refere-se a um
aglomerado, seja no tempo ou no espaço, de eventos semelhantes. Um conjunto de
resultados semelhantes em uma série temporal aleatória dá a ilusão de uma tendência
que tem impulso e isso cria a falsa expectativa de que a tendência deve persistir. A
falácia do jogador é a expectativa igualmente falsa de que um conjunto de resultados
semelhantes não deve ocorrer e, quando isso ocorre, dá origem à falsa expectativa de
que uma reversão é devida. A falácia do jogador é exemplificada por uma pessoa que
pensa que uma coroa é mais provável depois de uma sequência de caras.
São as crenças anteriores de um observador sobre um processo que determinam

se ele será vítima da ilusão do agrupamento ou da falácia do jogador. Suponha que
uma pessoa esteja observando um processo que é, de fato, aleatório, mas não percebe
que é. Essa pessoa tenderá a ser vítima da ilusão de agrupamento se tiver uma crença
prévia de que o processo não é aleatório e que deve manifestar tendências. Mais cedo
ou mais tarde ocorre uma raia, e
a crença anterior é confirmada. O observador foi vítima da ilusão do agrupamento.
Em contraste, se o observador tem uma crença prévia de que o processo é aleatório, é

mais provável que ele seja vítima da falácia do jogador.
Mais cedo ou mais tarde ocorre uma sequência, por exemplo, quatro caras seguidas, seguidas
por uma coroa. Embora isso seja bastante normal em um processo aleatório, a aparência da
cauda reforça a falsa crença de que uma cauda era devida. Portanto, quando um processo é
verdadeiramente aleatório, tanto o observador que pensa que o processo não é aleatório e
acredita que as tendências (clusters) devem ocorrer quanto o observador que pensa que o
processo é aleatório e que as tendências deveriam reverter terão suas crenças recompensadas.
Na verdade, quando um processo é aleatório, as expectativas de ambos os observadores são
falsas. Caminhadas aleatórias não têm memória e os resultados anteriores não têm efeito nos
eventos subsequentes.
A ilusão de agrupamento também pode ocorrer em um contexto espacial. A percepção de

formas ilusórias em dados aleatórios é simplesmente outra manifestação de uma falsa expectativa
sobre aleatoriedade. A falsa expectativa é que os dados aleatórios não devam exibir qualquer
sugestão de organização ou forma. Qualquer desvio dessa expectativa é interpretado, falsamente,
como um sinal de um processo não aleatório em andamento. Um caso em que padrões espaciais
ilusórios em dados aleatórios encorajaram a formação de percepções errôneas ocorreu durante
o bombardeio de Londres pela Segunda Guerra Mundial por mísseis alemães V-1 e V-2.158 Os
jornais publicaram mapas de locais de impacto de mísseis, e os leitores tiveram a percepção
imediata de que as greves estavam agrupadas. Isso deu origem a uma interpretação igualmente
falsa, após o fato, de que os padrões de impacto eram evidência de um esforço dos alemães
para evitar atingir certas partes de Londres, o que, por sua vez, gerou um raciocínio causal
falacioso. Os londrinos passaram a acreditar que essas áreas foram poupadas dos ataques V-2
porque abrigavam espiões alemães.
No entanto, uma análise formal dos locais de impacto dos mísseis mostrou que eles eram
totalmente consistentes com um padrão aleatório.
Um exemplo mais recente de agrupamento espacial ilusório que promoveu um raciocínio
causal errôneo foi a chamada histeria do agrupamento de câncer na Califórnia. As pessoas
ficaram alarmadas se o número de casos diagnosticados de câncer de um tipo específico (por
exemplo, câncer de pulmão causado pelo amianto) estivesse muito acima da média em sua
comunidade. Acontece que os clusters podem ocorrer por acaso. O que não é aparente para os
estatisticamente não sofisticados é o seguinte: dados 5.000 setores censitários na Califórnia e
80 possíveis cânceres ambientais, haverá alguns setores em que o número de casos de câncer
estará muito acima da média simplesmente devido ao acaso. Em alguns casos, tais aglomerados
são realmente atribuíveis a toxinas ambientais, mas nem sempre e nem tão frequentemente
quanto a intuição sugere.
Isso nos traz de volta ao TA e ao aparecimento de padrões ordenados como tops duplos,
fundos de cabeça e ombros e assim por diante. A ocorrência de
tais formas não é consistente com uma noção intuitiva de dados produzidos por
um processo aleatório. Tais dados são erroneamente presumidos como completamente
casual e sem forma, então, saltamos para a conclusão de que os padrões devem
ser o subproduto de um processo não aleatório que não é apenas passível de análise visual,
mas que os próprios padrões são úteis para fazer previsões. Como Roberts mostrou,
passeios aleatórios podem traçar facilmente os padrões
que os técnicos subjetivos tanto prezam.
Em resumo, as pessoas têm dificuldade em dizer quando um conjunto de dados é
aleatório ou não. Porque a mente está predisposta à percepção da ordem
e adepto de inventar histórias que explicam por que essa ordem existe, não é
nada misterioso que os pioneiros da AT encontrariam padrões e tendências
em gráficos de preços e, em seguida, inventar teorias sobre por que esses padrões deveriam
ocorrer. Métodos mais rigorosos do que a análise visual e a intuição são
necessários para encontrar a ordem explorável que pode existir no mercado financeiro
flutuações.
O ANTÍDOTO PARA O CONHECIMENTO ILUSÓRIO:

O MÉTODO CIENTÍFICO
Este capítulo examinou muitas maneiras pelas quais podemos ser enganados ao adotar
conhecimento errôneo. O melhor antídoto já inventado para este problema é o
método científico, tema do próximo capítulo.
O científico
Método e
Técnico
Análise
O problema central de A é o conhecimento errôneo. Como é tradicionalmente
T praticada, grande parte da AT é um corpo de dogmas e mitos, fundado na fé

e anedota. Isso é consequência dos métodos informais e intuitivos usados por
seus praticantes para descobrir padrões com poder preditivo.
Como disciplina, a AT sofre porque é praticada sem disciplina.
Adotar uma abordagem científica rigorosa resolveria esse problema.
O método científico não é um procedimento de livro de receitas que automatiza a
descoberta do conhecimento. Pelo contrário, é “um conjunto de métodos projetados
para descrever e interpretar fenômenos observados ou inferidos, passados ou
presentes, destinados a construir um corpo de conhecimento testável aberto à rejeição ou confirmação
Em outras palavras, (é) uma maneira específica de analisar informações com o objetivo
de testar alegações.”1 Este capítulo resume seus fundamentos lógicos e filosóficos e
discute as implicações de sua adoção por profissionais de AT.
O CONHECIMENTO MAIS IMPORTANTE DE TODOS:

UM MÉTODO PARA OBTER MAIS
“De todos os tipos de conhecimento que o Ocidente deu ao mundo, o mais valioso é o
método científico, um conjunto de procedimentos para adquirir novos conhecimentos.
Foi inventado por uma série de pensadores europeus por volta de 1550 a 1700.”2
Comparado às abordagens informais, é insuperável em sua capacidade de separar
fato de falsidade. O aumento dramático em nossa
compreensão e controle sobre o mundo natural nos últimos 400

anos atesta o poder do método científico.
O rigor do método nos protege das fragilidades da mente, que muitas vezes
prejudicar o que aprendemos com a experiência usando métodos menos formais.
Embora a aquisição informal de conhecimento funcione bem para muitas das verdades
óbvias da vida diária, às vezes o que parece óbvio não é verdade. Isto
era óbvio para os antigos que o sol girava em torno da terra. Levou
ciência para mostrar que isso era falso. A observação informal e a inferência intuitiva
são especialmente propensas a falhas quando os fenômenos são complexos ou
altamente aleatório. O comportamento do mercado financeiro exibe ambos.
Historicamente, a AT não tem sido praticada de forma científica, mas esta
agora está mudando. Na academia e no mundo dos negócios, uma nova geração de
praticantes, conhecidos como quants, vêm adotando uma abordagem científica.
De fato, alguns dos fundos de hedge mais bem-sucedidos estão usando estratégias que
poderia ser chamado de AT científica.
Sem surpresa, muitos praticantes tradicionais de AT resistiram a essa
mudança. Interesses adquiridos e formas habituais de pensar são difíceis de abandonar.
Sem dúvida houve oposição quando a medicina popular evoluiu para
medicina moderna, quando a alquimia progrediu para a química e quando
astrologia avançou para a ciência da astronomia. O rancor entre os praticantes
tradicionais e científicos é de se esperar. No entanto, se a história for
qualquer guia, a AT tradicional acabará por ser marginalizada. Astrólogos, al-químicos
e feiticeiros ainda praticam, mas não são mais levados
a sério.
O LEGADO DA CIÊNCIA GREGA: UMA BÊNÇÃO MISTURADA
Os gregos foram os primeiros a fazer um esforço para serem científicos, embora

seu legado provou ser uma bênção mista. Do lado positivo da
livro foi a invenção da lógica por Aristóteles. Os procedimentos formais de raciocínio
que ele desenvolveu continuam sendo um pilar do método científico atual.
Do lado negativo estavam suas teorias errôneas da matéria e do movimento. Em
vez de ser generalizado a partir de observações anteriores e testado contra
fatos recentemente observados, como é a prática na ciência moderna, suas teorias
foram deduzidas de princípios metafísicos. Quando as observações entravam em
conflito com a teoria, Aristóteles e seus discípulos tendiam a dobrar o
fatos ao invés de alterar ou abandonar a teoria. A ciência moderna faz
o oposto.
Aristóteles finalmente percebeu que a lógica dedutiva era insuficiente para
aprendendo sobre o mundo. Ele viu a necessidade de uma abordagem empírica
baseado na lógica indutiva – observação seguida de generalização. Está dentro
O Método Científico e a Análise Técnica 105
foi sua contribuição mais significativa para a ciência. No entanto, ele

falhou na aplicação de sua própria invenção. Na sua instituição de ensino superior
aprendizagem, o famoso Liceu em Atenas, Aristóteles e seus alunos fizeram
observações meticulosas sobre uma ampla gama de fenômenos naturais. Infelizmente, as
inferências que eles extraíram desses fatos foram tendenciosas pelo dogma totélico de Aris
e muitas vezes baseadas em evidências inadequadas .
muita teorização a partir de poucas evidências. Quando os fatos contradisseram favorecidos
primeiros princípios, Aristóteles torcia os fatos para conservar o princípio.
Em última análise, o legado aristotélico provaria ser uma obstrução à
progresso científico. Porque sua autoridade era tão grande, suas teorias falhas
foram transmitidos como dogma inquestionável pelos próximos 2.000 anos.
Isso impediu o crescimento do conhecimento científico, ou pelo menos o tipo de
conhecimento que agora caracterizamos como científico.4 Da mesma forma, o
ensinamentos dos pioneiros da TA como Dow, Schabacker, Elliott e Gann
passado adiante sem questionamentos e não testados. Assim como não há espaço para
dogma na ciência, nem deveria haver na AT.
O NASCIMENTO DA REVOLUÇÃO CIENTÍFICA
“A ciência foi a maior descoberta, ou invenção, do século XVII. Os homens daquela época
aprenderam – e foi uma descoberta muito revolucionária – como medir, explicar e manipular
fenômenos naturais em um
forma que chamamos de científica. Desde o século XVII, a ciência
progrediu muito e descobriu muitas verdades, e conferiu muitos benefícios que o século
XVII não conhecia, mas
não encontrou uma nova maneira de descobrir verdades naturais. Por esta razão, o
O século XVII é possivelmente o século mais importante da humanidade.
história.”5
A revolução começou na Europa Ocidental por volta de 1500 em uma atmosfera de
estagnação intelectual. Naquela época, todo o conhecimento era baseado em
pronunciamentos autoritários em vez de fatos observados. As doutrinas
da Igreja Romana e o dogma da ciência grega foram tomados como verdades literais. Na
Terra, supunha-se que os objetos eram governados pela física totélica de Aris. Nos céus,
as leis inventadas pelos gregos
astrônomo Ptolomeu e mais tarde endossado pela Igreja foram pensados para
regra. O sistema ptolomaico sustentava que a Terra era o centro do universo e que o Sol,
as estrelas e os planetas orbitavam em torno dela. Para o casual
observador, os fatos pareciam concordar com a teoria ortodoxa da Igreja.
Todos ficaram felizes até que as pessoas começaram a notar fatos que conflitavam
com essas verdades aceitas. Os artilheiros observaram que os projéteis
arremessados por catapultas e tiros de canhões não voaram em conformidade com
A teoria do movimento de Aristóteles (Figura 3.1). Os objetos foram repetidamente

observados seguindo trajetórias em arco - um desvio distinto da trajetória prevista pela
teoria grega, que os faria cair diretamente na terra assim que deixassem o aparato. Ou a
teoria estava errada ou os soldados foram enganados por seus sentidos. A noção de testar
a validade de uma teoria comparando suas previsões com observações subsequentes é
fundamental para o método científico moderno. Este foi um passo inicial nessa direção.
Além disso, naquela época, as observações dos céus começaram a colidir com a
teoria da Igreja de um universo centrado na Terra. Medidas astronômicas cada vez mais
precisas revelaram que os planetas não se moviam como a teoria dizia que deveriam. Por
um tempo, astrônomos confusos foram capazes de consertar a teoria da Igreja para fazê-
la concordar com os caminhos planetários observados. À medida que as observações
discordantes ocorriam, novas suposições foram adicionadas à teoria, na forma de órbitas
menores girando em torno da órbita principal de um planeta. Essas correções ad hoc,
chamadas epiciclos, permitiram que a teoria explicasse as observações problemáticas. Por
exemplo, os epiciclos foram capazes de explicar por que os planetas às vezes eram vistos
se movendo para trás (movimento retrógrado) em vez de seguir um caminho contínuo pelo
céu.
Com o tempo, uma sucessão de correções de epiciclos transformou a teoria
fundamentalmente incorreta de um universo centrado na Terra em uma monstruosidade de
complexidade pesada com epiciclos sobre epiciclos menores sobre epiciclos ainda menores.
Um marco na história científica ocorreu quando o telescópio de Galileu Galilei

(1564-1642) mostrou que quatro luas circundavam o planeta Júpiter. Esta observação
contradiz a ortodoxia da Igreja de que todos os objetos celestes devem girar em torno da
Terra. As descobertas de Galileu teriam exigido a rejeição de crenças profundamente
arraigadas e a destruição da visão da realidade da Igreja. As autoridades religiosas não
estavam dispostas a enfrentar esses fatos. Embora Galileu tivesse originalmente recebido
permissão da Igreja para publicar suas descobertas, ela posteriormente retirou a permissão
e
Caminho Observado
Caminho previsto
por
Física aristotélica
FIGURA 3.1 Previsão versus observação.

considerou-o culpado ex post facto. Como punição, ele foi forçado a desistir
astronomia e viver seus dias em prisão domiciliar.6
Eventualmente, a teoria dos céus da Igreja foi substituída pelo distante
modelo copernicano mais simples e correto. Colocou o sol no centro do universo e
conseguiu explicar as observações astronômicas
com muito menos hipóteses. Hoje sabemos que o sol não é o centro
do universo, mas na época o modelo copernicano representava uma verdadeira
aumentar o conhecimento do homem sobre os céus.
FÉ NA REALIDADE OBJETIVA E
OBSERVAÇÕES OBJETIVOS
A ciência faz uma suposição fundamental sobre a natureza da realidade;

existe uma realidade objetiva que existe fora e independente daqueles
que a observam, e essa realidade é a fonte das impressões sensoriais do observador.
Essa fé é a base da ênfase da ciência na observação. Isso é
devidamente caracterizada como uma fé porque não há experimento ou lógica
que pode provar a existência de uma realidade objetiva. Por exemplo, não posso
provar que minha percepção de um sinal de trânsito vermelho é causada por uma luz que
existe fora de mim e não por algo que surgiu inteiramente dentro
minha própria mente.
Pode-se perguntar por que devemos dar tanta importância a um fato que parece
tão óbvio para o senso comum. Todos podem ver que existe um mundo lá fora.
No entanto, aos olhos da ciência esta questão é uma montanha e não uma toupeira, e
aponta para uma importante diferença entre saber cientificamente e saber intuitivamente.
A ciência não aceita algo como verdade
simplesmente porque parece ser assim. A história da ciência tem mostrado repetidamente
que o óbvio não é necessariamente verdade. A ciência assume
verdade de uma realidade objetiva independente, não porque é auto-evidente, mas
porque é consistente com um princípio que molda grande parte da ciência
empresa — o princípio da simplicidade.
O princípio diz que mais simples é melhor. Assim, ao julgar qual
várias teorias é mais provável de ser verdade, quando todas as teorias são igualmente
bom em encaixar um conjunto de fatos observados, o princípio da simplicidade nos impele
aceitar a teoria mais simples. Esta é a teoria que invoca menos
e suposições menos complicadas. O princípio da simplicidade, também
conhecido como Navalha de Okaum, nos diz para cortar o excesso de complexidade de
uma teoria. O modelo copernicano do universo era preferível ao modelo
O modelo da Igreja porque substituiu um arranjo complexo de epiciclos
com uma órbita para cada planeta. Da mesma forma, se um segmento de mercado
a história pode ser explicada tanto como um passeio aleatório, que assume muito
pouco, ou como um padrão de onda de Elliott que assume ondas embutidas dentro
de ondas, proporções áureas, sequências de Fibonacci e uma série de outras
complexidades, o passeio aleatório é a explicação preferida. Isto é, a menos que
o Princípio das Ondas de Elliott seja capaz de fazer previsões mais precisas do
que a teoria do passeio aleatório.
Assumir a existência de uma realidade externa simplifica muito as coisas.
Fazer o contrário exigiria um conjunto muito mais complexo de suposições para
explicar por que duas pessoas, observando o mesmo fenômeno, geralmente saem
com a mesma impressão. Explicar por que vejo outros carros parando quando
vejo o semáforo ficando vermelho é simples se eu assumir que realmente há um
semáforo lá fora. No entanto, sem essa suposição, seriam necessárias muitas
suposições mais complicadas para explicar por que outros motoristas param
quando eu o faço.
Como consequência de sua fé em uma realidade objetiva, a ciência sustenta
que as percepções objetivas e subjetivas são essencialmente diferentes. Minha
observação objetiva de um sinal de trânsito vermelho e minha experiência subjetiva
de estar aborrecido porque me atrasaria para o trabalho não são a mesma coisa.
Observações objetivas podem ser compartilhadas e confirmadas por outros
observadores. Por esta razão, observações objetivas se prestam ao estabelecimento
de conhecimentos que podem ser compartilhados e confirmados por outros.
Pensamentos, interpretações e sentimentos subjetivos não podem, e essa falha
por si só é suficiente para desqualificar a AT subjetiva como conhecimento legítimo.
A NATUREZA DO CONHECIMENTO CIENTÍFICO
Albert Einstein disse uma vez; “Uma coisa aprendi em uma longa vida: que toda a
nossa ciência, medida em relação à realidade, é primitiva e infantil – e ainda assim
é a coisa mais preciosa que temos.”7 O conhecimento científico é diferente da
sabedoria adquirida por outros modos de investigação como como senso comum,
fé, autoridade e intuição. Essas diferenças, que explicam a maior confiabilidade
da ciência, são consideradas nesta seção.
O Conhecimento Científico é Objetivo

A ciência busca a máxima objetividade limitando-se exclusivamente aos fatos
sobre o mundo lá fora, embora se entenda que o conhecimento perfeitamente
objetivo nunca é alcançável. Isso elimina da consideração avaliações subjetivas
que são inerentemente privadas e acessíveis por apenas uma pessoa.
Pensamentos internos e estados emotivos não podem ser compartilhados
com os outros, mesmo quando essa é a intenção de um artista, poeta, escritor ou

compositor. Em Naked Lunch, William Burroughs tenta transmitir sua experiência
pessoal com a heroína. No entanto, nunca conhecerei sua experiência e posso tirar
dessas passagens algo bem diferente da experiência de Burroughs ou de outra
pessoa que a lê. O conhecimento científico é, portanto, público no sentido de que
pode ser compartilhado e verificado pelo maior número de pessoas possível. Isso
promove o máximo acordo possível entre observadores independentes.
O conhecimento científico é empírico ou baseado na observação. Desta forma,

difere das proposições matemáticas e lógicas que são derivadas e consistentes com
um conjunto de axiomas, mas não precisam se referir ao mundo externo ou ser
confirmadas pela observação. Por exemplo, o Teorema de Pitágoras nos diz que o
quadrado do comprimento da hipotenusa de um triângulo retângulo, c, é igual à
soma dos quadrados dos outros dois lados a e b ou
c2 = a2 + b2
No entanto, essa verdade não foi obtida estudando milhares de exemplos de

triângulos retângulos e generalizando a partir dessas muitas observações.
Em vez disso, é derivado de um conjunto de postulados matemáticos aceitos.
O Conhecimento Científico é Quantitativo

A noção de que o mundo é melhor compreendido quando descrito em termos
quantitativos originou-se com o matemático grego Pitágoras [569 aC – aprox. 475
aC]. Ele afirmava que tanto o mundo quanto a mente são essencialmente
matemáticos. A importância que a ciência atribui à quantificação não pode ser
subestimada. “Onde quer que a humanidade tenha conseguido medir as coisas, o
que significa transformá-las ou reduzi-las a números, de fato fez grandes progressos
em compreendê-las e controlá-las. Onde os seres humanos falharam em encontrar
uma maneira de medir, eles tiveram muito menos sucesso, o que explica em parte
o fracasso da psicologia, economia e crítica literária em adquirir o status de ciência .
devem ser analisados de forma racional e rigorosa. A quantificação permite aplicar
a poderosa ferramenta de análise estatística. “A maioria dos cientistas diria que se
você não pode descrever o que está fazendo em termos matemáticos, você
não está fazendo ciência.”9 A quantificação é a melhor maneira de garantir a
objetividade do conhecimento e maximizar sua capacidade de ser compartilhado e
testado por todos os profissionais qualificados.
O Propósito da Ciência: Explicação e

Predição
O objetivo da ciência é a descoberta de regras que predizem novas observações e
teorias que explicam observações anteriores. As regras preditivas, muitas vezes
chamadas de leis científicas, são declarações sobre processos recorrentes, como 'o
evento A tende a prever o evento B', mas as leis não tentam explicar por que isso
acontece.
As teorias explicativas vão além das regras preditivas, dizendo-nos por que B
tende a seguir A, em vez de simplesmente nos dizer que isso acontece.
O Capítulo 7 descreverá algumas teorias avançadas pelo campo das finanças
comportamentais que tentam explicar por que o comportamento dos mercados
financeiros às vezes não é aleatório. Essas teorias dão esperança à AT e podem
explicar por que certos métodos de AT podem funcionar.
As leis e teorias científicas diferem quanto à sua generalidade. Os mais
valorizados são os mais gerais - isto é, eles predizem e/ou explicam a mais ampla
gama de fenômenos. Uma regra de AT que seja efetiva em todos os mercados e
todas as escalas de tempo teria maior estatura científica do que uma que funciona
apenas em futuros de cobre em dados horários.
As leis também diferem em relação ao seu poder preditivo. Aqueles que retratam
os relacionamentos mais consistentes são os mais valiosos. Todas as outras coisas
sendo iguais, uma regra de AT que é bem sucedida 52 por cento do tempo é menos
valiosa do que uma que funciona 70 por cento do tempo.
O tipo mais importante de lei científica é a relação funcional. Ele resume um
conjunto de observações na forma de uma equação. A equação descreve como uma
variável que desejamos prever (variável dependente) tipicamente denotada pela letra
Y, é uma função de (ou seja, dependente de) uma ou mais outras variáveis chamadas
preditoras, geralmente designadas pela letra X. Isso é ilustrado Como
Y = ƒ(Xi )
Normalmente, os valores dos preditores são conhecidos, mas o valor da variável

dependente não. Em muitas aplicações, isso ocorre porque a variável dependente Y
refere-se a um resultado futuro, enquanto as variáveis X referem-se a valores
atualmente conhecidos. Uma vez que uma relação funcional tenha sido derivada, é
possível prever valores para a variável dependente inserindo valores conhecidos das
variáveis preditoras.
As relações funcionais podem ser derivadas de duas maneiras. Eles podem ser
deduzidos de teorias explicativas ou podem ser estimados (induzidos) a partir de
dados históricos por ajuste de função (por exemplo, análise de regressão). Atualmente,
a AT está restrita principalmente a esta última porque as teorias da AT estão sendo
formuladas agora (ver Capítulo 7).
O PAPEL DA LÓGICA NA CIÊNCIA
O conhecimento científico impõe respeito, em parte porque suas conclusões

são baseados na lógica. Ao confiar na lógica e na evidência empírica para justificar sua
conclusões, a ciência evita duas das falácias comuns que contaminam
raciocínio informal: apelos à autoridade e apelos à tradição. Um apelo à autoridade oferece
como prova a declaração de uma pessoa supostamente conhecedora. Um apelo à tradição
oferece uma forma duradoura de
fazendo coisas como prova.
Em seu detrimento, grande parte da AT popular é justificada com base na tradição ou
autoridade, em vez de lógica formal e evidência objetiva. Em muitos
casos, as autoridades atuais apenas citam autoridades anteriores que, por sua vez,
citar ainda especialistas anteriores e assim por diante de volta a uma fonte original cuja
conhecimento era principalmente intuitivo. Assim, as falácias da autoridade e da tradição
reforçam-se mutuamente.
A Primeira Regra da Lógica: Consistência
Aristóteles (384-322 aC) é creditado com a invenção da lógica formal,

que evoluiu da geometria. Os egípcios estavam fazendo precisão
medições de linhas e ângulos e cálculo de áreas por mais de dois mil anos, mas foram os
“gregos que estenderam essas noções básicas e
transformou-os em um sistema convincente de conclusões irrefutáveis derivadas de definições
matemáticas (axiomas).”10
A lógica formal é o ramo da matemática preocupado com as leis da
raciocínio correto que são usados para formular e avaliar a validade de
argumentos. Em contraste com a inferência informal, se as regras da lógica formal
são seguidas, uma conclusão verdadeira é garantida.
O princípio mais fundamental da lógica formal é a regra da consistência. Ela se expressa
em duas leis: a Lei do Terceiro Excluído e a Lei do Terceiro
Lei da Não Contradição. “A lei do terceiro excluído exige que um
coisa deve possuir ou não um dado atributo. Não existe uma alternativa intermediária. Ou dito
de outra forma, o meio-termo é excluído.”11 Uma afirmação é verdadeira ou falsa. Não pode
ser ambos. No entanto, a lei só
aplicado adequadamente a situações que são binárias e é facilmente mal aplicado a
situações que não são verdadeiramente de dois estados.
“Intimamente relacionada à lei do terceiro excluído está a lei da não contradição. Diz-nos
que uma coisa não pode ser e não ser ao mesmo tempo
tempo.”12 Uma afirmação não pode ser verdadeira e não verdadeira ao mesmo tempo. Um
argumento que permite que sua conclusão seja verdadeira e não verdadeira ao mesmo tempo
diz-se que o tempo é autocontraditório.
Como será mostrado nas seções subsequentes, essas leis da lógica são
usado com grande efeito na ciência. Embora as evidências observadas, como a
retorno lucrativo de uma regra TA, não pode provar logicamente que a regra
poder preditivo, essa mesma evidência pode ser usada para refutar logicamente
(contradizer) a afirmação de que a regra é desprovida de poder preditivo. Por
a Lei da Não Contradição, isso indiretamente prova que a regra possui poder preditivo. Esse
método de provar leis empíricas, chamado de
método de prova indireta ou prova por contradição, é a base lógica da
O método científico.
Proposições e Argumentos
A inferência lógica assume duas formas distintas: dedução e indução. Nós
considerará cada um separadamente e, em seguida, verá como eles são usados juntos em
a estrutura lógica da ciência moderna, a teoria hipotético-dedutiva
método. No entanto, antes de considerar essas formas de inferência, algumas definições
são necessárias.
• Proposição: uma declaração declarativa que é verdadeira ou falsa, algumas vezes

chamada de afirmação. Por exemplo, a afirmação O padrão cabeça e ombros tem mais
poder preditivo do que um padrão aleatório.
sinal é uma proposição. Uma proposição difere de outros tipos de
declarações que não possuem o atributo de verdade ou falsidade, como
exclamações, comandos e perguntas. Portanto, apenas proposições podem ser
afirmadas ou negadas.
• Argumento: um grupo de proposições, uma das quais é referida como a
conclusão, que se afirma seguir logicamente das outras proposições, chamadas
premissas. Assim, um argumento afirma que suas premissas
fornecer as evidências para estabelecer a veracidade de sua conclusão.
Lógica Dedutiva
Como mencionado anteriormente, existem duas formas de lógica, dedutiva e indutiva. Esta
seção considera a lógica dedutiva; o próximo considera indutivo.
Silogismos Categóricos. Um argumento dedutivo é aquele cujas premissas

alegam fornecer provas conclusivas e irrefutáveis para a verdade de sua
conclusão. Uma forma comum de argumento dedutivo é o silogismo categórico. É composto
por duas premissas e uma conclusão. É assim chamado
porque trata de relações lógicas entre categorias. Ela começa com um
premissa que afirma uma verdade geral sobre uma categoria, por exemplo, Todos os
humanos são mortais, e termina com uma conclusão que afirma uma verdade sobre um
exemplo específico, por exemplo Sócrates é mortal.
Premissa 1: Todos os humanos são mortais.

Premissa 2: Sócrates é um humano.
Portanto: Sócrates é mortal.
Observe que a primeira premissa do argumento estabelece uma relação entre duas
categorias, humanos e mortais: Todos os humanos são mortais. o
segunda premissa faz uma declaração sobre um determinado membro individual
da primeira categoria: Sócrates é um humano. Isso força as conclusões
que esse indivíduo também deve ser membro da segunda categoria:
Sócrates é mortal.
A forma geral de um silogismo categórico é a seguinte:
Premissa 1: Todos os membros da categoria A são membros da categoria B.

Premissa 2: X é um membro da categoria A.
Portanto: X é membro da categoria B.
A lógica dedutiva tem um atributo especialmente atraente — a certeza. UMA

conclusão a que se chega por dedução é verdadeira com total certeza, mas
isso é verdade se e somente se duas condições forem satisfeitas: as premissas do argumento
são verdadeiras e o argumento tem forma válida . Se uma das condições estiver faltando, a
conclusão é falsa com total certeza. Portanto, um válido
argumento é definido como aquele cuja conclusão deve ser verdadeira se suas premissas
são verdadeiros. Ou, dito de outra forma, é impossível que um argumento válido tenha
premissas verdadeiras e uma conclusão falsa.
Em resumo, as conclusões obtidas por dedução são verdadeiras ou falsas.
Se faltar uma forma válida ou premissas verdadeiras, então a conclusão é falsa.
Se ambos estiverem presentes, a conclusão é verdadeira. Não há meio termo.
É importante notar que verdade e validade são duas propriedades distintas. A verdade e
seu oposto, a falsidade, são propriedades que pertencem a uma proposição individual. Uma
proposição é verdadeira se estiver de acordo com o fato. Porque
premissas e conclusões são ambas proposições, elas são apropriadamente caracterizadas
como verdadeiras ou falsas. A premissa Todos os porcos podem voar é falsa. o
premissa Sócrates é um homem é verdade como é a conclusão Sócrates é mortal.
A validade é uma propriedade que pertence à forma de um argumento. Dentro
em outras palavras, validade refere-se às relações lógicas entre as proposições que compõem
o argumento. A validade ou a falta dela descreve a
correção da inferência lógica ligando as premissas à conclusão, mas a validade não faz
referência à verdade factual do argumento.
premissas ou conclusão. Diz-se que um argumento é válido se, quando
premissas são verdadeiras, sua conclusão também deve ser verdadeira.
No entanto, um argumento pode ser válido mesmo se for composto de falsos
proposições, desde que as conexões lógicas entre as proposições
CARROS
Esportes
Carros
FIGURA 3.2 Círculos de Euler.
são sonoros. O silogismo categórico que se segue tem forma válida porque sua conclusão é
logicamente compelida por suas premissas, mas suas premissas e conclusão são claramente
falsas.
Todos os humanos são imortais.
Sócrates é humano.
Portanto, Sócrates é imortal.
Como a validade não tem nada a ver com questões de fato, a validade pode ser melhor
demonstrada com argumentos ou diagramas de argumentos, chamados círculos de Euler, que
não fazem nenhuma referência factual. Em um diagrama de Euler, o conjunto de elementos que
compõem uma categoria é representado por um círculo. Para mostrar que uma categoria, como
carros esportivos, é um subconjunto da categoria mais geral – carros em geral – o círculo que
representa os carros esportivos está dentro do círculo maior que representa os carros. Consulte
a Figura 3.2.
A Figura 3.3 deixa claro por que o argumento 1 é válido, mas o argumento 2 não.
O argumento 1 é válido porque sua conclusão, X é um B, segue necessariamente (isto é, é
compelido por) suas premissas. No entanto, o Argumento 2 não é válido porque sua conclusão,
X é um A, não é logicamente compelida por suas premissas. X pode pertencer à categoria A,
mas não necessariamente. Os diagramas de Euler retratam a validade com mais força do que o
próprio argumento porque o argumento por si só requer algum pensamento.
Argumento 1
Todos os A's são B's.
X é um A.
Portanto, X é um B.
Argumento 1 Argumento 2
Válido Inválido
Todos os A's são B's. Todos os A's são B's.
X é um A. X é um B.
Portanto, X é um B. Portanto, X é um A.
Categoria B Categoria B
Categoria A X Categoria A
X
FIGURA 3.3 Silogismos categóricos válidos e inválidos.
Argumento 2
Todos os A's são B's.
X é um B.
Portanto, X é um A.
Silogismos Condicionais: A Lógica dos Argumentos Científicos.

Outra forma de argumento dedutivo, e que é central para o raciocínio científico, é o silogismo
condicional . É a base lógica para estabelecer a descoberta de novos conhecimentos.
Assim como o silogismo categórico, o silogismo condicional também é composto por três
proposições: duas premissas e uma conclusão. É assim chamado porque sua primeira premissa é uma
proposição condicional.
Uma proposição condicional é uma declaração composta que combina duas proposições simples
usando as palavras If-then. A proposição que se segue a if é chamada de cláusula antecedente e a
proposição que segue então é chamada de cláusula conseqüente . A forma geral de uma proposição
condicional é
Se (cláusula antecedente), então (cláusula consequente)

Por exemplo:
Se for um cachorro, então ele tem quatro patas.
No exemplo, é um cachorro é a cláusula antecedente e tem quatro pernas é a cláusula

consequente. Um segundo exemplo mais próximo do objetivo em questão seria
Se a regra TA tiver poder preditivo, sua taxa de retorno testada será superior a zero.
Nosso objetivo final será estabelecer a verdade da cláusula antecedente dessas proposições
condicionais como no exemplo anterior. Como ficará claro, o caminho para estabelecer sua
verdade é indireto!
A segunda premissa de um silogismo condicional é uma proposição que afirma ou nega a
verdade da oração antecedente ou da oração consequente da primeira premissa. Referindo-se
ao exemplo anterior, a segunda premissa pode ser uma das quatro seguintes afirmações:
É um cão: Afirma a verdade do antecedente.
Não é um cachorro: nega a verdade do antecedente.
Tem quatro pernas: Afirma a verdade do consequente.
Não tem quatro pernas: nega a verdade do consequente.
A conclusão do silogismo condicional afirma ou nega a verdade da cláusula restante da

primeira premissa. Em outras palavras, a conclusão faz referência à cláusula que não é
mencionada na segunda premissa.
Por exemplo, se a segunda premissa se refere à cláusula antecedente da primeira premissa, É
um cachorro, então a conclusão se refere à cláusula consequente, Tem quatro patas.
Um exemplo de um silogismo condicional é o seguinte:
Se for um cachorro, então ele tem quatro patas.
É um cachorro (afirma a verdade do antecedente).

Portanto, tem quatro pernas (afirma a verdade do consequente).
Quando um silogismo condicional possui forma válida, sua conclusão é logicamente

compelida pelas duas premissas. Além disso, se tem forma válida e suas premissas são
factualmente verdadeiras, então a conclusão dos silogismos condicionais também deve ser
verdadeira.
Formas válidas do silogismo condicional. Existem dois válidos

formas do silogismo condicional; afirmando o antecedente e negando o consequente. Em um
argumento que afirma o antecedente, a segunda premissa afirma a verdade da oração
antecedente da primeira .
premissa. Em um argumento que nega o consequente, a segunda premissa
afirma que a cláusula consequente da primeira premissa não é verdadeira. Esses
duas formas válidas de argumento são mostradas aqui. Eles assumem que todos os cães
possuem quatro patas.
Afirmando o antecedente:
Premissa 1: Se for um cachorro, então tem quatro patas.
Premissa 2: É um cachorro.
Conclusão válida: Portanto, tem quatro pernas.
Nesta forma válida, a segunda premissa afirma a cláusula antecedente

afirmando que é um cachorro. Estas duas premissas obrigam dedutivamente à conclusão Tem
quatro pernas. A forma geral de um silogismo condicional em que
o antecedente é afirmado é
Premissa 1: Se A é verdadeiro, então B é verdadeiro.

Premissa 2: A é verdadeira.
Conclusão válida: Portanto, B é verdadeiro.
A outra forma válida do silogismo condicional é a negação do conseqüente. Nesta forma,

a segunda premissa afirma que a conseqüente
cláusula da premissa 1 é uma falsidade. A partir disso, pode-se concluir que a
cláusula antecedente da premissa 1 também é falsa. Isto é ilustrado pelo exemplo seguinte:
Premissa 2: NÃO tem quatro pernas.
Conclusão válida: Portanto, não é um cão.
A negação do consequente segue a forma geral:

Premissa 2: B não é verdadeira.
Conclusão válida: Portanto, A não é verdadeiro.

Isso às vezes é encurtado para
Se A, então B.
Não B.
Portanto, não A.
Observe que essa forma de argumento usa evidências (a criatura não tem quatro pernas)
para provar que o antecedente (é um cachorro) é falso. É essa forma de raciocínio que é usada
na ciência para provar que uma hipótese é falsa. A hipótese desempenha o papel do antecedente.
Nós hipotetizamos que a criatura é um cachorro. A cláusula consequente prevê o que será
observado se a hipótese for verdadeira. Ou seja, se a criatura é realmente um cachorro, então,
quando for observada, será vista como possuidora de quatro patas. Em outras palavras, a
proposição condicional, Se A, então B, prediz que B seria observado em um experimento se a
hipótese (A) fosse de fato verdadeira. A segunda premissa afirma que quando a observação foi
feita, a observação contradisse a previsão, ou seja, B não foi observado. Dado isso, podemos
deduzir validamente que a hipótese A é falsa.
Como será mostrado no devido tempo, se pudermos provar que a hipótese A é falsa,
podemos provar indiretamente que alguma outra hipótese é verdadeira. Essa outra hipótese é o
novo conhecimento que desejamos estabelecer como verdadeiro, por exemplo, que uma nova
vacina é mais eficaz do que um placebo ou que alguma regra de AT prevê mais efetivamente do
que um sinal gerado aleatoriamente.
Forma inválida do silogismo condicional. Uma razão importante para usar a lógica formal é a
dificuldade que as pessoas muitas vezes têm ao raciocinar informalmente sobre silogismos
condicionais. Consistente com os numerosos preconceitos e ilusões discutidos no Capítulo 2,
estudos psicológicos13 mostraram que as pessoas tendem a cometer duas falácias ao raciocinar
sobre proposições condicionais: a falácia de afirmar o consequente e a falácia de negar o
antecedente. Um exemplo da falácia de afirmar o consequente é
Premissa 2: Tem quatro pernas.
Conclusão inválida: Portanto, é um cão.
O fato de uma criatura ter quatro patas certamente não leva à conclusão de que a criatura
seja um cachorro. Pode ser um cachorro. A evidência é consistente com o fato de que é um cão.
No entanto, a evidência também é consistente com outras conclusões. Poderia facilmente ser
uma vaca, um cavalo ou
qualquer outra criatura de quatro patas. A falácia de afirmar o consequente tem a forma geral:

Premissa 2: B é verdadeira.
Conclusão inválida: Portanto, A é verdadeiro.
Essa falácia é um erro muito comum no raciocínio científico pobre e cometido em muitos
artigos sobre AT. Considere o seguinte silogismo, que comete a falácia de afirmar o consequente.
Premissa 1: Se a regra de AT X tem poder preditivo, então deve gerar lucros em um teste de
retorno.
Premissa 2: O teste de retorno foi lucrativo.
Conclusões Inválidas: Portanto, a regra TA tem poder preditivo.
Ambas as premissas podem ser verdadeiras, mas a conclusão não é necessariamente

verdadeira. Com relação à primeira premissa, é verdade que, se a regra TA X possui poder preditivo,
ela deve voltar a testar de forma lucrativa. Em outras palavras, um backtest lucrativo seria
consistente com a suposição de que a regra tem poder preditivo. No entanto, um teste de retorno
lucrativo também pode ser consistente com a suposição de que a regra foi apenas sorte. Da mesma
forma, assim como a evidência de quatro patas é consistente com um cachorro, também é
consistente com todas as outras criaturas de quatro patas.14 A falácia de afirmar o consequente é
a razão pela qual a evidência empírica não pode ser usada para provar que uma hipótese é
verdadeira. Como veremos, um filósofo da ciência, Karl Popper, sustentou que o método científico
deve, portanto, basear-se na negação (falsificação) do conseqüente, que, como apontado
anteriormente, é uma forma válida de inferência.
A outra falácia associada aos silogismos condicionais é a falácia

de negar o antecedente. Está ilustrado aqui:
Premissa 2: Não é um cachorro.
Conclusão Inválida: Portanto, não tem quatro pernas.
O fato de uma criatura não ser um cachorro não impede que ela tenha quatro patas. A forma
geral desta falácia é

Premissa 2: A não é verdadeira.
Conclusão inválida: Portanto, B não é verdadeira.

Em abreviação lógica
Se A, então B.
Não A.
Portanto, não B.
Argumentos inválidos podem ser difíceis de perceber quando dizem respeito a assuntos
complexos. A melhor maneira de revelá-los é conectar itens comuns para A e B e ver se a
conclusão segue das premissas.
As Figuras 3.4 e 3.5 resumem a discussão anterior do silogismo condicional.
Como mencionado, a grande força do raciocínio dedutivo é sua capacidade de fornecer

conclusões verdadeiras com certeza. No entanto, a lógica dedutiva tem uma grande fraqueza; é
incapaz de revelar novos conhecimentos sobre o mundo. Tudo o que um argumento dedutivo
pode fazer é revelar verdades que já estavam implícitas em suas premissas. Em outras palavras,
o raciocínio dedutivo só pode trazer à tona verdades que já estavam presentes nas premissas,
embora possam não ter sido evidentes.
Isso não visa minimizar ou banalizar a dedução, mas esclarecer seu papel. Pode ser que
uma conclusão implícita nas premissas esteja longe de ser óbvia. Grandes descobertas
matemáticas são exatamente isso – a revelação de verdades que estavam implícitas nos axiomas
de um sistema matemático, mas que não haviam sido compreendidas antes de serem provadas.
Tal foi o caso da tão divulgada prova do último teorema de Fermat. Foi primeiro
Válido Inválido
Afirmando o Antecedente Negando o Antecedente
Se A, então B. Se A, então B.
UMA. Não A.
Portanto, B. Portanto, não B.
Negando o Conseqüente Afirmando o Conseqüente
Se A, então B. Se A, então B.
Não ser. B.
Portanto, não A. Portanto, A.
FIGURA 3.4 Silogismos condicionais: forma geral.

Válido Inválido
Afirmando o Antecedente Falácia: Negar o Antecedente
Se for um cachorro, então tem 4 patas. Se for um cachorro, então tem 4 patas.
É um cão. Não é um cachorro.
Portanto, tem 4 pernas. Portanto, não 4 pernas.
Negando o Conseqüente Falácia: Afirmando Consequência
Se for um cachorro, então tem 4 patas. Se for um cachorro, então tem 4 patas.
Pernas não iguais a 4. Possui 4 pernas.
Portanto, não um cão. Portanto cão.
FIGURA 3.5 Silogismos condicionais: exemplo.
sugerida na margem de um livro em 1665, mas não comprovada até 1994, por An desenhou
Wiles e Richard Taylor.
Lógica Indutiva
A indução é a lógica da descoberta. Tem como objetivo revelar novos conhecimentos sobre o
mundo indo além do conhecimento contido nas premissas de um argumento indutivo. No
entanto, esse novo conhecimento tem um preço: a incerteza. As conclusões alcançadas por
indução são inerentemente incertas. Ou seja, elas só podem ser verdadeiras com algum grau
de probabilidade.
Assim, a noção de probabilidade está intimamente ligada à indução.
A indução procede de maneira oposta à dedução. Vimos que a dedução progride de
uma premissa que expressa uma verdade geral que se acredita se aplicar a um número
ilimitado de instâncias, Todos os homens são mortais para uma conclusão sobre uma
instância específica Sócrates é mortal. Em contraste, o raciocínio indutivo move-se ou, melhor
dizendo, salta de uma premissa baseada em um número limitado de instâncias observadas
para uma conclusão geral sobre um número ilimitado de instâncias semelhantes, mas ainda
não observadas. Assim, esta forma de inferência é muitas vezes referida como generalização
indutiva. É saltando além do que foi experimentado diretamente pela observação que a
indução incorre em incerteza – a possibilidade de que sua conclusão possa estar errada.
A generalização indutiva é ilustrada pelo seguinte:
Premissa: Cada um dos mil cães saudáveis tinha quatro patas.

Conclusões gerais: Todos os cães saudáveis terão quatro patas.
A conclusão, neste exemplo, é chamada de generalização universal, pois afirma que todos
os membros da classe cão possuem o atributo quatro patas. Generalizações universais têm a
forma
Todos os X são Y.
ou
100 por cento dos Xs têm o atributo Y.
As generalizações não precisam ser universais. Generalizações não universais têm a forma
P por cento de X são Y.
ou
P por cento de X tem o atributo Y.
ou
X's têm atributo Y com probabilidade P.
Novamente, vemos que a probabilidade está inextricavelmente ligada ao conceito de

generalização. Na verdade, generalizações não universais também são conhecidas como
generalizações probabilísticas. Um exemplo seria: Uma porcentagem maior de buldogues são
propensos à violência do que poodles. Essa generalização não universal estatisticamente
sólida15 não afirma que todos os buldogues são propensos ao comportamento violento, nem
afirma que mesmo a maioria tem essa tendência. No entanto, diz que, como um grupo, as
estatísticas mostram que os buldogues têm uma probabilidade maior de serem perigosos do que
os poodles.
A derrota de Aristóteles como cientista foi em parte atribuível ao seu fracasso em apreciar
que generalizações não universais transmitem conhecimento útil.
Seu fascínio pela certeza das provas dedutivas o levou a restringir sua busca a generalizações
universais. Ele foi incapaz de ver que muitas regularidades importantes do mundo natural são
inerentemente probabilísticas.
Indução por Enumeração

A forma mais comum de argumento indutivo é baseada na enumeração.
Ele parte de uma premissa que enumera a evidência contida em um conjunto de observações e,
em seguida, tira uma conclusão geral que pertence a todas as observações semelhantes fora do
conjunto enumerado.
Premissa: Nos últimos 20 anos, houve 1.000 instâncias em

qual a regra TA X deu um sinal de compra e em 700 desses casos o
mercado subiu mais nos próximos 10 dias.
Conclusão: No futuro, quando a regra X dá um sinal de compra, há um 0,7
probabilidade de que o mercado seja maior ao final de 10 dias.
Esta conclusão ou qualquer conclusão alcançada por indução é inerentemente

incerta porque se estende a observações que ainda não foram
foi feito. No entanto, alguns argumentos indutivos são mais fortes do que outros e,
portanto, chegam a conclusões mais certas. A força
de um argumento indutivo e a certeza de sua conclusão dependem
baseado na quantidade e qualidade das evidências enumeradas em seu
premissa. Quanto mais numerosos forem os casos citados e mais
qualidade, maior a probabilidade de a conclusão generalizar com precisão para
observações futuras.
Suponha que a conclusão sobre a regra TA X tenha sido baseada apenas em
10 instâncias com uma taxa de sucesso de 70% em vez de 1.000. Em um tal
caso, a conclusão teria sido pelo menos 10 vezes mais incerta.16
Isso significa que devemos ficar menos surpresos se a precisão futura do sinal diferir
muito de sua taxa de sucesso histórica. Na ciência, as evidências oferecidas
em apoio a uma conclusão é normalmente avaliada com métodos estatísticos.
Isso permite que se faça declarações quantitativas sobre a conclusão
incerteza. Este tópico é discutido nos Capítulos 5 e 6.
A força de um argumento indutivo também depende da qualidade
das provas. A qualidade da evidência é um assunto inteiro em si, mas basta dizer que
alguns métodos observacionais produzem evidências de maior qualidade do que outros.
O padrão-ouro na ciência é o controle
experimento, onde todos os fatores, exceto aquele em estudo, são mantidos constantes.
A AT não permite experimentos controlados, mas existem
piores maneiras de fazer observações. Uma questão relevante para a AT é a
questão de erro sistemático ou viés. Como será discutido no Capítulo 6, a pesquisa
objetiva em AT é propensa a um tipo particular de erro sistemático chamado
viés de mineração de dados se medidas cuidadosas não forem tomadas.
Também relevante para a força de um argumento indutivo é o grau
para os quais as provas citadas são representativas dos tipos de observações
que provavelmente serão encontrados no futuro. Uma inferência sobre uma regra
que gera sinais longos/neutros (+1,0) que foram testados apenas durante os mercados
em alta provavelmente não serão precisos sobre o desempenho da regra
em um ambiente de mercado em declínio. Mesmo que a regra não tivesse previsão
poder, sua restrição a posições longas ou neutras torna provável que
teria gerado lucro porque foi testado durante um período de crescimento do mercado.
A falácia mais comum da indução é a generalização apressada – uma indução baseada em

muito pouca evidência ou evidência de baixa qualidade.
Estudos de regras que citam um pequeno número de sinais bem-sucedidos como base para
concluir que a regra tem poder preditivo provavelmente serão generalizações precipitadas.
A FILOSOFIA DA CIÊNCIA
A filosofia da ciência busca entender como e por que a ciência funciona. Explica coisas como: a
natureza das proposições científicas e como elas diferem das proposições não científicas e
pseudocientíficas; a forma como o conhecimento científico é produzido; como a ciência explica,
prevê e, por meio da tecnologia, aproveita a natureza; os meios para determinar a validade do
conhecimento científico; a formulação e utilização do método científico; e os tipos de raciocínio
usados para chegar a conclusões.17 Que o método científico é uma das maiores invenções do
homem e é de longe o método mais eficaz para adquirir conhecimento objetivo sobre o mundo
natural é inquestionável. “A parte do mundo conhecida como Oeste Industrial poderia, em sua
totalidade, ser vista como um monumento à Revolução Científica. . . .”18 A capacidade da
humanidade de prever e controlar o mundo natural melhorou mais nos últimos 400 anos, desde
o início da revolução científica, do que nos 150.000 anos anteriores em que os humanos
modernos, homo sapiens, caminharam sobre a face da Terra. .
Por mais estranho que pareça, a invenção do método científico e seus primeiros frutos
vieram antes que se entendesse por que o método funcionava tão bem. Essa percepção veio
gradualmente, ao longo de vários séculos, à medida que cientistas praticantes e seus antigos
críticos, os filósofos da ciência, lutaram para aperfeiçoar o método e, paralelamente,
desenvolveram uma compreensão de como e por que ele funcionava.
O mero fato de que o método científico funcionava não era suficiente. Foi visto como
necessário entender o porquê. O que os filósofos acharam tão irritante foi a seguinte aparente
contradição. De um lado estavam as grandes vitórias da ciência, como as leis do movimento e
da gravidade de Newton e o crescente controle tecnológico da humanidade sobre a natureza.
Por outro, estava o fato de que o conhecimento científico era inerentemente incerto, porque as
conclusões obtidas por indução lógica eram inerentemente incertas.
Como poderia tanto conhecimento útil resultar de um método de inferência tão falho?
Esta seção discute as principais etapas no desenvolvimento do método e os marcos em

nossa compreensão aprofundada de como e por que ele
funciona. O leitor pode querer pular esse desenvolvimento histórico e ir diretamente ao

resumo dos aspectos-chave do método científico.
O entusiasmo de Bacon
Sem convite, os filósofos metem o nariz em todos os tipos de assuntos.
É a natureza deles. Eles nos dizem como agir (ética), como os governos devem
regra (filosofia política), o que é belo (estética) e de maior
nos interessa, o que constitui conhecimento válido (epistemologia) e como
devemos ir atrás dele (filosofia da ciência).
A revolução científica foi, em parte, uma revolta contra a ciência aristotélica. Os gregos
consideravam o mundo físico como uma fonte não confiável de
verdade. Segundo Platão, mentor de Aristóteles, o mundo era apenas um
cópia defeituosa da verdade e perfeição que existia no mundo das Formas,
um reino metafísico não material, onde os arquétipos do cão perfeito,
a árvore perfeita, e todas as outras coisas imagináveis poderiam ser encontradas.
Quando a revolta contra essa visão da realidade finalmente chegou, foi dura
e incessante.19 A nova escola de pensamento, o empirismo,
rejeitou o paradigma grego. Alegou que, não só o natural
mundo digno de estudo, mas essa observação cuidadosa poderia revelar sua
verdades. Um pioneiro do empirismo e talvez o primeiro filósofo da ciência foi Francis Bacon
(1561-1626). “A natureza, para Bacon era um
livro que não poderia ser mal interpretado por uma mente sem preconceitos” .
sua famosa obra Novem Organum (a nova ferramenta) Bacon exaltou a
poder de observação e indução. Ele considerou a ciência como um
prática racional objetiva que poderia confirmar ou falsificar conclusivamente
conhecimento simplesmente observando sem preconceitos ou preconceitos e então
generalizando a partir dessas observações. Em muitas situações, essa abordagem parecia
trabalhar.
No entanto, o empirismo não foi a ferramenta perfeita para Bacon e seus discípulos
reivindicado, e os filósofos fizeram questão de dizer por quê. Primeiro, eles
apontou que o empirismo, um empreendimento baseado na observação, repousava em uma
suposição crucial que não pôde ser confirmada pela observação, a suposição de que a
natureza era uniforme em todo o tempo e espaço. Essa suposição foi
crítico para justificar a posição dos empiristas de que se uma lei científica fosse observada
para valer aqui e agora, ela também valeria em todos os lugares e
para todo sempre. Porque a uniformidade da suposição da natureza não podia ser
confirmada pela observação, tinha que ser aceita com fé. Em segundo lugar, a ciência muitas vezes
lida com fenômenos e conceitos que desafiam a observação direta:
estrutura, a força da gravidade e os campos elétricos. Embora seus efeitos sejam
observáveis, essas construções não poderiam ser alcançadas exclusivamente por
observação e indução. Eles são mais bem entendidos como invenções humanas que
explicar e prever, em vez de realidades físicas observáveis.
No entanto, as contribuições de Bacon para o desenvolvimento do método científico foram

importantes. Ele promoveu a ideia de experimento e
abriu espaço para dúvidas, tomando nota especial de observações discordantes.
Ambas as idéias iludiram os gregos.
A dúvida de Descartes
Se os filósofos são bons para alguma coisa, está levantando dúvidas, e ninguém foi
melhor do que René Descartes (1596-1650). Considerado o pai da filosofia moderna e figura-
chave no nascimento da ciência, Descartes
O ceticismo de Bacon pelo conhecimento autoritário dos gregos e dos
dogma da Igreja Romana. No entanto, Descartes era tão cético quanto a
as afirmações feitas pelos empiristas sobre o poder de observação e generalização indutiva.
Sua famosa expressão “Penso, logo existo”
expressou a posição de que a ciência deve começar por duvidar de tudo, exceto da existência
da pessoa que experimenta a dúvida. A partir desse ponto
de solidez, o conhecimento deve ser construído puramente pelo raciocínio dedutivo sem ser
contaminado por observações propensas a erros feitas com os cinco sentidos imperfeitos.
Como consequência da postura anti-empírica de Descartes e sua inclinação

para teorizar em um vácuo factual, suas descobertas científicas foram quase
sem sentido.21 No entanto, suas contribuições para a ciência foram duradouras. O ceticismo é
central para a atitude científica. Além disso, a invenção de Descartes
da geometria analítica abriu o caminho para a invenção do cálculo por Newton
que, por sua vez, lhe permitiu especificar suas famosas equações de movimento e
gravidade.
A Crítica da Indução de Hume
Outra dose de dúvida foi administrada pelo empirista escocês e

filósofo David Hume (1711-1776). Sua obra seminal, o Tratado sobre
Human Nature, publicado em 1739, lidava com um problema central de
epistemologia: como distinguir o conhecimento de formas menores de conhecimento, como
opiniões que por acaso são verdadeiras. Antes da publicação de Hume,
os filósofos geralmente concordavam que a distinção estava relacionada à qualidade do método
usado para adquirir o conhecimento. O que justificou a chamada
um pouco de conhecimento de sabedoria, mas não outro, era o pedigree do
método de consulta. 22
Os filósofos não podiam, entretanto, concordar com o melhor método de aquisição de
conhecimento. Os empiristas argumentavam que a observação objetiva seguia
pela generalização indutiva era o caminho para a sabedoria. Os racionalistas, no
Por outro lado, sustentou que o raciocínio dedutivo puro a partir de auto-evidentes
verdades era o método correto.
Hume discordou de ambas as escolas de pensamento e, finalmente, até

com ele mesmo. Como empirista, Hume menosprezou os racionalistas puramente
abordagem dedutiva porque estava desconectada dos fatos observados.
Também, no espírito do empirismo, Hume disse que era sábio ajustar a
força de suas crenças em proporção à evidência e que as teorias
devem ser avaliados pelo grau em que correspondem à observação.
Mas então Hume passou a se contradizer atacando a base lógica do empirismo. Ele negou a
validade da generalização indutiva e
menosprezava a capacidade da ciência de estabelecer leis causais. Sua crítica lancinante à
indução ficou conhecida como o problema de Hume.
O ataque de Hume à indução foi tanto psicológico quanto lógico.
motivos. Primeiro, ele disse que a crença de que a indução poderia estabelecer conexões
correlativas ou causais entre eventos era nada mais do que uma
subproduto da psicologia humana. Hume afirmou que a percepção de causa e efeito era
meramente um artefato da mente. A crença de que A causa B ou está mesmo correlacionada
com B, simplesmente porque A sempre
seguido por B não era nada mais do que um hábito mental, e um mau
hábito nisso.
De uma perspectiva lógica, Hume afirmou que a indução era falha
porque nenhuma quantidade de evidência observada, não importa quão objetivamente
coletada, pode forçar uma conclusão com a força de uma dedução válida. Além disso, ele
disse que não havia regra de indução que nos diga quando
ter evidência de quantidade ou qualidade suficiente para justificar o salto de um conjunto
finito de observações para uma conclusão sobre um número infinito de observações semelhantes.
mas instâncias ainda não observadas. Uma regra de indução teria, por si só,
ser o resultado de uma indução anterior válida feita com base em uma regra de indução ainda
anterior, e assim por diante e assim por diante, ad infinitum. Em outras palavras,
uma tentativa de justificar a indução inevitavelmente repousa em uma regressão infinita – uma
absurdo logicamente impossível.
À luz do ataque de Hume, os defensores da indução recuaram para uma afirmação mais
restrita dizendo que as generalizações indutivas eram meramente corretas em um
sentido probabilístico. Então, à medida que as evidências se acumulam em favor de um relacionamento
entre A e B, a probabilidade de a relação ser autêntica também aumenta. No entanto, os
filósofos foram rápidos em apontar que uma justificação probabilística da indução também
era falha. Como será apontado em
Capítulo 4, a probabilidade de A prever B é igual ao número de vezes
que A foi seguido por B dividido pelo número total de instâncias de A independentemente de
ter sido seguido por B.23 Como o futuro contém um número finito de instâncias, a
probabilidade será sempre zero, não importa
quão numerosas foram as observações passadas (qualquer número dividido por um número infinitamente
grande número ainda é zero).
Assim, Hume e seus aliados criaram um paradoxo. De um lado estavam seus
preocupações aparentemente válidas sobre as falhas da indução. Por outro lado foi
o acúmulo de descobertas científicas impressionantes. Se a ciência fosse baseada em

uma lógica tão falha, como poderia ter conseguido tanto sucesso?
William Whewell: o papel da hipótese

Filósofos e cientistas levaram duzentos anos observando o método científico ter sucesso
para entender como funcionava e por que tinha sido
tão triunfante. Em meados do século XIX, tornou-se
claro que a ciência emprega uma combinação sinérgica de lógica indutiva e dedutiva. Em
1840, William Whewell (1794-1866) publicou A História e Filosofia das Ciências Indutivas.
Whewell foi o primeiro a entender o papel crucial da indução na

a formulação de uma hipótese. Whewell chamou de palpite feliz, ele disse
que a descoberta científica começa com um salto indutivo ousado para uma nova hipótese,
mas é seguida pela dedução. Ou seja, depois que uma hipótese
sido induzida, uma previsão é deduzida da referida hipótese. Essa previsão toma a forma de
uma declaração condicional:
Se a hipótese for verdadeira, então observações futuras específicas são previstas para
ocorrer.
Quando as observações são feitas, elas serão consistentes com

a previsão, confirmando assim a hipótese, ou conflita com a previsão, contradizendo assim a
hipótese.
O que é uma hipótese científica? É uma conjectura de um padrão suspeito, por exemplo:
X prevê Y.
ou
X traz Y.
Essa conjectura é gerada pela experiência anterior de um cientista - percebendo

emparelhamentos repetidos de X e Y. Uma vez que a hipótese XY foi apresentada, uma
previsão testável é deduzida dela. Isso toma a forma de um
proposição condicional, que é composta por duas orações: um antecedente
e um consequente. A hipótese serve como a cláusula antecedente, e a
previsão serve como a cláusula consequente. Nas situações em que é
meramente afirmou que X está correlacionado (prevê) com Y a seguinte proposição
condicional se aplicaria:
SE X prevê Y, então instâncias futuras de X serão seguidas por instâncias de Y.

Nos casos em que a hipótese afirma que X causa Y, o seguinte

proposição condicional se aplicaria:
SE X causa Y, então se X for removido, Y não deverá ocorrer.
As previsões incorporadas na cláusula conseqüente da condicional

proposição são então comparados com novas observações. Devem ser observações
cujo resultado ainda não é conhecido. Isso é fundamental! Isso não
significa necessariamente que as observações dizem respeito a algum evento futuro.
Significa simplesmente que quando a previsão é feita, o resultado das observações
ainda não é conhecido. Em ciências históricas como geologia, arqueologia e
assim por diante, as observações são sobre eventos que já ocorreram.
No entanto, os resultados ainda não foram observados.
Se as observações futuras de X não forem seguidas por Y ou se
remoção de X impede a ocorrência de Y, então a hipótese (um antecedente) é provada
como falsa pela falsificação de forma dedutiva válida de
o consequente.
Se X, então Y.
Não Y.
Dedução válida: Portanto, não X.
Se, no entanto, instâncias futuras de X forem de fato seguidas por Y, ou se o

remoção de X causa o desaparecimento de Y, a hipótese não é
comprovado! Lembre-se de que afirmar o consequente não é uma forma dedutiva válida.
Se X, então Y.
Y.
Inválido: Portanto, X.
O fato de a previsão ter sido confirmada apenas oferece uma confirmação provisória
da hipótese. A hipótese sobrevive por enquanto, mas
testes mais rigorosos certamente seguirão.
Whewell concordou com Hume que a conjectura indutiva era um hábito de
pensamento humano, mas o hábito que Hume tanto menosprezou Whewell
tão frutífera, embora misteriosa. Ele foi incapaz de explicar o mental
processos que deram origem a tais pensamentos criativos, embora ele acreditasse na
generalização dutiva, fazia parte disso. Ele chamou a capacidade de conjurar uma
hipótese de um talento inventivo inexplicável, mas crucial, porque,
sem uma hipótese, um conjunto de observações não passa de um
coleção desconexa de fatos que não podiam prever nem explicar.
No entanto, com um vieram os avanços da ciência.
A descrição de Whewell desse aspecto criativo crucial da ciência me

lembra de uma conversa que tive muitos anos atrás com Charles Strauss, um
prolífico compositor de alguns dos musicais de maior sucesso da Broadway.
Aos 20 e poucos anos, com pouco tato e muita audácia, pedi a ele que
explicasse como conseguia ser tão produtivo. Com mais paciência do que eu
merecia, Charles descreveu uma disciplina diária de se sentar religiosamente
ao piano das 8 às 11 todas as manhãs e das 2 às 5 da tarde, sentindo-se
inspirado ou não. Ele me disse que tratava compor música como um trabalho.
Durante esse tempo, ele testava melodias provisórias — hipóteses musicais.
Ele modestamente atribuiu sua alta produtividade a 99% de disciplina e 1% de
talento criativo. No entanto, quando pensei sobre essa conversa anos depois,
parecia o contrário. Com um número quase infinito de combinações de notas,
seu sucesso em criar melodias contagiantes tinha que ser um talento criativo –
alguma habilidade especial para ver quais dessas conjecturas musicais tinham
potencial para serem melodias e quais não. Isso era o que Whewell chamava
de palpite feliz - aquele talento inexplicável de ver um tema que relaciona
significativamente um conjunto díspar de observações ou notas que escapam
à pessoa comum. Algumas pessoas têm. A grande maioria não.
A percepção de Whewell de que propor uma hipótese era um ato de
invenção não menos do que a criação da máquina a vapor ou da lâmpada
representou um avanço profundamente importante no pensamento sobre a
ciência. primeiro passo necessário. Este foi um profundo afastamento da noção
anterior de ciência como uma investigação objetiva sistemática seguida de
generalização indutiva.
Whewell via o cientista tanto como um criador quanto um investigador.
Karl Popper: Falsificação e Dedução

De volta à ciência
Em duas obras marcantes, The Logic of Scientific Discovery25 e Conjec 26
refutações, Whewell e redefiniu
Karl Popper
a lógica
(1902-1994)
da descoberta
estendeu
científica
o insight
esclarecendo
de turas e
o papel da dedução. A alegação central de Popper era que uma investigação
científica era incapaz de provar que as hipóteses eram verdadeiras. Em vez
disso, a ciência limitou-se a identificar quais hipóteses eram falsas. Isso foi
realizado usando evidências observadas em combinação com a forma dedutiva
válida de falsificação do conseqüente.
Se a hipótese H for verdadeira, então a evidência E está prevista para ocorrer sob
condições especificadas (por exemplo, teste retroativo de uma regra TA).
A evidência E não ocorreu nas condições especificadas.
Portanto, a hipótese H é falsa.
Ao assumir essa postura, Popper desafiou a visão predominante defendida por uma
escola de filosofia chamada positivismo lógico. Assim como Francisco
Bacon havia se revoltado contra as restrições da tradição grega, Popper
estava em revolta contra o Círculo de Viena, o lar do positivismo lógico.
Os positivistas lógicos acreditavam que as observações poderiam ser usadas para provar
que as hipóteses eram verdadeiras. Popper se opôs, dizendo que as evidências observadas
só poderia ser usado para provar uma hipótese falsa. A ciência era um detector de
mentiras, não um detector de verdade.
Popper justificou seu método, chamado falsificacionismo, como segue. UMA
determinado conjunto de observações pode ser explicado ou é consistente com inúmeras
hipóteses. Portanto, os dados observados, por si só, não podem nos ajudar a decidir qual
dessas hipóteses é mais provavelmente correta.27 Suponha que os dados
é que um dos meus sapatos está faltando. Uma hipótese que pode explicar isso
A observação é que sou uma governanta desorganizada que está sempre perdendo as
coisas. Outra hipótese, igualmente consistente com a observação de um sapato
desaparecido, seria a de que minha casa foi assaltada por um
ladrão de uma perna só que só tinha uso para um sapato. De fato, um número infinito
de hipóteses poderiam ser propostas que são consistentes com (explicar) a
sapato faltando.
Já vimos que os dados não podem ser usados logicamente para deduzir a
verdade de uma hipótese. Tentativas de fazê-lo cometem a falácia de afirmar
o conseqüente.28 Entretanto, e esta é a chave para o método de falsificação de Popper,
os dados podem ser usados para deduzir validamente a falsidade de uma hipótese pela
negação do conseqüente. Em outras palavras, a comprovação negativa
pode ser usado para revelar uma explicação falsa. Por exemplo, encontrar o outro
sapato seria uma evidência que falsificaria a hipótese do ladrão de uma perna só.
O argumento lógico é o seguinte:
Premissa 1: Se um ladrão de uma perna só é responsável pelo meu sapato perdido,

então não vou encontrar o sapato em minha casa.
Premissa 2: O sapato perdido é encontrado (conseqüente negado).
Conclusão: Portanto, a hipótese do ladrão de uma perna só é falsa.
O método de falsificação de Popper vai na contramão do senso comum

sentido, que é tendencioso em favor da evidência confirmatória. Como apontado em
Capítulo 2, a intuição muitas vezes nos diz para testar a veracidade de uma hipótese
vendo se evidências confirmatórias podem ser encontradas. Fazemos isso sob o equivocado
impressão de que a evidência confirmatória é suficiente para estabelecer a verdade.
No entanto, usar evidências dessa maneira comete a falácia de afirmar a
conseqüente. Não estamos errados em suspeitar que a evidência confirmatória
deve ser encontrado se a hipótese for verdadeira, mas estamos errados em pensar que
evidência confirmatória é suficiente para estabelecer sua veracidade. Dito diferente,
evidência confirmatória é uma condição necessária da verdade de uma proposição, mas

não é uma condição suficiente.29 O ponto de Popper era que a ausência de evidência
necessária é suficiente para estabelecer a falsidade de uma hipótese, mas a
a presença da evidência necessária não é suficiente para estabelecer sua veracidade. Ter
quatro patas é uma condição necessária para que uma criatura seja um cachorro, mas a
a presença de quatro patas não é suficiente para estabelecer que uma criatura é um cachorro.
No entanto, a observação de que a criatura não tem quatro patas é suficiente para falsificar a
afirmação de que é um cachorro. A lógica de falsificação de Popper pode
ser visto como uma proteção contra o viés de confirmação que infecta
inferência (ver Capítulo 2).
Um exemplo final pode ajudar a esclarecer o poder da falsificação de evidências
e a fraqueza da evidência confirmatória. É o famoso problema da
o cisne negro posado pelo filósofo John Stuart Mill (1806-1873). Suponhamos que desejamos
verificar a verdade da proposição: “Todos os cisnes são
branco.' Mill disse, e Popper concordou, que não importa quantos brancos
cisnes foram observados - isto é, não importa quão volumosas sejam as evidências
confirmatórias - a verdade da proposição nunca é provada. Um cisne negro
pode espreitar na próxima esquina. Esta é a limitação da indução
que tanto aborreceu Hume. No entanto, apenas observando um único não-branco
cisne, pode-se declarar com certeza que a proposição é falsa. o
O silogismo condicional abaixo mostra que a falsidade da proposição All
cisnes são brancos baseia-se na falsificação de forma dedutiva válida do
conseqüente.
Premissa 1: Se é verdade que todos os cisnes são brancos, então todas as futuras
observações de cisnes serão brancas.
Premissa 2: Observa-se um cisne não branco.
Conclusão válida: A proposição de que todos os cisnes são brancos é falsa.
A forma geral de argumento usada para testar uma hipótese sob o método de falsificação
de Popper é:
Premissa 1: Se a hipótese for verdadeira, então se prevê que observações futuras

tenham a propriedade X.
Premissa 2: Ocorre uma observação que não possui a propriedade X.
Conclusão válida: Portanto, a hipótese é falsa.
Como será visto nos Capítulos 4 e 5, essa é a lógica usada para testar hipóteses
estatísticas.
A Natureza Provisória e Cumulativa do Conhecimento Científico.

Uma implicação do método de falsificação de Popper é que toda a ciência existente
o conhecimento científico é provisório. Qualquer que seja a teoria atualmente aceita como
correto é sempre alvo de desafio empírico e a possibilidade de sua
sendo substituído por uma teoria mais correta sempre existe. Hoje Einstein
A Teoria da Relatividade é tida como correta. Embora suas previsões tenham passado por
inúmeros testes, amanhã um novo teste pode mostrar que é falso ou completo. Assim, a ciência
é um ciclo interminável de conjecturas, previsões,
testes, falsificações e novas conjecturas. É assim que o corpo de
conhecimento científico evolui continuamente em direção a um conhecimento cada vez mais preciso.
representação da realidade objetiva.
Na maioria dos casos, quando as teorias mais antigas são substituídas, não é porque
eles são provados falsos tanto quanto se mostram incompletos. Quando
As leis do movimento de Newton foram substituídas pelas teorias de Einstein,
a física ainda estava quase correta. Dentro do domínio limitado da experiência cotidiana, onde
os corpos viajam em velocidades normais (aproximadamente menos de
90 por cento da velocidade da luz), as leis de Newton ainda eram verdadeiras. No entanto,
A teoria de Einstein estava correta em um domínio mais amplo, que não incluía apenas
os movimentos de objetos cotidianos, mas também objetos viajando até e incluindo a velocidade
da luz. Em outras palavras, a teoria de Einstein, que construiu
sobre a de Newton, era mais geral e assim a subsumia.
O resultado líquido da construção de ideias anteriores de sucesso (aquelas cujas
previsões foram confirmadas) e podar ideias erradas (aquelas
cujas previsões foram falsificadas) é um corpo de conhecimento que melhora continuamente.
Isso não pode ser dito de qualquer outra disciplina intelectual,
onde novos estilos são introduzidos, mas onde o mais novo não é necessariamente
Melhor. O fato de um cientista em qualquer campo da ciência saber mais hoje
do que até mesmo o melhor que viveu há apenas uma geração está além do debate.
No entanto, se o gangsta rap é melhor ou pior do que Mozart poderia ser
argumentou sem parar.
A Restrição da Ciência a Declarações Testáveis. Outro

A implicação do método de Popper é que a ciência deve restringir-se a
hipóteses testáveis – proposições que geram previsões sobre observações ainda não feitas.
Dizer que uma hipótese foi testada e
sobreviveu ou foi testado e falsificado significa que as previsões deduzidas
dele foram confirmados ou contrariados por novas observações.
A comparação de previsões com novas observações é o mecanismo crucial que promove a
melhoria contínua do conhecimento científico. Por
Por esta razão, as proposições que não geram previsões testáveis devem
ser excluído do domínio do discurso científico.
O termo previsão, no contexto do teste de hipóteses, garante
algum esclarecimento, porque a TA é essencialmente uma empresa dedicada
predição. Quando falamos de previsão no que se refere ao teste de uma hipótese, isso não
significa necessariamente predizer o futuro através do pré.
observações ditadas podem de fato estar no futuro. Em vez disso, o termo previsão
refere-se ao fato de que os resultados das observações ainda não são conhecidos.
As previsões feitas em ciências históricas, como a geologia, referem-se a
eventos que já ocorreram talvez eras atrás. Por exemplo, a teoria dominante da
geologia, a tectônica de placas, pode prever que
formações que foram criadas há milhões de anos seriam observadas se
uma investigação de algum local específico deveria ser realizada amanhã. Em finanças,
a hipótese do mercado eficiente prevê que se uma regra de AT
se fossem testados, seus lucros, após ajuste pelo risco, não excederiam o retorno
ajustado ao risco do índice de mercado.
Uma vez que a previsão tenha sido deduzida da hipótese, as operações
necessárias para produzir as novas observações são realizadas. Elas
pode envolver uma visita ao local da formação geológica prevista ou
o teste de retorno da regra TA. Então, torna-se uma questão de comparar a previsão
com a observação. Medir o grau de concordância entre observação e previsão e tomar
a decisão sobre se o
hipótese é deixada intacta ou falsificada é o que trata a análise estatística.
O que é importante do ponto de vista da ciência é que a hipótese é capaz de fazer
previsões sobre observações cujos resultados são
ainda não conhecido. Isso é o que permite que uma hipótese seja testada. Observações
cujos resultados são conhecidos não podem servir a esse propósito porque é sempre
possível criar uma explicação, após o fato, que seja consistente
com as referidas observações. Portanto, as atividades que não podem ou não querem
fazer previsões testáveis, abrindo-as assim à possibilidade de falsificação, não se
qualificam como científicas.
O Problema da Demarcação: Distinguindo a Ciência da Pseudociência. Uma

consequência importante do método de Popper foi que ele
resolveu um problema-chave na filosofia da ciência - definir o limite
entre ciência e não-ciência. O domínio da ciência limita-se a
proposições (conjecturas, hipóteses, afirmações, teorias e assim por diante) que
fazer previsões que estão abertas à refutação com evidências empíricas.
Popper se referiu a tais proposições como falsificáveis e significativas. As propostas
que não podem ser contestadas dessa maneira são infalsificáveis ou sem sentido. Em
outras palavras, eles não dizem nada de substancial, algo
que estabelece uma expectativa testável.
As proposições infalsificáveis podem parecer afirmar algo, mas, em
fato, eles não. Eles não podem ser desafiados porque não dizem, com
qualquer grau de especificidade, o que se pode esperar que aconteça. Com efeito, eles
não são informativos. Assim, a falseabilidade de uma proposição está relacionada
seu conteúdo informativo. As proposições falsificáveis são informativas porque
eles fazem previsões específicas. Eles podem provar estar errados, mas pelo menos
eles dizem algo de substância. Uma proposição que não pode gerar false
previsões fiáveis essencialmente dizem que qualquer resultado pode acontecer. Por exemplo,
uma previsão do tempo que diz: estará nublado ou ensolarado, úmido ou seco,
ventoso ou calmo, frio ou quente, permite todos os resultados possíveis. Não pode ser
falsificado. A única coisa boa que se pode dizer sobre isso é que sua
a falta de informação é completamente óbvia.
O problema é que pseudocientistas e pseudoprevisores são
inteligente sobre a maneira como eles formulam suas previsões de modo a obscurecer suas
falta de informação e não falsificabilidade. Considere a previsão do astrólogo
“Você conhecerá um estranho alto e moreno e sua vida mudará.” este
afirmação é impossível de refutar, não importa qual seja o resultado. Você deveria
voltar para pedir um reembolso, você receberá uma de duas respostas: (1) seja paciente -
você conhecerá o estranho em breve, ou (2) você já conheceu um
estranho e sua vida é realmente diferente, mas você está alheio ao
mudança. Essas respostas não podem ser contestadas porque a previsão foi
vago. Nem afirmou quando sua vida mudaria ou de que maneira mensurável (verificável).
Isso está muito longe da previsão: “Antes das 7:00
PM da próxima quarta-feira você verá um homem usando um sapato vermelho, andando
leste na 42nd Street assobiando 'Satin Doll'”. Às 19h da próxima quarta-feira, o
evidências estarão disponíveis e você terá a oportunidade de avaliar o
previsão como verdadeira ou falsa. Mesmo que a previsão seja falsa,
foi pelo menos falsificável permitindo que você decida se futuras visitas ao as trologer valem
a pena.
Os vendedores de infomerciais que habitam a televisão tarde da noite são mestres da
afirmação sem sentido. “Usar nossa pulseira de cobre melhorará seu jogo de golfe.” O que
significa melhorar ? Como é ser
medido e quando? Tal como acontece com a previsão do astrólogo, a alegação
a imprecisão torna impossível deduzir uma previsão testável (falsificável). No entanto, é
muito fácil imaginar evidências anedóticas após o fato que sejam aparentemente
confirmatórias. “Vaca sagrada, eu me sinto muito mais
relaxado usando minha pulseira de cobre. Eu costumava ficar todo tenso antes de começar.
Agora minhas unidades parecem mais retas. Na semana passada eu quase tive um buraco
um, e eu não xingo tanto quanto costumava. Minha esposa até diz que eu
ficar mais bonito na minha roupa de golfe, e acho que meu cabelo parou
caindo." Embora afirmações sem sentido estimulem anedotas confirmatórias,
eles são protegidos de provas objetivas de falsificação. O reclamante
nunca é acertado e a alegação ganha apoio de relatos anedóticos aparentemente
confirmatórios.
Em contraste, a declaração “Usar uma pulseira de cobre aumentará
o comprimento de suas unidades em 25 jardas”, é informativo e significativo porque gera
uma previsão testável. Você acertou 100 bolas de golfe sem usar
a pulseira de cobre e determine sua distância média. O próximo dia,
faça a mesma coisa enquanto estiver usando uma pulseira de cobre e obtenha sua média
distância. Repita esta série alternada de experimentos por 10 dias. Se o
drives em dias de pulseira de cobre são menos de 25 jardas melhores, evidências refutando
a alegação estariam em mãos.
Limitações do Método de Popper. Tão importante quanto o método de falsificação de

Popper é para a ciência moderna, ele tem sido criticado por vários motivos. Os críticos
afirmam que a afirmação de Popper de que as hipóteses podem ser definitivamente
falsificadas exagera. Embora a observação de um cisne negro possa clara e logicamente
falsificar a generalização universal de que todos os cisnes são brancos, as hipóteses da
ciência real são muito mais complexas30 e probabilísticas (não universais). Eles são
complexos no sentido de que uma hipótese recém-proposta se baseia em inúmeras hipóteses
auxiliares que são assumidas como verdadeiras. Assim, se uma previsão deduzida da nova
hipótese for posteriormente falsificada, não fica claro se a nova hipótese estava errada ou se
uma das muitas hipóteses auxiliares estava incorreta. Este foi o caso quando o oitavo planeta
do sistema solar, Netuno, foi descoberto. A trajetória aberrante de Urano não se deveu a
falhas nas leis de Newton, mas à hipótese auxiliar de que o sistema solar continha apenas
sete planetas. No entanto, quando a teoria falhou no início do século XX, foi de fato por
causa de imperfeições nas leis de Newton. Fazer ciência real é um negócio complicado. A
AT está longe de enfrentar esses problemas porque ainda estamos no ponto de riscar os
dados para regras preditivas confiáveis.
Além disso, como muitas das hipóteses da ciência são probabilísticas, como seria o
caso da AT, uma observação que contradiga a hipótese nunca pode ser tomada como prova
certa de falsidade. A observação aberrante pode ser uma ocorrência casual. É aqui que a
análise estatística entra em cena. Como será apontado nos Capítulos 4 e 5, a decisão de
rejeitar uma hipótese com base em evidências observadas corre uma certa probabilidade de
estar errada. A estatística nos ajuda a quantificar essa probabilidade.
Apesar dessas e outras limitações que vão além de nossas preocupações aqui, as
contribuições de Popper para o desenvolvimento do método científico têm sido enormes.
O Conteúdo Informacional das Hipóteses Científicas

Para recapitular, uma hipótese é informativa se puder fazer previsões testáveis.
Isso abre a possibilidade de ser considerado falso. Assim, a falseabilidade de uma hipótese
e seu conteúdo de informação estão relacionados.
Dentro do domínio das hipóteses cientificamente significativas, existem graus de
conteúdo de informação e falsificabilidade. Algumas hipóteses são mais ricas em informações
e, portanto, mais falsificáveis do que outras.
Quando Popper se referiu a uma conjectura ousada, ele estava falando de uma hipótese
altamente informativa da qual muitas previsões falsificáveis
poderia ser deduzido. O trabalho do cientista, portanto, é tentar continuamente

refutar uma hipótese existente e substituí-la por outra ainda mais informativa. Isso estimula
o aprimoramento do conhecimento científico.
Uma hipótese rica em informações torna muitas
previsões sobre uma ampla gama de fenômenos. Cada previsão apresenta
uma oportunidade de mostrar que a hipótese é falsa. Em outras palavras, quanto mais
informativa uma hipótese, mais oportunidades ela apresenta para falsificação. Em contraste,
baixa informação, hipóteses tímidas fazem previsões menos ou menos precisas.
Consequentemente, são mais difíceis de falsificar. Por
Por exemplo, uma regra de AT que reivindica alta lucratividade em qualquer instrumento em qualquer
time frame faz uma afirmação ousada e rica em informações de que isso poderia ser
falsificado mostrando que não é lucrativo em um mercado em um período de tempo.
Em contraste, um método que afirma ser apenas marginalmente lucrativo na S&P
os futuros na escala de tempo da barra de uma semana são tímidos, têm baixo conteúdo
de informações e são difíceis de falsificar. A única oportunidade de refutá-la seria limitada
ao backtest do S&P 500 em uma exibição semanal que não era nada
rentável.
Alguns métodos de AT que são aparentemente informativos não são. Elliott Wave
Princípio é um caso em questão. Na superfície, proclama corajosamente que todos
movimento de preços em todos os mercados em todas as escalas de tempo pode ser descrito por um
único princípio unificador. Esta proposição é aparentemente confirmada pela
capacidade dos praticantes de EWP de produzir uma contagem de ondas para qualquer
segmento anterior de dados de preços. Na verdade, EWP é tímido a ponto de não ter sentido
porque não faz previsões falsificáveis do movimento futuro dos preços.31
Um segundo caso em questão, mais agradável para a comunidade de AT, é o
Hipótese de Mercados Eficientes (EMH). Neste contexto, o termo eficiência
refere-se à velocidade com que os preços refletem todas as informações conhecidas e
cognoscíveis que são relevantes para os retornos futuros de um ativo. De forma eficiente
mercado, presume-se que a informação relevante se reflita no preço quase
instantaneamente. EMH vem em três sabores. Em ordem decrescente de ousadia,
conteúdo de informação e falsificabilidade, eles são: EMH forte, EMH
semiforte e EMH fraco.
A EMH Strong afirma que os mercados financeiros são eficientes no que diz respeito à
todas as informações, mesmo informações privilegiadas privadas. Esta versão prevê que
todas as estratégias de investimento, sejam elas baseadas em uma dica do presidente
sobre uma aquisição iminente, ou com base em informações públicas de natureza
fundamental ou técnica, serão inúteis para obter retornos acima do mercado (excesso).
Esta versão mais audaciosa da EMH também é aparentemente a
mais informativo e falsificável porque qualquer evidência de lucros anormais
de qualquer estratégia de investimento, independentemente do tipo de informação ou
forma de análise utilizada, seria suficiente para refutar a EMH forte.
No entanto, como as informações conhecidas em particular nunca podem ser confirmadas,
essa versão não é testável em um sentido prático.
A versão semiforte da EMH faz uma afirmação menos informativa e mais restrita, dizendo
que o mercado só é eficiente no que diz respeito ao público
em formação. Esta versão do EMH pode ser falsificada com qualquer evidência de
retornos superiores ao mercado produzidos por uma estratégia de investimento baseada em
dados fundamentais públicos (índices P/L, valores contábeis e assim por diante) ou dados
técnicos (classificação de força relativa, índices de rotatividade de volume e assim por diante). Dentro
efeito, a EMH semiforte nega a utilidade dos fundamentos e técnicas
análise.
Finalmente temos EMH fraco, o que torna a afirmação menos ousada e menos formativa.
Afirma que o mercado só é eficiente no que diz respeito a
preço passado, volume e outros dados técnicos. Como o EMH fraco apenas nega a utilidade da
análise técnica, ele apresenta o alvo menor e mais difícil de ser atingido por possíveis
falsificadores. Sua única esperança seria apresentar
evidência que mostra os retornos excedentes gerados por uma estratégia de investimento
baseado em TA.
Porque EMH fraco é a versão mais difícil de falsificar e é, portanto, a
menos provável de ser provada falsa, sua falsificação também geraria a
mais surpresa. Em outras palavras, de todas as versões de EMH, a falsificação de EMH
fraco geraria o maior aumento de conhecimento. Isso aponta uma
princípio geral da ciência: os maiores ganhos em conhecimento ocorrem quando
as hipóteses mais tímidas e mais difíceis de falsificar são falsificadas. Um teste mostrando que
informações privilegiadas, como a dica de um presidente corporativo, foram
capaz de gerar retornos excessivos (ou seja, falsificação de EMH forte)
não seria surpreendente nem aprenderíamos muito com isso. Grande coisa, então informações
secundárias geram lucros. O que mais é novo? Em contraste, a falsificação de EMH fraco seria
um evento altamente informativo tanto para AT
praticantes e apoiadores da EMH. Não só significaria a destruição final da HEM, um importante
princípio de finanças por mais de 40 anos,
mas seria uma importante confirmação da validade da AT. Ambos representariam grandes
mudanças no estado atual do conhecimento.
Assim, pode-se dizer que o ganho de conhecimento que ocorre com a falsificação de uma
hipótese está inversamente relacionado ao seu conteúdo informacional.
Da mesma forma, pode-se dizer que o conhecimento adquirido pela confirmação de um
hipótese (observações consistentes com suas previsões) está diretamente relacionada ao
conteúdo de informação da hipótese. O mais informativo
hipóteses fazem as mais audaciosas alegações de novos conhecimentos. Eles tentam trazer
para dentro do domínio da compreensão a mais ampla gama de
fenômenos com o maior grau de precisão e, ao mesmo tempo,
envolvendo o menor número de suposições. Quando tal hipótese é falsificada,
não ficamos muito surpresos nem aprendemos muito. Poucos esperariam que a hipótese fosse
confirmada, exceto talvez o cientista ousado que a propôs. Por exemplo, suponha que uma
nova e ousada teoria da física seja colocada
para frente, uma de cujas previsões é que é possível construir um anti
dispositivo de gravidade. Se verdadeira, tal teoria representaria um grande

aumento no conhecimento. No entanto, se o dispositivo não funcionar, ninguém
ficaria surpreso com a falha da previsão. No entanto, é exatamente o contrário
quando uma hipótese tímida é falsificada. Por exemplo, uma hipótese tímida seria
aquela que meramente afirma que as teorias da física atualmente aceitas são
verdadeiras e prevê que o dispositivo antigravidade deve falhar. A falsificação
dessa hipótese fraca por meio de observações do funcionamento do dispositivo
antigravitacional resultaria em um ganho muito significativo de conhecimento – a
verificação de uma nova física.
A hipótese mais tímida que pode ser apresentada é aquela que afirma que
não houve novas descobertas. Em outras palavras, diz que tudo o que se sabe
atualmente é tudo o que há para saber. Esta hipótese nega a verdade de qualquer
outra hipótese que afirme que algo novo foi descoberto. A tímida hipótese que
afirma que nada de novo foi descoberto tem um nome especial na ciência. Ela é
chamada de hipótese nula e é a suposição inicial na investigação de qualquer
afirmação de que uma nova descoberta foi feita. Quer essa afirmação afirme que
uma nova vacina curará uma doença temida, que um novo princípio da física nos
diz como anular a gravidade ou que uma regra de AT tem poder preditivo, sempre
começamos assumindo que a hipótese nula é verdadeira. Então, se puder ser
produzida evidência que falsifique a hipótese nula, uma afirmação muito tímida,
isso gera um grande ganho de conhecimento.
Assim, a ciência procede da seguinte forma. Toda vez que uma nova hipótese
ousada é apresentada, ela gera uma afirmação oposta, a hipótese nula. O nulo é
tão tímido quanto a nova hipótese é ousada. A ousada hipótese de Jonas Salk de
que sua vacina preveniria a pólio melhor do que um placebo gerou uma afirmação
concorrente, a hipótese nula. Fez a tímida previsão de que a capacidade da vacina
de prevenir a infecção não seria melhor do que um placebo. Esta foi uma previsão
tímida porque todas as tentativas anteriores de desenvolver uma vacina contra a
poliomielite falharam. Essas duas reivindicações concorrentes não deixaram um
meio-termo. Se uma hipótese pudesse ser falsificada, pela Lei do Meio Excluído
da lógica, sabemos que a outra deve ser verdadeira. A evidência experimental de
Salk deixou claro que a taxa de infecção entre aqueles que receberam a vacina
real foi significativamente menor do que aqueles que receberam o placebo. Em
outras palavras, foi suficiente para falsificar a previsão do nulo. Este foi um
resultado surpreendente que representou um enorme aumento no conhecimento médico!
Como os cientistas devem responder à falsificação

Como um cientista deve responder quando uma hipótese ou teoria que sobreviveu
a muitos testes anteriores é finalmente falsificada porque observações recentes
entram em conflito com previsões? A resposta adequada é o que leva ao
maior aumento de conhecimento. Porque os cientistas são seres humanos, eles

às vezes deixam de fazer o que é cientificamente correto.
Há duas respostas possíveis que aumentam o conhecimento. O primeiro
é preservar a hipótese existente usando-a para prever fatos novos e previamente
desconhecidos. Se esses novos fatos forem confirmados e puderem explicar
por que as observações que estavam em conflito com a hipótese não são
mais tempo em conflito, então a hipótese merece ser mantida. O novo
fatos representam um aumento no que sabemos sobre o mundo. Um segundo
resposta adequada é jogar fora a velha hipótese e propor uma nova
um que não só dá conta de todas as observações que foram explicadas
pela hipótese anterior, mas também explica as novas observações discordantes. Isso também
representa um aumento de conhecimento na forma de um novo
hipótese com maior poder explicativo ou preditivo. No entanto, em ambos os casos, a resposta
correta é fazer o que quer que avance a fronteira do
mais conhecimento.
Infelizmente, os interesses da ciência às vezes ficam em segundo plano
agendas pessoais. A natureza humana atrapalha a boa ciência. Laços emocionais, econômicos
e profissionais a uma hipótese anterior podem motivar
tenta explicar a evidência discordante de uma forma que reduz
o conteúdo da informação e a falseabilidade de sua hipótese acalentada.
Isso move a fronteira do conhecimento para trás. Felizmente a ciência é um
empreendimento coletivo de autocorreção. A comunidade de cientistas felizmente
repreende seus irmãos caídos quando eles se desviam do caminho da justiça dessa maneira.
Alguns exemplos esclarecerão esses conceitos abstratos. Primeiramente, apresento uma

exemplo de uma resposta adequada a previsões sendo contrariadas por novos
observações. Nesse caso, novos fatos foram previstos para resgatar uma teoria estabelecida
da falsificação. Este caminho foi percorrido por dois astrônomos durante o século XIX e levou
a novos conhecimentos em
a forma de um novo planeta sendo descoberto. Naquela época, as leis de Newton da
movimento e gravidade eram a física aceita do movimento planetário. Elas
foi confirmado e reconfirmado por inúmeras observações, mas então,
para surpresa dos astrônomos da época, telescópios novos e mais poderosos mostraram que
o planeta Urano estava se desviando da órbita prevista
pelas leis de Newton. Uma aplicação rígida e imprópria do falsificacionismo
teria exigido uma rejeição imediata da mecânica newtoniana.
No entanto, todas as teorias repousam sobre um leito de suposições auxiliares. Uma
suposição chave neste caso era que o sistema solar continha apenas sete planetas com
Urano sendo o sétimo e mais distante do sol. Isso levou
astrônomos Adams e Leverrier para prever com ousadia a existência de um ainda
oitavo planeta não descoberto (o fato novo), situado além de Urano. Se este
fossem verdade, os efeitos gravitacionais desse novo planeta poderiam explicar o movimento
aberrante de Urano, que parecia estar em conflito com as leis de Newton.
Além disso, se existisse um oitavo planeta, uma das leis de Newton preveria o ponto exato
no céu onde o novo planeta seria observável.
Esta foi uma previsão ousada, informativa e altamente falsificável que colocou
as leis de Newton para um teste mais rigoroso. A espantosa previsão feita
por Adams e Leverrier sobre onde o novo planeta apareceria no
céu foi de fato confirmado em 1846 com a descoberta de Netuno. Elas
salvou as leis de Newton da falsificação ao demonstrar que a teoria
não só foi capaz de explicar o comportamento desviante de Urano, mas também foi
capaz de fazer uma previsão altamente precisa. Esta é a maneira kosher de reter
uma teoria quando confrontada com observações dissonantes.
No final, porém, as leis de Newton provaram ser provisoriamente verdadeiras, pois
é, em última análise, o caso de todas as leis e teorias. Embora as leis de Newton
funcionou perfeitamente por mais de 200 anos, no início do século XX observações
astronômicas mais precisas foram consideradas verdadeiramente consistentes com as
previsões da teoria. A velha teoria tinha finalmente sido
falsificado e era hora de um novo. Em 1921, Albert Einstein respondeu
adequadamente, apresentando sua nova e mais informativa Teoria da Relatividade Geral.
Hoje, quase cem anos depois, a teoria de Einstein
sobreviveu a todas as tentativas de falsificá-lo.
A teoria de Newton qualificou-se como científica porque estava aberta à refutação
empírica. Na verdade, a teoria de Newton não estava tão errada quanto
incompleto. A Teoria Geral da Relatividade de Einstein não só explicava
todos os fenômenos cobertos pelo modelo newtoniano, mas acomodava as novas
observações que conflitavam com as mais limitadas teorias de Newton.
teoria. É assim que a ciência progride. Longevidade e antiguidade significam
nada. Precisão preditiva e poder explicativo são tudo.
O caso de Adams e Leverier deixa claro por que as reivindicações devem ser abertas
à refutação empírica. A falsificação por si só dá ao conhecimento científico uma
grande vantagem sobre a sabedoria convencional. A capacidade de descartar falsos ou
ideias incompletas e substituí-las por outras cada vez mais informativas produz um corpo de
conhecimento autocorretivo e em estado contínuo.
de melhoria. Isso, por sua vez, fornece uma base estável sobre a qual novas idéias
podem ser erigidas que alcancem níveis cada vez mais elevados de compreensão. Intelectual
atividades que não têm nenhum procedimento para eliminar o conhecimento errôneo
inevitavelmente ficam atoladas no absurdo. Este é precisamente o problema com
a versão popular do TA.
Agora vamos considerar um exemplo de uma resposta imprópria à falsificação. Ocorre
no campo das finanças. A injeção de ciência nas finanças é relativamente recente. Talvez
isso explique a defensiva,
resposta não científica daqueles que defendem a hipótese dos mercados eficientes. Quando
as observações colidiram com sua teoria favorita, elas
tentou salvá-lo da falsificação reduzindo seu conteúdo de informação. Como
mencionado anteriormente, sua versão menos informativa, EMH fraco, prevê
que as estratégias de investimento baseadas no TA32 não serão capazes de obter retornos
ajustados ao risco que superem o índice de mercado. Quando os apoiadores da EMH foram
confrontados com estudos que mostram que as estratégias baseadas em AT foram capazes de ganhar
retornos excedentes,33 eles responderam tentando imunizar sua teoria
da falsificação. Eles fizeram isso inventando novos fatores de risco e
alegou que os retornos excedentes auferidos pela AT eram meramente uma compensação
pelos riscos inerentes à prossecução de tal estratégia. Em outras palavras, a HEM
os defensores alegaram que os investidores que seguiram a estratégia de AT estavam se
expondo a um risco específico dessa estratégia. Isso permitiu que o defensor da EMH
caracterizasse os retornos da estratégia de AT como
não-batimento do mercado. Lembre-se que a EMH não afirma que os rendimentos
superior ao mercado é impossível. Diz apenas que retornos mais altos acarretam a assunção
de risco adicional. Se os retornos obtidos pelo TA
estratégia eram de fato uma compensação por assumir um risco mais alto, então a EMH
permaneceria intacto apesar dos estudos que mostram que a estratégia de AT ganha
retorno superior ao índice de mercado.
Houve um problema com a maneira como os apoiadores da EMH fizeram isso. Elas
elaborou o fator de risco após os estudos de AT terem sido realizados.34 Isso
não é ciência kosher. Teria sido cientificamente correto se EMH
definiu o fator de risco antes do estudo e previu que um
teste do método TA geraria o que parecia ser um sucesso de mercado
retorna. Se tivessem feito isso, o status da EMH teria sido reforçado com uma previsão bem-
sucedida. Em vez disso, os apoiadores da EMH levaram o
caminho baixo para salvar sua hipótese favorita, dando a si mesmos a licença para inventar
um novo fator de risco a qualquer momento que precisassem explicar
descobertas que conflitavam com sua teoria favorecida. Ao fazê-lo, os apoiadores da EMH
tornaram sua hipótese infalsificável, esvaziando-a de qualquer
conteúdo da informação.
O precedente para este método de imunização regressivo ao conhecimento
a hipótese EMH contra a falsificação já havia sido estabelecida
por defesas anteriores defeituosas da EMH. Estes anteriores, e igualmente equivocados,
esforços para salvar EMH foram em resposta a estudos que mostraram que
informações fundamentais públicas, como a relação preço-livro e PE
poderia ser usado para gerar retornos excedentes.35 Em resposta a isso em evidência
conveniente, os defensores da EMH alegaram que os baixos índices preço-livro e baixos
índices P/L eram apenas sinais de ações com valores anormalmente
alto risco. Em outras palavras, o fato de o preço de uma ação ser baixo em relação ao
seu valor contábil é um indicativo de que a empresa está enfrentando dificuldades. Do
Claro, esse raciocínio é circular. O que é fundamental aqui é o fato de que a EMH
os defensores não definiram baixo preço para livro ou baixo PE como fatores de risco em
avanço dos estudos mostrando que os estoques com essas características foram capazes de
obter retornos excedentes. Se os teóricos da EMH tivessem feito isso, eles teriam
orientou o conteúdo informativo da HEM com uma dimensão adicional de

risco. Em vez disso, os teóricos da EMH inventaram esses fatores de risco após o fato, por
o propósito específico de explicar observações discordantes que
já havia sido feito. Tais explicações são chamadas de hipóteses ad-hoc — explicações
inventadas após o fato com o propósito específico de evitar que uma teoria ou hipótese seja
falsificada. Popper se referiu a isso
comportamento regressivo do conhecimento, salve-a-teoria-a-qualquer-custo, como
imunização contra falsificação.
Se Popper soubesse disso, ele teria castigado os defensores obstinados da EMH, mas
provavelmente teria aplaudido os esforços de
aqueles que defendem as finanças comportamentais. Este campo relativamente novo tem
proposto hipóteses testáveis que explicam a rentabilidade de estratégias baseadas em
em dados técnicos e fundamentais públicos como decorrentes de preconceitos cognitivos e
ilusões dos investidores. É irônico que crenças errôneas na validade da AT subjetiva e na
lucratividade válida de algumas formas de
A AT objetiva pode ser resultado de fraquezas cognitivas.
A Atitude Científica: Aberta, mas Cética

O falsificacionismo faz uma distinção clara entre duas fases da descoberta científica: proposta
e refutação. Essas fases exigem diferentes
mentalidades - abertura e ceticismo. A coexistência desses opostos
mentalidades define a atitude científica.
Uma atitude de abertura a novas ideias é vital quando as hipóteses são
sendo formulado. A vontade36 de ver as coisas de uma nova maneira, avançar novas
explicações e dar saltos indutivos ousados caracteriza o
fase de proposta. A maioria dos praticantes de AT funciona bem nesse modo.
Novos indicadores, novos sistemas e novos padrões são propostos a todos os
Tempo.
No entanto, uma vez feita uma conjectura ousada, a receptividade deve

transformar em ceticismo. A dúvida sobre a nova ideia motiva um implacável
procurar seus defeitos. Assim, há uma tensão contínua no pensamento do cientista.
mente entre a curiosidade especulativa e a descrença obstinada. No entanto,
a dúvida não é um ceticismo incessante, mas um ceticismo que cede a novas evidências
persuasivas. Este é o estado quase esquizóide que define a atitude científica.
Além da desconfiança da nova hipótese, outra forma de ceticismo prospera na mente

de um cientista: a dúvida sobre a própria mente.
Isso se origina de uma profunda consciência da tendência muito humana de generalizar
apressadamente e saltar para conclusões infundadas (ver Capítulo 2). Os procedimentos da
ciência podem ser vistos como salvaguardas contra essas tendências.
O RESULTADO FINAL:
O MÉTODO HIPOTÉTICO-DEDUTIVO
Alguns diriam que não existe o método científico.37 “O método científico, na medida em que
é um método, nada mais é do que fazer o próprio
malditamente com a mente não há limites.”38 Em sua essência, é a solução inteligente de
problemas.
O método de resolução de problemas usado na ciência hoje
conhecido como método hipotético-dedutivo. É comumente descrito como
cinco estágios: observação, hipótese, previsão, verificação e
conclusão. “No trabalho científico real, esses estágios estão tão entrelaçados que
seria difícil encaixar a história de qualquer investigação científica neste
esquema rígido. Às vezes, os diferentes estágios são mesclados ou borrados, e
frequentemente eles não ocorrem na sequência listada.”39 Em vez disso, é uma
maneira de pensar sobre o processo.
O método hipotético-dedutivo foi iniciado por Newton no
século XVII, mas não foi formalmente nomeado até que as contribuições de Popper foram
introduzidas. É o resultado de várias centenas de anos de
disputa entre cientistas e filósofos. O método integra tanto
lógica indutiva e dedutiva, atentando para seus limites individuais enquanto
aproveitando seus respectivos poderes.
Os Cinco Estágios
1. Observação: Um possível padrão ou relação é percebido em um conjunto de

observações anteriores.
2. Hipótese: Com base em uma misteriosa mistura de insight, conhecimento prévio e
generalização indutiva, supõe-se que o padrão
não é um artefato do conjunto particular de observações, mas um que
deve ser encontrado em qualquer conjunto similar de observações. A hipótese
pode meramente afirmar que o padrão é real (lei científica) ou pode ir
mais e oferecer uma explicação sobre por que o padrão existe (teoria científica).
3. Predição: Uma predição é deduzida da hipótese e incorporada em uma proposição

condicional. A oração antecedente da proposição
é a hipótese e sua cláusula consequente é a previsão. A previsão nos diz o que deve
ser observado em um novo conjunto de observações
se a hipótese for realmente verdadeira. Por exemplo: Se a hipótese for verdadeira,
então X deve ser observado se a operação O for realizada. O conjunto de
resultados definidos por X deixa claro quais observações futuras
confirmar a previsão e, mais importante, quais observações futuras estariam em conflito
com ela.
4. Verificação: Novas observações são feitas de acordo com as operações especificadas

e comparadas com as previsões. Em algumas ciências a operação é um experimento
controlado. Em outras ciências é um estudo observacional.
5. Conclusão: Uma inferência sobre a verdade ou falsidade da hipótese é feita com

base no grau em que as observações estão de acordo com a previsão. Essa etapa
envolve métodos de inferência estatística, como intervalos de confiança e testes de
hipóteses, descritos nos Capítulos 4 e 5.
Um exemplo de TA
O seguinte é um exemplo do método hipotético-dedutivo como seria aplicado para testar
uma nova ideia sobre análise técnica.
1. Observação: Nota-se que quando um índice do mercado de ações, como o Dow

Jones Average ou o S&P 500, sobe acima de sua média móvel de 200 dias,
geralmente continua a se valorizar nos próximos meses (generalização probabilística).
2. Hipótese: Com base nesta observação, generalização indutiva e resultados prévios

da análise técnica, propomos a seguinte hipótese: As penetrações ascendentes da
média móvel de 200 dias pelo DJIA produzirão, em média, posições longas lucrativas
nos próximos três meses. Vou me referir a essa hipótese como 200-H.
3. Previsão: Com base na hipótese, prevemos que uma investigação observacional, ou

back test, será lucrativa. A hipótese e a previsão são transformadas na seguinte
declaração condicional: Se 200-H for verdadeiro, então o teste retroativo será
lucrativo. No entanto, esta previsão cria um problema lógico. Mesmo que o teste de
retorno seja lucrativo, ele não será útil para provar a verdade de 200-H porque, como
apontado anteriormente, embora um teste de retorno lucrativo seja consistente com
a verdade de 200-H, ele não pode provar que 200-H é verdade. Uma tentativa de
fazê-lo cometeria a falácia de afirmar o consequente (ver argumento 1 abaixo). Se,
por outro lado, o teste retroativo não for lucrativo, seria válido concluir que 200-H é
falso pela falsificação da forma lógica válida do consequente. Veja o Argumento 2
abaixo.
Argumento 1
Premissa 1: Se 200-H for verdadeiro, então um teste de retorno será lucrativo.
Premissa 2: O teste de retorno foi lucrativo.
Conclusão inválida: Portanto, 200-H é verdadeiro. (falácia de afirmar o
consequente)
Argumento 2
Premissa 1: Se 200-H for verdadeiro, então um teste de retorno será lucrativo.
Premissa 2: O back test NÃO foi lucrativo.
Conclusão válida: Portanto, 200-H é falso.
No entanto, nosso objetivo é provar a verdade de 200-H. Passear
este problema lógico, suponha que tivéssemos formulado uma hipótese nula em
estágio 2, especificamente, penetrações ascendentes de uma média móvel de 200
dias não geram lucros nos três meses seguintes. Vamos nos referir a isso como
Null-200. A partir disso podemos formular o seguinte
proposição condicional: Se Null-200 for verdadeiro, então um back-test será
NÃO seja lucrativo. Se o backtest for lucrativo, nós
pode validamente argumentar que a hipótese nula foi falsificada (falsificando
o consequente). Pela Lei do Terceiro Excluído, ou 200-H é
true ou Null-200 é true. Não há meio termo; não há outro
hipótese possível. Assim, refutando o nulo, teremos provado indiretamente que 200-H
é verdadeiro. Assim, temos o seguinte silogismo condicional:
Premissa 1: Se Null-200 for verdadeiro, então o back test não será lucrativo.
Premissa 2: O backtest NÃO foi inútil (ou seja, foi

rentável).
Conclusão válida: Null-200 é falso, portanto 200-H é verdadeiro.
4. Verificação: A regra proposta é testada novamente e sua rentabilidade é

observado.
5. Conclusão: Determinar o significado dos resultados é uma questão de

inferência estatística, tema tratado nos próximos três capítulos.
ANÁLISE RIGOROSA E CRÍTICA DE

RESULTADOS OBSERVADOS
A quinta fase do método hipotético-dedutivo aponta para outra importante diferença entre
ciência e não-ciência. Na ciência, observou
evidência não é tomada pelo valor de face. Em outras palavras, a implicação óbvia da
evidência pode não ser sua verdadeira implicação. As provas devem ser
submetido a uma análise rigorosa antes que uma conclusão possa ser tirada dele.
A evidência de escolha na ciência são os dados quantitativos, e a ferramenta de
escolha para tirar conclusões é a inferência estatística.
Um princípio científico importante é a preferência por explicações mais simples.
nações (Navalha de Okam). Como tal, hipóteses surpreendentes são dadas sérias
consideração somente após hipóteses mais comuns terem sido rejeitadas. Avistamentos
de um OVNI não são imediatamente interpretados como evidência de
uma visita alienígena. Contas mais mundanas, como raios de bola, balões meteorológicos
ou uma nova aeronave devem primeiro ser desacreditadas antes de uma invasão de
espaço sideral é levado a sério.
Assim, uma atitude científica em relação a uma regra extraordinariamente lucrativa
O teste de retorno primeiro consideraria e rejeitaria outras explicações antes de considerar
a possibilidade de que uma regra de AT significativa tenha sido descoberta. o
possíveis explicações de bom desempenho não relacionadas com a previsão de uma regra
power são boa sorte devido ao erro de amostragem (veja os Capítulos 4 e 5) e erro
sistemático devido ao viés de mineração de dados (veja o Capítulo 6).
RESUMO DOS PRINCIPAIS ASPECTOS DO

MÉTODO CIENTÍFICO
A seguir, um resumo dos pontos-chave do método científico:
• Não importa quão volumosas sejam as evidências, o método científico pode

nunca provam conclusivamente que uma hipótese seja verdadeira.
• Evidência observada usada em combinação com a forma dedutiva falsi
A identificação do conseqüente pode ser usada para refutar uma hipótese com um
grau de probabilidade especificado.
• A ciência está restrita a hipóteses testáveis. Proposições que não
testáveis não estão dentro do domínio do discurso científico e são considerados sem
sentido.
• Uma hipótese é testável se e somente se as previsões sobre observações ainda a
serem feitas puderem ser deduzidas da hipótese.
• Uma hipótese que só pode explicar observações passadas, mas que não pode
fazer previsões sobre novas observações não é científico.
• Uma hipótese é testada comparando suas previsões com novas observações. Se as
previsões e observações concordam, a hipótese não é
comprovada, mas apenas recebe confirmação provisória. Se eles não
concordar, a hipótese é tida como falsa ou incompleta.
• Todo o conhecimento científico atualmente aceito é apenas provisoriamente verdadeiro.
Sua verdade é temporária até que um teste mostre que ela é falsa, quando
é substituído ou subsumido por uma teoria mais completa.
• O conhecimento científico é cumulativo e progressivo. À medida que as hipóteses mais
antigas se mostram falsas, elas são substituídas por outras mais
retratam com precisão a realidade objetiva. A ciência é o único método de investigação
ou disciplina intelectual que pode afirmar que o mais novo é melhor.
Embora o conhecimento, os estilos e os métodos em outras disciplinas, como música, arte,

filosofia ou crítica literária, possam mudar com o tempo, não se pode afirmar que o novo
seja necessariamente melhor.
• Qualquer conjunto de observações passadas (dados) pode ser explicado por um número
infinito de hipóteses. Por exemplo, Elliott Wave Theory, Gann Lines, padrões gráficos
clássicos e uma lista de outros métodos interpretativos podem explicar o comportamento
passado do mercado de acordo com seu próprio paradigma de análise. Portanto, diz-se
que todas essas explicações são empiricamente iguais. A única maneira de decidir quais
são os melhores é ver quão bem eles podem prever observações cujos resultados ainda
não são conhecidos. Aqueles métodos que não podem gerar previsões testáveis
(falsificáveis) sobre novas observações podem ser eliminados imediatamente, alegando
que são cientificamente sem sentido. Aqueles métodos que podem gerar previsões que
conflitam com observações futuras podem ser eliminados com base em que foram
falsificados. Assim, apenas os métodos que podem fazer previsões testáveis que exibem
um poder preditivo genuíno merecem ser retidos no corpo de conhecimento da AT.
SE TA ADOTAR O MÉTODO CIENTÍFICO
Esta seção examina as consequências da adoção do método científico pela AT.
A eliminação da AT subjetiva
A consequência mais importante da adoção do método científico pela AT seria a eliminação de

abordagens subjetivas. Por não serem testáveis, os métodos subjetivos são protegidos do
desafio empírico. Isso os torna piores do que errados. São proposições sem sentido e desprovidas
de informação. A sua eliminação tornaria a AT uma prática inteiramente objetiva.
A AT subjetiva seria eliminada de duas maneiras: pela transformação em métodos objetivos

ou pelo abandono. Talvez Gann Lines, divergências subjetivas, canais de tendências e uma
série de padrões e conceitos subjetivos incorporem aspectos válidos do comportamento do
mercado. Em sua forma subjetiva atual, no entanto, nos é negado esse conhecimento.
Transformar um método subjetivo em uma versão objetiva não é trivial. Para ilustrar um
caso em que isso foi feito, discuto um algoritmo para a dicção automatizada de padrões de
cabeça e ombros e resultados de testes na seção “Objetivação da AT subjetiva: um exemplo”.
Eliminação de previsões sem sentido

Não é prático supor que todos os praticantes subjetivos seguirão
minha chamada para objetificar ou fechar a loja. Para aqueles que continuam a usar
abordagens subjetivas, há um passo importante que pode ser dado para
tornar seus resultados, se não sua metodologia, objetivos. A partir daí, eles
emitiria apenas previsões falsificáveis. Isso pelo menos tornaria a informação que eles
fornecem significativa e informativa. Nesse contexto, em formativo não significa
necessariamente correto, mas sim que o
as previsões têm conteúdo cognitivo que passa a diferença discernível
teste discutido na Introdução. Em outras palavras, a previsão seria
transmitir algo de substância, cuja veracidade pode ser claramente determinada pela ação
subsequente do mercado. Em outras palavras, a previsão será
tornar explícito ou claramente implicar quais resultados mostrariam que é
errado. Como dito anteriormente, uma previsão que não deixa claro o que
eventos futuros constituem erros de previsão em essência diz que qualquer resultado
pode acontecer.
Atualmente, a maioria das previsões subjetivas, muitas vezes chamadas de
chamadas de mercado, são sem sentido. Muito provavelmente, isso não é óbvio nem para
os consumidores nem para os analistas que emitem as previsões. Primeiro, considere um
previsão que é claramente sem sentido: “Meus indicadores estão agora prevendo o
mercado vai subir uma porcentagem infinita, cair 100 por cento, ou
algo no meio.” À primeira vista, a afirmação é infalsificável porque
não há nenhum resultado que possa entrar em conflito com a previsão. o
única coisa boa sobre a previsão é que sua falta de significado e falta de
falsificabilidade são transparentes. Uma chamada de mercado mais típica vale algo
assim: “Com base nos meus indicadores [preencha um ou mais métodos de AT], eu
sou otimista.” Esta declaração infalsificável é tão sem sentido, mas sua falta
de substância não é óbvia. Embora haja uma previsão de aumento, a previsão não deixa
claro quando pode ocorrer ou em que circunstâncias
a previsão estaria errada.
Essa postura otimista poderia ter se tornado significativa ao excluir claramente certos
resultados. Por exemplo, espero que o mercado suba mais
mais de 10 por cento dos níveis atuais antes de diminuir em mais de 5
por cento dos níveis atuais. Qualquer instância de um declínio superior a 5
por cento antes de um aumento de 10 por cento seria suficiente para classificar a previsão
como um erro.
Se você suspeitar que está sendo alimentado com uma previsão sem sentido,
aqui estão alguns bons antídotos. Faça a seguinte pergunta: “Quanto movimento adverso
(oposto à direção prevista) teria que ocorrer para você admitir que essa previsão está
errada?” Ou “Quais são os resultados
impedido por sua previsão?” Ou “Quando e em que condições pode
a previsão seja avaliada, como a passagem do tempo, mudança de preço (anúncio
verso ou favorável), ou um desenvolvimento de indicador específico?” Leitor, eu aviso

você não faça isso se tiver nojo de ver as pessoas se contorcendo.
Tornar as previsões subjetivas significativas com uma declaração inicial de
quando e como a previsão será avaliada eliminaria o mercado
espaço de manobra após o fato do guru. Algumas maneiras de adicionar significado a uma
previsão subjetiva incluem (1) definir um ponto futuro no tempo em que a previsão será avaliada,
(2) definir o grau máximo de
movimento que seria permitido sem declarar a previsão errada,
e (3) prever uma magnitude especificada de movimento favorável antes de um
magnitude especificada do movimento desfavorável (X por cento favorável antes de Y por cento
desfavorável). Passos como esses permitiriam uma
profissional para desenvolver um histórico de chamadas de mercado significativas. Históricos
significativos também podem resultar de recomendações de transações específicas feitas em
tempo real.
Uma limitação dessa recomendação é que ela ainda não deixaria claro o que o histórico
lucrativo representa. Isso ocorre porque as previsões subjetivas são derivadas de forma
indefinida, portanto, mesmo que uma faixa lucrativa
registro de previsões significativas é construído ao longo do tempo, não pode ser conhecido
que foram o resultado de um procedimento de análise consistente que pode ser repetido no
futuro. Na verdade, é provável que o método de análise não seja
estável ao longo do tempo. Estudos de julgamento subjetivo de especialistas indicam que
especialistas não combinam informações de maneira consistente de um julgamento para outro.
“Julgamentos intuitivos sofrem de graves
inconsistências devido à fadiga, tédio e todos os fatores que nos fazem
humano.”40 Em outras palavras, dado exatamente o mesmo padrão de dados de mercado em
tempos diferentes, é bem possível que um analista subjetivo não
a mesma previsão.41
Mudança de paradigma
Transformar a AT em uma prática objetiva seria o que Thomas Kuhn

chama de mudança de paradigma. Em seu livro altamente influente, A estrutura das revoluções
científicas, Kuhn rejeitou a noção de Popper de que a ciência evolui
estritamente por falsificação e conjectura. Em vez disso, Kuhn viu a evolução do
uma ciência como uma sequência de paradigmas, ou visões de mundo. Enquanto um
determinado paradigma está em vigor, os praticantes doutrinados nesse ponto de vista se limitam
suas atividades para colocar questões e hipóteses que são consistentes
com e responsável dentro dessa visão.
Um grande número de analistas de AT foi doutrinado com o paradigma de análise não
científico e intuitivo desenvolvido por pioneiros de AT como Dow,
Gann, Shabacker, Elliott, Edwards e Magee, e assim por diante. Eles estabeleceram a tradição
de pesquisa subjetiva e postularam o pano de fundo
sabedoria que é aceita como verdadeira e ensinada aos aspirantes a praticantes. o
o exame de certificação dado pela Market Technicians Association para aspirantes a Chartered
Market Technicians (CMT) exemplifica essa tradição.
A mudança para uma abordagem objetiva baseada em evidências desafiaria
muito deste material como sem sentido ou não suficientemente apoiado
por evidências estatísticas. Muitos dos ensinamentos seguirão o caminho dos primeiros
física e astronomia gregas. Alguns métodos sobreviverão à objetificação
e testes estatísticos e garantirá uma posição em um corpo legítimo de
Conhecimento em AT.
Para que o leitor não pense que minha posição é muito dura, não estou defendendo que
o critério de falsificabilidade seja usado para cortar todas as pesquisas em AT em brotamento
métodos exatamente como eles estão sendo formulados. Muitas das teorias brilhantes
da ciência começou como idéias pré-científicas parcialmente apoiadas no lado errado da
o critério de falseabilidade. Essas idéias precisavam de tempo para se desenvolver, e uma
dia alguns se transformaram em ciência significativa. Um exemplo em AT é o novo
campo da socionomia, uma consequência da Teoria das Ondas de Elliott. Na corrente
tempo, considero esta disciplina recém-desenvolvida como pré-científica, embora
pode ter potencial para se tornar uma ciência. De acordo com uma conversa que eu
teve com o professor John Nofsinger, que está trabalhando no campo da socionomia, neste
momento a disciplina ainda não é capaz de fazer previsões testáveis. Isso exigirá a quantificação
do humor social, a chave
determinante do movimento do mercado de acordo com a socionomia.
Áreas nascentes de pesquisa como esta e outras não devem ser interrompidas
simplesmente porque não são neste momento capazes de gerar testes testáveis.
previsões. Um dia eles podem ser capazes de fazê-lo.
OBJETIFICAÇÃO DA TA SUBJETIVA: UM EXEMPLO
Um dos aspectos desafiadores de mudar a AT para uma ciência será transformar padrões
gráficos subjetivos em padrões testáveis objetivamente definidos. Esta seção apresenta um
exemplo de como dois acadêmicos
técnicos, Keving Chang e Carol Osler (C&O) objetivaram o padrão cabeça e ombros).42 Nem
todos os elementos de seu padrão estão incluídos
aqui. Em vez disso, incluí o suficiente de suas regras e os problemas
eles enfrentaram e resolveram para ilustrar os desafios de transformar um método subjetivo em
objetivo. Para mais detalhes consulte
seus artigos originais.
Descrições do padrão cabeça e ombros podem ser encontradas em muitos
textos de AT43 e são normalmente acompanhados por um diagrama semelhante ao
na Figura 3.8. Ele representa o padrão como uma sequência de preços sem ruído
balanços. Quando o padrão se manifesta na forma perfeita de um livro didático, até mesmo um
estudante iniciante de AT pode identificá-lo.
O problema ocorre quando um padrão de gráfico real se afasta deste

ideal. Mesmo grafistas experientes podem debater se um determinado padrão se
qualifica como uma cabeça e ombros legítimos, uma consequência inevitável da
a falta de uma definição objetiva de padrões. Definições de padrões subjetivos
geralmente descrevem como o padrão de cabeça e ombros deve parecer, mas
eles não fornecem regras claras para padrões discriminatórios que se qualificam
como cabeça e ombros de padrões que possuem algumas características de cabeça
e ombros, mas não se qualificam. Em outras palavras, as definições carecem de clareza
regras para quais padrões excluir. Esse problema é conceituado em
Figura 3.6.
Sem regras objetivas para decidir o que faz e o que não
se qualificar como um padrão legítimo de cabeça e ombros, é impossível avaliar a
lucratividade ou o poder preditivo do padrão. A solução para o
O problema é definir regras objetivas que discriminem padrões válidos de cabeça e
ombros daqueles que não são.44 Essa noção é ilustrada em
Figura 3.7. O desafio de transformar um padrão subjetivo em objetivo
pode ser pensado como o problema de definir o padrão como um
subconjunto no superconjunto de todos os padrões de preços de TA possíveis.
A C&O definiu o padrão superior de cabeça e ombros como composto por cinco
pontos de pivô ou reversão de preço que, por sua vez, definem os três picos do padrão
e dois cochos. Esses pivôs são indicados pelas letras A a E na Figura 3.8. Todos os
oito textos consultados por C&O deixaram claro que a cabeça, indicada pela letra C,
deve ser maior que os dois picos circundantes
(ombros) indicados pelas letras A e E. Houve algum debate
entre os grafistas sobre várias características auxiliares, incluindo o pomo de Adão, o
queixo duplo e o topete. No entanto, os manuais de AT consultados
pela C&O eram inconsistentes nesses aspectos e não foram incluídos.
?
?
?
?
Cabeça e Ombros
Fundo Duplo
?
etc.
?
Conjunto de todos os padrões gráficos possíveis
FIGURA 3.6 Padrões subjetivos — sem regras de exclusão definitivas.

Não S&S
Não DB
Não DB
Não
Cabeça e Ombros
S&S
Fundo Duplo
Não S&S
Não DB
FIGURA 3.7 Padrões objetivos – regras de exclusão definitivas.
Um desafio que enfrenta o grafista do mundo real é o fato de que as oscilações de

preços reais não traçam picos e vales claramente identificáveis.
Em vez disso, picos e vales ocorrem em várias escalas de oscilação, desde ondas
minúsculas com duração de minutos até ondas muito grandes com duração de anos ou
décadas. Essa propriedade, chamada de escalonamento fractal, impõe um fardo ao
analista subjetivo que tenta identificar um padrão de cabeça e ombros. O analista deve
filtrar visualmente o comportamento dos preços para isolar picos e vales em uma
determinada escala de interesse. Isso é relativamente fácil em retrospecto, mas é
bastante difícil, pois o padrão está realmente se desdobrando em tempo real.
A C&O abordou esse problema usando um filtro de porcentagem, também
conhecido como filtro Alexander45 ou indicador de ziguezague, discutido por Merrill
Preço Cabeça
C
Deixei Certo
Ombro Ombro
UMA
E Linha do pescoço
Cruz
Anterior
Pico Sinal de venda
Linha do pescoço
B D
Anterior Deixei Certo
Cocho Cocho Cocho
Tempo
FIGURA 3.8 Cabeça e ombros.

em Ondas Filtradas. 46 É um método objetivo para identificar picos e

vales à medida que os preços evoluem. Os vales são identificados depois que os preços se movem
acima de uma baixa de preço recente em um valor maior do que uma porcentagem limite
especificada e os picos são identificados após os preços terem baixado
de uma alta recente de preço pela porcentagem limite. O problema é que
a identificação ocorre com uma defasagem de tempo, o tempo que leva para os preços
mover a quantidade limite. Por exemplo, se o limite for definido em 5%, um pico não será detectado
até que os preços tenham caído pelo menos 5%
do preço máximo mais recente, e os vales não são detectados até
os preços subiram pelo menos 5% em relação ao preço mínimo recente. o
movimento de preço mínimo exigido causa um atraso entre o momento em que o
pico ou vale realmente ocorreu e o momento em que é detectado por
o filtro ziguezague.
Em seguida, C&O abordou como determinar o percentual de limite correto para definir o filtro
em ziguezague. Diferentes limites de filtro revelariam
padrões de cabeça e ombros de diferentes tamanhos (escala). Por exemplo, um 3
por cento pode revelar um padrão de cabeça e ombros que um filtro de 10 por cento
filtro iria ignorar completamente. Isso possibilita que vários padrões de cabeça e ombros de
diferentes escalas existam simultaneamente. A C&O resolveu esse problema submetendo cada
instrumento financeiro (ações ou
moeda) a 10 filtros em ziguezague diferentes, empregando uma variedade de valores limite. Isso
permitiu que eles identificassem padrões de cabeça e ombros em uma variedade de escalas.
Isso levantou mais um problema. Quais devem ser os 10 limites de filtro

ser? Claramente, um conjunto de limites que seria bom para um instrumento
podem não ser bons para outro porque são caracterizados por diferentes
níveis de volatilidade. Percebendo isso, a C&O leva em consideração as informações recentes de cada instrumento
volatilidade em conta para chegar ao conjunto de 10 limites de filtro usados para
aquele instrumento. Essa percepção permitiu que seu algoritmo de cabeça e ombros
generalizar entre mercados com volatilidades diferentes. C&O definiu um
volatilidade do mercado, V, como o desvio padrão do preço percentual diário
alterações nos últimos 100 dias de negociação. Os 10 limites foram
obtido pela multiplicação de V por 10 coeficientes diferentes; 1,5, 2,0, 2,5, 3,0,
3,5, 4,0, 4,5, 5,0, 5,5, 6,0. Isso resultou em 10 filtros em ziguezague com sensibilidade variável. A
validade do conjunto de coeficientes escolhidos pela C&O foi confirmada pela inspeção visual das
tabelas de preços por praticantes de AT que
concordaram que os 10 filtros em ziguezague fizeram um trabalho razoável na identificação de
padrões de cabeça e ombros.
Em seguida, C&O abordou o problema de definir regras que qualificam um padrão de
candidato como válido. Essas regras foram aplicadas a
o instrumento uma vez que seu preço tenha sido filtrado em ziguezague e os picos e
calhas em uma determinada escala foram identificadas.
Primeiro, a cabeça e os ombros identificados pelo algoritmo de C&O tiveram que

satisfazer as seguintes regras básicas:
1. A cabeça do padrão deve ser mais alta que a esquerda e a direita

ombros.
2. O instrumento deve estar em tendência de alta antes da formação do padrão de cabeça e

ombros. Assim, o ombro esquerdo do padrão deve estar acima do pico anterior (PP) e o
vale esquerdo do padrão deve estar acima do vale anterior (PT).
Em seguida, a C&O enfrentou questões mais sutis e complexas para

qualificar um padrão candidato como válido. Eles conseguiram isso com um
conjunto de medidas inovadoras que qualificaram o padrão em termos de sua
simetria vertical e horizontal e o tempo que levou para o padrão ser concluído.
Essas regras permitiram que eles rotulassem definitivamente um padrão
candidato como cabeça-e-ombros ou não-cabeça-e-ombros.
Regras de simetria vertical

As regras de simetria vertical excluem padrões com decotes muito inclinados. O
padrão na Figura 3.9 tem simetria vertical aceitável.
As regras comparam os níveis de preços dos ombros direito e esquerdo (A
e E) e os níveis de preços dos vales direito e esquerdo (B e D) com um nível de
preço definido pelo ponto médio do segmento AB, designado como ponto X, e o
ponto médio do segmento DE designado como ponto Y. Para se qualificar como
Preço
C
UMA
E
PP
X S Linha do pescoço
B D
PT
Vertical E>X&D<X
Simetria
Regra A>AeB<A Tempo
FIGURA 3.9 Boa simetria vertical.

C
Preço E
S
UMA
X
B
Tempo
FIGURA 3.10 Baixa simetria vertical – inclinação do decote muito íngreme.
cabeça e ombros verticalmente simétricos, o padrão deve satisfazer as seguintes regras.
1. O nível de preço do pico do ombro esquerdo, ponto A, deve exceder o nível de preço do
ponto Y.
2. O nível de preços do pico do ombro direito, ponto E, deve exceder o nível de preços do ponto
X.
3. O nível de preços do vale esquerdo, ponto B, deve ser menor que o nível de preços do ponto
Y.
4. O nível de preço do vale direito, ponto D, deve ser menor que o nível de preço do ponto X.
As Figuras 3.10 e 3.11 mostram dois padrões de cabeça e ombros que seriam excluídos
porque os critérios de simetria vertical não foram satisfeitos.
Regra de simetria horizontal

Outra característica usada pela C&O para distinguir padrões de cabeça e ombros de padrões
não-cabeça e ombros foi a simetria horizontal. Um padrão com boa simetria horizontal é aquele
para o qual a cabeça, no ponto C, é aproximadamente equidistante dos picos que representam
os dois ombros do padrão (pontos A e E). A regra de C&O era que a distância da cabeça ao
Preço UMA
E
X
B
S
Tempo
FIGURA 3.11 Baixa simetria vertical – inclinação do decote muito íngreme.
um ombro não deve ser maior que 2,5 vezes a distância da cabeça ao outro ombro.
Não há nada de mágico no valor 2,5 além do que parecia razoável. Consulte a
Figura 3.12.
A Figura 3.13 é um exemplo de padrão que falha no teste de simetria horizontal.
Observe que o ombro direito está esticado demais para a direita. Um padrão com
alongamento excessivo para a esquerda também seria desqualificado.
D1 D2
Preço
C E
UMA
B D
Horizontal D1 < 2,5 D2

Simetria
Regra D2 < 2,5 D1 Tempo
FIGURA 3.12 Boa simetria horizontal.

Preço
D1 D2
C E
UMA
B
D
D2 > 2,5 D1
Tempo
FIGURA 3.13 Pobre simetria horizontal.
Regra de Conclusão de Padrão: Tempo Máximo

para Penetração do Decote
A C&O também especificou uma regra que exclui estampas que demoram muito para
penetrar no decote uma vez que o ombro direito, ponto E, tenha sido formado. Tal como
acontece com outras características, este critério é definido em termos de proporções
internas do padrão em vez de um número fixo de unidades de tempo. Isso permite que
a regra seja aplicada a todos os padrões, independentemente de seu período de tempo
ou escala.
O tempo máximo permitido para o movimento do ombro direito, ponto E, até a
penetração do decote é a distância temporal que separa os dois ombros, pontos A e E.
distância do ombro direito até a penetração do decote (D4) é menor que a separação
temporal dos ombros (D3). O padrão na Figura 3.15 não se qualifica porque D4 excede
D3.
Vazamento de informações futuras: viés de antecipação

Em sua simulação de padrões de cabeça e ombros, a C&O tomou precauções contra o
futuro vazamento de informações ou problema de viés de antecipação. Este problema
aflige os backtests que assumem a posse de conhecimento que não estava realmente
disponível quando uma decisão de negociação foi tomada. No contexto de backtesting,
isso pode fazer com que os resultados pareçam mais lucrativos do que seria possível
na negociação real. Um exemplo extremo seria assumir o acesso ao Wall Street Journal
no dia anterior à sua publicação.
Preço Conclusão
C Regra
D4 < D3
UMA
E
Linha do pescoço
B D
D3 D4
Tempo
FIGURA 3.14 Regra de preenchimento de padrão satisfeita.
No contexto do teste de costas do padrão cabeça e ombros, o vazamento

de informações futuras pode ocorrer se a porcentagem do limiar em ziguezague
for maior que a distância percentual entre o pico do ombro direito e o decote.
Não seria legítimo assumir um sinal de venda a descoberto devido a uma
penetração do decote até que o ombro direito (ponto E) fosse detectado.
No entanto, é possível que os preços cruzem o decote antes que o ombro
direito seja identificado pelo filtro em ziguezague. Para esclarecer, suponha que
o ombro direito, ponto E, esteja apenas 4% acima da linha do pescoço, mas o limiar
D3 D4
Preço
E
UMA
Linha do pescoço
B D
D4>D3
Tempo
FIGURA 3.15 Regra de preenchimento de padrão não satisfeita.

para o filtro ziguezague é de 10 por cento. Não seria legítimo supor que
um trader sabia sobre a penetração do decote porque um declínio de 10% do ombro direito teria
sido necessário para identificar o
ombro direito do padrão cabeça e ombros. Neste exemplo, assumir um preço de entrada apenas
4% abaixo do ombro direito seria mais
favorável do que esperar por um preço 10 por cento abaixo do ombro direito, o
movimento de preços necessário para ter um padrão de cabeça e ombros totalmente formado.
Para evitar esse problema, C&O assumiu uma entrada após o ombro direito ter sido identificado
objetivamente pelo filtro ziguezague. Embora este fosse um
preço de entrada menos favorável em alguns casos, o teste anterior não foi prejudicado pelo
viés de antecipação. Menciono isso porque mostra a atenção da C&O
detalhar.
A definição de padrão de C&O também lida com várias outras questões relacionadas à
entrada e saída de posições, níveis de stop-loss e assim por diante, mas a
ponto foi feito que é possível transformar padrões gráficos subjetivos em padrões testáveis
objetivos. Os leitores podem se opor a aspectos arbitrários do padrão da C&O. Tudo muito bem
se o leitor tiver uma melhor
definição objetiva a oferecer.
Como uma verificação final de sanidade, C&O mostrou padrões que foram identificados
por seu algoritmo automatizado de cabeça e ombros para uma série de
cartistas. C&O afirmam que os grafistas concordaram que os padrões identificados
pelo algoritmo objetivo cabeça-e-ombros estava de fato em conformidade com os critérios
subjetivos de cabeça-e-ombros.
Resultados do Teste de Cabeça e Ombros Costas
O padrão cabeça-e-ombros carrega informações preditivas com relação a ações ou moedas?

Em uma palavra, o padrão saudado como a pedra angular dos gráficos é um fracasso. Testes
da C&O mostram que não vale a pena
ações e apenas modestamente lucrativo em moedas. O padrão foi lucrativo em duas das seis
moedas testadas, mas o relativamente complicado
algoritmo de cabeça e ombros foi superado de longe por um algoritmo muito mais simples
sinal objetivo baseado em filtros em ziguezague. Além disso, quando a C&O testou a
ocorrência de uma cabeça-e-ombros em conjunto com a regra do ziguezague, seja como um
sinal de confirmação ou não, o padrão de cabeça-e-ombros não agregava valor. Em outras
palavras, os sinais em ziguezague não se saíram melhor quando o
sinal de cabeça e ombros estava na mesma direção que o sinal de ziguezague
e o ziguezague não piorou quando o sinal de cabeça e ombros estava em
direção oposta. A linha de fundo para os comerciantes de moeda: o valor de
cabeça e ombros é duvidoso.47
O head-and-shoulders teve um desempenho pior nas ações. C&O avaliado
a cabeça e os ombros em 100 ações selecionadas aleatoriamente48 sobre o pe
período de julho de 1962 a dezembro de 1993. Em média, cada ação deu um

sinal de cabeça e ombros por ano, contando sinais longos e curtos,
dando uma amostra de mais de 3.100 sinais. Para testar a rentabilidade do padrão em
preços reais das ações, a C&O estabeleceu um benchmark com base no padrão
desempenho em históricos de pseudo-preços. Esses históricos de preços simulados
foram gerados a partir de alterações de preços históricas reais agrupadas em um
moda aleatória. Ao usar as mudanças de preços reais, os históricos de pseudo-preços
tinha as mesmas características estatísticas que as ações reais, mas qualquer previsibilidade
devido à estrutura temporal autêntica - a estrutura que os padrões de AT tendem a explorar - foi
eliminada Apesar do fato de que o pseudo-preço
histórias foram geradas aleatoriamente, padrões de cabeça e ombros que se encaixam
A definição de C&O ainda emergiu. Isso confirma os resultados de Harry Roberts
referido anteriormente.
Se os padrões de cabeça e ombros que aparecem em dados de ações reais são
úteis, devem gerar lucros superiores aos obtidos com a negociação
os padrões que aparecem nos históricos de preços de ações falsos. C&O descobriu que
padrões de cabeça e ombros nos preços reais das ações perderam um pouco mais
dinheiro do que os sinais nos históricos de pseudo-preços. De acordo com o estudo
“os resultados sugerem uniformemente que a negociação de cabeça e ombros não é
rentável." Os sinais perdem em média cerca de 0,25 por cento ao longo de 10 dias
período de espera. Isso se compara a uma perda média de 0,03% para
padrões de cabeça e ombros nos dados de pseudo-estoque. C&O referido
comerciantes usando o padrão como "comerciantes de ruído", especuladores que confundem um
sinal aleatório para um informativo.
Confirmando os achados de C&O está o trabalho de Lo et al.49 Lo usou um método
alternativo de objetivar o padrão H&S baseado na regressão do kernel,
uma sofisticada técnica de suavização local50. Seu estudo não conseguiu derrubar a hipótese
nula de que o padrão de cabeça e ombros é inútil.51
Bulkowski52 descobriu que o head-and-shoulders era lucrativo, mas sua pesquisa fica
aquém. Ele não fornece uma definição objetiva de padrão que
padrão retrotestável ou regras de entrada e saída. Em outras palavras, seu estudo é
AT subjetiva. Além disso, seus resultados não se ajustam à tendência do mercado de ações em
geral no período em que ele testou os padrões.
SUBCONJUNTOS DE TA
Dada a discussão anterior, a AT pode ser vista como composta por quatro subconjuntos: (1) AT
subjetiva, (2) AT objetiva com significância estatística desconhecida, (3) AT objetiva que não é
estatisticamente significativa e (4)
AT objetiva que é estatisticamente significante.
O primeiro subconjunto, TA subjetiva, já foi definido como métodos

que não pode ser reduzido a um algoritmo retrotestável. Subconjuntos dois, três,
e quatro referem-se a métodos objetivos.
O segundo subconjunto é composto por métodos objetivos de
valor. Embora esses métodos sejam objetivos e possam ter voltado
testados, seus resultados não foram avaliados quanto à significância estatística.
Aqui, é simplesmente uma questão de aplicar os métodos discutidos nos Capítulos
4, 5 e 6. Isso não pretende sugerir que a aplicação de métodos estatísticos
para trás os resultados do teste é simples, mas a decisão de fazê-lo é.
O terceiro subconjunto, ao qual me refiro como AT inútil, consiste em
Regras de AT para os quais os resultados foram exaustivamente testados e
avaliados com métodos estatísticos, mas foram revelados para não agregar valor
isoladamente ou quando usado em combinação com outros
métodos. Com toda a probabilidade, a maioria dos métodos objetivos de AT cairá
neste subconjunto. Isso é esperado porque os mercados financeiros são extremamente difíceis
de prever devido à sua complexidade e aleatoriedade inerentes. De fato, em todos os campos da
ciência, a maioria das ideias propostas não funciona.
Descobertas importantes são raras. Isso não é óbvio porque os numerosos
as falhas normalmente não são relatadas na imprensa leiga ou mesmo em publicações científicas.
diários. O mais importante é ter um procedimento para obter
livrar-se de métodos que não funcionam.
O quarto subconjunto, AT útil, consiste em métodos objetivos que produzem resultados
estatisticamente significativos ou, melhor ainda, economicamente significativos. Embora algumas
regras sejam úteis isoladamente, o
complexidade e aleatoriedade dos mercados financeiros tornam provável que a maioria
TESTÁVEL
NÃO Subjetivo
SIM
RIGOROSO Objetivo
NÃO Valor
AVALIAÇÃO
Desconhecido
EBTA EBTA
SIM
Objetivo SIM SIGNIFICATIVO NÃO Objetivo

De valor Sem valor
FIGURA 3.16 Subconjuntos de Análise Técnica.

as regras agregarão valor quando usadas em combinação com outras regras para formar
regras complexas.
A análise técnica baseada em evidências (EBTA) refere-se aos subconjuntos (3) e
(4) – AT objetiva que foi retrotestada e submetida a análise estatística. Dada a discussão
anterior, a categorização da AT é ilustrada na Figura 3.16.
Os próximos três capítulos discutem a aplicação da análise estatística aos resultados

do back-test.
Estatística
Análise
renomado cientista e autor britânico HG Wells (1866-1946) disse

Estatística é a ciência
que um cidadão dos
inteligente emdados.1 No final
uma sociedade doséculo
livre do século
XX XIX,
precisaria entender métodos estatísticos. Pode-se dizer que um praticante ou
consumidor de AT inteligente do século XXI tem a mesma necessidade.
Este capítulo e os dois seguintes abordam aspectos das estatísticas que são
particularmente relevantes para a AT.
Os métodos estatísticos não são necessários quando um conjunto de dados
transmite uma mensagem em voz alta e clara. Se todas as pessoas que bebem de
um determinado poço morrem de cólera, mas todos os que bebem de um poço
diferente permanecem saudáveis, não há incerteza sobre qual poço está infectado
e não há necessidade de análise estatística. No entanto, quando as implicações dos
dados são incertas, a análise estatística é a melhor, talvez a única, maneira de tirar
conclusões razoáveis.
Identificar quais métodos de AT têm poder preditivo genuíno é altamente
incerto. Mesmo as regras mais potentes exibem um desempenho altamente
variável de um conjunto de dados para o outro. Portanto, a análise estatística
é a única maneira prática de distinguir métodos úteis daqueles que não são.
Quer seus praticantes reconheçam ou não, a essência da AT é a

inferência estatística. Ele tenta descobrir generalizações de dados históricos
na forma de padrões, regras e assim por diante e então extrapolá-los para o
futuro. A extrapolação é inerentemente incerta. A incerteza é desconfortável.
O desconforto pode ser tratado de duas maneiras. Uma maneira é fingir

isso não existe. O outro é o caminho da estatística, que enfrenta a incerteza de frente ao
reconhecê-la, quantificá-la e depois fazer a
melhor decisão possível diante disso. Bertrand Russell, o renomado
O matemático e filósofo britânico disse: “A incerteza, na presença
de esperanças e medos vívidos, é doloroso, mas deve ser suportado se quisermos viver
sem o apoio de contos de fadas reconfortantes.”2
Muitas pessoas desconfiam ou desdenham da análise estatística e
os estatísticos são muitas vezes retratados como nerds nerds, divorciados da realidade. Isso
aparece nas piadas. Nós ridicularizamos o que não entendemos. Há a história sobre o homem
de 1,80 m de altura que se afoga em um
lagoa com uma profundidade média de apenas dois pés. Há o conto sobre três
estatísticos que vão caçar patos. Eles avistam um pássaro voando acima. o
primeiro atira um pé muito longe para a esquerda. O segundo atira um pé longe demais para
o certo. O terceiro salta e exclama: “Conseguimos!!” Mesmo que a
erro médio foi zero, não havia pato para o jantar.
Ferramentas poderosas podem ser mal utilizadas. Os críticos costumam acusar
estatísticas são usadas para distorcer e enganar. É claro que fins semelhantes podem ser
alcançado com palavras, embora a linguagem não seja responsabilizada. Um mais racional
postura é necessária. Em vez de visualizar todas as reivindicações com base em estatísticas com
suspeita ou levando-os ao pé da letra, “uma resposta mais madura
ser aprender o suficiente sobre estatísticas para distinguir conclusões honestas e úteis de
trapaças ou tolices.”3 “Aquele que aceita estatísticas indiscriminadamente muitas vezes será
enganado desnecessariamente. Mas quem desconfia
estatísticas indiscriminadamente serão muitas vezes ignorantes desnecessariamente. O meio
O terreno que buscamos entre a desconfiança cega e a credulidade cega é um ceticismo de
mente aberta. Isso requer habilidade para interpretar dados com habilidade.”4
UMA PRÉVIA DO RACIOCÍNIO ESTATÍSTICO
O raciocínio estatístico é um novo terreno para muitos profissionais e consumidores

de TA. Viagens para lugares estranhos são mais fáceis quando você sabe o que esperar.
A seguir, uma prévia dos próximos três capítulos
Por razões discutidas no Capítulo 3, é aconselhável começar com a suposição de que
todas as regras de AT não têm poder preditivo e que um backtest lucrativo foi devido à sorte.
Essa suposição é chamada de nula
hipótese. Sorte, neste caso, significa uma correspondência favorável, mas acidental, entre os
sinais da regra e as tendências subsequentes do mercado no
amostra de dados históricos em que a regra foi testada. Embora esta hipótese seja um ponto de
partida razoável, ela está aberta à refutação com base empírica.
evidência. Em outras palavras, se as observações contradizem as previsões feitas por
a hipótese nula, ela é abandonada e a hipótese alternativa, que
Análise estatística 167
a regra tem poder preditivo, seria adotada. No contexto do teste de regras, a evidência que
refutaria a hipótese nula é uma taxa de retorno testada que é muito alta para ser razoavelmente
atribuída à mera sorte.
Se uma regra de AT não tiver poder preditivo, sua taxa de retorno esperada será zero
nos dados destendidos5. No entanto, em qualquer pequena amostra de dados, a lucratividade
de uma regra sem poder preditivo pode se desviar consideravelmente de zero. Esses desvios
são manifestações do acaso — boa ou má sorte.
Este fenômeno pode ser visto em um experimento de lançamento de moeda. Em um pequeno
número de lançamentos, a proporção de caras pode se desviar consideravelmente de 0,50,
que é a proporção esperada de caras em um número muito grande de lançamentos.
Geralmente, os desvios de chance de uma regra inútil de um retorno zero são pequenos.
Às vezes, no entanto, uma regra inútil gerará lucros significativos por pura sorte. Esses casos
raros podem nos levar a acreditar que uma regra de menos uso tem poder preditivo.
A melhor proteção contra ser enganado é entender até que ponto os lucros podem
resultar da sorte. Isso é melhor realizado com uma função matemática que especifica os
desvios dos lucros zero que podem ocorrer por acaso. É isso que as estatísticas podem fazer
por nós.
Essa função, chamada de função de densidade de probabilidade, fornece a probabilidade
de todos os possíveis desvios positivos ou negativos de zero. Em outras palavras, mostra o
grau em que o acaso pode fazer com que uma regra inútil gere lucros. A Figura 4.1 mostra
uma função densidade de probabilidade.6 O fato de a curva densidade estar centrada em um
valor zero reflete a afirmação da hipótese nula de que a regra tem um retorno esperado de
zero.
Probabilidade
Densidade
Devoluções negativas 0 Devoluções Positivas
Taxa de retorno testada novamente
FIGURA 4.1 Densidade de probabilidade de desempenho casual – faixa de desempenho

possível para uma regra de AT inútil.
Na Figura 4.2, a seta indica a taxa de retorno positiva obtida por uma regra quando ela foi
testada novamente. Isso levanta a questão: a taxa de retorno observada é suficientemente
positiva para justificar a rejeição da hipótese nula de que a taxa de retorno verdadeira da regra é
zero? Se o desempenho observado estiver dentro da faixa dos desvios que provavelmente são
atribuíveis ao acaso, a evidência é considerada insuficiente para rejeitar a hipótese nula. Nesse
caso, a hipótese nula resistiu ao desafio empírico da evidência do back-test, e uma interpretação
conservadora da evidência sugeriria que a regra não tem poder preditivo.
A força da evidência do back-test é quantificada pela área fracionária7 da função de

densidade de probabilidade que se encontra em valores iguais ou superiores ao desempenho
observado da regra. Esta parte da função de densidade é representada pela área escurecida à
direita da seta vertical na Figura 4.2. O tamanho desta área pode ser interpretado como a
probabilidade de que uma taxa de retorno tão alta ou superior possa ter ocorrido por acaso sob
a condição de que a regra não tenha poder preditivo (retorno esperado = 0, ou a hipótese nula é
verdadeira). Quando esta área ocupa uma fração relativamente grande da curva de densidade,
isso significa que há uma probabilidade igualmente grande de que o desempenho positivo foi
devido ao acaso. Quando este é o caso, não há justificativa para concluir que a hipótese nula é
falsa. Em outras palavras, não há justificativa para concluir que a regra tem poder preditivo.
No entanto, se o desempenho observado for muito acima de zero, a porção da função

densidade de probabilidade que se encontra em valores ainda mais extremos é
A taxa de
retorno tão baixa
Probabilidade está bem dentro da
Densidade faixa de desempenho de chance
FIGURA 4.2 Probabilidade de desempenho casual para uma regra inútil.

pequena. Desempenho tão positivo seria inconsistente com a afirmação de que a regra não
tem poder preditivo. Em outras palavras, a evidência seria suficiente para refutar a hipótese
nula. Outra maneira de pensar nisso é a seguinte: se a hipótese nula fosse verdadeira, um
nível de desempenho tão positivo teria uma baixa probabilidade de ocorrência. Essa
probabilidade é quantificada pela proporção da função densidade que se encontra em valores
iguais ou superiores ao desempenho observado. Isso é ilustrado na Figura 4.3. Observe que
o desempenho observado está na extremidade direita da curva de densidade que ocorreria
se a regra fosse desprovida de poder preditivo.
É importante entender o que essa evidência não nos diz. Não nos diz nada sobre a
probabilidade de que a hipótese nula ou a hipótese alternativa seja verdadeira. Fala apenas
da probabilidade de que a evidência possa ter ocorrido sob a suposição de que a hipótese
nula é, de fato, verdadeira. Assim, a probabilidade fala da verossimilhança da evidência, não
da veracidade da hipótese. A evidência observada que seria altamente improvável, sob a
condição de que a hipótese nula seja verdadeira, permite inferir que a hipótese nula é falsa.
Lembre-se de que, no Capítulo 3, foi mostrado que a evidência de que uma criatura tem
quatro patas não pode estabelecer conclusivamente a verdade da hipótese: A criatura é um
cachorro. Embora a evidência de quatro patas seja consistente com a hipótese de que a
criatura é um cachorro, não é suficiente para provar, dedutivamente, que a criatura é um
cachorro. Da mesma forma, embora a observação de desempenho positivo seja consistente
com a hipótese de que uma regra tem poder preditivo, não é suficiente para provar que tem.
Um argumento que tenta provar a verdade de uma hipótese com evidências observadas
Probabilidade
Densidade Taxa de retorno
tão alta
improvável de
ser devido ao acaso
FIGURA 4.3 Probabilidade de desempenho casual para uma boa regra.

que é consistente com a hipótese comete a falácia lógica de afirmar o consequente.
Se a criatura é um cachorro, então ela tem quatro patas.

A criatura tem quatro pernas.
Conclusão Inválida: Portanto, a criatura é um cachorro.
Se uma regra tiver poder preditivo, ela terá um teste de retorno lucrativo.
O teste de volta foi lucrativo.
Conclusão inválida: Portanto, a regra tem poder preditivo.
No entanto, a ausência de quatro patas é suficiente para provar que a hipótese, a criatura
é um cachorro, é falsa.8 Em outras palavras, a evidência observada pode ser usada para
provar conclusivamente que uma hipótese é falsa. Tal argumento usa a forma dedutiva válida,
negação do consequente. A forma geral de um argumento, em que o consequente é negado, é
como mostrado:
Se P é verdadeiro, então Q é verdadeiro.
Q não é verdade.
Conclusão válida: Portanto, P não é verdadeiro (ou seja, P é falso).
Se a criatura é um cachorro, então ela tem quatro patas.

A criatura não tem quatro pernas.
Conclusão válida: Portanto, é falso que a criatura seja um cachorro.
O argumento que acabamos de apresentar usa a evidência, a ausência de quatro patas,

para falsificar conclusivamente a noção de que a criatura é um cachorro. No entanto, este nível
de certeza não é possível em questões de ciência e estatística. Nunca se pode falsificar
conclusivamente uma hipótese. No entanto, uma lógica semelhante pode ser usada para
mostrar que certas evidências são altamente improváveis se a hipótese for verdadeira. Em
outras palavras, a evidência nos dá motivos para desafiar a hipótese. Assim, um backtest
altamente lucrativo pode ser usado para desafiar a hipótese de que a regra não tem poder
preditivo (ou seja, que tem um retorno esperado de zero).
Se o retorno esperado de uma regra for igual a zero ou menor, então um backtest deve
gerar lucros razoavelmente próximos de zero.
O desempenho testado não foi razoavelmente próximo de zero; na verdade, estava
significativamente acima de zero.
Conclusão válida: Portanto, é provável que a afirmação de que o retorno esperado da
regra seja igual a zero ou menor seja falsa.
Quão improvável ou raro deve ser o desempenho positivo para rejeitar a noção
de que a regra é desprovida de poder preditivo? Não existe uma regra rígida e
rápida. Por convenção, a maioria dos cientistas não estaria disposta a rejeitar uma
hipótese, a menos que o desempenho observado tenha uma probabilidade de 0,05
ou menos de ocorrência sob a suposição de que o nulo é verdadeiro. Esse valor é
chamado de significância estatística da observação.
A discussão até agora diz respeito ao caso em que apenas uma regra é testada
novamente. Na prática, no entanto, a pesquisa de regras de AT normalmente não
se restringe a testar uma única regra. Poder de computação econômico, software
de back-testing versátil e dados históricos abundantes tornam fácil, quase
convidativo, testar muitas regras com o objetivo de selecionar aquela com o melhor desempenho.
Essa prática é conhecida como mineração de dados.
Embora a mineração de dados seja um método de pesquisa eficaz, testar
muitas regras aumenta a chance de um bom desempenho. Portanto, o limiar de
desempenho necessário para rejeitar a hipótese nula deve ser estabelecido mais
alto, talvez muito mais alto. Esse limite mais alto compensa a maior probabilidade
de tropeçar em uma regra inútil que teve sorte em um teste de volta. Este tópico, o
viés de mineração de dados, é discutido no Capítulo 6.
A Figura 4.4 compara duas funções de densidade de probabilidade. O de cima
seria apropriado para avaliar a significância de um único teste de retorno de regra.
A curva de densidade mais baixa seria apropriada para avaliar o sig
Distribuição Apropriada para

Teste de Regra Única
Probabilidade
Desempenho observado
Densidade
Parece significativo
0
Distribuição Apropriada para as Regras Melhor de 1000
Probabilidade Não parece
Densidade Significativo
0
FIGURA 4.4 Um ótimo desempenho em um único teste de retorno de regra só é medíocre quando
1.000 regras são testadas.
importância da regra de melhor desempenho entre 1.000 regras testadas. este

A curva de densidade leva em conta a maior probabilidade de sorte que resulta da mineração
de dados. Observe que se o desempenho observado desta melhor regra fosse avaliado com a
curva de densidade apropriada para um
regra única, pareceria significativo porque o desempenho está muito longe
na cauda direita da distribuição. No entanto, quando o desempenho da melhor regra é avaliado
com a função de densidade de probabilidade apropriada,
não parece estatisticamente significativo. Ou seja, a regra é bastante
alto desempenho não garantiria a conclusão de que tem
potência ou um retorno esperado maior que zero.
A NECESSIDADE DE ANÁLISE ESTATÍSTICA RIGOROSA
As ferramentas e métodos de uma disciplina limitam o que ela pode descobrir. Melhorias neles
abrem caminho para um maior conhecimento. A astronomia teve um grande
avançar com a invenção do telescópio. Embora bruto por hoje
padrões, os primeiros instrumentos tinham 10 vezes o poder de resolução do
olho nu. A análise técnica tem uma oportunidade semelhante, mas deve substituir a análise
informal de dados por métodos estatísticos rigorosos.
A análise informal de dados simplesmente não está à altura da tarefa de extrair dados válidos.
conhecimento dos mercados financeiros. Os dados florescem com padrões ilusórios enquanto
padrões válidos são velados por ruído e complexidade. Rigoroso
a análise estatística é muito mais adequada para essa difícil tarefa.
A análise estatística é um conjunto de procedimentos bem definidos para a coleta, análise
e interpretação de dados. Este capítulo e os próximos dois
apresentará a forma como as ferramentas estatísticas e o raciocínio podem ser usados para
identificar as regras de AT que funcionam. Esta visão geral é necessariamente condensada, e em
em muitos casos sacrifiquei o rigor matemático em nome da clareza.
No entanto, esses desvios não diluem a mensagem essencial: Se a AT deve
cumprir suas reivindicações, deve ser fundamentado em uma abordagem científica que
usa análise estatística formal.
UM EXEMPLO DE AMOSTRAGEM E
INFERÊNCIA ESTATÍSTICA
O raciocínio estatístico é abstrato e muitas vezes vai contra o senso comum. Isso é bom e
ruim. A lógica que vai contra a inferência informal é boa porque pode nos ajudar onde o
pensamento comum nos permite.
baixa. No entanto, isso é exatamente o que torna difícil de entender. Então
devemos começar com um exemplo concreto.
O conceito central da inferência estatística é extrapolar a partir de amostras. Uma

amostra de observações é estudada, um padrão é discernido e isso
espera-se que o padrão seja válido para (extrapolado para) casos fora da amostra
observada. Por exemplo, uma regra considerada lucrativa em uma amostra
da história é projetada para ser lucrativa no futuro.
Vamos começar a pensar sobre o conceito no contexto de um problema que
não tem nada a ver com análise técnica. Ele vem de um excelente
livro: Estatísticas, Uma Nova Abordagem de Wallis e Roberts.9 O problema
diz respeito a uma caixa cheia de uma mistura de contas brancas e cinzentas. O total
número de contas e os números de contas cinza e brancas são desconhecidos.
A tarefa é determinar a fração de contas que são cinzas em todo o
caixa. Para fins de brevidade, este valor será designado como FG (fração-cinza na
caixa).
Para tornar esta situação semelhante aos problemas estatísticos enfrentados no
mundo, há uma ruga. Não temos permissão para visualizar todo o conteúdo
da caixa de uma só vez, evitando assim uma observação direta de FG. este
A restrição torna o problema realista porque, em problemas reais, observar todos os
itens de interesse, como todas as contas da caixa, é impossível ou impraticável. Na
verdade, é essa restrição que cria a necessidade
para inferência estatística.
Embora não estejamos autorizados a examinar o conteúdo da caixa em sua
totalidade, estamos autorizados a coletar amostras de 20 contas de cada vez da caixa
e observá-los. Portanto, nossa estratégia de aquisição de conhecimento sobre GF será
ser observar a fração de grânulos cinzas em uma infinidade de amostras. Nisso
exemplo, 50 amostras serão coletadas. A minúscula fg representa a fração de grânulos
cinzas em uma amostra.
Uma amostra é obtida da seguinte forma: O fundo da caixa contém um
painel deslizante com 20 pequenas depressões, dimensionadas de forma que um único cordão
seja capturado em cada depressão. O painel pode ser deslizado para fora da caixa empurrando
com um painel semelhante que toma o seu lugar. Isso mantém o restante
contas caiam do fundo. Consequentemente, cada vez que o
painel é removido, obtemos uma amostra de 20 esferas e temos a oportunidade de
observar a fração cinza (fg) nessa amostra. Isso é ilustrado em
Figura 4.5.
Depois que a fração de grânulos cinzas (fg) em uma determinada amostra foi
determinada, os grânulos de amostra são colocados de volta na caixa e é dado um
agitação completa antes de tirar outra amostra de 20. Isso dá a cada
uma chance igual de terminar na próxima amostra de 20. No jargão da estatística,
estamos nos certificando de que cada amostra seja aleatória. o
todo o processo de coleta de uma amostra, anotando o valor fg, colocando a amostra
de volta na caixa, e agitar a caixa é repetido 50 vezes. No fim de
todo o procedimento acabamos com 50 valores diferentes para fg, um valor
para cada amostra examinada.
Que fração
São
Cinza?
F–G Painel deslizante
FIGURA 4.5 Determinando fg para cada amostra.
Ao colocar cada amostra de volta na caixa antes de coletar outra amostra, estamos
mantendo uma concentração estável para a fração de cinza
miçangas na caixa. Ou seja, o valor de FG é mantido constante ao longo de
ao longo das 50 amostragens. Problemas em que as características estatísticas permanecem
estáveis ao longo do tempo são ditos estacionários. Se as contas
não fossem substituídos após cada amostra, o valor FG mudaria ao longo do
ao longo das 50 amostragens, uma vez que grupos de contas foram removidos
permanentemente da caixa. Um problema em que as características estatísticas
a mudança ao longo do tempo é dita não estacionária. Os mercados financeiros podem de
fato ser não estacionários, mas para fins pedagógicos, a caixa de contas
problema é projetado para ser estacionário.
É importante ter em mente a distinção entre FG e fg.
FG refere-se à fração de grânulos cinzas em toda a caixa. Na linguagem
da estatística, todas as observações que nos interessam são chamadas de
população. Neste exemplo, o termo população refere-se à cor de todos os
as contas na caixa. O termo amostra refere-se a um subconjunto da população. Assim, FG
refere-se à população enquanto fg refere-se à amostra.
Nossa tarefa atribuída é obter o máximo de conhecimento possível sobre o
valor de FG observando o valor fg em 50 amostras separadas.
Também é importante manter clara a distinção entre dois números: o número de
observações que compõem uma amostra – neste caso 20
contas - e o número de amostras retiradas - neste caso 50.
EXPERIMENTOS DE PROBABILIDADE E VARIÁVEIS ALEATÓRIAS
A probabilidade é a matemática do acaso.10 Um experimento de probabilidade é

uma observação ou uma manipulação de nosso ambiente que tem um resultado incerto.11
Isso inclui ações como observar o pré
momento de chegada após uma longa viagem, observando o número de polegadas de

neve que cai em uma tempestade ou a face de uma moeda que aparece após o
lançamento de uma moeda.
A quantidade ou qualidade observada em um experimento de probabilidade é chamada
uma variável aleatória , como a face de uma moeda após um lançamento, o número de
centímetros de neve que caiu, ou um valor que resume uma amostra de observações (por
exemplo, uma média amostral). Essa quantidade ou qualidade é dita aleatória
porque é afetado pelo acaso. Considerando que uma observação individual de um
variável aleatória é imprevisível, por definição, um grande número de observações feitas em
uma variável aleatória pode ter características altamente previsíveis.
Por exemplo, em um dado lançamento de moeda, é impossível prever cara ou coroa.
No entanto, dado mil lances, que o número de caras será
dentro de um intervalo especificado de 500 é altamente previsível.
Dependendo de como é definida, uma variável aleatória assume pelo menos
dois valores diferentes, embora possa assumir mais - talvez até um infinito
número. A variável aleatória em um lançamento de moeda, a face visível após o lançamento,
pode assumir dois valores possíveis (cara ou coroa). A variável aleatória, definida como a
temperatura ao meio-dia medida na base da Estátua da Liberdade,
pode assumir um número muito grande de valores, com o número limitado apenas
pela precisão do termômetro.
Amostragem: o mais importante

Experiência de probabilidade
O experimento de probabilidade mais importante na análise estatística é a amostragem.

Envolve a extração de um subconjunto de observações de uma população. Aqui, a variável
aleatória em questão é chamada de estatística amostral. É qualquer
característica computável da amostra. O valor fg é um exemplo de
estatística de amostra.
A amostragem pode ser feita de várias maneiras, mas é crucial
que as observações selecionadas para a amostra sejam escolhidas de forma aleatória e que
sejam selecionadas independentemente umas das outras. este
significa que todas as observações que poderiam acabar na amostra foram
uma chance igual de fazê-lo. Como nenhuma observação em particular tem mais chance de
aparecer na amostra do que qualquer outra, as observações
que acabam na amostra o fazem por acaso. As amostras devem ser construídas
dessa maneira porque os princípios de probabilidade, sobre os quais se baseia o raciocínio
estatístico, supõem que as observações que terminam na amostra chegaram lá aleatoriamente.
Considere o teste de um novo medicamento em uma amostra de voluntários. o

amostra deve ser construída de modo que qualquer um que possa eventualmente tomar o
medicamento tem a mesma chance de ser selecionado para o grupo de teste. Se o
sujeitos no experimento não são selecionados desta forma, os resultados do teste
não levará a uma conclusão sólida. Um experimento médico que seleciona o teste
indivíduos que se espera que respondam favoravelmente à medicação
produzir conclusões tendenciosas. Em outras palavras, as estimativas da eficácia do
medicamento na população geral serão muito otimistas.
Imagine tirar uma única conta aleatoriamente da caixa com os olhos
fechado e depois observando sua cor. Trata-se de um experimento de amostragem com
tamanho da amostra de um. A cor da conta, cinza ou branca, é a variável aleatória.
Agora imagine selecionar aleatoriamente 20 contas da caixa. Aqui a amostra
tamanho é 20 e a fração cinza nessa amostra (fg) é uma estatística amostral que
também é uma variável aleatória.
Como discutido anteriormente, chamaremos essa variável aleatória fg. É uma variável
aleatória porque seu valor é afetado pelo acaso. Pode assumir 21 valores diferentes {0,
0,05, 0,10, 0,15, . . . , 1,0}. Agora vamos voltar ao objetivo:
aumentando nosso conhecimento sobre o valor de FG.
O conhecimento adquirido de uma amostra

Suponha que a primeira amostra contenha 13 contas cinzentas de 20. O valor da
a estatística da amostra fg é 0,65 (13/20). O que isso nos diz sobre FG? Com
apenas esta informação, alguns podem ser tentados a concluir que temos
resolveu o problema, e que 0,65 é a fração cinza para toda a caixa
(ou seja, FG = 0,65). Essa visão supõe tácita e ingenuamente que uma única amostra pode
fornecer conhecimento perfeito. No extremo oposto estão aqueles
que concluem erroneamente que a amostra é pequena demais para fornecer qualquer
em formação.
Ambas as conclusões estão erradas. Em primeiro lugar, não há base para pensar que
poderíamos adquirir conhecimento perfeito de uma amostra. Embora seja possível que uma
única amostra de 20 contas possa ser uma réplica perfeita do
todo o conteúdo da caixa, não é provável. Por exemplo, se o valor verdadeiro
de FG foram 0,568, uma amostra de 20 grânulos nunca poderia produzir tal valor.
Um valor fg de 0,55 (11 cinza de 20) é o mais próximo possível. Dez cinza
contas na amostra dariam um fg de 0,50, 11 dariam 0,55 e 12
daria 0,60.
Aqueles que afirmam que nada foi aprendido também estão enganados.
Com base apenas nesta amostra, duas possibilidades podem ser eliminadas.
Podemos rejeitar com absoluta certeza que FG = 1,0 (ou seja, todas as contas cinza)
porque havia 7 contas brancas na amostra. Com igual certeza,
podemos rejeitar a proposição de que FG é 0, porque havia 13 cinzas
contas na amostra.
No entanto, estimativas mais precisas de FG com base no único valor observado de
fg estão sujeitas a incertezas. Mesmo se tivéssemos várias amostras e tivéssemos vários
valores de fg, o valor de FG seria
permanecem incertos. Isso ocorre porque uma amostra é, por definição, um representante parcial
apresentação do conteúdo completo da caixa. Somente observando cada conta

na população toda a incerteza sobre GF poderia ser eliminada. E isto
é proíbido.
No entanto, com o que foi aprendido com a amostra única, alguns
suposições inteligentes podem ser feitas que vão além do conhecimento certo que
FG não é 0 nem 1,0. Por exemplo, embora uma afirmação de que FG seja tão baixa
como 0,10 não pode ser descartado de forma conclusiva; ninguém levaria a sério.
O valor fg observado de 0,65 obtido da primeira amostra está muito longe
acima de 0,10 para que seja uma estimativa confiável de FG. Se FG realmente fosse tão baixo
0,10, a probabilidade de obter uma amostra com um fg de 0,65 parece improvável apenas
com base no senso comum. Poderíamos aplicar o mesmo tipo de lógica
para dispensar a alegação de que FG = 0,95. Uma leitura fg de 0,65 pareceria
muito baixo se a caixa inteira fosse composta de 95% de contas cinzentas. o
Conclusão: É justo dizer que uma única amostra fornece algum conhecimento sobre FG.
O que pode ser aprendido com 50 amostras?

Maior conhecimento sobre GF pode ser obtido analisando mais amostras.
Suponha que outras 49 amostras sejam retiradas e o valor fg para cada amostra seja
medido. A primeira coisa que notamos é que fg varia de maneira imprevisível de amostra para
amostra. Esta forma particular de aleatório
comportamento é um dos fenômenos mais importantes em todas as estatísticas. Isso é
chamado variabilidade amostral ou variação amostral.
A variação amostral é importante porque é responsável pela incerteza nas conclusões
estatísticas. Maior variabilidade de amostragem se traduz
a uma maior incerteza. Quanto maiores as flutuações em fg de uma amostra
para o próximo , maior será a incerteza sobre o valor de FG.
Lamentavelmente, esse importante fenômeno, a variabilidade da amostragem, não é
familiar para muitas pessoas que analisam dados. Isso é compreensível porque
problemas do mundo real não oferecem o luxo de olhar para mais de um
amostra independente. A caixa-de-contas oferece essa oportunidade.
Como será visto, ao realizar 50 experimentos de amostragem, o
variação em fg torna-se óbvia. Isso é bem diferente da situação
enfrentados por pesquisadores de regras. Eles normalmente têm uma única amostra histórica de
mercado, e se todos esses dados forem usados para testar uma regra, apenas um observou
valor da estatística de desempenho é obtido. Isso não oferece oportunidade de ver como o
desempenho da regra variaria se ela fosse testada em várias amostras independentes. A
linha inferior é esta: variação de amostragem
é um fato importante que pode não ser óbvio para analistas de dados não familiarizados
com análise estatística. Este é um enorme ponto cego!
A variação amostral pode ser observada em uma tabela dos valores de 50 fg. Ver
Tabela 4.1.
TABELA 4.1 Fração de Grânulos Cinzentos em 50 Amostras Diferentes
Amostra Amostra Amostra

Número fg Número fg Número fg
1 0,65 18 0,60 35 0,60
2 0,60 19 0,40 36 0,55
3 0,45 20 0,60 37 0,50
4 0,60 21 0,45 38 0,50
5 0,45 22 0,55 39 0,45
6 0,45 23 0,45 40 0,50
7 0,55 24 0,50 41 0,55
8 0,40 25 0,70 42 0,45
9 0,55 26 0,55 43 0,55
10 0,40 27 0,60 44 0,60
11 0,55 28 0,70 45 0,60
12 0,50 29 0,50 46 0,60
13 0,35 30 0,70 47 0,65
14 0,40 31 0,50 48 0,50
15 0,65 32 0,90 49 0,50
16 0,65 33 0,40 50 0,65
17 0,60 34 0,75
Não surpreendentemente, o valor de fg, uma variável aleatória, flutua de

amostra para amostra. Este é um exemplo de acaso em operação. No entanto,
O valor de f-g não é inteiramente determinado por acaso. Seu valor também
fortemente influenciado pelo valor de FG, a proporção de contas cinzentas em
a caixa inteira.
Assim, pode-se dizer que cada valor observado de fg é o resultado de duas
influências; o fenômeno subjacente, FG, e aleatoriedade causada por
amostragem. FG atua como um centro de gravidade, sempre mantendo fg dentro de uma
certa faixa. Em algumas amostras, a aleatoriedade empurrou o valor fg acima de FG.
Em outras amostras, a aleatoriedade empurrou fg abaixo de FG. De amostra para amostra,
o valor de fg oscila aleatoriamente em torno desse centro de gravidade. este
é a variabilidade da amostragem.
Outro aspecto importante dessa situação é que o número de observações impacta
nosso nível de incerteza sobre o valor de FG. o
quanto maior o número de observações que compõem a amostra, mais precisamente o valor
fg refletirá o valor FG. Suponha que, em vez de pegar uma amostra de 20 contas, nós
pegamos uma amostra de 200 contas. A variação aleatória de
fg em torno de FG seria menor. Na verdade, seria cerca de um terço
o que é para uma amostra de 20 grânulos. Este é um ponto muito importante: quanto maior
o tamanho da amostra, menor o impacto da aleatoriedade. Duzentos
esferas amortecem a capacidade de qualquer esfera de empurrar fg para longe de FG. Dentro
uma amostra de um grânulo, o único grânulo selecionado produzirá um fg de 0

ou 1,0. Em uma amostra de duas esferas, fg pode ser 0, 0,50 ou 1,0. Em uma amostra de
três contas, fg pode ser 0, 0,33, 0,66 ou 1,0. Assim, quanto maior o tamanho da amostra,
menor será a magnitude da variação aleatória em fg. Grandes amostras
dar a FG, a verdade que desejamos conhecer, a capacidade de se revelar. Isto é
um efeito da Lei dos Grandes Números: Amostras grandes reduzem o papel de
chance. Em outras palavras, pode-se afirmar que quanto maior o tamanho de uma amostra,
mais firmemente os valores de fg se agruparão em torno do valor FG. este
é um dos princípios mais importantes da estatística.
Aprendemos um conceito importante de estatística que pode ser
declarado da seguinte forma: mesmo que o valor de FG não mude ao longo
ao longo dos 50 experimentos de amostragem, o valor fg pode variar consideravelmente
de amostra para amostra. O fenômeno é chamado de amostragem
variabilidade. Está presente sempre que uma amostra aleatória de observações é
usado para formar uma conclusão sobre um universo maior (ou seja, população).
A variabilidade da amostragem é a fonte da incerteza que é abordada
por inferência estatística.12
Distribuição de frequência da estatística da amostra fg

No experimento caixa de contas, a variável aleatória fg pode assumir 21 valores possíveis
que variam de zero, quando não há contas cinzas em uma amostra, a 1,0, quando a amostra
é composta inteiramente de contas cinzas.
Os 50 valores observados de fg são mostrados na Tabela 4.1. Um exame casual mostra
que alguns valores de fg ocorreram com maior frequência do que
outros. Valores na faixa de 0,40 a 0,65 ocorreram com bastante frequência, enquanto
valores menores que 0,40 e maiores que 0,65 quase nunca ocorreram. Nas 50 amostras
coletadas, fg assumiu o valor 0,50 nove vezes, 0,55 oito
vezes e 0,60 dez vezes. Observe que o valor 0,65, que caracterizou
a primeira amostra, apareceu apenas cinco vezes. Portanto, esse valor não estava entre os
valores mais comuns, mas não era particularmente incomum
qualquer.
Um gráfico chamado distribuição de frequência ou histograma de frequência comunica

essa informação com mais força do que palavras ou uma tabela. Ele exibe
com que frequência cada um dos valores possíveis de f-g ocorreu ao longo das 50 amostras
experimentos. O termo distribuição é adequado, porque descreve como um conjunto de
observações sobre uma variável aleatória são distribuídas ou espalhadas por todo o
intervalo de valores possíveis da variável.
Disposta ao longo do eixo horizontal da distribuição de frequência está uma sequência
de intervalos, ou bins, um para cada valor possível de fg. A altura
da barra vertical em cada intervalo representa o número de vezes que um
valor específico de fg ocorreu. A Figura 4.6 mostra a distribuição de frequência
dos valores de 50 fg.
Tamanho da Amostra = 20 Número de Amostras = 50
10
9
F 8
R
E
7
Q 6
você
E
5
N 4
C
S
3
2
1
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
f–g
FIGURA 4.6 Distribuição de Frequência: (fg).
A Equivalência de Frequência e Área
As distribuições de frequência descrevem uma relação importante entre a

frequência de um determinado valor ou conjunto de valores e a área coberta
pelas barras que representam esse valor ou conjunto de valores. Este
conceito pode ser entendido se considerarmos primeiro toda a distribuição.
Na Figura 4.6, todas as barras cinzas que compõem a distribuição de
frequência representam todos os 50 valores observados de fg. Assim, a área
coberta por todas as barras verticais corresponde a 50 observações. Você
pode verificar isso somando as contagens associadas a todas as barras
verticais. Eles vão somar 50.
O mesmo princípio se aplica a qualquer fração da área de distribuição.
Se você determinar a fração da área total da distribuição de frequência
coberta pela área de uma única barra, descobrirá que a área fracionária da
barra é igual à fração do total de observações representadas por essa barra.
Por exemplo, a barra vertical associada ao valor fg 0,60 mostra uma contagem
(frequência) de 10. Assim, a barra representa 20 por cento (10/50) dos
valores observados. Se você medisse a área coberta por essa barra vertical,
descobriria que sua área representa 0,20 da área total coberta por toda a
distribuição. Essa ideia é ilustrada na Figura 4.7.
10
Esta barra tem 0,20 do
9 total de observações
da distribuição
F 8
Esta Barra Tem 0,20 da
R
7 Área Total da Distribuição
E
Q 6
você
5
E
N 4
C
S
3
2
1
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
f–g
FIGURA 4.7 A proporção das observações é igual à proporção da distribuição em relação à
área total.
Embora essa ideia possa parecer óbvia, até trivial, é um aspecto essencial
do raciocínio estatístico. Em última análise, usaremos a área fracionária de
uma distribuição para medir a probabilidade de que os lucros do back-test de
uma regra possam ter ocorrido por acaso sob a suposição de que a regra não
tem poder preditivo. Quando essa probabilidade é pequena, somos levados à
conclusão de que a regra tem poder preditivo.
Distribuição de Frequência Relativa de fg

A distribuição de frequência relativa é semelhante à distribuição de frequência
comum discutida anteriormente. A altura de uma barra em uma distribuição
de frequência ordinária representa um número absoluto ou contagem do
número de vezes que um determinado valor de uma variável aleatória foi
observado. Na distribuição de frequência relativa, a altura de uma barra
representa o número de ocorrências observadas em relação ao (dividido por)
o número total de observações que compõem a distribuição. Por exemplo, fg
assumiu o valor 0,60 em 10 de 50 observações. Assim o valor 0,60 teve uma
frequência relativa de 10/50 ou 0,20. A barra da distribuição para o valor 0,60
seria desenhada a uma altura de 0,20 ao longo da escala vertical. Isso é

R
E 0,2
eu
0,18
UMA
T 0,16
0,14
EU
V
E 0,12
F 0,1
R
E 0,08
Q 0,06
você
E 0,04
N 0,02
C
S 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
f–g
FIGURA 4.8 Distribuição de frequência relativa: (fg).
A equivalência entre frequência e área que se aplica às distribuições de

frequências ordinárias também se aplica às distribuições de frequências relativas.
A frequência relativa de todas as barras é igual (soma) a 1,0. Isso simplesmente
diz que uma variável aleatória sempre (1,0 do tempo) assume um valor em
algum lugar no intervalo englobado por todas as barras. Se você somasse as
frequências relativas associadas a todas as barras individuais que compõem a
distribuição, elas somariam 1,0 (100 por cento das observações). Isso tem que
ser assim porque cada barra representa a fração de observações que cai nesse
intervalo e, por definição, todas as barras juntas representam todas (1,0) as
observações.
A frequência relativa de qualquer barra ou grupo de barras contíguas é
igual à sua proporção na área total da distribuição. Assim, a frequência relativa
de um valor fg de 0,65 e maior é igual a 0,10 + 0,06 + 0,02 + 0,02 = 0,20. Isso
equivale a dizer que a área combinada das barras contíguas associadas a
valores de fg de 0,65 e maiores é 20% da área total da distribuição. Faremos
declarações semelhantes a esta ao testar afirmações sobre as regras de AT.
Com base nisso, pode-se dizer que a frequência relativa de valores de fg iguais
ou superiores a 0,65 é 0,20. Isso é ilustrado na Figura 4.9.

R
E 0,2
eu
0,18
UMA
0,16 Frequência
T
Relativa f–g
0,14
EU
V = ou > 0,65 É 0,20

E 0,12
F 0,1
R
E 0,08
Q 0,06
você
E 0,04
N 0,02
C
S 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
f–g
FIGURA 4.9 Distribuição de frequência relativa: (fg).
Que conhecimento foi obtido sobre FG a

partir da amostragem?
Até agora, a amostragem aumentou nosso nível de conhecimento sobre GF. Na
primeira amostra de 20 contas, fg teve um valor de 0,65. Com base nessa
observação, duas possibilidades foram conclusivamente descartadas: que FG seja
igual a 0 e que FG seja igual a 1,0.
Não se contentando com esses míseros bocados de sabedoria, outras 49
amostras foram coletadas, e o valor fg foi observado em cada uma delas. Esses
50 valores mostraram que fg varia aleatoriamente de amostra para amostra. No
entanto, apesar da imprevisibilidade de qualquer valor fg único, um padrão
organizado emergiu da aleatoriedade que era informativo. Os valores fg
coalesceram em torno de um valor central formando uma corcova bem organizada.
Suspeitamos que essa tendência central esteja relacionada ao valor FG, mas o
valor preciso de F-G permanece incerto por causa da variação aleatória em fg. No
entanto, à luz da largura relativamente estreita da corcova, parece razoável
conjecturar que FG está em algum lugar na faixa de 0,40 a 0,65.
Dado que começamos sem nenhum conhecimento do GF e que fomos
impedidos de examinar o conteúdo da caixa em sua totalidade, muito se aprendeu
com essas 50 amostras.

R
E 0,3
eu
UMA
0,25
T
EU
V 0,2
E
F 0,15
R
E
Q
0,1
você
E 0,05
N
C
S 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
fg
FIGURA 4.10 Caixa de distribuição de frequência relativa 2: (fg).
Uma segunda caixa de miçangas
Agora vamos usar a amostragem para aprender as proporções de cores de uma segunda
caixa de contas. Também é uma mistura de cinza e branco. O objetivo é o mesmo:
aprender a proporção relativa de contas cinzentas em relação ao número total de contas
em uma segunda caixa. Chamamos essa quantidade de FG 2.
Como antes, não podemos examinar todo o conteúdo da caixa 2, mas podemos
colher 50 amostras, cada uma composta por 20 contas. O valor fg 2, que se refere à
proporção de grânulos cinzas em uma amostra da caixa 2, é medido em cada amostra.
Novamente, observe a distinção entre os termos FG 2 e fg 2. FG 2 refere-se à proporção
de grânulos cinzas em toda a caixa 2, enquanto fg 2 se refere à proporção de grânulos
cinzas em uma amostra individual. FG 2 não é observável enquanto fg 2 é.
A Figura 4.10 é a distribuição de frequência relativa para 50 valores de fg 2.

Há várias coisas a serem observadas:
1. A forma geral da distribuição da caixa 2 é semelhante à da caixa

1, um agrupamento de corcunda em torno de um valor central.
2. O valor central da distribuição para a caixa 2 é diferente do da caixa 1. A distribuição para a

caixa 1 foi centralizada perto de um valor de 0,55.
O valor central para a distribuição da caixa 2 é próximo de 0,15. Isso é claramente
visto na Figura 4.11, que mostra ambas as distribuições na mesma escala

horizontal. Uma seta foi colocada acima de cada distribuição em seus valores
centrais aproximados. Assim, as setas representam valores médios para fg e
fg 2. A partir disso, podemos concluir que a caixa 1 tem uma concentração
maior de contas cinzentas do que a caixa 2.
3. Embora as amostras da caixa 1 e da caixa 2 tenham sido afetadas pela variação
aleatória, o grau de variação aleatória difere. Os resultados da caixa 2 são
menos variáveis do que os da caixa 1. Isso é evidenciado pelo agrupamento
mais estreito da caixa 2 em torno de seu valor central. Dado o menor grau de
variação amostral na caixa 2, seria justo dizer que conhecemos o valor de FG
2 com maior certeza do que conhecemos FG.
O que os experimentos de caixa nos

ensinaram sobre estatísticas
Yogi Berra, ex-gerente do New York Yankees, disse que você pode observar muito
só de olhar. Se ele fosse um estatístico, ele poderia ter dito que você pode aprender
muito apenas por amostragem. Mesmo que uma amostra seja apenas uma porção
de um universo maior (população), ela pode nos ensinar muito sobre aquele pop
Caixa 2
R
E 0,3
eu
UMA
0,25 Caixa 1
T
EU
V 0,2
E
F 0,15
R
E
Q
0,1
você
E 0,05
N
C
S 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
f–g
FIGURA 4.11 Comparação das distribuições de frequência relativa.
ulação. No entanto, há limites para o que uma amostra pode nos dizer, limites impostos pela
aleatoriedade.
Uma tarefa fundamental da estatística é quantificar a incerteza devido à variabilidade da
amostragem. Isso torna possível quantificar a confiabilidade das declarações de conhecimento
com base em amostras. Sem essa quantificação, tais declarações têm valor limitado. A
estatística não pode eliminar a incerteza, mas pode nos informar sobre ela e, ao fazê-lo,
modera as avaliações de quanto sabemos ou com que precisão o sabemos. Assim, a análise
estatística é um poderoso antídoto para a tendência ao excesso de confiança.
TEORIA ESTATÍSTICA
Os experimentos da caixa de contas tocaram em muitas das ideias-chave da inferência

estatística. Vamos agora misturar alguma teoria para estender essas ideias à avaliação das
regras de AT.
Os seis elementos de uma estatística

Problema de inferência
Avaliar uma afirmação de que uma regra de AT tem poder preditivo, que uma nova vacina
pode prevenir doenças ou qualquer outra afirmação de conhecimento são exemplos de um
problema de inferência estatística. Geralmente, tais problemas podem ser reduzidos a seis
elementos-chave: (1) uma população, (2) uma amostra consistindo de um conjunto de
observações selecionadas aleatoriamente da população, (3) um parâmetro populacional, (4)
uma estatística amostral , (5) uma inferência e (6) uma afirmação sobre a confiabilidade da
inferência. Cada um desses elementos será discutido à medida que se relaciona com os
experimentos da caixa de contas e, em seguida, com a avaliação das regras de AT.
A população. Uma população consiste em todas as observações possíveis de uma variável

aleatória. É um grande – talvez infinitamente grande – mas um universo de observações bem
definido. No problema típico de inferência estatística, queremos aprender algum fato sobre a
população, mas é impraticável ou impossível observar a população em sua totalidade. Nos
experimentos de caixa de contas, a população consistiu no conjunto de contas que preenchiam
uma caixa.
A cor foi a variável aleatória. Com relação ao teste de uma regra de AT, a população consiste
em todos os retornos diários concebíveis13 que seriam ganhos pelo sinal da regra no futuro
prático imediato.
A que se refere o termo futuro prático imediato ? Não seria razoável supor que a dinâmica
dos mercados financeiros seja estacionária e, portanto, não seria razoável esperar que a
lucratividade dos
uma regra durará para sempre. Por esta razão, a população com respeito às regras de AT
não pode se referir a retornos que ocorrem em um futuro infinito.
Uma noção mais razoável é o que chamo de futuro prático imediato. O futuro prático
imediato refere-se a um período de tempo futuro finito, sobre o qual seria razoável esperar
que uma regra útil
que a lucratividade persista, mesmo que os mercados sejam não estacionários. Qualquer
esforço para encontrar padrões preditivos deve fazer alguma suposição sobre o
continuidade do poder preditivo. Em outras palavras, a menos que alguém esteja disposto a
assumir alguma persistência no poder preditivo, todas as formas de AT são inúteis.
A suposição feita aqui é que uma regra continuará a funcionar por muito tempo
suficiente para compensar o pesquisador pelo esforço de descobri-lo. este
é consistente com a posição assumida por Grossman e Stiglitz em “On the
impossibilidade de mercados informacionalmente eficientes.”14 Também é consistente
com a ideia de que regras lucrativas sinalizam oportunidades para ganhar um prêmio de
risco,15 um tópico discutido no Capítulo 7.
Portanto, o futuro prático imediato refere-se a todas as possíveis realizações aleatórias
do comportamento do mercado em um futuro finito. É como se houvesse
eram um número infinito de universos paralelos, onde todos os universos são uma
duplicata exata, exceto pelo componente aleatório do comportamento do mercado. Em cada
realização, ou universo, o padrão que responde pela regra
a lucratividade é a mesma, mas o componente aleatório do mercado é diferente. Essa ideia é
ilustrada na Figura 4.12.
Número infinito de
Universos paralelos
$ n m Aleatória 6
Realização
Vender d m Aleatória
Realização li 5eu 5
n
Realização Aleatória 4
n
Realização 3 3
Aleatória
uma m Aleatória 2
Realização uma
Realização
o
uma R
Aleatória 1
Comprar
Imediato Tempo
Histórico Futuro prático
Amostra
Agora
para back-testing
FIGURA 4.12 Diferentes realizações de aleatoriedade em uma infinidade de paralelos

universos.
A amostra. A amostra é um subconjunto da população que está disponível

para observação. No caso da caixa de contas, pudemos observar 50 em amostras
dependentes. No caso de uma regra TA, normalmente observamos um único
amostra do desempenho da regra fazendo um backtesting em um segmento do histórico
de mercado. Esta amostra é composta por uma sequência de retornos diários gerados
pelos sinais da regra. A sequência de retornos é reduzida a um único
número, uma estatística de desempenho de amostra.
O Parâmetro Populacional. O parâmetro populacional é um fato ou

característica sobre a população que gostaríamos de conhecer. É tipicamente numérico, mas
não precisa ser.
Infelizmente, o parâmetro populacional é desconhecido porque toda a população
não pode ser observada. A essência da inferência estatística é
a tentativa de aumentar nosso conhecimento sobre um parâmetro populacional, apesar
da impossibilidade de observar a população em sua totalidade. No
caso caixa de miçangas, o parâmetro populacional de interesse foi a fração
de contas cinzentas na caixa (ou seja, FG e FG 2). No caso de uma regra TA, o
parâmetro populacional é o desempenho esperado da regra no futuro prático imediato.
O desempenho pode ser definido de várias maneiras. Algum
medidas comuns incluem taxa média de retorno, índice de Sharpe, fator de lucro e assim
por diante. Neste livro, nossa medida de desempenho é o retorno diário médio anualizado
sobre os dados de mercado de tendência (zero-centrado).
Em muitos problemas estatísticos, é seguro assumir que o parâmetro populacional
nunca muda (ou seja, é uma constante). No experimento da caixa de contas, a proporção
de contas cinzentas permaneceu constante. Estatística
problemas em que o parâmetro populacional permanece fixo são ditos
estacionária.16 Agora imagine uma ruga nessa situação. Suponha, sem o conhecimento
do experimentador, que um demônio invisível remova ou
adiciona contas cinzentas entre as amostragens. Agora o parâmetro populacional, FG,
é instável ou não estacionário.”17
No início deste capítulo, eu disse que é melhor começar com uma suposição
que qualquer regra que testamos não tem poder preditivo. Ou seja, assumimos que
tem um retorno esperado igual a zero. Ou, para colocar em termos estatísticos, o
parâmetro populacional é assumido igual a zero.
A estatística de amostra. Uma estatística de amostra é um atributo mensurável de

uma amostra.18 Seu valor é conhecido porque foi observado. Neste livro,
o termo estatística de amostra é restrito a fatos numéricos, por exemplo, um
proporção, uma porcentagem, um desvio padrão, uma taxa média de retorno, um
média aparada,19 um índice de Sharpe e assim por diante. Em uma inferência estatística
No problema, a estatística amostral normalmente se refere ao mesmo atributo mensurável
que o parâmetro populacional. No caso da caixa-de-contas, o
estatística da amostra, fg, referida à fração de contas cinzentas em um indivíduo
amostra. O parâmetro populacional, FG, refere-se à fração de grânulos cinzas

em toda a caixa.
A conclusão é esta: uma estatística amostral é importante porque esclarece
o parâmetro populacional. Além disso, é um fato sem importância particular.
Alguns historiadores do mercado parecem ignorar essa verdade essencial.
Se um backtest resultar em uma taxa de retorno positiva, ele levanta a

seguinte questão: o desempenho positivo é um desvio aleatório acima de zero
devido à variabilidade da amostragem ou é atribuível ao poder preditivo da
regra (ou seja, a regra tem um valor esperado? retorno maior que zero)?
Responder a esta pergunta requer as ferramentas de inferência estatística.
Uma Inferência. A inferência estatística é o salto indutivo do valor observado

de uma estatística amostral, que é conhecido com certeza, mas que é
verdadeiro apenas para uma amostra específica de dados, para o valor de um
parâmetro populacional, que é incerto, mas que é considerado válido. vale para
um grande, talvez infinito, número de casos não observados.
Quando o desempenho passado positivo de uma regra pode ser
razoavelmente atribuído à variabilidade da amostragem, a inferência razoável
é que seu retorno esperado no futuro prático imediato é zero ou menos. No
entanto, se o desempenho positivo for muito alto para ser razoavelmente
atribuído à variabilidade amostral (sorte), a inferência razoável seria que a
regra possui um poder preditivo genuíno e tem um retorno esperado positivo
no futuro prático imediato.
Retorno
esperado ????
Estatística de amostra
Retorno Médio = +10%
Imediato
Passado observável Futuro prático
Tempo
Data de Data de
Mais antigo Mais recente
Dados Dados
FIGURA 4.13 O valor do parâmetro é maior que zero?

Uma declaração sobre a confiabilidade da inferência. Como uma amostra não pode
representar a população perfeitamente, as inferências baseadas em uma estatística amostral
estão sujeitas a incertezas. Em outras palavras, é possível que a inferência esteja errada. Já
vimos como as estatísticas amostrais variam aleatoriamente em torno do valor real do valor
do parâmetro populacional.
A ciência da estatística vai além de simplesmente admitir que suas inferências são incertas.
Ele quantifica sua confiabilidade. Isso torna as conclusões estatísticas consideravelmente
mais úteis do que aquelas alcançadas por métodos informais que não fornecem tais
informações.
A inferência pode estar errada de duas maneiras. Um erro é concluir que a regra tem
poder preditivo quando não tem. Este é um caso de boa sorte brilhando em uma regra inútil.
Esse tipo de erro se traduz em assumir riscos de mercado que não serão compensados. O
outro erro é concluir que a regra não tem capacidade preditiva quando realmente tem. Esse
erro resulta em oportunidades de negociação perdidas.
ESTATÍSTICAS DESCRITIVAS
O campo da estatística subdivide-se em duas áreas principais: descritiva e inferencial. O

mais importante para AT é a inferência estatística, que foi discutida nas seções anteriores.
No entanto, antes de fazer uma inferência, devemos descrever os dados da amostra de
forma sucinta e informativa.
As ferramentas da estatística descritiva atendem a esse propósito.
O objetivo da estatística descritiva é a redução de dados, ou seja, reduzir um grande
conjunto de valores observados a um conjunto menor e mais inteligível de números e gráficos.
As estatísticas descritivas contam a história da floresta e não das árvores individuais. Três
ferramentas descritivas serão importantes para o trabalho que está por vir: (1) distribuições
de frequência, (2) medidas de tendência central e (3) medidas de variação.
Distribuições de frequência
As distribuições de frequência já foram discutidas em conexão com os experimentos da caixa
de contas. Eles foram usados para reduzir um conjunto de 50 observações sobre a variável
aleatória fg em um gráfico informativo.
Com apenas 50 observações, pode-se formar uma impressão geral dos dados
simplesmente olhando para uma tabela de números. Por outro lado, se o número de
observações fosse 500 ou 5.000, uma tabela não seria tão formativa quanto uma distribuição
de frequência.
Traçar uma distribuição de frequência é geralmente o primeiro passo na análise de uma
conjunto de dados. Ele fornece uma impressão visual rápida de duas características principais de um
amostra de observações: a tendência central (por exemplo, valor médio) e a
grau de dispersão ou variação em torno do valor central. Por exemplo,
A Figura 4.11 mostrou que as duas caixas de contas tinham diferentes valores centrais e
diferentes graus de dispersão.
Uma impressão visual de uma amostra é útil, mas a quantificação melhora
assuntos. Para nossos propósitos, precisaremos quantificar duas características do
distribuição de frequência: sua tendência central e sua variabilidade ou dispersão em torno de
sua tendência central.
Estatísticas que medem a tendência central

Existem muitas medidas de tendência central. Três dos mais comuns
são a média, a mediana e a moda. A média, também conhecida como
a média aritmética, é usado em muitas aplicações de TA e é o resumo
estatística usada neste livro. É a soma dos valores observados dividido por
o número de observações.
É importante distinguir a média populacional da amostra
significa. A média amostral é uma estatística, uma quantidade conhecida que é calculada a
partir de valores observados e varia aleatoriamente de uma amostra para outra.
nas próximas. A média populacional, ao contrário, é desconhecida e não
variam em problemas estacionários. A fórmula para a média de uma amostra é
dado na Figura 4.14 em duas formas.
Média da amostra para a variável X
+ +x3n
x1 x2 + _ . . .xn
x=
n
ÿ XI
x=
eu = 1
n
Onde xi é uma observação individual na variável X
FIGURA 4.14 Média da amostra para a variável X.

Medidas Estatísticas de Variabilidade (Dispersão)

As medidas de variabilidade descrevem o grau em que as observações em um
amostra estão dispersos em torno de sua tendência central. Em outras palavras, as medidas de
variabilidade quantificam a largura de uma distribuição de frequência.
Entre as medidas de dispersão amplamente utilizadas estão a variância, a
desvio absoluto médio e desvio padrão. Eles são importantes
na abordagem tradicional da estatística (isto é, estatística clássica). O desvio padrão é a raiz
quadrada do desvio quadrado médio de cada
observação a partir da média dos dados. A fórmula para o desvio padrão de uma amostra é
mostrada na Figura 4.15.
Uma noção intuitiva de dispersão é melhor transmitida com imagens. A Figura 4.16 mostra
várias distribuições de frequência idealizadas com diferentes graus de variação e diferentes
tendências centrais. Eles são
idealizado no sentido de que a aparência de escada que caracteriza as distribuições de
frequência reais foi suavizada. O ponto chave da Figura
4.16 é que a tendência central e a variação (dispersão) são independentes
características de uma distribuição de frequência. Na linha 1 da Figura 4.16, o
quatro distribuições têm o mesmo grau de variação, mas diferentes
valores. Na linha 2 as distribuições têm o mesmo valor central, mas diferentes
graus de variação. Na linha 3 todas as distribuições têm diferentes valores centrais e diferentes
graus de variação.
Desvio Padrão de uma Amostra de Observações
s= ÿ Xi ( )2X–
n
Onde:
X eu
É uma observação individual na variável X
X É a média amostral na variável X
n É o número de observações na amostra
FIGURA 4.15 Desvio padrão de uma amostra de observações.

Mesmo grau de dispersão, mas meios diferentes
0 5 10 15
Meios iguais, mas diferentes graus de dispersão
Diferentes meios e diferentes graus de dispersão
FIGURA 4.16 Tendência central e dispersão são atributos distintos de uma distribuição.
PROBABILIDADE
A noção de probabilidade é importante em estatística porque é usada para

quantificar a incerteza. Uma conclusão alcançada por meio de inferência estatística é
incerta; ou seja, há uma chance de erro. Assim, uma inferência sobre a
valor de um parâmetro populacional tem alguma chance de estar errado. este
chance é dada em termos de uma probabilidade.
Usamos rotineiramente noções informais de probabilidade para formar expectativas
e fazer escolhas. A pessoa que eu acho tão maravilhosa agora, provavelmente permanecerá
então depois do casamento? Qual é a chance de eu encontrar ouro se eu cavar um certo
ver? É provável que eu me sinta realizado seguindo a carreira de advogado? Eu devo
comprar essa ação e, se eu fizer isso, quanto lucro provavelmente obterei?
O uso informal de probabilidade está ligado a um conjunto de termos intercambiáveis
ilustrados na Figura 4.17.
Para nossos propósitos, algo mais definitivo é necessário. A definição de probabilidade
que faz mais sentido para o trabalho que está por vir
baseia-se na noção de frequência relativa. A frequência relativa de um
evento é o número de vezes que o evento realmente ocorreu dividido pelo número total de
oportunidades nas quais o evento poderia ter ocorrido. A frequência relativa é dada como
uma fração entre 0 e 1. Pode chover a cada
Incerteza
Risco Chance
Probabilidade
Sorte Probabilidade
Aleatório
FIGURA 4.17 Noções comuns de probabilidade.
dia, mas no mês de abril a frequência relativa de chuva foi de 0,366 (11 em 30
dias). Se a chuva nunca ocorresse, então sua frequência relativa seria 0. Se a
chuva ocorresse todos os dias, sua frequência relativa seria 1,0.
Assim, a frequência relativa de um resultado é igual a:
Número de ocorrências de um evento
Número de oportunidades possíveis para o evento ocorrer
No experimento da caixa de contas, o valor de fg foi medido 50 vezes. Este

foi o número máximo de oportunidades para que qualquer valor fg específico
ocorresse. De fato, o valor fg = 0,65 ocorreu em 5 de 50. Portanto, teve uma
frequência relativa de 5/50 ou 0,10.
Probabilidade é a frequência relativa de um evento no longo prazo – o muito
longo prazo. Ou seja, a probabilidade de um evento é sua frequência relativa de
ocorrência, dado um número infinito de oportunidades para sua ocorrência. A
probabilidade é indicada como um número que se encontra no intervalo de 0 a 1
inclusive. Um valor de probabilidade de 0 significa que o evento nunca ocorre,
enquanto um valor de 1,0 significa que sempre ocorre.
A probabilidade é uma noção teórica porque nunca é possível observar um
número infinito de qualquer coisa. Para fins práticos, entretanto, quando o
número de observações se torna muito grande, a frequência relativa se aproxima
da probabilidade teórica.
A Lei dos Grandes Números

A tendência das frequências relativas de convergir para as probabilidades
teóricas, à medida que o número de observações se torna grande, é chamada
de Lei dos Grandes Números.20 A operação da Lei dos Grandes Números pode
ser ilustrada com o lançamento de uma moeda. Os resultados possíveis (eventos)
são cara ou coroa e a probabilidade de cara é 0,50. A Lei nos diz que o
a frequência relativa de caras convergirá para seu valor teórico, 0,5, à medida que o
número de lançamentos de moedas se tornar grande. No entanto, mesmo para um grande
número de lançamentos, um desvio de 0,50 ainda pode ocorrer, embora o tamanho
provável dos desvios diminua à medida que o número de lançamentos aumenta. Para
amostras pequenas, no entanto, a Lei dos Grandes Números nos adverte que a frequência
relativa de caras pode diferir substancialmente de 0,50. Quando o número de lançamentos
é de apenas três, um valor de 1,0 pode ocorrer facilmente – três caras em três lançamentos.
A Figura 4.18 mostra a fração de caras em um experimento de lançamento de moeda

à medida que o número de lançamentos cresce de um para mil. Quando o número de
lançamentos (observações) é inferior a 10, a fração de caras experimentou dois grandes
desvios de 0,50. Em 3 lançamentos a fração de caras atingiu 0,66 (2 de 3). Em 8, a fração
era 0,375 (3 em 8). No entanto, à medida que o número de lançamentos aumentou, a
variável aleatória, cabeças de fração, experimentou desvios progressivamente menores
em relação ao valor esperado de 0,50.
Isso é exatamente o que a Lei dos Grandes Números prevê.
Agora imagine um lançador de moedas ingênuo. Ao observar cinco caras em cinco
lances, ele proclama em voz alta: “Encontrei o santo graal das moedas. Sempre vem à
tona.” A Lei dos Grandes Números diz que o otimismo do pobre é injustificado. É provável
que isso também seja verdade para o pesquisador de AT que encontra uma regra com
cinco sinais históricos, todos corretos. O otimismo é provavelmente injustificado. O Capítulo
6 mostrará que se essa regra foi selecionada porque era a regra de melhor desempenho
de um grande universo de regras testadas, ou seja, foi descoberta por mineração de dados,
haveria ainda menos motivos para ser otimista sobre seu desempenho futuro.
F
1,0
R
UMA
C 0,80
T
EU
0,60
O
N 0,50
0,40
H 0,20
E
UMA
0
D
1 10 100 1.000
S
Número de lançamentos de moedas (escala logarítmica)
FIGURA 4.18 Lei dos Grandes Números.

Probabilidade Teórica versus Empírica

Existem dois tipos de probabilidades: teóricas e empíricas. “Probabilidades teóricas podem
ser determinadas com um bom grau de confiança puramente em bases lógicas. Eles são
derivados independentemente de
experiência, na maioria das vezes baseada em argumentos de simetria” .
palavras, elas podem ser deduzidas sem qualquer referência ao mundo da experiência. A
probabilidade de uma cara no lançamento de uma moeda é uma probabilidade teórica. Não
há necessidade de jogá-lo dez mil vezes para prever que mais
a longo prazo, a probabilidade de cara é 0,50. Simplesmente o fato de
moeda é honesta, tem duas faces e é improvável que caia em sua
borda é motivo suficiente para suspeitar que cara e coroa são igualmente
provável. As probabilidades de receber um royal flush no pôquer, a ocorrência de um seis
em um lançamento de dados e a chance de ganhar na loteria também são
teórico porque cada um pode ser determinado por uma análise lógica do
situação.
As probabilidades empíricas são baseadas em frequências observadas. A análise
técnica se preocupa com esse tipo de probabilidade. A chance de
nova queda de neve no Monte Hood durante o mês de julho ou a probabilidade
de um aumento no mercado de ações após uma queda de 2 por cento nas taxas de juros
são exemplos de probabilidades empíricas. Eles só podem ser determinados
observando numerosas instâncias passadas das condições especificadas
(Monte Hood em julho), e determinar a frequência relativa do
evento (neve nova).
Ao determinar probabilidades empíricas, é de vital importância
que cada instância seja caracterizada pelo mesmo conjunto de condições. Em AT
isso é uma impossibilidade prática. Cada instância passada de uma queda de 2%
nas taxas de juros é semelhante em relação a essa condição específica, mas
existem inúmeras outras condições que podem não ser as mesmas. Por exemplo, o nível
das taxas de juros antes da queda de 2% pode diferir
de observação em observação. Em um caso, as taxas de juros estavam em
5 por cento antes da queda, enquanto em outro eram 10 por cento. Do
É claro que o nível das taxas de juros poderia ser adicionado ao conjunto de condições que
definem cada instância, mas isso tem o lado negativo de reduzir
o número de instâncias comparáveis. Além disso, sempre haverá
outras condições que não fazem parte do conjunto de condições especificado. A incapacidade
de controlar todas as variáveis potencialmente relevantes é um fato lamentável
da vida em ciências não experimentais/observacionais. Em contraste, o cientista experimental
goza da suprema vantagem de ser capaz de manter
constante todas ou quase todas as variáveis relevantes, exceto a que está sendo investigada.
Imagine poder fazer isso no TA! me disseram que é assim que é em
a vida após a morte.
DISTRIBUIÇÕES DE PROBABILIDADE DE VARIÁVEIS ALEATÓRIAS
Uma distribuição de probabilidade mostra com que frequência podemos esperar que as diferentes
valores possíveis de uma variável aleatória ocorrer (ou seja, suas frequências relativas). A
distribuição de probabilidade de uma variável aleatória é uma distribuição de frequência relativa
construída a partir de um número infinito de observações.
O conceito de distribuição de probabilidade pode ser entendido por
pensando em uma sequência de distribuições de frequência relativa, cada uma construída
de um número crescente de observações e progressivamente mais estreitas
compartimentos ou intervalos. Gradualmente, a distribuição de frequência relativa torna-se
uma distribuição de probabilidade. Com o aumento do número de observações,
intervalos mais discretos de largura decrescente podem ser criados.
o número de observações se aproxima do infinito, o número de intervalos se aproxima do infinito
e suas larguras diminuem para zero. Assim, a distribuição de frequência relativa se transforma no
que é chamado de distribuição de probabilidade, mais tecnicamente referido como uma função
de densidade de probabilidade.23
As Figuras 4.19 a 4.23 mostram como uma distribuição de frequência relativa

evolui para uma função de densidade de probabilidade à medida que o número de intervalos é
aumentado e suas larguras de intervalo são diminuídas. A altura de cada
bar representa a frequência relativa de eventos que se enquadram no intervalo da barra. Os
números presumem que a variável aleatória é uma medida de
mudança de preço.
Esta sucessão de diagramas mostra que uma função de densidade de probabilidade
é, com efeito, uma distribuição de frequência relativa composta por um número infinito de
observações cujos intervalos são infinitamente estreitos. Aqui é onde
as coisas ficam um pouco estranhas. Se os intervalos de uma distribuição de probabilidade
Relativo
Frequência
Intervalos de Mudança de Preço
FIGURA 4.19 Distribuição de frequência relativa baseada em cinco intervalos.

Relativo
Frequência
FIGURA 4.20 Distribuição de frequência relativa baseada em sete intervalos.
Relativo
Frequência
FIGURA 4.21 Distribuição de frequência relativa baseada em quinze intervalos.
Relativo
Frequência
FIGURA 4.22 Distribuição de frequência relativa baseada em vinte e nove intervalos.

Probabilidade
Densidade
Sem intervalos específicos
FIGURA 4.23 Função densidade de probabilidade.
largura zero, então há zero observações por intervalo. Isso parece não fazer sentido!
No entanto, é bastante comum que os conceitos matemáticos estejam em desacordo
com o senso comum. Na geometria, um ponto tem localização, mas não ocupa espaço
(isto é, comprimento, largura e largura são iguais a zero), uma linha tem comprimento,
mas largura zero, e assim por diante.
O fato de um intervalo ter zero observações tem uma estranha implicação – a
probabilidade de que qualquer valor único de uma variável aleatória contínua ocorra é
igual a zero. Por esse motivo, só faz sentido falar da probabilidade de uma variável
aleatória assumir um valor dentro de um intervalo de valores especificado. Em outras
palavras, faz sentido falar da probabilidade de uma variável aleatória assumir um valor
entre os valores mínimo e máximo especificados. Também faz sentido falar da
probabilidade de uma variável aleatória assumir um valor igual ou maior que algum
valor especificado ou menor ou igual a um valor especificado. Por exemplo, podemos
falar da probabilidade de ocorrer um valor de 3,0 ou maior. No entanto, não faria sentido
falar da probabilidade de um valor de exatamente 3,0,24
Essa ideia um tanto contraintuitiva se encaixa perfeitamente com o teste de regras.

Ao testar a significância estatística da taxa de retorno passada de uma regra, estaremos
preocupados com a probabilidade de que uma taxa de retorno de +10% ou mais possa
ter ocorrido por acaso sob a condição de que a regra não tenha poder preditivo. As
funções de densidade de probabilidade podem fornecer essas informações.
RELAÇÃO ENTRE PROBABILIDADE E

ÁREA FRACIONADA DA DISTRIBUIÇÃO DE PROBABILIDADE
Vamos recapitular o que foi estabelecido até aqui:
1. A probabilidade de um evento é sua frequência relativa de ocorrência dado um número

infinito de instâncias em que o evento poderia ter ocorrido.
2. Uma função de densidade de probabilidade é uma distribuição de frequência relativa

construída a partir de um número infinito de observações e intervalos de largura zero.
3. A frequência relativa de uma variável aleatória que assume um valor dentro de um

determinado intervalo é igual à área fracionária da distribuição de frequência situada
no topo desse intervalo. Consulte a Figura 4.24.
Estamos agora prontos para dar o passo final nesta sequência de pensamento. É
análogo ao ponto 3 na lista anterior, exceto que o termo distribuição de frequência relativa é
substituído por função de densidade de probabilidade. A probabilidade de uma variável
aleatória contínua assumir um valor dentro de um intervalo especificado é igual à fração da
função densidade de probabilidade
Barras Representam 0,344 da

Área Total da Distribuição
0,312
0,234 0,234
Relativo
Frequência
0,091 0,091
0,019 0,019
Valores de Aleatório
Variável
Frequência relativa de
um valor neste intervalo = 0,344
FIGURA 4.24 A correspondência de frequência relativa e área fracionária de uma

distribuição.
ção englobada por (sentado acima) desse intervalo. Este conceito é ilustrado na
Figura 4.25. Mostra a probabilidade de X, uma variável aleatória contínua, assumir
um valor dentro do intervalo AB igual a 0,70.
Em muitos casos, o intervalo em questão refere-se ao extremo ou cauda da
distribuição. Por exemplo, a Figura 4.26 mostra a probabilidade de que a variável
aleatória X assuma um valor de B ou maior. A probabilidade é 0,15.
A distribuição de probabilidade de uma variável aleatória é um conceito muito

útil. Mesmo que uma observação individual futura na variável aleatória X não seja
previsível, um grande número de observações forma um padrão altamente
previsível. Esse padrão é a função densidade de probabilidade da variável aleatória.
Agora, aqui é onde essas idéias começam a se juntar para nós. O Capítulo 5
mostrará que quando uma hipótese é representada pela distribuição de
probabilidade de uma variável aleatória, poderemos usar um valor observado da
variável aleatória para testar a veracidade da hipótese. Isso nos permitirá concluir
se a lucratividade testada a posteriori de uma regra foi devido à sorte ou poder
preditivo genuíno.
A distribuição de probabilidade utilizada para este fim é de um tipo específico.
Ela é chamada de distribuição amostral – talvez a mais importante em todas as
estatísticas e certamente a mais importante para os analistas de AT.
P
R
O D
B E
UMA N Área Acima do
B S Intervalo AB é
EU
EU 0,70 da
eu T Área Total da
EU
S Distribuição
T
S
UMA B
Faixa de Variável Aleatória X

FIGURA 4.25 A variável aleatória de probabilidade X assumirá um valor entre A e B
igual à fração da área total da distribuição acima do intervalo A,B.
P
R
O D
B E
UMA N
B S
EU
EU
Fração de
eu T Distribuição
EU
S Além de “B” = 0,15 de
T Área
S
0,15
Faixa de Variável Aleatória X

FIGURA 4.26 A variável aleatória de probabilidade X assumirá um valor igual ou maior
que B igual à fração da área total da distribuição igual ou maior que B.
A DISTRIBUIÇÃO DE AMOSTRAGEM: O MAIS IMPORTANTE

CONCEITO EM INFERÊNCIA ESTATÍSTICA
Para recapitular:
1. Uma variável aleatória é o resultado de um experimento de probabilidade.
2. Tomar uma amostra de um determinado número de observações de uma população e

calcular o valor de uma estatística, como a média da amostra, é um experimento de
probabilidade.25
3. Uma estatística amostral26 é uma variável aleatória no sentido de que flutua imprevisivelmente
de uma amostra de observações para outra. A estatística da amostra flutua aleatoriamente
porque o acaso determina quais observações específicas terminam em uma determinada
amostra, e é esse conjunto particular de observações que determina o valor da estatística
para essa amostra. No experimento da caixa de contas, o valor fg variou aleatoriamente de
uma amostra de 20 contas para a próxima porque o conjunto particular de contas que
acabou em uma determinada amostra foi determinado por acaso.
4. Uma distribuição de frequência relativa descreve a frequência com que os valores possíveis
de uma variável aleatória ocorrem em um número muito grande de observações.
Já estamos prontos para atender a distribuição amostral, o mais importante

conceito importante em inferência estatística.
A Distribuição de Amostragem Definida

A distribuição amostral é a distribuição de probabilidade de uma variável aleatória, e essa
variável aleatória é uma estatística amostral. Em outros
palavras, a distribuição amostral mostra os vários valores possíveis que o
estatística amostral pode assumir, e suas probabilidades associadas.27 Por exemplo, “a
distribuição amostral da média amostral refere-se à probabilidade
distribuição de todas as médias possíveis para todas as amostras aleatórias possíveis de um
determinado tamanho de alguma população.”28 Aqui, a estatística amostral é a média.
A estatística da amostra nos experimentos da caixa de contas foi fg. Sua variação
aleatória em 50 amostras, cada uma composta por 20 contas, foi mostrada
pela distribuição de frequência relativa na Figura 4.8. Se, em vez de 50 valores
deveríamos pegar todas as amostras possíveis de 20 contas - um número muito grande - isso
a distribuição teórica seria a distribuição amostral de f-g.
No teste de regra, a estatística da amostra é uma medida de desempenho
observado em um teste de costas. Neste livro, essa estatística de amostra será a regra
taxa média de retorno. Um teste de retorno normalmente produz um único
valor para a estatística de desempenho porque temos uma única amostra de
história do mercado. Agora imagine como seria se pudéssemos testar
uma regra em um número infinito de amostras independentes da história do mercado.
Isso forneceria um número infinito de valores para a estatística de desempenho. Se esse
conjunto de dados fosse então convertido em uma distribuição de frequência relativa, seria a
distribuição amostral exata da estatística. Isto é
obviamente não é possível porque não temos um número infinito de amostras independentes
de dados históricos. No entanto, os estatísticos desenvolveram
vários métodos para obter algo que se aproxime da amostragem exata
distribuição suficientemente próxima para ser útil, apesar de termos apenas
uma amostra de dados históricos e um valor da estatística amostral. Dois de
esses métodos serão discutidos mais adiante neste capítulo.
A Distribuição da Amostragem Quantifica a Incerteza

A distribuição amostral de uma estatística é a base da inferência estatística porque quantifica
a incerteza causada pela aleatoriedade de
amostragem (variabilidade amostral).
Como dito acima, a distribuição amostral exibe as frequências relativas de uma
estatística se ela fosse medida em um número infinito de
amostras aleatórias do mesmo tamanho, retiradas da mesma população-mãe. Os
experimentos da caixa de contas mostraram que o valor de uma estatística, fg
flutuaram aleatoriamente de amostra para amostra. A Figura 4.8 mostrou que esses
os valores tendem a cair em um padrão bem-comportado, não em uma bagunça aleatória e caótica.
O fato de o padrão de variação aleatória ser bem comportado é o que
torna possível a inferência estatística.
Pode parecer irônico que uma estatística amostral mostre um padrão tão regular,
uma vez que é, de fato, uma variável aleatória. Felizmente para os estatísticos, sim.
A Figura 4.8 revelou um valor central (ou seja, a média de
a distribuição amostral) de aproximadamente 0,55. Também mostrou um padrão de
dispersão bem definido sobre esse valor central. Este padrão permitiu-nos concluir,
com um grau razoável de segurança, que o valor do
o parâmetro populacional FG estava contido na faixa de 0,40 a 0,65. Isto
também nos permitiu concluir, embora com confiança um pouco diminuída, que FG
foi fixado com mais precisão na faixa entre 0,50
e 0,60. Foi o grau de dispersão na distribuição amostral de f-g que
permitiu que essas declarações fossem feitas sobre o valor da população
parâmetro FG.
A dispersão da distribuição de amostragem quantifica a incerteza
do nosso conhecimento sobre o parâmetro populacional FG. A distribuição
tendência central transmite informações sobre o valor mais provável de FG,
aproximadamente 0,55. Saber disso é bom, mas não é suficiente. Também é
importante saber sobre a confiabilidade do valor 0,55. Em outras palavras,
com que precisão a tendência central da distribuição amostral de 0,55
retratar o verdadeiro valor de FG?
A confiabilidade (grau de certeza) é transmitida pela dispersão de
a distribuição amostral. Quanto maior a dispersão da distribuição ao redor
seu valor central, 0,55, menos certos podemos ter de que 0,55 nos forma com
precisão sobre o verdadeiro valor FG, a proporção de contas cinzentas em toda a
caixa.
Para ilustrar este ponto, considere as duas distribuições amostrais a seguir.
Ambos possuem valores centrais de 0,55 mas suas dispersões são bastante
diferentes. A primeira mostrada na Figura 4.27 é uma dispersão estreita, portanto,
dando uma forte impressão de que FG está nas proximidades de 0,55. A distribuição
na Figura 4.28 é mais ampla, transmitindo assim uma mensagem menos segura sobre
Valor FG. Está dizendo que o valor verdadeiro FG pode ser consideravelmente
diferente do valor central da distribuição amostral.
Em resumo, a certeza está diretamente relacionada à dispersão da distribuição
amostral. E a certeza de uma conclusão sobre uma população
O parâmetro depende da largura da distribuição de amostragem da estatística – maior
largura significa maior incerteza.
Suponha que a hipótese de que o retorno esperado de uma regra seja igual a
zero. Suponha também que o retorno testado a posteriori da regra seja maior
do que zero. O retorno positivo é evidência suficiente para concluir que o
valor hipotético de zero é falso? A resposta vai depender de quão longe
acima de zero, o retorno do backtesting é relativo à largura da distribuição amostral.
Se o desvio relativo for grande, a hipótese pode ser
rejeitado. Quantificar o desvio relativo e o raciocínio por trás de um
R
E 0,2
eu
0,18
UMA
T 0,16
0,14
EU
V
E 0,12
F 0,1
R
E 0,08
Q 0,06
você
E 0,04
N 0,02
C
S 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
f–g
FIGURA 4.27 Distribuição de frequência relativa: fg. (tamanho da amostra = 20, número de
amostras = 50).
R
E 0,2
eu
0,18
UMA
T 0,16
0,14
EU
V
E 0,12
F 0,1
R
E 0,08
Q 0,06
você
E 0,04
N 0,02
C
S 0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
f–g
FIGURA 4.28 Distribuição de frequência relativa: fg. (tamanho da amostra = 20, número de
amostras = 50).
A decisão de rejeitar ou não a hipótese será tratada no Capítulo 5. O ponto importante por
enquanto é que a amplitude da distribuição amostral é criticamente importante para responder
a esta questão.
Distribuição de Amostragem do Desempenho de Negociação
Uma distribuição amostral pode ser formada para qualquer estatística: a média (média), a
mediana, o desvio padrão e muitas outras estatísticas usadas na inferência estatística.29 Cada
uma tem sua própria distribuição amostral.
Essa discussão aqui se limita à distribuição amostral da média porque a estatística de
desempenho usada para avaliar as regras de AT neste livro é a taxa média de retorno de uma
regra. No entanto, existem muitas outras medidas de desempenho que podem ser usadas: o
índice de Sharpe,30 o fator de lucro,31 o retorno médio dividido pelo Ulcer Index,32 e assim por
diante. Deve-se ressaltar que as distribuições amostrais dessas estatísticas alternativas de
desempenho seriam diferentes da distribuição amostral da média.
Também deve ser destacado que os métodos usados neste livro para gerar a distribuição
amostral da média podem ser de valor limitado na geração de distribuições amostrais para
estatísticas de desempenho com caudas direitas alongadas. Isso pode ocorrer com estatísticas
de desempenho que envolvem índices como o índice de Sharpe, o índice de retorno médio para
o índice de úlcera e o fator de lucro. No entanto, esse problema pode ser mitigado tomando o
logaritmo da razão para encurtar a cauda direita.
As três distribuições de inferência estatística
A inferência estatística na verdade envolve três distribuições diferentes, uma das quais é a
distribuição amostral. Eles são fáceis de confundir. Esta seção destina-se a esclarecer suas
diferenças. No contexto do teste de regras, as três distribuições são:
1. Distribuição de dados da população: uma distribuição de tamanho infinito composta por

todos os retornos diários possíveis da regra, que assumimos que se estende ao futuro
prático imediato.
2. Distribuição de dados da amostra: uma distribuição composta por um número finito (N) de
retornos diários de regras do passado.
3. Distribuição amostral: uma distribuição de tamanho infinito da estatística amostral – neste
caso, é o retorno médio da regra. Ela representa os retornos médios da regra, caso ela
fosse testada em um número infinito de amostras aleatórias de tamanho N extraídas da
população.
Há dois pontos a enfatizar. Primeiro, as observações que compreendem a distribuição dos

dados da população e a distribuição dos dados da
amostra (1 e 2 na lista anterior) são compostos de retornos de regra de um dia. Em

contraste, as observações que compõem a distribuição amostral
são estatísticas de amostra em que cada observação representa o retorno médio da
regra calculado em uma amostra de dias. Em segundo lugar, tanto a distribuição
populacional quanto a distribuição amostral são teóricas no sentido
que se referem a um número infinito de observações possíveis. Em contraste,
a distribuição dos dados da amostra é composta por um número finito de observações
de um teste histórico.
A relação entre essas três distribuições pode ser visualizada
imaginando um experimento semelhante ao experimento da caixa de miçangas. Dentro
neste caso, no entanto, você deve imaginar uma distribuição populacional de
regra retorna que é infinito em tamanho. Imagine tirar 50 amostras independentes
da população, onde cada amostra é composta por um
número de retornos diários da regra. Em seguida, determine o retorno médio para cada
amostra e, em seguida, plote a distribuição amostral das 50 médias. Isso é ilustrado
na Figura 4.29.33
O mundo real: o problema de uma amostra

A discussão anterior foi teórica no sentido que imaginamos
como seria se pudéssemos observar 50 amostras independentes de um
Pai
Dados
Distribuição Média da População
no
População
(devoluções diárias)
Amostra #1 de n Amostra #2 de n Amostra # 50 de n

Dados Devoluções diárias
Devoluções diárias Devoluções diárias
Distribuição
no
Amostra
de Tamanho
Amostra média #1 Amostra média #2 Amostra Média #50
n (retornos diários)
Amostragem
Distribuição
50
Meios de Amostra Distribuição dos Meios
do Tamanho da Amostra n
FIGURA 4.29 As três distribuições de inferência estatística.

208 FUNDAMENTOS METODOLÓGICOS, PSICOLÓGICOS, FILOSÓFICOS, ESTATÍSTICOS
População
Média
Distribuição de Devoluções Diárias (não conhecida)
Integrando a população
Devoluções diárias
Um valor para a amostra

Distribuição de Devoluções Diárias Média
Compreendendo a Amostra (conhecida)
Devoluções diárias
FIGURA 4.30 O mundo real: uma amostra e um valor da estatística de teste.
população parental. Na maioria dos problemas estatísticos do mundo real, há apenas uma
amostra de observações e, portanto, um valor para a média amostral. O problema é que com
apenas uma média amostral disponível não temos noção da variabilidade da estatística
amostral. O problema de uma amostra e uma média é ilustrado na Figura 4.30.
Felizmente, podemos aprender muito sobre a variabilidade de uma estatística amostral e

sua distribuição amostral observando a única amostra disponível.
A descoberta de como fazer isso, no início do século XX, foi o que possibilitou o campo da
inferência estatística. De fato, os estatísticos desenvolveram duas abordagens distintas para
estimar a distribuição amostral de uma estatística a partir de uma única amostra de observações:
clássica e computacional. Embora ambos sejam discutidos, a abordagem de uso intensivo de
computador será usada para os testes de regras realizados na Parte Dois.
DERIVANDO A DISTRIBUIÇÃO DE AMOSTRAGEM:

A ABORDAGEM CLÁSSICA
Esta abordagem clássica é a mais frequentemente ensinada nos cursos básicos de estatística.
É atribuído aos dois pais da estatística matemática, Sir Ronald Fisher (1890-1962) e Jerzy
Neyman (1894-1981). Ele utiliza a teoria da probabilidade e o cálculo integral para derivar a
distribuição amostral com base em uma única amostra observada. Ele fornece estimativas da
dispersão da distribuição amostral, sua média e sua forma básica (normal).
Em outras palavras, fornece tudo o que é necessário para quantificar a confiabilidade de

uma inferência baseada em uma única amostra de observações.
A distribuição amostral da média amostral

Cada estatística tem sua própria distribuição amostral. Esta discussão se concentrará na
distribuição amostral da média (média), pois é a
estatística usada na Parte Dois para avaliar as regras de AT.
A teoria estatística clássica nos diz várias coisas sobre a amostragem
distribuição da média.
1. A média de uma amostra grande é uma boa estimativa da média da distribuição

populacional da qual a amostra foi obtida. O maior
da amostra, tanto mais a média da amostra se ajusta à média da população.
2. A dispersão da distribuição de amostragem depende do tamanho do

amostra. Para uma dada população, quanto maior a amostra, mais estreita
a distribuição amostral.
3. A dispersão da distribuição amostral também depende da
quantidade de variação dentro dos dados da população parental. Quanto maior o
variação na população parental, mais ampla será a distribuição amostral.
4. Nas condições aplicáveis à avaliação das regras de AT, o
forma da distribuição amostral da média tenderá para o
chamado normal ou forma de sino, com a conformidade com o normal
forma aumenta à medida que o tamanho da amostra aumenta. Outras estatísticas de amostra,
como razões, podem ser profundamente não normais.
Cada um desses conceitos é agora explicado.
A média de uma grande amostra é uma boa estimativa da média populacional. Esta é
uma manifestação da Lei dos Grandes Números,
que conhecemos anteriormente no contexto de um experimento de lançamento de moedas. Para
recapitulando, A Lei dos Grandes Números nos diz que quanto maior o número de
observações que compõem a amostra, mais próxima será a média amostral
aproximará a média populacional. Existem algumas condições de qualificação34 anexadas
a essa promessa, mas elas não precisam nos preocupar aqui.
O gráfico do experimento de lançamento de moedas ilustrou a ação do
Lei dos Grandes Números (Figura 4.18). À medida que o número de lançamentos de
moedas aumentava, a proporção de caras convergia gradualmente para seu valor teórico.
valor correto de 0,50. Nos estágios iniciais do experimento, quando o tamanho da amostra
era pequeno, houve grandes desvios de 0,50. Essas partidas ilustram o grande papel que o
acaso desempenha em pequenas amostras. Em quatro
lançamentos, embora valores de 0,75 ou 0,25 não sejam os mais prováveis, eles são
bastante comum. No entanto, quando o número de lançamentos de moedas atinge 60, o
probabilidade de 0,75 ou 0,25 é menor que 1 em 1.000. A lição importante: o aumento
do tamanho da amostra diminui o papel do acaso.
A dispersão da distribuição amostral depende do

Tamanho da Amostra: quanto maior a amostra, menor a dispersão. Imagine uma
população muito grande de observações sobre alguma variável cujo desvio padrão é
100. Normalmente, não sabemos o
desvio padrão da população, mas neste caso vamos supor que sim.
Na Figura 4.31, mostro a distribuição da população parental na parte inferior.
Acima dela estão duas distribuições amostrais para a média da variável para
tamanhos de amostra de 10 e 100. Observe que a largura da distribuição amostral é
reduzida em aproximadamente um terço cada vez que o tamanho da amostra é
aumentado por um fator de 10. Uma das lições da estatística clássica é
que o desvio padrão da distribuição amostral da média é inversamente proporcional à
raiz quadrada do tamanho da amostra.35 Assim, se o
o tamanho da amostra é aumentado por um fator de 10, a largura da distribuição de
amostragem é reduzida por um fator de 3,16, a raiz quadrada de 10. A distribuição pai
Distribuição de amostras
da média
Tamanho da amostra = 100
Erro padrão = 10
10
Distribuição de Amostragem
do Tamanho Médio
da Amostra = 10
St. Erro = 31,62
31,62
Distribuição de dados
na população
Desvio St. = 100
100
FIGURA 4.31 O estreitamento da distribuição amostral com o aumento do tamanho da
amostra.
ção pode ser pensada como uma distribuição amostral com um tamanho de amostra de
um (uma média - a média da população). A distribuição amostral para um
o tamanho da amostra de 100 é um décimo da largura da população-mãe. A mensagem
essencial é quanto maior o tamanho da amostra, menor a incerteza
sobre o valor de uma estatística amostral. Aliás, o desvio padrão
da distribuição amostral da média recebe um nome especial nas estatísticas, o erro padrão da
média (ver explicação posterior).
Com algumas ressalvas,36 a Lei dos Grandes Números nos diz que o
quanto maior o tamanho da amostra, mais preciso será nosso conhecimento da média da
população. Com algumas ressalvas,37 portanto, gostaríamos de trabalhar com
amostras que são tão grandes quanto possível, de modo a minimizar a largura do
distribuição amostral tanto quanto possível.
A dispersão da distribuição amostral da média também

Depende da quantidade de variação nos dados que compõem a população-mãe. Há outro
fator que afeta a
largura da distribuição de amostragem - a quantidade de variação dentro do
população-mãe da qual a amostra foi retirada. Quanto maior a variação dentro dos dados
populacionais, maior será a variação (dispersão) da distribuição amostral.
Você pode visualizar isso pensando em uma população que não tem variação alguma.
Por exemplo, se todas as pessoas da população pesassem 150 libras,
cada amostra terá um peso médio de 150 libras. Portanto,
variação zero entre os membros da população levaria a zero
variação na média amostral e, consequentemente, uma distribuição amostral
que não tem dispersão alguma. Por outro lado, se houver grande variação
entre os indivíduos que compõem a população, haverá
maior variação nas médias amostrais, o que se traduz em uma distribuição amostral de gordura.
A forma da distribuição de amostragem tende para o normal.

O Teorema do Limite Central, um princípio fundamental da estatística clássica,
afirma que à medida que o tamanho de uma amostra aumenta, a distribuição amostral de
a média, com algumas ressalvas,38 converge para uma forma específica independentemente
da forma da distribuição da população. Em outras palavras, não
não importa quão estranhamente seja a distribuição dos dados na população-mãe, a forma da
distribuição amostral se aproxima de uma forma específica
que os estatísticos chamam de distribuição normal, também conhecida como
Distribuição gaussiana.
A distribuição normal é a forma da distribuição de probabilidade mais comum. Muitas
vezes referida como a curva do sino porque tem a silhueta do Liberty Bell, a distribuição normal
caracteriza
variáveis contínuas que descrevem muitos fenômenos do mundo real.
Existem alguns pontos sobre a distribuição normal que devem ser

Entendido:
• É completamente descrito por sua média e seu desvio padrão. Se esses dois fatos são
conhecidos, você sabe tudo o que há para saber sobre a distribuição.
• Cerca de 68 por cento das observações estão dentro de um desvio padrão da média e
cerca de 95 por cento estão dentro de dois desvios padrão da média.
• As caudas da distribuição tornam-se bastante finas além de dois desvios padrão. Assim,
valores além de três desvios padrão são raros e além de quatro são extremamente raros.
A distribuição normal, ilustrada na Figura 4.32, é tão comum que tem sido chamada de
característica fundamental do mundo natural. Sua forma é causada pelos efeitos aditivos de
muitos fatores independentes que atuam na mesma situação. Por exemplo, a pressão arterial
sistólica é afetada por fatores genéticos, dieta, peso, estilo de vida, condicionamento aeróbico
e vários outros fatores. Quando eles interagem, a distribuição de probabilidade da pressão
arterial em um grande grupo de pessoas selecionadas aleatoriamente terá a distribuição em
forma de sino.
A Figura 4.3339 mostra várias distribuições populacionais muito não normais junto com
a forma da distribuição amostral da média. Observe como a distribuição amostral converge
para uma forma normal à medida que o tamanho da amostra aumenta, independentemente
da forma da distribuição dos dados no
Significa
2ÿ1ÿ +1ÿ + 2ÿ
68% da Área
95% da área
FIGURA 4.32 A distribuição normal.

Pai Amostragem Amostragem Amostragem

População Distribuição: n=2 Distribuição: n=5 Distribuição: n=30
FIGURA 4.33 Dado tamanho amostral suficiente, a distribuição amostral da média

aproxima-se da forma normal, independentemente da forma de distribuição da variável.
população parental. Não há nada de mágico no número 30. A taxa na qual a

distribuição amostral converge para uma forma normal em função do tamanho
da amostra depende da forma da distribuição pai. Observe que para três dos
casos na figura, um tamanho de amostra de cinco produz uma distribuição
amostral da média com formato quase normal. No entanto, para o caso
inferior na figura, a distribuição amostral da média não se torna normal até
um tamanho de amostra de 30.
O erro padrão da média
Estamos agora em condições de dar o passo final para definir a distribuição

amostral da média como é feito na estatística clássica. Até o momento, ficou
estabelecido que:
1. A distribuição amostral da média converge para a forma de uma distribuição normal

à medida que o tamanho da amostra aumenta.
2. Uma distribuição normal é totalmente descrita por sua média e seu padrão
desvio.
3. O desvio padrão da distribuição amostral da média, também conhecido como

erro padrão da média, está diretamente relacionado ao desvio padrão da
população da qual as amostras foram retiradas.
4. O erro padrão da média está inversamente relacionado à raiz quadrada

do tamanho da amostra.
O erro padrão da média é igual ao desvio padrão da população dividido pela

raiz quadrada do tamanho da amostra. Esta é uma afirmação verdadeira, mas não
de uso prático porque o desvio padrão da população não é conhecido. Isso é
simplesmente uma consequência do fato de que a população total não é observável.
No entanto, o desvio padrão da população pode ser estimado a partir da amostra.
Essa estimativa, que é designada por sigma-hat, é mostrada na equação da Figura
4.34. O pequeno teto ou chapéu sobre o sigma é um simbolismo estatístico para
uma quantidade que foi estimada. Você notará que o divisor dentro do sinal de
radical é n – 1, em vez de n. Essa modificação compensa o fato de que o desvio
padrão da amostra subestima o desvio padrão da população.
Essa expressão é usada para estimar o desvio padrão da população-mãe, que

é então usada na equação da Figura 4.35 para estimar o erro padrão da média.
Com o erro padrão da média em mãos e a suposição de que a distribuição

amostral é normal, agora é possível formar uma boa estimativa
Estimativa do Desvio Padrão da População

Com base em uma amostra de observações
ÿ= ÿ xi ( –x )2
n-1
Onde:
É uma observação individual na variável x na população
XI
x É a média amostral na variável x
É o número de observações na amostra

n
FIGURA 4.34 Estimativa do desvio padrão populacional com base em uma amostra de
observações.
Padrão
Erro ÿ
=
do
O significativo
n
FIGURA 4.35 O erro padrão da média.
mate da distribuição amostral da média. E lembre-se de tudo isso estava ligado

base de uma única amostra.
Há um problema com a abordagem tradicional. Supõe que
a distribuição amostral tem formato normal (curva de sino). Se isso provar
não for assim, as conclusões alcançadas serão imprecisas. Por esta razão, eu
optaram por utilizar um método alternativo para estimar a distribuição amostral da
média, baseado em simulação computacional.
DERIVANDO A DISTRIBUIÇÃO DE AMOSTRAGEM COM

A ABORDAGEM INTENSIVA DE COMPUTADOR
Até cerca de 30 anos atrás não havia alternativa à abordagem clássica

para derivar a distribuição amostral de uma única amostra. Agora há—
a abordagem intensiva em computador. Ao reamostrar sistematicamente o único
amostra disponível muitas vezes, é possível aproximar a forma do
distribuição de amostras. Este procedimento é descrito nesta seção.
O próximo capítulo apresentará dois métodos baseados em computador:
reamostragem de cinta de inicialização e permutação de Monte Carlo. Embora cada método
tem suas limitações, como acontece com qualquer método estatístico, são alternativas
úteis à abordagem clássica.
O bootstrap é assim chamado porque aparentemente se levanta, como se por
seus próprios bootstraps, para aproximar a forma da distribuição amostral. Neste
livro, ele será usado para aproximar a forma da distribuição amostral do retorno
médio para regras que não têm predição.
potência. O método de permutação de Monte Carlo recebeu o nome do famoso
cassino europeu porque usa o computador como se fosse um
roleta.
Por qualquer meio que seja gerado, a distribuição amostral serve
o mesmo propósito. Ela nos diz o quanto o retorno testado a posteriori de uma regra
não preditiva pode variar acima ou abaixo de zero devido aos efeitos aleatórios de
amostragem. Assim, serve como referência para avaliar o desempenho da regra. Se
o retorno médio da regra for muito alto para ser devido à variabilidade amostral, a
regra é considerada como tendo poder preditivo.
PRÉVIA DO PRÓXIMO CAPÍTULO
Já fizemos várias referências ao uso de inferência estatística para testar afirmações. O título
oficial desta atividade é teste de hipóteses. O próximo capítulo discute a lógica e a mecânica do
teste de hipóteses.
Também considerará outro uso de inferência estatística, estimando intervalos de confiança.
Um intervalo de confiança é um intervalo que contém o valor verdadeiro do parâmetro
populacional com um nível de confiança especificado. Por exemplo, se o retorno médio observado
de uma regra for de 15 por cento, o intervalo de confiança de 95 por cento pode indicar que o
retorno verdadeiro da regra está entre o retorno de 5 por cento e o retorno de 25 por cento. A
largura do intervalo de confiança, neste caso 20 pontos percentuais, é derivada da mesma
distribuição amostral usada para teste de hipóteses.
Testes de
hipóteses e confiança
Intervalos
DOIS TIPOS DE INFERÊNCIA ESTATÍSTICA
A inferência estatística engloba dois procedimentos: teste de hipóteses e

estimação de parâmetros. Ambos estão preocupados com o valor desconhecido
de um parâmetro populacional. Um teste de hipótese determina se uma amostra
de dados é consistente ou contradiz uma hipótese sobre o valor de um parâmetro
populacional, por exemplo, a hipótese de que seu valor é menor ou igual a zero.
O outro procedimento de inferência, estimativa de parâmetros, usa as
informações de uma amostra para determinar o valor aproximado de um
parâmetro populacional.1 Assim, um teste de hipótese nos diz se um efeito está
presente ou não, enquanto uma estimativa nos diz sobre o tamanho do um efeito.
De certa forma, ambas as formas de inferência são semelhantes. Ambos
tentam tirar uma conclusão sobre uma população inteira com base apenas no
que foi observado em uma amostra extraída da população. Ao ir além do que é
conhecido, tanto o teste de hipóteses quanto a estimativa de parâmetros dão o
salto indutivo do valor certo de uma estatística amostral para o valor incerto de
um parâmetro populacional. Como tal, ambos estão sujeitos a erros.
No entanto, diferenças importantes distinguem a estimativa de parâmetros
do teste de hipóteses. Seus objetivos são diferentes. O teste de hipóteses avalia
a veracidade de uma conjectura sobre um parâmetro populacional levando à
aceitação ou rejeição dessa conjectura. Em contraste, a estimativa visa fornecer
um valor plausível ou uma faixa de valores para o parâmetro populacional.
Nesse sentido, a estimativa é um empreendimento mais ousado e oferece
informações potencialmente mais úteis. Em vez de simplesmente nos dizer se
devemos aceitar ou rejeitar uma afirmação específica, como uma
o retorno médio da regra é menor ou igual a zero, a estimativa aproxima o retorno médio e
fornece uma faixa de valores dentro da qual
a verdadeira taxa de retorno da regra deve estar em um nível especificado de probabilidade.
Por exemplo, pode nos dizer que o retorno estimado da regra é de 10%
e há uma probabilidade de 95 por cento de que caia dentro do intervalo de 5
por cento a 15 por cento. Esta declaração contém dois tipos de estimativas; uma
estimativa pontual, que o retorno da regra é de 10%, e uma estimativa de intervalo, que o
retorno está na faixa de 5% a 15%. A regra
os estudos discutidos na Parte Dois usam a estimativa como um complemento aos testes de
hipóteses.
TESTES DE HIPÓTESE VERSUS INFERÊNCIA INFORMAL
Se uma regra foi lucrativa em uma amostra de dados históricos, essa estatística amostral é um
fato indiscutível. No entanto, a partir desse fato, o que se pode inferir
sobre o desempenho futuro da regra? É provável que seja lucrativo porque
possui poder preditivo genuíno ou os lucros são improváveis porque sua
lucros passados foram devidos ao acaso? O teste de hipóteses é um procedimento de inferência
formal e rigoroso para decidir qual dessas alternativas é mais
provavelmente está correto, e assim pode nos ajudar a decidir se seria racional usar
a regra para negociação real no futuro.
Evidência confirmatória: é bom, é necessário,

mas não é suficiente
O Capítulo 2 apontou que a inferência informal é tendenciosa em favor da evidência

confirmatória. Ou seja, quando usamos o bom senso para testar a
validade de uma ideia, tendemos a procurar evidências confirmatórias – fatos consistentes com
a verdade da ideia. Ao mesmo tempo, tendemos a ignorar ou dar
muito pouco peso para evidências contraditórias. O bom senso nos diz, e
com razão, que se a ideia for verdadeira, devem existir instâncias em que a ideia funcionou
(evidência confirmatória). No entanto, a inferência informal torna a
erro de assumir que a evidência confirmatória é suficiente para estabelecer
sua verdade. Este é um erro lógico. A evidência confirmatória não obriga
a conclusão de que a ideia é verdadeira. Porque é consistente com a ideia
verdade, apenas permite a possibilidade de que a ideia seja verdadeira.
A distinção crucial entre evidência necessária e evidência suficiente foi ilustrada no
Capítulo 4 com o exemplo a seguir. Suponha
queremos testar a veracidade da afirmação: A criatura que observo é um cachorro. Nós
observe que a criatura tem quatro patas (a evidência). Esta evidência é consistente com (isto é,
confirmatória de) a criatura ser um cão. Em outras palavras, se
Testes de hipóteses e intervalos de confiança 219
a criatura é um cachorro, então necessariamente terá quatro patas. No entanto, quatro patas
não são evidências suficientes para estabelecer que a criatura é um cachorro. Pode muito
bem ser outra criatura de quatro patas (gato, rinoceronte e assim por diante).
Artigos populares sobre AT muitas vezes tentam argumentar que um padrão tem poder
preditivo apresentando casos em que o padrão fez previsões bem-sucedidas. É verdade que,
se o padrão tiver poder preditivo, haverá casos históricos em que o padrão deu previsões
bem-sucedidas.
No entanto, essa evidência confirmatória, embora necessária, não é suficiente para
estabelecer logicamente que o padrão tem poder preditivo. Não é mais capaz de compelir a
conclusão de que o padrão tem poder preditivo do que a presença de quatro patas é capaz
de compelir a conclusão de que a criatura é um cachorro.
Argumentar que as instâncias confirmatórias são suficientes comete a falsidade

de afirmar o conseqüente.
Se p é verdadeiro, então q é verdadeiro.
q é verdade.
Conclusão inválida: Portanto, p é verdadeiro.

Se o padrão tem poder preditivo, então exemplos passados de sucesso devem existir.
Exemplos passados de sucesso existem, e aqui estão eles.

Portanto, o padrão tem poder preditivo.
O Capítulo 3 mostrou que, embora a evidência confirmatória não seja suficiente para
provar a veracidade de uma afirmação, a evidência contraditória – evidência que é
incompatível com a verdade de uma afirmação – é suficiente para estabelecer que a
afirmação é falsa. O fato de uma criatura não ter quatro patas é suficiente para falsificar a
afirmação de que a criatura é um cachorro. Esta é a forma válida de argumento chamada
negação do consequente.
Se p é verdadeiro, então q é verdadeiro.
q não é verdade.
Portanto, p não é verdadeiro (ou seja, p é falso).

Se a criatura for um cachorro, então a criatura tem quatro patas.
Criatura não tem pernas.
Portanto, criatura não é cachorro.
A base lógica do teste de hipótese é a falsificação da consequência. Como tal, é um

antídoto potente para o viés de confirmação da inferência informal e uma prevenção eficaz
da crença errônea.
O que é uma hipótese estatística?

Uma hipótese estatística é uma conjectura sobre o valor de um parâmetro populacional.
Muitas vezes esta é uma característica numérica, como o retorno médio de uma regra.
O valor do parâmetro populacional é desconhecido porque é
Inobservável. Por razões discutidas anteriormente, supõe-se que
valor igual ou menor que zero.
O que um observador sabe é o valor de uma estatística amostral para um
amostra retirada da população. Assim, o observador
diante de uma pergunta: o valor observado da estatística amostral é consistente com o
valor hipotético do parâmetro populacional? Se o valor observado estiver próximo do
valor hipotético, a inferência razoável
seria que a hipótese está correta. Se, por outro lado, o valor de
o valor da amostra está longe do valor hipotético, a verdade do
hipótese é questionada.
Perto e longe são termos ambíguos. O teste de hipótese quantifica
esses termos permitindo tirar uma conclusão sobre a veracidade
da hipótese. A conclusão do teste é normalmente dada como um número entre 0 e 1,0.
Este número indica a probabilidade de que o
valor da estatística da amostra pode ter ocorrido por acaso sob o
condição de que (dado isso ou assumindo que) o valor hipotético seja
verdadeiro. Por exemplo, suponha que se suponha que o retorno esperado de uma regra
é igual a zero, mas o back test produziu um retorno de +20%. o
conclusão do teste de hipótese pode dizer algo como o seguinte: Se
a taxa de retorno esperada da regra fosse realmente igual a zero, há um 0,03
probabilidade de que o retorno testado possa ser igual ou maior que
+20 por cento devido ao acaso. Porque há apenas uma probabilidade de 3 por cento
que um retorno de 20% poderia ter ocorrido por acaso se a regra fosse
verdadeiramente desprovidos de poder preditivo, então podemos estar bastante confiantes de que o
regra não teve apenas sorte no teste de costas.
Falsificação de uma hipótese com evidência improvável

Um teste de hipótese começa assumindo que a hipótese que está sendo testada é
verdadeiro. Com base nessa suposição, as previsões são deduzidas da hipótese sobre
a probabilidade de várias novas observações. Em outras palavras, se
a hipótese é verdadeira, então certos resultados seriam prováveis de ocorrer
enquanto outros resultados seriam improváveis. Armado com este conjunto de
expectativas, um observador está em posição de comparar as previsões com
observações subsequentes. Se as previsões e observações concordam, há
nenhuma razão para questionar a hipótese. No entanto, se forem observados resultados
de baixa probabilidade - resultados que seriam inconsistentes com a verdade
da hipótese - a hipótese é considerada falsificada. Assim, é o oc
ocorrência de evidência inesperada que é a base para refutar uma hipótese. Embora esta linha
de raciocínio seja contra-intuitiva, é logicamente correta
(negação do consequente) e extremamente poderoso. É a base lógica
de descoberta científica.
Para dar um exemplo concreto, suponha que eu me veja como um excelente jogador de
tênis social. Minha hipótese é que David Aronson é um excelente social
jogador de tênis. Participo de um clube de tênis com membros cuja idade e anos de
jogo são semelhantes aos meus. Com base na minha hipótese, prevejo com confiança a outros
sócios do clube que ganharei pelo menos três quartos do meu
jogos (taxa de vitória prevista = 0,75). Esta previsão é meramente dedutiva
consequência da minha hipótese. Eu testo a hipótese acompanhando
meus primeiros 20 jogos. Depois de 20 jogos estou chocado e decepcionado. Não somente
não obtive uma única vitória (taxa de vitória observada = 0), mas a maioria das perdas
foram por largas margens. Este resultado é claramente inconsistente com o
previsão deduzida da minha hipótese. Dito de outra forma, minha hipótese
implicava que esta evidência tinha uma probabilidade muito baixa de ocorrência. Tal
evidência surpreendente exige forçosamente uma revisão (falsificação) de minha hipótese. A
menos que eu prefira delírios de bem-estar a evidências observadas, é
hora de abandonar meus delírios de grandeza do tênis.2
Na situação anterior, a evidência era esmagadoramente clara. EU
perdeu todos os 20 jogos. No entanto, e se a evidência tivesse sido ambígua? Suponha que eu
tenha vencido dois terços dos meus jogos. Uma vitória observada
a taxa de 0,66 está abaixo da taxa de vitória prevista de 0,75, mas não drasticamente.
Isso foi apenas um desvio negativo aleatório da taxa de vitória prevista
ou foi o desvio de magnitude suficiente para indicar a hipótese
sobre a minha habilidade de tênis estava com defeito? É aqui que a análise estatística se faz
necessária. Ele tenta responder à pergunta: foi a diferença
entre a taxa de vitórias observada (0,66) e a taxa de vitórias prevista pela minha hipótese (0,75)
grande o suficiente para levantar dúvidas sobre a veracidade da hipótese? Ou, alternativamente:
foi a diferença entre 0,66 e 0,75
variação meramente aleatória naquela amostra particular de partidas de tênis? o
teste de hipótese tenta distinguir erros de previsão que são pequenos
suficiente para ser o resultado de amostragem aleatória de erros tão grandes que eles
indicam uma hipótese falha.
Hipóteses de Duelo: A Hipótese Nula versus

a hipótese alternativa
Um teste de hipótese baseia-se no método de prova indireta. Isto é, estabelece a verdade de
algo mostrando que outra coisa é falsa. Portanto, para provar a hipótese que gostaríamos de
demonstrar como correta,
mostramos que uma hipótese oposta é incorreta. Para estabelecer que a hipótese A é
verdadeira, mostramos que a hipótese oposta Não-A é falsa.
Um teste de hipóteses, portanto, envolve duas hipóteses. Uma é chamada

de hipótese nula e a outra de hipótese alternativa. Os nomes são estranhos, mas
estão tão bem arraigados que serão usados aqui.
A hipótese alternativa, aquela que o cientista gostaria de provar, prevê a
descoberta de novos conhecimentos importantes. A hipótese oposta ou nula
simplesmente afirma que nada de novo foi descoberto. Por exemplo, Jonas Salk,
inventor da vacina contra a poliomielite, apresentou a hipótese alternativa de que
sua nova vacina preveniria a poliomielite de forma mais eficaz do que um placebo.
A hipótese nula afirmava que a vacina Salk não preveniria a poliomielite de forma
mais eficaz do que um placebo. Para as regras de AT testadas neste livro, a
hipótese alternativa afirma que a regra tem um retorno esperado maior que zero.
A hipótese nula afirma que a regra não tem um retorno esperado maior que zero.
Para fins de brevidade, adotarei a notação convencional: HA para a hipótese

alternativa e H0 para a hipótese nula. Uma maneira de lembrar isso é a hipótese
nula afirma que zero conhecimento novo foi descoberto, daí o símbolo H0 .
É crucial para a lógica de um teste de hipótese que HA e H0 sejam definidos

como proposições mutuamente exclusivas e exaustivas. O que isto significa?
Duas proposições são ditas exaustivas se, quando tomadas em conjunto, cobrem
todas as possibilidades. HA e H0 cobrem todas as possibilidades. Ou a vacina
contra a poliomielite tem um efeito preventivo ou não. Não há outra possibilidade.
Ou uma regra TA gera retornos maiores que zero ou não.
As duas hipóteses também devem ser definidas como mutuamente
exclusivas. Proposições mutuamente exclusivas não podem ser ambas
verdadeiras ao mesmo tempo, então se H0 for falsa, então HA deve ser verdadeira
e vice-versa. Ao definir as hipóteses como afirmações exaustivas e mutuamente
exclusivas, se puder ser demonstrado que uma hipótese é falsa, então ficamos com a inescapáv
Nulo Alternativo
Hipótese Hipótese
Devolução de regra Devolução de regra

Menor que Maior que
Ou igual a Zero
Zero
FIGURA 5.1 Hipóteses mutuamente exclusivas e exaustivas.

conclusão de que a outra hipótese deve ser verdadeira. Provando a verdade neste
moda é chamado de método de prova indireta. Esses conceitos são ilustrados na Figura
5.1.
FUNDAMENTO DO TESTE DE HIPÓTESE
Dois aspectos do teste de hipóteses justificam a explicação. Primeiro, por que o

teste é focado na hipótese nula. Em segundo lugar, por que a hipótese nula é
assumida como verdadeira em vez da hipótese alternativa. Esta seção explica o raciocínio
por trás de ambos os aspectos.
Por que a hipótese nula é o alvo do teste?
Conforme discutido no Capítulo 3, as evidências podem ser usadas para deduzir logicamente que
uma hipótese é falsa, mas não pode ser usada para deduzir que é verdadeira.3
Portanto, o teste de hipóteses deve ser sobre tentar falsificar algo.
A questão é: Qual das hipóteses, H0 ou HA, deve ser o alvo
deste esforço?
Das duas afirmações concorrentes, H0 apresenta um alvo melhor para falsificação

porque pode ser reduzida a uma única afirmação sobre o valor do parâmetro. Isso significa
que apenas um teste deve ser realizado. Se aquele único
valor pode ser contestado com sucesso com evidências, H0 terá sido falsificado. Em
contraste, a hipótese alternativa representa um número infinito de afirmações sobre o
valor do parâmetro. Sem valor único para atirar
em, um número infinito de testes teria que ser realizado para falsificar a hipótese alternativa.
De fato, tanto H0 quanto HA representam um número infinito de afirmações sobre

o retorno esperado da regra, mas H0 pode ser reduzido a uma única reclamação. Primeiro,
vamos considerar por que HA representa um número infinito de reivindicações. Ao afirmar
que o retorno da regra é maior que zero, HA efetivamente diz que o
o retorno esperado da regra, no futuro prático imediato, pode ser qualquer
um de um conjunto infinito de valores maiores que zero: + 0,1 por cento, ou +2 por cento
ou +6 por cento ou qualquer outro valor positivo. Isso é ilustrado na Figura
5.2. Dado que HA faz um número infinito de reivindicações, um número infinito
de testes teriam que ser conduzidos para refutá-la conclusivamente. Claramente isso
é impraticável.
H0 também faz um número infinito de afirmações sobre o valor
do parâmetro populacional. Afirma que o retorno médio da regra é
igual a zero ou algum valor menor que zero. No entanto, apenas um desses
afirmações realmente importam - que o retorno médio da regra é igual a zero.
etc.
+12%
+10
+8
+6
+4
+2
+,01%
H1 Afirma:
Retorno Esperado da Regra > 0%.
FIGURA 5.2 A hipótese alternativa faz um número infinito de afirmações

sobre a taxa de retorno esperada da regra.
A tentativa de falsificar uma única afirmação é um objetivo prático. Se a mais positiva dessas
afirmações (retorno = 0) pode ser questionada pela regra
back-test rentabilidade, então todas as reivindicações menores (por exemplo, o retorno da regra = -1,3
por cento) são contrariados, mas em um grau ainda maior. É assim que H0
se reduz à única afirmação de que o retorno da regra é zero. Isso é ilustrado na Figura 5.3.
etc.
-12%
-10
-8
-6
-4
-2
0%
H0 Afirma:
Retorno da Regra < ou = 0%.
FIGURA 5.3 A hipótese nula faz um número infinito de afirmações sobre o

média populacional, mas apenas um importa.
Por que a hipótese nula é assumida como verdadeira?

O teste de hipóteses assume que H0 é verdadeira por dois motivos: o ceticismo científico e o
princípio da simplicidade (parcimônia).
Ceticismo. A suposição de que H0 é verdadeira é consistente com a ciência

atitude cética em relação a todas as novas alegações de conhecimento. Conforme explicado em
No capítulo 3, essa postura conservadora é justificada porque fazer reivindicações é
fácil, mas fazer descobertas genuínas é difícil. O ônus da prova deve
estar no reclamante.
A ciência tem uma preocupação legítima em proteger o depósito de
conhecimento da contaminação com falsidades e crenças estranhas. Uma analogia útil pode
ser feita com o sistema de justiça criminal. Sociedades livres
têm uma preocupação legítima em proteger o cidadão solitário da vasta
poder de acusação do Estado. Por esta razão, o réu em um processo criminal começa com
uma presunção de inocência. Isso coloca
o ônus de provar a culpa - falsificando a presunção de inocência - sobre
o Estado, e é de fato um fardo substancial. Para obter uma convicção, o
Estado deve fornecer provas de culpa além de uma dúvida razoável, um muito
alto limiar. A presunção inicial de inocência e o alto limiar de prova podem ser vistos como a
forma do ordenamento jurídico impedir as prisões
e forca de serem contaminados com cidadãos inocentes.
Seguindo a tradição científica, o teste de hipóteses coloca o ônus da prova naqueles
que afirmam novos conhecimentos. De fato, sempre que o
o desempenho de uma regra no backtested for maior que zero, a evidência da amostra na
verdade favorece HA - que o retorno esperado da regra é maior que
zero. No entanto, o teste de hipóteses exige mais do que meramente
evidência. Exige evidências convincentes antes de abandonar a verdade presumida de H0 .
Aqueles que afirmam que uma regra TA tem poder preditivo
(HA) devem cumprir um grande ônus da prova antes que possam razoavelmente esperar
sua alegação de ser aceita pelos praticantes científicos da AT.
Simplicidade. Uma razão adicional para conceder prioridade a H0 é o princípio

de simplicidade. Esse preceito fundamental da ciência diz que as teorias mais simples são
mais propensas a capturar os verdadeiros padrões da natureza do que as mais elaboradas.
Este princípio, conhecido como Navalha de Occam, diz que se um
fenômeno pode ser explicado por mais de uma hipótese, então o sim que explica uma regra
a hipótese mais provável é mais provável de ser correta. H0 ,
sucesso passado como sorte, é mais simples que HA, que afirma que os lucros decorrem
de um padrão de mercado recorrente com poder preditivo.
Explicações mais simples (teorias, regras, hipóteses, modelos, etc.)
adiante) são mais propensos a estar corretos porque são menos propensos a ajustar os dados
por acaso. Quanto mais complexa for uma explicação - isto é, mais numerosos
suas suposições, suas condições e restrições - mais provável é que se ajuste

um conjunto de observações por acaso. Isso é ilustrado ao ajustar uma função matemática a um
conjunto de dados. Uma função pode ser pensada como uma hipótese matemática que explica
um determinado conjunto de observações. Na Figura 5.4,
duas funções matemáticas foram ajustadas ao mesmo conjunto de dados. Um
função é linear. É relativamente simples, pois é definido por apenas dois coeficientes ou graus
de liberdade: sua inclinação e onde corta a vertical.
eixo (interseção em Y). Em outras palavras, o ajuste da linha aos dados pode ser melhorado
manipulando apenas esses dois fatores.
A outra função é um polinômio complexo com 10 coeficientes.
Cada coeficiente permite que a curva faça uma curva adicional. Com isso
grau de flexibilidade, a curva pode tecer e dobrar para que toque
cada ponto de dados. De fato, quando uma função é ajustada aos dados usando um método
chamada regressão de mínimos quadrados, um ajuste perfeito é garantido se a função
é permitido conter tantos graus de liberdade (coeficientes) quantos
são pontos de dados. Embora a função linear não consiga tocar
cada ponto observado, descreve a tendência geral dos dados;
valores crescentes de X estão associados a valores crescentes de Y. Em outros
palavras, a função simples captura a característica essencial dos dados,
tornando mais provável que represente a relação real entre X
e Y. Em contraste, a função complexa é provavelmente uma descrição detalhada das flutuações
aleatórias dos dados, além da correlação positiva entre X e Y.
FIGURA 5.4 A superioridade da simplicidade — tudo o mais sendo igual.

Isso não quer dizer que curvas complexas nunca sejam justificadas. Se houver
dados suficientes e forem gerados por um processo complexo, um modelo elaborado
pode muito bem ser justificado. No entanto, tudo o mais sendo igual, é mais provável
que a explicação mais simples esteja correta.
Decisões fortes e fracas

Um teste de hipótese leva a uma de duas decisões; rejeite H0 ou retenha H0 . As
decisões são qualitativamente diferentes: a primeira é uma decisão forte, enquanto
a segunda é uma decisão fraca.4 A rejeição é uma decisão forte porque é compelida
por evidências informativas improváveis que contradizem fortemente H0 .
Em contraste, a decisão de reter H0 é uma escolha relativamente mais fraca porque
a evidência nada mais é do que consistente com o que já esperávamos e assumimos
ser assim, que H0 é verdadeira. Em outras palavras, o valor observado da estatística
de teste não é surpreendente e, portanto, não informativo.
Se os testes da vacina contra a poliomielite de Salk tivessem mostrado que os
receptores da vacina real tinham o mesmo risco de contrair a doença que os
receptores do placebo, a H0 ficaria intacta e ninguém ficaria surpreso com o fracasso
da vacina. Nada havia funcionado até aquele momento, então teria sido apenas mais
um dia frustrante no laboratório. Claro que não foi isso que realmente aconteceu, e o
curso da história médica foi alterado. A decisão de Salk de rejeitar H0 foi forçada por
uma taxa de infecção no grupo tratado que foi surpreendentemente menor do que
no grupo placebo.
É desta forma que uma decisão de rejeitar H0 é fundamentalmente uma decisão
mais forte do que uma decisão de reter H0 . É uma decisão forçada por evidências
suficientemente fortes para refutar uma dúvida inicial e inteiramente razoável de que
novos conhecimentos foram descobertos. Em contraste, a decisão de reter H0 se
deve à ausência de evidências convincentes. A ausência de provas convincentes
não significa que a nulidade seja necessariamente verdadeira ou mesmo
provavelmente verdadeira.5 Significa simplesmente que pode ser verdade. Como a
ciência adota uma postura conservadora em relação ao novo conhecimento, na
ausência de evidências convincentes, a conclusão mais razoável é que nada de novo foi descoberto
TESTE DE HIPÓTESES: A MECÂNICA
“Três ingredientes são normalmente necessários para um teste de hipótese: (1)

uma hipótese, (2) uma estatística de teste e (3) alguns meios de gerar a distribuição
de probabilidade (distribuição de amostragem) da estatística de teste sob a suposição
de que a hipótese é verdadeira.”6 O termo estatística de teste refere-se à estatística
de amostra que está sendo usada para testar uma hipótese. Assim, os termos são
intercambiáveis.
Para recapitular esses itens no que se refere ao teste de regras: (1) a hipótese
H0 é que a regra tem um retorno esperado de zero ou menos, (2) a
estatística de teste é o retorno médio da regra obtido por backtesting
em uma amostra histórica de dados, e (3) a distribuição amostral representa o
variação no retorno médio da regra se ela fosse testada em muitas amostras independentes. A
distribuição amostral é centrada em um retorno médio de
zero, refletindo a suposição afirmada por H0 .
Conforme discutido no Capítulo 4, a distribuição amostral pode ser derivada em
duas maneiras: a abordagem analítica da estatística clássica e via computador
simulação. Existem duas abordagens baseadas em computador: Monte-Carlo por mutação e
bootstrap. Ambos serão usados no estudo de caso apresentado
na Parte Dois.
A pergunta: a estatística de teste é improvável?

A ideia básica de um teste de hipótese é simples: um resultado (observação)
que raramente aconteceria sob a condição de que a hipótese fosse
verdadeiro é uma boa evidência de que a hipótese não é verdadeira.”7 Se minha hipótese
que sou um bom tenista fosse verdade, então seria raro (improvável) eu perder 20 jogos
seguidos. Para minha surpresa e constrangimento,
perdeu 20 jogos seguidos. Essa evidência implica que minha hipótese é falsa.
Suponha que uma regra TA chamada MA50 seja testada novamente. A regra MA50 é
definida da seguinte forma: Se o fechamento do S&P 500 for maior que uma média móvel de 50 dias,
mantenha uma posição longa no S&P 500, caso contrário, mantenha uma posição curta. o
hipótese alternativa (HA) afirma que a regra tem poder preditivo e
espera-se, portanto, obter uma taxa de retorno maior que zero nos dados de tendência.8 Zero é
a taxa de retorno esperada para uma regra sem poder preditivo. A hipótese nula (H0 ) afirma
que os MA50s esperados
retorno é igual a zero ou menos. A afirmação de H0 está representada na Figura 5.5.
Valor do parâmetro de população

Afirmado por H0
FIGURA 5.5 Valor do parâmetro populacional afirmado por H0.

O eixo horizontal representa o retorno esperado no futuro prático imediato.
O retorno médio de MA50 é obtido testando a regra em uma amostra de

data histórica. Quando esse valor é plotado no mesmo eixo do valor hipotético
para o parâmetro populacional, obtemos a Figura 5.6.
Observe que na Figura 5.6 há um desvio positivo entre o valor
previsto por H0 e o desempenho da regra obtida no back test.
Isso levanta a questão: o desvio positivo é tão surpreendente que H0
deve ser rejeitada como uma hipótese implausível?
Há duas explicações possíveis para o desvio positivo. Isto
pode ser simplesmente devido a um erro de amostragem - a regra teve sorte no
amostra de dados usada para back-testing - ou, pode ser porque o valor da
hipótese de zero está errado - a regra tem poder preditivo e seu
o retorno esperado é realmente maior que zero. O objetivo do teste de hipótese
é determinar se a evidência, especificamente o tamanho do desvio positivo, é
suficientemente rara, surpreendente ou improvável para justificar
uma rejeição de H0 .
Para avaliar a improbabilidade da evidência, a média observada
o retorno, em particular o seu desvio do valor hipotético, é avaliado à luz da
distribuição amostral. Lembre-se, a amostragem dá a
probabilidade de vários desvios de tamanho entre o valor observado de
a estatística amostral e seu valor esperado devido ao erro amostral. Se o
o desvio do valor observado for maior do que o que poderia ser razoavelmente
atribuído ao erro de amostragem, então H0 é rejeitado e a hipótese alternativa,
HA, é adotada. Em outras palavras, concluímos que a regra
poder preditivo.
A Figura 5.7 nos dá uma noção intuitiva dos valores da estatística da amostra

Afirmado por H0
Testado
Desempenho
da regra
Desvio
FIGURA 5.6 Valor hipotético do parâmetro populacional comparado com o

desempenho do backtested.

Afirmado por H0
por
Retorno Médio
Desvio
FIGURA 5.7 Evidências não surpreendentes estão bem dentro da faixa de variação da
amostragem; H0 não rejeitado.
que pode ocorrer devido à variabilidade da amostragem. Observe que a distribuição de

amostragem está posicionada de forma que o valor mais provável do retorno seja zero. este
apenas reflete o valor do parâmetro de população afirmado por H0 . Também
observe que o valor observado (backtested) do retorno médio da regra cai
bem dentro da faixa de variação aleatória permitida pela distribuição da amostragem.
Este é um resultado que não surpreende. Em outras palavras, o desvio entre o valor
observado da estatística de teste e a hipótese
(previsto) pode ser facilmente devido a um erro de amostragem. Portanto, a evidência
não é forte o suficiente para justificar a rejeição de H0 .
A Figura 5.7 deixa claro que a largura da distribuição amostral é
crítico para decidir se o desvio entre o retorno observado e o
o retorno hipotético é grande o suficiente para justificar a rejeição de H0 . Nós vimos
no Capítulo 4 que a largura da distribuição amostral de uma estatística é determinada por
dois fatores: (1) a quantidade de variação dentro da população-mãe que deu origem à
amostra e (2) o número de observações
que compõem a amostra. Com relação ao primeiro fator, quanto maior a
variabilidade dos dados que compõem a população, neste caso retornos diários, quanto
maior for a largura da distribuição amostral. Com respeito ao
segundo fator, quanto maior o número de observações que compõem a amostra, menor
a largura da distribuição amostral.
Na Figura 5.8 a distribuição amostral é relativamente estreita. O valor observado da
estatística amostral encontra-se na cauda externa direita da distribuição amostral. Isso
seria considerado improvável ou surpreendente
observação e que seria incompatível com a hipótese
valor. Tal evidência justificaria a rejeição de H0 .

Afirmado por H0
por
Retorno Médio
Desvio
FIGURA 5.8 Evidência surpreendente (improvável) na borda externa da faixa de

variação amostral; H0 rejeitado.
Esses diagramas transmitem uma noção intuitiva de como o tamanho do desvio entre
um valor observado e um valor hipotético (o valor previsto pela hipótese) é usado para
falsificar uma hipótese. Para ser rigoroso,
esta intuição deve ser quantificada. Isso é feito traduzindo a observação
desvio do valor em uma probabilidade - especificamente a probabilidade de observar um
desvio tão grande sob a condição de que o valor hipotético
é verdade. Uma probabilidade que depende da existência de um determinado
condição, neste caso que o valor hipotético é verdadeiro, é chamado de probabilidade
condicional. Dito de outra forma, uma probabilidade condicional é uma probabilidade
condicionada à veracidade de algum outro fato.
Em um teste de hipótese, essa probabilidade condicional recebe o valor especial
nome p-valor. Especificamente, é a probabilidade de que o valor observado de
a estatística de teste poderia ter ocorrido condicionado (dado que) o
hipótese que está sendo testada (H0 ) é verdadeira. Quanto menor o valor de p, maior é
nossa justificativa para questionar a verdade de H0 . Se o valor p for
inferior a um limiar, que deve ser definido antes da realização do ensaio,
H0 é rejeitado e HA aceito. O valor-p também pode ser interpretado como
probabilidade H0 será erroneamente rejeitada quando H0 for de fato verdadeira. Valor P
também tem uma interpretação gráfica. É igual à fração da área total da distribuição
amostral que se encontra em valores iguais e maiores que
o valor observado da estatística de teste.
Vamos considerar como tudo isso se refere ao teste de uma regra. Por exemplo, se
o retorno de uma regra em um teste de retorno foi de +3,5%, marcamos o valor
+3,5 por cento no eixo horizontal sobre o qual a distribuição da amostragem
senta. Em seguida, determinamos a fração da área da distribuição amostral
ocupando valores iguais ou superiores a +3,5 por cento. Suponha que essa área
seja igual a 0,10 da área total da distribuição amostral. O valor 0,10 é o valor p da
estatística amostral. Esse fato equivale a dizer que, se o retorno verdadeiro da
regra fosse zero, há uma probabilidade de 0,10 de que seu retorno em um backtest
atinja um valor tão alto quanto +3,5% ou mais devido à variabilidade amostral
(chance). Isso é ilustrado na Figura 5.9.
valor p, significância estatística e

Rejeitando a Hipótese Nula
Um segundo nome para o valor-p da estatística de teste é a significância estatística
do teste. Quanto menor o valor de p, mais significativo estatisticamente o resultado
do teste. Um resultado estatisticamente significativo é aquele para o qual o valor
de p é baixo o suficiente para justificar a rejeição de H0 .
Quanto menor o valor p de uma estatística de teste, mais confiantes podemos
estar de que a rejeição da hipótese nula é uma decisão correta. O valor-p pode ser
considerado como o grau em que o valor observado da estatística de teste está de
acordo com a hipótese nula (H0 ). Valores de p maiores significam maior
conformidade e valores menores significam menos conformidade. Esta é
simplesmente outra maneira de dizer que quanto mais surpreendente (improvável)
uma observação é em relação a uma dada visão do mundo (a hipótese), mais
provável é que a visão de mundo seja falsa.
Quão pequeno o valor-p precisa ser para justificar uma rejeição de H0 ? Isso
é específico do problema e está relacionado ao custo que seria incorrido por uma
rejeição errônea. Vamos lidar com a questão dos erros e seus custos em um
momento. No entanto, existem algumas normas que
Hipótese Nula e
Retorno Médio
Estatística de teste:
+3,5% valor p = 0,10
0
Área = 0,10 da distribuição amostral total
FIGURA 5.9 P-Value: área fracionária de distribuição amostral maior que +3,5%,
probabilidade condicional de +3,5% ou mais, dado que H0 é verdadeiro.
são comumente usados. Um valor p de 0,10 é frequentemente chamado de

possivelmente significativo. Um valor de p de 0,05 ou menos é normalmente
denominado estatisticamente significativo e geralmente é considerado o maior valor
de p que daria a um cientista licença para rejeitar H0 . Quando o valor de p é 0,01 ou
menos, é chamado de muito significativo e valores de 0,001 ou menos são
denominados altamente significativos.
Conclusões e Erros do Teste

Um teste de hipótese leva a uma de duas conclusões possíveis: (1) rejeitar H0 ou (2)
aceitar H0 . O que é verdade também tem duas possibilidades: (1) H0 é verdade, ou
seja, o retorno esperado da regra é zero ou menor); ou (2) H0 é de fato falso, ou seja,
o retorno esperado da regra é maior que zero porque possui algum grau de poder
preditivo. Dado que o teste tem duas conclusões possíveis e a verdade tem dois
estados possíveis, existem quatro resultados possíveis. Eles podem ser ilustrados por
uma tabela com quatro células mostradas na Figura 5.10.
O teste de hipóteses pode errar de duas maneiras. Diz-se que um erro do tipo I
ocorre quando um valor p baixo nos leva a rejeitar H0verdadeiro.
, mas na realidade
Esse seria
H0oécaso
quando uma regra é realmente desprovida de poder preditivo, mas por sorte ela gera
um backtest suficientemente lucrativo para que seu valor p seja baixo o suficiente
para justificar a rejeição de H0 . Este é um caso do pesquisador de regras sendo
enganado pela aleatoriedade. O segundo tipo de erro, chamado erro tipo II, ocorre
quando um valor p alto nos leva a reter H0 , quando na verdade é falso.
Em outras palavras, o back test nos enganou ao concluir que a regra não tem poder
preditivo, mas na verdade tem e seu retorno esperado é maior que zero.
Verdade
(A realidade só conhecida por Deus)
H0 Verdadeiro
Retorno de regra < = 0
H0 Falso
Retorno de regra > 0
Alto Decisão correta Erro Tipo II

Valor P Regra de AT inútil Regra TA Boa
H0 Nós o descartamos Nós não usamos
Teste Não Perda de oportunidade
Resultado Rejeitado
&
Baixo Erro tipo I Decisão correta
Conclusão Regra de AT inútil Regra TA Boa
Valor P
Nós o usamos Usamos Regra e
H0 Ganhe Retorno Zero Faça lucros
Rejeitado
& Correr risco
FIGURA 5.10 Possíveis resultados de um teste de hipóteses.

No momento em que o teste de hipótese é realizado, só Deus sabe ao certo se

ocorreu um erro e de que tipo. Meros mortais confiando em inferência estatística
devem aceitar a realidade de que a conclusão do teste pode estar errada.
Do ponto de vista de um técnico objetivo, os dois tipos de erros têm

consequências diferentes. Um erro do tipo I, onde H0 é rejeitado erroneamente, leva
ao uso de uma regra sem valor. Isso expõe o capital de negociação ao risco sem a
perspectiva de compensação. Um erro do tipo II faz com que uma regra útil seja
ignorada, resultando em oportunidades de negociação perdidas. Dos dois tipos de
erro, o tipo I é o mais grave. Capital comercial perdido é pior do que oportunidades
perdidas. Quando o capital está esgotado, está fora do jogo, enquanto sempre
haverá outras oportunidades de negociação.
O teste de hipótese também pode estar certo de duas maneiras: uma rejeição
correta aderegra
H0 ,TA
quando
é inútil.
a regra tem mérito, e uma aceitação correta de H0 , quando
MÉTODOS INTENSIVOS DE COMPUTADOR PARA GERAR

A DISTRIBUIÇÃO DE AMOSTRAGEM
Como mencionado anteriormente, o teste de hipóteses requer um método para

estimar a forma da distribuição amostral da estatística de teste. Há duas maneiras
de fazer isso: a abordagem tradicional das estatísticas matemáticas e os métodos
de randomização intensivos em computador desenvolvidos mais recentemente. Esta
seção discute dois métodos baseados em computador: bootstrap ping e a permutação
de Monte Carlo.
Ambas as abordagens tradicionais e intensivas em computador resolvem o
problema de estimar o grau de variação aleatória em uma estatística de teste quando
há apenas uma única amostra de dados e, portanto, apenas um único valor da
estatística de teste. Como afirmado anteriormente, um único valor de uma estatística
não pode transmitir uma noção de sua variabilidade.
Métodos intensivos em computador estimam a forma da distribuição amostral
reamostrando aleatoriamente (reutilizando) a amostra original de observação para
produzir novas amostras geradas por computador. Uma estatística de teste é então
calculada para cada reamostragem. Este procedimento pode ser repetido quantas
vezes desejar, talvez milhares de vezes, produzindo assim um grande conjunto de
valores para a estatística amostral. A distribuição de amostragem é desenvolvida a
partir desse grande conjunto de valores gerados por computador. Pode parecer
estranho que a reutilização da amostra original de observações repetidas vezes
permita aproximar a variabilidade de uma estatística amostral, mas isso acontece!
Não só isso funciona muito bem na prática, a abordagem é fundamentada em uma
teoria matemática sólida.
Os dois métodos intensivos em computador, o bootstrap e o Monte

Carlo permutação, são semelhantes, pois ambos dependem de randomização.
Ou seja, eles reamostram aleatoriamente a amostra original. No entanto, os dois
métodos são diferentes em vários aspectos importantes. Primeiro, eles testam
versões ligeiramente diferentes de H0 . Embora, em ambos, H0 afirme que o
A regra que está sendo testada não tem poder preditivo, eles o fazem de maneiras
ligeiramente diferentes. O H0 testado pelo bootstrap afirma que a distribuição populacional
dos retornos das regras tem um valor esperado de zero ou menos. Dentro
contraste, o H0 testado pelo método de permutação de Monte Carlo afirma
que os valores de saída da regra (+1 e –1) são emparelhados aleatoriamente9 com futuras
mudanças de preços de mercado. Em outras palavras, afirma que a saída da regra é um
ruído não informativo que poderia ter sido gerado com a mesma facilidade
por uma roleta.
Porque os métodos bootstrap e Monte Carlo testam um pouco
diferentes versões da hipótese nula, elas requerem dados diferentes. o
bootstrap utiliza um histórico diário de retornos de regras. O Monte Carlo utiliza um
histórico diário dos valores de saída da regra (ou seja, uma sequência de +1 e –1's)
e um histórico diário de mudanças de preços para o mercado que está sendo negociado.
Os dois métodos também usam diferentes métodos de amostragem aleatória. o
bootstrap usa um método de randomização chamado reamostragem com substituição,
enquanto o Monte Carlo emparelha aleatoriamente os valores de saída da regra com
retornos de mercado sem reposição. Essa distinção será esclarecida em
a descrição do algoritmo de cada método.
Devido a essas diferenças, os métodos geram distribuições amostrais um tanto
diferentes. Portanto, é possível que a conclusão de
rejeitar ou não rejeitar H0 pode não ser sempre o mesmo. No entanto, extensa
simulações conduzidas pelo Dr. Timothy Masters, desenvolvedor do Monte
método de permutação de Carlo, mostre que ambos os métodos geralmente concordam
quando são aplicados a dados de mercado sem tendência. Por esta razão, os testes de
hipóteses conduzidos neste livro usam dados de mercado de tendência para ambos
os métodos bootstrap e Monte Carlo.
A distinção final do método de permutação de Monte Carlo é que ele
é de domínio público, enquanto o método bootstrap que é adequado para
teste de regras é um produto patenteado que está disponível apenas de seu desenvolvedor,
Quantmetria.10
O Bootstrap
O método bootstrap foi descrito pela primeira vez por Efron11 em 1979 e depois refinado
em várias publicações posteriores citadas no Computer Inten de Eric Noreen 12 O bootstrap
Métodos sivos para testar hipóteses. deriva uma amostra
distribuição da estatística de teste por reamostragem com substituição de um
amostra original.
O bootstrap é baseado em um fato matemático verdadeiramente surpreendente, o

teorema de bootstrap. Um teorema matemático deduz uma verdade anteriormente não
reconhecida dos teoremas estabelecidos e suposições fundamentais (axiomas) de um sistema
matemático. Supondo que certos
condições razoáveis são satisfeitas, o teorema de bootstrap nos garante que
ele convergirá para uma distribuição de amostragem correta à medida que o tamanho da amostra for
ao infinito. Do ponto de vista prático, isso significa que, dada uma única amostra de observações,
o bootstrap pode produzir a distribuição amostral
necessários para testar a significância de uma regra TA.
Em sua forma básica, o bootstrap não é adequado para avaliar a significância estatística
de regras descobertas pela mineração de dados. No entanto, uma modificação inventada e
patenteada pelo Dr. Halbert White, professor de economia
na Universidade da Califórnia, San Diego, estendeu a aplicação do
bootstrap para regras descobertas pela mineração de dados. Essa modificação no
bootstrap, que é incorporado em um software chamado “Forecaster's Reality
Check”, é discutido no Capítulo 6 e utilizado no Capítulo 9 para avaliar a
significância estatística de mais de 6.000 regras para negociação do S&P 500.
Procedimento Bootstrap: Verificação da Realidade das Brancas. A descrição

que segue se refere ao uso de bootstrapping no contexto de testes
o teste de significância estatística de uma única regra TA. Assim, a descrição a seguir não
aborda a questão da mineração de dados. A Figura 5.11 ilustra
Reamostra 3 Reamostra 2
1.231 Observações 1.231 Observações
BS Média = 1,9 BS Média = -1,8
Reamostra 1
1.231 Observações
BS Média = 0,8
Devoluções da regra testada
Reamostrar 5.000
1.231 Observações 1.231 Observações
BS Média = -2,6
Média da amostra após
Ajuste = 0%
5000
Meios reamostrados
Média de 5.000 Médias
1------ 0,8 0%
2------ -1,8
3------ 1,9
5000 --- -2,6 Distribuição de Amostragem Inicializada

da média
FIGURA 5.11 Como o bootstrapping produz a distribuição de amostragem para o

retorno médio da amostra.
o procedimento de bootstrap. As setas duplas entre cada reamostragem e

a amostra original indica que a amostragem está sendo feita com reposição (explicada
abaixo).
Há várias coisas dignas de nota na Figura 5.11. Primeiro, a amostra original,
representada pelo oval grande, é composta pelos retornos diários
ganhos pela regra sobre dados descompensados. Conforme discutido no Capítulo 1, os
dados de mercado de tendência têm uma variação média diária de zero.
Segundo, antes do início da operação de reamostragem, os retornos diários de
a regra é ajustada por um procedimento chamado de centragem zero, que não deve ser
confundido com o destrendamento. O ajuste de centragem zero torna a média
retorno diário da regra igual a zero. Em outras palavras, se a regra fosse capaz de
obter um retorno diferente de zero em dados descontinuados, seus retornos devem ser
centrados em zero. Isso serve para adequar os retornos diários ao H0 , que afirma que seu
valor médio é igual a zero.
Esta etapa é realizada primeiro calculando o retorno médio diário do
regra e, em seguida, subtrair esse valor médio de cada retorno diário da regra.
Uma vez que os retornos diários da regra tenham sido centrados em zero desta forma,
estão em posição de gerar uma distribuição de amostragem que está em conformidade com H0 's
suposição.
Terceiro, o número de observações diárias que compõem cada reamostra
deve ser exatamente igual ao número de observações na amostra original.
O teorema de bootstrap só é válido se o número de observações em
cada reamostra é igual ao número de observações na amostra original. Na figura, a amostra
original é composta por 1.231 observações.
Assim, cada reamostragem bootstrap também é composta por 1.231 observações.
Quarto, cada reamostra é produzida por amostragem com reposição.
Isso significa que depois que um retorno de regra diário foi selecionado aleatoriamente de
a amostra original e seu valor foi anotado, ela é então substituída de volta
na amostra original antes que outro retorno diário seja selecionado aleatoriamente.
Isso permite que um retorno diário individual seja selecionado mais
mais de uma vez ou que nunca seja selecionado para uma determinada reamostragem. É isto
elemento de aleatoriedade que permite que o procedimento de bootstrap modele o
variabilidade na estatística amostral.
Quinto, o diagrama mostra 5.000 reamostras sendo tomadas. Uma média é calculada
para cada reamostra. Esses 5.000 meios são usados para construir o
distribuição amostral da média.
A sequência de etapas envolvidas no bootstrap da distribuição amostral da média é:
1. Calcule o retorno médio diário para a regra sobre as observações em

a amostra original (1.231 na Figura 5.11).
2. Centragem zero: Subtraia o retorno médio diário do retorno de cada dia na amostra
original.
3. Coloque os dados centrados em zero em um bucket.
4. Selecione um retorno diário aleatoriamente do bucket e anote seu valor.
5. Coloque esse retorno de volta no balde e, em seguida, mexa bem o balde (alguns estatísticos
preferem suas amostras agitadas em vez de agitadas).
6. Execute as etapas 4 e 5 exatamente N – 1 vezes mais (por exemplo, 1.230) criando um total
de N (1.231) observações selecionadas aleatoriamente. Isso conclui a primeira amostra
de bootstrap.
7. Calcule o retorno médio para as N (1.231) observações na primeira reamostragem. Este é

um valor da média de bootstrap.
8. Execute as etapas 6 a 9 um grande número de vezes (5.000) produzindo um

grande número de meios bootstrap.
9. Forme a distribuição amostral das médias.
10. Compare o retorno médio observado da regra com a distribuição amostral e determine a
fração das 5.000 médias que compõem a distribuição amostral que excede o retorno médio
observado da regra para determinar o valor-p. Consulte a Figura 5.12.
Método de Permutação de Monte Carlo [MCP]

A simulação de Monte Carlo, inventada por Stanislaw Ulam (1909-1984), é um método geral para
resolver problemas matemáticos por amostragem aleatória.
O método de permutação de Monte Carlo para teste de regras foi desenvolvido pelo Dr. Timothy
Masters. Ele é o primeiro a propor essa abordagem como forma de
Hipótese Nula
0%
Média
Regresso
de
Testado
Regra
valor p = 0,04
FIGURA 5.12 Comparando o retorno médio da regra com a distribuição de amostragem

bootstrap da média.
produza a distribuição de amostragem para testar a significância estatística do desempenho

de uma regra de backtesting. É apresentado como uma alternativa à verificação da realidade
de White.
Embora o método de Monte Carlo exista há muito tempo, ele não havia sido aplicado
anteriormente ao teste de regras. Isso foi possível pela percepção do Dr. Masters de que o
método de Monte Carlo poderia gerar a distribuição amostral de uma regra sem poder
preditivo. Isso é feito emparelhando ou permutando aleatoriamente os retornos diários
destendidos do mercado (por exemplo, S&P 500) com a série temporal ordenada13
representando a sequência de valores de saída da regra diária. Lembre-se de que o H0
testado pelo método de permutação de Monte Carlo afirma que os retornos da regra que está
sendo avaliada são uma amostra de uma população de retornos que foram gerados por uma
regra sem poder preditivo. Os retornos diários de tal regra podem ser simulados emparelhando
aleatoriamente os valores de saída da regra (+1 e –1) com as mudanças de preço do
mercado. O emparelhamento aleatório dos valores de saída da regra com as mudanças do
mercado destrói qualquer poder preditivo que a regra possa ter. Refiro-me a esse
emparelhamento aleatório como uma regra de ruído.
O processo de emparelhar aleatoriamente as mudanças de preço de mercado com os

valores de venda de saída é ilustrado na Figura 5.13. As séries temporais diárias de valores
de saída da regra são simplesmente aquelas que foram produzidas pela regra que está
sendo avaliada em sua ordem original. Depois que a sequência de valores de saída foi
emparelhada aleatoriamente com o que é efetivamente uma versão embaralhada do histórico
do mercado, o retorno médio diário da regra de ruído pode ser calculado.
Esse valor aparece na caixa cinza no final de cada linha. Para produzir a distribuição
amostral, precisamos de muitos desses valores.
Série Temporal de
Valores de saída da regra +1 +1 +1 +1 -1 -1 -1 -1 -1 -1
SP500 randomizado Significa
Retorno1 -0,8 +0,3 -0,9 -2,6 +3,1 +1,7 -0,8 -2,6 +1,2 -0,4 Retorno1
Regra aleatória
-0,8 +0,3 -0,9 -2,6 - 3,1 -1,7 +0,8 +2,6 -1,2 +0,4
-0,62
Retorno1

-0,4 +1,2 -2,6 -0,8 +1,7 +3,1 -2,6 -0,9 +0,3 -0,8
Retorno2 Retorno2
Regra aleatória
-0,34
Retorno2 -0,4 +1,2 -2,6 -0,8 -1,7 - 3,1 +2,6 +0,9 -0,3 +0,8
Retorno3 -2,6 +1,7 -0,4 -0,9 -0,8 -0,8 +0,3 +1,2 -2,6 +3,1 Retorno3
Regra aleatória
-0,26
-2,6 +1,7 -0,4 -0,9 +0,8 +0,8 -0,3 -1,2 +2,6 -3,1
Retorno3
FIGURA 5.13 Método de permutação de Monte Carlo.

Para produzir valores adicionais de retornos médios da regra de ruído, a mesma série
temporal de valores reais de saída da regra é emparelhada com (permutadas com) várias
versões embaralhadas (randomizadas) de alterações de preço de mercado. A ilustração mostra
apenas três permutações de Monte Carlo, mas na prática isso seria feito um grande número de
vezes, talvez 5.000. Os 5.000 valores de retorno médio são então usados para formar a
distribuição amostral do retorno médio obtido por uma regra de ruído – uma regra sem poder
preditivo.
Procedimento. A sequência de etapas para gerar a distribuição amostral pelo método de

permutação de Monte Carlo é a seguinte:
1. Obtenha uma amostra das mudanças de preço de mercado de um dia para o período de
tempo durante o qual a regra TA foi testada, eliminada conforme descrito no Capítulo 1.
2. Obtenha a série temporal dos valores diários de saída da regra durante o período de back-
test. Suponha para esta ilustração que havia 1.231 desses valores, um valor de saída de
regra para cada dia em que a regra foi testada.
3. Coloque em um pedaço de papel as mudanças de preço de um dia à frente de tendência

do mercado. Coloque-os em uma vasilha e mexa.
4. Selecione aleatoriamente uma alteração de preço de mercado do compartimento e

emparelhe-a com o primeiro valor de saída da regra (mais antigo). Não coloque a mudança
de preço de volta na lixeira. Em outras palavras, esta amostragem está sendo feita sem
reposição.
5. Repita a etapa 4 até que todos os retornos na bandeja tenham sido emparelhados com um
valor de saída de regra. Neste exemplo, haverá um total de 1.231 desses pares.
6. Calcule o retorno para cada um dos 1.231 pares aleatórios. Isso é feito multiplicando o
valor de saída da regra (+1 para longo, -1 para curto) pela mudança de preço de um dia
para frente do mercado.
7. Calcule o retorno médio para os 1.231 retornos obtidos na etapa 6.
8. Repita as etapas de 4 a 7 um grande número de vezes (por exemplo, 5.000).
9. Forme a distribuição amostral dos 5.000 valores obtidos na etapa 8.
10. Coloque a taxa de retorno da regra testada na distribuição amostral e calcule o valor p (a
fração de retornos aleatórios da regra igual ou maior que o retorno da regra testada).
Aplicação de métodos intensivos de

computador para back-test de uma única regra
Esta seção demonstra a aplicação dos dois métodos de teste de hipóteses intensivos em
computador a uma única regra: rompimento do canal de 91 dias14 us
utilizando o Dow Jones Transportation Index (série de entrada 4) como série de

entrada da regra. Essa regra, que é designada como TT-4-91, e todas as outras
testadas na Parte Dois deste livro são descritas em detalhes no Capítulo 8. O
ponto principal para os propósitos atuais é demonstrar o teste de hipóteses. A
regra foi usada para gerar sinais longos e curtos no índice S&P 500 de novembro
de 1980 a junho de 2005. Durante esse período, a regra obteve um retorno
anualizado de 4,84% usando dados de tendência S&P 500 para calcular os
retornos diários da regra. O retorno anual esperado de uma regra sem poder
preditivo é zero em dados sem tendência.
Ambos os métodos bootstrap e de permutação de Monte Carlo foram usados
para testar a hipótese nula de que a regra não tem poder preditivo. A questão é
esta: o retorno de +4,84% do TT-4-91 é suficiente para rejeitar a hipótese nula?
Testando o Desempenho da Regra Usando Bootstrap: Verificação da

Realidade de White. Para gerar a distribuição amostral do retorno médio, as
etapas específicas tomadas a partir dos dados do S&P 500 sem tendência são:
1. Centralização zero dos retornos diários da regra: Como a regra gera um

retorno positivo (+4,84%) nos dados de mercado destendidos, o retorno
médio diário da regra (aproximadamente 0,0192% ao dia) é subtraído do
retorno obtido pelo governar cada dia. Essa transformação cria um conjunto
de retornos diários cujo valor médio é zero, fazendo com que os dados
fiquem em conformidade com H0 . Observação – isso não deve ser
confundido com a redução dos dados do S&P 500.
2. Reamostragem dos retornos diários: Os retornos diários centrados em zero,
conforme calculados na etapa anterior, são amostrados com reposição. Isso
deve ser feito exatamente 6.800 vezes (o número de observações na
amostra original) para que o Teorema de Bootstrap seja verdadeiro.
3. Calcular o Retorno Médio: O retorno médio diário é calculado para os 6.800
retornos reamostrados. Esta é a primeira média bootstrap.
4. Repita os passos 2 e 3 5.000 vezes. Isso obtém 5.000 valores para a média
re-amostrada.
5. Crie a distribuição bootstrap de médias reamostradas.
6. Compare o retorno de +4,84% da regra para a distribuição amostral para
determinar a fração da área da distribuição amostral que se encontra em
valores iguais ou superiores a +4,84% ao ano. Isso é feito contando a fração
das 5.000 médias bootstrap que possuem valores iguais ou maiores que
esse retorno.
Resultados: H0 Rejeitado—Regra Possivelmente Tem Poder Preditivo.

A Figura 5.14 mostra a distribuição de amostragem bootstrap com o real
0,12
TT- 4-91
0,10 +4,84%
0,08
0,06
valor p
0,04 0,069
0,02
-0,15 -0,10 -0,05 0 0,05 0,10 0,15

FIGURA 5.14 Distribuição de amostragem bootstrap para a regra TT-4-91 e seu valor p.
desempenho da regra TT-4-91 sobreposta. O valor p de 0,0692 indica que 0,069 das 5.000
médias bootstrap foram iguais ou maiores
de +4,84 por cento. Isso significa que se o retorno esperado da regra fosse
verdadeiramente igual a zero, cerca de 7 vezes em 100, a regra daria um retorno
de +4,84 por cento ou mais simplesmente devido ao acaso (variabilidade de amostragem).
Os estatísticos considerariam tal resultado como possivelmente significativo. Como será
visto no Capítulo 6, a quantidade de busca que levou à descoberta do
regra, especificamente se a regra foi encontrada entre um grande grupo de
regras retrotestadas, podem afetar o valor p e a significância da regra. Conseqüentemente, os
resultados aqui citados assumem que esta foi a única regra proposta para o backtesting.
Testando o desempenho da regra com a permutação de Monte Carlo

Método. As etapas a seguir descrevem o processo de aplicação do
Método de Permutação de Monte Carlo para o desempenho testado de uma regra:
1. A série temporal dos valores diários de saída da regra é apresentada em sua sequência
adequada ao longo do período de tempo do teste de retorno da regra. Como dito anteriormente
haverá 6.800 desses valores diários de +1 e –1.
2. Cada uma das 6.800 alterações de preço a prazo de um dia com tendência de baixa está em
escrito em uma bola. Essas 6.800 bolas são colocadas em uma lixeira.
3. A caixa é sacudida e, então, uma de cada vez, as bolas são sorteadas

aleatoriamente e combinadas com um valor de saída de regra individual. Assim,
cada um dos valores diários de saída da regra é correspondido com um único
retorno S&P 500 de um dia para frente. Isso é feito sem reposição até que todas
as bolas tenham sido pareadas com um valor de saída de regra. Como há
exatamente 6.800 retornos diários de mercado e 6.800 valores de saída da regra,
a caixa estará vazia quando essa etapa for concluída.
4. Multiplique cada valor de regra (+1 ou –1) pelo retorno S&P 500 associado.
Isso dá o retorno que seria ganho pela regra do ruído no dia seguinte. Esta etapa
produzirá 6.800 retornos diários de regras.
5. Faça a média dos 6.800 valores obtidos na etapa 4. Este é o primeiro retorno médio
permutado de Monte Carlo para uma regra de ruído.
6. Os passos 3 a 5 devem ser repetidos 5.000 vezes.
7. Produza a distribuição amostral das médias de 5.000 Monte Carlo.
8. Compare o retorno da regra TT-4-91 com a distribuição amostral e determine a
fração de Monte Carlo significa que iguala ou supera o retorno obtido pela regra.
Este é o valor-p.
Resultados de Monte Carlo: Regra Possivelmente Tem Poder Preditivo.

Confirmando o resultado do bootstrap, o método de Monte Carlo fornece um valor de p
quase idêntico.
ESTIMATIVA
A estimativa é a outra forma de inferência estatística. Em contraste com o teste de

hipóteses, que é orientado para a aceitação ou rejeição de uma afirmação feita sobre o
valor de um parâmetro populacional, o objetivo da estimativa é aproximar o valor do
parâmetro populacional. No nosso caso, ele será usado para estimar o retorno esperado
de uma regra.
Estimativas de pontos
Existem dois tipos de estimativas: ponto e intervalo. Uma estimativa pontual é um valor
único que se aproxima do parâmetro populacional, por exemplo, a regra tem um retorno
esperado de 10%. Uma estimativa de intervalo é um intervalo de valores dentro do qual
o parâmetro populacional se encontra com um determinado nível de probabilidade. A
seguinte declaração exemplificaria isso: O retorno esperado da regra está na faixa de
5% a 15% com uma probabilidade de 0,95.
Na verdade, já estamos fazendo estimativas pontuais, mas elas

não foi descrito como tal. Toda vez que computamos uma média amostral e
usá-lo para aproximar a média populacional, estamos fazendo uma estimativa pontual.
Este fato é facilmente esquecido. Alguns estimadores pontuais comumente usados são:
a média, a mediana, o desvio padrão e a variância. o
a estimativa é calculada a partir de uma amostra de observações retiradas da população.
Em outras palavras, uma estimativa pontual é uma estatística amostral. A fórmula
para calcular uma média amostral é mostrado na Figura 5.15.
O uso de meios (médias) é tão onipresente na AT que é tomado por
concedido, mas a média amostral acaba sendo um estimador elegante e poderoso. Ele
fornece um valor único que é, em um sentido importante, o melhor
(mais informativa) da média da população. Este é um fato importante.
O quão informativa é a média da amostra fica claro quando

considerar os critérios usados para julgar a qualidade de um estimador. Bons
estimadores devem ser: imparciais, consistentes, eficientes e suficientes. Em termos
desses quatro critérios, pode-se mostrar que a média amostral é o melhor estimador da
média populacional.15
Um estimador é imparcial se seu valor esperado for igual ao valor da população.
Dito de outra forma, se um estimador é imparcial, seus desvios de
o verdadeiro valor da população tem um valor médio de zero. A amostra
os desvios da média da média da população são imparciais. Isso nos permite
dizer que o retorno médio de uma regra em uma amostra histórica é uma estimativa
imparcial de seu retorno médio no futuro prático imediato.
Outro critério da qualidade de um estimador pontual é sua consistência.
Diz-se que um estimador é consistente se o seu valor converge para o valor de
Média da amostra da variável X
x1 +x2+ x3
+n . . .xn
x=
n
ÿ xi
eu = 1
x= n
Onde Xi é uma observação individual na variável X
FIGURA 5.15 Média da amostra da variável X.
o parâmetro populacional à medida que o tamanho da amostra aumenta. A Lei do Grande

Os números nos dizem que isso é assim para a média amostral.
Os estimadores também devem ser eficientes. Este critério diz respeito à largura
de sua distribuição amostral. Como mencionado anteriormente, um estimador é uma amostra
estatística e, portanto, tem uma distribuição amostral. O estimador mais eficiente é aquele
que produz a distribuição amostral mais estreita. Em outros
palavras, o estimador mais eficiente tem o menor erro padrão.16 Ambos
a média amostral e a mediana amostral são estimativas imparciais e consistentes da média
populacional para populações que são distribuídas simetricamente. No entanto, a média
amostral é mais eficiente do que a amostra
mediana. Para amostras grandes, o erro padrão da média é cerca de 80% menor que o erro
padrão da mediana da amostra.17
A característica final de um bom estimador pontual é chamada de suficiência. "Um
estimador é suficiente se fizer uso de todos os dados amostrais disponíveis
que nenhum outro estimador adicionaria qualquer informação sobre o parâmetro
sendo estimado.”18 A média amostral é suficiente nesse sentido.
Estimativas de Intervalo - O Intervalo de Confiança
Mais informativa do que a estimativa pontual é a estimativa intervalar, também

conhecido como intervalo de confiança. Ele é descrito nesta seção.
O que os intervalos de confiança nos dizem? Uma estimativa pontual tem valor limitado
porque não transmite nenhuma sensação de incerteza na estimativa.
por erro de amostragem. O intervalo de confiança resolve este problema por
combinar as informações da estimativa pontual com as informações
sobre a distribuição amostral do estimador.
Um intervalo de confiança é um intervalo de valores que circundam a estimativa
pontual. O intervalo é definido por valores superiores e inferiores chamados limites. Dentro
Além disso, o intervalo é acompanhado por um número de probabilidade que nos diz
quão provável é que o verdadeiro valor do parâmetro populacional caia dentro
os limites do intervalo de confiança. Por convenção a probabilidade é
declarado como uma porcentagem em vez de uma fração. Assim, um intervalo de confiança
de 90 por cento para a média tem uma probabilidade de 0,90 de incluir dentro de sua
limita o verdadeiro valor médio da população.
Ao pensar sobre o que um intervalo de confiança nos diz, é melhor
pense no que aconteceria se alguém construísse um grande número de 90
intervalos de confiança percentuais, cada um baseado em uma amostra independente de
dados retirados da população. Se isso fosse feito, cerca de 90 por cento
dos intervalos na verdade englobaria o valor da população
parâmetro. Por extensão, cerca de 10% dos intervalos de confiança
deixaria de incluir o parâmetro populacional. Isso é ilustrado na Figura 5.16 para 10 intervalos
de confiança. Dez é um número pequeno, que eu costumava
Média Populacional Verdadeira
Significa
&
90% de confiança
Erro
Intervalos 90% CI
Por Falha ao
10 Independente Fechar
Amostras População
Significa
FIGURA 5.16 Intervalos de confiança de 90 por cento (0,90 probabilidade correta).
mantenha a figura simples. A verdadeira, mas desconhecida, média populacional é indicada

pela letra grega ÿ (mu). A média amostral é identificada pelo ponto dentro de cada intervalo de
confiança. Observe que um dos intervalos de confiança não inclui a média populacional.
O pesquisador pode escolher qualquer nível de confiança desejado. Por exemplo, um nível
de confiança de 99 por cento contém a verdadeira média da população com uma probabilidade
de 0,99. É claro que há um preço a ser pago pelo nível mais alto de confiança – o intervalo é
mais amplo. Em outras palavras, o preço para uma maior confiança é a redução da precisão.
Observe na Figura 5.17, ao aumentar o nível de confiança para 99%, o erro cometido pelos 90%
Média da População Verdadeira
Média IC de 99%
e Correto
99% Onde
Confiança 90% CI
Intervalos Foi
Por 10 Errado
Independente
Amostras
FIGURA 5.17 Intervalos de confiança de 99 por cento (probabilidade de 0,99 correta).

intervalo de confiança na Figura 5.16 foi eliminado. A taxa de erro reduzida foi
conseguida usando um intervalo de confiança mais amplo (menos preciso).
Se uma regra fosse testada novamente em cem amostras independentes
de dados e um intervalo de confiança de 90% fosse construído sobre o retorno
médio observado em cada amostra, aproximadamente 90% desses intervalos
de confiança conteriam o retorno verdadeiro ou esperado da regra na
população . A Figura 5.18 mostra um intervalo de confiança de 90% para uma
regra que obteve um retorno de 7% em um teste de retorno. Podemos ter
certeza, com uma probabilidade de 0,90, que a regra tem um retorno esperado
entre 2% e 12%.
O intervalo de confiança e sua conexão com a distribuição amostral. Os

intervalos de confiança são derivados da mesma distribuição amostral que é
usada para calcular os valores p para um teste de hipótese. Dado o que já
aprendemos sobre erro amostral (variabilidade amostral), pode-se dizer que o
valor de uma média amostral é igual ao valor desconhecido da média
populacional, mais ou menos seu erro amostral.
Essa relação é mostrada pela fórmula superior na Figura 5.19. Ao variar os
termos desta fórmula, obtemos a fórmula inferior na Figura 5.19.
Ele diz que o valor da média da população é igual ao valor conhecido da
média da amostra mais ou menos o erro de amostragem.
A fórmula inferior nos diz que, embora não saibamos o valor preciso da
média populacional, podemos tomar o valor da média amostral, que
conhecemos, e a distribuição amostral da média, que também conhecemos,
e obter um intervalo de valores que contenha a média populacional com um
nível de probabilidade especificado. Em termos operacionais, isso nos diz
que, se repetirmos o procedimento a seguir 1.000 vezes - calcular uma média
amostral e um intervalo de confiança de 90% -
Devolução de regra
Foi 7% em
Amostra Histórica
90%
Confiança
Intervalo
2% 12%
7%
Taxa de Retorno
FIGURA 5.18 Intervalo de confiança de 90 por cento para o teste de retorno de regra.
A média amostral conhecida é

a média populacional desconhecida com erro
x=µ +/- Erro de Amostragem
A média populacional desconhecida é

a média amostral conhecida com erro
µ =x +/- Erro de Amostragem
FIGURA 5.19 A média amostral conhecida é a média populacional desconhecida com

erro.
a média da população estaria dentro de aproximadamente 900 dos 1.000 intervalos

de confiança. Este conceito é ilustrado quando o procedimento é repetido apenas
10 vezes na Figura 5.20. Observe que uma das 10 confianças
intervalos não incluem a média da população. O ponto desta seção é
que a largura do intervalo de confiança é derivada da largura da distribuição
amostral.
Como foi dito anteriormente, o intervalo de confiança é baseado na mesma
distribuição amostral que é usada no teste de hipóteses. No entanto, no caso
do intervalo de confiança, a distribuição amostral é simplesmente deslocada de
a posição que ocupa em um teste de hipótese. No teste de hipóteses, o
a distribuição amostral é centrada no valor hipotético da média populacional, por
exemplo, zero. No caso de um intervalo de confiança, a distribuição amostral é
centrada na média amostral, por exemplo, 7
por cento. Este conceito é ilustrado na Figura 5.21.
Gerando Intervalos de Confiança com o Bootstrap. A cintagem de inicialização

pode ser usada para derivar intervalos de confiança. O procedimento é quase
idêntico ao usado para gerar a distribuição amostral para um
teste de hipótese.
Existem vários métodos para calcular a confiança de bootstrap em intervalos.
O apresentado aqui, o método do percentil bootstrap, é popular, fácil de usar e
geralmente dá bons resultados. Mais sofisticado
métodos estão além do escopo deste texto.
Vale ressaltar que o método de permutação de Monte Carlo
não pode ser usado para gerar intervalos de confiança. Isto porque o
Amostragem
90% Distribuição da
Área média
Intervalos de Confiança
Derivado de
Significa
&
90% de confiança
Intervalos
para
10 Independente
Amostras
você
FIGURA 5.20 A conexão entre o intervalo de confiança e a distribuição amostral.
Hipotetizado
Retorno médio
Valor
em
População
Amostra Histórica
Parâmetro
Distribuição de amostras Distribuição de amostras

Posicionado para Posicionado para
Teste de hipótese Intervalo de confiança
0% 7%
FIGURA 5.21 A distribuição amostral posicionada para um teste de hipótese e posicionada para um intervalo
de confiança.
O método não tem nada a ver com estimar o valor de um parâmetro populacional ou testar uma
afirmação feita sobre seu valor. Como mencionado anteriormente,
o método de permutação de Monte Carlo testa uma afirmação sobre a informação
conteúdo dos sinais da regra. Especificamente, o H0 afirmado sob o Monte
O método de permutação de Carlo é que as posições longas e curtas ditadas por
a regra são desprovidos de informações úteis sobre futuras mudanças no mercado. Como não
há referência a um parâmetro populacional (por exemplo, retorno médio da regra), não há nada
para o qual criar um intervalo de confiança!
O procedimento de percentil de bootstrap para construir a confiança
intervalos funciona da seguinte forma: suponha que os retornos da regra tenham sido
reamostrados 5.000 vezes e uma média seja calculada para cada reamostragem. Isso seria
resultar em 5.000 valores diferentes para o retorno médio reamostrado. Nós sabemos
que devido à variabilidade da amostragem, essas médias serão diferentes. Em seguida, suponha
que o conjunto de 5.000 valores é organizado em ordem de classificação da média mais alta para
mais baixo. Então, dependendo do intervalo de confiança desejado, o maior x
por cento e mais baixo > x por cento dos valores são removidos da ordem
lista, onde
100 Intervalo de Confiança Desejado

ÿ
X=
2
Portanto, se um intervalo de confiança de 90% for desejado, deve-se remover

os 5 por cento mais altos e os 5 por cento mais baixos dos valores nas 5.000 re-amostradas
médias. Isso exigiria a remoção dos 250 e 250 mais altos
valores mais baixos da média reamostrada. Depois que esses valores extremos são removidos,
a média reamostrada mais alta restante seria o limite superior
do intervalo de confiança de 90 por cento e o menor restante reamostrado
média é o limite inferior. O intervalo de confiança de 99 por cento resultaria
removendo apenas os 25 mais altos (0,5 por cento superiores) e os 25 mais baixos (0,5 por
cento inferiores) do conjunto de 5.000 meios reamostrados que compõem o
distribuição de amostras.
Testes de hipóteses versus intervalos de confiança: conflito potencial. Alguns leitores

astutos podem ter imaginado um problema. É possível
para que um teste de hipótese e um intervalo de confiança levem a diferentes conclusões sobre
o retorno esperado de uma regra. Essa perspectiva decorre do fato
que um teste de hipótese se concentra na cauda direita da distribuição amostral
enquanto o intervalo de confiança se concentra na cauda esquerda da amostragem
distribuição. Isso significa que é possível para o limite inferior de 90 por cento
intervalo de confiança para implicar que há uma probabilidade de 5 por cento de que um
o retorno esperado da regra é menor que zero, enquanto um teste de hipótese realizado
no nível de significância de 0,05 rejeita H0 . Em outras palavras, é possível que o
intervalo de confiança para nos dizer que a regra não tem poder preditivo
enquanto a hipótese nos diz que tem. Em teoria, o teste de hipóteses e o
intervalo de confiança devem chegar à mesma conclusão nesta questão. Ou
seja, se o limite inferior de um intervalo de confiança de 90% nos diz que o
retorno esperado da regra é inferior a 0%, então um teste de hipótese no nível
de significância de 0,05 presumivelmente não rejeitaria a hipótese nula.
Conclusões conflitantes podem surgir quando a distribuição amostral não

é simétrica (ou seja, é assimétrica à direita ou à esquerda). Isso é ilustrado na
Figura 5.22. A distribuição amostral, que é claramente assimétrica à esquerda,
é mostrada em duas posições. Na parte inferior da Figura 5.22, a distribuição
amostral está posicionada como estaria para a realização de um teste de H0 .
Como menos de 5% da cauda direita da distribuição amostral está acima do
retorno médio da regra retrotestada, o teste indica que a regra é significativa
no nível 0,05. Em outras palavras, H0 pode ser rejeitado em favor da hipótese
alternativa, HA, que afirma que a regra tem um retorno esperado maior que
zero.
A parte superior da Figura 5.22 mostra a distribuição amostral como seria
posicionada para construir um intervalo de confiança de 90% usando o método
do percentil bootstrap. Observe que o limite inferior do intervalo de confiança
está abaixo de uma taxa de retorno zero. Isso nos diz que há uma probabilidade
maior que 0,05 de que a verdadeira taxa de retorno da regra seja menor que
zero. Em outras palavras, o intervalo de confiança de 90% leva a uma
conclusão oposta à conclusão do teste de hipótese. o
Retorno do Teste Retroativo Médio

Amostra Histórica
Limite Inferior
90% de confiança Distribuição de amostras
Intervalo abaixo de 0 Posicionado para
Intervalo de confiança
90% CI
0
Amostragem Nulo
Distribuição Hipótese Menos de 0,05 de
Posicionado para
Distribuição de Amostragem
Teste de Acima do Retorno Médio
Hipótese Nula
0 10
FIGURA 5.22 Conclusões potencialmente conflitantes: teste de hipótese versus
intervalo de confiança.
A figura mostra que a ambiguidade se deve à forma assimétrica da distribuição

amostral.
Felizmente, esse problema não afeta a pesquisa realizada neste livro, que
usa a média amostral como estatística de desempenho. O muito importante
Teorema do Limite Central nos assegura que a distribuição amostral da média
não será seriamente distorcida (assimétrica) enquanto o tamanho da amostra
for grande. Para recapitular, o Teorema do Limite Central nos diz que, à
medida que o tamanho da amostra aumenta, a distribuição amostral da média
tende a uma forma de sino simétrica. Outras estatísticas de desempenho
podem não se comportar dessa maneira. Em situações em que a distribuição
amostral não é simétrica, existem técnicas de bootstrap, que envolvem pivotar
a distribuição amostral para amenizar esse problema. Infelizmente, esses
outros métodos podem ter seus próprios problemas. De qualquer forma, tudo
isso faz com que o retorno médio seja uma estatística de desempenho atraente
para usar em testes de regras.
Intervalos de Confiança para a Regra TT-4-91. Esta seção fornece um

exemplo do intervalo de confiança para a regra TT-4-91. A Figura 5.23 mostra
o intervalo de confiança de 80 por cento sobreposto ao bootstrap
0,12
80%
0,10
0,08
0,06
0,04
0,02
-0,15 -0,10 -0,05 0 0,05 0,10 0,15
FIGURA 5.23 Distribuição de amostragem e intervalo de confiança de 80 por cento para a

regra TT-4-91.
distribuição amostral posicionada no retorno retro-testado observado da regra

de +4,84 por cento. O limite inferior do intervalo de confiança de 80% é
+0,62 por cento. O limite superior é +9,06 por cento. Isso nos diz que se a regra
TT-4-91 deveriam ser testados novamente em 100 amostras independentes de dados e um
intervalo de confiança de 80 por cento deveria ser colocado em torno do retorno médio
em cada amostra, em aproximadamente 80 das amostras, o verdadeiro retorno esperado
da regra estaria dentro do intervalo de confiança.
Mineração de dados
Viés: o tolo
Ouro de
AT objetivo
Na mineração
desempenhode dados de regras,
observado muitas regrasOu
é selecionado. sãoseja,
testadas novamente
a mineração dee dados
a regraenvolve
com a melhor
uma
competição de desempenho que leva à escolha de uma regra vencedora. O problema
é que o desempenho observado da regra vencedora, que permitiu que ela fosse
escolhida sobre todas as outras regras, exagera sistematicamente o desempenho da
regra no futuro. Esse erro sistemático é o viés de mineração de dados.
Apesar desse problema, a mineração de dados é uma abordagem de pesquisa útil.
Pode-se provar matematicamente que, de todas as regras testadas, a regra com o
maior desempenho observado é a regra com maior probabilidade de fazer o melhor no
futuro, desde que um número suficiente de observações seja usado para computar
estatísticas de desempenho . Em outras palavras, vale a pena explorar os dados,
mesmo que o desempenho observado da melhor regra seja positivamente enviesado.
Este capítulo explica por que ocorre o viés, por que deve ser levado em consideração
ao fazer inferências sobre o desempenho futuro da melhor regra e como tais inferências
podem ser feitas.
Começo introduzindo este tópico um tanto abstrato com várias anedotas, das
quais apenas uma está relacionada à mineração de dados de regras. São aperitivos
destinados a tornar o material posterior mais digerível. Os leitores que desejam iniciar o
curso principal imediatamente podem optar por pular para a seção intitulada “Mineração
de dados”.
As definições a seguir serão usadas ao longo deste capítulo e são colocadas aqui
para conveniência do leitor.
• Desempenho esperado: o retorno esperado de uma regra no futuro prático

imediato. Isso também pode ser chamado de verdadeiro desempenho da regra,
que é atribuível ao seu legítimo poder preditivo.
• Desempenho observado: a taxa de retorno obtida por uma regra em um back

teste.
• Viés de mineração de dados: a diferença esperada entre o desempenho observado da
melhor regra e seu desempenho esperado. A diferença esperada refere-se a uma diferença
média de longo prazo que seria obtida por numerosos experimentos que medem a diferença
entre o retorno observado da melhor regra e o retorno esperado da melhor regra.
• Mineração de dados: o processo de busca de padrões, modelos, previsão

regras, e assim por diante em grandes bancos de dados estatísticos.
• Melhor regra: a regra com o melhor desempenho observado quando muitas regras são
testadas novamente e seus desempenhos são comparados. • Dados na amostra: os
dados usados para mineração de dados (ou seja, teste de retorno de regra). • Dados fora da
amostra: dados não usados na mineração de dados ou back-testing
processo.
• Universo de regras: o conjunto completo de regras testadas novamente em uma mineração de dados
risco.
• Tamanho do universo: o número de regras que compõem o universo de regras.
CAINDO NO POÇO: CONTOS DO

VIENCIAMENTO DE MINERAÇÃO DE DADOS
Este relato a seguir é apócrifo. Alguns anos atrás, antes de começar a estudar estatística, fui
abordado por um empresário em busca de patrocinadores para um empreendimento do show
business que, segundo ele, seria extremamente lucrativo. O show era apresentar um macaco
que poderia escrever prosa shakespeariana dançando no teclado de um processador de texto.
A cada show, o macaco alfabetizado, a quem o promotor batizou de Bardo, era colocado
em um teclado e uma grande tela mostrava para uma platéia o que o macaco escrevia, enquanto
estava sendo escrito. Certamente, as pessoas correriam para ver o Bardo, e minha parte nas
vendas de ingressos renderia um belo retorno sobre o investimento necessário de US$ 50.000.
Pelo menos, essa foi a afirmação do promotor. “Não pode faltar!” foi seu refrão.
Fiquei intrigado, mas queria alguma prova de que o macaco poderia realmente produzir
prosa shakespeariana. Qualquer investidor faria. Me deram a prova. . . de uma espécie. Era o
que os contadores chamam de carta de conforto frio. A carta dizia: “Examinamos os trabalhos
anteriores do Bardo e ele de fato escreveu as palavras 'Ser ou não ser, eis a questão'. No
entanto, não estamos familiarizados com as circunstâncias em que essas palavras foram escritas.”
O que eu realmente queria era uma demonstração ao vivo. Lamentavelmente, meu

Viés de mineração de dados: o ouro dos tolos da AT objetiva 257
pedido não pôde ser atendido. O promotor impaciente explicou que o macaco era
temperamental e, além disso, havia muitos outros investidores ansiosos clamando para
comprar o número limitado de ações oferecidas. Então, aproveitei a oportunidade e
desembolsei $ 50.000. Eu estava confiante de que era apenas uma questão de tempo
até que os lucros começassem a fluir.
A noite do primeiro show chegou. O Carnegie Hall estava lotado com uma multidão
que aguardava ansiosamente as primeiras palavras. Com os olhos de todos grudados
na tela grande, a primeira linha de texto do Bardo apareceu.
lkas1dlk5jf wo44iuldjs sk0ek 123pwkdzsdidip'adipjasdopiksd
As coisas foram ladeira abaixo rapidamente a partir daí. A platéia começou a gritar
por reembolso, eu vomitei e o Bardo defecou no teclado antes de sair correndo do palco.
Meu investimento subiu em uma nuvem de fumaça.
O que aconteceu? Pensando que não era importante, o promotor não divulgou um
fato fundamental. O Bardo foi escolhido entre 1.125.385 outros macacos, todos os quais
tiveram a oportunidade de dançar em um teclado todos os dias nos últimos 11 anos, 4
meses e 5 dias. Um computador monitorava todos os seus rabiscos para sinalizar
qualquer sequência de letras que combinasse com qualquer coisa já escrita por
Shakespeare. O Bardo foi o primeiro macaco a fazê-lo.
Mesmo no meu estado de analfabetismo estatístico, duvido que tivesse investido

se soubesse disso. O mero bom senso teria me dito que apenas o acaso favorecia a
ocorrência de alguma citação shakespeariana em uma massa tão grande de tolices. A
liberdade de extrair dados dos trilhões de letras geradas por um exército de macacos
elevou a probabilidade de uma sequência de letras a uma certeza virtual. O Bardo não
era alfabetizado, apenas teve sorte.
A culpa, Caro Brutus, foi do promotor sincero, mas estatisticamente ingênuo. Ele
foi iludido pelo viés da mineração de dados e atribuiu muita importância a um resultado
obtido pela mineração de dados. Apesar da minha perda, tentei não julgar o promotor
com muita severidade. Ele acreditava sinceramente que havia encontrado um macaco
verdadeiramente notável. Ele foi simplesmente enganado pela intuição, uma faculdade
inadequada para avaliar questões estatísticas e probabilísticas.
A propósito, o promotor manteve o Bardo como animal de estimação e ainda

permite que ele dance naquele teclado outrora mágico na esperança de novas evidências
de alfabetização. Enquanto isso, para manter corpo e alma juntos, ele agora está
vendendo sistemas técnicos de negociação desenvolvidos em linhas semelhantes. Ele
tem uma multidão de macacos dançando desenvolvendo regras, algumas das quais
parecem funcionar muito bem, nos dados históricos.
Provando a existência de Deus com estatísticas de beisebol
Coletores de estatísticas esportivas também foram seduzidos pelo viés da mineração de dados.
Por exemplo, há Norman Bloom, que concluiu que padrões interessantes e incomuns encontrados
nas estatísticas do beisebol provam a existência de Deus. Depois de milhares de pesquisas em
seu banco de dados, o dedicado minerador de dados encontrou padrões que ele acreditava
serem tão incríveis que só poderiam ser explicados por um universo ordenado por Deus.
Um dos padrões de Bloom foi o seguinte: George Brett, o homem da terceira base do
Kansas City, rebateu seu terceiro home run no terceiro jogo dos play offs, para empatar o placar
em 3 a 3. Bloom raciocinou que, para o número três estar conectado de tantas maneiras,
compeliu a conclusão de que era obra manual de Deus. Outro padrão interessante descoberto
por Bloom tinha a ver com o mercado de ações: o Dow Jones Industrial Average ultrapassou o
nível de 1.000 13 vezes em 1976, milagrosamente semelhante ao fato de que havia 13 colônias
originais que se uniram em 1776 para formar os Estados Unidos.
Como apontado por Ronald Kahn,2 Bloom cometeu vários erros no caminho para suas
conclusões injustificadas. Primeiro, ele não entendia o papel da aleatoriedade e que coincidências
aparentemente raras são de fato bastante prováveis se pesquisarmos o suficiente. Bloom
encontrou seus padrões místicos avaliando milhares de possíveis combinações de atributos. Em
segundo lugar, Bloom não especificou o que constituía um padrão importante antes de iniciar
suas buscas. Em vez disso, ele tomou a liberdade de usar um critério arbitrário de importância
definido após o fato. O que quer que lhe parecesse interessante e incomum era considerado
importante. Kahn ressalta que é garantido descobrir padrões “interessantes” quando eles são
procurados de maneira tão indisciplinada.
Descobrindo Previsões Ocultas no

Antigo Testamento
Até os estudiosos da Bíblia caíram no poço da mineração de dados. Nesse caso, os

pesquisadores bem intencionados, mas estatisticamente não sofisticados, encontraram previsões
de grandes eventos mundiais codificados no texto do Antigo Testamento. O conhecimento do
futuro certamente implicaria que as palavras foram inspiradas por um Criador onisciente. No
entanto, havia um pequeno problema com essas previsões, conhecido como Códigos da Bíblia.
Eles sempre foram descobertos após o evento previsto ter ocorrido. Em outras palavras, os
códigos preveem com 20/20 de retrospectiva.3
Os Códigos da Bíblia são grupos de palavras embutidas no texto que são descobertas
ligando letras separadas por um número específico de espaços intermediários ou outras letras.
Essas palavras construídas são chamadas de sequências de letras iguais ou ELS. Os
pesquisadores de código concedem a si mesmos
a liberdade de tentar qualquer intervalo de espaçamento que desejar e permitir

que as palavras que compõem o cluster sejam dispostas em praticamente
qualquer configuração, desde que o cluster ocorra no que o pesquisador
considere4 ser uma região compacta do texto original. O que constitui uma região
compacta e quais palavras constituem uma previsão são sempre definidos após a
descoberta de um código. Observe o uso de um critério de avaliação definido após o fato.
Isso não é cientificamente kosher.
Os estudiosos do Código Bíblico afirmam que a ocorrência de um código é
tão estatisticamente improvável que só pode ser explicada por ter sido colocado
ali por Deus. Seu erro fundamental - o erro cometido por todos os mineradores de
dados ingênuos - é a falha em entender que, com uma pesquisa suficiente
(mineração de dados), a ocorrência de tais padrões é realmente altamente
provável. Assim, é provável que os pesquisadores encontrem códigos que
correspondam a nomes, lugares e eventos de importância histórica. Por exemplo,
a palavra 1990 na mesma região do texto que Saddam Hussein e guerra não são
eventos raros que requerem uma explicação metafísica. No entanto, quando
encontrado em 1992, após a primeira guerra do Iraque, o padrão de palavras
aparentemente previu a guerra do Iraque de 1990. Tenha em mente que as
palavras Bush, Iraque, invasão e tempestade no deserto serviriam tão bem quanto
um código que também parece prever a guerra do Iraque em 1990. De fato, há um
grande número de combinações de palavras que corresponderiam à guerra de
1990, depois de conhecidas as particularidades desse evento histórico.
Em seu livro de 1997, The Bible Code, o autor Michael Drosnin, um jornalista
sem treinamento formal em estatística, descreve a pesquisa do Dr. Eliyahu Rips.
Dr. Rips é um especialista em matemática da teoria de grupos, um ramo da
matemática que não é particularmente relevante para o problema do viés de
mineração de dados. Embora Drosnin afirme que os Códigos da Bíblia foram
endossados por uma lista de matemáticos famosos, 45 estatísticos que revisaram
o trabalho de Rips o acharam totalmente pouco convincente.5 O viés da mineração
de dados é, em sua essência, um problema de inferência estatística defeituosa.
Os estatísticos têm uma visão obscura da busca irrestrita praticada pelos
pesquisadores do Código Bíblico. Ele comete um pecado matemático chamado
queima excessiva de graus de liberdade. Para os estatísticos sofisticados, o fedor
produzido por esta incineração é muito desagradável. Conforme apontado pelo
Dr. Barry Simon, “A Skeptical Look at the Torah Codes,”6 em Chumash, apenas
um dos 14 livros que compõem a Torá, aproximadamente 3 bilhões de palavras
possíveis podem ser produzidas a partir do texto existente quando o intervalo de
espaçamento ELS pode variar de 1 a 5.000. Procurar neste conjunto de palavras
fabricadas por configurações interessantes não é diferente de procurar em
toneladas de rabiscos escritos por um exército de macacos dançando em teclados.
A tolice dos algoritmos de busca dos estudiosos do Código Bíblico se torna

aparente quando eles são aplicados a textos não-bíblicos de
260 FUNDAMENTOS METODOLÓGICOS, PSICOLÓGICOS, FILOSÓFICOS, ESTATÍSTICOS
comprimento, como o catálogo da Sears, Moby Dick, Guerra e Paz de Tolstoi ,

ou a lista telefônica de Chicago. Quando esses textos são pesquisados, codificados
após o fato, as previsões de eventos históricos também são encontradas. Isso sugere
os códigos são um subproduto do método de busca e não do texto que está sendo
pesquisado.
Em um livro mais recente de Drosnin, The Bible Code II: The Count down, ele mostra
como os códigos “previram” os terríveis eventos de 11/09/01.
Por que, você pergunta, ele não nos avisou antes dos eventos acontecerem? Ele não fez
porque ele não podia. Ele descobriu as previsões depois que a tragédia ocorreu. Drosnin é
outro exemplo de pesquisador bem-intencionado, mas ingênuo, enganado pelo viés da
mineração de dados.
Repórteres de jornais de mineração de dados
Os repórteres de jornais também foram enganados pelo viés da mineração de dados. No

meados da década de 1980, eles relataram a história de Evelyn Adams, que havia vencido o
loteria estadual de Nova Jersey duas vezes em quatro meses .
a probabilidade de tal ocorrência é de 1 em 17 trilhões. Na verdade, a probabilidade de
encontrar um vencedor duplo era muito maior e a história muito menos
interessante do que os repórteres pensavam.
A probabilidade antes do fato (a priori) de que a Sra. Adams ou qualquer outro
indivíduo vai ganhar o ganhador da loteria duas vezes é de fato 17 trilhões para um.
No entanto, a probabilidade após o fato de encontrar alguém que já ganhou duas vezes
pesquisando todo o universo de todos os jogadores de loteria é
muito mais alto. Os estatísticos de Harvard Percy Diaconis e Frederick Mosteller
estimou a probabilidade em cerca de 1 em 30.
O qualificador após o fato é a chave. Refere-se a uma leitura dos dados após
resultados são conhecidos. Assim como a probabilidade de que qualquer macaco individual
produzirá no futuro uma cotação shakespeariana é extremamente pequena, o
probabilidade de que exista algum macaco, entre milhões de macacos,
que já produziu alguma prosa letrada, é substancialmente maior.
Dada a oportunidade suficiente, a aleatoriedade produz alguns resultados extraordinários. O
aparentemente raro é, na verdade, bastante provável.
Minando o banco de dados da ONU para

ouro e encontrando manteiga
David J. Leinweber, do corpo docente do Instituto de Tecnologia da Califórnia

e ex-sócio-gerente da First Quandrant, uma empresa de gestão quantitativa de pensões,
alertou os pesquisadores do mercado financeiro
sobre o viés de mineração de dados. Para ilustrar as armadilhas da busca excessiva, ele testou
várias centenas de séries temporais econômicas em um banco de dados da ONU para
encontre aquele com a maior correlação preditiva com o S&P 500.

acabou sendo o nível de produção de manteiga em Bangladesh, com uma correlação
de cerca de 0,70, uma correlação extraordinariamente alta no domínio da previsão
econômica.
A intuição por si só nos diria uma alta correlação entre Bangladesh
manteiga e o S&P 500 é ilusório, mas agora imagine se a série temporal
com a maior correlação teve uma conexão plausível com o S&P 500.
A intuição não nos avisaria. Como aponta Leinweber, quando o total
número de séries temporais examinadas é levado em consideração, a correlação
entre a manteiga de Bangladesh e o índice S&P 500 não é estatisticamente
significativo.
A linha de fundo: se pesquisamos estatísticas esportivas, a Bíblia, o
escritos aleatórios de macacos, o universo dos jogadores de loteria ou
histórico de mercado, a mineração de dados pode levar a conclusões falsas se o viés da
mineração de dados não for levado em consideração.
O PROBLEMA DO CONHECIMENTO ERRO

EM ANÁLISE TÉCNICA OBJETIVO
A AT é composta por dois domínios mutuamente exclusivos – subjetivo e objetivo.

Para recapitular, a AT objetiva está confinada a métodos que são suficientemente
bem definidos que podem ser reduzidos a um algoritmo computadorizado e
volta testado. Todo o resto é, por padrão, TA subjetiva.
Ambos os domínios estão contaminados com conhecimentos errôneos, mas o
falsidades são de tipos muito diferentes. As propostas vagamente definidas
de AT subjetivas não carregam carga cognitiva, não geram previsões testáveis,8 e
são, portanto, protegidas do desafio empírico. Sem
este procedimento crucial para extirpar idéias inúteis, falsidades se acumulam. Como
resultado, a AT subjetiva não é um corpo de conhecimento legítimo, mas
uma coleção de folclore baseada em uma base frágil de anedotas e
intuição.
Os métodos objetivos de AT têm o potencial de ser um conhecimento válido, mas
somente se os resultados do back-test forem considerados à luz da aleatoriedade
(variabilidade de amostragem) e viés de mineração de dados. Como muitos praticantes
objetivos desconhecem esses efeitos, as falsidades se acumulam neste
domínio também.
A TA objetiva errônea se manifesta como deterioração do desempenho fora da
amostra9 - uma regra que funciona bem na amostra usada para testes anteriores
mas, em seguida, tem um desempenho pior em dados fora da amostra. Este problema é ilustrado
na Figura 6.1.
Cumulativo
Ganhos
Observado
$
atuação
50%. ROI
Na amostra Fora da amostra
Tempo
FIGURA 6.1 Deterioração do desempenho fora da amostra.
Explicações para Deterioração Fora da Amostra:

Velho e novo
A deterioração do desempenho fora da amostra é um problema bem conhecido.10 Técnicos
objetivos propuseram várias explicações. eu proponho um
relativamente novo, baseado no viés de mineração de dados.
A explicação menos plausível atribui o problema à variação aleatória. Embora seja verdade
que o desempenho de uma regra varie de uma amostra histórica para outra devido à variabilidade
da amostragem, essa explicação não
nem se encaixam nas provas. Se a variação aleatória fosse responsável, então o desempenho
fora da amostra seria maior do que o desempenho dentro da amostra
com a mesma frequência que é menor. Qualquer pessoa experiente com teste de volta
sabe que o desempenho fora da amostra é inferior com muito mais frequência.
Uma segunda razão é que a dinâmica do mercado mudou quando o
período fora da amostra começou. É razoável supor que as finanças
mercados são sistemas não estacionários.11 No entanto, não é razoável
suponha que cada vez que uma regra falha fora da amostra é porque a dinâmica do mercado
mudou. Seria estranho, quase diabólico, para o mercado
sempre mudar seus caminhos apenas quando uma regra se move do técnico
laboratório para o mundo real do comércio. É simplesmente implausível sugerir que a dinâmica
de um mercado mude com a mesma frequência que as regras falham.
amostra.
Uma explicação ainda mais elaborada, também baseada em mudanças de mercado
dinâmica, invoca a suposição adicional de que a mudança ocorreu porque a regra foi adotada
por muitos traders. Esta história afirma
que a compra e venda dos comerciantes que usam a regra destruiu o
padrão de mercado que explicava a rentabilidade do back-test da regra. Esse raciocínio

também carece de plausibilidade. Dado que há um número quase infinito de regras que
poderiam ser formuladas, seria improvável que um grande número
número suficiente de participantes adotaria qualquer regra em particular. Até
quando vários traders adotam regras semelhantes, como é o caso dos futuros
fundos de negociação que empregam métodos objetivos de acompanhamento de tendências, redução
desempenho da regra parece ser devido a mudanças na volatilidade do mercado que são
não relacionado ao uso de sistemas técnicos.12
Uma explicação mais plausível13 da quebra de desempenho fora da amostra é baseada
na aleatoriedade. Ele afirma que a dinâmica do mercado é uma combinação de comportamento
sistemático ou padronizado e aleatoriedade ou ruído.
As regras válidas exploram as características sistemáticas do mercado. Como o componente
ático do sistema deve continuar a se manifestar em dados fora da amostra, é um
fonte confiável de lucros da regra. Em contraste, o componente aleatório é um
fenômeno não recorrente que se manifestará de forma diferente em cada amostra de
dados. É raciocinado que uma parte do desempenho na amostra de uma regra foi
sorte - uma correspondência coincidente entre os sinais da regra e o
ruído não recorrente do mercado. Esses lucros sortudos não se manifestarão
amostra, e assim o desempenho futuro ficará abaixo do desempenho passado. este
explicação está mais próxima da marca, mas é incompleta. A aleatoriedade é apenas
um vilão.
Um relato mais completo da deterioração do desempenho fora da amostra
baseia-se no viés de mineração de dados. Ele nomeia dois vilões: (1) aleatoriedade,
que é um componente relativamente grande do desempenho observado e (2)
a lógica da mineração de dados, na qual uma regra de melhor desempenho é selecionada após
os desempenhos testados de todas as regras testadas estão disponíveis para os dados
exame do mineiro. Quando esses dois efeitos se combinam, eles fazem com que o desempenho
observado da melhor regra superestime seu desempenho futuro (esperado). Assim, é provável
que o desempenho futuro da melhor regra seja
pior do que o nível de desempenho que o levou a ser selecionado do
universo de regras testadas.
A explicação do viés de mineração de dados para desempenho fora da amostra
deterioração é superior à baseada em dinâmicas de mercado alteradas.
Ambas as explicações se ajustam aos dados no sentido de que ambas são consistentes.
com o fato de que o desempenho fora da amostra tende a ser pior. No entanto, a última
explicação invoca a suposição de que a dinâmica do mercado mudou. A explicação do viés de
mineração de dados não. Simplesmente
diz que o processo de mineração de dados favorece a seleção de regras que
beneficiou de boa sorte durante o teste de costas. Ao escolher entre um
conjunto de explicações que são igualmente hábeis em dar conta de um fenômeno, é mais
sábio escolher aquela que faz menos suposições. este
é o princípio da simplicidade conhecido como Navalha de Occam, que foi discutido no Capítulo
3.
Como será mostrado, o desempenho observado de uma regra pode ser decomposto em
dois componentes independentes: a aleatoriedade e o poder preditivo inerente à regra. Destes
dois, a aleatoriedade é de longe o mais
componente dominante. Assim, a regra com o melhor desempenho observado
foi provavelmente o beneficiário da boa sorte. Ou seja, aleatoriedade
impulsionou o desempenho da regra acima do nível atribuível ao seu verdadeiro poder preditivo,
se o possuisse. O contrário é o caso da regra
com o pior desempenho observado. Provavelmente foi impactado negativamente pela sorte. Ao
selecionar a regra com o maior desempenho observado, o minerador de dados acaba escolhendo
uma regra que experimentou um grande
componente da boa sorte. Porque a sorte não pode ser contada para repetir,
o desempenho fora da amostra dessa regra provavelmente voltará a um nível
que é representativo de seu poder preditivo inerente. Isso torna provável que o desempenho
fora da amostra seja inferior ao nível de desempenho que permitiu que a regra vencesse a
competição por desempenho. o
Conclusão: a deterioração do desempenho fora da amostra da melhor regra é
provavelmente uma queda de uma expectativa irrealisticamente alta, em vez de
um declínio real no poder preditivo da regra.
MINERAÇÃO DE DADOS
A mineração de dados é a extração de conhecimento, na forma de padrões,

regras, modelos, funções, etc, de grandes bancos de dados. As limitações e preconceitos da
inteligência humana tornam essa tarefa quase impossível
para a mente sem ajuda quando o conhecimento envolve múltiplas variáveis,
relações não lineares ou altos níveis de ruído. Assim, a mineração de dados depende
sobre algoritmos computadorizados para extração de conhecimento. Uma excelente discussão
sobre os principais métodos usados em mineração de dados pode ser encontrada em
14 Mineração de Dados Preditiva:
Elementos Práticos de Aprendizagem Estatística,
guia cal, 15 e mineração de dados: ferramentas práticas de aprendizado de máquina e
16
Técnicas.
Mineração de Dados como Procedimento de Comparação Múltipla
A mineração de dados é baseada em uma abordagem de solução de problemas chamada

procedimento de comparação17 (MCP). A ideia básica por trás de um MCP é testar
muitas soluções diferentes para o problema e escolha aquela que funciona
o melhor de acordo com algum critério. Três elementos são necessários para aplicar
um MCP: (1) um problema bem definido, (2) um conjunto de soluções candidatas e
(3) uma figura de mérito ou função de pontuação que quantifica a bondade de
desempenho de cada candidato. Depois que todas as pontuações são inseridas, elas são comparadas
e o candidato com a pontuação mais alta (desempenho melhor observado) é

selecionada como a melhor solução para o problema.
Considere como esse paradigma de solução de problemas se aplica no contexto de
regra mineração de dados:
1. O problema: cronometrar posições longas e curtas em um mercado financeiro para

gerar lucros.
2. Um conjunto de soluções candidatas (universo de solução ou espaço de solução):
um conjunto de regras propostas pelo técnico objetivo.
3. Figura de mérito: uma medida de desempenho financeiro, como a taxa média de retorno
ao longo de um período de teste histórico, índice de Sharpe, retorno
ao Índice de Úlcera.18
O desempenho de todas as regras é determinado por backtesting, e o

a regra que atinge o desempenho mais alto é selecionada.
Mineração de dados de regras como pesquisa de especificação
A mineração de dados pode ser entendida como uma pesquisa de especificação. Quer dizer, é
é uma busca pelas especificações da regra que produz o melhor desempenho. As
especificações são um conjunto de operações matemáticas e/ou lógicas aplicadas a uma ou
mais séries de dados de mercado, transformando-as
em uma série temporal de posições de mercado ditadas pela regra.
Suponha que a regra definida abaixo seja a regra de melhor desempenho:
Mantenha uma posição longa no S&P 500 se a relação entre o fechamento médio da
Dow Jones Trans portation dividido pelo fechamento do S&P 500 for maior que
sua média móvel de 50 dias, senão mantenha uma posição curta.
A regra é especificada por dois operadores matemáticos: razão e média móvel; dois
operadores lógicos: o operador de desigualdade maior que,
a condicional if, then, else; uma única constante numérica: 50; e dois dados
série: Dow Jones Transports e S&P 500. A mineração de dados descobriu que
esse conjunto de especificações produziu melhor desempenho do que qualquer conjunto
alternativo de especificações testado.
Tipos de pesquisas
As pesquisas de mineração de dados variam do simples ao sofisticado. Um de

as maneiras pelas quais eles diferem é quão amplo o universo de pesquisa é definido. Esta
seção considera três definições do universo de pesquisa,
começando com a pesquisa mais restrita e progredindo para a mais ampla. Todas as abordagens
de mineração de dados, sejam elas de pesquisa simples e restrita ou
amplamente usando os métodos mais avançados estão sujeitos a viés de mineração de dados.
Otimização de Parâmetros. A forma mais restrita de mineração de dados é a otimização de

parâmetros. Aqui, o universo de busca está confinado a regras com
a mesma forma, diferindo apenas em termos de seus valores de parâmetro. Desta forma,
a pesquisa é restrita a encontrar o(s) valor(es) de parâmetro da regra de desempenho mais alto
de um formulário específico.
Um exemplo de forma de regra seria o cruzamento de média móvel dupla
regra. É especificado por dois parâmetros; períodos de retrospectiva para o curto prazo
e média móvel de longo prazo. Os sinais são dados quando a média móvel de curto prazo cruza
acima (compra) e abaixo (vender) uma média móvel de longo prazo. A otimização de parâmetro
procura o par de valores de parâmetro
que produz o melhor desempenho.
O número máximo de regras de cruzamento de média móvel dupla que
pode ser pesquisado é igual ao produto do número de valores testados para
o parâmetro de curto prazo e o número de valores testados para o longo prazo
parâmetro. Uma pesquisa que considera todas essas combinações é chamada de
uma busca exaustiva ou de força bruta.
Existem métodos de pesquisa mais inteligentes que restringem a pesquisa a
combinações que são mais prováveis de produzir bons resultados. Isso é feito usando os
desempenhos de combinações de parâmetros testados anteriormente
na busca para orientar as combinações que serão testadas em etapas posteriores.
Um desses métodos de busca inteligente é o algoritmo genético, uma técnica
baseado vagamente nos princípios da evolução biológica. É demonstrado
capacidade de encontrar combinações de parâmetros que estão próximas do ótimo relativamente
rapidamente o torna especialmente útil quando o número de parâmetros possíveis
combinações é alta. Algoritmos genéticos também provaram ser eficazes
quando o desempenho é fortemente impactado pela aleatoriedade, o que torna
métodos de busca guiada mais convencionais baseados em cálculo impraticável.
Excelentes discussões sobre métodos de otimização podem ser encontradas em Pardo,19
e uma revisão de vários métodos avançados pode ser encontrada em Katz e Mc Cormick20 e
Kaufman.21
Pesquisa de regras. Uma versão mais ampla da mineração de dados é a pesquisa de regras.
Aqui, o universo das regras difere em sua forma conceitual, bem como em sua
valores de parâmetros. A regra de cruzamento de média móvel dupla é um formalismo para seguir
tendências. Assim, é simplesmente uma forma na categoria mais ampla de regras de
acompanhamento de tendências que também incluem quebras de canal,
bandas de média móvel, e assim por diante. A categoria geral de regras de acompanhamento de
tendências é apenas uma categoria de análise técnica entre outras
que incluem regras de contratendência (reversão à média),22 regras de valores extremos,
regras de divergência,23 regras de difusão e assim por diante. Cada categoria pode ser
realizada com inúmeras formas de regras específicas.
A Parte Dois deste livro apresenta um estudo de caso de mineração de dados baseado
na busca de regras. O estudo se concentrará em três categorias ou temas de regras:
tendências, valores extremos e transições, e divergência. Cada tema é realizado com uma
forma de regra específica, que é definida no Capítulo 8.
Embora a busca de regras considere uma infinidade de formas de regras, cada regra
complexidade permanece fixa ao longo da pesquisa. Complexidade refere-se ao número de
parâmetros necessários para especificar a regra. Dentro
outras palavras, a busca de regras, conforme definido aqui, não envolve a combinação
regras simples para produzir regras mais complexas
Indução de regras com complexidade variável. A mais ampla e

A forma mais ambiciosa de mineração de dados é a indução de regras. Aqui a pesquisa
considera regras de complexidade indefinida. À medida que a pesquisa prossegue, as regras
de complexidade cada vez maior são considerados. Uma regra complexa pode ser
pensado como uma composição de uma regra mais simples conjunta por operadores lógicos
ou combinada com uma função matemática como em um multivariado
modelo. Assim, a mineração de dados por indução de regras está preocupada em encontrar o
regra de complexidade ótima.
Em contraste com formas menos ambiciosas de mineração de dados em que uma regra
a complexidade é definida no início da busca, a indução de regras usa aprendizado de
máquina (indução autônoma) para encontrar o grau de complexidade
que produz o melhor desempenho. Um esquema para indução de regras
começa testando regras individuais. Em seguida, pares de regras são considerados
veja se o desempenho deles é melhor do que a melhor regra individual. Gradualmente, regras
progressivamente mais complexas são testadas e avaliadas. Com efeito, os métodos de
indução de regras aprendem como combinar regras para otimizar
atuação.
Algoritmos genéticos, redes neurais, particionamento recursivo, regressão de kernel,
máquinas de vetor de suporte e árvores impulsionadas são alguns dos
métodos usados para esses empreendimentos de mineração de dados mais ambiciosos.
Uma excelente discussão de vários métodos e teoria estatística de apoio pode
pode ser encontrado em The Elements of Statistical Learning por Hastie, Tibshirani,
e Friedman.24
PESQUISA OBJETIVO
A meta do técnico objetivo é a descoberta de uma(s) regra(s) que

ser rentável no futuro. O método de pesquisa é o backtesting, que
produz uma medida observável de desempenho. Com base neste
estatística, é feita uma inferência sobre um parâmetro populacional, o desempenho futuro ou

esperado da regra. Pode-se dizer, portanto, que a essência da AT objetiva é a inferência
estatística.
Por que os técnicos objetivos devem minerar dados
O problema da falha de desempenho fora da amostra encorajou alguns praticantes da AT

objetiva a rejeitar a mineração de dados. Esta não é uma posição sábia nem viável. Hoje, um
técnico objetivo que se recusa a extrair dados é como o motorista de táxi que se recusa a
abandonar o carro puxado a cavalo – uma relíquia encantadora, mas não mais adequada para
chegar ao destino com eficiência.
Vários fatores obrigam a adoção da mineração de dados como o método preferencial de

aquisição de conhecimento. Primeiro, funciona. Experimentos apresentados mais adiante neste
capítulo mostrarão que, sob condições bastante gerais, quanto maior o número de regras
testadas, maior a probabilidade de encontrar uma boa regra.
Em segundo lugar, as tendências tecnológicas favorecem a mineração de dados. A relação

custo-benefício dos computadores pessoais, a disponibilidade de poderosos softwares de back-
testing e mineração de dados e a disponibilidade de bancos de dados históricos agora tornam a
mineração de dados prática para os indivíduos. Há uma década, os custos limitavam a mineração
de dados a investidores institucionais.
Terceiro, em seu atual estágio de evolução, a AT carece de fundamento teórico que
permitiria uma abordagem científica mais tradicional para a aquisição de conhecimento. Nas
ciências desenvolvidas, como a física, uma única hipótese pode ser deduzida da teoria
estabelecida e suas previsões podem ser testadas contra novas observações. Na ausência de
teoria, é necessária uma abordagem de mineração de dados, na qual uma infinidade de hipóteses
(regras) são propostas e testadas. O risco dessa abordagem de espingarda é ouro de tolo –
regras que se ajustam aos dados por acidente. As etapas que podem minimizar esse risco são
discutidas posteriormente neste capítulo.
Back-testing de regra única versus mineração de dados
Nem todo backtesting é mineração de dados. Quando apenas uma única regra é proposta e
testada, não há mineração de dados. Este modo de pesquisa é ilustrado na Figura 6.2. Se o
teste de retorno da regra se mostrar insatisfatório, as pesquisas param e outros meios mais
práticos de ganhar a vida são considerados.
A mineração de dados envolve o backtesting de muitas regras e a escolha de uma com

base em seu desempenho superior. Este processo é ilustrado na Figura 6.3. Observe que,
conforme descrito aqui, um desempenho inicial insatisfatório por
Ideia de regra
Regra do programa
Voltar Teste
Pegue
Trabalho
Satisfatório? NÃO Trabalhando

no
SIM McDonald's
Parar pesquisa
Comece a negociar
FIGURA 6.2 Teste de retorno de regra única.
Ideia de regra
Regra do programa
Voltar Teste Mineração de dados

Ciclo
Começar
Satisfatório? NÃO Dados
Mineração
SIM
Parar pesquisa
Comece a negociar
FIGURA 6.3 Regra de mineração de dados.
a primeira regra testada não interrompe a pesquisa. A regra é refinada ou uma

nova regra é definida, é testada e seu desempenho é avaliado. O ciclo continua
até que uma regra com bom desempenho seja produzida. Esse processo pode
envolver o teste de dezenas, centenas, milhares ou um número ainda maior de
regras.
Usos legítimos do desempenho observado

Para esta discussão, a estatística de desempenho assumida é a taxa média de retorno ao longo
do período de back-test. A estatística de desempenho observada pode desempenhar um papel
legítimo tanto no backtesting de regra única quanto na mineração de dados. No entanto, os papéis
são diferentes. No backtesting de regra única, o desempenho observado serve como um estimador
do desempenho futuro. Na mineração de dados, o desempenho observado serve como critério de
seleção. Os problemas surgem para o minerador de dados quando o desempenho observado é
solicitado a desempenhar os dois papéis.
No backtesting de regra única, o retorno médio da regra testada pode ser legitimamente
usado como uma estimativa imparcial do retorno esperado da regra. Em outras palavras, o retorno
futuro mais provável da regra testada é seu retorno testado. Isso é apenas uma reafirmação de
algo abordado no Capítulo 4. Lá, aprendemos que uma média amostral fornece uma estimativa
imparcial da média da população parental que deu origem à amostra. A média amostral pode errar
devido à variação aleatória da amostragem. Pode ser maior que a média da população ou menor
que ela, mas nenhum dos erros é mais provável. Este princípio refere-se ao caso de um backtest
de regra única.
O retorno médio da regra em um teste de retorno é uma estimativa imparcial de seu retorno
esperado no futuro. E embora seu retorno médio histórico seja de fato o retorno mais provável no
futuro, seu desempenho pode ser maior ou menor, sem que nenhum dos dois seja mais provável.
Na mineração de dados, a estatística de desempenho do back-test desempenha um papel

muito diferente do que desempenha no back-test de regra única. Em mineração de dados, de volta
Cumulativo
Ganhos
$
Esperado
atuação
Observado
atuação
Back-Test
+/-
Variação aleatória
Na amostra Futuro
Tempo
FIGURA 6.4 Desempenho esperado para o teste de retorno de regra única.

desempenho testado serve como critério de seleção. Ou seja, é usado para identificar a
melhor regra. Os retornos médios de todas as regras retrotestadas são comparados e aquela
com o maior retorno é selecionada. Isso também é um uso perfeitamente legítimo da
estatística de desempenho do teste de retorno (observado).
É legítimo no sentido de que a regra com o maior retorno médio testado a posteriori é,
de fato, a regra com maior probabilidade de ter o melhor desempenho no futuro. Isso
certamente não é garantido, mas é a inferência mais razoável que pode ser feita. Uma prova
matemática formal desta afirmação é oferecida por White.25
O erro do minerador de dados: uso

indevido do desempenho observado
Vamos recapitular dois pontos-chave. Em um teste retroativo de regra única, o desempenho

passado pode ser usado como uma estimativa imparcial do desempenho futuro. Em testes
de regras múltiplas (ou seja, mineração de dados), o desempenho anterior pode ser usado
como critério de seleção.
O erro do minerador de dados é usar o desempenho testado da melhor regra para
estimar seu desempenho esperado. Este não é um uso legítimo do desempenho testado a
posteriori porque o desempenho testado a posteriori da regra de melhor desempenho é
positivamente enviesado. Ou seja, o nível de desempenho que permitiu que a regra vencesse
a competição de desempenho superestima seu verdadeiro poder preditivo e seu desempenho
esperado. Esse é o viés de mineração de dados. Este conceito é ilustrado na Figura 6.5.
Cumulativo
Ganhos
Falsa expectativa
$ Dados
Mineração
Observado Tendência
atuação Esperado
Melhor regra Desempenho
da Melhor Regra
Na amostra Futuro
Tempo
FIGURA 6.5 Desempenho esperado da melhor regra de mineração de dados.

O desempenho da melhor regra não se deteriora verdadeiramente fora da amostra.

Só aparece assim quando o desempenho fora da amostra assume um nível que reflete o
verdadeiro poder preditivo da regra sem a boa sorte que permitiu que ela superasse as outras
regras. Seu desempenho na amostra foi uma combinação de algum nível de poder preditivo,
possivelmente zero, e um grande componente de boa sorte. A boa sorte que brilhou na regra
durante o teste de costas agora está brilhando em outros lugares. Da mesma forma, o macaco
não perdeu a habilidade literária na noite do grande espetáculo. Seu desempenho apenas refletia
sua verdadeira habilidade literária menos a boa sorte que lhe permitiu produzir cartas que
coincidiam com um segmento da prosa shakespeariana.
MINERAÇÃO DE DADOS E INFERÊNCIA ESTATÍSTICA
Esta seção discute a conexão entre viés de mineração de dados e inferência estatística. Esta
seção cobrirá os seguintes pontos: (1) a distinção entre estimadores tendenciosos e não
tendenciosos, (2) a distinção entre erro aleatório e erro sistemático (ou seja, viés), (3) o fato de
que estimadores não tendenciosos sofrem de erro aleatório mas estimadores tendenciosos
sofrem tanto com erros aleatórios quanto com erros sistemáticos, (4) declarações estatísticas
são verdadeiras para um grande número de observações, como um grande número de
estimativas, e (5) o viés de mineração de dados é um efeito que aparece geralmente em muitas
instâncias de mineração de dados; portanto, não podemos dizer que qualquer resultado
específico de mineração de dados seja tendencioso.
Erro imparcial e erro sistemático

Todas as observações científicas estão sujeitas a erros. O erro é definido como a diferença
entre um valor observado e o valor verdadeiro:
Erro = observado – verdadeiro
Diz-se que um erro positivo ocorre quando o valor observado é maior que o valor verdadeiro.
O erro negativo é o inverso. Se uma balança indica que uma pessoa pesa 140 libras, mas na
verdade pesa 150, o erro é negativo 10 libras.
Existem dois tipos distintos de erro: imparcial e tendencioso (sistema ático). Todas as
observações estão infectadas com algum grau de erro imparcial.
Nenhum instrumento ou técnica de medição é perfeito. Este tipo de erro tem um valor esperado
de zero. Isso significa que se um grande número de observações for feito sobre algum fenômeno,
como o retorno de uma regra, e essas observações forem afetadas apenas por erro imparcial,
os valores observados
será distribuído ao acaso sobre o valor real. Se uma média fosse calculada para
todos esses erros, a média seria aproximadamente zero. Consulte a Figura 6.6.
Em contraste, as observações afligidas pelo erro sistemático tendem a estar

de um lado da verdade. Tais observações são ditas tendenciosas. Quando a média
dos erros de muitas observações tendenciosas é calculada, o erro médio será
distintamente diferente de zero. Consulte a Figura 6.7. Na ilustração as observações
são positivamente enviesadas e seu erro médio (observado – verdadeiro) é positivo.
Suponha que um químico observe o peso de um resíduo deixado por uma
reação química em cem instâncias separadas. O erro imparcial pode ser atribuído
a variações aleatórias na umidade do laboratório ao longo das cem pesagens. A
quantidade de umidade no resíduo afeta seu peso. O erro sistemático, se presente,
pode ser devido a uma imperfeição na balança, sempre fazendo com que o peso
observado seja inferior ao peso real.
Estatísticas imparciais e tendenciosas
Interpretar uma grande amostra de observações é difícil. Conforme discutido no

Capítulo 4, um primeiro passo sensato é a redução de dados. Isso reduz a grande
Verdadeiro
& Probabilidade
Distribuição
Provavelmente
Do
Observado
Observado
Valor
Valores
FIGURA 6.6 Observações imparciais.
A maioria
Probabilidade
Distribuição
Provável Do
Observado
Observado
Valor Valores
Verdadeiro
Valor
FIGURA 6.7 Observações com erro sistemático.

conjunto de medidas para um conjunto menor de estatísticas resumidas: média da amostra,

variância da amostra e outras medidas computadas que descrevem todo o
conjunto de observações.
O Capítulo 4 também apontou que uma estatística amostral, como a média, é
sujeito a um tipo particular de erro aleatório chamado erro de amostragem. Este erro é imparcial.
Aqui, o termo erro se refere ao desvio entre um
média da amostra e a média da população da qual a amostra foi
ocupado. Como a amostra não representa a população perfeitamente,
a média da amostra se desviará em algum grau da média do
população.
Relacionando isso com a AT objetiva, um teste de retorno de regra produz uma grande
amostra de observações - os retornos diários, semanais ou mensais da regra.
Esta amostra torna-se mais inteligível reduzindo-a a um desempenho
estatística (por exemplo, retorno médio anualizado, índice de Sharpe etc.). Como é
verdadeiro para qualquer estatística de amostra, a estatística de desempenho está sujeita a erros
aleatórios. No entanto, a estatística também pode estar sujeita a erros ou vieses sistemáticos.
Para dizer o óbvio, uma estatística histórica de desempenho não pode ser colocada
no banco ou ser usado para comprar uma Ferrari. Sua única utilidade econômica é a inferência
que nos permite fazer sobre o desempenho futuro da regra que
o produziu. Técnicos objetivos usam o desempenho testado para fazer
uma inferência sobre o desempenho esperado de uma regra na forma de um intervalo de
confiança ou um teste de hipótese. Em ambos os casos, a precisão da inferência dependerá do
tipo de erro: imparcial ou sistemático, e sua
magnitude.
Estatísticas tendenciosas são afetadas por erros sistemáticos. Conforme declarado
anteriormente em um teste de regra única, o retorno médio é uma estatística imparcial.
Portanto, inferências sobre o retorno esperado da regra com base no back-test
o desempenho estará sujeito apenas a uma forma de erro imparcial chamada variabilidade de
amostragem.
Isso, no entanto, não é o caso da melhor regra encontrada por meio de mineração de dados.
O retorno médio observado da regra de melhor desempenho é um resultado positivo
estatística tendenciosa. Como resultado, as inferências baseadas nele serão sistematicamente
em erro. Isso significa que, ao realizar um teste de hipótese, seria
estar propenso a rejeitar a hipótese nula com mais frequência do que o nível de significância
sugeriria. Por exemplo, em um nível de significância de 0,05
espera-se rejeitar a hipótese nula com erro apenas 5 vezes em 100.
No entanto, se o desempenho observado for positivamente enviesado, então H0
ser rejeitado com mais frequência do que deveria, talvez com muito mais frequência.
Isso resultará na negociação usando regras que parecem ter
poder, mas na verdade não. A questão é: O que faz com que o back-tested
retorno da melhor regra, a regra escolhida pelo minerador de dados, para exagerar sua
verdadeiro poder preditivo?
A média versus o máximo

Os testadores de regra única e os mineradores de dados estão analisando duas estatísticas
totalmente diferentes. O testador de regra única está observando a média de um único
amostra. O minerador de dados está observando a média máxima entre várias médias de
amostra. É fácil ignorar o fato de que essas são duas estatísticas completamente diferentes.
Para ser claro, no caso de um backtest de regra única, há um conjunto de resultados – os

retornos diários da regra gerados durante o período de backtest. Elas
são resumidos por uma estatística de desempenho (por exemplo, retorno médio diário). Dentro
mineração de dados, muitas regras são testadas novamente e, portanto, há muitos conjuntos de
resultados e muitas estatísticas de desempenho. Se 50 regras foram testadas novamente
o minerador de dados tem a oportunidade de observar 50 retornos médios antes de selecionar a
regra que produziu o retorno médio máximo.
O conjunto de retornos de 50 médias pode ser considerado como um conjunto de
observações, que, por sua vez, podem ser resumidas com uma estatística. Por exemplo
pode-se calcular a média das médias. Esse é o retorno médio de todos
50 regras. Outra estatística que poderia ser calculada para este conjunto de observações seria a
média mínima – o retorno médio da regra que
o pior. Ainda outra estatística seria a média máxima - a média
retorno da regra que fez o melhor.
A estatística observada pelo minerador de dados é a média máxima de
entre as 50 regras. Isso é ilustrado na Figura 6.8, onde todas as regras são consideradas inúteis
e têm um retorno esperado igual a zero. Cada ponto
representa o retorno médio observado de uma regra diferente. Observe que o
retorno médio da regra que teve o retorno máximo (37%) não é
em tudo representativo do retorno esperado dessa regra (0 por cento). Simplesmente
teve sorte no teste de costas. Quando muitas regras são testadas novamente, aquela com
Significa
Do
Cinquenta Meios
Média Máxima
Dentre
Cinquenta Meios
+37%
-30% 0 +30%
Taxa de retorno observada
FIGURA 6.8 Desempenho observado de 50 testes de retorno de regra.
o retorno médio mais alto quase sempre terá sido o beneficiário de

boa sorte. É por isso que seu desempenho testado em retrospectiva provavelmente
superestimará o desempenho esperado. Em uma amostra diferente, com menos sorte, o
regra é susceptível de fazer pior.
Esta é a principal lição a tirar disso: o desempenho observado da regra de melhor
desempenho, entre um grande conjunto de regras, é uma estimativa positivamente tendenciosa
do desempenho esperado dessa regra de melhor desempenho porque
incorpora um grau substancial de boa sorte. Os mineradores de dados que não entendem isso
provavelmente ficarão desapontados com a falta de amostra dessa regra
atuação.
A inferência de som requer a correta

Uma boa inferência estatística depende do uso da distribuição de amostragem correta. Cada
estatística de teste tem uma distribuição de amostragem apropriada
para testar sua significância estatística. A distribuição amostral que
seria correto para testar a significância de uma única amostra média ou
construir seu intervalo de confiança não seria correto se a estatística de teste observada
fosse, de fato, uma média máxima entre uma infinidade de
meios de amostra.
Portanto, para fazer inferências sólidas, o minerador de dados requer o
distribuição amostral da média máxima entre uma infinidade de médias
porque essa é a estatística que está sendo considerada ao avaliar o melhor
regra encontrada pela mineração de dados. A tendência central da distribuição amostral da
média máxima reflete o papel que a boa sorte pode desempenhar nos dados
mineração. A tendência central de uma distribuição amostral de uma única amostra
significa não.
Agora vamos considerar como tudo isso afeta um teste de significância. Conforme
discutido no Capítulo 5, em um teste tradicional de significância, a hipótese nula afirma que a
regra de negociação tem um retorno esperado igual a zero ou
menos. A estatística de teste é o retorno médio observado da regra. Neste caso vamos
suponha que o retorno foi de +10% anualizado. A distribuição amostral
da estatística de teste é centrado no valor hipotético de zero. O valor p é a área da distribuição
amostral que é igual ou maior
que um retorno de 10 por cento. Esta área representa a probabilidade de que, se o
Se o retorno esperado da regra fosse realmente igual a zero, a regra poderia ter produzido
um retorno de +10% ou mais por acaso. Se o valor p for menor
que um valor predefinido, como 0,05, a hipótese nula seria rejeitada
e a hipótese alternativa, de que o retorno esperado da regra é maior
que zero, seria aceito. Enquanto o desempenho de apenas uma regra
estava sendo avaliado isso é tudo muito bom.
Agora considere o teste de significância no caso de mineração de dados. Continuando
com o exemplo de mineração de dados da seção anterior, suponha que 50

as regras foram testadas novamente. A regra com melhor desempenho obteve um retorno
anualizado de +37%. Um teste tradicional de significância, com um
nível de significância de 0,05, seria semelhante ao da Figura 6.9. A distribuição amostral
mostrada é centrada em zero, refletindo a suposição do nulo de que o retorno esperado
de uma regra sem poder preditivo seria
gerar um retorno de zero. Esta distribuição amostral não leva em conta
o viés de mineração de dados. Resultados experimentais apresentados mais adiante neste capítulo
mostrará que essa suposição está errada. Eles vão demonstrar que mesmo
quando todas as regras testadas durante a mineração de dados têm retornos esperados iguais a
zero, a regra de melhor desempenho provavelmente exibirá um desempenho muito maior
do que zero.
Observe na Figura 6.9 que o desempenho observado de +37 por cento
cai muito na cauda direita da distribuição amostral dando um valor p
inferior a 0,05. Com base nesta evidência, a hipótese nula
seria rejeitada e a inferência seria que a regra tem um retorno esperado maior que zero
(ou seja, tem poder preditivo). Esta conclusão está errada!
Se, no entanto, o desempenho observado desta melhor regra de 50 fosse

ser submetido a um teste mais avançado de significância estatística que
leva em conta o viés de mineração de dados, a imagem parece
consideravelmente diferente. Isso é mostrado na Figura 6.10, onde os valores observados
o retorno médio para a melhor regra de 50 é comparado com a distribuição de
amostragem correta. Esta é a distribuição amostral da média máxima estatística entre 50
médias. Esta distribuição amostral reflete adequadamente
os efeitos de polarização da mineração de dados. Observe que a distribuição amostral é
não mais centrado em zero. Em vez disso, está centrado em +33%. Contra
Nulo
f
Hipótese
Observado
Esperado = 0% atuação
Melhor Regra de
50
Relativo Distribuição de amostras 37%
De Uma Única Amostra
Significa
Frequencia.
valor p < 0,05
-70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70
FIGURA 6.9 Distribuição de amostragem tradicional (não leva em conta a mineração de dados
tendência).
Nulo
Hipótese
Esperado = 33%
f Observado
atuação
37%
Relativo
Frequencia.
De Multimédia
valor p > 0,45
Máximo
-70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70
FIGURA 6.10 Distribuição de amostragem correta (considera o viés de mineração de dados).
Nesse cenário, o desempenho da melhor regra não parece mais significativo. A

fração da distribuição amostral que é igual ou maior
do que o retorno observado de 37 por cento é quase metade (0,45) da área total de
distribuição. Em outras palavras, se o retorno esperado de cada um dos
50 regras eram zero, então há uma probabilidade de 0,45 de que o retorno médio
da melhor regra seria maior ou igual a 37 por cento devido a
sorte. A partir disso, fica claro que 37% não é um valor estatisticamente significativo
resultado. A amostra específica de dados em que a regra se destacou apenas
aconteceu para favorecer a regra.
A Figura 6.10 mostra que a aleatoriedade (boa sorte) pode inflar o desempenho
de uma regra sem poder preditivo. Acontece que a aleatoriedade é apenas um dos
dois fatores que juntos causam o viés de mineração de dados.
A outra causa é o princípio de seleção subjacente a todos os múltiplos
procedimentos de comparação: escolher o candidato com o melhor
atuação.
VIENCIAMENTO DE DATA-MINING: UM EFEITO COM DUAS CAUSAS
O viés de mineração de dados é o resultado de um efeito conjunto: (1) aleatoriedade

e (2) o imperativo de seleção de mineração de dados ou qualquer procedimento de
comparação múltipla – escolher o candidato com o desempenho mais bem
observado. Esta seção examinará como esses dois fatores se combinam para
fazer com que o desempenho observado da melhor regra superestime seu
atuação.
Dois componentes do desempenho observado

O desempenho observado de uma regra pode ser fatorado em dois componentes.
Um componente do desempenho observado é atribuível ao verdadeiro poder preditivo
da regra, se houver. Este é o componente de desempenho devido a uma característica
recorrente do comportamento do mercado que é explorada pela regra e que deve
continuar a se manifestar no futuro prático imediato. Este é o desempenho esperado
da regra.
O segundo componente do desempenho observado é atribuível à aleatoriedade.
A aleatoriedade pode se manifestar como boa sorte ou má sorte.
Boa sorte aumenta o desempenho observado acima do esperado, enquanto a má sorte
empurra o desempenho observado abaixo do esperado. Não se pode esperar que o
componente do desempenho observado atribuível à aleatoriedade se repita no futuro
prático imediato.
Essa discussão é resumida pela equação da Figura 6.11.
O espectro da aleatoriedade
É útil pensar em um espectro de aleatoriedade. Este conceito é representado na Figura
6.12.26 Em uma extremidade do espectro, o desempenho observado é
Observado Esperado
atuação
= atuação +/- Aleatoriedade
FIGURA 6.11 Os dois componentes do desempenho observado.
Macacos
Como
Matemático Autores
Provas
Leis da Física Bíblia

Códigos
Nível de concerto
Músico
Loteria
Jogadoras
Regras de AT
Mérito Sorte
Domina Domina
FIGURA 6.12 Espectro de aleatoriedade – contribuições relativas de mérito versus sorte
nos resultados observados.
dominada pela aleatoriedade. Neste extremo, todas as performances são puramente uma
questão de sorte. Aqui encontramos obras literárias de macacos dançando na palavra
processadores e resultados de jogadores de loteria. Na outra extremidade do espectro, o
desempenho observado é dominado pelo mérito ou comportamento sistemático. Nesse extremo,
é apenas o mérito que importa. Produzindo uma prova válida
de um teorema matemático reside aqui. Muito próximos são observados
performances de músicos de nível de concerto. Também neste bairro temos
encontrar as leis da física cujas previsões altamente precisas são feitas
possível pelo comportamento ordenado de certos aspectos da natureza.
No meio do espectro de aleatoriedade estão os problemas de mineração de dados mais
interessantes. Quanto mais distante da extremidade aleatória do espectro
um vai, maior o risco de viés de mineração de dados. Em direção à extremidade direita de
o continuum, encontramos uma região que contém as regras TA. A complexidade e aleatoriedade
dos mercados financeiros nos asseguram que mesmo as regras mais poderosas serão
fracamente preditivas. Nesta zona, a magnitude da
o viés de mineração de dados será grande.
Agora chegamos a um princípio importante. Quanto maior a contribuição
de aleatoriedade (sorte) em relação ao mérito no desempenho observado, o
maior será a magnitude do viés de mineração de dados. A razão é esta:
Quanto maior o papel da sorte em relação ao mérito, maior a chance de
uma das muitas regras candidatas experimentará uma sorte extraordinariamente
atuação. Este é o candidato que será selecionado pelo minerador de dados.
No entanto, em situações em que o desempenho observado é estritamente ou principalmente
devido ao verdadeiro mérito de um candidato, o viés de mineração de dados será inexistente
ou muito pequeno. Nesses casos, o desempenho passado de um candidato será um preditor
confiável do desempenho futuro e o minerador de dados raramente preencherá o
funil com ouro de tolo.
Como os mercados financeiros são extremamente difíceis de prever, a maior parte de um
desempenho observado da regra será devido à aleatoriedade e não à sua
poder preditivo. Assim, a equação dada anteriormente na Figura 6.11 pode
ser melhor ilustrado como na Figura 6.13. O grande papel da aleatoriedade
em relação ao mérito (ou seja, poder preditivo) torna provável que os dados da regra TA
mineração será infectada com um grande viés.
A gama de problemas para os quais os procedimentos de comparação múltipla
pode ser aplicado pode ser visualizado como estando ao longo do espectro da aleatoriedade.
Em direção ao extremo aleatório do espectro está uma faixa associada a
Observado Preditivo
= Poder
+/– Aleatoriedade
atuação
FIGURA 6.13 Contribuições relativas da aleatoriedade e poder preditivo no desempenho

observado.
Mineração de dados da regra TA. Eu usei um intervalo para representar a mineração de dados de regras em vez de
do que um único local para indicar que o nível de aleatoriedade irá variar
de um empreendimento de mineração para outro. Como será demonstrado mais adiante neste
capítulo, o nível de aleatoriedade em qualquer empreendimento de mineração de dados é
determinado por cinco fatores independentes.27 Quando esses fatores são levados em consideração
consideração, torna-se possível desenvolver procedimentos de significância estatística que são
mais capazes de lidar com o viés de mineração de dados. Em outros
palavras, torna-se possível calcular a significância estatística de ou
intervalo de confiança para uma regra que foi descoberta pela mineração de dados. Esses
procedimentos aliviam o problema-chave enfrentado por praticantes objetivos de AT que usam
mineração de dados para descoberta de conhecimento.
A Eficácia da Comparação Múltipla

Procedimentos sob diferentes condições
de aleatoriedade
Procedimentos de comparação múltipla são aplicados a problemas em que se busca a melhor
solução. Um universo de soluções candidatas é proposto. Uma figura de
mérito quantifica o desempenho observado de cada candidato e aquele
com o melhor desempenho observado é selecionado.
Muitas pessoas presumem que o MCP cumpre duas promessas: (1) A
o candidato com o melhor desempenho observado provavelmente terá o melhor desempenho
no futuro e (2) o desempenho observado do candidato com melhor desempenho é uma estimativa
confiável de seu desempenho futuro. Isto
cumpre a primeira promessa. No entanto, no domínio da regra TA volta
testando, ele não entrega no segundo.
No que diz respeito à primeira promessa, que o candidato com maior
o desempenho observado é também aquele com maior probabilidade de se sair melhor no futuro,
isso foi comprovado por White28 , pois o número de observações se aproxima do infinito. White
mostrou que, à medida que o tamanho da amostra se aproxima do infinito, a probabilidade de o
candidato governar com o maior
retorno (ou seja, a regra verdadeiramente melhor) se tornará conhecida por ter o melhor
desempenho observado aproxima-se de 1.0. Isso nos diz que a lógica básica da
mineração de dados é bom! A regra com o maior desempenho observado é
a regra que deve ser selecionada. A validade dessa suposição também
ser demonstrado por experimentos matemáticos apresentados mais adiante neste
capítulo: Investigação Experimental do Viés de Mineração de Dados. Esses resultados mostram
que quando um número suficiente de observações é usado para calcular a estatística de
desempenho de uma regra (por exemplo, seu retorno médio), a regra com o
desempenho observado mais alto tem um retorno esperado mais alto do que um
regra escolhida ao acaso do universo de regras testadas. Mineração de dados
deve, no mínimo, passar por esse teste mínimo de eficácia para ser considerado um método de
pesquisa que vale a pena, e passa!
Com relação à segunda promessa, de que o desempenho observado do candidato

selecionado é uma estimativa confiável de seu desempenho futuro, as notícias não são boas.
Jensen e Cohen29 apontam que, quando o MCP é aplicado em situações em que a aleatoriedade
desempenha um papel significativo no desempenho observado, o desempenho observado do
candidato com melhor desempenho superestima seu desempenho esperado (futuro). Em outras
palavras, quando o desempenho observado é determinado significativamente pela sorte, ele
fornece uma estimativa com viés positivo. Este é o caso da mineração de dados da regra TA.
O desempenho observado é uma estimativa confiável do desempenho futuro do melhor

candidato em situações em que a aleatoriedade é inexistente ou tão baixa que nunca pode
influenciar a escolha do candidato vencedor. Tal é o caso de uma competição de música ou uma
competição para fazer provas matemáticas, onde é o mérito, não a sorte, que leva o dia.
Conclusão: o candidato selecionado pelo MCP é o candidato com maior probabilidade de

se sair melhor no futuro, desde que um grande número de observações seja usado para calcular
a estatística de desempenho. No entanto, em problemas onde a aleatoriedade tem um impacto
significativo, o desempenho observado é positivamente enviesado, e o desempenho futuro do
candidato selecionado será, com toda a probabilidade, pior do que o desempenho que lhe
permitiu vencer a competição.
Eficácia do MCP em situações de baixa aleatoriedade
Primeiro, considere a aplicação do MCP a problemas com baixa aleatoriedade.

Nesse extremo do espectro, o desempenho observado de um candidato é dominado pelo mérito,
e o MCP é eficaz na identificação de mérito superior.
Esse problema é exemplificado pela tarefa de contratar um novo primeiro violinista para
uma orquestra sinfônica.30 O universo de candidatos consiste no conjunto de músicos que se
candidatam à vaga. Cada um é convidado a apresentar uma composição desafiadora, sem
ensaio prévio, para um painel de jurados. A avaliação dos juízes é a figura do mérito. Este teste
ácido de competência instrumental, conhecido como leitura à primeira vista, é eficaz porque
grandes performances não ocorrem por sorte. Se a sorte é um fator, é um fator menor. Por
exemplo, um grande músico pode ter um dia de folga por causa de uma briga conjugal ou um
pneu furado a caminho da audição, mas mesmo essas influências aleatórias terão apenas um
pequeno efeito em um músico verdadeiramente meritório.
Nessa situação, o desempenho observado é um indicador preciso do verdadeiro mérito e

um excelente preditor do desempenho futuro. Isso está representado na Figura 6.14. O mérito
de cada candidato, que equivale ao seu desempenho esperado, é indicado pela seta. Ambos os
músicos são excelentes, embora um seja um pouco melhor. A distribuição de desempenho
possível em torno do mérito de cada candidato é estreita, indicando o menor impacto da
aleatoriedade no desempenho observado. Observação
Esperado
atuação
Mérito Superior
Candidato
Probabilidade
Esperado
atuação
Menor
Candidato
Pobre Excelente
atuação
FIGURA 6.14 Baixa aleatoriedade – pequeno diferencial de mérito. O verdadeiro mérito brilha
através do nevoeiro da aleatoriedade.
que não há sobreposição nas distribuições, de modo que, mesmo que o melhor
candidato tenha um desempenho azarado (ou seja, no extremo inferior da distribuição)
e o menor candidato tenha um extremamente sortudo, o melhor candidato ainda será
selecionado. Essa é outra maneira de dizer que é improvável que a aleatoriedade
inflacione o desempenho do concorrente inferior o suficiente para que ele seja
selecionado em detrimento do candidato de maior mérito.
Eficácia do MCP em alta aleatoriedade

Agora considere uma situação na extremidade oposta do espectro de aleatoriedade,
mineração de dados da regra TA. Aqui, a aleatoriedade tem um grande impacto no
desempenho observado, pois mesmo as regras ou modelos de AT mais potentes
possuem relativamente pouco poder preditivo. Esta é uma consequência da natureza
complexa e altamente aleatória dos mercados financeiros. A distribuição de probabilidade
do desempenho observado de uma regra com retorno esperado de zero é ilustrada na
Figura 6.15. Embora zero seja o retorno mais provável, retornos muito mais altos ou
mais baixos são possíveis devido à boa ou má sorte. Se a regra não tiver sorte no back
test, o desempenho observado será negativo. Ainda mais problemático para o técnico
objetivo é quando a boa sorte brilha na regra inútil e ganha uma taxa de retorno positiva.
Isso pode levar o técnico objetivo a acreditar que o ouro TA foi encontrado. De fato, os
sinais da regra coincidiram favoravelmente com as flutuações do mercado puramente
por acaso.
Embora seja improvável um retorno médio extremamente positivo ou negativo para

uma regra individual, torna-se cada vez mais provável à medida que mais regras são
testadas novamente. Assim como quanto maior o número de pessoas que jogam na loteria
Probabilidade
Esperado
Retorno = 0%
Possível Possível
Mas Mas
Cru Cru
azar boa sorte
Devoluções negativas Devoluções Positivas

0
Retorno Anualizado
FIGURA 6.15 Distribuição de probabilidade do desempenho observado.
aumenta a chance de haver alguém sortudo o suficiente para ganhar duas vezes, quanto maior
o número de regras testadas novamente aumenta a chance de uma regra ter um desempenho
observado extraordinariamente sortudo. Esta é a regra que seria escolhida pelo minerador de
dados. Conclusão: quando o desempenho observado se deve principalmente à aleatoriedade, é
provável que o melhor desempenho observado, entre um grande conjunto de desempenhos
observados, seja em grande parte um efeito da aleatoriedade.
Para ver como a sorte pode afetar um minerador de dados, imagine que você está
observando um minerador de dados no trabalho. Além disso, imagine que você está na posição
afortunada de saber o que nenhum minerador de dados sabe, o verdadeiro retorno esperado de
cada regra que é testada novamente. Suponha que o minerador de dados teste doze regras
diferentes e você saiba que cada uma das regras tem um retorno esperado de 0%. Tudo o que
o minerador de dados conhece são os retornos observados produzidos pelo teste de retorno de
cada regra. Na Figura 6.16, o desempenho observado de cada regra é representado por uma
seta na distribuição de probabilidade. Cada distribuição é centrada em zero, refletindo o fato de
que cada regra tem uma taxa de retorno esperada de zero. Observe que uma regra deu sorte,
produzindo um retorno observado de +60%. Esta é a regra que seria selecionada pelo minerador
de dados. Nesse caso, o viés de mineração de dados foi positivo em 60%.
Se o minerador de dados testasse um número ainda maior de regras, a chance de um

desempenho observado ainda mais positivo seria maior. Como será discutido, o número de
regras testadas durante a mineração de dados é um dos cinco fatores que afetam o tamanho do
viés de mineração de dados. Na Figura 6.17, 30 regras são testadas e uma conseguiu produzir
um desempenho observado de 100%. Esta é a regra que seria selecionada pelo minerador de
dados. Você sabe que é altamente provável que seu desempenho futuro seja decepcionante.
0 0 0
0 0 0
0 0 0
0 0 0
60%
FIGURA 6.16 Doze regras diferentes (cada uma tem um retorno esperado de 0%).
0 0 0 0 0 0 100%
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
0 0 0 0 0 0
FIGURA 6.17 A mineração de dados com mais regras aumenta a probabilidade de uma sorte mais extrema.
O risco de escolher uma regra inferior

Os exemplos anteriores assumiram que todas as regras eram de igual mérito (todas esperavam
retornos iguais a zero). Naturalmente, o minerador de dados espera que haja
pelo menos uma regra superior entre todas as testadas, e que a regra superior
o desempenho observado da regra a identificará como tal. Infelizmente, isso é
nem sempre é o caso.
Esta é outra consequência negativa da alta aleatoriedade. O superior
regra, aquele com maior retorno esperado, pode não ser escolhido, porque um
o desempenho sortudo da regra inferior vence a competição de mineração de dados. Um
senso intuitivo da probabilidade desse resultado infeliz é retratado na Figura
6.18. Ele mostra a distribuição do desempenho observado para duas regras com
desempenhos esperados quase idênticos, mas um é realmente superior. No entanto, a
sobreposição considerável das distribuições dá uma sensação de que há uma
chance substancial de que a regra de menor mérito produza o desempenho mais alto
observado, fazendo com que seja escolhida.
No entanto, quando a diferença nos retornos esperados (mérito) entre
a regra realmente melhor e a próxima melhor regra é grande o suficiente, o minerador de dados
pode estar mais confiante de que o desempenho melhor observado será confiável
apontar para a regra superior. Isso é ilustrado na Figura 6.19. Em outros
Em outras palavras, quando a diferença de mérito entre a melhor regra e seu concorrente mais
próximo é grande, é mais provável que o mérito brilhe através do
névoa da aleatoriedade. Esta é a iluminação que guia o minerador de dados para
o ouro.
Praticamente falando, o minerador de dados nunca está ciente do risco de escolher uma
regra inferior. Isso exigiria o conhecimento do verdadeiro mérito (esperado
return), que é um parâmetro populacional e, portanto, nunca conhecido. o
Retorno esperado
Candidato ao Mérito Superior
Probabilidade
Retorno esperado
Candidato ao Mérito Menor
Baixo Alto
0
atuação
FIGURA 6.18 Alta aleatoriedade e pequena diferença de mérito.

Probabilidade
Esperado Esperado
Retornar Mau Retornar
Regra inferior Sorte Regra Superior
Excelente
Sorte
Baixo Alto
0 +20%
atuação
FIGURA 6.19 Alta aleatoriedade e grande diferença de mérito (superioridade sobre

aleatoriedade).
minerador de dados nunca consegue ver todas as consequências do viés de mineração de dados
até que, como diz a música, o futuro é passado.
Cinco fatores determinam a magnitude

do viés de mineração de dados
Vamos recapitular brevemente o que foi estabelecido até agora:
• O viés de mineração de dados é definido como a diferença esperada entre

o desempenho observado de uma regra que vence a competição de mineração de dados
e seu verdadeiro desempenho esperado.
• O desempenho observado refere-se ao nível de desempenho alcançado por
uma regra no backtesting. O desempenho esperado refere-se ao desempenho teórico da
regra no futuro.
• O desempenho observado da regra de melhor desempenho encontrada por
A mineração de dados é positivamente tendenciosa. Portanto, seu desempenho esperado
fora da amostra será menor do que o desempenho observado na amostra
que lhe permitiu vencer outras regras testadas.
• O desempenho observado é uma combinação de aleatoriedade e poder preditivo. Quanto
maior a contribuição relativa da aleatoriedade, mais
maior será a magnitude do viés de mineração de dados.
A relação entre o viés de mineração de dados e a contribuição relativa da aleatoriedade é

ilustrada na Figura 6.20. Conforme explicado no próximo
seção, o grau de aleatoriedade encontrado em uma determinada mineração de dados
empreendimento depende de cinco fatores que caracterizam o empreendimento.
Grande
Dados
Mineração
Tendência
Sem preconceito
MÉRITO SORTE
Espectro de Aleatoriedade
FIGURA 6.20 Relação do viés de mineração de dados com o grau de aleatoriedade.
Os Cinco Fatores Definidos. Cinco fatores determinam o grau de viés de mineração de dados.
Eles são:
1. Número de regras testadas novamente: Refere-se ao número total de regras testadas

durante o processo de mineração de dados em rota para descobrir a regra de melhor
desempenho. Quanto maior o número de regras testadas, maior o viés de mineração de
dados.
2. O número de observações usado para calcular a estatística de desempenho: quanto
maior o número de observações, menor o viés de mineração de dados.
3. Correlação entre retornos de regras: Refere-se ao grau em que os históricos de

desempenho das regras testadas estão correlacionados entre si. Quanto menos
correlacionados eles forem, maior será o viés de mineração de dados.
4. Presença de retornos atípicos positivos: Refere-se à presença de retornos muito grandes
no histórico de desempenho de uma regra, por exemplo, um retorno positivo muito grande
em um determinado dia. Quando estes estão presentes, o viés de mineração de dados
tende a ser maior, embora esse efeito seja reduzido quando o número de outliers positivos
é pequeno em relação ao número total de observações que são usadas para calcular a
estatística de desempenho. Em outras palavras, mais observações diluem o efeito de
polarização de valores discrepantes positivos.
5. Variação dos retornos esperados entre as regras: Refere-se à variação do mérito

verdadeiro (retorno esperado) entre as regras retrotestadas.
Quanto menor a variação, maior o viés de mineração de dados. Em outras palavras, quando
o conjunto de regras testadas tiver graus semelhantes de poder preditivo, o viés de
mineração de dados será maior.
Como cada fator afeta o viés de mineração de dados. As Figuras 6.21 a 6.25 descrevem as
relações entre cada um dos cinco fatores e
Grande
Preconceito de DM
1 Muitos
Registro do Número de Regras Testadas
FIGURA 6.21 Número de regras novamente testadas (1).
Grande
Preconceito de DM
1 Muitos
Número de Observações
FIGURA 6.22 Número de observações usadas para calcular a estatística de desempenho (2).
Grande
Preconceito de DM
0,2 0,4 0,6 0,8 1,0
Coeficiente de Correlação
FIGURA 6.23 Correlação entre retornos de regras (3).

Grande
Preconceito de DM
0
Baixo Alto
Número e magnitude de valores atípicos em relação ao número de observações usadas para

Estatística de desempenho de computação
FIGURA 6.24 Presença de retornos outlier positivos (4).
Grande
Preconceito de DM
Baixa Variação Alta Variação

(Mérito Todas as Regras) ~~ (Uma Regra Muito Superior)
FIGURA 6.25 Variação no ROI esperado—grau de diferença no mérito no universo de

regras(5).
a magnitude do viés de mineração de dados. Esses relacionamentos dizem respeito

especificamente a empreendimentos de mineração de dados em que a estatística de desempenho
usada é a taxa média de retorno da regra. Como a distribuição amostral de outras estatísticas de
desempenho, como o índice de Sharpe, será diferente da distribuição do retorno médio, as
relações entre os cinco fatores e o viés de mineração de dados também podem ser diferentes.
O leitor astuto se perguntará como tais curvas poderiam ter sido desenvolvidas, uma vez
que o desempenho esperado de uma regra nunca é conhecido (é um parâmetro populacional),
mas deve ser conhecido para medir o viés de mineração de dados. O leitor está correto; o viés
de mineração de dados nunca é conhecido por regras reais. No entanto, pode ser conhecido por
regras artificiais e, portanto, pode ser investigado. Uma regra artificial é um sinal de negociação
simulado por computador
cuja precisão (fração de sinais corretos) pode ser definida experimentalmente.

Isso possibilita conhecer o retorno esperado da regra artificial.
As curvas anteriores foram baseadas em um conjunto de testes feitos em regras artificiais.
Os resultados desses testes, descritos na próxima seção, mostram
como os cinco fatores afetam o viés de mineração de dados.
INVESTIGAÇÃO EXPERIMENTAL
DO VIENCIAMENTO DE DATA-MINING
Os cientistas fazem observações e tiram inferências delas. Inferências de som dependem

de observações precisas. Assim, uma tarefa fundamental é determinar a
precisão do procedimento usado para fazer observações. O processo de medir o erro
aleatório e sistemático que pode estar presente em um procedimento observacional é
chamado de calibração. Uma maneira de calibrar a precisão de
um procedimento é testá-lo em um problema cuja resposta correta é conhecida. este
torna possível medir seus erros aleatórios e/ou sistemáticos.
Os técnicos objetivos são os cientistas do mundo da AT. Seu principal
procedimento é o teste de retorno de regra. O observável produzido é uma performance
estatística. Com base nessa estatística, é feita uma inferência sobre a
poder preditivo ou desempenho esperado. Portanto, os técnicos objetivos estão devidamente
preocupados com o erro aleatório e/ou sistemático
que pode estar presente nas estatísticas de desempenho obtidas por backtesting. O Capítulo
4 mostrou que as estatísticas de desempenho estão sujeitas a
erro devido à variabilidade da amostragem. Este capítulo trata de uma forma de
erro sistemático que decorre da mineração de dados – o viés da mineração de dados.
Esta seção descreve os resultados de experimentos que investigam a
viés de mineração de dados examinando como cada um dos cinco fatores afeta o
tamanho do preconceito. Isso é feito por mineração de dados em um universo de negociação artificial
regras (ATR). Ao contrário das regras reais de AT, os ATRs são ideais para esse fim, pois
seu retorno esperado pode ser conhecido por estar sob controle experimental. Isso nos
permite medir o viés de mineração de dados associado
com a regra que teve o melhor desempenho observado. Isso, por sua vez, diz
com que precisão seu desempenho observado, uma estatística que é conhecida por
o minerador de dados, retrata seu desempenho esperado, o parâmetro populacional que o
minerador de dados deseja conhecer.
Regras Artificiais de Negociação e

Históricos de Desempenho Simulados
Os históricos de desempenho de ATR produzidos nesses experimentos são compostos por

retornos mensais. O retorno esperado de um ATR é controlado
manipulando a probabilidade de um retorno mensal lucrativo. este

probabilidade pode se manifestar em um número muito grande de
meses, uma manifestação da Lei dos Grandes Números. No entanto, ao longo
qualquer pequena amostra de meses, a fração real de meses lucrativos será
variam aleatoriamente em torno do nível de probabilidade especificado. Essa variação
introduz o elemento crucial da aleatoriedade nos experimentos. Um ATR
histórico de desempenho pode ser gerado para qualquer número especificado de
meses (por exemplo, 24).
Quando a probabilidade de um mês lucrativo é conhecida, como é com um
ATR, seu retorno esperado pode ser determinado com precisão. Isso, por sua vez, permite
o viés de mineração de dados associado à regra a ser medida. O retorno esperado de um
ATR é dado pela fórmula usada para calcular o valor esperado de uma variável aleatória:
EV = p(mês lucrativo) × ganho médio – p(mês perdedor) × perda média
O ganho médio e a perda média também são conhecidos porque os ATRs

foram aplicados às mudanças percentuais absolutas mensais para o S&P 500
no período de agosto de 1928 a abril de 2003. O termo absoluto significa
o sinal da mudança mensal real da S&P foi ignorado. Nos testes ATR
o sinal algébrico (+ ou –) do retorno mensal do ATR foi determinado por
um processo aleatório que é descrito abaixo. Ao longo deste período de tempo,
compreendendo cerca de 900 observações mensais, o retorno mensal absoluto médio
para o S&P 500 foi igual a 3,97%. Assim, a fórmula para calcular o retorno esperado de
um ATR é:
ER = ppm × 3,97 – (1 – ppm) × 3,97
Onde ppm é definido como a probabilidade de um mês lucrativo.

Os históricos de desempenho do ATR foram gerados por simulação de Monte Carlo.
Especificamente, as variações mensais absolutas no S&P 500 foram amostradas com
reposição do histórico de 900 meses. Um retorno mensal,
sem o seu signo, foi escolhido ao acaso, e uma roleta, simulada
por um computador, determinado se aquele mês em particular foi um ganho ou uma perda.
Isso representou um mês do histórico de atuação do ATR. A probabilidade de um mês
lucrativo foi definida pelo experimentador. Uma probabilidade de
0,70 seria como se a roleta tivesse 100 slots com 70 designados como
lucro e 30 designados como prejuízo. Este procedimento para gerar mensalmente
Os retornos de ATR foram repetidos por um determinado número de meses, outra variável
sob controle experimental. O histórico de desempenho é então resumido com uma
estatística – retorno médio mensal, anualizado. Este procedimento é
média de n meses
Retorno = ?
Absoluto $
Por mês
Devoluções
S&P 500
Dispositivo aleatório ATR
1928 -2003 Com atuação
Probabilidade de História
Aleatório Mês lucrativo Do
Definir experimentalmente M meses
Amostragem
Com
Substituição
FIGURA 6.26 Geração Monte Carlo de históricos de desempenho de ATR.
Vamos considerar qual seria o retorno esperado para um ATR sob quatro
configurações diferentes de probabilidade de ganho mensal: 1,0, 0,63, 0,50 e 0,0.
Um ATR com p(ganho) definido em 1,0 (todos os meses lucrativos) teria um
retorno mensal esperado igual ao retorno mensal absoluto médio do S&P 500 de
+3,97% ao mês ou um retorno anualizado não composto de 47,6%. Esse valor
pode ser obtido inserindo-se na fórmula do valor esperado de uma variável
aleatória. A mesma fórmula nos diz que um ATR com probabilidade de um mês
de ganho definido para 0,63 teria um retorno esperado de +12,4%. Um ATR com
probabilidade de ganho igual a 0,50 teria um retorno esperado de zero, enquanto
uma probabilidade de ganho igual a zero teria um retorno de -3,97% ao mês ou
-47,6% ao ano.
Tenha em mente que estes são valores esperados que seriam ganhos ao
longo de um número muito grande de meses. Ao longo de qualquer pequeno
número de meses, o retorno médio observado do ATR pode variar deste valor.
Quanto menor o número de meses que compõem o histórico de desempenho do
ATR, maior será a variação aleatória do retorno médio esperado.
Para simular o efeito da mineração de dados, por exemplo, escolhendo o
ATR de melhor desempenho de 10, foram gerados 10 históricos de desempenho
de ATR. Foi selecionado aquele com maior média de retorno e anotado o seu
retorno observado. Este processo foi repetido um total de 10.000 vezes. As
10.000 observações foram usadas para formar a distribuição amostral para a
estatística – retorno médio do ATR de melhor desempenho selecionado entre 10.
Conjunto de experiências 1: ATRs de mineração de dados de igual mérito
No primeiro conjunto de experimentos, todos os ATRs foram especificados para

ter igual poder preditivo. Isso foi feito definindo p(ganho) para 0,50 para todos os
ATRs, dando a todos um retorno esperado de zero.
Fator 1: Número de Regras Testadas. Tudo o mais sendo igual, quanto mais regras forem
testadas para encontrar a melhor regra, maior será o viés de mineração de dados.
Mais macacos dançando em teclados aumentam a probabilidade de alguém ter a sorte de digitar
algo que pareça alfabetizado. Da mesma forma, testar novamente um número maior de regras
aumenta a chance de desfrutar de uma sorte extraordinária.
Nos testes que se seguem, cada ATR foi simulado ao longo de um período de 24 meses.
Primeiro, vamos olhar para o caso sem mineração de dados - apenas uma regra é testada
novamente. Não há mineração de dados e nenhum viés de mineração de dados. Embora um
ATR com p(ganho) definido em 0,50 tenha um retorno esperado igual a zero, a variabilidade da
amostragem torna possível que qualquer histórico de 24 meses produza um retorno médio que
varia acima e abaixo de zero.
Para demonstrar isso, 1.000 históricos de desempenho de ATR, cada um com 24 meses
de duração, foram produzidos por simulação de computador. A distribuição amostral para o
retorno anualizado médio estatístico é mostrada na Figura 6.27. Como esperado, a distribuição
é centrada em zero, que é de fato o retorno esperado de um ATR com p(ganho) definido como
0,50. Também como esperado, o retorno médio apresenta uma ampla faixa de variação em torno
de zero porque 24 observações é um tamanho de amostra relativamente pequeno. Alguns ATRs,
aqueles que estão na cauda direita da distribuição de amostragem, tiveram muita sorte (mais de
50 meses acabaram sendo lucrativos). Na cauda esquerda da distribuição, encontramos os
históricos de desempenho com azar. No entanto, é o centro da distribuição amostral que conta a
história. Em média, sob a condição de não mineração de dados, pode-se esperar que um ATR
sem poder preditivo
250
200
150
100
50
-48 -38 -29 -19 -9,6 0 9,6 19 29 38 48
FIGURA 6.27 Retorno percentual médio anualizado (ATR único, histórico de 24 meses,
1.000 replicações).
obter um retorno médio de zero. Como os próximos testes mostrarão, quando um ATR
de melhor desempenho é escolhido entre dois ou mais ATRs, o melhor provavelmente
mostrará um retorno maior que zero, mesmo que tenha um retorno esperado de zero.
Agora estaremos minerando dados escolhendo o melhor ATR de dois ou mais.
Para examinar a relação entre o tamanho do viés de mineração de dados e o número
de regras das quais o melhor é selecionado, vamos variar o tamanho do universo ATR
– o número do qual o melhor é escolhido. Especificamente, o viés é medido para o
melhor ATR de 2, 10, 50 e 400. Por exemplo, se o número de ATRs foi definido em 10,
o de melhor desempenho entre 10 foi escolhido e seu retorno médio observado foi
anotado. Esse procedimento foi repetido 10.000 vezes e a distribuição amostral para a
estatística (retorno observado do melhor ATR) foi plotada. Todos os históricos de
desempenho são de 24 meses, todas as regras são definidas como p(ganho) = 0,50
(retorno esperado = 0) e todas as regras são definidas para ter retornos independentes
(sem correlação). Como todos os ATRs esperavam retornos iguais a zero, o viés de
mineração de dados é simplesmente igual ao retorno observado do melhor desempenho
em média em 10.000 replicações.
A Figura 6.28 mostra a distribuição amostral do desempenho observado para o

melhor ATR de dois. A distribuição amostral está centrada em +8,5 por cento. Em outras
palavras, quando apenas dois ATRs são testados e o melhor é selecionado, o viés é
positivo em 8,5%. O minerador de dados estaria esperando +8,5% no futuro, mas
sabemos que o verdadeiro retorno esperado é de 0%.
Se o número de ATRs for aumentado para 10 e o melhor for selecionado, o viés de

mineração de dados aumentará para +22%. No entanto, sabemos que o ATR selecionado
tem um p(ganho) de 0,50 e um retorno esperado de 0%.
8,5% Observado
Esperado Retornar
Retornar 0% Melhor
f
Melhor ATR
ATR Do
2 Regras
Relativo
Frequencia.
Viés de mineração
de dados
+8,5%
-70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70
FIGURA 6.28 Distribuição de amostragem — retorno médio melhor de dois ATRs.

A Figura 6.29 é semelhante a 6.28, exceto que mostra a distribuição amostral para o retorno
médio observado para o melhor de 10 ATRs. O desempenho observado dos melhores de 10
ATRs é enviesado em +22%.
Quando o tamanho do universo de mineração de dados é expandido para 50 ATRs, o viés
aumenta para +33%. A Figura 6.30 mostra a distribuição amostral para o retorno médio dos
melhores de 50 ATRs.
Um gráfico semelhante, na Figura 6.31, mostra que o viés de mineração de dados em
aumenta para +48% para os melhores de 400 ATRs.
A relação entre o número de ATRs testados e o viés de mineração de dados pode ser vista
na Figura 6.32. Ele resume os resultados obtidos para
22% Observado
Esperado Retornar
Retornar 0% Melhor
f
Melhor ATR
ATR De
10
Relativo
Frequencia.
Viés
+22%
-70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70
FIGURA 6.29 Distribuição de amostragem – retorno médio melhor de 10 ATRs.
33% Observado
Esperado Retornar
Retornar 0% Melhor
f
Melhor ATR
ATR De
50
Relativo
Frequencia.
Preconceito +33%
-70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70

48% Observado
Esperado Retornar
Retornar
0% Melhor
f
Melhor ATR
ATR De
400
Relativo
Frequencia.
Preconceito +48%
-70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70
60%
50%
D
M 40%
B 30%
EU
UMA
20%
S
10%
12 10 50 400
Número de regras testadas (escala logarítmica)
FIGURA 6.32 Viés de mineração de dados versus número de regras testadas (retorno percentual
anualizado): histórico de desempenho de 24 meses.
melhor de 2, 10, 50 e 400 ATRs. O eixo vertical representa a magnitude do viés de mineração
de dados - o diferencial entre os retornos observados para o ATR de melhor desempenho e
seu retorno esperado. O eixo horizontal representa o número de ATRs testados para
encontrar o melhor. A relação é resumida ajustando uma curva através dos quatro pontos de
dados. É quase linear quando o número de regras testadas é plotado em termos de log —
log (base10).
O principal ponto a ser retirado desses experimentos é o seguinte: quanto maior o número
de regras testadas para encontrar a melhor regra, maior o viés de mineração de dados.
Deve-se ressaltar que as magnitudes particulares da mineração de dados

viés mostrado nos testes anteriores são válidos apenas para as particularidades deste
teste: um conjunto específico de retornos mensais do S&P 500, um histórico de desempenho
de 24 meses, todas as regras têm retornos independentes e todas as regras têm um
retorno esperado igual a zero. Em um empreendimento de mineração de dados diferente, com
particulares diferentes, o mesmo princípio se aplicaria (mais regras produzem um viés maior),
mas os níveis específicos do viés de mineração de dados
ser diferente.
Por exemplo, se um histórico de desempenho mais longo foi usado para calcular
retorno médio - 48 meses em vez de 24 - a distribuição dos retornos médios de ATR teria se
agrupado mais firmemente em torno do retorno esperado de
zero. Esta é apenas uma manifestação da Lei dos Grandes Números. Conseqüentemente, o
viés associado ao ATR de melhor desempenho teria
foi menos. Isso nos diz que o número de observações usadas para calcular
a estatística de desempenho é um fator importante na determinação da magnitude do viés de
mineração de dados.
Vamos considerar o que foi dito na frase anterior. Quanto maior o
número de observações mensais usadas para calcular a estatística de desempenho, menor a
dispersão da distribuição amostral da estatística. Dentro
outras palavras, quanto maior o tamanho da amostra usada para calcular o desempenho
estatística, menor o grau de aleatoriedade no desempenho observado e
menos a oportunidade para um desempenho extraordinariamente afortunado. O que sempre
reduz o grau de aleatoriedade no desempenho observado reduz
o viés de mineração de dados.
A importância do tamanho da amostra no viés de mineração de dados pode ser vista em
Figura 6.33. É semelhante à Figura 6.32 anterior. É um gráfico de viés de mineração de dados,
representado no eixo vertical, em função do número de
ATR's comparados para encontrar o melhor, no eixo horizontal. No entanto, em
neste gráfico existem quatro curvas em vez de uma. Cada curva é baseada no uso de um
número diferente de observações mensais para calcular o valor de cada regra.
retorno médio; 10, 24, 100 e 1.000 meses. A linha pontilhada para 24
meses é a mesma curva vista na Figura 6.32. Dois pontos merecem
Nota. Primeiro, todas as curvas aumentam à medida que o número de regras testadas aumenta.
Isso está de acordo com o achado discutido no item anterior.
seção - o viés de mineração de dados aumenta à medida que o número de ATRs testados é
aumentou. Segundo, e talvez o mais importante, é o fato de que a magnitude do viés é reduzida
pelo aumento do número de meses usados para
calcule o retorno médio. Por exemplo, quando apenas 10 meses de dados
são usados, o viés para o melhor de 1.024 ATRs é de aproximadamente 84%. Quando 1.000
meses de dados são usados, o viés para o melhor de 1.024
regras diminui para menos de 12%. Na próxima seção, veremos porque
o número de observações é tão importante para determinar o tamanho do
96
D 10 meses.
84
M
72
B 60 24 meses.
EU
48
UMA
S 36
100m.
24
%
12 1000m.
Ano
1 4 16 64 256 1024
Número de ATRs (escala logarítmica)
FIGURA 6.33 Viés de mineração de dados versus número de ATRs testados para diferentes tamanhos
de amostra.
Fator 2: Número de Observações Usadas para Calcular a Estatística de Desempenho.

A Figura 6.33 nos diz que aumentar o número
de observações usadas para calcular a estatística de desempenho reduz o
magnitude do viés de mineração de dados. De fato, de todos os fatores que afetam a
tamanho do viés, o tamanho da amostra pode ser o mais importante. Quanto mais
observações forem usadas, menos oportunidade haverá para algumas observações afortunadas
(meses lucrativos) para resultar em um alto retorno médio. Vimos isso no Capítulo 4, onde
foi demonstrado que a distribuição amostral é reduzida em largura quando um número
maior de observações é usado para
calcule a estatística da amostra. Com apenas algumas observações, uma amostra
a média pode ficar consideravelmente acima ou abaixo da média da população real.
A mensagem transmitida por uma ampla distribuição amostral é que há uma
maior oportunidade para uma regra gerar um retorno muito lucrativo em um
teste de volta por sorte e não por poder preditivo. Isso é ilustrado em
Figura 6.34, que mostra duas distribuições de amostragem para a mesma regra,
para o qual o retorno esperado é zero. Observe a distribuição de amostragem baseada
em menos observações é mais ampla. Um retorno médio calculado a partir de um curto
histórico de desempenho é mais provável de produzir um resultado muito sortudo do que um
média calculada a partir de um número maior de observações (ou seja, um histórico de
desempenho mais longo).
O próximo conjunto de experimentos examina o efeito do número de
observações mensais usadas para calcular o retorno médio de ATR no tamanho de
o viés de mineração de dados. O número de meses variou de um mês
para 1.000 meses, em incrementos de 50 meses, com viés de mineração de dados
calculado em cada incremento. Isso foi feito para dois casos: o melhor de 10 e
Média da amostra calculada a partir

Grande número de observações
Regra da Sorte
Parece
Modestamente lucrativo
-10% 0 +10%
Média da amostra calculada a partir de

Pequeno número de observações Regra da Sorte
Parece
Altamente lucrativo
-30% -10% 0 +10% +30%
FIGURA 6.34 Distribuições de amostragem estreita versus ampla.
o melhor de 100 ATRs. Como em experimentos anteriores, todos os ATRs foram configurados para ter
retornos esperados iguais a zero.
A Figura 6.35 mostra a relação entre o viés de mineração de dados em
o eixo vertical versus o número de observações usadas para calcular
ATR média retorna no eixo horizontal. Porque o retorno esperado
para todos os ATRs é igual a zero, o viés de mineração de dados é igual à média
desempenho observado dos melhores. Assim, o eixo vertical, que é rotulado como viés de
mineração de dados, poderia facilmente ter sido rotulado como desempenho médio da melhor
regra. Observe o declínio acentuado na magnitude de
96
D 84
M
72
B
60 Desempenho observado
EU
Melhor de 100 ATRs

UMA
48
S
36 Desempenho observado
Melhor de 10 ATRs
% 24
Ano
12
1 200 400 600 800 1000

Número de meses usados para calcular o retorno médio do ATR
FIGURA 6.35 Viés de mineração de dados versus observações numéricas.

o viés como o número de observações usadas para calcular o retorno médio

é aumentado. Esta é a Lei dos Grandes Números trabalhando em favor da
Minerador de dados.
A lição aqui é esta: seja muito cético em relação às estatísticas de desempenho

calculado a partir de um pequeno número de sinais ou intervalos de tempo. Outra mensagem
importante da Figura 6.35 é que quando o número de observações (meses) se torna muito grande,
cerca de 600, a diferença no viés
entre o melhor de 10 e o melhor de 100 ATRs se torna minúsculo. Esta descoberta
tem implicações muito importantes para o minerador de dados - quando o número de
observações é suficiente, pode-se extrair dados de um número muito maior de
regras sem aumentar significativamente o viés de mineração de dados. A Lei de
Regras de números grandes!
Fator 3: Grau de Correlação de Regras. O terceiro fator que afeta

o tamanho do viés de mineração de dados é o grau de similaridade entre as regras
testado. Diz-se que as regras são semelhantes quando geram históricos de desempenho
fortemente correlacionados. Ou seja, seus retornos mensais ou diários estão correlacionados.
Quanto mais forte a correlação entre as regras
testado, menor será a magnitude do viés. Inversamente, quanto mais baixo
a correlação (ou seja, quanto maior o grau de independência estatística) entre os retornos das
regras, maior será o viés de mineração de dados.
Isso faz sentido porque o aumento da correlação entre as regras
a consequência de reduzir o número efetivo de regras está de volta
testado. Imagine um grande conjunto de regras que são completamente idênticas. Naturalmente,
eles irão gerar históricos de desempenho perfeitamente correlacionados. Com efeito,
este grande conjunto de regras é realmente apenas uma regra, e já sabemos que o
o viés de mineração de dados diminui para zero quando apenas uma regra é testada novamente.
Afastando-se deste caso extremo, quando as regras são muito semelhantes e, portanto,
têm retornos altamente correlacionados, a chance de um desempenho extraordinariamente sortudo
é reduzida. Quanto mais diferentes forem as regras, maior será a
oportunidade para se ter um grande ajuste coincidente com os dados históricos
e alcançar alto desempenho. Tão alta correlação entre as regras
reduz o número efetivo de regras testadas novamente e, portanto, reduz o
Em termos práticos, é mais provável que a correlação de regras seja alta quando os dados
mineração envolve otimizar os parâmetros de um formulário de regra específico. Suponha que
uma regra de cruzamento de média móvel dupla esteja sendo otimizada. Isso significa
que todas as regras testadas são as mesmas, exceto pelos valores dos parâmetros - o
número de dias usados para calcular as médias móveis de curto e longo prazo. A regra usando
valores de 26 dias e 55 dias produzirá retornos
que são altamente correlacionados com uma regra usando valores de 27 e 55.
A Figura 6.36 mostra a relação entre a magnitude do viés de mineração de dados para a
melhor regra (eixo vertical) e o grau de correlação
24 Melhor de 1000 ATRs
Dados 18 Melhor de 100 ATRs
Mineração
Tendência
12 Melhor de 10 ATRs
%
Ano 6
0
0,2 0,4 0,6 0,8 1,0
Correlação de regras
FIGURA 6.36 Viés de mineração de dados versus correlação de regras (número de retorno
percentual anual de observações mensais = 100).
(eixo horizontal) entre as regras. A correlação de regras foi simulada da seguinte forma: Foi gerado
um histórico inicial de desempenho do ATR. Na geração
de um segundo histórico de ATR, um dispositivo aleatório tendencioso foi consultado para
determinar os retornos mensais do histórico de ATR 2. O viés foi definido para o valor desejado
nível de correlação. Por exemplo, se uma correlação de 0,7 foi desejada, um lançamento de moeda
foi simulado com a probabilidade de cara = 0,70. Se a moeda caiu em
cabeças, então o retorno mensal para o segundo ATR seria o mesmo que
o retorno mensal do ATR inicial. Isso foi continuado para os seguintes
Histórias do ATR.
Cada ATR foi simulado ao longo de um histórico de 100 meses. Três diferentes
testes foram executados, cada um baseado em um número diferente de ATRs: 10, 100, 1.000.
Em outras palavras, um teste mede o viés de mineração de dados associado a
a melhor regra ATR de 100. Como nos testes anteriores, todas as regras esperavam retornos
iguais a zero. O eixo vertical do gráfico representa o viés de mineração de dados. O fator que está
sendo examinado aqui, correlação de regras, foi variado
de 0 a 1,0. Observe que o viés permanece alto até que as correlações de regras se aproximem de
um nível de 1,0. Assim, a correlação de regras não tem um grande impacto
na redução do viés de mineração de dados até que haja um alto nível de correlação
seus retornos. Observe também que o viés de mineração de dados é maior para o melhor
1.000 regras do que é para melhor de 10. Isso é simplesmente uma manifestação do fator
1, quanto maior o número de regras das quais o melhor é selecionado,
maior o viés de mineração de dados.
Fator 4: Presença de Outliers Positivos nos Retornos da Regra. UMA

uma amostra de retornos de regras (diários, semanais ou mensais) que contém algumas
observações positivas extremamente grandes tem o potencial de criar uma grande quantidade de dados

Evidence-Based Technical Analysis Pag-1-300 Port

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Evidence-Based Technical Analysis Pag-1-300 Port

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

John Wiley & Sons, Inc.

Copyright © 2007 por David R. Aronson. Todos os direitos reservados.

Dados de Catalogação na Publicação da Biblioteca do Congresso:

Aronson, David R., 1945–

Impresso nos Estados Unidos da América

PARTE I Metodológico, Psicológico,

CAPÍTULO 1 Regras objetivas e sua avaliação 15

CAPÍTULO 2 A Validade Ilusória do Subjetivo

CAPÍTULO 3 O Método Científico e Técnico

CAPÍTULO 4 Análise Estatística 165

CAPÍTULO 5 Testes de Hipóteses e Intervalos de Confiança 217

CAPÍTULO 6 Viés de mineração de dados: o ouro dos tolos da AT

CAPÍTULO 7 Teorias de movimento de preços não aleatórios 331

PARTE II Estudo de caso: regras de

CAPÍTULO 8 Estudo de caso de mineração de dados de regras

CAPÍTULO 9 Resultados do Estudo de Caso e o Futuro do TA 441

APÊNDICE Prova de que a redução é equivalente a

A análise técnica (TA) é o estudo de padrões recorrentes em

T dados de mercado com a intenção de prever movimentos futuros de preços.1

DEFINIÇÕES CHAVE: PROPOSIÇÕES E REIVINDICAÇÕES,

FIGURA I.1 Conhecimento: crença verdadeira justificada.

Disto segue-se que crenças errôneas ou falsos conhecimentos falham em

Falsidades são um fato inevitável da vida quando tentamos saber

CONHECIMENTO ERRO: O CUSTO

Entender por que o conhecimento produzido pela versão popular da AT

Do ponto de vista da EBTA, os métodos subjetivos são os mais problemáticos.

COMO O EBTA É DIFERENTE

O que diferencia o EBTA da forma popular de AT? Primeiro, é restrito

A EBTA rejeita todas as formas de AT subjetivas. A AT subjetiva não é sequer

RESULTADOS EBTA DA ACADEMIA

• Os grafistas especialistas são incapazes de distinguir gráficos de preços reais de ações

QUEM SOU EU PARA CRITICAR TA?

Meu interesse pela AT começou em 1960, aos 15 anos.

ANÁLISE TÉCNICA: ARTE, CIÊNCIA OU

energias agregando ao conhecimento legítimo ao invés de defender o

seu capítulo introduz a noção de regras objetivas de sinalização binária

A GRANDE DIVISÃO: OBJETIVO VERSUS SUBJETIVO

Em contraste, os métodos objetivos são claramente definidos. Quando um método de

16 FUNDAMENTOS METODOLÓGICOS, PSICOLÓGICOS, FILOSÓFICOS E ESTATÍSTICOS

experimento que permite que as alegações de lucratividade sejam testadas e possivelmente

Os métodos objetivos de AT também são chamados de regras mecânicas de negociação ou

Regras Binárias e Limites

Regras objetivas e sua avaliação 17

também pode ser projetado para recomendar posições longas/neutras ou posições

18 FUNDAMENTOS METODOLÓGICOS, PSICOLÓGICOS, FILOSÓFICOS E ESTATÍSTICOS

A regra de cruzamento de média móvel é um exemplo de como um limite variável é usado

FIGURA 1.2 Regra de cruzamento de média móvel.

Regras objetivas e sua avaliação 19

Regras binárias de vários limites

FIGURA 1.3 Regra com um único limiar fixo.

20 FUNDAMENTOS METODOLÓGICOS, PSICOLÓGICOS, FILOSÓFICOS E ESTATÍSTICOS

séries temporais podem assumir mais de duas condições. Consequentemente, vários

FIGURA 1.4 Regra de bandas de média móvel.

Regras objetivas e sua avaliação 21

até que o limiar inferior seja penetrado na direção descendente, causando

REGRAS TRADICIONAIS E REGRAS INVERSAS

Isso pode ser feito criando um conjunto adicional de regras cujas

22 FUNDAMENTOS METODOLÓGICOS, PSICOLÓGICOS, FILOSÓFICOS E ESTATÍSTICOS

FIGURA 1.5 Regras tradicionais e regras inversas.

O USO DE BENCHMARKS NA AVALIAÇÃO DE REGRAS

Em muitos campos, o desempenho é uma questão relativa. Ou seja, é o desempenho relativo

Isso se refere à avaliação de regras. Os números de desempenho são apenas informativos