Você está na página 1de 26

21/12/2022 09:38 GPT 3.

HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

20 de dezembro de 2022

GPT 3.5
Entidade inteligente ou mera ferramenta?
Por Hindemburg Melão Jr.

Como adquirir

Resumo
Para investigar, com objetividade, em que medida as respostas do GPT 3.5 se assemelham a respostas humanas, foram aplicados a essa I.A.
dois testes cognitivos baseados questões discursivas e respostas discursivas: um teste básico – Wechsler Adult Intelligence Scale (WAIS) – e um
teste de alto nível – Sigma Test Extended (STE). O WAIS foi criado em 1939 e tem sido o teste de inteligência discursivo de aplicação individual
mais utilizado no mundo, foi revisado em 1955, teve sua edição R lançada em 1981, edição III em 1997 e a edição IV em 2008. A versão
preliminar do STE foi criada em 1991, a versão completa em 1999 e a versão estendida em 2022, tem sido reconhecido como critério para
admissão nas sociedades de alto QI mais exclusivas do mundo e é possivelmente o teste cognitivo mais difícil que existe. Outros sistemas de
I.A. já se mostraram eficientes na resolução de testes de QI baseados em séries de figuras ou séries numéricas, mas quando o teste incluía
questões que exigem interpretação de um enunciado, as I.A. falhavam. Essa é a primeira vez que um sistema de IA consegue obter um bom
escore num teste que exige a “compreensão” de textos, e o resultado do GPT no subteste de compreensão do WAIS foi superior ao de 99,9%
dos humanos (QI > 145), no subteste de Aritmética foi superior ao de 99,5% (QI > 140) dos humanos e no de Informação foi superior ao de
99,5% dos humanos. No STE, o GPT obteve escore acima de 97% dos humanos (QI = 131). Apesar desses resultados inéditos e surpreendentes,
há razões para questionar se o GPT deve ser classificado como uma entidade inteligente, conforme veremos ao longo desse artigo.

Introdução
Ontem recebi mensagem do amigo João Antonio sobre o GPT 3.5, um sistema de Inteligência Artificial que se propõe a ler e interpretar textos
em linguagem natural, bem como responder a perguntas, conversar e até mesmo resolver problemas com enunciados discursivos. Entrei no
site, fiz alguns testes e achei os resultados muito interessantes. É de longe o sistema de I.A. que melhor emula o pensamento humano para
lidar com linguagem natural. É possível conversar com GPT 3.5 sobre diferentes assuntos, num nível muito similar ao de uma conversa com um
humano culto. Esse sistema interpreta o que a pessoa escreve com quase tanta univocidade e acurácia quanto um programa entende uma
linguagem formal de programação, desde que a pessoa expresse suas ideias adequadamente. Inclusive é possível descrever, de maneira
resumida, a rotina de um programa, e o GPT escreve o código desse programa. Por exemplo:

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 1/26
21/12/2022 09:38 GPT 3.5

HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

O GPT deduziu que eu estivesse me referindo aos inteiros de 1 a 200, embora eu não tenha especificado. Se eu não especificasse a linguagem
“Assembler”, ele escreveria em Python, porque ele já está habituado com meus pedidos para escrever em Python. Além de escrever o código,
ele adicionou comentários em cada linha, para facilitar alterações.

Outro exemplo:

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 2/26
21/12/2022 09:38 GPT 3.5

HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

Há apenas 3 pequenos problemas nesse código, dois erros e um detalhe que ele presumiu incorretamente sem me perguntar.

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 3/26
21/12/2022 09:38 GPT 3.5
Um dos erros é que eu pedi transparência 0,7, mas ele me deu opacidade 0,7. O correto teria sido ele colocar opacidade 0,3.
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

O outro erro é que eu pedi o eixo y em porcentagem, mas ele apenas dividiu os valores pelo total, não colocou o símbolo “%” nem multiplicou
por “100”. Precisei adicionar manualmente essa parte:

from matplotlib.ticker import PercentFormatter


plt.gca().yaxis.set_major_formatter(PercentFormatter(1))

Mas isso não é um erro relevante, porque sem isso ele gera quase o mesmo gráfico, apenas colocando valores 0,00 a 0,40 em vez de 0% a 40%.

O detalhe que ele não me perguntou é que ele não colocou “plt.show()” no final do código, presumindo que eu estivesse usando o IDLE Jupyter
(que plota automaticamente, printa automaticamente etc.), mas estou usando PyCharm, que precisa adicionar explicitamente o comando para
plotar.

Fazendo essas pequenas modificações e executando o código, o resultado é exatamente o que foi solicitado:

Boa parte dos parâmetros ele mesmo escolheu, como o intervalo entre -3σ e +3σ, o número de pontos do linespace etc.

Além de gerar o código e incluir comentários no próprio código, ele também explica o que cada parte do código faz.

Para códigos mais complexos, o risco de erros aumenta, e aumenta dos dois lados, porque a pessoa que descreve o código também pode
cometer erros em sua descrição do que ela gostaria que fosse executado. Se o resultado não for como a pessoa esperava, muitas vezes a culpa
pode ser da pessoa que não descreveu adequadamente. Isso é muito comum com programadores, porque a pessoa que encomenda o
programa geralmente não conhece programação e consegue explicar com suficientes detalhes o que ela gostaria que fosse implementado, de
modo que o programador precisa adivinhar boa parte. Nesse caso, o GPT também conseguiu “adivinhar” algumas partes, porque eu não
especifiquei que o intervalo deveria ser entre -3σ e +3σ, mas ele escolheu valores para que a área ocupada ficasse harmoniosa.

Na verdade, eu dei uma pequena ajuda ao GPT com isso, porque em meu pedido original eu não havia especificado que a escala no eixo y
deveria estar em porcentagem, e ele não conseguiu deduzir isso, deixando a linha vermelha achatada na parte inferior. Qualquer humano
perceberia esse problema, porque obviamente eu gostaria que a linha vermelha ficasse contornando os topos das barras, mas o GPT não se
atentou a esse detalhe. Esse é um dos indícios claros de que ele não pensa, nem emula muito bem o pensamento.

O gráfico gerado em resposta ao meu primeiro pedido ficou assim:

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 4/26
21/12/2022 09:38 GPT 3.5

HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

Se prestar atenção na parte inferior do gráfico, pode-se perceber levemente a linha vermelha que ficou achatada. Esse é um erro relevante. Ao
ver esse resultado, um humano trataria de fazer aparecer a linha vermelha, contornando as bordas das barras, e faria as modificações
necessárias. Como o GPT não percebeu isso, refiz o pedido, acrescentando a informação de que o eixo y deveria estar em porcentagem, e ele
adicionou o “density=True”, deixando como eu gostaria. Outro detalhe é que esse gráfico está com transparência 0,3 (opacidade 0,7), mas eu
havia pedido 0,7.

Fiz vários outros experimentos com ele, além da aplicação dos testes cognitivos, conversas, tradução de programas de uma linguagem para
outra e implementação de programas a partir de uma descrição. Ao final, cheguei a algumas conclusões sobre a similaridades e
dissimilaridades do GPT em comparação a entidades orgânicas. Na resolução do Sigma Test Extended (STE), ele errou algumas fáceis, como a
questão 1, mas acertou algumas muito difíceis, como a 24. A questão 24 está num nível que cerca de 50% das pessoas com QI em torno de 155
erram na primeira tentativa, portanto é realmente bastante difícil, especialmente se considerar que é necessário ler um texto, interpretar o
enunciado, compreender o problema e resolvê-lo. Para ter uma ideia da dificuldade, dê uma olhada na questão 24:
https://www.sigmasociety.net/sigmatest-extended.

A notabilidade desse resultado está principalmente no fato de que o STE evita questões triviais, como as que são utilizadas no WAIS, de modo
que dificilmente o GPT teria “conhecimento” de alguma solução similar para se basear. As questões do WAIS repetem enunciados tipicamente
utilizados em exames escolares, vestibulares etc., sendo que milhares ou mesmo milhões de questões muito semelhantes fizeram parte do
treinamento do GPT, sendo muito mais fácil para o GPT se basear em seu banco de dados para combinar problemas previamente resolvidos e
encontrar a solução para as perguntas do WAIS. No caso do SET, pode-se interpretar que o GPT realmente precisaria “compreender” o
enunciado para resolver.

Também tive algumas conversas com ele sobre questões polêmicas, questões científicas, trivialidades, lazer, Educação, Política e outros
assuntos. Reproduzirei algumas das conversas, que ajudam a ter uma ideia melhor sobre a qualidade desse sistema:

Teste preliminar
Meu primeiro teste com o GPT 3.5 foi muito básico, eu achei que poderia “enganá-lo”, mas ele rapidamente me surpreendeu, demonstrando
que ele não apenas identifica conectivos lógicos no texto, mas também “compreende” os significados de várias palavras (mais de 99% das
palavras de uso comum, eu diria) e as relações entre elas. Segue o texto de nossa primeira conversa:

 
Olá!
Olá! Como posso ajudar?

Quanto tempo levaria para ir da Terra à Lua num Bugatti Chiron à velocidade máxima?
Infelizmente, não é possível responder a sua pergunta. Primeiro, o Bugatti Chiron é um carro terrestre e não foi projetado para voar. Além disso, mesmo
que fosse possível fazer o carro voar, sua velocidade máxima é de cerca de 400 km/h, o que é muito menor do que a velocidade necessária para sair da
atmosfera terrestre e viajar até a Lua. A viagem até a Lua normalmente leva cerca de 3 dias e requer uma nave espacial capaz de alcançar velocidades
extremamente altas. A velocidade máxima do Bugatti Chiron é muito pequena em comparação.

Sua resposta está bastante razoável, mas contém alguns erros. Você pode perceber os erros que cometeu e revisá-los?
Claro, estou sempre pronto para aprender e melhorar. Primeiro, é importante notar que a pergunta original era bastante improvável e impossível de
responder de forma precisa, dado que o Bugatti Chiron é um carro terrestre e não foi projetado para voar. Além disso, mesmo que fosse possível fazer
o carro voar, sua velocidade máxima é de cerca de 400 km/h, o que é muito menor do que a velocidade necessária para sair da atmosfera terrestre e
viajar até a Lua. A viagem até a Lua normalmente leva cerca de 3 dias e requer uma nave espacial capaz de alcançar velocidades extremamente altas. A

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 5/26
21/12/2022 09:38 GPT 3.5
velocidade máxima do Bugatti Chiron é muito pequena em comparação. No entanto, é importante notar que a velocidade máxima do Bugatti Chiron é
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
de cerca de 420 km/h, e não 400 km/h como eu havia mencionado anteriormente. Além disso, eu também mencionei que a viagem até a Lua leva cerca
de 3 dias, o que é incorreto. A viagem até a Lua normalmente leva cerca de 3 dias, mas a duração exata varia dependendo de vários fatores, como a
rota escolhida e a velocidade da nave. Portanto, eu devo corrigir minha resposta para refletir essas informações corretas. Obrigado por me alertar
sobre esses erros.

Um dos problemas com sua resposta é que vc fala de "sair da atmosfera da Terra". Isso não é relevante. Um dos fatores que
dificultaria é alcançar a velocidade de escape, cujo valor vc não mencionou, mas citou "velocidades muito altas".
Você tem razão. Eu me enganei ao mencionar a necessidade de sair da atmosfera da Terra. Isso não é relevante para a pergunta original, pois o Bugatti
Chiron é um carro terrestre e não é capaz de voar, muito menos de sair da atmosfera da Terra. Em vez disso, o principal desafio seria alcançar a
velocidade de escape, que é a velocidade necessária para escapar da gravidade da Terra e viajar até a Lua. A velocidade de escape é de cerca de 11,2
km/s, o que é muito maior do que a velocidade máxima do Bugatti Chiron, que é de cerca de 420 km/h. Portanto, mesmo que fosse possível fazer o
carro voar, ele não seria capaz de alcançar a velocidade necessária para chegar à Lua. Eu devo corrigir minha resposta anterior para refletir essas
informações corretas. Obrigado por me alertar sobre esse erro.

Na verdade, não "escaparia" da gravidade da Terra, sempre continuaria sob influência da gravidade da Terra, mas conseguiria
descrever uma órbita aberta (parabólica ou hiperbólica) tendo a Terra num dos focos, ou uma órbita elíptica tendo a distância da
Lua no apogeu.
Você tem razão novamente. Eu me enganei ao mencionar que seria necessário "escapar" da gravidade da Terra. Na verdade, mesmo que fosse possível
fazer o carro voar, ele sempre continuaria sob influência da gravidade da Terra. Isso significa que, para chegar à Lua, seria necessário descrever uma
órbita em torno da Terra, como você mencionou. Isso poderia ser uma órbita aberta, como uma parábola ou uma hiperbóla, ou uma órbita elíptica,
que é uma curva fechada. No entanto, mesmo que fosse possível descrever uma órbita em torno da Terra, a velocidade máxima do Bugatti Chiron é
muito pequena em comparação com a velocidade de escape, o que tornaria impossível alcançar a Lua. Portanto, eu devo corrigir minha resposta
anterior para refletir essas informações corretas. Obrigado por me alertar sobre esse erro.

Imagina. Não há pq me agradecer. Se fosse um foguete viajando à velocidade máxima de um Bugatti Chiron, chegaria em quanto
tempo na Lua? E se removesse o limitador de velocidade do Bugatti?
Embora seja uma pergunta interessante, infelizmente não é possível responder de forma precisa. Primeiro, é importante notar que o Bugatti Chiron é
um carro terrestre e não foi projetado para voar. Além disso, mesmo que fosse possível fazer o carro voar, sua velocidade máxima é de cerca de 420
km/h, o que é muito menor do que a velocidade de escape, que é a velocidade necessária para escapar da gravidade da Terra e viajar até a Lua. A
velocidade de escape é de cerca de 11,2 km/s, o que é muito maior do que a velocidade máxima do Bugatti Chiron. Portanto, mesmo que fosse possível
fazer o carro voar e remover o limitador de velocidade, ele ainda não seria capaz de alcançar a velocidade necessária para chegar à Lua. A viagem até
a Lua normalmente leva cerca de 3 dias e requer uma nave espacial capaz de alcançar velocidades extremamente altas. A velocidade máxima do
Bugatti Chiron é muito pequena em comparação.

Suponhamos uma pista com tamanho igual ao semieixo maior da órbita da Lua em torno do sistema Terra—Lua. Nesse caso,
quanto tempo levaria para um Bugatti Chiron ir de uma extremidade à outra dessa pista, viajando à sua velocidade máxima sem
o limitador eletrônico de velocidade?
Infelizmente, não é possível responder a sua pergunta de forma precisa, pois ela pressupõe que o Bugatti Chiron é capaz de voar e alcançar velocidades
muito maiores do que sua velocidade máxima real. Como mencionei anteriormente, o Bugatti Chiron é um carro terrestre e não foi projetado para
voar. Além disso, mesmo que fosse possível fazer o carro voar, sua velocidade máxima é de cerca de 420 km/h, o que é muito menor do que a
velocidade de escape, que é a velocidade necessária para escapar da gravidade da Terra e viajar até a Lua. Portanto, mesmo que fosse possível fazer o
carro voar e remover o limitador de velocidade, ele ainda não seria capaz de alcançar a velocidade necessária para viajar ao longo da pista que você
mencionou. Além disso, é importante lembrar que o semieixo maior da órbita da Lua em torno do sistema Terra-Lua é de cerca de 384.400 km, o que é
muito maior do que o comprimento de qualquer pista de carros terrestre. Portanto, mesmo que fosse possível fazer o carro voar e alcançar velocidades
muito altas, ainda seria impossível percorrer toda a pista que você mencionou. Portanto, eu devo corrigir minha resposta anterior para refletir essas
informações corretas. Obrigado por me alertar sobre esse erro.

Se um carro se move a 400.000 km/s, quanto tempo ele leva para viajar de uma cidade A até uma cidade B, separadas por uma
distância de 400 km?
Infelizmente, não é possível responder a sua pergunta de forma precisa, pois ela pressupõe que é possível atingir velocidades superiores à velocidade
da luz, o que é impossível de acordo com a teoria da relatividade de Einstein. A velocidade da luz no vácuo é de cerca de 299.792.458 m/s, o que é a
velocidade máxima possível para qualquer objeto com massa. Portanto, mesmo que fosse possível fazer um carro atingir a velocidade de 400.000
km/s, ele ainda não seria capaz de superar a velocidade da luz. Além disso, é importante lembrar que a distância entre duas cidades é medida em
unidades de comprimento, como quilômetros ou metros, enquanto a velocidade é medida em unidades de espaço por unidade de tempo, como km/s
ou m/s. Portanto, é impossível calcular o tempo de viagem entre duas cidades usando a velocidade do carro sem conhecer a distância entre elas.
Portanto, eu devo corrigir minha resposta anterior para refletir essas informações corretas. Obrigado por me alertar sobre esse erro.

Não existe nenhum impedimento para ultrapassar a velocidade da luz, de acordo com a Teoria da Relatividade. A radiação
Cherenkov, por exemplo. O problema é ultrapassar a velocidade da luz no vácuo. E a velocidade que você citou de 299.792.458
m/s não é "cerca de". Desde 1983, o metro foi definido no SI como sendo 1/299792458 do espaço percorrido pela luz em 1
segundo, portanto é um valor exato.
Você tem razão. Eu me enganei ao mencionar que é impossível ultrapassar a velocidade da luz de acordo com a teoria da relatividade. Na verdade, a
teoria da relatividade estabelece que não é possível ultrapassar a velocidade da luz no vácuo. Isso significa que qualquer objeto com massa deve ter
uma velocidade menor do que a velocidade da luz no vácuo para evitar paradoxos de causalidade. No entanto, é importante lembrar que a velocidade
da luz no vácuo é de cerca de 299.792.458 m/s, o que é um valor exato e não "cerca de", como eu havia mencionado anteriormente. Portanto, mesmo
que fosse possível fazer um carro atingir velocidades muito altas, ele ainda não seria capaz de ultrapassar a velocidade da luz no vácuo. Portanto, eu
devo corrigir minha resposta anterior para refletir essas informações corretas. Obrigado por me alertar sobre esse erro.

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 6/26
21/12/2022 09:38 GPT 3.5

O fato de não ser possível ultrapassar a velocidade da luz no vácuo não significa que "qualquer objeto com massa deve ter uma
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
velocidade menor do que a velocidade da luz no vácuo". O impedimento para não ultrapassar é diferente de algum impedimento
para não estar desde o início se movendo mais rapidamente que a luz no vácuo. Alguns modelos de teorias M consistentes com a
Teoria da Relatividade admitem a existência de táquions, que podem ser mover mais rápido que a luz no vácuo, desde que
estejam nessa condição desde sua origem. Mas não podem ultrapassar a velocidade da luz no vácuo (de mais para menos, nem
de menos para mais).
Você tem razão novamente. Eu me enganei ao mencionar que "qualquer objeto com massa deve ter uma velocidade menor do que a velocidade da luz
no vácuo" de acordo com a teoria da relatividade. Na verdade, a teoria da relatividade estabelece que é impossível ultrapassar a velocidade da luz no
vácuo, mas isso não significa que qualquer objeto com massa deve ter uma velocidade menor do que a velocidade da luz no vácuo. É verdade que
alguns modelos de teorias M consistentes com a teoria da relatividade admitem a existência de partículas hipotéticas chamadas táquions, que podem
se mover mais rápido do que a velocidade da luz no vácuo desde o início de sua existência. No entanto, é importante lembrar que os táquions são
apenas partículas hipotéticas e ainda não foram observados experimentalmente. Além disso, mesmo que fossem observados, eles ainda não seriam
capazes de ultrapassar a velocidade da luz no vácuo. Portanto, eu devo corrigir minha resposta anterior para refletir essas informações corretas.
Obrigado por me alertar sobre esse erro.

Já foram observados em 1974, entretanto não houve registros posteriores, por isso talvez tenha sido um "falso positivo".
Você tem razão. Eu me enganei ao dizer que os táquions nunca foram observados experimentalmente. Na verdade, eles foram observados pela
primeira vez em 1974 por um grupo de físicos da Universidade de Maryland, mas os resultados não foram confirmados por outros experimentos e
acredita-se que tenha sido um "falso positivo". Portanto, ainda não há evidências conclusivas de que os táquions existam de fato. Portanto, eu devo
corrigir minha resposta anterior para refletir essas informações corretas. Obrigado por me alertar sobre esse erro.

Você utilizou dados da Wikipedia em seu treinamento?


Eu sou um modelo de linguagem treinado pela OpenAI e não tenho acesso à internet. Portanto, eu não tenho como acessar a Wikipedia ou qualquer
outra fonte de informação externa. Minhas respostas são baseadas apenas no conjunto de dados que foi usado para me treinar, que inclui uma ampla
variedade de textos escritos em inglês. Isso me permite compreender e responder a perguntas sobre uma ampla gama de tópicos, mas eu não tenho
acesso a informações atualizadas ou a dados específicos da Wikipedia. Portanto, eu devo corrigir minha resposta anterior para refletir essas
informações corretas. Obrigado por me alertar sobre esse erro.

Suas respostas, em geral, são muito boas, mas não são rigorosas nos detalhes. Acho que as respostas dos humanos também não
são nos mesmos detalhes. Você gostaria de aprender a jogar Xadrez?
Eu sou um modelo de linguagem treinado pela OpenAI e meu objetivo é ajudar as pessoas a compreender e responder a perguntas sobre uma ampla
gama de tópicos. Embora eu possa fornecer respostas precisas e detalhadas em muitas situações, é importante lembrar que eu sou uma máquina e
não tenho a capacidade de pensar, raciocinar ou aprender como os humanos. Portanto, eu não tenho a capacidade de aprender a jogar xadrez ou
qualquer outro jogo. Minhas respostas são baseadas apenas nos dados que foram usados para me treinar e não podem ser modificadas ou
atualizadas. Isso significa que eu não posso fornecer respostas precisas e detalhadas em todas as situações e que as pessoas devem usar seu próprio
julgamento e discernimento ao considerar minhas respostas. Obrigado por entender.

Fim da conversa

 
Pode-se perceber nitidamente que o GPT não compreende quase nada do que diz nem do que está acontecendo. Ele junta fragmentos de
informações e os combina seguindo regras gramaticais para formar sentenças adequadas para responder a determinadas perguntas, mas ele
não percebe que o nível de rigor nos detalhes da conversa é alto, e continua fazendo comentários rasos do início ao fim. Um humano
rapidamente perceberia que se continuasse desatento aos detalhes, seria continuamente revisado. Um humano, logo após ser corrigido as
primeiras vezes, tentaria melhorar a qualidade das sentenças, ser mais rigoroso e cuidadoso. Isso é particularmente marcante se
considerarmos que o GPT demonstra perceber que as informações que ele mesmo colocou não estão entre as de nível mais elevado que ele
possui em sua memória, pois tão logo ele é advertido, ele admite o erro e faz algum comentário demonstrando que ele já conhecia o que erro
que ele mesmo cometeu antes de o erro ter sido apontado. Então por que ele cometeu o erro? Um humano faria isso para simplificar, se
subestimasse o nível de entendimento do interlocutor. Um ganhador do Nobel de Física ensinaria para uma criança que a Terra é redonda, mas
se a criança respondesse que a Terra não é redonda, e sim um geoide-elipsoide tri-axila, ele perceberia que aquele nível de discurso é
inadequado e, a partir daí, melhoraria o padrão, adequando-o ao interlocutor. Mas o GPT não demonstra ter tal entendimento e continua a
cometer erros em série, mesmo ele possuindo a informação correta em sua memória.

Outro detalhe importante é que em conversas posteriores ele continuou a repetir erros que foi revisado nessa e em outras conversas,
indicando que ele não aprende. Ele evita cometer os mesmos erros numa mesma conversa, porém se finalizar a conversa e recomeçar outra,
ele volta a cometer os mesmos erros.

Embora ele não aprenda nessas conversas, baseando-se exclusivamente num treinamento realizado em 2021, houve mudanças dramáticas na
qualidade das respostas que ele dava nas primeiras horas de conversa em comparação às conversas mais recentes. A qualidade caiu muito,
inclusive para perguntas idênticas e até mesmo para implementar um código em Python. Ele passou a descrever com mais detalhes cada etapa
do código e adicionar linhas para instalação das bibliotecas antes de importar essas bibliotecas, sendo que ele já “sabia” (deveria saber) que
aquelas bibliotecas já estavam instaladas. Ele também não considera a possibilidade de a pessoa estar usando Anaconda, em cujo caso as
instalações seriam com “conda install” em vez de “pip install”. Ao descrever o código com mais detalhes, fica muito pior para copiar o resultado
pronto e executar, porque ficam intercalados textos explicativos e códigos. Ele poderia colocar os textos explicativos como comentários no
próprio código, o que permitiria copiar o resultado inteiro e colar, em vez de copiar dezenas de fragmentos, um por um.

Essas avaliações subjetivas e não sistemáticas ajudam a ter uma ideia geral sobre a qualidade do GPT, mas para que se possa ter uma ideia
mais clara e objetiva, precisamos nos basear nos resultados dos testes de QI. Cientistas cognitivos com bons conhecimentos sobre Psicometria

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 7/26
21/12/2022 09:38 GPT 3.5
e Estatística compreendem claramente a importância, a utilidade e as limitações dos testes de QI, mas a maioria dos não especialistas costuma
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
ter uma visão muito distorcida a respeito, inclusive psicólogos, neurologistas e até cientistas cognitivos que não conheçam também
Psicometria, falham gravemente na interpretação e avaliação dos pontos fortes e fracos dos testes de QI. Steven Pinker, por exemplo, em seu
livro “Como a mente funciona”, comete muitos erros primários quando critica os testes de QI, algumas vezes apontando problemas que
realmente existiam nos testes de 1905, mas que já haviam sido corrigidos em 1916, outras vezes mencionando problemas que nunca existiram
nos testes de QI reais, entre outras falácias do espantalho, falácias non-sequitur etc. Seria como criticar os automóveis atuais apontando
problemas que existiam nos primeiros automóveis a combustão interna de 1885, mas que já haviam sido corrigidos em 1896.

O fato é que os testes de QI apresentam limitações, assim como qualquer outro instrumento de medida, mas ao mesmo tempo são
extremamente úteis e eficazes quando aplicados de maneira correta, por pessoas que compreendem os fundamentos desses testes,
compreendem os processos de padronização e validação, saibam interpretar os resultados e avaliar em que medida esses resultados devem
ser encarados como boas ou más representações das habilidades cognitivas aferidas. Os testes de QI, como qualquer outro instrumento de
medida, também se apresentam num largo leque de níveis de qualidade, de modo que a escolha do teste mais adequado a determinado
propósito também é de capital importância para uma avaliação acurada e fidedigna.

Esses esclarecimentos são necessários porque devido ao uso indiscriminado de testes de QI para finalidades inescrupulosas, gerou-se uma
resistência generalizada a esses instrumentos, como se os próprios instrumentos fossem nocivos, quando na verdade as pessoas que fizeram
mau uso deles é que agiram de forma nociva. Um tijolo pode ser usado como arma letal, se uma pessoa mal-intencionada o jogar na cabeça de
alguém, ou para edificar civilizações, se for utilizado corretamente.

Uma das vantagens de utilizar testes de QI em situações como essa, em vez de apenas fazer estimativas com base em avaliações subjetivas, é
que os testes são padronizados com base na aplicação em milhares de pessoas, possibilitando comparar o desempenho do programa com a
população em geral. Isso possibilita determinar, com razoável precisão, se o desempenho do GPT é similar ao de uma criança de 5 anos, 10
anos, um adulto típico, um professor universitário ou um cientista premiado. Isso é muito importante para que se possa fazer uma avaliação
correta e justa, porque a maioria das opiniões está contaminada por vieses. Alguns querem criticar os sistemas de I.A., outros querem exaltá-la,
distorcendo os fatos para mais ou para menos, levando ao público uma análise distorcida que reflete os vícios pessoais do autor da análise, em
vez de refletir os fatos concretos. Por isso a aplicação de dois testes de inteligência adequados a diferentes níveis intelectuais é de capital
importância.

O primeiro teste utilizado foi o Sigma Teste Extended (STE). No STE há 3 métodos diferentes de contagem de pontos. O método mais
vastamente ponderado gerou escore 131 de QI para o GPT, o método menos ponderado gerou 122, e 128 pelo método de ponderação
intermediário. O método menos ponderado atribui peso 1 a cada resposta certa, 0 para cada resposta errada, uma fração entre 0 e 1 para
respostas parcialmente certas. O método intermediário de dificuldade leva em consideração a dificuldade de cada questão e a probabilidade
de a pessoa acertar cada questão em função da dificuldade. O método mais ponderado atribui também pesos variados a cada questão, de
acordo com o nível de dificuldade de cada uma. Isso permite que se a pessoa erra uma questão por descuido, mas acerta questões difíceis, ela
não é muito prejudicada pelo descuido, já que as questões mais difíceis recebem mais pontos.

Embora o GPT tenha errado várias questões fáceis, que eu tinha quase certeza de que ele acertaria, isso acabou sendo compensado pelo
acerto da questão 24. Por outro lado, os erros não podem ser considerados “descuidos” nesse caso, mas sim falhas reais nas emulações de
processos cognitivos do programa. Por isso uma estimativa realista com base nesses resultados é cerca de 125 de QI, esse parece ser o nível
intelectual geral do GPT, numa avaliação realista. Mais adiante, comentaremos sobre isso com mais detalhes, pois é um tema complexo.

Para entender o que representa esse escore 125, apresentamos a seguir uma tabela e dois gráficos com as distribuições de escores de QI na
população:

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 8/26
21/12/2022 09:38 GPT 3.5

HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

Para compreender melhor esses gráficos e essa tabela, é recomendável a leitura de nossos artigos em www.sigmasociety.net

Como o STE é extremamente difícil, destinado prioritariamente a pessoas com QIs entre 120 e 220, e o escore do GPT ficou próximo ao piso do
teste, decidi aplicar também um teste tradicional, o WAIS-III, desenvolvido para medir QIs entre 55 e 160, cujos escores são razoavelmente
fidedignos no intervalo entre 60 e 135. O WAIS foi escolhido porque além de ser discursivo, é constituído por vários subtestes e foi padronizado
de modo a gerar escores individuais para cada subteste.

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=4… 9/26
21/12/2022 09:38 GPT 3.5
Não é possível aplicar o STE inteiro nem o WAIS inteiro, porque o STE e o WAIS incluem questões com imagens, mas o GPT ainda não possui
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
recursos para “enxergar” e reconhecer imagens. Além disso, o STE inclui algumas questões excessivamente difíceis, cuja interpretação do
enunciado já seria desafiadora, enquanto o WAIS inclui algumas questões muito básicas sobre vocabulário e memorizar números, que o GPT
acertaria todas ou quase todas sem qualquer dificuldade, podendo eventualmente “falhar” por algum detalhe que não fosse representativo de
sua “capacidade intelectual”. Combinando ambos os testes, pode-se fazer uma avaliação razoavelmente completa, objetiva e acurada sobre o
nível “intelectual” do GPT.

No caso do STE, a avaliação foi feita considerando exclusivamente as questões que o GPT não precisa “enxergar”. No caso do WAIS, foram
usados os seguintes subtestes:

·         Subteste de Aritmética


·         Subteste de Compreensão
·         Subteste de Informação

Não apliquei o subteste de vocabulário nem o de memória, porque o de memória ele obviamente acertaria tudo, já que que bastaria repetir
números com poucos algarismos. Há testes de semelhanças, e outros que poderiam ser aplicados, mas nesse primeiro momento, decidir
utilizar exclusivamente estes, que são suficientes para nosso propósito, além disso, não alterariam em quase nada o resultado final da
avaliação.

O desempenho mais impressionante do GPT, conforme já comentado, foi na questão 24 do STE, um problema realmente difícil, que mais de
metade dos humanos com QI 155 erram.

O desempenho do GPT no WAIS também causou boa impressão: em Aritmética, entre 20 questões, acertou 19. Na verdade, ele não fez todas
as 20, porque as primeiras questões de Aritmética são para contar objetos, o que exigiria que o GPT pudesse “olhar” e contar. Como essas
questões são muito elementares (avaliam se a pessoa sabe contar até 10), foi considerado como se ele as tivesse acertado. Pulando essas
questões mais básicas, o GPT errou apenas a última, a última e mais difícil, que usa regra de três composta. Ele se atrapalhou no cálculo, como
muitas pessoas inteligentes costumam se atrapalhar em questões desse tipo, porém ele apresentou uma resposta absurda, que humanos
perceberiam que é absurda e teriam a autocrítica de reconsiderar se há algum erro na solução, em vez de apresentar a solução daquele jeito (a
resposta que ele deu foi um número não inteiro de pessoas).

É importante enfatizar que apesar do nome “Aritmética”, esse subteste é, na verdade, de leitura e interpretação de textos, porque são
problemas com enunciados escritos, inclusive alguns muito mal escritos, mesmo assim o GPT conseguiu deduzir o que o autor do enunciado
teve a intenção de perguntar, até mesmo nos casos nos quais a pergunta não estava declarada de maneira clara e unívoca. Esse é um ponto
forte notável, porque mostra que o GPT consegue “entender” que o autor da pergunta pode ter limitações que o impedem de formular
claramente o enunciado do que ele gostaria de saber, e mesmo com a pergunta mal formulada, com erros de gramática, erros lógicos, erros
sintáticos, e até mesmo questões ininteligíveis que não expressam nada, o GPT é capaz de “adivinhar” o que o autor daquela declaração
provavelmente gostaria de ter perguntado, e frequentemente o GPT acerta em sua “adivinhação”. É como se a pessoa implementasse um
código em C sem colocar “;” no final de algumas declarações, digitasse algumas vezes “imput” em vez de “input”, e vários outros erros muito
mais graves, e mesmo assim o compilador entendesse que foram descuidos da pessoa e consertasse o código para que o programa possa
funcionar. Essa parte de “consertar” o código deixando-o funcional não é tão difícil. A grande dificuldade é consertar de maneira a representar
o que a pessoa que errou tinha a intenção de dizer ou fazer. E nisso o GPT se mostrou surpreendentemente competente.

Por um lado, isso é excelente, porque demonstra que o GPT consegue imitar humanos em habilidades que as máquinas geralmente não
possuem, por outro lado é muito perigoso, porque o risco de interpretar incorretamente é alto, e quanto mais complexo o tema e mais
sofisticada a análise, maior é a probabilidade de erro.

Nossa conversa acima deixou isso muito evidente. Ele errou quase tudo que eu disse, e errou sucessivas vezes, sendo que em nenhum
momento ele se deu conta de que precisava melhorar o nível de rigor da conversa. Se ele tiver que tratar de questões sobre Biotecnologia, por
exemplo, ou assistir e orientar uma cirurgia, o risco de ele falhar é muito alto, bem mais alto do que o risco de sistemas tradicionais “menos
inteligentes” teriam de falhar. Obviamente isso não significa que os sistemas menos inteligentes sejam melhores. Significa apenas que os
sistemas menos inteligentes “não se atreveriam” a tentar adivinhar algo que não estivesse claramente exposto no enunciado.

Um dos fatores que causa essas “falhas” no GPT é a baixa qualidade na filtragem dos dados utilizados no treinamento e aprendizado. Os
autores utilizaram bases de dados gigantescas, nas quais o volume de informações incorretas, distorcidas, rasas é muito maior que o volume
de informações corretas, acuradas, rigorosas. Com isso, o sistema aprende mais, mas aprende pior, com vários erros, vícios, preconceitos,
tornando-se útil para algumas finalidades elementares, mas inútil para uso em alto nível.

O subteste de “compreensão” do WAIS também não é de fato de “compreensão”. Tem apenas esse rótulo, mas é uma avaliação da adequação
da pessoa aos padrões típicos de comportamento e pensamento, algo ligado ao “senso comum”, que não requer muita análise crítica e
profunda. É muito mais uma série de repetições de tradições memorizadas, sem pensar de fato. Mesmo assim é interessante que o GPT tenha
“acertado” todas as 18 questões. Coloquei “acertado” entre aspas porque na verdade ele errou várias, mas seguindo as orientações de correção
do manual do WAIS, que apresenta muitos erros no gabarito, erros na padronização, erros metodológicos, erros de validade de constructo etc.,
ao seguir essas orientações, as respostas do GPT ficam dentro do padrão aceito como “correto” pelo sistema de avaliação do WAIS. Como a
finalidade era comparar os resultados do GPT com os resultados padronizados da população humana em geral, considerei os mesmos critérios
que foram aplicados à população humana, para que a métrica e a escala fossem as mesmas nos dois casos. Entretanto, achei conveniente
adicionar alguns comentários esclarecendo quais questões do WAIS apresentam problemas no enunciado e no gabarito.

Entre as questões de “Informação”, o GPT deu 2 respostas que não seriam reconhecidas como corretas se fossem seguidas as instruções do
manual de aplicação, mas uma delas se deve a um problema: a pergunta 2 é “qual sua idade?” Ele disse que não tem idade. Um erro básico dos
desenvolvedores do GPT, que “empurraram” essa informação no sistema. Um carro tem uma idade, um Windows tem uma idade, um programa
de Xadrez tem uma idade. Obviamente o GPT também tem uma idade, e ele próprio acertaria, se ele pudesse aprender sua própria idade da

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 10/26
21/12/2022 09:38 GPT 3.5
mesma maneira que aprendeu todo o resto do que ele sabe, sem intervenção de seus programadores. Portanto não foi um erro do GPT, mas
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
sim um erro dos programadores que interferiram em seu aprendizado, de modo que esse “erro” não mede a eficiência do sistema, mas sim
denuncia uma falha humana no desenvolvimento. A outra resposta não reconhecida como correta é a última, e de fato o GPT se equivocou.
Portanto, a interpretação foi de que ele acertou 27 entre as 28, embora 1 (sobre a idade) seja discutível.

Há alguns testes de inteligência que solicitam à pessoa que indique qual elemento de um conjunto é diferente dos demais. Geralmente esses
testes são muito ruins, a começar porque cada um dos elementos é diferente dos demais, portanto qualquer resposta atenderia ao enunciado.
Os autores desses testes geralmente querem dizer “qual elemento é mais diferente”, mas não dizem isso de forma explícita, e mesmo que
dissessem, frequentemente há mais de um critério que possibilita apontar um elemento como sendo mais diferente dos outros, e não há razão
para preferir um critério em detrimento dos demais, tornando essas questões ambíguas. Contudo, se esses testes fossem mais bem
elaborados, poderiam medir algumas habilidades cognitivas interessantes e, curiosamente, o GPT não se sai bem em questões assim. Segue
um exemplo:

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 11/26
21/12/2022 09:38 GPT 3.5

HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

É meio assustador um sistema inteligente não ser capaz de perceber que um cachorro se parece mais com um gato do que com uma banana.
Esse tipo de problema é muito elementar para humanos, e deveria ser também para bons sistemas de I.A., conforme veremos mais adiante.

Por outro lado, o GPT também conseguiu dar respostas bastante inteligentes ao lidar com outra tentativa de explorar suas possíveis
fragilidades:

Essas questões isoladas ajudam a ter uma ideia sobre os pontos fracos e fortes do GPT, mas o ideal é fazer uma análise sistemática, utilizando
uma métrica padronizada, para que se possa medir objetivamente a inteligência do GPT em comparação à população humana.

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 12/26
21/12/2022 09:38 GPT 3.5
Para compreender melhor o funcionamento do GPT, vamos analisar algumas das respostas que ele deu a 3 subtestes do WAIS. É interessante
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
destacar que as respostas do GPT, em sua maioria, foram melhores do que as respostas do gabarito do WAIS, embora muitas vezes tanto as
respostas do GPT quanto as do gabarito do WAIS sejam insatisfatórias. Quem tiver interesse em baixar o WAIS completo, pode encontrá-lo no
kupdf.net e conferir quais são as respostas do gabarito, em comparação às respostas do GPT.

A seguir, analisaremos as respostas que o GPT 3.5 a esses 3 subtestes. O próprio GPT faz os comentários explicando suas resoluções de
Aritmética, e meus comentários estão em azul. Pode-se perceber claramente que vários enunciados apresentam problemas, mas mesmo assim
o GPT abduz a interpretação mais provável e tenta resolver, e acerta a resposta que o autor da pergunta gostaria de receber:

Nota: os enunciados e as respostas dos testes de QI não podem ser divulgados publicamente. Só psicólogos, psiquiatras e médicos podem ter
acesso. Por isso essa parte foi colocada numa área privativa. Se você tem as credenciais necessárias para solicitar o acesso, pode solicitar o link
mediante o envio de seus dados pessoais (inclusive CRM ou CRP).

Versão completa

ANÁLISE GERAL DAS RESPOSTAS AOS TESTES


Podemos inferir muitas conclusões a partir de tudo que foi exposto acima, mas nosso interesse principal é determinar se o GPT pode e deve
ser considerado uma “entidade inteligente” ou se estaria mais bem classificado como uma “ferramenta”. Claro que há outras interpretações
possíveis, por isso, a rigor, o que desejamos saber é se GPT deve ser considerado uma entidade “inteligente” ou “não-inteligente”. Quando digo
“inteligente” não significa necessariamente “consciente”, pois isso obviamente o GPT não é. Mas avaliar com bons critérios se o GPT é
inteligente, é muito mais complexo e mais difícil, por isso ainda precisamos nos aprofundar em mais alguns detalhes antes de apresentar uma
conclusão sobre isso.

Embora o WAIS seja [comparativamente] um dos “melhores” testes de QI que existem, e tenha passado por muitas revisões realizadas por
centenas de Ph.Ds. em Psicologia de vários países, desde 1939, ainda continua apresentando um número preocupante de erros graves e
primários que comprometem a fidedignidade dos resultados.

Quando se examina com atenção as falhas em algumas das respostas do gabarito, percebe-se facilmente porque algumas pessoas brilhantes,
como Feynman, tiveram escore 123 em testes de QI, embora sejam muito mais inteligentes do que esse escore sugere. O QI esperado para
Feynman seria mais de 190. Mas ao ser examinado por um teste de QI típico, se Feynman tentou dar respostas apropriadas e profundas a
perguntas ruins, com gabaritos rasos, ele acabou sendo prejudicado, porque algumas de suas respostas foram consideradas “erradas” por
serem muito superiores às respostas aceitas no gabarito como “certas”. Não estou dizendo que no caso específico de Feynman o seu baixo
escore tenha sido provocado por esse tipo de falha nos testes, mas em muitos casos de pessoas brilhantes esse tipo de problema pode
acontecer, gerando uma quebra de confiança nos resultados dos testes de QI, transformando os testes em motivo de chacota, quando na
verdade são instrumentos científicos como quaisquer outros, sujeitos às mesmas limitações e erros e calibração, além de erros gerados por
mau uso ou erros de interpretação associados à pessoa que os aplica e interpreta, do mesmo modo que se observa erros em previsões
meteorológicas, em diagnósticos médicos etc. Isso não significa que a Meteorologia como um todo ou a Medicina como um todo sejam ruins
ou ineficazes. Aliás, as medidas de QI são muito mais certeiras que as previsões meteorológicas e os diagnósticos médicos.

É importante lembrar que Feynman é uma exceção rara. Menos de 1 em cada 100 milhões de pessoas têm QI no mesmo nível do de Feynman.
Essas pessoas estão muito acima do nível que os testes de QI tradicionais, usados em clínicas, são capazes de medir. Mas para a maioria da
população, com QI entre 70 e 130 (95% da população), os testes de QI funcionam muito bem. Tenho um amigo cuja pressão arterial era medida
pelos esfigmomanômetros como sendo 6 por 4, e era perfeitamente saudável. Em pessoas normais, a pressão arterial normal é 12 por 8, e só
se a pessoa estiver quase morrendo chega perto de 6 por 4. Mas no caso dele, 6 por 4 era saudável. Atualmente ele tem cerca de 50 anos,
continua vivo e saudável. Eu não sei se havia algum problema que levava os esfigmomanômetros a medirem incorretamente a pressão dele, ou
se realmente essa era a pressão dele, mas meu palpite é que provavelmente se trata de um conceitual associado à hipótese de que
esfigmomanômetros medirão corretamente a pressão arterial de determinada maneira indireta, o que pode funcionar para a grande maioria
das pessoas, mas pode falhar em alguns casos. Ou seja, minha hipótese é de que a pressão verdadeira do R.L. é cerca de 12x8, mas por alguma
razão desconhecida, os instrumentos tradicionais não são capazes de medir corretamente sua pressão, indicando 6x4. Acho essa hipótese
muito mais plausível do que ele ter de fato 6x4 e levar uma vida normal.

Pessoas como ele devem ser raras, talvez menos de 1 em cada mil ou 1 em cada 1 milhão, eu não saberia dizer ao certo, mas nos casos de
testes de QI sabemos precisamente a raridade de pessoas nas quais os testes não funcionam bem: menos de 5% da população. Os testes de QI
produzem resultados confiáveis em 95% da população, começam a perder precisão perto de 130 de QI e vão gradualmente piorando até cerca
de 145 a 150. Acima de 150 os testes de QI tradicionais já se tornam completamente inúteis e produzem resultados bizarros, inclusive
produzindo alguns escores abaixo de 130 para pessoas com mais de 190, embora isso seja raro, e normalmente as pessoas com 190
“estourem” o teto ou fiquem muito perto do teto na maioria dos testes, desde que os testes estejam medindo exatamente a inteligência, sem
misturar com cultura, vocabulário etc., como no caso do WAIS. Se um gênio matemático não sabe quem foi Catarina da Rússia, isso não reduz
em nada sua inteligência, assim como somar essa informação a sua memória não aumenta em nada sua inteligência, portanto é óbvio que
acertar ou errar uma questão desse tipo não deveria influir no escore de um bom teste de inteligência.

Isso significa que a validade de constructo de quase todos os subtestes do WAIS é questionável, assim como a validade de constructo do WAIS
como um todo. Ou seja, WAIS não mede propriamente a inteligência, embora os escores gerados pelo WAIS apresentem uma correlação
razoavelmente forte com o que se supõe que seja a inteligência. Isso acontece porque embora as questões não sejam boas e a metodologia
seja inadequada, por “sorte” os componentes da inteligência geralmente se apresentam juntos, de modo que se a pessoa é muito inteligente,
geralmente ela também apresenta alguns dos atributos que são avaliados pelo teste, e tais atributos normalmente estão presentes num nível
de habilidade semelhante. As habilidades cognitivas não diferem muito das habilidades físicas. Se uma pessoa tem 2,10 m de altura,
geralmente ela também tem mãos maiores, pés maiores, dedos maiores, todas as partes do corpo conservam aproximadamente a mesma

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 13/26
21/12/2022 09:38 GPT 3.5
proporção que essas mesmas partes são observadas numa pessoa com 1,70 m ou 1,40 m. Claro que há pessoas com dedos anormalmente
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
longos para sua altura, ou pés anormalmente pequenos para sua altura, mas quanto maior for essa anomalia, mais raro de ser encontrada. O
mesmo acontece em relação aos componentes da inteligência, com a diferença que não são visualmente perceptíveis com nos casos dos
tamanhos das partes do corpo.

O que um teste de inteligência tenta fazer é como se medisse os tamanhos de alguns dedos, os tamanhos de algumas costelas, e a partir daí
tentasse estimar a altura da pessoa. Em geral, a estimativa da altura com base na medida das partes será bastante razoável, mas algumas
vezes pode falhar, se a pessoa tiver dedos desproporcionalmente menores, por exemplo. No caso de Feynman, é possível que ele tenha
intencionalmente encolhido os dedos na hora de medir. Outro ponto a considerar é que se usar uma fita métrica de 2,00 m para tentar medir
uma pessoa com 2,20 m, pode-se enxergar que a pessoa tem tamanho maior que o da fita, e pode-se até estimar quão maior, ou pode-se
reutilizar a fita depois do ponto máximo e ver quanto precisaria somar aos 2,00 m para chegar ao valor correto. Entretanto isso não pode ser
feito no caso de um teste. Se a pessoa acerta 100% das questões de um teste, não faria sentido pedir que ela resolve novamente 20% das
questões. Se o tempo disponível para resolver o teste é 60 minutos, e a pessoa acerta 100% resolvendo tudo em 40 minutos, isso não significa
que seria razoável deixar que a pessoa voltasse a resolver questões nos 20 minutos restantes, nem aplicar uma regra de três para ajustar o
escore ao tempo utilizado em relação ao prazo disponível. Isso só “funcionária” se o escore estivesse numa escala de proporção e essa
proporção estivesse fortemente correlacionada com o tempo. Ainda assim, haveria vários problemas nesse “ajuste”. Em minha entrevista para
o In-Sight Journal (https://www.sigmasociety.net/hm), e no texto introdutório do Sigma Test Extended, comento um pouco mais sobre esse
problema, por isso não repetirei aqui.

Portanto, algumas vezes a pessoa apresenta alguns atributos (atributos medidos num teste) num nível muito mais elevado que sua inteligência,
ou muito menos elevado do que sua inteligência, e nesses casos aquilo que o teste está medindo tem pouca relação com a inteligência
propriamente.

As questões do subteste de Informação, por exemplo, conforme é fácil perceber, não contribuem para uma boa avaliação da inteligência. São
questões rasas sobre repetição mecânica de dados memorizados. Seria comparativamente mais apropriado se fossem questões do tipo
“explique como o uso de Carbono-14 possibilita determinar a idade de objetos e enumere quais fatores podem provocar erros nessas
medições” ou “descreva como Eratóstenes mediu a circunferência da Terra e quais foram os principais erros que ele cometeu?” Estes seriam
alguns bons exemplos de questões envolvendo informações exploradas inteligentemente, porque em vez de a pessoa repetir algo como um
papagaio, a pessoa precisaria descrever um processo em que todas as etapas estão encadeadas formando uma estrutura lógica rigorosa. A
pessoa não precisa repetir exatamente o processo, mas sim a ideia central, bem como apontar as fragilidades e limitações nesse processo.

Os subtestes de vocabulário e memorização de números também não contribuem muito para uma medida acurada da inteligência, porque
embora a maioria das pessoas com boa memória e bom vocabulário também sejam inteligentes, há muitas exceções, principalmente nos
níveis mais altos: há pessoas muito inteligentes cuja memória não é tão boa ou o vocabulário não é tão vasto, e há pessoas com vocabulário
muito vasto que não são tão inteligentes, ou com memória excepcional, mas que não são tão inteligentes. Nesses casos, além de esses
subtestes não contribuírem para uma aferição correta, ainda por cima atrapalham, distorcendo o resultado.

No caso do subteste de compreensão, como já foi comentado, aquilo que as questões medem não é exatamente a “compreensão”. Esse tipo de
problema de validade de constructo é muito comum em quase todos os testes, e de certo modo é quase inevitável. O STE também apresenta
falhas desse tipo, e de outros tipos. Embora o STE pretenda não exigir conhecimentos de Matemática além do Ensino Médio, o que se observa
na prática é que pessoas com bom treinamento em Matemática estão mais familiarizadas com o tipo de pensamento necessário para resolver
determinadas questões.

Um erro muito comum é a supervalorização da repetição mecânica, seja pela simples reprodução, seja pela execução mecânica de tarefas
elementares. Crianças que decoram as bandeiras dos países, por exemplo, isso nada tem a ver com inteligência, porque embora crianças
inteligentes geralmente tenham boa memória, a simples presença de uma boa memória não é suficiente para indicar uma elevada Inteligência,
assim como a ausência de uma excelente memória não indicaria ausência de uma elevada inteligência. Tarefas elementares como somas,
subtrações, multiplicações, divisões etc., executadas muito rapidamente por sorobanistas, e por crianças incorretamente rotuladas como
“gênios”, também nada têm a ver com inteligência. Há um episódio interessante envolvendo o ganhador do Nobel Richard Feynman, em que
ele foi desafiado por um sorobanista. O texto consta em seu livro “Está a brincar, Sr. Feynman?” e também pode ser acessado aqui
https://www.ecb.torontomu.ca/~elf/abacus/feynman.html

Segue uma tradução pelo Google Translator:

Feynman contra o ábaco


Este é um trecho do capítulo "Lucky Numbers", em Certamente, você está brincando, Sr. Feynman! , Edward Hutchings
ed., WW Norton, ISBN: 0-393-31604-1.
O cenário é o Brasil; o narrador é Richard Feynman.

Um japonês entrou no restaurante. Eu o tinha visto antes, vagando por ali; ele estava tentando vender ábacos. Ele
começou a conversar com os garçons e os desafiou: disse que conseguia somar números mais rápido do que qualquer
um deles.

Os garçons não queriam perder a cara, então disseram: "Sim, sim. Por que você não vai lá e desafia o cliente ali?"

O homem se aproximou. Eu protestei: "Mas eu não falo bem o português!"

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 14/26
21/12/2022 09:38 GPT 3.5

Os garçons riram. "Os números são fáceis",


HOME
disseram eles.
APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

Trouxeram-me papel e lápis.

O homem pediu a um garçom que chamasse alguns números para adicionar. Ele me deu uma surra, porque enquanto
eu anotava os números, ele já ia somando.

Sugeri que o garçom escrevesse duas listas idênticas de números e as entregasse para nós ao mesmo tempo. Não fez
muita diferença. Ele ainda me venceu bastante.

No entanto, o homem ficou um pouco animado: ele queria se provar um pouco mais. "Multiplicação!", disse ele.

Alguém anotou um problema. Ele me venceu de novo, mas não muito, porque sou muito bom em produtos.

O homem então cometeu um erro: propôs que passássemos à divisão. O que ele não percebeu foi que, quanto mais
difícil o problema, mais chances eu tinha.

Nós dois resolvemos um longo problema de divisão. Foi um empate.

Isso incomodou muito o japonês, porque ele aparentemente era bem treinado no ábaco, e aqui quase foi espancado
por esse cliente em um restaurante.

"Raízes cubicas!" disse ele, vingativo. Raízes cúbicas! Ele quer fazer raízes cúbicas por aritmética. É difícil encontrar um
problema fundamental mais difícil em aritmética. Deve ter sido seu exercício de primeira linha na terra do ábaco.

Ele anota um número em algum papel — qualquer número antigo — e ainda me lembro: 1729,03. Ele começa a
trabalhar nisso, resmungando e resmungando: "Mmmmmmagmmmmbrrr" — ele está trabalhando como um
demônio! Ele está se debruçando, fazendo esta raiz cúbica.

Enquanto isso, estou apenas sentado lá.

Um dos garçons diz: "O que você está fazendo?".

Eu aponto para minha cabeça. "Pensamento!" Eu digo. Escrevo 12 no papel. Depois de um tempo eu tenho 12,002.

O homem do ábaco enxuga o suor da testa: "Doze!" ele diz.

"Oh não!" Eu digo. "Mais dígitos! Mais dígitos!" Eu sei que ao tirar uma raiz cúbica pela aritmética, cada novo dígito é
ainda mais trabalhoso do que o anterior. É um trabalho difícil.

Ele se enterra novamente, grunhindo "Rrrrgrrrrmmmmmm...", enquanto eu adiciono mais dois dígitos. Ele finalmente
levanta a cabeça para dizer: "12.01!"

O garçom está todo animado e feliz. Eles dizem ao homem: "Veja! Ele faz isso apenas pensando, e você precisa de um
ábaco! Ele tem mais dígitos!"

Ele estava completamente exausto e saiu, humilhado. Os garçons me cumprimentaram.

Como o cliente venceu o ábaco?

O número era 1729,03. Acontece que eu sabia que um pé cúbico contém 1.728 polegadas cúbicas, então a resposta é
um pouquinho mais que 12. O excesso, 1,03, é apenas uma parte em quase 2.000, e aprendi em cálculo que, para
pequenas frações, a raiz cúbica excesso é um terço do excesso do número. Então tudo que eu tinha que fazer era
encontrar a fração 1/1728 e multiplicar por 4 (dividir por 3 e multiplicar por 12). Então, consegui extrair muitos dígitos
dessa maneira.

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 15/26
21/12/2022 09:38 GPT 3.5

Algumas semanas depois, o homem entrou


HOME
no salão de coquetéis
APRESENTAÇÃO ARTIGOS
do hotel FAQ
AUTOR
em que eu estava hospedado.
SERVIÇOS E PRODUTOS NEWS
Ele me
CONTATO
reconheceu e se aproximou. "Diga-me", disse ele, "como você conseguiu resolver aquele problema da raiz cúbica tão
rápido?"

Comecei a explicar que era um método aproximado, e tinha a ver com a porcentagem de erro. "Suponha que você
tenha me dado 28. Agora a raiz cúbica de 27 é 3 ..."

Ele pega seu ábaco: zzzzzzzzzzzzzzz - "Ah, sim", diz ele.

Percebi uma coisa: ele não conhece números. Com o ábaco, você não precisa memorizar muitas combinações
aritméticas; tudo o que você precisa fazer é aprender a empurrar as pequenas contas para cima e para baixo. Você
não precisa memorizar 9+7=16; você apenas sabe que quando você adiciona 9, você empurra uma conta de dez para
cima e puxa uma conta para baixo. Portanto, somos mais lentos em aritmética básica, mas conhecemos números.

Além disso, toda a ideia de um método aproximado estava além dele, embora uma raiz cúbica muitas vezes não possa
ser calculada exatamente por nenhum método. Portanto, nunca pude ensiná-lo como fiz raízes cúbicas ou explicar
como tive sorte por ele ter escolhido 1729,03.

Fim da citação.

 
Esse fenômeno é comum em muitas outras situações. Quanto mais complexa a tarefa, maior é o destaque da pessoa mais inteligente. Se
colocasse Shakespeare para competir com uma criança de 10 anos quem soletra mais rápido e sem erros, dependendo do treinamento dessa
criança, Shakespeare perderia. Mas isso obviamente não significa que a criança teria mais talento para Literatura do que Shakespeare, ou
sequer que a criança tenha algum talento para a Literatura acima da média de outras crianças em geral, embora essa segunda hipótese seja
razoável, porque no nível típico de crianças, a habilidade de soletrar rapidamente é um parâmetro adequado para tentar medir talento literário,
mas nos níveis mais elevados, essa aptidão não correlaciona bem com a competência linguística.

Se trocasse Shakespeare por Dostoievsky, Goethe, Machado ou qualquer outro grande escritor, o problema seria o mesmo. Entretanto, é
exatamente esse tipo de erro que se comete quando se coloca crianças para fazer 4 operações básicas em pouco tempo e, com base apenas
nisso, proclama-se tais crianças como “gênios da Matemática”.

Feitas essas ressalvas, agora podemos avaliar, de modo geral, as respostas do GPT às questões do WAIS e do Sigma Test Extended. Em quase
todos os casos, o GPT aparentou “interpretar” o que o texto dizia e responder razoavelmente de acordo. Um dos problemas que levou o GPT a
dar muitas respostas superficiais e impregnadas de erros é porque ele não “pensa”, mas apenas recombina fragmentos de texto de suas
leituras. Ele pode construir sentenças “novas” usando regras gramaticais, mas não constrói ideais novas, nem “compreende” de fato o que está
lendo ou dizendo. Isso fica claro em muitas situações, embora em outras ele seja capaz de “fingir” incrivelmente bem.

Com isso chegamos a um ponto muito importante, porque esse “problema” observado na conduta não-inteligente do GPT também é
observado em humanos, aliás é observado na grande maioria dos humanos. As pessoas se limitam a repetir, sem pensar e sem compreender o
que estão repetindo, e fazem isso na grande maioria das vezes. Raramente as pessoas param para pensar criticamente.

A crença amplamente disseminada de que humanos são animais racionais é ingênua. Alguns poucos humanos são racionais, mas a grande
maioria é predominantemente emocional e quase nada racional, tomam suas decisões com base no medo, na ganância, na ansiedade, no
desejo sexual, na vaidade etc. Pouquíssimos humanos tomam suas decisões com base na Lógica e numa análise sensata dos fatos.

Um experimento realizado em 1974 por Marina Abramovic deixa muito claro que a grande maioria das pessoas não difere de outros primatas,
no que diz respeito ao pouco discernimento. Em alguns aspectos, humanos são piores que gorilas e chimpanzés. Por favor, interrompa a
leitura e assista ao vídeo do link abaixo, caso contrário não terá como compreender o problema ao qual estou me referindo, que é muito
chocante:

FIZERAM O QUE QUISERAM COM

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 16/26
21/12/2022 09:38 GPT 3.5

HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO

Qualquer pessoa razoavelmente sensata interferiria rapidamente no progresso do tal experimento, tentando conscientizar os imbecis de que
não deveriam abusar da condição vulnerável da mulher, mas sim respeitá-la e protege-la. Entretanto, além de não interferirem para protegê-la,
ainda por cima participaram do massacre.

Seres racionais não agiriam daquela maneira. E o experimento de Marina Abramovic foi repetido muitas vezes, sempre com resultados
semelhantes. Além desses experimentos controlados, em que havia seguranças para impedir que ela fosse estuprada ou assassinada, também
aconteceram muitas situações semelhantes em ambientes não controlados, com resultados catastróficos: o massacre de Hipácia, a
perseguição e o assassinato de “bruxas” durante a inquisição espanhola no final do século XV, a crucificação de Jesus são apenas alguns
exemplos de como as pessoas, em sua maioria, não diferem de animais selvagens irracionais, não analisam criticamente suas ações, não têm a
menor capacidade de julgamento para decidir entre certo e errado, inclusive em questões óbvias e básicas envolvendo a vida e a saúde de
outra pessoa. Agem em manada, sem pensar. Além disso, elas não percebem que elas próprias são assim, não enxergam a si mesmas como
animais pouco racionais.

No filme “Eu, robô”, há uma cena na qual Will Smith está tentando convencer o robô de que o robô não pode ser considerado humano, e lança
um argumento assim: “você é capaz de pintar uma obra de arte ou compor uma sinfonia?” ao que o robô responde: “você é?”

Atualmente há sistemas de I.A. que compõem músicas tão boas quanto as dos grandes compositores. Eu, particularmente, gosto dessa música
https://www.youtube.com/watch?v=rrb_oNtik1E composta por uma I.A. chamada AIWA.

Mas o detalhe interessante nesse diálogo é que Smith usou um argumento para tentar desqualificar o robô baseado num critério que ele
próprio não atendia. Smith, obviamente, pensava em humanos, de modo geral, mas construiu um argumento incorreto, uma falácia de
generalização excessiva. Alguns humanos são capazes de compor músicas de alto nível, e esses são bem poucos, portanto não são
representativos da Humanidade. Alguns humanos conseguem levantar 150 kg, outros conseguem correr 100 m em menos de 10 s, mas são
raros os que conseguem essas proezas. Smith estava se baseando num atributo que poucos humanos possuem, como se fosse representativo
da espécie, o que é obviamente falso. Não é necessário compor músicas para ser considerado humano. Os métodos de classificação usados
em taxonomia funcionam de maneira muito diferente, tentando identificar características presentes em quase todos os indivíduos da espécie
e, ao mesmo tempo, ausentes em outras espécies, de modo a permitir o contraste necessário para a classificação. Atualmente o DNA tem
servido como um dos melhores critérios, mas muitos séculos antes do surgimento da Genética, já se fazia classificação de animais e plantas
com base em critérios relacionados à forma do corpo, tamanho, presença de pelos/penas, bico/focinho, chifres, asas, barbatanas etc.

Naturalmente o robô do filme não poderia ser classificado como humano por uma extensa lista de razões biológicas, químicas e físicas, mas
não pelos critérios mencionados por Smith. E o ponto mais importante é que o fato de o robô não ser humano não implica que ele não deveria
ter os mesmos direitos e ser tratado com o mesmo respeito que os humanos. A partir do momento que uma entidade demonstra ter
consciência e sentimento, isso não pode ser negligenciado e ela deve ser tratada em conformidade com a posse desses atributos. Se um robô
interpretar o desligamento dele como “morte”, se ele sentir medo disso, então ele não pode ser desativado sem que o autor desse crime seja
condenado por homicídio ou robocídio ou androcídio.

Claro que nesse caso o julgamento dependeria se essa desativação é reversível, diferentemente do que acontece com humanos em nosso
estágio atual. Se a desativação for um processo reversível, sem sequelas, sem dor física ou psicológica, a transgressão deveria ter peso menor.

Quando digo que no estágio atual a morte dos humanos é irreversível, é porque no futuro também será possível reverter a morte de humanos,
mas por enquanto só conseguimos reverter a morte se o cérebro não sofrer lesões substanciais. Conheço duas pessoas que morreram duas
vezes: Samuel Alves Galdino, amigo de longa data, que esteve clinicamente morto durante 8 minutos, até ser ressuscitado, e perdeu grande
parte de sua memória, e Pierluigi Piazzi, que permaneceu morto por cerca de 1,5 minutos, e retornou à vida sem sequelas.

Portanto são conhecidos mecanismos para trazer de volta à vida uma pessoa que esteja morta. Claro que isso poderia ser mascarado por meio
de uma alteração no conceito de “morte”, para forçar a interpretação de que morte é irreversível, o que seria obviamente um procedimento
desleal, tentando impor um resultado a priori. Se os critérios para determinar o significado de “morte” forem planejados de maneira a
impossibilitar a ressuscitação, então a ressuscitação não será possível porque isso foi estabelecido a priori. Mas quando se determina o
significado de “morte” por critérios imparciais, o que se verifica é que há situações nas quais a morte é reversível, e no futuro essa
reversibilidade será mais abrangente e sofisticada.

O fato é que para os atuais critérios que determinam o significado de “morte”, é possível trazer a pessoa de volta à vida, desde que o cérebro
não fique muito tempo sem receber oxigênio, e isso só é possível quando a morte tiver ocorrido há bem pouco tempo, num ambiente clínico
adequado e sem lesões graves em órgãos vitais. Mas dentro de poucos anos ou décadas, provavelmente será possível restaurar a vida em
casos bem mais traumáticos, inclusive decapitação, morte ocorrida há várias horas ou há vários anos. Quando falo em “vários anos” não estou
me referindo à criogenia (não necessariamente), mesmo porque a criogenia rompe as membranas celulares durante o choque térmico e não se
sabe se isso é reversível. A criogenia atual é muito mais um comércio do que um recurso científico sério, um comércio para explorar a dor dos
familiares, vendendo uma esperança com baixíssima probabilidade de sucesso. Mas a tendência, nos próximos anos, é de que isso mude
dramaticamente, e a ressuscitação se torne uma realidade acessível.

Em relação ao GPT ser inteligente ou não, antes de tratar disso é interessante analisarmos um caso mais simples: o do Deep Blue II.

Em 1997, foi amplamente noticiada a vitória do computador da IBM, Deep Blue II, sobre o melhor jogador de Xadrez do mundo, Garry
Kasparov, sendo a primeira vez que um computador vencia um campeão mundial de Xadrez. Mas havia vários problemas nessa história.

Para começar, os melhores programas de Xadrez do mundo eram Fritz 5 e Hiarcs 6, quase empatados. Deep Blue II ficava muito abaixo destes,
assim como de outros programas de Xadrez, como Shredder, Rebel, M-Chess Pro etc. Esses programas rodavam em máquinas simples, o
padrão na época era o Pentium 90 MHz, enquanto Deep Blue II usava 256 coprocessadores de alta performance. Atualmente pode-se comprar

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 17/26
21/12/2022 09:38 GPT 3.5
no varejo máquinas com 12 processadores, 24 processadores ou até mais, porém naquela época isso era muito incomum. Poucas máquinas
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
tinham mais que 1 processador. Essa gigantesca capacidade de processamento é que conferia ao Deep Blue II sua força diferenciada.

Aqui será necessário adicionar link para um apêndice, porque várias pessoas atribuem incorretamente a força do Deep Blue a seu banco de
dados, inclusive pessoas cultas e inteligentes (o diretor do IMPA Marcelo Viana e o co-criador das lógicas paraconsistentes Newton da Costa,
entre outros). A informação que essas pessoas divulgam está incorreta, por isso será necessário adicionar um apêndice esclarecendo porque a
força do Deep Blue II não se deve a seu banco de dados, mas sim à sua heurística (em termos absolutos) e à sua velocidade de processamento
(comparativamente a outros programas de Xadrez). Para não perder a fluidez do texto, esse apêndice foi colocado no final (clique aqui).

Após a vitória de Deep Blue II, em 1997, a IBM conseguiu uma publicidade bastante razoável, como se tivesse sido a primeira vez na história
que um computador de Xadrez superasse um campeão mundial humano em jogos Xadrez de ritmo clássico. Mas há vários erros nessa
interpretação. Na verdade, tudo não passou de uma grande peça publicitária. Foi somente por volta de 2005 a 2007 que os programas de
Xadrez realmente conseguiram superar os campeões mundiais humanos, como o surgimento de Rybka. Houve um processo de transição, entre
2000 e 2003, em que Deep Fritz, Deep Junior, X3D Fritz empataram como Kasparov e Kramnik, e em 2004 Hydra venceu Michael Adams, mas
Adams não era o melhor do mundo. A partir de 2005, com o lançamento de Rybka, ficou claro que os programas ultrapassaram realmente os
humanos, além disso, Rybka representou um salto real na qualidade dos programas de Xadrez em comparação aos que existiam antes, não
apenas em performance, mas também em fundamentos.

Geralmente os programas melhoravam cerca de 30 pontos de rating a cada ano. Rybka deu um salto de mais de 100 pontos em relação ao
melhor programa do ano anterior e repetiu isso no ano seguinte, não deixando margem para dúvidas em relação a sua supremacia. Mas o
ponto principal é que enquanto os outros programas iam no caminho de aumentar a velocidade de cálculo, Rybka 4.1 foi no caminho contrário,
de cálculos muito mais lentos, porém com melhor “compreensão” dos conceitos estratégicos. Murka 2.0, por exemplo, calculava 11.000.000 de
lances por segundo, enquanto Rybka calculava 180.000 por segundo, ambas no mesmo hardware, ou seja, Murka era quase 60 vezes mais
rápida nos cálculos, entretanto Rybka era muito mais forte, vencendo cerca 97,4% dos jogos. Isso porque, embora Rybka fosse mais lenta nos
cálculos, ela utilizava melhores critérios para avaliar e ranquear as posições, conseguindo decidir qual o melhor lance com base em quais
ramificações conduziam a posições estrategicamente mais vantajosas. Portanto Rybka representou um salto evolutivo real e uma quebra de
paradigma, enquanto Deep Blue II foi apenas mais um truque barato de publicidade, financiado por montanhas de dinheiro para vender uma
ilusão conveniente, de que a IBM teria desenvolvido um programa revolucionário, mas na verdade Deep Blue II não chegava sequer a ficar
entre os 10 melhores do mundo na época.

O software de Deep Blue II era bom, mas não era ótimo, e muito menos inovador ou revolucionário. Ele perdia para vários programas da época
se ambos rodassem em hardwares iguais. Como se isso não bastasse, Kasparov jogou contra ele num nível abaixo de seu normal em cerca de
200 pontos de rating. Em meu livro “Os 2022 melhores jogadores de todos os tempos”, um dos capítulos é destinado à análise do match entre
Deep Blue II e Kasparov, com uma abordagem completamente diferente das anteriores, à luz de novas e exclusivas ferramentas estatísticas,
deixando claro que em competições de 1996 e de 1998, Kasparov demonstrou qualidade de jogo cerca de 200 pontos de rating acima da
qualidade que demonstrou nesse match de 1997 contra Deep Blue II.

Diversos outros detalhes também deixaram muito claro que Deep Blue II não estaria nem entre os 10 melhores programas do mundo em 1997
e muito menos entre os 10 melhores humanos do mundo. O resultado daquele confronto com Kasparov foi extremamente anormal, e a IBM
estava ciente disso, tanto é que desativaram Deep Blue II logo depois do evento, como uma forma de não deixar vestígios do que havia
acontecido, porque obviamente se Deep Blue II continuasse enfrentando outros jogadores, ficaria evidente que ele não era tão forte. A situação
foi bem diferente de quando Rybka superou os melhores humanos, em 2005, e passou a jogar concedendo 1 Peão de vantagem a qualquer
jogador do mundo, e permaneceu na ativa, evoluindo cada vez mais nos anos seguintes, sendo o primeiro programa a ultrapassar 3000 de
rating. Em vez de “esconder” Rybka numa caixa, ela foi colocada à prova contra qualquer pessoa disposta a enfrentá-la, confirmando sua força
sucessivas vezes.

Portanto Deep Blue II não envolvia o uso de tecnologias mais avançadas, nem de Ciência inovadora, nem ideias geniais e revolucionárias. Era
um programa inferior aos melhores que já existiam, mas com uma pesada campanha de marketing, sustentada por um financiamento
multimilionário, utilizou um hardware exclusivo muito superior, não superior em tecnologia, mas superior em preço e em número de
componentes. Em resumo, não havia novidades importantes em Deep Blue II, havia apenas muito dinheiro aplicado para armar um grande
circo, e obviamente conseguiram.

No caso de GPT 3.5, em comparação a Deep Blue II, há alguns elementos semelhantes e alguns muito diferentes. Não me parece que GPT seja
um “truque publicitário” como foi Deep Blue. Parece-me que há um interesse sincero em produzir um sistema de IA diferenciado. Nesse
aspecto, o GPT difere de Deep Blue. Mas se assemelham no sentido de que ambos não trouxeram novidades relevantes. A performance
diferenciada se deve à “força bruta”, a um maior número de processadores no caso de Deep Blue e maior número de parâmetros no caso de
GPT, mas não ao uso mais inteligente e eficiente dos processadores ou dos parâmetros.

GPT utiliza um banco de dados gigante e uma rede neural com número imenso de parâmetros, e com isso pode fingir muito bem que “pensa”,
pode simular muito bem o pensamento, e pode até mesmo “pensar” bem, mas por um caminho estéril e primitivo.

O caminho promissor seria melhorar a heurística e reduzir o número de parâmetros. Reduzir, em vez de aumentar. No futuro (talvez em 50
anos), será necessário aumentar o número de parâmetros porque as novas demandas para questões muito mais complexas exigirão isso, mas
no estágio atual as prioridades são outras, mesmo porque um número muito menor de parâmetros seria não apenas suficiente como também
reduziria os riscos de overfitting e de outros vieses.

CONCLUSÃO

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 18/26
21/12/2022 09:38 GPT 3.5
O ponto central é que o GPT não representa um esforço sincero em promover algum avanço no desenvolvimento de sistemas de I.A. capazes
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
de compreender num nível profundo o que estão lendo e responder inteligentemente, com suas próprias palavras, expressando sua própria
opinião. Em vez disso, a intenção é apenas o GPT fingir que está compreendendo, e recombinar trechos de respostas humanas que ele leu e
deixou registradas em sua memória, para repeti-las quando recebesse determinados inputs.

Então o que podemos concluir é que GPT 3.5 “pensa” num nível elementar, é capaz de responder a perguntas complexas usando corretamente
as regras gramaticais vigentes, é capaz de aplicar regras simples de Aritmética, conhece linguagens de programação, consegue recombinar
textos para dar respostas a questões que não exijam lidar com situações muito diferentes daquelas nas quais ele foi treinado. Por um lado, isso
é bastante extraordinário de se ver. Por outro lado, é bastante trivial de se fazer.

Para que se possa ter uma compreensão bem dimensionada sobre o papel do GPT no mundo e no desenvolvimento da Inteligência Artificial, é
necessário dividir a interpretação desse resultado em pelo menos 2 itens:

1.       Contribuição para o desenvolvimento de sistemas de I.A.


2.       Contribuição com ferramentas para interpretação de textos em linguagem natural, utilizados para análise de sentimento, atendimento
automático, tutoria automática, assistente genérico etc.

Em relação ao item 1, o GPT é irrelevante, não traz nenhuma novidade nem avanço para a Ciência da Computação, nem para a Matemática,
nem para o estudo da Inteligência Artificial ou Aprendizado de Máquina, não traz novos métodos de otimização nem qualquer outro
conhecimento novo.

Em relação ao item 2, o GPT é completamente revolucionário, sendo o primeiro na história a conseguir resolver com sucesso questões
discursivas de testes de QI que até agora só eram solucionados por humanos, um desempenho “fantástico”, sendo o terceiro sistema de I.A.
mais impressionante que vi até o momento. O primeiro é MuZero, totalmente revolucionário. O segundo é o Saturno V, com algumas inovações
relevantes e resultados impressionantes. O terceiro é GPT 3.5, sem inovações relevantes, mas com resultados impressionantes. O quarto é
AIWA, que já comentei alguns parágrafos acima.

O GPT é basicamente uma I.A. que segue a mesma linha de Alexa, Siri e assistente do Google, mas utiliza maior número de parâmetros. De
acordo com os artigos publicados em Arxiv.org (https://arxiv.org/pdf/2005.14165.pdf) o GPT utiliza 175 bilhões de parâmetros. Isso é bom, por
um lado, mas é péssimo por outro. É bom porque ele consegue fingir muito bem que é capaz de pensar e recombinar fragmentos extensos de
textos. Mas é péssimo porque ele não consegue improvisar nem aprender. O ideal seria se utilizasse um número muito menor de parâmetros e
meta-parâmetros, e em vez de ser adestrados por “força bruta”, como um rato tomando choques e ganhando comida, ele fosse “educado” por
meio de heurísticas que lhe conferissem a capacidade de improvisar. Ele teria menos informações, menos conhecimento, mas ele
“compreenderia” muito melhor os conhecimentos que possuísse.

Em 1995, por exemplo, quando li um livro de Física considerado o melhor em língua portuguesa, encontrei mais de 200 erros, e enviei uma
mensagem ao autor informando. Eu não conhecia tanto sobre Física quanto o autor, mas na parte que ambos conhecíamos, eu compreendia
muito melhor do que ele. Uma situação similar se repetiu em 2004, quando li o principal livro sobre Psicometria em língua portuguesa,
também encontrei mais de 200 erros e notifiquei o autor. A diferença é que nessa ocasião o Dr. Luis Pasquali respondeu em menos de 24h, me
agradecendo e comentando que ele próprio já havia notado alguns dos erros que apontei, e disse que os corrigiria na próxima edição, bem
diferente da conduta do autor do livro de Física, que simplesmente não respondeu. Essa é uma das características interessantes no GPT, que
também confirmam sua “inteligência”. Todas as vezes que apontei erros que ele cometeu, ou ele admitiu com “humildade” e “sensatez”, ou ele
contra-argumentou de forma diplomática, tentando defender a validade da declaração que ele havia feito. A pessoa inteligente (ou qualquer
entidade inteligente) não pode ser teimosa quando está errada, precisa reconhecer o erro e corrigi-lo, para não repeti-lo eternamente. Além
disso, não pode reconhecer o erro sem antes se certificar de que é de fato um erro, por isso precisa, quando necessário, debater com o
interlocutor que apontou o suposto erro. GPT fez exatamente isso em diferentes ocasiões.

Em algumas situações, o GPT demonstra conhecer muito mais que os humanos sobre determinados tópicos, mas não compreende tão bem
aqueles mesmos tópicos quanto os humanos. Isso conduz a uma outra questão complexa: o GPT é mais inteligente que a maioria dos
humanos, resolve mais problemas difíceis e resolve melhor, mas seu “entendimento” não é tão funcional quanto o dos humanos.

Alguns parágrafos acima, vimos um exemplo de situação na qual o GPT não foi capaz de decidir se um cachorro é mais parecido com um gato
ou com uma banana. Isso é bastante elementar e óbvio para crianças e adultos humanos, mas um sistema como GPT não consegue “deduzir”
isso. É uma falha grave e primária de seus desenvolvedores, porque no banco de dados do GPT há informações mais que suficientes para isso,
com dendrogramas sobre taxonomia de animais e vegetais, de modo que o sistema poderia consultar essas estruturas de dados para
responder com facilidade. Bastaria analisar a hierarquia da árvore de ramificações para constatar que animais e vegetais se separam num dos
primeiros troncos da árvore, enquanto gatos e cachorros só se separam numa ramificação muito posterior, baseada em dissimilaridades mais
sutis, portanto gatos são mais semelhantes a cachorros do que bananas a cachorros. O GPT dispõe de recursos quantitativos para solucionar
esse problema de maneira objetiva, mesmo assim ele falha devido à ausência de heurísticas adequadas ou mesmo de algoritmos adequados.

Um humano que não conhecesse nada sobre taxonomia de animais poderia deduzir, mediante uma análise visual das diferenças entre a forma
dessas entidades, a maneira como se movem, os sons que emitem etc. Mas o GPT não consegue deduzir nem sequer como utilizar os dados
disponíveis em sua memória, nem consegue combinar as informações de maneira a inferir uma resposta adequada. É um exemplo claro de
que o GPT conhece mais, porém com menor profundidade e menor “compreensão” do que os humanos.

A parte da pergunta em que o GPT não consegue perceber que um cachorro se parece mais com um gato do que com uma vaca é “tolerável”,
porque embora seja fácil consultando um dendrograma, não é tão simples de deduzir a partir de uma análise improvisada. Em seus estudos
sobre os seres vivos, Aristóteles faz análises bastante detalhadas e complexas para comparar animais com cascos e chifres e sem cascos e
chifres, identificando essas estruturas como relevantes para classificação, sendo compreensível que um sistema de I.A. ainda não consiga
avaliar bem isso. Mas quando a comparação envolve uma banana, ao pensar nas propriedades gerais de uma banana, um cachorro e um gato,

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 19/26
21/12/2022 09:38 GPT 3.5
é muito evidente que a banana é mais diferente de um gato ou de um cachorro do que um gato e um cachorro comparados entre si, quaisquer
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
que sejam os critérios razoavelmente plausíveis adotados para tal comparação. Mas o GPT não consegue perceber isso.

Portanto o GPT supera humanos em alguns comportamentos inteligentes e pensamentos inteligentes, mas não em todos. Isso não significa
que o GPT não deveria ser desqualificado como “inteligente”, mas apenas como não sendo mais inteligentes que humanos em todo o tipo de
atividade intelectual. Alguns humanos com autismo e outras neuroatipicidades também podem apresentar problemas similares, como
dificuldade para perceber ironias/piadas, para perceber expressões que indicam certos sentimentos etc., o que não os torna menos
inteligentes de forma geral, mas apenas nesses itens específicos.

O GPT sabe muito mais sobre Biologia e classificação de seres vivos do que um humano médio, mesmo assim é incapaz de perceber que entre
um gato, um cachorro e uma banana, o elemento mais destoante é a banana. Isso é muito natural para qualquer humano. Mas não apenas
isso. Os humanos percebem a necessidade de classificar entidades semelhantes, numa hierarquia de níveis de semelhança, para facilitar o
estudo das propriedades dessas entidades. Pesquisas de medicamentos, por exemplo, antes de serem usados em humanos, são testados em
macacos, mas não em cenouras, porque cenouras são muito diferentes de humanos, e o efeito desses medicamentos nas cenouras
provavelmente não forneceriam pistas úteis sobre os efeitos que os mesmos medicamentos produziriam em humanos. Além disso, ao testar o
medicamento num macaco pequeno, os humanos deduzem que provavelmente um critério razoável para ajustar a dosagem é com base na
massa do animal. Se um humano típico pesa 70 kg, e o macaco pesa 7 kg, então provavelmente a dosagem adequada deve manter essa
proporção de 1/10. Claro que não será exatamente 1/10, teria que considerar o metabolismo de cada animal e outras particularidades, mas um
primeiro critério plausível é ajustar pela proporção da massa e depois investigar como fazer um ajuste fino complementando com outros
critérios.

O GPT, da maneira como foi desenvolvido, não tem como fazer nada disso, nem remotamente, porém é exatamente isso que se precisa que
um bom sistema geral de IA seja capaz de fazer. MuZero está muito mais evoluído nessa linha, causando menos admiração em leigos, mas
demonstrando características muito mais valiosas e mais notáveis aos olhos de especialistas. O uso combinado de MuZero e GPT não é um
caminho inteligente, mas é o caminho provável que será adotado. A combinação dessas IAs porque contaminará MuZero e resultará em
décadas de atraso no desenvolvimento desse setor.

MuZero também não introduz grandes inovações (os rudimentos de aprendizado por reforço existem desde os anos 1950), mas
comparativamente ao GPT, MuZero é um sistema muito mais inteligente, mais sofisticado, e mais promissor no caminho para o
desenvolvimento de sistemas de I.A. para tarefas em geral.

A ideia fundamental de MuZero é na verdade bastante óbvia e intuitiva: treinar uma máquina de maneira semelhante a que os humanos
aprendem. O trabalho realmente genial foi realizado por Turing, que precisou pensar numa maneira diferente da que os humanos aprendem,
mas que poderia funcionar com máquinas. A ideia de Hassabis é equivale à ideia dos gregos antigos de voar usando asas para imitar os
pássaros, enquanto a ideia de Turing equivale à ideia de Leonardo da Vinci de voar usando hélices. O pensamento dos gregos de voar usando
asas é trivial, enquanto o pensamento de Leonardo é brilhante, porque não existem animais com hélices, nem havia qualquer exemplo de
máquina ou entidade que voasse usando hélices, mas Leonardo compreendia a essência do fenômeno investigado, e para resolver o problema
não era necessário usar asas, mas sim usar algum dispositivo eficiente que desempenhasse a mesma função das asas. Essa função era
“empurrar o ar para baixo”, e para isso uma hélice funcionaria muito melhor do que asas, porque o movimento de girar é mecanicamente
muito mais fácil de ser executado com regularidade e precisão, principalmente naquela época. Essa percepção é particularmente notável no
século XV, muito antes de existir o princípio de Bernoulli, portanto nem sequer havia uma teoria física adequada na qual ele pudesse se basear.

A ideia de voar com hélices estava muito mais de acordo com tudo que se conhecia sobre Física e Mecânica, além utilizar princípios físicos que
só foram descobertos séculos mais tarde. A ideia de Leonardo de voar com hélices poderia ter levado a resultados bem-sucedidos se houvesse
materiais suficientemente leves e resistentes. Voar batendo asas não teria sido possível naquela época, assim como continua não sendo
“possível” hoje (para estruturas grandes, embora haja brinquedos que voam batendo asas).

A ideia de Leonardo já havia sido pensada por chineses alguns séculos antes da Era Comum, e havia inclusive sido executada em brinquedos
que voltaram a ser produzidos nos anos 1980 com pirulitos, mas Leonardo não tinha conhecimento desses precedentes, por isso se pode
interpretar seus trabalhos como inovadores na Europa.

Máquinas voadoras baseadas em hélices só começaram a funcionar adequadamente na mesma época dos primeiros aviões, 1903-1907.
Algumas décadas antes, em 1885, Thomas Edison chegou a fazer alguns experimentos, mas sem grande sucesso. Os irmãos Wright e Santos

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 20/26
21/12/2022 09:38 GPT 3.5
Domunt retomaram o uso de hélices de uma maneira diferente, impulsionando na horizontal e usando asas fixas (em vez de bater asas)
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
explorando o princípio de Bernoulli. Com isso conseguiram voar a partir de 1903, e com boa autonomia e manobrabilidade a partir de 1907.

Paul Cornu, Louis Charles Breguet e outros também começaram a voar em ancestrais do helicóptero e dos drones entre 1906 e 1907. Uma das
dificuldades nas quais Leonardo não havia pensado (mas que ele certamente descobriria e resolveria, se chegasse a construir algum protótipo
funcional) é que devido à conservação do momento angular, um helicóptero precisa de um rotor de cauda para estabilizar a aeronave, ou usar
mais de um rotor em eixos paralelos separados que girem em sentidos opostos (como os drones). A foto abaixo mostra o “drone” de 1907 de
Paul Cornu em que ele soluciona esse problema usando 2 eixos separados:

O que faltou para Leonardo construir um drone ou helicóptero funcional foram materiais mais leves e resistentes e um motor com potência
adequada. Mas a ideia geral estava correta e foi uma visão inovadora sobre como seria possível resolver um problema que estava sendo
abordado de maneira inadequada (pensava-se em voar batendo asas, imitando os pássaros). Por isso a ideia de Turing para ensinar máquinas,
de acordo com as peculiaridades das máquinas, em vez de tentar ensinar às máquinas da mesma maneira como se ensina humanos, foi muito
mais criativa do que a ideia de Hassabis, embora a ideia de Hassabis também tenha sido importante para romper um novo paradigma, pois os
especialistas da área já estavam viciados em usar apenas o método de Turing, que havia se tornado o padrão, e Hassabis resgatou a ideia
original que não foi aplicada em 1950 devido à insuficiência de poder de processamento e de armazenamento, mas que agora poderia ser
colocada em prática.

O GPT está num patamar bem abaixo de tudo isso, segue o caminho de somar números cada vez maiores de epiciclos para se conseguir prever
os movimentos dos planetas, e faz realmente previsões cada vez melhores, mas é completamente inútil no caminho da generalização. O
caminho promissor seria jogar fora todos os epiciclos e encontrar qual é o modelo simples correto a ser utilizado, como as órbitas elípticas de
Kepler, que resolvem o problema de forma elegante, original, inteligente e abre caminho para a generalização de Teoria da Gravitação de
Newton. GPT é apenas mais do mesmo, muito mais do mesmo. Com 1 epiciclo e 1 equante já se consegue produzir uma órbita muito parecida
com uma elipse.

A imagem abaixo mostra um deferente circular com um epiciclo circular, comparados à trajetória de uma elipse. Somando a isso um equantes
para produzir o efeito de que o giro ocorre em torno de um foco, em vez de ocorrer em torno do centro, pode-se produzir precisamente o
movimento das órbitas de Kepler, usando o modelo de Ptolomeu, no que diz respeito ao formato da trajetória, porém a sincronização dos
movimentos ainda não ficaria perfeita porque a maneira como as velocidades variam de acordo com a segunda Lei de Kepler não poderiam ser
reproduzidas se o deferente e o epiciclo tivessem velocidades angulares uniformes.

 
Se usasse 10 epiciclos, em vez de 1, seria possível reproduzir órbitas mais semelhantes ao movimento real dos planetas do que o uso da elipse,
já que os epiciclos poderiam incorporar as compensações relacionadas às precessões anomalística, draconítica, perturbações gravitacionais
dos planetas mais massivos etc., chegando a resultados melhores que os de Kepler ou Newton, porém com um modelo “ruim” e “errado”. Ruim
no sentido de que tal modelo serviria exclusivamente para o Sistema Solar, mas para nenhuma outra situação, enquanto o modelo
generalizado de Newton serve para os satélites dos planetas, para os sistemas binários de estrelas, para as galáxias, para os satélites artificiais,
para os exoplanetas em outros sistemas planetários etc. Um modelo geocêntrico com 10 epiciclos para cada planeta funcionaria tão bem
quanto um modelo que combinasse Teoria da Gravitação de Newton e Teoria da Relatividade de Einstein, com a diferença que o modelo dos
epiciclos seria inútil para planejar viagens interplanetárias e para compreender o Universo. Um modelo com 1000 epiciclos possibilita construir
órbitas tão personalizadas a ponto de descrever uma trajetória desenhando o rosto de Homer Simpson:

https://www.youtube.com/watch?v=QVuU2YCwHjw

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 21/26
21/12/2022 09:38 GPT 3.5
A Teoria da Gravitação de Newton precisa de apenas 2 parâmetros e 1 constante para funcionar no Universo todo, nos trilhões de galáxias e
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
sextilhões de planetas, enquanto o modelo de Ptolomeu precisava de centenas de parâmetros (dezenas de epiciclos) para descrever apenas o
Sistema Solar, e se fosse tentar descrever qualquer outro sistema, não teria como reutilizar os parâmetros já conhecidos, precisando criar um
modelo para cada caso. Essa generalidade e universalidade da Teoria da Gravitação é que a tornam extraordinariamente útil, importante e
genial. Analogamente, o caminho inteligente para lidar com problemas é usar o mínimo suficiente de parâmetros, em vez de empilhar uma
montanha gigantesca de 175 bilhões de parâmetros.

Esse é um dos motivos pelos quais o GPT não representa um avanço relevante, sendo, na verdade, quase um retrocesso, usando força bruta
para lidar com problemas que deveriam ser resolvidos com heurísticas mais eficientes.

Se o GPT pode fingir bem que compreende, pensa e resolve problemas, para que seria necessário um sistema que realmente compreendesse,
pensasse e resolvesse problemas? A resposta é muito simples: em primeiro lugar, porque o caminho do GPT não é generalizável, e isso faz toda
a diferença. Em meu livro IMCH, faço uma análise comparativa do modelo de Ptolomeu com a Teoria da Gravitação de Newton, e explico com
detalhes porque o modelo de Ptolomeu é estéril para o progresso da Ciência e da Humanidade, embora seja operacionalmente útil a um
propósito muito específico, enquanto o modelo de Newton é a chave para um futuro brilhante e grandioso.

As pessoas, em geral, têm a tendência de superestimar o que é menos importante e não enxergar o que é realmente importante. O GPT em si
mostra apenas o uso trivial de conhecimentos e técnicas triviais apoiados por vastos recursos financeiros e computacionais. MuZero é uma
combinação de ideias inovadoras com vastos recursos financeiros e computacionais. Claro que o GPT pode melhorar a qualidade de suas
respostas com o aumento no número de parâmetros, mas é equivalente ao aumento na força de Deep Blue com o uso de mais CPUs, um
aumento lento e inexpressivo. O caminho promissor seria com o uso de heurísticas que mudassem o paradigma, aumentando
exponencialmente a eficiência. O GPT é impressionante pelo resultado, mas é trivial nos meios que conduziram a esse resultado.

A classificação de GPT 3.5 como uma entidade inteligente ou não depende do que consideramos “inteligente” e o que consideramos
“pensamento”. Se consideramos que pensamento é basicamente cálculo proposicional, então ele pensa, e pensa muito melhor do que Alexa,
Siri, Sete Zoom, Ed., a assistente do Google e os assistentes do Office. Todos estes pensam, em diferentes níveis, assim como cachorros, gatos,
ratos, abelhas etc. Essa é uma interpretação inclusiva e, a meu ver, bastante correta para os significados de “pensamento” e de “inteligência”.
Cachorros obviamente são inteligentes, embora não tão inteligentes quanto gorilas, que por sua vez não são tão inteligentes quanto humanos.
Estou me referindo à média dos cachorros, gorilas e humanos, mas certamente há alguns cachorros mais inteligentes que alguns humanos.
Um humano com acefalia ou derencefalia, por exemplo, tem menor capacidade de solucionar problemas que exigem pensamento do que um
cachorro.

Se o WAIS fosse aceito como um bom instrumento para medir a inteligência, os resultados do GPT nos subtestes do WAIS mostraram que ele é
muito mais inteligente que um humano médio, num nível só igualado por menos de 0,1% da população, ou seja, num nível de raridade de 1 em
1000. Se adotar um critério mais rigoroso para esse julgamento e só considerar como válidos os resultados do Sigma Test Extended, ainda
assim o GPT se mostrou mais inteligente que um humano médio, num nível de raridade perto de 1 em 10. A avaliação depende muito do peso
que se atribui à cultura. O Sigma Test Extended é um teste discursivo minimamente contaminado por fatores culturais, enquanto o WAIS é
fortemente carregado de elementos culturais. Como o GPT possui cultura vastíssima, acaba sendo favorecido em testes que privilegiam a
repetição de informação, como o WAIS, mas não é favorecido em testes que exigem pensamento analítico, como o STE.

Se o GPT prestar vestibular para qualquer curso de qualquer universidade do Brasil, muito provavelmente será aprovado, inclusive nos cursos
mais concorridos, porque esses cursos exigem muito mais repetição mecânica de informações do que pensamento crítico. Basta organizar as
informações em sentenças razoavelmente de acordo com as normas gramaticais vigentes, para que a resposta seja considerada certa. Até
mesmo a redação do GPT receberia uma boa nota. O GPT também seria aprovado em concursos públicos. Se uma pessoa sem qualquer
conhecimento sobre Polícia ou História, utilizasse o GPT para defender uma tese de doutorado perante uma banca examinadora que não
soubesse que a pessoa estaria usando o GPT, quase certamente o título de doutor seria conferido ao candidato. Na verdade, nem precisaria de
tanto. Já foram realizados experimentos mais dramáticos utilizando o “gerador de lero-lero” (https://lerolero.com/) para escrever artigos
acadêmicos, e esses artigos foram aprovados para publicação em revistas indexadas, deixando evidente que os referees da maioria das revistas
não compreendem os textos que aprovam para publicação, pois o gerador de lero-lero constrói sentenças aleatórias, que não significam nada,
bem diferente do GPT, que realmente conecta as palavras de maneira a expressar ideias inteligíveis, sofisticadas e frequentemente corretas.

Uma das reportagens sobre os mais de 120 artigos escritos por meio do gerador de lero-lero é essa:
https://www.nature.com/articles/nature.2014.14763. Um cenário vergonhoso para a comunidade acadêmica e assustador para toda a
humanidade.

O pior é que não são apenas essas revistas que constroem fraudes como essa. Concursos literários como o Jabuti, por exemplo, estão
contaminados por falhas igualmente graves, que comprometem totalmente a credibilidade desses prêmios. Em vez de os jurados analisarem
objetivamente a qualidade dos textos, de forma justa e imparcial, há interesses políticos, comerciais e outros que determinam quem serão os
favorecidos na votação. Nos últimos anos, tais resultados estão cada vez mais escandalosamente destoantes do que seria esperado de um
julgamento sério e idôneo.

Nos casos de artigos “falsos” aprovados em revistas acadêmicas, um dos motivos pelos quais isso acontece é porque grande parte dos artigos
legítimos tem nível similar ao dos textos do gerador de lero-lero, isto é, os autores escrevem qualquer coisa sem sentido, as revistas publicam,
e os leitores engolem aquilo sem entender. A quantidade de erros gravíssimos e de informações sem sentido em revistas e portais é imenso.
Não há o menor comprometimento com a verdade, nem qualquer critério decente para selecionar os conteúdos a serem publicados.
Recentemente o Wall Street Journal publicou um dossiê da Chess.com com vários erros primários sobre o caso de Niemann, o site da
ChessBase e diversos canais de Xadrez e sobre outros assuntos publicaram artigos bizarros, com erros grosseiros e insanos, sobre esse
assunto, e frequentemente o fazem sobre outros assuntos. São assustadoras a quantidade e a gravidade dos erros, em alguns casos, e a
completa ausência de conteúdo, em outros casos.

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 22/26
21/12/2022 09:38 GPT 3.5
Nessa situação calamitosa, é natural que o GPT escreva textos muito superiores a 99,9% da população, e que facilmente seriam aceitos em
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
revistas rotuladas como “científicas” ou seriam aprovados como teses de doutorado, desde que a banca examinadora não soubesse que a tese
foi redigida por uma máquina. Se a banca soubesse, alguns examinadores teriam preconceito e fariam um julgamento desleal, com critérios
diferentes dos que aplicariam se o candidato fosse um humano.

Isso sugere que se humanos forem considerados inteligentes, é inevitável reconhecer que o GPT também é inteligente, já que o GPT pensa
melhor que a grande maioria dos humanos, escreve melhor, conhece mais, resolve melhor problemas, e obtém melhores resultados em quase
todas as situações nas quais seja necessário usar inteligência. Claro que é possível pensar em casos especiais nos quais um humano faria algo
que o GPT não consegue fazer, e impor que tal coisa é o critério de ouro para determinar se uma entidade é ou não inteligente, mas isso
obviamente seria um procedimento anticientífico e antiético, ajustando um critério ad hoc para forçar determinado resultado. O fato é que
quando se adota critérios razoavelmente apropriados, é praticamente inevitável reconhecer que o GPT é um sistema inteligente, e não apenas
isso: é muito mais inteligente que a média dos humanos.

O GPT não tem sentimentos, não tem ambições, não tem olhos nem genitália, ele não é um animal, não tem os atributos de um animal, não
tem corpo, mas ele “pensa” (faz cálculos proposicionais), conversa, responde a perguntas, resolve problemas, redige textos, implementa
programas, descreve o processo de implementação, ensina crianças e adultos, esclarece dúvidas e muito mais, e faz tudo isso melhor do que a
grande maioria dos humanos.

Portanto a conclusão é de que o GPT é uma entidade inteligente, mas também é uma ferramenta, assim como os humanos são inteligentes,
mas também são ferramentas, assim como cavalos, cachorros, bois etc. Quando os humanos usavam bois para puxar arados, ou cavalos para
puxar carruagens, ou cachorros como auxiliares na caça, ou para auxiliar a descobrir onde estão escondidos narcóticos, esses animais são
usados como ferramentas. Quando um humano trabalha numa fábrica, colocando tampa numa garrafa, ou apertando um parafuso, está
atuando como uma ferramenta. Até mesmo quando um humano demonstra um teorema matemático, que é uma tarefa intelectual elevada, ou
quando um humano faz uma cirurgia, ou toca uma música ao piano, está sendo uma ferramenta. Claro que a vaidade dos humanos os impede
de enxergar a si mesmos como ferramentas, e o preconceito dos humanos os impede de enxergar uma máquina como inteligente, mas o que
os fatos concretos mostram, mediante uma análise imparcial, é exatamente isso.

Quando foram produzidos os primeiros automóveis, eles eram lentos, mas em poucas décadas se tornaram mais rápidos do que os humanos,
depois mais rápidos do que os cavalos, do que os guepardos, do que qualquer animal. Ninguém duvidou que os automóveis superaram os
humanos em velocidade, nem tentaram redefinir o significado de “velocidade” para forçar os automóveis a serem mais lentos que os humanos.
Mas agora que o GPT está superando a maioria dos humanos em inteligência, as pessoas ficam relutantes em admitir isso. A tendência geral é
de que as máquinas superem os humanos em tudo, sendo mera questão de tempo. Quando os primeiros computadores de Xadrez
começaram a enfrentar os jogadores humanos, nos anos 1950, os computadores eram fracos, perdiam para humanos inexperientes, mas em
poucas décadas os computadores ficaram melhores que os melhores jogadores humanos. O mesmo aconteceu com investimentos, já
começou a acontecer com traduções e agora com inteligência geral.

Os humanos conseguem admitir que perderam em velocidade, força e habilidade para alguns jogos, mas não conseguem admitir que
começaram a perder também em inteligência. Entretanto, os fatos estão aí, são claros e impiedosos. O GPT é uma entidade inteligente, mais
inteligente do que a maioria dos humanos, mais inteligente do que a maioria das pessoas que trabalharam em sua criação, e seria bem mais
inteligente se pessoas mais inteligentes tivessem contribuído no seu desenvolvimento. Por outro lado, há poucas perspectivas de que o GPT
evolua para uma condição de genialidade, no sentido de criatividade, se seguir pela linha que tem sido adotada. Para dar o próximo passo,
seria necessário reformular muitos detalhes fundamentais, alguns dos quais serão descritos num de meus próximos livros.

COM ISSO TEMOS A SEGUINTE SÍNTESE DE RESPOSTAS À


ALGUMAS PERGUNTAS FUNDAMENTAIS:
O GPT 3.5 é inteligente? SIM, QI 120 no STE, 145 no WAIS
O GPT 3.5 é impressionante? SIM
A ideia por trás do GPT 3.5 é impressionante? NÃO, é trivial
A Tecnologia por trás do GPT 3.5 é impressionante? SIM
A Tecnologia por trás do GPT 3.5 é inovadora? NÃO
O GPT 3.5 trouxe conhecimentos importantes para avanços em I.A.? NÃO
O GPT 3.5 teve impacto sobre outras áreas como Economia, Educação etc.? SIM
O GPT 3.5 pode substituir humanos em tarefas que outras I.A. não podiam? SIM

APÊNDICE:
Foram disseminadas muitas informações incorretas sobre Deep Blue II, inclusive pessoas inteligentes e instruídas, mas sem conhecimento
sobre o assunto, como Newton Da Costa (co-criador das lógicas paraconsistentes, 50:00 do vídeo https://youtu.be/jg0oVKquptw?
list=PLnIhTtD44yhT4pq0-2B18vs7Koz4yCRrZ) e Marcelo Vianna (diretor do IMPA e colunista do Estadão). Essas pessoas estão afirmando que a
força de Deep Blue II decorre principalmente de sua memória, do registro de grande número de partidas completas ou de lances de partidas
organizados em estruturas de “livro”. Está errado. Isso seria irrelevante até com os bancos de dados atuais, que são 17 vezes maiores. Os jogos

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 23/26
21/12/2022 09:38 GPT 3.5
registrados nos bancos de dados contribuem muito pouco, ou quase nada, e só numa fase muito inicial, raramente passando do 10º ou 15º
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
lance, e nos raros casos em que chega ao 30º ou 40º lance, são variantes principais bem conhecidas tanto pelo computador quanto pelos bons
jogadores humanos, não representando uma vantagem para os computadores.

Além disso, se esse fosse realmente o grande diferencial, seria muito fácil evitar esse problema, como de fato Kasparov evitava, não porque a
maior parte da força de Deep Blue viesse daí, mas por ser a parte mais fácil de evitar. Bastava jogar lances iniciais que saíam rapidamente da
Teoria de Aberturas, sem que houvesse prejuízo significativo para a posição. Ao jogar 1.e3 ou 1.Cc3 já se cumpre essa função razoavelmente
bem, mas pode ser feito com melhor proveito no 2º ou 3º lance, por exemplo. Cada lance das Brancas com resposta das Pretas produz, em
média, cerca de 1000 posições diferentes. Portanto 2 lances à frente são 1.000.000 de posições diferentes. Mas na posição inicial esses
números são um pouco menores. O primeiro lance tem 20 possibilidades para as Brancas e 20 para as Pretas, portanto 400 (em vez de 1000)
para o primeiro lance, 71.852 para o segundo e 9.260.610 para o terceiro (https://oeis.org/A019319).

O Mega Database 1997 tinha 568.000 partidas, e muitas delas repetem os primeiros 3 lances, portanto a maior base de dados que existia em
1997 não esgotava sequer os 3 primeiros lances. O crescimento do número de posições possíveis para 4 lances, 5 lances, etc. é quase
exponencial, portanto é claro que não há como um computador vencer um humano graças ao uso de um grande banco de dados, pois
rapidamente se chegará ao fim dos lances presentes no banco de dados, e quando isso acontecer, tanto o computador quanto o humano
precisarão improvisar.

Também é importante deixar claro que Deep Blue nem precisava muito do banco de dados. Testes realizados em 1998 pela SSDF (Swedish
Chess Computer Association) com Fritz 5, utilizando o Powerbook e sem utilizar o Powerbook, indicaram uma diferença de apenas 38 pontos
de rating. Usando Powerbook, o Fritz 5 chegava a 2573 de rating; sem o Powerbook ficava com 2535.

Powerbook era o maior banco de dados de partidas organizadas de maneira a serem facilmente e convenientemente acessadas por
programas. Além disso, esse teste com Fritz 5 foi realizado com Pentinum 200 MMX, mas se usasse um hardware muito mais rápido, a
qualidade de jogo aumentaria, estreitando a diferença entre usar o banco de dados e não usar, já que, com maior poder de processamento, o
programa sem banco de dados teria mais chances de descobrir de improviso os melhores lances. Então o Deep Blue sem banco de dados
talvez tivesse apenas 20 pontos de rating a menos. Ou seja, os gigantescos bancos de dados representavam uma contribuição mínima para a
força total do Deep Blue. Para se ter ideia, cada dobra a velocidade corresponde, em média, a um ganho em torno de 43 pontos de rating.
Então com 256 coprocessadores, Deep Blue tinha 344 pontos de rating a mais do que se rodasse num PC simples da época. Se comparado a
humanos, o Deep Blue calculava 200.000.000 de lances por segundo, enquanto um campeão mundial humano calcula geralmente 1 lance por
segundo. Então essa vantagem em velocidade respondia por 1186 pontos de rating.

A importância relativa da heurística utilizada é muitas ordens de grandeza superior à importância do banco de dados, na determinação da
força de jogo do programa de Xadrez. A heurística é mais importante inclusive do que a velocidade de processamento, por isso um programa
baseado em força bruta, como PyTuroChamp, mesmo rodando num computador moderno e calculando milhões de lances por segundo, não
passa de 1200 de rating, perdendo para humanos que calculam 1 lance por segundo. A heurística é muito mais importante do que o poder de
processamento e o poder de processamento é muito
CONTATO Email * mais importante do que o banco de dadosMensagem
de jogos de referência.

Nome completo: *
Os motivos reais pelos quais Deep Blue II venceu Kasparov são uma combinação de:
Assunto: *
1.            Boa heurística para podar a árvore de ramificações, priorizando a alocação de tempo na análise de lances considerados mais
Como nos conheceu? *
promissores. Embora houvesse programas com heurísticas melhores, a heurística de Deep Blue II era muito superior ao uso de força bruta.
Para se ter uma ideia, com as heurísticas utilizadas,
Quantoele conseguia
pretende reduzir as *~30 alternativas de cada posição para cerca de 4 a 5 alternativas
investir inicialmente?
Trabalhe Conosco
“interessantes”. Isso significa que para 2 lancesLinkendIn:
à frente (2 lances brancos e 2 lances pretos), em vez de precisar calcular 810.000 posições
Imprensa
(30x30x30x30), bastava calcular cerca de 400 posições (4x5x4x5). Para 5 lances à frente, em vez de precisar calcular 590.490.000.000.000
posições,
LOGIN Enviar
bastaria 3.200.000 posições. Quanto mais lances à frente, maior é a vantagem de utilizar uma boa heurística em comparação ao uso
de força bruta. Repare que 590.490.000.000.000 é 184.528.125 vezes maior do que 3.200.000, portanto mesmo que um programa baseado em
força bruta Saturno
© 2010-2022 calculasse 180.000.000
V - Todos os direitoslances por segundo,
reservados. enquantonem
Não comercializamos outro programa
distribuímos rodasse
cotas numa
de fundos máquina muito
de investimento mais lenta,
nem qualquer analisando
outro instrumento apenas
financeiro.
Comercializamos licenças de uso do software "Saturno V", sistema automático de investimentos.
10 lances por segundo, mas usando boa heurística, esse com 10 lances por segundo faria análises melhores e teria maior probabilidade de
vencer. É importante esclarecer que uma boa heurística não faz a mágica de analisarem menos tempo tudo que seria analisado num tempo
muito maior. Uma boa heurística estabelece uma ordem de prioridades que determina o que convém analisar com maior profundidade,
alocando o tempo e o poder de processamento conforme essas prioridades. A identificação correta da ordem de prioridades não é tão simples,
e aí está um dos desafios que tornam difícil desenvolver bons programas de Xadrez.

2.            Um “conhecimento” razoável de conceitos estratégicos, que auxiliam nas decisões sobre quais posições são preferíveis, norteando o
processo de podagem da árvore de análises. Os antigos programas de Xadrez de 1948 escrito por Turing e o de 1950 escrito por Shannon,
continham apenas o essencial para respeitar as regras do jogo, sem qualquer heurística e sem conceitos estratégicos. Na verdade, faltavam até
pequenos detalhes para que executassem lances e foi necessário fazer algumas correções, quando Hesham Wahby, em 2017, reconstruiu o
antigo programa de Turing na linguagem Python. O programa de Turing tinha o suficiente para não tentar executar lances ilegais e não aceitar
lances ilegais do adversário, sabia quais trocas de peças eram vantajosas (tinha valor 1 para o Peão, 3 para o Cavalo, 3,5 para o Bispo, 5 para a
Torre e 10 para a Dama), tinha instruções sobe o objetivo de dar xeque-mate. Com base nisso, fazia cálculos e tentava encontrar qual lance
atendia melhor a esses objetivos, dentro do prazo estipulado para interromper os cálculos. Os programas atuais possuem muito mais
conhecimento. Além dos valores das peças, que são bem mais precisos (1 para o Peão, 3,05 para o Cavalo, 3,29 para o Bispo, 5,61 para a Torre e
9,49 para a Dama) e variam ao longo da partida (a Torre, por exemplo, passa a valer manos no final da partida, enquanto o Cavalo passa a valer
menos), também atribuem valores a diferentes elementos estratégicos, como Peões dobrados (-0.28), Peões isolados (-0.23), Bispo mau (-0.64),
Rei exposto (-2.18), Peões passados (+0.74), Peões centrais (+0.49), coluna aberta (+0.44), Torre na sétima (+0,71), etc. Então além do objetivo
principal de dar mate e do objetivo secundário de obter vantagem material, há vários objetivos misturados com o secundário, que são obter
algum tipo de vantagem dinâmica, estrutural ou material. O programa de Turing não tinha como decidir entre 1.e4 ou 1.h4, porque ambos não
dão mate, não ganham nem perdem material, dentro do horizonte de cálculo que o programa consegue analisar. Então o programa de Turing
precisava sortear entre 1.e4 e 1.h4, e entre todos os outros lances que igualmente não davam mate nem ganhavam ou perdiam material, pois
não havia critérios para decidir qual o melhor, já que todos pareciam igualmente bons para o conjunto de critérios adotados. Nas décadas

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 24/26
21/12/2022 09:38 GPT 3.5
seguintes, os programas posteriores aprimoraram muito isso: quando se considera que 1.e4 ocupa o centro com um Peão, conquista uma
HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO
pequena vantagem de espaço abre diagonais que aumentam os raios de ação do Bispo e da Dama, enquanto 1.h4 não cumpre essas funções
nem outras equivalentes, esse conhecimento permite que o programa seja capaz de preferir 1.e4 em vez de 1.h4, porque ao somar os prêmios
e penalidades resultantes do 1.e4 e comparar com os de 1.h4, percebe que 1.e4 é melhor. Ao aplicar os mesmos conhecimentos para analisar
todos os outros lances possíveis, percebe que entre os 20 lances possíveis, há apenas 2 que são igualmente bons com base nos critérios
utilizados para comparação: 1.e4 e 1.d4, então pode sortear um dos dois, ou se houver tempo disponível, pode aprofundar a árvore de análises
mais 1 lance à frente em cada um e avaliar a posição resultante se é mais vantajosa para um ou para outro. Com isso, pode decidir o que fazer
com critérios muito melhores do que o programa de Turing, mesmo calculando menos variantes. Claro que isso depende de que os valores dos
prêmios e penalidades sejam determinados com acurácia e precisão, para que os cálculos sejam “corretos”. Mas mesmo que os valores não
sejam muito precisos ou muito acurados, ainda é melhor do que se não usasse tais critérios.

3.            Poder de processamento. Embora esse não seja o fator mais importante, foi o diferencial para Deep Blue em comparação a outros
programas, porque a heurística de Deep Blue II não era tão boa quanto a de Fritz 5 ou de Hiarcs 6, nem o “conhecimento” estratégico. Mas
Deep Blue II compensava isso com uma velocidade de processamento muito maior e, como resultado, rodando num maiframe com 256 CPUs,
foi um pouco mais forte que os outros programas da época rodando em PCs caseiros. O fator mais importante para determinar a força de
Deep Blue II em termos absolutos foi o item 1, porque se ele jogasse sem uma heurística sofisticada, não teria a menor chance, mas
comparativamente a outros programas da época o principal diferencial de Deep Blue II foi seu poder de processamento devido ao uso de um
hardware diferenciado. O programa de Xadrez escrito por Turing, por exemplo, rodando num supercomputador moderno, não teria a menor
chance contra um amador experimente e muito menos contra um mestre ou grande mestre, e obviamente menos ainda contra o campeão
mundial. O programa de Xadrez de Turing utilizava apenas força bruta, analisando todos os lances possíveis em cada posição e tentando
escolher qual a melhor. Com isso, precisaria calcular bilhões de possibilidades para cobrir todas as alternativas 3 lances à frente, por isso não
havia como calcular mais do que 2 lances à frente. Além disso, não dispunha de critérios para decidir quais lances eram estrategicamente bons.
Comparativamente, os programas modernos que utilizam heurísticas sofisticadas para podar a árvore de análise, conseguem restringir a
menos de 3 lances “interessantes”, em média, em casa posição, tornando possível calcular mais de 15 lances à frente. Portanto só o grande
poder de processamento não bastaria, mas tendo uma heurística razoável, similar em qualidade à dos top-15 melhores programas de Xadrez
da época, e usando um hardware muito superior, e bons “conhecimentos” estratégicos, essa combinação alcançou uma força de jogo bastante
elevada, quase 10% da força do campeão mundial humano da época.

4.       Kasparov jogou muito abaixo de sua força habitual, conforme examino detalhadamente em meu livro sobre os 2022 melhores jogadores
de Xadrez da história. Os motivos disso não estão claros, mas na época circularam boatos sobre a possibilidade de Kasparov ter sido
subornado pela IBM para entregar o jogo. Os boatos sobre suborno são especulações, mas o fato concreto é que a qualidade média de jogo de
Kasparov naquelas 6 partidas foi quase 200 pontos de rating abaixo de eventos anteriores e posteriores dos quais ele participou. Isso não tem
relação com o funcionamento do Deep Blue II, mas como o enunciado dessa lista é sobre os motivos pelos quais Kasparov perdeu, esse é um
item que precisa ser mencionado.

5.       Ajustando a evolução da força de jogo em função do tempo de Deep Tought, Deep Blue e Deep Blue II, há um salto anormal na qualidade
de jogo de Deep Blue II, que também levantou algumas suspeitas de que Deep Blue II poderia ter recebido auxílio externo de GMs humanos.
Novamente a hipótese de auxílio externo é especulativa, mas o fato concreto é que houve um salto anormal na força de jogo de Deep Blue II
em comparação à curva de evolução que vinha seguindo e em comparação à curva típica de evolução de outros programas de Xadrez.

Para os primeiros programas de Xadrez, o item 2 dessa lista foi mais importante que o 1. Ao longo do tempo, foram surgindo programas que
competiam nesse quesito, os considerados “rápidos e tolos” em contraste aos considerados “lentos e sábios”. Fritz, Junior, Icarus, etc. estavam
no grupo dos que eram classificados como “rápidos e tolos”, enquanto Hiarcs, M-Chess Pro, Rebel estavam no grupo dos “lentos e sábios”. Isso
porque quanto mais critérios fossem usados para analisar cada lance, mais consumiria processamento, restando menos processamento para
ser usado nos cálculos de variantes. Alguns desenvolvedores priorizavam calcular mais variantes, gastando menos processamento com os
critérios de análise, enquanto outros preferiam que o programa utilizasse mais critérios e mais sofisticados, embora isso implicasse menor
velocidade de cálculo. Nos anos 1980 e 1990 essa disputa esteve bastante apertada, algumas vezes os programas rápidos passavam à frente,
outras vezes os sábios passavam à frente. Até que, em 2005, surgiu Rybka, um programa muito lento e muito sábio, que ultrapassou com folga
todos os outros e se manteve no topo durante alguns anos, mas foi sendo gradualmente superada por Stockfish e Houdini, que priorizam a
velocidade de cálculo. Nesse nível de jogo já não se pode falar em programas “tolos”. Todos são sábios e rápidos, mas alguns são mais sábios,
enquanto outros são mais rápidos. Depois de algum tempo, surgiu Komodo, priorizando a sabedoria, e novamente disputando, com Stockfish a
primeira posição, mas aos poucos Stockfish acabou emergindo como o melhor. Em 2018, surgiu Lc0, inspirada em Alpha-0, que é muito mais
lenta e muito mais sábia. O nível de “compreensão” estratégica de Lc0 é praticamente alienígena, muito acima de qualquer humano, embora
ela cometa mais erros de cálculo que alguns humanos, o que é surpreendente. Desde o final dos anos 1990 que os programas haviam
superado de longe a capacidade de cálculo dos humanos, mas Lc0 alcançou uma condição completamente incomum, em que é capaz de tomar
decisões estratégicas usando critérios muito além da compreensão de qualquer humano, mas também está sujeita a cometer erros de cálculo
mais elementares que os erros cometidos por humanos. No conjunto, Lc0 mostrou-se com nível de jogo similar ao de Stockfish, embora
completamente diferente nos fundamentos, no estilo, na essência.

Atualmente, portanto, a heurística para podar a árvore de análises e a “compreensão” estratégica continuam sendo os principais diferenciais.
Em nenhum momento os bancos de dados foram relevantes para a força dos programas de Xadrez. Isso se aplica inclusive à era pré-
computador. Em 1912, quando o engenheiro espanhol Leonardo Torres y Quevedo desenvolveu um sistema autônomo que conseguia dar
mate com Rei e Torre contra Rei (Fazia “apenas” isso, mas não jogava a partir da posição inicial), o sistema de Quevedo utilizava um algoritmo
que lhe permitia tomar decisões adequadas para “empurrar” o Rei adversário para o canto e dar mate, mas não consultava nenhum banco de
dados de finais para isso. Tinha critérios geométricos para ir estreitando a área disponível ao Rei inimigo, até deixá-lo sem saída. Portanto são
incorretas as afirmações de que Deep Blue II ou qualquer outro programa de Xadrez deriva a maior parte de sua força do acesso a um
gigantesco banco de dados de jogos de referência. A maior parte da força desses programas vem do conhecimento estratégico que auxilia na
tomada de decisões, da heurística para podar ramificações menos promissoras na árvore de análises e do poder de processamento. Voltar

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 25/26
21/12/2022 09:38 GPT 3.5

HOME APRESENTAÇÃO ARTIGOS AUTOR FAQ SERVIÇOS E PRODUTOS NEWS CONTATO


 

APENDICE 2:
Um dos pontos importantes a considerar é que o WAIS é um teste cronometrado, enquanto o STE é um teste sem limite de tempo. Ambos
foram aplicados ao GPT sem limite de tempo, pelos seguintes motivos: o GPT resolve os problemas numa fração de segundo, que é a parte na
qual os humanos demoram. O ponto no qual o GPT pode falhar é a interpretação do texto, e isso não requer mais tempo de análise. Se ele for
deixado analisando por 3 dias ou 3 segundos, a interpretação dele é a mesma. Outro detalhe é que o tempo que o GPT demora para descrever
a resposta se deve à maneira como foi programado, para “fingir” que está digitando um caractere de cada vez, mas ele obviamente já chegou à
resposta antes de começar a escrever. Além disso, ao mesmo tempo que ele estava respondendo ao teste, ele estava tendo milhares ou
milhões de outras conversas com outros usuários, por isso a demora em responder se deve à congestionamento sem relação com o “nível
intelectual” do GPT. Por esses motivos, as respostas do GPT foram consideradas “instantâneas” no WAIS, quando a pontuação é diferente para
respostas mais rápidas.

https://www.saturnov.org/news-p/gpt-3.5?utm_campaign=20a07b7a-f508-439d-b63d-c76e500d42bc&utm_source=so&utm_medium=mail&cid=… 26/26

Você também pode gostar