Escolar Documentos
Profissional Documentos
Cultura Documentos
5
Testes A/B
Mini Currículo:
Engenheiro de Controle e Automação e Gerente de
Produtos
Life Achievements:
Participei da criação de ferramentas de teste A/B do zero,
conhecendo em detalhes os desafios de implementação
5. 6.
2. 3. 4.
1. Boas práticas Outras
Implementação Desenho de Análise de
Introdução e erros técnicas legais
e operação Experimentos Resultados
comuns :)
POR QUE TESTAR!?
“
70% dos testes feitos não atingem os resultados para
os quais foram planejados
Var vs Con = 0%
Como podemos permitir?
ESCALA
VELOCIDADE
QUALIDADE
1.1 - CINTO DE UTILIDADES
Multi-armed
Gravação de Bandit
Interleaving
Online
interações
ta
er
l
uç Scrollmaps
co
Séries
ã Surveys / Polls
es
o Temporais
D
o
A
çã
Testes de
va
Offline Cross-validation
u
Surveys Usabilidade
l
tr
ia
ns
çã
Co
o
Simulação
Avaliações
Heurísticas
Qualitativo Quantitativo
1.2 - O QUE É UM TESTE A/B
Split Homogêneo
representativo
1.3 - O QUE NÃO É UM TESTE A/B
Split Heterogêneo
Por exemplo:
Por estado
SP vs. RJ
Perfil Usuário
Novos vs. Recorrentes
Plataforma
Android vs. iOS
1.4 - QUANDO FAZER UM TESTE A/B?
5. 6.
2. 3. 4.
1. Boas práticas Outras
Implementação Desenho de Análise de
Introdução e erros técnicas legais
e operação Experimentos Resultados
comuns :)
2.1 - PARTES DE UMA FERRAMENTA DE TESTE
CONFIGURAÇÃO
SEGMENTAÇÃO
STICKINESS
TRACKING
PROCESSAMENTO
VISUALIZAÇÃO
2.2 - CONFIGURAÇÕES DE TESTE
Processo de atribuir um
grupo a um usuário de teste
Identificadores de usuário:
Cookie ID
Device ID
Device Fingerprint
Unidade do split:
Usuário
Sessão
2.4 - STICKINESS
Estruturas de persistencia:
Cookie: efêmero (especialmente em plataformas mobile)
Memória do aplicativo
Offline Memory no PWA
Cache
Pode misturar apresentações de variantes
dependendo da verificação de split
2.5 - TRACKING
Informação completa
Garantia de que o necessário está sendo
coletado
Dimensões
Garantia de que informações adicionais
para gerar segmentações estão sendo
coletadas
Camada de acompanhamento e
interpretação dos resultados do
teste
Apresentação da estatística
Desafio de comunicar para
usuários com baixo conhecimento
específico
Evitar o picking
Como mostrar a evolução do teste
mas evitar conclusões
antecipadas?
AGENDA DESTE TÓPICO
5. 6.
2. 3. 4.
1. Boas práticas Outras
Implementação Desenho de Análise de
Introdução e erros técnicas legais
e operação Experimentos Resultados
comuns :)
RECAP: TIPOS DE ERROS ESTATÍSTICOS
Erro tipo I: Falso positivo. NÃO existe diferença e o resultado diz que existe!
Erro tipo II: Falso negativo. Existe diferença e o resultado diz que NÃO existe!
Realidade
SIM NÃO
Itere se necessário!
3.1 - DESCREVA AS HIPÓTESES
Específica: Rica em
detalhes
Simples: Poucas
mudanças de cada vez
3.2 - DEFINA A SEGMENTAÇÃO DE TESTE
Exemplo
Teste de um novo algoritmo de ordenação de busca
Segmentação de teste:
Novos usuários!
Opção I: Segmentar
apenas os usuários
novos
Sensibilidade
KPIs do Métricas do
Guardrail
Negócio teste
Principais KPIs da
empresa. Métricas restritivas
Métricas desenhadas
Normalmente o final globais.
para o teste
dos principais funis Normalmente bem
específico (sessão
ou outros KPIs que alto nível.
anterior).
mostram a saúde
global do produto. Ex.: Tempo de
Ex.: CTR da busca
resposta
Ex. Receita
3.4 - DEFINA AS MÉTRICAS DO TESTE
Tipo de métrica
Exemplo
Teste: otimização de formulário
Poder do teste
1- Regra de bolso: 80%
3.6 - CALCULE O TAMANHO MÍNIMO DA AMOSTRA
Para cada métrica crítica do teste*:
1. Defina o baseline: valor da métrica antes na versão de controle
2. Para métricas contínuas, determine também a variabilidade
3. Defina a mínima diferença detectável (sensibilidade): menor
incremento/decremento possível de ser identificado
4. Aplique as definições na calculadora de amostra (Booking power calculator)
Hipótese - Problema Segmentação Objetivo (Amostragem) Booking - Power Calculator Test Card
Rigorosidade da Análise
Métricas Objetivo (Critério de sucesso)
Nível Significância (alfa)
-
Mínimo Detectável
Tamanho da Amostra
Dias de teste
3.8 - CASE OLX
Controle Variante
Hipótese - Problema Test Card
Rigorosidade da Análise
Durante o processo de tomada de Segmentação Objetivo Busca
decisão sobre qual item é relevante Nível Significância (alfa) 5%
para a compra, as fotos desempenham Métricas Objetivo
um papel de grande importância. No
Poder Teste (1 - beta) 80%
nosso resultado de busca atual, o O1. % de usuários que fazem um
tamanho da foto não deixa o usuário contato
observar detalhes e Mínimo Detectável 1.5%
consequentemente leva o indivíduo a
ter que tomar uma ação de visitar a
página de detalhe do anúncio para Referência
conseguir avaliar a foto em questão.
Métricas Descritivas Usuários Semanais 3M
Segmentação
D1. Cliques na busca por usuário
Hipótese - Solução (5W2H) Baseline Métrica objetivo 4.15%
D2. Tempo médio de sessão por (O2)
Mudando o formato de apresentação usuário
dos resultados, aumentando o Usuários -> objetivo 125k
tamanho da primeira foto, o usuário vai D3. Buscas por usuário
conseguir ver detalhes e antecipar sua
Operação do Teste
tomada de decisão, evitando ações
extras de inspeção de detalhes de
Split de Teste (%) 50%
anúncios e navegando mais. Métricas Restritivas
Consequentemente espera-se que ele
encontre, no mesmo tempo, mais R1. [Pub] Scroll-views de Listing por Tamanho da Amostra 3.25M
anúncios relevantes e faça mais usuário
contatos.
Dias de teste 15
Referência
5. 6.
2. 3. 4.
1. Boas práticas Outras
Implementação Desenho de Análise de
Introdução e erros técnicas legais
e operação Experimentos Resultados
comuns :)
RECAP: Intervalo de confiança
RECAP: Intervalo de confiança
Mean Mean
Probability Probability
Mais dados
Value Value
RECAP: Diferença significativa
Value Value
Itere!
4.4 - Exemplo de um resultado
AVG
Probabilidade
Operação do Teste
Status Ended
Amostra coletada 5M
Value
Dias de execução 15
UB = UpperBound
LB = Lowerbound
AGENDA DESTE TÓPICO
5. 6.
2. 3. 4.
1. Boas práticas Outras
Implementação Desenho de Análise de
Introdução e erros técnicas legais
e operação Experimentos Resultados
comuns :)
5.1 - Faça testes A/A e A/B simultâneos
Te ajuda a ver os resultados estatísticos ao mesmo tempo que serve como sanity check
Diferença
A1 vs. B -3.1%
0.328 0.431 0.534
B
5.2 - Normalize suas variáveis pelo critério de split
Do contrário você pode incorrer em viés no momento da conclusão
Conversões / Sessão:
B vs. A = +2.00%
A (50%) B (50%)
1000 Usuários = 1000 Usuários
3000 Sessões
> 2850 Sessões
Conversões / Usuários
900 Conversões > 872 Conversões
A = 900 / 1000 = 0.90
B = 872 / 1000 = 0.87
B vs. A = -3.10%
5.3 - Caracterize suas variáveis mais usadas
E use técnicas adequadas para evitar enviesamento de resultados
Tópico avançado!
5. 6.
2. 3. 4.
1. Boas práticas Outras
Implementação Desenho de Análise de
Introdução e erros técnicas legais
e operação Experimentos Resultados
comuns :)
6.1 - INTERLEAVING
Técnica para explorar mais rápido um universo muito grande de possibilidades!
Exploração: adquirir
conhecimento
Exploitação: usar o
conhecimento adquirido
Desafios:
Estatística mais avançada
Tunagem para convergência
Restrições fortes de tempo-real
RESUMO
Preste atenção nas
Teste A/B não é algo trivial
suas hipóteses
Link Link 2
Link
@thiagobelluf
MUITO
OBRIGADO!